Lucene创建索引及搜索

本文介绍Lucene如何创建文件和内存形式的索引,并演示了如何通过索引进行文档的添加与查询过程。文中详细解释了关键类的作用,如Directory、IndexWriterConfig、IndexWriter等,并提供了具体的代码示例。

Lucene创建索引及搜索

Lucene的索引数据可以为文件或者内存的形式建立,内存形式的可以同步到文件形式,索引中主要存放了文档字段或者字段分词得到的拆分词,每个词后存放了文档索引号及出现次数,文档字段是否需要存储分词则直接在 filed创建时指定.


关键类

org.apache.lucene.store.Directory

lucene所有操作文件都基于这个接口,可以提供不同形式的实现,可能是拓展分布式用的到

org.apache.lucene.index.IndexWriterConfig

配置writer的版本及分词

org.apache.lucene.index.IndexWriter

通过 directory 和 config 对象, 生成一个可以写文档的工具

org.apache.lucene.document.Document

writer写入级reader独处的核心数据,包含元素主要为字段
org.apache.lucene.document.Field.Field
4.3或者更早就被禁用掉了,配置是否对字段值 存储 索引 分词, 字段名 及字段值皆为字符串
字段值支持 IO 读取流, 该种情况下缺省不存储, 要自定义的话可以使用 COMMONIO 将流缓存为String

往索引中添加docment

		IndexWriter indexWriter = null;

		try {
			Directory directory = FSDirectory.open(new File(
					"E:/lucene43/index01"));

			IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_43,
					new StandardAnalyzer(Version.LUCENE_43));
			indexWriter = new IndexWriter(directory, config);

			File fileDir = new File("E:/lucene43/txt");
			for (File file : fileDir.listFiles()) {
				Document document = new Document();

				document.add(new Field("content", new FileReader(file)));
				document.add(new Field("fileName", file.getName(),
						Field.Store.YES, Field.Index.NOT_ANALYZED));
				document.add(new Field("filePath", file.getAbsolutePath(),
						Field.Store.YES, Field.Index.NOT_ANALYZED));

				indexWriter.addDocument(document);
			}

		} 


往索引中查询document

查询是基于seracher的, 该对象通过 term构造出来的query查询出一个 文档<配>积分 的数组, 元素中文档索引可以在searcher中的 doc方法中得到完整的docment
seracher本身通过reader构造, reader则通过 IndexReader.open(directory);静态方法操作 Directory得到

			Directory directory = FSDirectory.open(new File(
					"E:/lucene43/index01"));

			IndexReader reader = IndexReader.open(directory);

			IndexSearcher searcher = new IndexSearcher(reader);

			TermQuery query = new TermQuery(new Term("content", "java"));

			TopDocs docs = searcher.search(query, 2);

			for (ScoreDoc scoreDoc : docs.scoreDocs) {

				Document document = searcher.doc(scoreDoc.doc);
				System.out.println(document.get("fileName"));
				System.out.println(document.get("content"));
			}



打开链接下载源码: https://pan.quark.cn/s/331a85e1b463 在数字化时代背景下,软件授权与保护显得极为关键,微狗(MicroDog)作为一款硬件加密狗,其主要功能是保障软件的合法使用,避免盗版和未经授权的访问。为了达成这一目的,微狗驱动发挥着不可或缺的作用。驱动程序充当硬件与操作系统之间的沟通纽带,确保两者能够和谐协作。现阶段,64位微狗驱动(UMI64位)已经兼容Windows 11、Windows 10以及Windows 7操作系统,为不同的系统环境提供坚实可靠的支持。 随着Windows操作系统的持续升级,对驱动程序的兼容性需求也在逐步提高。微狗驱动UMI64位版本正是为了应对兼容性问题而研发的。它不仅适配最新版的Windows 11,同时也与过去几年中普遍应用的Windows 10和Windows 7保持兼容。如此全面的系统支持,使得微狗加密狗能够在多种环境中稳定运作,确保软件授权管理不受操作系统版本的限制。 在这个驱动中,特别强调了支持UMI V4.1版本。UMI可能代表Unique Machine Identifier,即用于标识特定硬件设备的唯一序列号。提及UMI V4.1表明该驱动能够精准识别并支援微狗加密狗的此特定型号。同时,这也暗示驱动可能与其他版本的微狗硬件兼容,这意味着用户可以在不同版本的微狗加密狗之间切换而不必频繁更换驱动程序。 UMI64位标签凸显了驱动程序的核心特征,即它专为64位系统进行优化。相较于32位系统,64位系统在处理海量数据、运行大型应用时展现出显著优势,例如能够支持更大的内存地址空间。随着软件复杂性的提升,对硬件资源的需求持续增长,因此64位系统能够提供更优越的性能和稳定性。UMI系列硬件与...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值