文本检索综述

最新推荐文章于 2026-03-13 01:40:48 发布

转载最新推荐文章于 2026-03-13 01:40:48 发布 · 8.7k 阅读

标签

#文档 #自然语言处理 #数据挖掘 #语言 #hyperlink

机器学习的研究专栏收录该内容

4 篇文章

订阅专栏

文本检索综述

1、信息检索方法
 1.1、基于文字的检索
1.2、基于结构的检索
1.3、基于用户信息的检索
 2、自然语言处理和文本检索
 2.1 词法分析
 2.2、句法分析技术
 2.3、语义分析
 3、数据挖掘和文本检索
3.1、聚类技术
 3.2、分类技术
 4、其他相关技术
4.1、XML技术
4.2、跨语言检索技术
 4.3、并行检索和分布式检索

1、信息检索方法

传统的文本检索是围绕相关度(Relevance)这个概念展开的。相关度指在信息检索中通常指用户的查询和文本内容的相似程度或者某种距离的远近程度。根据相关度的计算方法.可以把文本检索分成基于文字的检索、基于结构的检索和基于用户信息的检索。

1.1、基于文字的检索

基于文字的检索主要指根据文档的文字内容来计算查询和文档的相似度，查询和文档的表示及相似度计算统称为检索模型，学术界最经典的有以下几个检索模型：

1.1.1 布尔模型

用布尔表达式来表示用于的查询需求。

布尔模型主要有2个方面的缺点：1）因为只有0和1两种相关度，基本布尔模型并不能提供更细微的排名。当相关文档的结果数目较多时，这些文档之间因无法进行排序导致处理起来非常不方便。研究者们提出了各种各样的方法r如根据命中查询词在文档出现的次数和距离等等的。2）如何构造布尔表达式来表达用户的需求并不是一件容易的事情，而且布尔表达式匹配由于是一种精确全部匹配表达式构造不好可能会使结果过多或者过少

部分学者将布尔模型进行推广以支持模糊及部分匹配等等，推广的一个结果是Extended布尔模型以及p-norm模型，推广的另一个结果是向量空间模型。

1.1.2 向量空间模型

该模型中用户的查询和信息都表示成关键词及其权重构成的向量。然后通过计算向量之间的相似度便可以将与用户查询最相关的信息返回给用户。

向量空间模型中最重要的研究内容包括标引项的选择、权重的计算方法和相似度计算方法。

1）标引项的选择主要是寻找那些可以表征查询和文档内容的特征常用的是词，也可以是字、短语或者其他的语言单位。

2）权重的计算是向量空间模型的主要研究内容之一。最著名的当属于丁「ID「权重计算方法.即标引项在文档中的出现频率(Term Frequency，简称下日和标引项出现的文档次数的倒数(Inverse Document Frequency，简称IDF)的某种组合。

3）相似度计算通常采用向量内积或者夹角余弦方法。

1.1.3 概率模型

概率检索模型是通过概率的方法将查询和文档联系起来。

概率模型中最关键的问题是计算标引项在与查询相关及不相关文档中的概率。

最经典的概率检索模型是英国伦敦城市大学的Robertson和剑桥大学的Sparck Jones提出的二元独立概率模型(Binary Independence Retrieval.BIR)

最著名的概率检索原型系统是伦敦城市大学的OKAPI，在多次丁REC评测中它都有突出的表现。

1.1.4 统计语言检索模型

统计语言检索模型是通过语言的方法将查询和文档联系起来。

1.2、基于结构的检索

和基于文字的检索不同基于结构的检索要用到文档的结构信息。文档的结构包括内部结构和外部结构。所谓内部结构是指文档在除文字之外的格式、位置等构成的信息。这些信息可以为信息检索所用。所谓外部结构是指文档之间的基于某种关联构成的“关系网“.如可以根据文档之间的引用关系形成弓}用“关系网“。基于结构的检索通常不会单独使用而会和基于文字的检索联合使用。

基于外部结构的检索中最著名的有两个计算模型。这两个模型都是基于WEB网页之间的链接关系所以也成为“链接分析”技术。

1.2.1 PageRank

Google采用的检索方法，在网页中通过链接寻找类似于“引用”的关系。

1.2.2 HITS

HIT S (Hyperlink induced topic search)是Cornel大学的Kleinberg为IBM CLEVER系统开发的另一种链接分析算法。

1.3、基于用户信息的检索

利用用户本身及参与过程中体现的信息的检索称为基于用户信息的检索。

2、自然语言处理和文本检索

2.1 词法分析

词法分析后的带有词性标注的词语用于文本检索，这样就可以去掉其中很多虚词等非关键词。

对英语来说，最关键的词法分析是形态分析，而对于中文来说，第一步要做的是分词处理。

2.1.1 英文形态分析

英文的形态分析主要目标是将句子中的词从词形还原到词甚至词根。

2.1.2 中文分词处理

目前的中文分词方法可以总结为两大类:基于机械匹配的分词方法及基于概率统计的分词方法。前者通过对已有词典的机械匹配来得到分词结果。后者不需要任何词典就可以得到分词结果或者通过对粗切分结果进行基于概率统计的后处理来得到最终的分词结果

2.1.3 词性标注技术

词性标注的根本性原因在于词的兼类现象.即一个词可以有多个词性，但在相关的上下文中一个词通常只能表现出一个词性。词性标注的目的就是多里挑一。

2.2、句法分析技术

句法分析是将线性的词序列转变成某种句法结构(最常见的是短语结构树)的过程。方法利用编译中的构造语法结构树的方法。

目前，美国宾州大学已经建设了用于句法分析的中英文句法结构库(tree bank) 可供该领域的研究者实验和评价句法分析的成果。

2.3、语义分析

语义分析的主要目标有两个：一是确定每个语言单位在文中的某种语义类二是确定这些语言单位之间的语义关系。

语义分析需要语义词典的支持，目前著名的英文语义词典有:wordnet/framenet等。中文语义词典有:hownet、同义词词林等。

3、数据挖掘和文本检索

利用数据挖掘中的聚类和分类技术来完成文本检索。

3.1、聚类技术

对于聚类技术通常可以分成两类:层次型的聚类(Hierachical)和分割型(Partitional)的聚类。层次型聚类生成一个树型的聚类谱系图，根据需要可以在不同层次上选取类别个数。分割型聚类对原有数据集生成一个划分。层次型聚类方法又包括基于最短距离、基于最长距离、基于均值距离的方法。基于分割型的聚类有包括错误平方法(squared error).如k-mean。方法另外还包括基于图论的方法等等。