讲稿3索引模型向量模型_向量空间模型的检索

其他范文 时间:2020-02-29 06:52:53 收藏本文下载本文
【www.daodoc.com - 其他范文】

讲稿3索引模型向量模型由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“向量空间模型的检索”。

1、向量模型

若用X(a,b)确定二维平面上点X的位置,用X(a,b,c)表示三维空间中点X的位置,同理,如果D为t维文献空间,则可以用Di=(di1,di2,..., dit)表示,其中,Di可以看成是文献空间D的第i维向量,dij为文献Di的第j个标引词的权值。

(1)文献向量的相关性

有了文献空间,每一篇文献在其中都有一个确定的位置,文献的空间位置就为我们计算它们之间的相关程度提供了途径。从文献空间上看,两篇文献相关就是指代表这两篇文献的向量靠得很近,具体讲就是这两个向量的夹角很小。根据向量代数中数量积计算公式有:

ab|a||b|cos

其中,|a|,|b|分别为向量a和b的模,=(a,b)为向量a和b的夹角,cosab

|a||b|又设向量a和b的坐标分别为a={a1,a2,...,at}和b={b1,b2,...,bt},则:

costi1ti1aibiai2ti1ib2

由余弦函数的性质可知,在[0,90]上,其余弦值随其角度变小而增大。这一现象正好反映了文献空间中某两篇文献的相关程度的大小,即余弦值小,夹角大,则相关度低;反之,则相关度高。若余弦值为1,则夹角为零,则两篇文献完全重合,即相等。因此,可将两文献之间的相关度S(Di,Dj)定义为其夹角的余弦值,即S(Di,Dj)=cos,其中,=为文献Di,Dj之间的夹角。由于文献Di是由相应的标引词的权值来表示的,即Di=(di1,di2,...,dit),故文献之间相关度为:

S(Di,DJ)ttk12dikdjk

2dk1iktdk1jk可以设想,在一个理想的文献空间中,满足用户情报需求的文献应是紧紧地聚集在一起。但如果对一个给定文献集合的全部检索历史不了解,则很难产生出这种理想空间。因此,为了达到理想的检索效果,应将文献空间中的点尽可能地分开,即对式(7-1)求最小值。

Fi1j1S(Di,Dj)(ij)(7-1)nn

式(7-1)的最小值表明空间中文献之间的相关性将变得很小,当某篇文献与某个提问相关时,只有这篇文献被检索出来,从而保证了较高的查准率。

但这会产生两个方面的问题:

第一,这种将点分开的方式是否基于这样一个事实,即分离文献空间中的点将导致高检索效率;反之,高检索效率必将使得文献空间中的点彼此分开。

第二,式(7-1)的计算量较大,对具有n篇文献的集合而言,共需计算n2n次。

由于上述原因,我们考虑使用聚类文献空间。在该空间中,文献按类集中在一起,每个类由一个类的矩心C(Centroid)来表示。

给定一个m篇文献的集合构成的文献类P,其矩心Cp定义如下:

Cp(Cdp1,Cdp2,...,Cdpt)其中,Cdpk

同理可求出整个文献的矩心C*。

在未聚类文献空间中,其空间密度为所有文献对相关度的总和,即式(7-1)的计算结果。而聚类文献的空间密度由式(7-2)给出:

Qi1S(C*,Di)(7-2)n1mdik(k=1,2,...,t)mi1其中,C*为整个文献集合矩心,S(C*,Di)为文献Di与矩心C*的相关度。显然,式(7-2)只需计算n次。

(2)空间密度与标引性能的关系

一个理想的文献空间应是同类中文献的相关度x要大,不同类之间的相关度y要小。所以y/x可用来作为测量文献空间密度的标准,y/x值大,则空间密度高,反之则空间密度低。文献空间密度与标引性能之间存在着密切联系,二者存在互逆性。标引性能与空间密度的这种密切关系构成了向量空间自动标引的理论基础。

讲稿3索引模型概率模型

3概率模型中的查询扩展实例Q: “gold silver truck”D1: “Shipment of gold damaged in a fire”D2: “Delivery of silver arrived in a silver truck” D3: “Shipment o......

帆船模型讲稿

帆船模型讲座帆船按照船体的数目来划分:有单体帆船;双体帆船;多体帆船等。帆船按照桅杆的数目来划分:有单桅帆船;多桅帆船等。 帆船按照帆的形状来划分:有矩形帆;三角形帆;球型帆等......

模型制作讲稿

安徽商贸安徽商贸职业技术学院教师所属系(部):艺术设计系授课老师:黄佳佳《模型制作》理论部分讲稿课程总学时:20周(40学时) 授课老师:黄佳佳授课班级:视觉传达设计11(1)、11(2)、艺术设......

logistic回归模型讲稿

Logistic回归分析模型2016-10-241各位老师,同学们大家上午好:非常感谢大家抽出宝贵的时间来参加沙龙,感谢我的导师对沙龙内容及PPT制作过程中的悉心指导,今天和大家一起分享的是......

波特五力模型讲稿

波特五力模型在邮政营销战略中的实际应用1、课程导入:上次课我们给大家介绍了企业的宏观营销环境,它们包括政治、法律、经济、人口、文化、技术等要素。在这次课中我们将为大......

下载讲稿3索引模型向量模型word格式文档
下载讲稿3索引模型向量模型.doc
将本文档下载到自己电脑,方便修改和收藏。
点此处下载文档

文档为doc格式

热门文章
点击下载本文