布尔模型,向量空间模型

文档表示:词袋方法Bag-of-Words Approach
• 在 IR 中表示文档(和查询)的传统方法:
记录出现的单词(术语; 通常,加上每个文档中的术语计数
• 忽略单词之间的关系,即秩序,接近等。
例如 rabbit eating = eating rabbit
这种被称为词袋的表示方法
参考文献 数学结构“bag”(又名“multiset”)— 像一个集合(即无序),但记录每个元素的计数

文档查询匹配的方法
• 布尔检索Boolean retrieval:
查询和文档之间的匹配二元决策:是文档是否与查询相关?
文档中存在搜索词是匹配的必要且充分的
• 排名检索Ranked retrieval:
查询和文档之间的匹配程度问题
考虑的文档术语的频率
并非所有搜索词都必须出现在文档中
化身Incarnations:
• 向量空间模型(SMART,Salton 等人,1971)
• 概率模型(OKAPI,Robertson/Sp¨arck Jones,1976)
• 网络搜索引擎

布尔模型
• 方法:构建复杂的搜索命令,通过结合基本搜索词(关键字,使用布尔运算符
• 注意:这不是方法被称为布尔值的原因
• 布尔运算符:
AND、OR、NOT、BUT、XOR(异或)
• 布尔查询提供了一个简单的逻辑基础来决定是否有任何应根据以下情况退回文件:查询的基本术语是否出现在文档中; 逻辑运算符的含义

布尔模型:集合论解释 set-theoretic interpretation
• 布尔运算符具有有效的集合论解释恢复
• 整体文档集合形成最大文档集
• 令 d(E) 表示表达式 E 的文档集: E 基本项或布尔表达式
and -> intersection
or -> union
not -> complement
but -> difference

布尔模型:总结
• 文档匹配或不匹配创建高精度查询所需的专业知识 → OK for专家用户; 经常被书目搜索引擎(图书馆)使用
• 对大多数用户不利:
大多数用户不熟悉编写布尔查询 → 不自然
大多数用户不想浏览 1000 多个未排名的结果 →除非在小集合中进行非常具体的搜索
对于网络搜索尤其如此 → 非常大的文档集

向量空间模型The Vector Space model
• 文档也表示为“词袋”:
“约翰比玛丽快”=“玛丽比约翰快”
• 文档是高维向量空间中的点
索引中的每一项都是一个维度 → 稀疏向量
值是文档中术语的频率,或频率的变体
• 查询也表示为向量(对于索引中存在的术语)
• 方法
选择文档-查询相似度最高的文档
文档-查询相似度是相关性(排名)的基础
随着排名,返回文档的数量不太相关 →用户从排名顶部开始,满意时停止

方法:
• 将文档集合视为文档术语矩阵。
• 每行都是一个文档向量。
• 比较查询向量与每个文档的向量,根据与查询的相似性对文档进行排名
余弦值范围为:
1,对于指向相同方向的向量
0,对于正交向量
-1,用于指向相反方向的向量

概括
• 出于检索目的,文档通常被视为词袋
• 两个著名的检索模型是:
布尔模型
• 集合中的每个文档要么与给定查询相关,要么不相关与该查询相关
• 使用布尔运算符(AND、OR、NOT)制定查询术语之间
向量空间模型
• 集合中的每个文档都与查询有一定程度的相关性
• 文档和查询都表示为术语的向量发生在他们身上
• 相似度计算为文档之间角度的余弦和查询向量

你可能感兴趣的:(语音和文本处理(Python))