北大ppt 文本挖掘技术系列之二---TextMining03-检索part1

北大ppt 文本挖掘技术系列之二---TextMining03-检索part1

 

文本检索技术摘要

信息检索模型

内容模型

Boolean

集合论(Fuzzy, extends boolean

 

Vector

代数论(VSM, GVSM,LSI, Neural networks

 

Probabilistic

概率论(推理网络,置信网,语言模型,查询扩展)

 

结构模型

 

 

 

浏览模型

 

 

 

检索质量评价

查全率

 

 

 

 

查准率

 

 

 

 

F-measure

 

 

 

 

其他评价(前10结果等)

 

 

 

全文检索的索引技术

倒排(哈希,B-tree…

 

 

 

 

倒排索引创建(两趟算法)

 

 

 

潜在语义索引(LSI

 

 

原理

 

 

 

SVD

 

 

 

适用环境(静态,动态)

 

 

 

SVD分解降维

 

 

 

SVD变换空间(相似度等)

 

 

 

实例

 

 

 

  http://www.blogjava.net/Files/fullfocus/TextMining03.pdf

该文对LSI的分析十分到位,还有详细的实例。

对索引的创建,很多思想可以借鉴:1. 大数据时,分批排序,再多路合并 2. 分块写入内存。 3.编码压缩(HUFFMAN等)



你可能感兴趣的:(北大ppt 文本挖掘技术系列之二---TextMining03-检索part1)