信息检索概率模型

基本的概率模型(简单概率模型): 

将文档分为两个部分:第一个是和查询语句相关的,第二个和查询非相关的

与查询语句相关的P(D|R) document related 

与查询语句不相关的P(D|NR) document unrelated 


代码实现思想: 

如果 

P(D|R)/ P(D|NR)> 1 则提取文档

如果

P(D|R)/P(D|NR)<1 ,则不提取文档

其他则返回查询语句不存在在文档组合当中


二元独立概率模型:(BIM) 

Binary Independence Model 

假设:

(1) 单个词在文档是独立的,那就不是条件概率 

(2)假设是binary vectors,分为1和0,1是相关,0是非相关,vector 包括term incident vector(词语),如果x=0则是不相关(在文档),x=1就是相关(不在文档)

所以相关的概率为

P(R=1| x,q)= P(x|R=1,q) × P(R=1,q)/ P(x|q)  贝叶斯公式 原公式为 P(R=1| x,q)×P(x|q) = P(x|R=1,q) × P(R=1,q)

计算的概率为在相关文档中,document的term vector到底和查询相关性的概率有多大

P(R=0| x,q)= P(x|R=0,q) × P(R=0,q)/ P(x|q) 贝叶斯公式

计算的是在非相关文档中,document的term vector到底和查询语句的想关心有多大


按照第一个简单的概率模型计算

odds=P(D|R)/ P(D|NR)

Odd=P(R=1| x,q)/P(R=0| x,q)


第一步分可以转换为: 


 prior probability of retrieving a relevant or nonrelevant document for a query ~q

根据查询提取相关或者非相关的文档的概率;


第二部分可以转换为: 


probability that if a relevant or nonrelevant document is retrieved, then that document’s representation is ~x   

第二个公式表示,根据查询语句q,提取出相关的文档,x 在文档的概率;

所以公式可以进一步的整理为:







pt: x在相关文档且与查询相关的概率 , 1-pt就是在x没有在文档里但是与查询相关的概率

    

ut: x在不相关文档的概率,1-ut是在不在相关文档里也不和文档相关的概率 



所以公式简化为:







把最后两个公式相乘等于常数1,所以只剩下第一项  




你可能感兴趣的:(非理性思考,Hadoop-自学日记)