【文本相似度计算】总结篇

先留位

 

文本相似度概念:

Sim(A,B)=logP(common(A,B))/logP(description(A,B)) 

其中, common(A,B)是A和B的共性信息, description(A,B)是描述A和B的全部信息, 公式表达出相似度与文本共性成正相关。

文本相似度计算方法分类如下:

【文本相似度计算】总结篇_第1张图片

基于字符串的计算方法:

该方法从字符串匹配度出发, 以字符串共现和重复程度为相似度的衡量标准。根据计算粒度不同, 可将方法分为基于字符(Character-Based)的方法和基于词语(Term-Based)的方法。一类方法单纯从字符或词语的组成考虑相似度算法, 如编辑距离、汉明距离、余弦相似度、Dice系数、欧式距离; 另一类方法还加入了字符顺序, 即字符组成和字符顺序相同是字符串相似的必要条件, 如最长公共子串(Longest Common Substring, LCS)、Jaro-Winkler; 再一类方法采用集合思想, 将字符串看作由词语构成的集合, 词语共现可用集合的交集计算, 如N-gram、Jaccard、Overlap Coefficient。表1列出了主要方法, 其中SA、SB表示字符串A、B。

【文本相似度计算】总结篇_第2张图片

 

你可能感兴趣的:(自然语言处理,推荐系统,大数据,自然语言处理,数据挖掘,深度学习)