孙玄:毕业于浙江大学,现任转转公司首席架构师,技术委员会主席,大中后台技术负责人(交易平台、基础服务、智能客服、基础架构、智能运维、数据库、安全、IT
等方向);前58集团技术委员会主席,高级系统架构师;前百度资深研发工程师;
【架构之美】微信公众号作者 ;擅长系统架构设计,大数据,运维、机器学习等技术领域;代表公司多次在业界顶级技术大会 CIO
峰会、Artificial、Intelligence、Conference、A2M、QCon、ArchSummit、SACC、SDCC、CCTC、DTCC、Top100、Strata
+、Hadoop World、WOT、GITC、GIAC、TID等发表演讲,并为《程序员》杂志撰稿 2 篇。
在数据分析和挖掘领域,我们经常需要知道个体间差异大小,从而计算个体相似性。如今互联网内容爆发时代,针对海量文本的相似识别拥有极大需求。本文将通过识别两段文本是否相似,来看看常见的相似算法,及线上落地方案。
一般情况下,我们会将数据进行向量化,将问题抽象为数学问题。比如两个样本X、Y,X=(x1, x2, x3, … xn),Y=(y1, y2, y3, … yn)表示N维向量空间的两个样本,分析差异主要有距离度量和相似度度量。
文本向量化有很多方法,切词、ngram 是最常用方法。一般的,分词加预处理能更好的表达语义,我们通过预处理,过滤掉无效字符及停用词。
对 “组装衣柜,刚买不久” 和 “组装鞋柜,全新” 向量化 。
分词:
X=(组装、衣柜、刚、买不、久)
Y=(组装、鞋柜、全新)
定义一个向量空间(组装、衣柜、鞋柜、刚、买不、久、全新)
向量结果:X=(1,1,0,1,1,1)
Y=(1,0,1,0,0,0,1)
距离(Distance)用于衡量样本在空间上的距离,距离越大,差异越大。
欧氏距离是最容易直观理解的距离度量方法,我们认知中两个点在空间中的距离就是欧氏距离。扩展到高维空间中,欧式距离的计算公式,如图 1:
欧式距离因为计算是基于各维度特征的绝对数值,所以欧氏度量需要保证各维度指标在相同的刻度级别,当不同维度单位不同将使距离失去意义。
相似度度量(Similarity),即计算个体间的相似程度,与距离度量相反,相似度度量的值越小,说明个体间相似度越小,差异越大。
余弦相似度用向量空间中两个向量夹角余弦值作为衡量两个个体间差异的大小。余弦相似度更加注重两个向量在方向上的差异,而非距离或长度。公式如图 2:
通过三维坐标系可以很直观的看到两者的区别,如图 3 所示:
欧氏距离和余弦相似度各自的计算方式和衡量特征,分别适用于不同的数据分析模型:欧式距离适应于需要从维度大小中体现差异的场景,余弦相似度更多的是方向上的差异。如果我们分词后,将每个词赋予一定的权重,那么可以使用欧氏距离。更多情况下,我们采用余弦相似度来计算两文本之间相似度。
上面的相似算法,适用于小量样本,两两计算。那么在大规模样本下,给定新的样本怎么找到相似的样本呢?
下面我们将引入 SimHash 算法。
SimHash 是 Google 在 2007 年发表的一种指纹生成算法或者叫指纹提取算法(如图 4),其主要思想是降维。
对文档分词及对应的权重;
对特征进行hash,生成对应的hash值;
hash值加权:对特征hash值的每一位做循环处理:如果该位值为1,则用weight代替,否则,用-weight代替;
求和:将特征hash加权后的结果,按位求和,然后将结果按位二值化:大于0则为1,否则为0,即得到最后的SimHash值。
大家可能存在疑问:生成一串二进制需要这么麻烦吗?直接用hash函数生成0和1的不是更简单。比如:md5 和 hashcode 等。
我们做个测试:
“组装衣柜,刚买不久,上面可以放很多箱子,搬新家急需处理” “组装衣柜,刚买不久,上面可以放很多箱子,搬新家急需卖掉”
通过 simhash 计算结果为:
0010001000100001000010110111010001000111000011100110110110001111
0010001000100001000010110111011001000111000011110110111110001111
通过 hashcode 计算为:
1110100100010111000110011101100011101001000101110001100111011000
0011100111001100100001001011000100111001110011001000010010110001
可以看得出来,相似两个文本,simhash局部变化而普通的hashcode却天壤之别。文本转换为SimHash后,我们通过海明距离(Hamming distance)计算两个SimHash是否相似。
可以看得出来,相似两个文本,simhash 局部变化而普通的 hashcode 却天壤之别。文本转换为 SimHash 后,我们通过海明距离(Hamming distance)计算两个SimHash 是否相似。
如果向量空间中的元素 a 和 b 之间的汉明距离等于它们汉明重量的差 a-b。 汉明重量分析在包括信息论、编码理论、密码学等领域都有应用。
Google的论文给出的数据中,64位的签名,在汉明距离为3的情况下, 可认为两篇文档是相似。
给定场景:给出一个 64 位的 SimHash 集合 F 和一个 SimHash f,找出 F 中是否存在与 f 只有 3 位差异的 SimHash。
为了查询相似,我们依然需要两两比较。但汉明距离算法给了我们降维的捷径。
可以证明,汉明距离小于3情况下,将hash code等分为4份,则必有一份完全相同。
基于上述特点,我们设计一个MySQL存储索引方案来实现,如图5所示。
将simhash等分4份,每份16位,为subCode
将sub_code存储到mysql
对于新SimHash,等分4份subCode,通过subCode查询集合
遍历结果,计算最终汉明距离
优点:
速度快,效率高。通过分割鸽笼的方式能将相似的数据快速定位在某个区域内,减少 99% 数据的相似对比。
通过大量测试,SimHash 用于比较大文本,效果很好,距离小于 3 的基本都是相似,误判率也比较低。
缺点:
对短文本召回效果不太好。
在测试短文本的时候看起来相似的一些文本海明距离达到了 10,导致较多的漏召回。