句子语义相似性探索

纯属个人理解,有什么问题,欢迎指正,一起谈论。

应用和困难:

求解句子(短文本)相似在现实场景中有很多的应用,如信息检索方面;新闻推荐方面,根据用户浏览的新闻标题,推荐相似标题的新闻,或者其它方面的推荐;智能客服,根据用户输入的问题,自动为用户寻找相似的问题或者答案等。但计算句子相似性面临很大的挑战,使用有监督方法,中文语料非常少。至于无监督方法,不能像word2vector那样,没有一个理想的方法去建模句向量。其次,不好定义similarity,到底是评估两句话表达一个meaning还是说的表达的topic一致。

方法探索

求句子相似性,一般将句子表示成句向量,然后用cos值或者欧式等距离来评估两个句子的相似性。所以主要核心问题还是怎样将一个句子表示成具有语义信息的句向量。基本上分两个大方面。

第一:直接学习句向量模型sentence modeling,由于有标签的语料很少,多数从无监督方法出发。实验过两篇论文方法,A Hierarchical NeuralAutoencoder for Paragraphs and Documents以及Skip-Thought Vectors。两篇papers基本思路都是通过一个LSTMencode对句子进行编码,得到句向量,然后用一个LSTM做为decode,对句子向量进行解码,不同在于softmax分类层,前一篇paper是解码自身的每个词

句子语义相似性探索_第1张图片

后一篇paper是解码该句子上下文中句子的每个词。

句子语义相似性探索_第2张图片

都是End-to-End的学习方式,中间表示结果为句子向量。计算句子相似性的效果不理想。觉得主要原因在于,两种方法通过在解码阶段对句子中的每个词进行还原,还是从句子中词的Label训练模型,另一个原因是,模型构造没有从计算句子相似性目的出发,不像词向量的学习,相同上下文对应的中心词在语义上是相似的,两种方法仅是通过解码自身的句子或者上下文句子,所以学到的词向量不具有很好的语义信息。

第二:从词word level出发,通过组合句子中的词向量来表达句子向量。但是中文一词多用,所以相同的词不同组合构成的句子可能完全是两个不同的意思,这也导致了直接从word level出发,难免会存在问题。但是词向量的学习具有语义信息,用句子的词向量表达句向量,虽然存在缺陷,但目前来看,相对稳定些。

最简单的方法是,对句子中的词向量相加求平均,作为句子的句向量。可以作为一个baseline方法。后面有不少paper都是针对这baseline做的改进,因为句子中的每个词在句子中重要性是有差异的。有通过计算词频的tf-idf权重,也有自学习权重。

论文一:Sentence similarityMeasures for Fine-Grained Estimation of Topical Relevance in Learner Essays论文通过学习的方式,去学习每个词的权重。认为句向量u与相邻的句向量v在语义上更加相似,与它较远的句向量z语义不相似,其中的句向量也是通过词向量的加权和求得,通过最小化代价函数max(uz-uv, 0),来优化每个词的权重。

论文二:A simple but tought-to-beat baseline for sentenceembeddings也是通过将句子中的词向量加权求和得到,其中每个词的权重为:weights = a / (a + p(w)),a是一个定值,p(w)是每个词在语料库中出现的概率值。得到句向量后,再pca

论文三:From word Embeddings to Document Distances最小化两个句子中词向量的全局距离之后,用emd来计算两个句子的相似性。

样本测试案例:

论文一自学习权重方法(auto) ,论文二sif权重+pca方法(sif_pca论文三emd方法(emd),平均词向量方法(aver)以及调用百度(baidu)求解句子相似性的测试效果

 

    如何学好深度学习

李彦宏是百度公司创始人

信号忽强忽弱

auto

深入学习习近平讲话材料      0.283

百度是李彦宏创办的      0.978

信号忽高忽低        0.864

机器学习教程       0.798

马化腾创办了腾讯公司     0.908

信号忽左忽右       0.746

人工智能教程      0.708

姚明是NBA的著名球星       0.207

信号忽然中断       0.321

sif-pca

深入学习习近平讲话材料           0.392

百度是李彦宏创办的           0.907

信号忽高忽低           0.948

机器学习教程      0.708

马化腾创办了腾讯公司     0.835

信号忽左忽右           0.902

人工智能教程      0.339

姚明是NBA的著名球星     0.198

信号忽然中断           0.385

emd

深入学习习近平讲话材料           0.394

百度是李彦宏创办的           0.891

信号忽高忽低           0.872

机器学习教程      0.702

马化腾创办了腾讯公司     0.843

信号忽左忽右           0.833

人工智能教程      0.278

姚明是NBA的著名球星     0.613

信号忽然中断           0.393

aver

深入学习习近平讲话材料           0.786

百度是李彦宏创办的           0.868

信号忽高忽低           0.870

机器学习教程     0.808

马化腾创办了腾讯公司     0.856

信号忽左忽右           0.823

人工智能教程      0.337

姚明是NBA的著名球星   0.707

信号忽然中断           0.716

baidu

深入学习习近平讲话材料           0.312

百度是李彦宏创办的           0.877

信号忽高忽低           0.949

机器学习教程     0.608

马化腾创办了腾讯公司     0.682

信号忽左忽右           0.914

人工智能教程      0.52

姚明是NBA的著名球星     0.320

信号忽然中断           0.695

 

 

    小儿腹泻偏方 

大家都爱看喜剧

红米更新出错

auto

宝宝拉肚子偏方  0.744

很多人喜欢看幽默的电影         0.842

红米升级系统出错     0.921

小儿感冒偏方  0.969

电影分很多类型           0.388

红米账户出错           0.751

腹泻偏方   0.952

他是一个幽默的人           0.322

如何买到小米手机     0.723

sif-pca

宝宝拉肚子偏方           0.721

很多人喜欢看幽默的电影         0.842

红米升级系统出错     0.937

小儿感冒偏方     0.939

电影分很多类型           0.370

红米账户出错           0.844

腹泻偏方        0.964

他是一个幽默的人           0.791

 如何买到小米手机     0.700

emd

宝宝拉肚子偏方           0.619

很多人喜欢看幽默的电影         0.378

红米升级系统出错     0.907

 小儿感冒偏方      0.917

电影分很多类型           0.221

红米账户出错           0.993

  腹泻偏方   0.916

他是一个幽默的人           0.266

如何买到小米手机     0.260

aver

宝宝拉肚子偏方           0.389

很多人喜欢看幽默的电影        0.892

红米升级系统出错     0.925

小儿感冒偏方      0.937

电影分很多类型           0.744

红米账户出错           0.917

 腹泻偏方        0.965

他是一个幽默的人           0.819

如何买到小米手机     0.711

baidu

宝宝拉肚子偏方           0.90

很多人喜欢看幽默的电影         0.630

红米升级系统出错     0.90

小儿感冒偏方     0.740

电影分很多类型           0.501

红米账户出错           0.778

腹泻偏方        0.810

他是一个幽默的人           0.501

如何买到小米手机     0.263

 

总结:

对于短文本如query,基于从world level方面建模句向量虽然过于粗暴,但不是特别难理解的句子,基本还work

对于长句,在绝大部分词语相同时,整句话的意思也很有可能南辕北辙,基于词向量构建句向量,不能捕捉句子语法结构信息,利用词法分析,能够model到语法结构对句子相似度的影响或许可能改进效果。

你可能感兴趣的:(NLP)