社区问答(Q-Q匹配问答)文本相似度计算的四类方法

本文是我自己的思考。如果有纰漏,欢迎大佬们在评论区怼我,帮助我进步~~

智能问答的其中一类 社区问答(也就是Q-Q匹配问答)的第一个环节是计算问题的文本语义向量表示;第二个环节就是通过向量的匹配得到最佳的问题候选。下面是我知道的做第二个环节的4类方式。(不是四种,而是四类。)

第0种、直接两两做bert

最慢的方式。复杂度是O(n)。每次两两匹配的耗时都要做一次bert(可以转tensorflow的estimator做成实时的)。也是耗时最长的方式。
如果匹配的q-q对较少,是可以直接用bert类的模型直接做两两的文本匹配。

第1种、两两出相似度,取最大

具体方法可以是 余弦、距离 等。复杂度是O(n)。每次的耗时比两两做bert要快。
如果匹配的q-q对的数量适中,可以用这种。(我也不知道多少的量算适中,应该也得看具体情况。)

第2种、用算法的思路降低复杂度

如annoy算法,将“依次计算相似度”转化成“依次做超平面从而构建二叉树”的思路,复杂度O(log(2) n)。并且预测时每次的计算都是将“真实问题”的向量代入超平面,然后判断是正是负,查询“二叉树”,速度比以上两类的速度都快。
适合海量数据。

第3种、用规则先缩小范围,然后再用第一种方式

比如,我在听某大厂讲座时得知,他们就是构建关键词表,在“真实问题”内查询关键词,再用该关键词在海量“问题候选”中查询到部分的“问题候选”,然后再算余弦相似度。
类似这种缩小范围的方式是开放的,可以看实际项目情况做定制。

欢迎大家指出我的错误,欢迎评论哈~~~

你可能感兴趣的:(NLP)