同义词挖掘

方法

1、实体Embedding挖掘同义词
利用领域实体的近似Embedding做同义词召回(通常用Skip-Gram方式训练word2vec模型)。
2、竞品数据+翻译模型挖掘同义词
通过领域搜索query,抓取竞品搜索结果title,构建query-title平行语料,进而通过fast-align无监督翻译对齐方法挖掘同义词。
3、通过百度搜索飘红标签挖掘同义词
百度搜索结果中会做匹配关键词及其同义词的高亮飘红逻辑,飘红的关键词在网页源码中会以xx的标签标识,可以快速挖掘同义词,且质量较高。

你可能感兴趣的:(同义词挖掘)