专题 自然语言处理之相似度计算常见问题

    我在前面的文章简单提出了一些自然语言处理过程中的遇到的问题,在之后的调整工作中,我对这样的处理语聊的数据进行了更新和变化,为了更能适应性的处理大多数文本。              

    我们对以单词为单位处理结构为基础,转而处理长句子,处理大文本的相似度。在这样的过程中,最为突出要解决的是算法问题,为了解决以单词为维度的文本相似度计算对齐,计算量是随文本的增加呈指数增加的。从词语为单位,到计算句子的相似度,到计算短文本的相似度,甚至于到计算批量大文本的相似度,这样的处理顺序形成了计算文本相似度的系统。

    此外需要解决的问题是,通过介绍文本相似度的系统,处理的步骤刚好是逆过来的,先进行大文本切分,再进行分句处理,最后分词,才能得到我们处理的最小单元,在这样一个处理步骤当中,怎么进行大文本切分,还能保证基本语料的对应,从而降低计算的复杂度,如何进行分句处理,中英文分句的长短句,一句对应多句,分句的规范等问题,都是需要处理和注意的。

    另外我们还有需要解决的问题,文本的预处理(去标签,去没有意义的特殊符号,分词),包括中文分词问题,英文分词问题,词语标准化处理(文本标准化处理包括,中文的词语清洗,添加规则等,中文计数,英文的词语大小写,规范化处理)等问题需要解决或考虑。

    基于HowNet进行的词语相似度的优化问题,完善系统的相似度规则,添加新词规则,词典扩充等基础问题。

    此上是此次系统的建立的存在但不限于此的问题。

    接下来文章将会把部分统计数据和分析结果展示出来。

你可能感兴趣的:(专题 自然语言处理之相似度计算常见问题)