中文文本特征提取—流程

特征提取是机器学习的重要步骤,相对于英文文本来说,中文文本的特征提取就有些麻烦,因为英文是有空格隔开的,所以好处理。但是中文就不一样了,它是一句话,词与词之间没有分割符。所以必须先进行分割词。

中文文本特征提取流程

1.分词

通过分词工具将句子进行切割成词语,一般分词工具使用结巴分词、哈工大的分词工具、中科大的分词工具等。

结巴分词是最常用的,因为它简单、好用。

2.去停

就是去掉停用词,一般是一些每一篇文章都会出现的常用词,例如:啊,呀等。

3.构建词典

因为分词工具,分词结果也不是很准确,因此我们需要自己也去构建一个词典,这个词典中就放一些我们认为分词的时候,必须分出来的词语、及其词性,之后将词典加入分词工具的词典中。

4.标注词性

使用分词工具标注即可。

5.特征提取

特征提取,在18年之前就是提取关键字,能够代表该文本的一些词语,18年之后,就是模仿人脑对句子的处理,理解,使用的是神经网络。特征提取的技术有词袋模型、TF-IDF算法、Word2Vec模型(词向量)、bert模型。

 

去停、构建词典、词性标注,都是对文本数据处理的手段,可用可不用

你可能感兴趣的:(自然语言处理)