中文文本情感分析:基于机器学习方法的思路

1.常用步骤

中文文本情感分析:基于机器学习方法的思路_第1张图片

2.中文分词

1)这是相对于英文文本情感分析,中文独有的预处理。

2)常用方法:基于词典、基于规则、基于统计、基于字标注、基于人工智能。

3)常用工具:哈工大—语言云、东北大学NiuTrans统计机器翻译系统、中科院张华平博士ICTCLAS、波森科技、结巴分词、Ansj分词,HanLP。


3.特征提取

1)文本中拿什么作为特征。

2)常用方法:根据词性(adj、adv、v)、单词进行组合(unigram、bigram)、位置。

3)使用词的组合表示文本,两种方式:词出现与否、词出现的次数。


4.特征选择

1)选择哪些特征,如果把所有的特征都作为特征计算,那计算量非常大,高维稀疏矩阵。

2)常用方法:去停用词,卡方,互信息。

3)常用工具:word2vector ,doc2vec


5.分类模型

1)训练、测试。

2) 常用方法:朴素贝叶斯、最大熵、svm。


6.评价指标

1)准确率

Accuracy = (TP + TN)/(TP + FN + FP + TN) 反映了分类器统对整个样本的判定能力——能将正的判定为正,负的判定为负 。

2)精确率

Precision = TP/(TP+FP) 反映了被分类器判定的正例中真正的正例样本的比重

3)召回率

Recall = TP/(TP+FN) 反映了被正确判定的正例占总的正例的比重


7.可参考资料

1)中文分词基本算法介绍

2)ICTCLAS 汉语词性标注集

3)文本分类技术

4)文本分类与SVM

5)基于贝叶斯算法的文本分类算法

6)基于libsvm的中文文本分类原型

7)LDA-math-文本建模

8)情感分析资源

9)面向情感分析的特征抽取技术研究

9.1)斯坦福大学自然语言处理第七课-情感分析

10)深度学习、自然语言处理和表征方法

11)Deep Learning in NLP (一)词向量和语言模型




你可能感兴趣的:(机器学习)