最近没有怎么看论文,看完了一个文档Chinese nlp,在GitHub上下载的。文档内容写得很清楚。
文档下载:link
下文的图片来源文档截图。
词汇:中文分词、词性标注、命名实体识别(人名地名识别)、新词发现语义表示、语义关系
语法分析:句子结构、语义归一化、省略、归一化、情感分析、文本分类、语义表示、文本主题、文本分类/聚合、
内容生成:规则匹配、机器翻译、知识推理
已有语料、抓取语料
国内开放的语料有搜狗语料、人民日报语料(我看了一下人民日报语料一直在更新,最近更新的也就几个月前)
数据拿来第一步就是预处理,就是将数据处理成我可以用的样子,一般会经过数据清洗、分词、词性标注、去停用词(并不都需要)这是部分来完成数据预处理工作。比较好的是我使用的是TensorFlow的环境,这些步骤都有封装好的库,自己设置好参数直接调用就可以了。
数据清理:就是将你要用的数据留下,清理掉不需要的数据
分词:长句子短文本都需要分词,目前用得比较多的就是中科院计算所NLPIR、哈工大LTP、清华大学THULAC 、斯坦福分词器、Hanlp 分词器、jieba 分词、IKAnalyzer 等。分词根据字典分词,而没见过的专业领域的词则需要自己添加新词到词库中,提高分词的精度
link
中文分词原理:查找词典算法、最长匹配中文分词(正向、逆向)、概率、
词性标注:就是给每个分好的词标注出词性。不太理解为什么非要有这一步,但进行情感分类,理解句子间的关系是非常重要的,词性或许能够提高理解程度吧。Jieba分词可以直接通过模块实现词性标注jieba.posseg
词性标注:HMM、
去停用词:就是去掉标点符号和空格、人称、语气词等。在情感分析过程中语气词不能去,他对感情色彩有一定的贡献和意义。
预处理后也是中文,是电脑不认识的符号,所以得转换成数字了,也就是向量或者矩阵。
词袋模型:不考虑词语原本在句子中的顺序,直接将每一个词语或者符号统一放置在一个集合(如 list),然后按照计数的方式对出现的次数进行统计。统计词频这只是最基本的方式。
One-hot:把每个词表示成一个很长的向量(稀疏矩阵大小取决于语料库的词语容易维度灾难)
Gensim库可以构建词袋模型
Word Embedding(词向量:稠密向量)
Word2Vec(量可以较好地表达不同词之间的相似和类比关系。[‘黄河’, ‘母亲河’], ['长江Doc2Vec:相似词计算;相关词挖掘,在推荐系统中用在品牌、用户、商品挖掘中;上下文预测句子;机器翻译;作为特征输入其他模型
在一个实际问题中,构造好的特征向量,是要选择合适的、表达能力强的特征。
有监督算法,集成学习,神经网络,
错误率:是分类错误的样本数占样本总数的比例
精度:是分类正确的样本数占样本总数的比例
准确率:准确率是针对我们预测结果而言的,它表示的是预测为正的样例中有多少是真正的正样例
精确度:精确度则是分类正确的样本数占样本总数的比例。Accuracy 反应了分类器对整个样本的判定能力
召回率:召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确。
F1 衡量:表达出对查准率/查全率的不同偏好。
ROC 曲线、AUC 曲线
基于TF-IDF算法进行关键字提取, tf词频
基于TextRank算法进行关键词提取
基于LDA主题模型进行关键词提取
图表类:柱状图、饼图、折线图
关系可视化:是数据库里的 E-R图(安装 Matplotlib、NetworkX)
多层信息可视化:热力图(安装 Folium )
HMM(隐马尔可夫模型)和 CRF(条件随机场)算法常常被用于分词、句法分析、命名实体识别、词性标注等。
HMM可以用来训练中文分词器,基于贝叶斯算概率的??
Genius 是一个基于 CRF 的开源中文分词工具
RNN具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出
LSTM:来解决上面提到的 RNN 模型存在“长期依赖”的问题,“门”
GRU: 是简化版的 LSTM,参数少1/3不易过拟合
文件预处理:onehot
标记开始结束
模型参数设置:根据前几个字预测后几个字,或者输入关键词生成一首诗
12、文本情感分析
应用:做金融产品量化交易,需要根据爬取的舆论数据来分析政策和舆论对股市或者基金期货的态度;电商交易,根据买家的评论数据,来分析商品的预售率等
定义:情感倾向可认为是主体对某一客体主观存在的内心喜恶,内在评价的一种倾向。它由两个方面来衡量:一个情感倾向方向,一个是情感倾向度。
方法:基于情感词典(标注好的情感词典),基于机器学习(需要大量的人工标注的语料作为训练集,通过提取文本特征,构建分类器来实现情感的分类)确定词语褒贬倾向,匹配情感词
SnowNLP 主要可以进行中文分词、词性标注、情感分析、文本分类、转换拼音、繁体转简体、提取文本关键词、提取摘要、分割句子、文本相似等,官网指出进行电商评论的准确率较高,对情感的测试值为0到1,值越大,说明情感倾向越积极
自动生成摘要技术
朴素贝叶斯
TensorFlow