一、中文自然语言处理的完整机器处理流程 nlp笔记

中文自然语言处理的完整机器处理流程

1. 获取语料,读取原始数据

	语言材料,文本集合。

2. 语料预处理,数据清洗

   1.数据清洗:整理出感兴趣的内容
   2.分词:将文本全部进行分词,基于字符串匹配,统计的分词方法,规则的分词方法
   3.词性标注:形容词,动词,名词等
   4.去停用词:标点符号,人称,语气词等,由具体场景定

3. 特征工程

   	1.词袋模型:不考虑出现的顺序,直接放一个集合,统计出现的次数,频率
   	2.词向量 :将字、词语转换成向量矩阵的计算模型

4. 特征选择

	特征选择方法:DF、 MI、 IG、 CHI、WLLR、WFO 六种

5. 模型训练

	1.注意过拟合、欠拟合问题,不断提高模型的泛化能力。
	常见的解决方法有:
	增大数据的训练量;
	增加正则化项,如 L1 正则和 L2 正则;
	特征选取不合理,人工筛选特征和使用特征选择算法;
	采用 Dropout 方法等。
	欠拟合:就是模型不能够很好地拟合数据,表现在模型过于简单。
	常见的解决方法有:
	添加其他特征项;
	增加模型复杂度,比如神经网络加更多的层、线性模型通过添加多项式使模型泛化能力更强;
	减少正则化参数,正则化的目的是用来防止过拟合的,但是现在模型出现了欠拟合,则需要减少正则化参数。
	
	2.对于神经网络,注意梯度消失和梯度爆炸问题。

6. 评价指标
7. 模型上线应用
8. 模型重构

参考文献

中文自然语言处理入门

你可能感兴趣的:(nlp,nlp,自然语言处理,中文自然语言处理)