一些概念

1.一个文本集合称为语料库(Corpus),当有几个这样的文本集合的时候,我们称之为语料库集合(Corpora)。

2.中文汉语有搜狗语料、人民日报语料。

3.数据清洗
提取对要处理数据无用或影响效果的数据。包括去停用词
常见的数据清洗方式有:人工去重、对齐、删除和标注等,或者规则提取内容、正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理等。

4.提取特征
词袋模型(Bag of Word, BOW),不包含文本的顺序信息,直接进行词频统计如TF-IDF
跳字模型(Skip-Gram)
连续词袋模型(Continuous Bag of Words,简称 CBOW)
Doc2Vec、WordRank 和 FastText
以及两种高效训练的方法:负采样(Negative Sampling)和层序 Softmax(Hierarchical Softmax)。

  1. 特征选择
    常见的特征选择方法主要有 DF、 MI、 IG、 CHI、WLLR、WFO 六种

6.模型选择
传统的有监督和无监督等机器学习模型, 如 KNN、SVM、Naive Bayes、决策树、GBDT、K-means 等模型;深度学习模型比如 CNN、RNN、LSTM、 Seq2Seq、FastText、TextCNN 等

6.过拟合
模型把噪声数据的特征学习到了,对训练集识别很好,对测试集却识别很差
常见的解决方法有:
增大数据的训练量;
增加正则化项,如 L1 正则和 L2 正则;
特征选取不合理,人工筛选特征和使用特征选择算法;
采用 Dropout 方法等。

7.欠拟合
就是模型不能够很好地拟合数据,表现在模型过于简单。
常见的解决方法有:
添加其他特征项;
增加模型复杂度,比如神经网络加更多的层、线性模型通过添加多项式使模型泛化能力更强;
减少正则化参数,正则化的目的是用来防止过拟合的,但是现在模型出现了欠拟合,则
需要减少正则化参数。

8.对于神经网络,注意梯度消失和梯度爆炸问题。

9.评价指标[图片上传失败...(image-9f1f07-1569328642579)]

错误率:是分类错误的样本数占样本总数的比例。
精度:是分类正确的样本数占样本总数的比例。
准确率:缩写表示用 P。准确率是针对我们预测结果而言的,它表示的是预测为正的样例中有多少是真正的正样例。
精确度:缩写表示用 A。精确度则是分类正确的样本数占样本总数的比例。
召回率:缩写表示用 R。召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确。
F1 衡量:表达出对查准率/查全率的不同偏好。(2PR)/(P+R)

10 ROC 曲线、AUC 曲线。
ROC 曲线的意义有以下几点:
ROC 曲线能很容易的查出任意阈值对模型的泛化性能影响;
有助于选择最佳的阈值;
可以对不同的模型比较性能,在同一坐标中,靠近左上角的 ROC 曲所代表的学习器准确性最高。

你可能感兴趣的:(一些概念)