2022-02-21:NlP处理基本思路

1.获取预料

预料是nlp研究的内容,通常使用文本集合作为语料库,预料的来源分为3种:(1)已有的预料----积累的文档。(2)下载现有的语料---搜狗语料,人民日报语料等。(3)使用爬虫抓取。

2.语料的预处理

2.1 语料清洗:人工去重,对齐,标注或者规则提取内容,根据词性和命名实体提取
2.2 分词:将文本分成词语。(基于字符串匹配的分词方法,基于理解的分词方法,基于统计的分词方法,基于规则的分词方法)
2.3 词性标注:在情感分析或者知识推理中需要。(最大熵词性标注,基于统计最大概率输出词性,基于HMM的词性标注,基于规则)
2.4 去停用词:去掉对文本特征没有任何贡献作用的字词,比如标点符号,语气,人称等)

3.特征工程

将分词表示成计算机能够计算的类型(词向量),常用的模型(词袋模型,tf-idf,one-hot,word2Vec)

4.特征选择

常见的特征选择方法(DF,MI,IG,CHI,WLLR,WFO)

5.模型训练

机器学习模型:KNN,SVM,Naive Bayes,K-Means,D-tree,GBDT等
深度学习模型:CNN,RNN,LSTM,seq2seq,fastText,TextCNN等

评价指标

Roc曲线,混淆矩阵,AUC曲线

模型部署

离线训练,线上部署。
在线训练,并持久化

你可能感兴趣的:(2022-02-21:NlP处理基本思路)