文本分类part1

1.基础知识

1.1 文本分类为有监督学习,需要整理样本,确定样本标签与数目。

1.2文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识过程

2.文本分类的方法

2.1 基于模式系统

2.2基于分类系统:机器学习的方法采用预分类,通过训练建立分类。

3.构建文本分类项目

中文文本分类技术和流程:

3.1 预处理:去噪

3.2中文分词:分词,去除停用词

3.3构建词向量空间:统计文本词频,生成文本词向量空间

3.4TFIDF:使用TFIDF抽取文本特征

3.5训练分类器

3.6模型评估

4.简单文本分类项目

4.1文本预处理

4.2中文分词

    目前所有项目暂时都是用jieba分词

4.3去除停用词,进行词频统计

4.4文本向量化、生向量空间模型

1)对样本进行分词

2)根据已经生成的词典,在相应位置填入该词的词频

3)对生成的向量进行归一化.  常用的特征选择计算方式为TF*IDF TF*RF

4.4.1 特征选择

(1)向量空间模型(VSM)======确定特征集和提取特征

4.4.2 确定特征集

5.特征选择

一般计算方法:词频、卡方公式、信息增益

目前打算尝试的特征选择:Textrank

6.模型训练与预测

当把文本转换成向量形式后,就可以利用算法进行训练和预测。

当前文本分类的算法有:朴素贝叶斯,SVM,KNN,逻辑回归

7.分类结果评估

7.1召回率

7.2准确率

7.3交叉检验

你可能感兴趣的:(文本分类part1)