文本分类基础

文本分类基础

    • 文本处理
      • 字符串的连接与翻转
      • 字符串的大小写转换
      • 字符串的替换与删除
      • 字符串的查找与分割
      • 正则表达式
      • 去除停用词
    • 文本表示
      • 单词表示
      • 词袋模型

本章的项目实战是《基于朴素贝叶斯的垃圾邮件过滤》,属于文本分类项目。故这节课我们来学习一些文本分类的基础知识。通常来说,在使用一个算法进行文本分类之前,还需要做一些文本获取文本处理特征提取的工作。其中,文本获取的方式有第三方提供的语料库、通过爬虫技术获取等;文本处理主要是分词、去停用词、标准化等,特征提取则是将文本表示成特征向量的形式。

文本的获取方法不是本课的重点,故不做具体讲解;在文本处理部分,我会从代码层面先讲一些字符串处理的方法,然后讲一下分词、正则表达式和去停用词的代码;特征提取实际上就是文本表示,我会分别从单词层面和句子层面讲解文本的向量化表示。

文本处理

字符串的连接与翻转

 
 

你可能感兴趣的:(机器学习精通)