学习笔记 | 基于文本内容的垃圾短信识别 相关概念

基于文本内容的垃圾短信识别

案例目标:垃圾短信识别。

  • 基于短信文本内容,建立识别模型,准确地识别处垃圾短信,以解决垃圾短信过滤问题。
  • 举例,输入短信1,短信2,短信2 ——输出—— 垃圾短信1、正常短信0。

数据预处理

中文分词

  • 中文分词是指以词作为基本单元,使用计算机自动对中文文本进行词语的切分,即使词之间有空格,这样方便计算机识别出各语句的重点内容。
    学习笔记 | 基于文本内容的垃圾短信识别 相关概念_第1张图片

正向最大匹配法

NLP概率图:HMM针对中文分词应用 —— Viterbi算法

  • 利用Viterbi算法找出一条概率最大路径。

python结巴分词jieba支持三种分词模式:

1. 支持繁体分词
2. 支持自定义词典
3. 停用词过滤
  • 中文表达中最常用的功能性词语是限定词,如"的",“一个”,“这”,"那"等。这些词语的使用较大的作用仅仅是协助一些文本的名次描述和概念表达,并没有太多的实际含义。
  • 而大多数时候停用词都是非自动生产、人工筛选录入的,因为需要根据不同的研究主题认为地判断和选择合适的停用词语。

停用词过滤结果
学习笔记 | 基于文本内容的垃圾短信识别 相关概念_第2张图片

文本的向量表示




你可能感兴趣的:(#,数据分析,#,机器学习)