03 特征工程 - 特征转换 - 分词、Jieba分词

02 特征工程 - 数据不平衡

特征转换主要指将原始数据中的字段数据进行转换操作，从而得到适合进行算法模型构建的输入数据(数值型数据)，在这个过程中主要包括但不限于以下几种数据的处理：

• 文本数据转换为数值型数据
• 缺省值填充
• 定性特征属性哑编码
• 定量特征属性二值化
• 特征标准化与归一化

分词

分词是指将文本数据转换为一个一个的单词，是NLP自然语言处理过程中的基础；因为对于文本信息来讲，我们可以认为文本中的单词可以体现文本的特征信息，所以在进行自然语言相关的机器学习的时候，第一操作就是需要将文本信息转换为单词序列，使用单词序列来表达文本的特征信息。

分词： 通过某种技术将连续的文本分隔成更具有语言语义学上意义的词。这个过程就叫做分词。

分词的常见方法
1、按照文本/单词特征进行划分：对于英文文档，可以基于空格进行单词划分。
2、词典匹配：匹配方式可以从左到右，从右到左。对于匹配中遇到的多种分段可能性，通常会选取分隔出来词的数目最小的。
3、基于统计的方法：隐马尔可夫模型（HMM）、最大熵模型（ME），估计相邻汉字之间的关联性，进而实现切分。
4、基于深度学习：神经网络抽取特征、联合建模。

Jieba分词

jieba：中文分词模块；
Python中汉字分词包：jieba
安装方式： pip install jieba
Github：https://github.com/fxsjy/jieba

jieba分词原理：
1、字符串匹配：把汉字串与词典中的词条进行匹配，识别出一个词。
2、理解分词法：通过分词子系统、句法语义子系统、总控部分来模拟人对句子的理解。（试验阶段）
3、统计分词法：建立大规模语料库，通过隐马尔可夫模型或其他模型训练，进行分词（主流方法）

jieba分词模式：
1、全模式 jieba.cut(str,cut_all=True)
2、精确模式 jieba.cut(str)
3、搜索引擎模式 jieba.cut_for_search(str)

分词特征提取： 返回TF/IDF权重最大的关键词，默认返回20个。
jieba.analyse.extract_tags(str,topK=20)

自定义词典： 帮助切分一些无法识别的新词，加载词典：jieba.load_userdict(‘dict.txt’)

调整词典： add_word(word, freq=None, tag=None) 和 del_word(word)可在程序中动态修改词典。使用suggest_freq(segment, tune=True) 可调节单个词语的词频。

04 特征工程 - 特征转换 - 文本特征属性转换

03 特征工程 - 特征转换 - 分词、Jieba分词

分词

Jieba分词

你可能感兴趣的:(03 特征工程 - 特征转换 - 分词、Jieba分词)