机器学习一:特征工程之特征抽取(字典特征与文本特征的区别)

@[TOC](字典特征与文本特征的区别

  • 特征抽取定义
  • 字典特征与文本特征的区别
  • 两种文本特征的区别:

特征抽取定义

定义:将人能够看懂的语言转化成机器能够识别的数字信息

字典特征与文本特征的区别

不同1:处理的数据不同
字典特征抽取的作用:对字典当中有类别的信息进行处理,需要对类别信息进行one-hot编码
文本特征抽取的作用:对文本数据进行处理

不同2:有无sparse

  • 字典特征抽取在实例化时有sparse参数;文本特征抽取实例化时无sparse参数,只能通过后续toarray进行转换

两种文本特征的区别:

  • 共同点:两者都没有sparse参数
  • 不同点1:作用不同
    countvectorizer:进行词频统计,返回的是一个词频矩阵。countvectorizer是该词在该篇文章中出现的次数,当是中文数据时,需要使用jieba库进行分词处理,因为英文默认是以空格隔开的
    TF-idf:是该词在多篇文章中出现的次数。用于评估该词对于一个文件集中的其中一份文件的重要程度。
  • 不同点2:公式上的区别(根)
    countvectorizer结果=该词在该文件或本样本(所在的样本,单个样本)出现的次数

TF-idf:它表示该词在该文件集中的其中一份文件的重要程度。
公式:(该词/该词所在文件)*log(出现该词的文件数/总文件数)

你可能感兴趣的:(pycharm)