七月算法机器学习笔记5 -- 特征工程

这套笔记是跟着七月算法四月机器学习班的学习而记录的,主要记一下我再学习机器学习的时候一些概念比较模糊的地方,具体课程参考七月算法官网:http://www.julyedu.com/

特征工程

特征 => 数据中抽取出来的对结果预测有用的信息
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。
七月算法机器学习笔记5 -- 特征工程_第1张图片

数据与特征处理

七月算法机器学习笔记5 -- 特征工程_第2张图片
七月算法机器学习笔记5 -- 特征工程_第3张图片
七月算法机器学习笔记5 -- 特征工程_第4张图片
七月算法机器学习笔记5 -- 特征工程_第5张图片

特征处理中不同类型的的特征的处理

  • 数值型
    七月算法机器学习笔记5 -- 特征工程_第6张图片
    统计值
    七月算法机器学习笔记5 -- 特征工程_第7张图片

离散化:落在区段中为1,其余为0
七月算法机器学习笔记5 -- 特征工程_第8张图片
柱状统计

  • 类别型
    七月算法机器学习笔记5 -- 特征工程_第9张图片
    七月算法机器学习笔记5 -- 特征工程_第10张图片
    对于最后一个变量,即登陆口岸,由三个口岸,即开三个位置:【s,q,c】,则第一个数据的值为【1,0,0】
    要说明的是,离散化和one_hot编码是不一样的,离散化是对落在一个区段的数值标记1。是对数据的非线性处理
    七月算法机器学习笔记5 -- 特征工程_第11张图片
    bucket就是一个桶,假如我们把John likes to作为一个词集,那么,这个词集在文档1中都有出现,在doc2中出现了两个词,doc3中出现了一次,就构成了bucket1.
    七月算法机器学习笔记5 -- 特征工程_第12张图片
    根据目标,将特征用统计的方法表示,比如,上图定义男性:【由1/3的男性喜欢散步,2/3的喜欢足球,没有人喜欢看电视

  • 日期型
    七月算法机器学习笔记5 -- 特征工程_第13张图片

  • 文本型
    七月算法机器学习笔记5 -- 特征工程_第14张图片
    七月算法机器学习笔记5 -- 特征工程_第15张图片

  • 统计型
    七月算法机器学习笔记5 -- 特征工程_第16张图片

特征处理示例:
七月算法机器学习笔记5 -- 特征工程_第17张图片
七月算法机器学习笔记5 -- 特征工程_第18张图片
七月算法机器学习笔记5 -- 特征工程_第19张图片

  • 组合特征:
    七月算法机器学习笔记5 -- 特征工程_第20张图片

特征选择

七月算法机器学习笔记5 -- 特征工程_第21张图片
七月算法机器学习笔记5 -- 特征工程_第22张图片
过滤型方式简单粗暴
七月算法机器学习笔记5 -- 特征工程_第23张图片
七月算法机器学习笔记5 -- 特征工程_第24张图片

参考资料:
七月算法:机器学习四月班:http://www.julyedu.com/
图片来自于课程PPT

你可能感兴趣的:(机器学习)