机器学习速成课程 学习笔记12:表示法

https://developers.google.cn/machine-learning/crash-course/representation/feature-engineering

将数据映射到实用特征的过程。

传统编程的关注点是代码。在机器学习项目中,关注点变成了表示。
也就是说,开发者通过添加和改善特征来调整模型。

机器学习模型不能直接看到、听到或感知输入样本。
您必须创建数据表示,为模型提供有用的信号来了解数据的关键特性。
也就是说,为了训练模型,您必须选择最能代表数据的特征集

特征工程

One-Hot Encoding即 One-Hot 编码,也称独热编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。

良好特征的特点

避免很少使用的离散特征值
最好具有清晰明确的含义
不要将“神奇”的值与实际数据混为一谈

清理数据

缩放特征值
处理极端离群值
分箱
清查
了解数据

编程练习

https://colab.research.google.com/notebooks/mlcc/feature_sets.ipynb?hl=zh-cn

你可能感兴趣的:(机器学习速成课程 学习笔记12:表示法)