1.什么是机器学习? 从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。
比如AlphaGo的应用:从成千上万的棋谱中,找到模型,利用已知的棋谱对新棋谱进行预测。
2.机器学习的目的: 让机器学习程序替换手动的步骤,减少企业的成本也提高企业的效率。
3.机器学习的数据: 常用文件csv
4.机器学习的数据为什么不存储在数据库中?1.比如MySQL当数据达到一定规模,数据库会有性能瓶颈。
2.数据库格式不太符合机器学习所要求的那种格式。
=============================================================================================
5.可用数据集:scikit-learn特点:1、数据量较小;2、方便学习;
kaggle特点:1、大数据竞赛平台;2、80万科学家提供真实数据,数据量巨大;
6.常用数据集数据的结构组成(非常重要)
结构:特征值+目标值
例子:在一个表中,告诉你相关数据(列),比如身高、体重、皮肤颜色、头发长度,让你去预测这个人是男是女?
这里的特征值就是身高、体重、皮肤颜色、头发长度,目标值就是男or女。
注意:有的数据没有目标值。
7.数据中对于特征的处理:
pandas:一个数据读取非常方便以及基本的处理格式的工具。
sklearn:对于特征的处理提供了强大的接口。
注:机器学习对于重复数据不需要像爬虫一样进行去重。
8.特征工程(非常重要)
特征工程概念:将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性。
在特征工程中,必须要掌握:数据的特征抽取、数据的特征预处理、数据的降维