02_机器学习的概述

1.什么是机器学习? 从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。

          比如AlphaGo的应用:从成千上万的棋谱中,找到模型,利用已知的棋谱对新棋谱进行预测。

2.机器学习的目的: 让机器学习程序替换手动的步骤,减少企业的成本也提高企业的效率。

3.机器学习的数据: 常用文件csv

4.机器学习的数据为什么不存储在数据库中?1.比如MySQL当数据达到一定规模,数据库会有性能瓶颈。

                    2.数据库格式不太符合机器学习所要求的那种格式。

 

=============================================================================================

 

5.可用数据集:scikit-learn特点:1、数据量较小;2、方便学习;

       kaggle特点:1、大数据竞赛平台;2、80万科学家提供真实数据,数据量巨大;

6.常用数据集数据的结构组成(非常重要)

 结构:特征值+目标值

 例子:在一个表中,告诉你相关数据(列),比如身高、体重、皮肤颜色、头发长度,让你去预测这个人是男是女?  

    这里的特征值就是身高、体重、皮肤颜色、头发长度,目标值就是男or女。

 注意:有的数据没有目标值。

 

7.数据中对于特征的处理:

 pandas:一个数据读取非常方便以及基本的处理格式的工具。

 sklearn:对于特征的处理提供了强大的接口。

 注:机器学习对于重复数据不需要像爬虫一样进行去重。

 

8.特征工程(非常重要)

  特征工程概念:将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性。

  在特征工程中,必须要掌握:数据的特征抽取、数据的特征预处理、数据的降维

 

 

        

你可能感兴趣的:(02_机器学习的概述)