机器去学习-day01

1、机器学习领域:自然语言处理、图像识别、传统预测
2、学习目标:
   熟悉机器学习各类算法的原理
   熟悉算法的使用,能够结合场景解决实际问题
   掌握使用机器学习算法库和框架的技能
3、可用的数据集:
 Kaggle特点:https://www.keggle.com/datasets
(1)大数据竞赛平台
(2)80万科学家
(3)真实数据
 (4)数据量巨大
UCL特点:http://archive.ics.ucl.edu/ml/
(1)收录了360个数据集
 (2)覆盖科学、生活、经济等领域
(3)数据量几十万
scikit-learn特点: http://scikit-learn.org/stable/index.html#datasets
(1)数据量小
(2)方便学习
4、常用数据集结构的组成:
特征值+目标值       特征值
  dataFrame    身高      体重    皮肤值  头发长度
               列索引                               男
                                                    女
               1                         
               2
               3
        *注:有些数据没有目标值
5、特征值的处理:
   dataFrame   缺失值,数据转换


     机器学习:      重复值? 不需要进行去重
   pandas:(潘纳斯) 一个数据读取非常方便以及基本的处理格式工具
   sklearn:对于特征的处理提供了强大的接口   ---特征工程
6、特征工程:
  (1)特征工程是将原始数据转换成更好的代表预测模型
  的潜在问题的特征的过程,从而提高了对未知数据的预测准确性
    (2)意义:直接影响预测结果
    (3)scikit-learn(塞克冷) 库介绍
      python语言的机器学习工具
       scikit-learn包含许多的机器学习算法的实现
       scikit-learn文档完善,容易上手丰富的Api
       其在学术界颇受欢迎
       目前稳定版本0.18
     安装:
    创建一个基于python3的虚拟环境(可以在你自己以有的虚拟环境中)
        mkvirtualenv  -p  /usr/bin/python3.5 ml3
    在ubuntu的虚拟环境当中运行以下命令
   pip3 install Scikit-learn
   然后通过导入命令查看是否可以使用:
    import  sklearn
    *注:安装scikit-learn需要Numpy.pandas等库

    (4)特征抽取:
          特征抽取对文本等数据进行特征值化
        【1】字典特征抽取
         作用:对字典进行特征值化
         类: sklearn.feature_extraction.DictVectorizer
          DictVectorizer语法
        . DictVectorizer(sparse=True,...)
        . DictVectorizer.fit_transform(X)

          . X:字典或者包含字典的迭代器
          . 返回值:返回sparse矩阵
        . DictVectorizer.inverse_transform(X)
          .X:array 数组或者sparse矩阵
          . 返回值:转换之前数据格式

        .DictVectorizer.get_feature_names()
          .返回类别名称
        .DictVectorizer.transform(X)
          . 按照原先的标准转换


        【2】流程
          [1]、实例化类 dictVectorizer
          [2]、 调用fit_transform 方法输入数据并转换   注意返回格式
           from  sklearn_feature_extraction import DictVectorizer   --导入类
              def dictvec();   --定义一个函数
                 """
             字典数据抽取
             :return:None
                """
             #实例化
           dict=DictVectorizer(sparse=false)
            #调用fit_transform
            data=dict.fit_transform({'city':'背景','temperature':'100'},{},{})
            print(dict.get_feature_names())
           print(data)
               return None
           if _name_=="_main_":
          [3]one-hot编码分析:

你可能感兴趣的:(机器去学习-day01)