机器学习笔记1

1、机器学习算法分类
 监督学习:
     目标值:类别-分类问题
               分类算法:K-近邻算法、贝叶斯分类、决策树和随机森林、逻辑回归
     目标值:连续型的数据-回归问题
               回归算法:线性回归、岭回归
 无监督学习:
     目标值:无-无监督学习
                算法:聚类 K-means

2、机器学习开发流程
     1)获取数据
     2)数据处理
     3)特征工程
     4)机器学习算法训练-模型
     5)模型评估
     6)应用

3、特征工程-数据集
      可用数据集:
            1)sklearn自带的
            2)kaggle
            3)UCI

      sklearn数据集
          sklearn.datasets
               load_*获取小规模数据集
                       1)  sklearn.datasets.load_iris()#加载并返回ying尾花数据集
                        2)  sklearn.datasets.load_boston()#加载返回波斯顿房价数据集
               fetch_*获取大规模数据集
                        1) sklearn.datasets.fetch_20newsgroups(data_home=None,subset='train')
                                     (subset参数:'train'是训练集,'test'是测试集,'all'是全部)

           load和fetch返回的数据类型是datasets.base.Bunch(字典格式)
                         dict["key"]=values
                          bunch.key=values
         
        数据集的划分
                  训练集和测试集。

你可能感兴趣的:(机器学习,笔记,人工智能)