机器学习入门(概念、开发流程、sklearn库)

机器学习概述

  人工智能概述
    机器学习是人工智能的一个实现途径
    深度学习是机器学习的一个方法发展而来
  机器学习、深度学习能做些什么?
    传统预测
    图像识别
    自然语言处理
  什么是机器学习?
    机器学习是从数据中子自动分析获得模型,并利用模型对未知数据进行预测。
    数据
    模型
    预处
  从历史数据当中获得规律?这些历史数据是怎样的格式?
    数据集构成:特征值 + 目标值
    注:
      (1)对于每一行数据我们可以称之为样本
      (2)有些数据集可以没有目标值
  机器学习算法分类:
    监督学习:
      目标值:类别 - 分类问题
        分类算法:K-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归
      目标值:连续型的数据 - 回归问题
        回归算法:线性回归、岭回归
     定义:输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归),或是输出是有限个离散值(称作分类)。
    无监督学习:
      目标值:无 - 无监督学习
     定义:输入数据是由输入特征值所组成
      聚类算法:k-means
  机器学习开发流程
    (1)获取数据
    (2)数据处理
    (3)特征工程
    (4)机器学习算法训练 - 模型
    (5)模型评估
    (6)应用
  学习框架和资料介绍
    (1)算法是核心,数据与计算是基础
    (2)找准定位
    (3)怎么做?
      1. 入门
      2. 实战类书籍
      3. 机器学习 - 周志华
      统计学习方法 - 李航
      深度学习 - “花书”
    (4)机器学习库与框架
  特征工程
    数据集
      可用数据集
        学习阶段可以用的数据集:
          1)sklearn
            安装
              pip3 install Scikit-learn==0.91.1
                安装好之后可以通过以下命令查看是否安装成功
              import sklearn
            注:安装scikit-learn需要Numpy,Scipy等库
            scikit-learn数据集API介绍
              sklearn.datasets
                加载获取流行数据集
              datasets.load_()
                获取小规模数据集,数据包含在datasets里
              datasets.fetch_
(data_home=None)
                获取大规模数据集,需要从网络上下载,函数的第一个参数是data_home,表示数据集下载的目录,默认是~/scikit_learn_data/
            sklearn数据集返回值介绍
              load和fetch返回的数据类型datasets.base.Bunch(字典格式)
                data:特征数据数组,是[n_samples * n_features]的二维numpy.ndarray数组
                target:标签数组,是n_samples的一维numpy.ndarray数组
                DESCR:数据描述
                feature_names:特征名,新闻数据,手写数字、回归数据集没有
                target_names:标签名
            数据集的划分
              训练数据:用于训练,构建模型
              测试数据:在模型检验时使用,用于评估模型是否有效
                测试集 20%~30%
              数据集划分api
                sklearn,model_selection.train_test_split(arrays, *options)
                  x 数据集的特征值
                  y 数据集的标签值
                  test_size 测试集的大小,一遍为float
                  random_state 随机数种子,不同的种子会造成不同随机d采样结果。相同的种子采样结果相同。
                  return 训练集特征值(x_train),测试集特征值(x_test),训练集目标值(y_tarin),测试集目标值(y_test)
            2)kaggle:
            3)UCI

本节代码如下

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split


def datasets_demo():
    """
    sklearn数据集使用
    :return:
    """
    # 获取数据集
    iris = load_iris()
    print("鸢尾花数据集:\n", iris)
    print("查看数据集描述:\n", iris["DESCR"])
    print("查看特征值的名字:\n", iris.feature_names)
    print("查看特征值:\n", iris.data, iris.data.shape)

    # 数据集划分
    x_train, x_test, y_train, y_test=train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
    print("训练集的特征值:\n", x_train, x_train.shape)

    return None

if __name__== "__main__":
    # 代码1:sklearn数据集使用
    datasets_demo()

你可能感兴趣的:(机器学习,机器学习,sklearn)