机器学习基础笔记

机器学习基础

1.数据集的划分

  • 前提:机器学习就是从数据中自动分析获得规律,并利用规律对未知数进行预测。【即模型一定要经过样本数据对其进行训练,才可以对未知数据进行预测】

  • 问题,是否将所有的数据都用来训练模型?

    • 不,如果模型(数据的规律)都是从数据中得来的,那么该数据的性能评估就无法进行
    • 原因
      • 如果从原先的数据中抽取数据进行评估,由于模型(数据的规律)就是从原数据中获取的,所以预测的精确度几乎百分之百,所以要根据新数据对模型进行评估
    • 因此将原样本数据拆分两部分:
      • 训练集:用来训练模型
      • 测试集:用来测试模型
        • 不同类型的模型对应的评估方式是不一样的
  • 数据划分API

    from sklearn.model_selection import train_test_split
    x_train,x_test,y_train,y_test=train_test_split(x,y,test_size,random_state)
    # x:特征数据
    # y:标签数据
    # test_size:测试集的比例
    # random_state:打乱的随机种子
    # 返回值
    	# x_train:训练特征数据
    	# x_test:测试特征数据
    	# y_train:训练目标数据
    	# y_test:测试目标数据
    
  • 数据集接口介绍

    sklearn.datasets.load_*():获取小规模的数据集
    sklearn.datasets.fetch_*(data_home=None,subset):获取大规模数据集
        data_home:数据集下载目录,None为默认值表示的是家目录/scikit_learn_data(自动创建该文件夹)
        subset:需要下载的数据集,值可以为train,test,all  
    
  • 示例

    import sklearn.datasets as datasets
    
    #方式一,获取小规模集
    iris=datasets.load_iris()
    #获取特征数据
    feature=iris['data']
    #获取标签数据
    target=iris['target']
    
    #方式2:较大规模的数据集
    datasets.fetch_20newsgroups(data_home=None,subset='all')
    
  • 数据拆分案例【鸢尾花数据集拆分】

    from sklearn.model_selection import train_test_split
    import sklearn.datasets as datasets
    iris=datasets.load_iris()
    #特征数据
    feature=iris['data']
    #标签数据
    target=iris['target']
    #test_size:抽取多少为测试集
    #random_state:样本抽取,打乱顺序,每个数字都代表不同的打乱方式
    # x_train:训练集特征数据
    # y_train:训练集标签数据
    # x_test:测试集特征数据
    # y_test:测试集标签数据
    x_train,x_test,y_train,y_text=train_test_split(feature,target,test_size=0.2,random_state=2020)
    

2.机器学习基础

  • 机器学习最终进行预测出来的结果就是通过相关的算法计算出来的结果,在机器学习中算法是核心,数据是计算的基础

2.1机器学习中的数据类型

  • 离散型数据:
    • 离散变量是通过计数方式取得的,即对所要统计的对象进行计数,增长量非固定。
    • 例如:一个企业可以有今年有一家店,第二年有10家店
  • 连续型数据
    • 连续变量是一直叠加上去的,增长量可以划分为固定单位
    • 例如:身高1.51,到1.52,到1.53…
  • 注意:连续性数据有规律,离散型数据没有规律

2.2机器学习算法分类

  • 分类和回归问题

    • 分类算法基于【目标数据】为【离散型】数据
    • 回归算法基于【目标数据】为【连续型】数据
    • 结论:在社会中产生的数据必然是离散型或者连续型数据,即企业对数据的需求就是分类和回归问题
  • 分类问题应用
    机器学习基础笔记_第1张图片

  • 回归问题应用
    机器学习基础笔记_第2张图片

2.3机器学习开发流程

  • 1.数据采集
    • 公司内部产生的数据
    • 和其他公司合作获取的数据
    • 购买的数据
  • 2.分析数据所对应需求或问题是什么?根据目标数据推断属于回归还是分类
  • 3.数据的基本处理
    • 数据清洗
    • 合并
    • 级联等
  • 4.特征工程:对特征进行处理
    • 特征抽取
    • 特征预处理
    • 降维等
  • 5.选择合适的模型,然后对其进行训练
  • 6.模型评估
  • 7.上线

https://www.luffycity.com/

你可能感兴趣的:(机器学习笔记,机器学习,人工智能,深度学习)