深入浅出python机器学习1——概述

什么是机器学习

       机器学习一个计算机程序在使用既有的经验(E)执行某类任务(T)的过程中被认定为是“具备学习能力的”,那么它一定需要展现出:利用现有的经验(E),不断改善其完成既定任务(T)的性能( P)的特质。 (更倾向于机器学习实际应用)

机器学习应用场景

  • 电子商务中的智能推荐
  • 社交网络中的效果广告
  • 互联网金融中的内容审查
  • 智能物流、智能家居、无人驾驶等。

机器学习该如何入门

  • 从编程入手,比如当下正热火朝天的Python。
  • 熟悉机器学习中的基本概念:比如有监督学习和无监督学习区别是什么,应用场景有什么不同;分类和回归,清楚什么场景该用什么算法;理解泛华,明白什么情况下会出现过拟合或者欠拟合。
  • 了解机器学习中最常见的算法:K最近邻算法、线性模型、朴素贝叶斯、决策树、随机深林、SVMs、神经网络等。在这个过程中需要了解每种算法的基本原理和用途,它们的特性是什么,在不同的数据集中表现如何,如何使用它们建模,模型的参数如何调整等。
  • 掌握对数据的处理技巧:比如降维、聚类等
  • 学会让模型更好地工作:怎么让算法的效率更高,怎么找最合适的模型,模型的最优参数是什么 ,以及如何打造一个流水线,让几个模型在其中共同协作。
  • 动手:Kaggle大赛、天池等,或者去企业。
  • 机器学习步骤:
数学基础
动手实践
机器学习典型方法
编程基础
数据科学竞赛
实际项目经验

有监督学习与无监督学习

  • 有监督学习
           有监督学习是通过现有训练数据集进行建模,再用模型对新的数据样本进行分类或者回归分析的机器学习方法。在监督学习中,训练数据集一般包含样本特征变量分类标签,机器学习不同的算法通过这些数据推断出分类的方法,并用于新的样本中。
  • 无监督学习
           无监督学习是在没有训练数据集的情况下,对没有标签的数据进行分析并建立合适的模型,以便给出问题解决的方案。在无监督学习当中,最常见的两种任务是数据转换聚类分析
           其中数据转换的目的是把本来非常复杂的数据集通过非监督式学习算法进行转换,使其变得容易理解。常见的数据转换方法之一便是数据降维,即通过对特征变量较多的数据集进行分析,将无关紧要的特征变量去除,保留关键特征变量。
           而聚类分析则是通过把样本划归到不同的算法,每个分组中的元素都具有比较接近的特征。目前,聚类算法主要用在应用在统计数据分析、图像分析、计算机视觉等领域。

机器学习中的分类与回归

       分类和回归是有监督学习中最常见的方法。对于分类来说,目标是对样本的类标签进行预测,判断样本属于哪个分类,结果是离散的数值。而对于回归分析来说,其目标是要预测一个连续的数值或者范围

模型的泛化、过拟合与欠拟合

  • 泛化(generalization):在有监督学习中,我们会在训练数据集上建立一个模型,之后会把这个模型用于新的数据中,这个过程称为模型的泛化。
  • 过拟合(overfitting):如果你在训练数据集上使用了一个非常复杂的模型,以至于这个模型在拟合训练数据集是表现非常好,但是在测试数据集的表现非常差,说明模型出现了过拟合现象。
  • 欠拟合(underfitting):如果模型过于简单,连训练数据集的特点都不能完全考虑到的话,那么这样的模型在训练数据集和测试数据集的得分都会非常差,这个时候我们说模型出现了欠拟合现象。

你可能感兴趣的:(机器学习,深入浅出python机器学习)