机器学习和统计学的区别

机器学习跟统计学有很多联系,的确这两个专业有很多共性,但本文尝试列举一些差异,供大家参考和对比,也欢迎大家补充

  机器学习 统计学
定义 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心。 统计学是关于认识客观现象总体数量特征和数量关系的科学。它是通过搜集、整理、分析统计资料,认识客观现象数量规律性的方法论科学。
所属学科 不是一级学科,通常设在计算机科学数学或自动化专业下面。机器学习在本科课程中顶多只是一门课,而不是一个独立的专业。 本身就是一级学科,国内高校也有把统计学归入数学学科下的,国外高校统计学专业一般设在独立的统计系里。
分析数据时关注点 模型的泛化能力,预测的精确度/召回率,算法的计算复杂度。 模型或参数的显著性水平,置信度,及各种统计量意义。
获取模型参数方法 根据训练数据集让机器自己学习,其实是一种数值计算方法,给参数初始值后根据损失不断迭代修正参数,使得损失达到最小。往往通过梯度下降等算法搜索损失函数的最小点。 根据样本数据进行参数估计,常用MLE和矩估计,讲究估计的无偏性、相合性、P-Value
模型验证方法 直接用数据集验证,通常将数据集先分成training data和testing data,把training data上训练得出的模型放到testing data上检验效果。 一般不做交叉验证,而用各种统计量假设检验拟合优度和置信度来评价模型。交叉验证是一种直观的实证手段,但结果具有偶然性,而统计学讲究数学上的一般性。
分类 监督学习无监督学习强化学习,或者分为统计学习和深度学习。深度学习跟统计学联系不大。 有多种分类方法,按学科发展历史分为经典统计学(频率统计学)和贝叶斯统计学,按功能分为描述统计和推断统计,按研究重点分为理论统计学和应用统计学。此外,统计学可应用于不同学科,衍生出统计学分支领域,例如生物信息学计量经济学量子力学随机信号处理等。
Python典型的库 sklearn, tensorflow, keras, XGBoost等 scipy, statsmodels

 

你可能感兴趣的:(Python,统计学,机器学习)