机器学习那些事

学习需要知识,机器学习不是魔术,它无法凭空变出东西,它所做的是由少变多,编程就像所有的工程技术那样,意味着大量的工作,必须从头开始建造一切。而机器学习更像种田,它让大自然做大部分工作,农名将种子与肥料混合种出庄稼。学习器(大自然)将知识(种子)和数据(肥料)结合"种出"程序。

学习 = 表示 + 评价 + 优化

大部分算法都是由这三部分组成

表示(Representation)

一个分类器必须用计算机可以处理的某种形式语言表示,选择某种特定的分类器集和,该集合被称作学习器的假设空间(hypothesis space)

评价(Evaluation)

我们需要一个评价函数来判断分类器的优劣,评价函数可包括机器学习算法内部使用的评价函数和分类器进行优化的外部评价函数

优化(Optimization)

我们需要一种搜索方法,能够在假设空间找到评价函数得分最优的那个分类器,初学者通常采用现成的优化方法,之后再用定制专门的优化方法来替代。
机器学习那些事_第1张图片

机器学习的常见问题

1.防止过拟合

泛化(generalization)很重要,常用的防止过拟合方法包括:

  • 交叉验证
  • 对评价函数增加正则项
  • 卡方测试(决定是否增加新结构,看看类别分布是否因为增加这个结构而不同,当数据非常缺乏时,这项技术非常有用)

2.维度灾难

问题描述:许多在低纬空间表现很好的算法,当输入是高纬时,计算变得不可行,在机器学习领域,这有更多的意义。随着样例维度(特征数目)的增长,正确泛化的难度会以指数级增长,原因是同等规模的数据集只能覆盖越来越少的 输入空间比例。更严格的讲,机器学习所(显示或隐示)依赖的基于相似度的推理在高维空间不再有效。

机器学习项目成功的保证

  • 特征工程(Feature Engineering)是关键
  • 更多的数据胜过更聪明的算法
  • 要学习很多模型,而不仅仅是一个(模型融合)
  • 简单并不意味着准确
  • 可表示并不意味着可学习
  • 相关并不意味着因果

----------以上内容参考论文 “A Few Useful Things to Know About Maching Learning”

你可能感兴趣的:(机器学习原理,机器学习)