在2010年以前,机器学习的应用在某些特定领域发挥了巨大的作用,如车牌识别,网络攻击防范,手写字符识别等等。但是,从2010年以后,随着大数据概念的兴起,机器学习大量的应用都与大数据高度耦合,几乎可以认为大数据是机器学习应用的最佳场景。
譬如,但凡你能找到的介绍大数据魔力的文章,都会说大数据如何准确准确预测到了某些事。例如经典的Google利用大数据预测了H1N1在美国某小镇的爆发。
图 Google成功预测H1N1
百度预测2014年世界杯,从淘汰赛到决赛全部预测正确。
所以让我们开启机器学习新篇章,让机器学习更多的运用到我们的现实生活中吧!
包含关系:人工智能>机器学习>深度学习
人工智能是机器学习想达到的目标,而机器学习是达到人工智能的手段。
深度学习是机器学习的一个小部分。
人类设定好的天性本能
使用人工设定规则的问题
1、什么是机器学习
写程序让其具备学习能力
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
机器学习是对能通过经验自动改进的计算机算法的研究。
机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
2、机器学习=找一个函数的能力(根据数据)
f(脑电波) = “Deep Sleeping”
f(图片) = “Cat”
f(棋盘) = “5-5”(next action)
f(“How are you?”) = “I am fine!”
3、更广泛的机器学习定义
从数据中自动提取知识
最常用定义:“计算机系统能够利用【经验】提高自身性能”
可操作定义:“机器学习本质就是一个基于【经验数据】的函数估计问题”
统计学定义:“提取重要模式、趋势,并【理解数据】,从数据中学习“
1、A set of function
f1,f2,f3…
准备一个函数集合
2、Training Data
看到什么图片输出什么动物名称
function input:
function output:
有监督学习:所有的输入输出都是正确的,类似有老师监督。
3、Pick the “Best” Function
挑选出最好的函数 f ’
4、Using f '(测试过程)
给模型喂新的图片(测试数据),具备举一反三的能力,泛化能力。
机器学习模块
监督学习
举例:预测PM2.5 输出过去的PM2.5的数值,预测明天的PM2.5
挑选出和实际最相符合的函数,进行预测。
2.Classification (分类)
输出标签
二分类:函数判断这张图片是不是猫
举例:垃圾邮件、过滤系统。给机器喂一大堆邮件,告诉他哪些是垃圾邮件,机器会自动学习。
多分类:从集合中把猫狗分出来
举例:文本分类。新闻分类,函数输入是新闻,函数输出是标签(政治、娱乐、体育…),学习出最优的判别器。
半监督学习:减少对标签的需求量
有少量的有标签的数据集,还有大量的无标签的数据集
迁移学习
迁移学习是机器学习中的一个名词,是指一种学习对另一种学习的影响,或习得的经验对完成其他活动的影响。迁移广泛存在于各种知识、技能与社会规范的学习中。
迁移学习专注于存储已有问题的解决模型,并将其利用在其他不同但相关问题上。比如说,用来辨识汽车的知识(或者是模型)也可以被用来提升识别卡车的能力。计算机领域的迁移学习和心理学常常提到的学习迁移在概念上有一定关系,但是两个领域在学术上的关系非常有限。
无监督学习
机器看大量的文章,学会每个单词的意思。任何数据都没有标签。
结构化学习
强化学习
强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。
1、基本术语
数据
泛化能力
机器学习的目标是使得学到的模型能很好的适用于“新样本”,而不仅仅是训练集合,我们称模型适用于新样本的能力为泛化(generalization)能力。
通常假设样本空间中的样本服从一个未知分布,样本从这个分布中独立获得,即“独立同分布”(i.i.d)。一般而言训练样本越多越有可能通过学习获得强泛化能力的模型。
2、假设空间
3、归纳偏好
假设空间中有三个与训练集一致的假设,但他们对(色泽=青绿;根蒂=蜷缩;敲声=沉闷)的瓜会预测出不同的结果:
归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。
“奥卡姆剃刀”是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,选最简单
的那个”。具体的现实问题中,学习算法本身所做的假设是否成立,也即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。
4、”没有免费午餐“定理
一个算法如果在某些问题上比另一个算法ℬ好,必然存在另一些问题,ℬ比好,也即没有免费的午餐定理。