day1-李宏毅机器学习

目录

  • 心得体会
    • 一、hand-crafted rules
    • 二、三类学习方法
    • 三、迁移学习
    • 四、强化学习


心得体会

今天开始参加开源学习组织datawhale的组队学习--李宏毅机器学习,再次写一系列文章记录我的学习笔记与感悟。

李宏毅老师的讲课生动形象,中间自然而然穿插的英语让人听起来很舒服,有点口音也让人觉得课堂很有趣。初识机器学习,首先是机器学习的步骤(如何将大象放入冰箱?)第一个步骤就是找一个function,第二个步骤让machine可以衡量一个function是好还是不好,第三个步骤是让machine有一个自动的方法,有一个好演算法可以挑出最好的function。体会到单靠hand-crafted rules的if堆叠是无法推动人工智能的发展的,总结了三大类学习方法的区别和简单解释,自己查阅了迁移学习与强化学习的资料,感觉机器学习的相关算法真的很有趣,像是在模拟人类学习一样~~~
在这里感谢datawhale开源社区的小伙伴们给予的学习帮助,今后的学习也要一样加油呀


提示:以下是本篇文章正文内容

一、hand-crafted rules

machine learning之前基本都是靠hand-crafted rules去实现所谓人工智能。
hand-crafted rules实现的人工智能,其本质就是通过许多if判断语句去实现,然而并不能完成比较复杂的任务,由于需要编写大量的if语句,工作量非常大不说还会经常出现一些可笑的错误,早期的一些所谓智能聊天机器人,基本都是用这种技术。
基本的hand-crafted rules加上一些其他专业领域的基础知识,就被很多人用来忽悠是人工智能。

二、三类学习方法

1、监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类。

监督式学习(Supervised learning),是一个机器学习中的方法,可以由训练资料中学到或建立一个模式( learning model),并依此模式推测新的实例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

2、非监督学习:直接对输入数据集进行建模,例如聚类。

无监督式学习(Unsupervised Learning )是人工智能网络的一种算法(algorithm),其目的是去对原始资料进行分类,以便了解资料内部结构。有别于监督式学习网络,无监督式学习网络在学习时并不知道其分类结果是否正确,亦即没有受到监督式增强(告诉它何种学习是正确的)。其特点是仅对此种网络提供输入范例,而它会自动从这些范例中找出其潜在类别规则。当学习完毕并经测试后,也可以将之应用到新的案例上。

3、半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数。

半监督学习的基本思想是利用数据分布上的模型假设, 建立学习器对未标签样本进行标签。从样本的角度而言是利用少量标注样本和大量未标注样本进行机器学习,从概率学习角度可理解为研究如何利用训练样本的输入边缘概率 P( x )和条件输出概率P ( y | x )的联系设计具有良好性能的分类器。这种联系的存在是建立在某些假设的基础上的,即聚类假设(cluster assumption)和流形假设(maniford assumption)。

三、迁移学习

迁移学习(Transfer learning) 顾名思义就是就是把已学训练好的模型参数迁移到新的模型来帮助新模型训练。考虑到大部分数据或任务是存在相关性的,所以通过迁移学习我们可以将已经学到的模型参数(也可理解为模型学到的知识)通过某种方式来分享给新模型从而加快并优化模型的学习效率不用像大多数网络那样从零学习(starting from scratch,tabula rasa)。

近年来,我们越来越擅长训练深度神经网络,使其能从大量的有标签的数据中学习非常准确的输入到输出的映射,无论它们是图像、语句还是标签预测。我们的模型仍旧极度缺乏泛化到不同于训练的环境的能力。什么时候需要这种能力呢?就是你每一次将你的模型用到现实世界,而不是精心构建的数据集的时候。现实世界是混乱的,并且包含大量全新的场景,其中很多是你的模型在训练的时候未曾遇到的,因此这又使得模型不足以做出好的预测。将知识迁移到新环境中的能力通常被称为迁移学习(transfer learning)

前百度首席科学家、斯坦福的教授吴恩达(Andrew Ng)在广受流传的 2016 年 NIPS 会议的教程中曾经说过:「迁移学习将会是继监督学习之后的下一个机器学习商业成功的驱动力」。

四、强化学习

强化学习算法的思路非常简单,以游戏为例,如果在游戏中采取某种策略可以取得较高的得分,那么就进一步「强化」这种策略,以期继续取得较好的结果。这种策略与日常生活中的各种「绩效奖励」非常类似。我们平时也常常用这样的策略来提高自己的游戏水平。

在 Flappy bird 这个游戏中,我们需要简单的点击操作来控制小鸟,躲过各种水管,飞的越远越好,因为飞的越远就能获得更高的积分奖励。

这就是一个典型的强化学习场景:

机器有一个明确的小鸟角色——代理
需要控制小鸟飞的更远——目标
整个游戏过程中需要躲避各种水管——环境
躲避水管的方法是让小鸟用力飞一下——行动
飞的越远,就会获得越多的积分——奖励
day1-李宏毅机器学习_第1张图片
你会发现,强化学习和监督学习、无监督学习 最大的不同就是不需要大量的“数据喂养”。而是通过自己不停的尝试来学会某些技能。


参考资料:
迁移学习 (Transfer Learning):https://www.zhihu.com/question/41979241
强化学习(RL):https://easyai.tech/ai-definition/reinforcement-learning/
机器学习视频:https://www.bilibili.com/video/BV1Ht411g7Ef

你可能感兴趣的:(李宏毅机器学习,人工智能,机器学习,深度学习)