吴恩达(机器学习笔记一)

吴恩达(机器学习笔记一)

1.什么是机器学习

第一种定义:Arthur Samuel,在进行特定编程的情况下,给予计算机学习能力的领域;(下棋)第二种; Tom Mitchell ,一个程序被认为能从经验 E 中学习,解决任务 T,达到性能度量值P,当且仅当,有了经验 E 后,经过 P 评判,程序在处理 T 时的性能有所提升。经验E 就是程序上万次的自我练习的经验;任务 T 就是下棋,性能度量值 P 呢,就是它在与一些新的对手比赛时,赢得比赛的概率;
问题:我们假设您的电子邮件程序会观察收到的邮件是否被你标记为垃圾邮件。在这种 Email 客户端中,你点击“垃圾邮件”按钮,报告某些 Email 为垃圾邮件,不会影响别的邮件。基于被标记为垃圾的邮件, 您的电子邮件程序能更好地学习如何过滤垃圾邮件。请问,在这个设定中,任务 T 是什么?性能度量值 P?
答:任务T是如何将将邮件正确的分类;经验E就是每次被自己所标记的垃圾邮件;性能度量P,在垃圾邮件分类中,分类正确的概率;

2,监督学习

监督学习:指的就是我们给学习算法一个数据集。这个数据集由“正确答案”组成,从这些数据中来预测;
监督学习又分为;回归问题和分类问题
小测验:假设你经营着一家公司,你想开发学习算法来处理这两个问题:

  1. 你有一大批同样的货物,想象一下,你有上千件一模一样的货物等待出售,这时你
    想预测接下来的三个月能卖多少件?
  2. 你有许多客户,这时你想写一个软件来检验每一个用户的账户。对于每一个账户,
    你要判断它们是否曾经被盗过?那这两个问题,它们属于分类问题、还是回归问题?
    答:问题1是一个回归问题,因为你知道,如果我有数千件货物,我会把它看成一个实数,一个连续的值。因此卖出的物品数,
    也是一个连续的值。(可以根据每个月卖出的数量,利用某种回归曲线来预测)
    问题2是一个分类问题,因为我会把预测的值,用 0 来表示账户未被盗,用 1 表示账户曾经被拉黑过。所以我们根据账号是否被拉黑过,把它们定为 0 或 1,然后用算法推测一个账号的标签是 0 还是 1,因为只有少数的离散值。

3.无监督学习

在无监督学习中没有任何的标签或者有相同的标签或者就是没标签,无监督学习就能判断出数据有两个不同的聚集簇。叫聚类算法
无监督学习也就是说,只有一大堆数据,但是没有指定标签,需要用聚类算法自动的去把他们分成不同的聚集簇。
有很多例子:谷歌新闻搜索非常多的新闻事件,自动地把它们聚类到一起。所以,这些新闻事件全是同一主题的,所以显示到一起;鸡尾酒宴问题,

你可能感兴趣的:(学习笔记)