吴恩达机器学习总结:第八课 机器学习系统设计(大纲摘要及课后作业)

为了更好的学习,充分复习自己学习的知识,总结课内重要知识点,每次完成作业后都会更博。

英文非官方笔记

总结

1.机器学习系统设计

    (1)接触如何组合一个系统

    (2)这部分需要很少的数学方法,但是数学方法可以帮助你理解算法

 2.优先处理需要处理的问题--垃圾邮件分类
     (1)选择你自己的特征
        a.选择100个词 
        b.编入长向量 
        c.定义特征向量X,一般n是10000-50000
    (2)怎样有效提高系统准确性--头脑风暴,集思广益
    (3)误差分析 --先建立一个你可以快速完成的简单的算法  
        a.花至少一天时间建立一个初始的引导算法(在交叉验证数据上实现和测试)
        b.绘制学习曲线来决定更多数据顿号、特征是否有助于算法优化(这是避免过早
优化的方法,也是该让证据指导发展的决策)
        c.误差分析(在交叉验证集中手动检查样本、用系统模式帮助设计新的特征来避
免这些错误)例子:在交叉验证集里建立500个示例的分类器,假如会得到100个错
误,仔细查看100的错误并对他们进行分类(比如邮件类型,或者拼写错误类型邮
件,不平常的标点等)
         d.数值评估的重要性(具有一种数字评估算法)
         e.在交叉验证集而不是测试集进行误差分析
3.误差分析的误差指标
(1)精准度和回召率
        a.真阳性(我们猜测1,实际是1)
        b.假阳性(我们猜测1,实际是0)
        c.真阴性(我们猜测0,实际是0)
        d.假阴性(我们猜测0,实际是1)
(2)精准度P
        a.  P =真阳性/预测阳性=真阳性/(真阳性+假阳性)
        b.  P越大,越接近1,说明效果越好
(3)回召率R
        a.  R =真阳性/实际阳性=真阳性/(真阳性+假阴性)
        b.  R越大,越接近1,说明效果越好
4.交易准确度和回召
(1)阈值决定交易,fscore(F1=2*PR/(p+R))
(2)阈值提供了一种控制精确度和召回率之间权衡的方法,F1给出评估指标(尝试一
系列阈值并在交叉验 证集上评估它们,然后选择给出最佳fscore的阈值)
  5.机器学习的数据(低偏差 - >使用复杂算法   低方差 - >使用大训练集)

你可能感兴趣的:(个人学习)