《白话机器学习算法》读书札记

C++实现windows上的faster-rcnn遇到难题,无所适从了,写篇博客冷静一下......

《白话机器学习算法》【新加坡】黄莉婷 苏川集 著   武传海 译

全书一共12个章节,可分为1+11节:第一节为基础知识,其余十一节为一些算法理论。

1.基础知识

数据科学:处理准备待分析的数据,根据研究挑选合适的算法,对算法的参数进行调优,以便优化结果,创建模型并比较。

1.1准备数据

数据格式;变量类型;变量选择;特征工程;缺失数据。

1.2选择算法

无监督学习:K均值聚类,主成分分析,关联规则,社会网络分析

监督学习:回归分析,K最近邻,支持向量机,决策树,随机森林,神经网络

强化学习:多臂老虎机

额外内容:学习方式区别

1.3参数调优

算法  
回归分析 正则化参数(针对套索回归和岭回归)
K最近邻算法 最近邻数量
支持向量机 软间隔常量、核参数、不敏感参数
决策树 终端节点的最小尺寸、~最大数量、最大树深度
随机森林 决策树的所有参数、决策树数量、每次拆分所选的变量数
神经网络 隐藏层数量、每层神经元数量、训练迭代次数、学习速度、初始权重

1.4评价模型

评价指标:预测准确率、混淆矩阵(FP/TP/TN/FN)、均方根误差(回归指标)、交叉验证

1.5小节

准备数据-选择算法,为数据建立模型-调整算法参数,优化模型-根据准确度评价模型

2.K均值聚类

(主要讲解了一个示例,根据喜欢看的电影分析影迷的性格特征)

难点:如何确定K值

具体原理以及实现代码:文章1,文章2

简述算法步骤:

a. 随机或根据经验定义k个伪中心点;

b. 将其余各个数据点分配给最近的伪中心点,得到K个群组1;

c. 根据群组成员分布,调整伪中心点位置;

d. 重复步骤b、c直到群组不再变化。

局限性:

a、每个数据点只能属于一个群组

b、群组假定是正圆形的

c、群组被假定是离散的

3.主成分分析

有助于数据可视化,有助于发现群组

一段有趣的主成分分析对白

这是高手(深入浅出讲解主成分分析)

后续讲解示例(分析食物种类)

技巧包括:数据可视化,仅限三维或者更少;确定主成分数量,通过累计方差贡献率的提取,把握较少的变量;主成分越少,模型的泛化能力就越强。

局限性:

a、散度最大化:主成分分析的重要假设未必有用:数据点最分散的维度是最有用的。

b、解释成分:重大难题是必须对其产生的成分进行解释,但有时很难解释变量组合的原因。

c、正交成分:算法总是生成正交主成分,成分之间存在正交关系。

验证:独立主成分验证主成分分析的结果,作出必要补充。

4.关联规则

在商品购买中关联规则可以揭示商品之间的关联信息。

一些名词:支持度、置信度、提升度、项集

相关名词解释示例

另外:{X->Y}的提升度为1,表示二者无关联;提升度大于1,表示购买X后,也会购买Y;提升度小于1,表示购买X后,一般不会购买Y。

先验原则以及寻找具有高支持度的项集:

使用先验原则:如果某个项集出现的不频繁时,那么包含它的更大的项集也必然出现的不频繁。

寻找具有高支持度的项集:

a、列出只包含一个项集的元素;b、计算每个项集的支持度,保留那些满足最小支持度阈值条件的项集,淘汰不符合要求的项集;c、向候选项集中增加一个元素,利用步骤2中保留的项集产生所有可能的组合;d、重复步骤2和3,为越来越大的项集确定支持度,直到没有待检查的新的项集。

寻找具有高置信度或高提升度的关联规则:

除了识别具有高支持度的项集外,先验原则还可以识别具有高置信度或者高支持度的关联规则,因为一旦寻找出高支持度的项集,寻找关联规则便很简单,因为置信度和支持度都是基于关联规则计算出来的。举个例子,如果{x,y->z}的置信度很低,那么包含相同元素,并且箭头右端都是苹果的规则都含有较低的置信度,根据先验原则,这些置信度较低的原则将会被移除,如此以来,待检查的候选项便很少。

局限性:

a、计算成本高:尽管使用先验原则,但库存量很大或者支持度阈值很低时候,候选项集依然很多,解决办法是使用高级数据结构对候选项集进行更高效的分类,减少比较次数。b、假关联:为确保关联的准确性,必须进行验证。

5.社会网络分析

为探究人际关系,比如找出重要人物对其群体的影响,可以运用社会网络分析。

力导向算法:不存在联系的节点彼此排斥,存在练习的节点彼此吸引,吸引力的强弱取决于联系的紧密程度。

louvain方法:louvain算法原理及其设计实现

局限:重要但较小的群组可能被吞并;有多种可能的聚类配置。

pagerank算法:PageRank算法详解

局限性:偏向于旧节点,可定期更新pankrage值。

6.回归分析

作用:1.考虑更多预测变量改善预测结果;2.比较各个预测变量的强弱。

一般房价预测示例,考虑两个问题·:如何得到最优权重组合(梯度下降算法猜测合适的权重组合),如何解释他们。

梯度下降算法:详解以及实现

随机梯度下降:每次迭代不是采用所有的数据点,而是只从其中选择一个进行参数调整,或可进入局部最优,它的缺点只在更为复杂的模型中,简单的回归分析无须担心。

回归系数:回归变量权重的正式名称。表示某个预测变量相比于其他预测变量的影响大小,数据处理之前一定要进行标准化,消除量纲。

相关系数r=(-1,1),包含两个概念,关联方向和关联强度。

局限性:a、对异常值敏感;b、造成相关预测变量权重失真;c、弯曲的趋势;d、并不说明存在因果关系。 

7.K近邻法和异常检测

8.支持向量机

9.决策树

10.随机森林

11.神经网络

12.A/B测试和多臂老虎机

*感觉没什么重点好写,留个痕迹*

 

 

 

 

 

 

 

你可能感兴趣的:(机器学习)