C++实现windows上的faster-rcnn遇到难题,无所适从了,写篇博客冷静一下......
《白话机器学习算法》【新加坡】黄莉婷 苏川集 著 武传海 译
全书一共12个章节,可分为1+11节:第一节为基础知识,其余十一节为一些算法理论。
数据科学:处理准备待分析的数据,根据研究挑选合适的算法,对算法的参数进行调优,以便优化结果,创建模型并比较。
1.1准备数据
数据格式;变量类型;变量选择;特征工程;缺失数据。
1.2选择算法
无监督学习:K均值聚类,主成分分析,关联规则,社会网络分析
监督学习:回归分析,K最近邻,支持向量机,决策树,随机森林,神经网络
强化学习:多臂老虎机
额外内容:学习方式区别
1.3参数调优
算法 | |
回归分析 | 正则化参数(针对套索回归和岭回归) |
K最近邻算法 | 最近邻数量 |
支持向量机 | 软间隔常量、核参数、不敏感参数 |
决策树 | 终端节点的最小尺寸、~最大数量、最大树深度 |
随机森林 | 决策树的所有参数、决策树数量、每次拆分所选的变量数 |
神经网络 | 隐藏层数量、每层神经元数量、训练迭代次数、学习速度、初始权重 |
1.4评价模型
评价指标:预测准确率、混淆矩阵(FP/TP/TN/FN)、均方根误差(回归指标)、交叉验证
1.5小节
准备数据-选择算法,为数据建立模型-调整算法参数,优化模型-根据准确度评价模型
(主要讲解了一个示例,根据喜欢看的电影分析影迷的性格特征)
难点:如何确定K值
具体原理以及实现代码:文章1,文章2
简述算法步骤:
a. 随机或根据经验定义k个伪中心点;
b. 将其余各个数据点分配给最近的伪中心点,得到K个群组1;
c. 根据群组成员分布,调整伪中心点位置;
d. 重复步骤b、c直到群组不再变化。
局限性:
a、每个数据点只能属于一个群组
b、群组假定是正圆形的
c、群组被假定是离散的
有助于数据可视化,有助于发现群组
一段有趣的主成分分析对白
这是高手(深入浅出讲解主成分分析)
后续讲解示例(分析食物种类)
技巧包括:数据可视化,仅限三维或者更少;确定主成分数量,通过累计方差贡献率的提取,把握较少的变量;主成分越少,模型的泛化能力就越强。
局限性:
a、散度最大化:主成分分析的重要假设未必有用:数据点最分散的维度是最有用的。
b、解释成分:重大难题是必须对其产生的成分进行解释,但有时很难解释变量组合的原因。
c、正交成分:算法总是生成正交主成分,成分之间存在正交关系。
验证:独立主成分验证主成分分析的结果,作出必要补充。
在商品购买中关联规则可以揭示商品之间的关联信息。
一些名词:支持度、置信度、提升度、项集
相关名词解释示例
另外:{X->Y}的提升度为1,表示二者无关联;提升度大于1,表示购买X后,也会购买Y;提升度小于1,表示购买X后,一般不会购买Y。
先验原则以及寻找具有高支持度的项集:
使用先验原则:如果某个项集出现的不频繁时,那么包含它的更大的项集也必然出现的不频繁。
寻找具有高支持度的项集:
a、列出只包含一个项集的元素;b、计算每个项集的支持度,保留那些满足最小支持度阈值条件的项集,淘汰不符合要求的项集;c、向候选项集中增加一个元素,利用步骤2中保留的项集产生所有可能的组合;d、重复步骤2和3,为越来越大的项集确定支持度,直到没有待检查的新的项集。
寻找具有高置信度或高提升度的关联规则:
除了识别具有高支持度的项集外,先验原则还可以识别具有高置信度或者高支持度的关联规则,因为一旦寻找出高支持度的项集,寻找关联规则便很简单,因为置信度和支持度都是基于关联规则计算出来的。举个例子,如果{x,y->z}的置信度很低,那么包含相同元素,并且箭头右端都是苹果的规则都含有较低的置信度,根据先验原则,这些置信度较低的原则将会被移除,如此以来,待检查的候选项便很少。
局限性:
a、计算成本高:尽管使用先验原则,但库存量很大或者支持度阈值很低时候,候选项集依然很多,解决办法是使用高级数据结构对候选项集进行更高效的分类,减少比较次数。b、假关联:为确保关联的准确性,必须进行验证。
为探究人际关系,比如找出重要人物对其群体的影响,可以运用社会网络分析。
力导向算法:不存在联系的节点彼此排斥,存在练习的节点彼此吸引,吸引力的强弱取决于联系的紧密程度。
louvain方法:louvain算法原理及其设计实现
局限:重要但较小的群组可能被吞并;有多种可能的聚类配置。
pagerank算法:PageRank算法详解
局限性:偏向于旧节点,可定期更新pankrage值。
作用:1.考虑更多预测变量改善预测结果;2.比较各个预测变量的强弱。
一般房价预测示例,考虑两个问题·:如何得到最优权重组合(梯度下降算法猜测合适的权重组合),如何解释他们。
梯度下降算法:详解以及实现
随机梯度下降:每次迭代不是采用所有的数据点,而是只从其中选择一个进行参数调整,或可进入局部最优,它的缺点只在更为复杂的模型中,简单的回归分析无须担心。
回归系数:回归变量权重的正式名称。表示某个预测变量相比于其他预测变量的影响大小,数据处理之前一定要进行标准化,消除量纲。
相关系数r=(-1,1),包含两个概念,关联方向和关联强度。
局限性:a、对异常值敏感;b、造成相关预测变量权重失真;c、弯曲的趋势;d、并不说明存在因果关系。
*感觉没什么重点好写,留个痕迹*