白话大数据与机器学习 - 电子书下载(高清版PDF格式+EPUB格式)


白话大数据与机器学习-高扬

            在线阅读                   百度网盘下载(equ6)


白话大数据与机器学习 - 电子书下载(高清版PDF格式+EPUB格式)_第1张图片

书名:白话大数据与机器学习

作者:高扬

格式:EPUB, HTMLZ, PDF

路径:点击打开

出版:机械工业出版社

排序作者:高扬

排序书名:白话大数据与机器学习

日期:09 12月 2018

uuid:f8d0b181-3920-4440-92c4-17095cf112ff

id:522

出版日期:6月 2016

修改日期:09 12月 2018

大小:12.65MB

语言:中文


1.4 小结

大数据产业已经向我们敞开了大门,整个产业才刚刚开始萌芽,只要我们肯多进行观察、学习和思考,任何领域任何业务都会享受到大数据产业为我们带来的各种好处。

笔者问过一些试读过本书的朋友,他们有的是大专毕业,有的是大学本科毕业但是由于专业设定的原因没有学过高等数学,基本还是能够看懂。

如果读者已经完成大专或者大本的学业,而且加减乘除、幂指对函数这些概念基本没问题;

如果读者对“一个六面的骰子在丢出后出现2点的概率是1/6”基本没问题;

如果读者对“一个匀质的硬币在扔出1000次后,正面朝上和反面朝上的次数基本各为500次”没问题;那么请读者放心大胆地跟随我们,我们将用最令人放松的聊天方式开始这次轻松的白话数据挖掘与机器学习之旅。

2.6 小结

数据的认识和数据的应用是大数据与机器学习的基础,数据、信息、算法、概率、数据挖掘、商业智能,这些是大数据最为核心的基础概念与要素。当我们对这些概念有了清楚的认识,并能够清楚说出这些概念之间的辩证关系时,我们就已经在数据大门的里面了,怎么样,是不是很简单?下面就让我们一步一步地深入理解这些概念的细节以及它们的应用技巧吧。

3.3 小结

排列组合以及利用排列组合计算的古典概型在生产生活中可以解决很多问题。刚刚这些例子我们已经看到了不少用法和技巧。

在这里有几个概念可能会被误读,我们需要在这里澄清一下。

最容易发生的误解是,扔硬币的时候,如果前3次出现“正”,那第4次出现“反”的概率就增大。

这里面的误解我认为有两个层面。

误解1:对“概率”一词本身的理解有偏差。

“概率”一词的汉语含义是几率、可能性、可能程度。我们通常会以我们自己臆想的方式去猜测某件事情的可能性比较高或者比较低,这会导致我们对概率大小理解的偏差。

在使用排列组合与古典概型的方法时,有一个大原则就是这些概率实际上是通过统计计算出来的,请注意,由统计得出概率是人们得到概率最原始的方法,包括后面将要介绍的条件概率也是一样的道理。也就是说,硬币扔出正面和反面各50%的概率是多少,这不是因为硬币本身有两个面,而是通过多次扔硬币,然后用得到正面的次数除以总数得到扔出正面的概率——这个才是定义。而如果硬币本身不是匀质的,如由于图案雕花构造或者铸币金属本身的特性导致正面较重,反面较轻,很有可能导致扔出正面的概率为60%,反面的概率为40%的情况(抑或其他比例)。请注意,这个结论同样是通过多次扔硬币得出来的,例如扔1000次,发现有600次是正面,400次是反面。这时再计算扔3次硬币会产生3个正面的概率就不是3个1/2相乘了,而是3个0.6相乘了。

既然如此,概率本身的解释就是对于大量样本分布比例的解释,而不是对单次事件的可能性的解释。我们说扔硬币产生正面概率50%,反面概率50%,其实是在说扔1000次硬币,理论上会有500次产生正面,500次产生反面;扔10000次硬币,理论上会有5000次产生正面,5000次产生反面。这才是概率本身的含义,而对于单次扔硬币的解释没有意义。

误解2:事件之间的独立性。

扔出一次硬币,得到正面,下一次重新再扔,那么这一次扔硬币和上一次扔硬币有关系吗?学过概率论的朋友都不会陌生,答案是“没有关系”。没学过概率论的朋友其实稍微想一想也能得出这个结论。

4.11 小结

在前4章里学习了一些统计和概率的基本知识,如建立指标,是使用加和值,还是使用加权平均值,在制作报表的时候是否应该适当使用指标的同比、环比进行对比,是否应该适时地使用抽样来进行用户调研,是否可以在报表中加入一些分布图来让阅读者有更直观性的认识,是否能用排列组合的方式算出一些事件在生产中发生的概率……

统计和分布这个部分是统计和概率学的基础部分,这些知识能用来解哪些题?能够用在什么场合?

要回答这些问题需要先理解统计和分布本身的意义,它们是为描述大量样本的宏观样态而出现的,究其根本也是描述为目的,它不是算法,所以通常无法直接拿来解题,但是它能用最简洁的方式给我们带来大量样本宏观样态下的画面感,更为直观。至于使用的场合,如果描述的对象是大量的样本,那么就用简洁的方式描述它的宏观状态的,即使用统计和分布中的描述方法。分布可以用来建模,也可以用来解决生产生活中的问题,上述例子就是很好的样本,读者可以试着再去找一些案例,只要满足分布的前置条件都是可以套用分布的结论和推广使用的。

5.3 小结

读到这里我们已经读完了前5章内容。如果觉得有些乏累,可以先喘口气,因为我们可以告一段落了。在前5章里我们讨论了排列组合、统计、概率、分布、指标等内容,附录里提供了数据收集以及其他辅助技术,如果使用好这些知识,日常运营中的多数问题就都能解决了。

后面的内容会更多偏重数据的深度挖掘和机器学习,对于基础运营人员来说这是要求更高的内容了。如果感觉前面的内容没什么困难那请放松心情继续往下读吧,它们虽然离生产生活会略远一些,但是同样不难。

6.5 小结

本章需要了解的是信息量的定义、信息熵的定义和计算方法,尤其是信息熵的计算方法,这在后面很多算法中都有应用。如果觉得这些例子还是让你体会不深,那也没关系,就记住定性的结论就好了,只有好处没有坏处。

7.5 小结

关于多维向量空间,只要掌握向量的定义、维度的定义即可。至于正交维度,请读者注意在日常生产生活中的设计技巧。

8.7 小结

从机器学习的角度来说,回归算法应该算作“分类”算法。它更像是人们先给了计算机一些样本,然后让计算机根据样本计算出一种公式或者模型,而在公式或者模型成立后,人们再给这个模型新的样本,它就可以把这个样本猜测或者说推断为某一分类。

不同的是,在回归中研究的都是具体的数值(实数),而分类算法则不一定,它的样本除了可以是数值外,可能很多是一些枚举值或者文本。读者只需要从这个角度来做感性上的区分即可。

在使用回归的过程中,要注意尽量避免出现过拟和欠拟,让函数描述在简洁和精确之间找一个平衡,这才是众多从统计而来的回归过程最后落地所要考虑的事情。过拟和欠拟不仅出现在回归方法中,在其他基于样本向量的统计归纳的模型训练中都有这样的问题,请读者一定要注意。

9.7 小结

聚类这一章的内容是机器学习中探索性较强的一章,是一类用归纳方式来进行认知和观察的方法体系。应该说聚类在我们发现和总结观察对象的共性和规律方面还是有很多应用场景的,例如在向量化相对完整的前提下找出忠诚客户的共性、找出流式客户的共性、找出疑似在业务场景中作弊的个案等,这些都可以尝试使用聚类的方法进行发掘和分析。请大家灵活运用。

10.7 小结

本章是整本书中比重比较大的一章,也是因为分类算法在生产生活中使用得也最为广泛。

应该注意到,大部分的分类算法都是基于统计概率的分类算法,而凡是基于统计概率的分类算法究其本质仍然是贝叶斯概率体系下的分类原则。以SVM算法为例,要找超平面来做类别的区分,但是类别区分的原则仍旧是根据已知样本的特征情况,也就是抽象后的多维空间向量信息特征来做分类标准。在超平面确定后,对新的待分类样本仍然是根据一个向量的特征值来判断其属于某分类或不属于某分类的概率为多少,究竟是哪一种更高。SVM本质上仍旧是根据特征向量在空间的分布来拟合分类概率。在判断新的待分类样本时,如果待分类样本处在超平面附近,那就仍然是一个模棱两可的样本,是一个归属或不归属一个分类概率相当的情况。

此外,有误判的问题几乎是没办法避免的,虽然这个结论多少让人觉得有点沮丧。但是,只要算法本身的成本和误判带来的损失在一个可接受的范围内即可,千万不要过于纠结高精度而裹足不前。

遗传算法在数学上其实是采用梯度下降的方法来求解问题的。所谓梯度在第8章介绍最小二乘法时已经涉及,只是当时没有这么提。在最小二乘法时设计的函数Q(a,b)中,误差Q是一个用a和b表示的函数,其实也可以看成z(x,y),z是用x和y来表示的。在讨论Q(a,b)的极值时,说到了偏微分的概念,也就是求沿着a轴方向和b轴方向的多组剖面上的切线斜率问题,最后找到两个方向上的斜率为0的位置作为候选点。这个结果是通过数学上求偏导数的方式推导计算出来的。而梯度下降的方法与此不同,它的思路是,不求偏导数,但是沿着整个曲面“行进”,当行进同样单位距离时函数值变化大,那就说明斜率大;而当行进同样单位距离时函数值变化小,那就说明斜率小。当行进一次函数值变化趋近0时,那就说明到了驻点附近。这也是一种很巧妙的思路。在极大值问题求解的过程中已经展示过这种方式的思路了。

11.4 小结

关联分析是数据挖掘中比较重要的一环,尤其是关于频繁项集的分析问题。

在计算机辅助进行的数据处理中,所有的频繁项集的问题都能用基于关系型数据库的统计方法进行分析,如果规模巨大则可以用分布式关系型数据库或者抽样数据进行分析。

关联分析在农业、军事、刑侦、医学等很多领域都有着广泛的应用,是帮助人们认识事物之间的关联关系的重要手段,在建立专家系统或者知识库的过程中,有着不可替代的作用,请读者多练习与思考。

12.4 小结

用户画像这个概念只需理解即可。每个公司有不同的用户画像的画法,只要掌握基本的方法,不怕试错,用户画像库是完全有可能收集成为一个对业务有足够帮助的参考系统的。

用这些标签和这些标签对应的用户行为,可以通过逻辑回归或者归纳树算法进行用户行为的预测,也可以由紧密型用户画像直接成为协同过滤的参考对象。大胆尝试,不要怕试错,用户画像不难。

13.5 小结

推荐系统是一个综合的生产过程,几乎所有用来提高转化率的方法都可以用来作为推荐系统的一部分。可以采用在本章中提到的协同过滤算法,可以采用基于用户画像的逻辑回归,也可以使用关键分析中的频繁项集去寻找可推荐的商品。

14.3 小结

由于篇幅有限,本章只介绍了文本分类方面的内容,文本分类是网站进行舆情分析、偏好猜测等行为的重要手段,读者掌握基本方法即可。

请注意,一般来说,文章越短分类的难度越大,准确性越差。这凭直觉也能感觉出来,一句很短的话肯定是能够在很多类型的文章中都有机会读到的,那么这样的句子是几乎没有办法去判断主旨内容的,要想知道主旨内容还是要通过大量的上下文。

15.8 小结

在学习了回归、朴素贝叶斯、决策树、支持向量机,以及本章讨论的人工神经网络以后,可以发现,这些算法的思路都有一个共同点,说到底都是研究多维向量空间分类的问题,都是根据众多的v(a,b,c,d,…)这样的训练样本到某一个或几个分类映射的关系,判断新的给定样本的分类归属问题。

每种算法都有自己优势,也都有自己的局限性。这就好比一个很大的工具箱,里面有电锯、钢锯、线锯等各种锯子,它们都是锯子,都是为了最终把一段原木变成一件精美的家具,但是每种工具都有自己擅长的场合,还有一些自己不擅长的场合。人们要做的事情就是掌握每种工具的优缺点,所谓“尺有所短寸有所长”,在不同的场合选用不同的工具,并注意同时规避不同工具的问题,这样就能达到事半功倍的效果。

16.6 小结

Hadoop、Spark、PrestoDB等大数据框架有着非常好的稳定性、扩展性、高可用性等优势,在企业应用中有着非常好的前景。

本章介绍的大数据框架基本都是分布式数据处理的框架,优势是处理单机不方便处理的数据存储、数据统计、数据排序的操作。但是对于迭代性较强的机器学习来说,刚刚介绍的这些大数据框架会有不适用的地方,有不少算法也不适合迁移到其上来进行操作。

建议使用以下两种办法。

办法一:使用抽样方法提取少量数据,把学习或分析挖掘的内容放在一台计算机上进行计算和处理。

办法二:使用分布式的深度学习框架来处理极大规模的机器学习数据,如Caffe,Caffe的最新版已经支持分布式GPU在CNN网络训练了。

17.3 小结

系统架构这个课题是一个辩证使用技术和方法论保证服务性价比的事情。任何技术、任何方法都有其特点和局限性,只有融会贯通地使用才能在架构优选中获得更好的思路和解决方案。

18.6 小结

数据的价值是一种不会枯竭的资源,它不断产生,不断被人挖掘,不会轻易到达生产量的上限,它能够解放生产力,从这个角度来说,它就像第一次工业革命时候的蒸汽机,第二次工业革命时候的电力一样有能量。

来源:我是码农,转载请保留出处和链接!

本文链接:http://www.54manong.com/?id=1175

'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646208", container: s }); })();
'); (window.slotbydup = window.slotbydup || []).push({ id: "u3646147", container: s }); })();

你可能感兴趣的:(白话大数据与机器学习 - 电子书下载(高清版PDF格式+EPUB格式))