《数据之美》:概括描述了20个数据挖掘、数据可视化、云存储及其他数据处理相关项目

这本书相对来说还算比较新,是从英文版翻译过来的。英文版2009年出版。中文版2010年10月出版。由20篇相互独立的文章组成。每篇讲一个数据处理相关的项目。不涉及具体的技术细节,仅仅是概括说明原理、思路、过程、结果。

总体来说,阅读起来有点晦涩。感觉作者基本都明白英文版的意思,不过有些地方中文表达上不够通顺。这在IT业的翻译书中已经算不错的组合了,强过中文过关但是不懂技术的情况。

其中讲数据可视化的文章有几篇。还都比较有意思。比如第六章“照片档案的地理之美”,说的是英国的一个名叫“Geograph”的项目,收集了大量的英国的照片及普通用户对照片的标签,作者分析这些标签,并且用图形化的方法把许多分析结果展现出来;第11章“都市数据可视化”,讲的是把警察局的犯罪发生的数据与地图结合起来,预测犯罪发生的地点与类型从而提早预防;第12章“Sense.us的设计”讲以可视化手段分析美国150年以来的人口数据,得出许多有趣的结论;第17章“数据浅析:探索形形色色的社会定型”说的是用图形化方法分析一个网站的大量用户相互之间的评论;第19章“美丽的政治数据”同样使用可视化手段分析选举相关数据。

第4章“PNUTShell中的云存储设计”,说的是雅虎的一个云存储的项目PNUTShell的设计思路和优缺点。这个项目面对的应用主要是社交方面的应用,数据一致性要求不高,可用性、扩展性要求很高。因此就对一致性做了一些牺牲,满足比较高的可用性和扩展性。数据只要最终按照操作顺序执行了相关的操作,最终一致就可以了。每一条数据都记录了版本号,好知道自己执行到那个步骤了。每一条记录还需要记录自己是不是主备份。写操作要先写主备份然后逐步同步到其他数据库上。如果系统发现用户比较频繁地写数据但是主备份所在服务器的物理距离与用户的物理距离比较远,就自动把主备份记录转移到距离用户更近的服务器上。如果主备份损坏,系统也会从剩下的数据中挑选最合适的一条做主备份。

第9章“探寻Deep Web”说的是如何让搜索引擎自动搜索Form表单。Form表单可以有无穷个组合,这篇文章给出一些基本思路来让搜索引擎判断如何去选择下拉列表或者去填写文本框,目标是用尽量少的操作步骤尽量多地获取form表单后面的数据库中的内容。

你可能感兴趣的:(数据挖掘)