数据挖掘编程指南_ch1

A Programmer's Guide to Data Mining_ch1


如果你每天坚持这种简单的练习,你将获得一些神奇的力量。在你还没有得到它之前,它显得非常神奇,但是你一旦得到它之后,就变得没什么奇妙了。

Shunryu Suzuki
Zen Mind, Beginner's Mind


数据挖掘编程指南_ch1_第1张图片

上图中的日本文字,初心,就代表着初学者的心的含义——即有着开放性思维的渴望探索一切可能的想法的人。大多数人都听到过下面这个故事的一些版本(很可能是从李小龙的龙争虎斗开始的)。一个教授正在寻找启示,于是他向一个得道高僧寻求心灵的导向。这个教授滔滔不绝地掌控了话语权,从讲述他在生活中所学到的所有东西到总结他写过的所有文章。高僧问他要不要喝茶,于是便开始往教授的茶杯里倒茶。他一直倒一直倒,直到茶水从茶杯里溢出到桌子,再流到地板上。“你在干什么?”教授大喊。“倒茶啊。”高僧还是边倒边说,“你的大脑就像这个茶杯,它已经被各种思想所填满,任何其他的东西都无法进入了。在我们开始探讨之前,你必须清空你的大脑。”我认为,最出色的程序员就是空杯子。他们用开放的大脑持续的探索性的技术(noSQL, node-js等等)。平庸的程序员的大脑都被世俗的谣言所蒙蔽——C++才是好的,Java是次的,PHP是唯一的网络编程语言,MySQL是唯一值得考虑的数据库。我希望读者朋友们 能从这本书里找到一些有价值的想法,我要求你们保持初学者的心去阅读这本书。就如Shunryu Suzuki说的:“在初学者的大脑里有无数种可能,在专家眼里只有几种而已。”

上面我还引用了Suzuki的另一个名言:如果你每天坚持这种简单的练习,你将获得一些神奇的力量。在你还没有得到它之前,它显得非常神奇,但是你一旦得到它之后,就变得没什么奇妙了。在你读完这本书之前,你可能会觉得这个系统如同潘多拉,亚马逊推荐系统,对恐怖分子的自动数据挖掘一样复杂,算法背后的数学一定是超级的复杂,恐怕只有博士才可以理解得来。我对本书的其中一个目标就是减少复杂性并给出一些涉及到的基本方法。但是在谷歌,在美国国家安全局和其他地方也不乏超级聪明的人在研发令人称奇的复杂算法,但是大部分数据挖掘依赖于易于理解的原则。在你阅读这本书之前,你也许会认为数据挖掘是件相当神奇的事情。等你看完这本书,我希望你将会觉得其实也没什么特别的。
最后,我并不是个数据挖掘精英——我不是那些超级聪明,超级智能的数据挖掘专家之一。我想我比较适合把自己描述成一个会熟练使用数据挖掘的程序员。

第一章:介绍

寻找东西
想象一下100年前的美国小镇的生活。他们相互熟悉。一箱布匹被送到一个普通的店,店员注意到这种特别的布匹图案会是克兰西太太的最爱(店员知道克兰西太太喜欢鲜艳的花卉图案)。周温克勒提到了正在考虑出售自己业余雷明顿步枪的酒吧老板威尔逊先生。威尔逊先生知道巴德巴克莱正在寻找一部优质步枪并且打算在下次巴德到酒吧的时候告诉他。警长Valquez和他的副手们知道他们得留意身强体壮、脾气暴躁而且嗜酒的李珣。100年前小镇的生活其实就是各种各样的联系。人们知道你喜欢什么讨厌什么,你的健康,你的婚姻状况。无论好坏,这是一个个性化的体验。

让我们跳过五十年到二十世纪六十年代。个性化的相互作用貌似不太可能但是他们仍然存在。一位常客来到当地一家书店可能会听到“詹姆士 米切纳的新书到了”,因为店员知道这位常客喜欢詹姆士 米切纳的书籍。或者店员可能会给他推荐贝瑞 哥德瓦特的《保守派的良心》,因为店员知道这位常客是一个坚定的保守主义者。饭店的常客总是能听到服务员问:“老样子?”

即使在大规模个性化的现代社会。我去梅西亚当地的一家咖啡店,咖啡师问“超大杯拿铁外加。。。”因为他已经记住了我每天早晨要的东西了。我把我的标准贵宾犬带到美容师那儿,她都不需要再问我喜欢做什么类型的修剪。她知道我喜欢没有多余装饰的运动型并且带德国耳的修剪。

但是自从100年前的小镇以来,事情已经开始改变了。大型的杂货商店和大零售店取代了邻里的小卖部和其他商业模式。在改变之初,选择是有限的。亨利 福德说过:“任何一个顾客都可以把自己的车漆成他们想要的颜色,只要车子是黑色的。”唱片店只出售有限数量的唱片;书店只销售有限数量的书本。想要冰淇淋?口味的选择只能是香草味,巧克力味,或者是草莓味。想要洗衣机?当地的西尔斯百货只有三种选择。

欢迎来到21世纪
在21世纪,那些有限的选择就成了过去式了。现在我想买一些音乐,iTunes就有11000000首歌让你选择。11000000首!他们在2010年2月就卖出了10亿首歌。如果我需要更多的选择,我可以到myspace找到众多的产品。
 
我要是想买本书,亚马逊有75000000个书名供我选择。
 
我要是想看一部电影或者一段视频,Netflix有将近100000个条目。像这样的网站还有iTunes,Hulu,YouTube。
 
我从iTunes和Netflix上找到了11000000首歌曲,iTunes和Hulu太少了吗?通常总会有用户网或者P2P提供更多的选择。
数据挖掘编程指南_ch1_第2张图片
 

如果我想买一个手提电脑,当我在亚马逊搜索框敲入“手提电脑”,我将会得到3811个结果。如果我输入“电饭锅”将会有超过1000个结果。

在不久的将来,会出现更多的选择——互联网上数以亿计的音乐曲目——众多的视频——用3D影印可以实现产品的用户定制。

寻找相关的东西
问题是寻找相关的东西。在iTunes上的所有这些11000000首歌曲中,可能有相当多首我真正喜欢的,但我怎么找到它们。我今晚想在Netflix上看一部流媒体电影,我应该看什么呢。我想用P2P下载一部电影,可是我要下哪一部呢。问题变得更加糟糕。每分钟都有几吉字节的媒体被加载到网上。每分钟都有100个新的文件在用户网上发布。每分钟都有24小时的视频被上传到YouTube。每小时有180本新书被出版。在现实世界里,每天有越来越多的购买选择权。在这些海量的可能性中找到相关联的东西变得越来越困难。如果你是一个媒体制造商——就比如说来自 El Paso的Candice Reyes Quintet ,危险不是有人非法下载了你的音乐,而是音乐本身被海量的资源所淹没。

我们如何找到相关的东西
几年前,在那个小镇,我们的朋友会帮我们找到需要的东西。那批新进的布料很适合我们的胃口;那个书店刚到的新的小说;唱片店新到的33 1/3 LP。直到现在,我们还是依赖朋友的帮助去找到相关的东西。

我们用专家系统来帮助我们找到需要的东西。几年前用户报告能评估所有20种卖出去的洗衣机,或者10种电饭锅并作出推荐。现在我们在亚马逊上可以搜到几百种电饭锅,一个专家的资源几乎不可能评价所有的种类。几年前,罗杰艾伯特会评论几乎所有看过的电影。现在我们每年全世界将出产25000部电影。加上我们现在从各种渠道获得视频的资源。罗杰 艾伯特,或者任何一个专家,是不可能评论我们所能看的所有的电影的。

我们也用事情本身来帮助我们寻找东西。比如,在刚刚过去的30年我一直用一款西尔斯洗衣机,我想要再买一台西尔斯洗衣机。我喜欢披头士的一张专辑——如果有机会的话我还想再买一张他的专辑。

这些寻找相关事物的方法——朋友,专家,事物本身——在今天仍然存在,但是我们希望做一些计算来把他们转变到数以亿计的选择的21世纪。在这本书里,我们将探索聚集人们喜好和厌恶的方法,购买历史和其他数据,利用社交网络的力量来帮助我们挖掘相关联的东西。我们将检查运用事物本身的属性的方法。例如,我们喜好凤凰乐队。系统可能知道凤凰乐队的相关属性——运用电子摇滚乐器,有朋克风,有微妙和声的运用。系统因此会给我们推荐一个有着类似属性的类似乐队,比如The Strokes。

It’s just not stuff.
数据挖掘并不仅仅是推荐东西给我们,或者让商人出售更多商品。请参考下面的例子。

100年前的那个小镇的市长熟知镇上每一个人。当他再次竞选的时候,他知道如何根据个人的情况去拉票——玛莎,我知道你的兴趣在学校教育,我会尽一切力量去为镇子再找一个老师。我的父亲是统一汽车工人工会的一员。在竞选期间,我记得这个工会的代表来到我们的家里提醒我父亲把票投给哪个候选人。好啊Syl,你的妻子还孩子还好吧?。。。现在我来告诉你为什么应该把票投给弗兰克 蔡德乐,关于社会主义党的候选人市长。。。这种个性化的政治信息在电视的崛起时代转变成了同类的广告。每个人得到了相同的信息。有一个很好的例子是支持林登约翰逊的著名的菊花电视广告(一个年轻的小女孩正在拔着菊花的花瓣,然而一个原子核炸弹在她背后爆炸了)。现在的竞选都被小小的利益买断了,个性化已经不在了。你对女权很感兴趣吗?你很有可能会得到一个就关于这个问题的机器人电话。
那个小镇的长官知道了谁是背后的捣蛋者。现在威胁好像被隐藏了,恐怖分子可能在任何一个地方。2001年10月11日,美国政府通过了美国爱国者导弹法案(通过提供适当的工具能够拦截和阻碍恐怖主义来团结和加强美国的缩写)。部分法案使得调查者能够获得各种来源的记录,包括图书馆(我们读了什么书),酒店(谁在哪儿待了多长时间),信用卡公司,过路费登记着我们曾经通过这里。在很大程度上,政府用私人的公司来保存关于我们的数据。像Seisint就有几乎我们所有人的数据,我们的照片,我们的地址,我们的车牌号,我们的收入,我们的消费行为,我们的朋友。Seisint拥有超级计算机来用数据挖掘技术对我们进行预测。他们的产品因此就叫做Matrix。

你可能感兴趣的:(数据挖掘编程指南_ch1)