这章主要讲了什么是Collective Intelligence,机器学习。开始举了一个DVD租赁公司基于以前客户租赁电影的历史记录来推荐电影,并悬赏1百万美金作为第一个能够提高推荐系统准确率10%的人,另一个是Google通过其他网页以一个网页的链接数来作为一个相关度的标准,这让Google的搜索结果比其他竞争对手好许多倍,并以此到2004年就占有搜索市场的85%。这两个例子都在说明从大量的不同的人群中搜集信息并利用复杂的算法可以创造出更多的商业价值。其实这方面的例子很多,例如从亚马逊买书的推荐系统:
JavaEye论坛的相关文章推荐:
IBM Scissorhands是一个演示驱动的Web Data Extraction工具:
在一个site做Demoà记录填写表单以及Data Extracion的Sequence—>生成site相关的和site不相关的modelàExtract Data from Demo site à学习更多的关于提取这个领域的知识àApply这些知识到新的Site来Extract Data。
元搜索引擎:meta-search
Meta-Query:http://metaquerier.cs.uiuc.edu.
这些例子我们可以看到机器学习和统计方法在各个领域都有很大的作用,特别是在解析由全世界的人们创造的巨大数量的信息上。
Collective Intelligence:
很早以前就使用Collective Intelligence,但随着新的通信技术的发展,他变得越来越流行和重要了。技术人员使用它来指代组合一群人的行为、喜好和意见来创造出新颖的观点。在商业市场中,许多参与者根据自己的信念来预测将来的价格要比一个专家单独预测的要准,因为市场是组合了成千上万人的知识、经验和洞察力的一个投影,而不是依赖于某一个人的观点的。可以从Web中获得成千上万的人的信息为Collective Intelligence提供了更广阔的空间:人们在使用互联网购物、研究、娱乐、创建自己的站点,这些行为都可以被得到并用来得到我们需要的信息,而不必通过去提问题而打扰用户。
Wikipedia:创建完全有用户来共享的,任何人都可以创建和编辑任何一个页面,只有少数几个Admin用户来做监督职权的滥用,他又大量的用户来创建并比任何一个组织创建要大的多,Wikipedia软件并不需要什么特别智能的算法,他只是跟踪变化并显示最新的内容。
Google: Google是第一个使用有多少个链接指向一个网页来对搜索结果进行排序。它和Wikipedia不同,Wikipedia是主动要请用户去为他做贡献,而Google是提取Web创建者的页面内容的重要信息来给网页打分。这本书主要讲后一种
机器学习:机器学习是人工智能的一个分支,它是关于让机器具有学习能力的一些算法。许多情况这种算法给一些数据和从这些数据属性的推出的信息对将来出现的新的数据做出预测。之所以可以这么做是因为大多数的非随机的数据包含一些模式,这些模式可以让机器去做泛化。
机器学习的相关概念扫盲:
监督式学习:训练数据中包含输入的向量集合并且有相应的目标值(labeled样例)
例如分类(Classification)、关联规则、回归(Regression)
非监督式学习:训练数据中不包含labeled样例
例如聚类(Cluster)、Density estimation、Visualization.
半监督式学习:组合了labled和unlabeled的Example去生成一个函数或分类
泛化(Generalization):通过训练数据训练之后能够识别新的数据。
特征提取(Feature Extraction): 为了降维去除不想关的特征,在数据预处理阶段把数据转化成容易处理的。
分类(Classification):Assign each input vector to one of a finite number of discrete categories,
if the desired output consists of one or more continuous variables, then the task is called Regression
Density estimation: To determine the distribution of data within the input space
Visualization: to projection the data from a high-dimensional space down to two or three dimensions.
机器学习的局限性:
机器学习在大量的模式面前的泛化能力是不同的,如果一个模式不同于以前所看到的,那么这个算法很容易被误解。由于当前的数据量不够,不能涵盖各种将来的情况,所以机器学习的方法很容易出现过度泛化,从而出现不准确性。