《集体智慧编程》——第一章导读

  • 什么是集体智慧

其含义是指:为了长早新的想法,而将一群人的行为、偏好或思想组合在一起。

完成这项工作的一种最为基础的方法,便是使用调查问卷或普查。从一大群人中搜集的答案可以使我们得出关于群组的统计结论:组中的个体成员将会被忽视。从独立的数据提供者那里得出新的结论,是集体智慧所真正关注的。

一直以来,人们都是利用Internet来购买所需、搜集信息、寻求娱乐,以及架设自己的Web站点。所有的这些行为都可以得到监控,并且不必要让用户放下手头的工作而进行询问,可以从他们的行文中得到信息,挖掘出有价值的结论。已经有大量的方法可以对这些信息进行加工和解释。有两个例子:wikipedia和Google搜索。wikipedia是通过所有用户共同编辑来创建或编辑词条,虽然存在恶意用户,但大多数的主题都会被认为是准确的。Google搜索是从web内容的创建者对自己网站的操作中提取关键词,并且利用这些信息为Google的使用者设定各个网站的分值。

但这本《集体智慧编程》关注的不是像wikipedia归功于提供内容的用户,而在于算法,这其中包括了Google的PageRank算法。该算法会搜集用户的数据,对数据进行计算分析,并从中创造出可以增强用户体验的新信息。数据的获取有两种方式:第一种是明确搜集,例如需要用户投票打分的方式;第二种是偶然搜集,如观察用户的购买行为。通过搜集信息后,还有通过一种智能化的方式对这些信息进行处理,并产生出有用的新信息来。

而这本书,就是告诉我们如何利用开放的API来搜集数据,同时还会讨论到各种机器学习算法和统计方法。将二者结合起来,可以借助集体智慧的相关方法,对由自己编写的应用程序搜集得到的数据进行分析;同时,可以从其他地方搜集数据,并对数据进行试验。

  • 什么是机器学习
机器学习是人工智能领域中与算法相关的一个子域,它允许计算机不断地学习。大多数情况下,这相当于将一组数据传递给算法,并有算法推断出与这些数据相关属性的信息——然后借助这些信息,算法能够预测出未来可能出现的其他数据。这是有可能的,因为对于任何非随机产生的数据,都存在某种“模式”,计算机可以根据数据进行归纳。为了实现归纳,机器会利用它所认定的出现于数据中的重要特征对数据进行“训练”,并借此得到一个“模型”。

缺点:受限于大量模式上的归纳能力,而一个模式如果不同于算法先前所曾见到过得任何其他模式,那么它很有可能被“误解”。也有过度归纳的可能性。

你可能感兴趣的:(机器学习,集体智慧)