什么是机器智能
1946年,第一台电子计算机ENIAC诞生,这使得人类重新开始考虑机器能否有智能的问题。
图灵测试(Turing Test):让一台机器和一个人坐在幕后,让一个裁判同时与幕后的任何机器进行交流,如果这个裁判无法判断自己交流的对象是人还是机器,就说明这台机器有了和人同等的的智能。
计算机科学家们认为,如果计算机实现了下面几件事情中的一件,就可以认为它有图灵所说的那种智能:
1. 语音识别
2. 机器翻译
3. 文本的自动摘要或者写作
4. 战胜人类的国际象棋冠军
5. 自动回答问题
飞鸟派:人工智能1.0
人工智能这个名词严格地讲在今天有两个定义,
第一个是泛指机器智能,也就是任何可以让计算机通过图灵测试的方法,包括我们在本书中要经常讲的数据驱动方法。
第二个是狭义上的概念,即20世纪五六十年代特定的研究机器智能的方法。
因此,学术界将机器智能分为传统人工智能的方法和现代其他的方法(比如数据驱动、知识发现或者机器学习)。
那么传统的人工智能方法是什么呢?简单地讲,就是首先了解人类是如何产生智能的,然后让计算机按照人的思路去做。
另辟蹊径:统计+数据
到了20世纪70年代,人类开始尝试机器智能的另一条发展道路,即采用数据驱动和超级计算的方法,而这个尝试始于工业界而非大学。
贾里尼克和他的同事在研究语音识别时,无意中开创了一种采用统计的方法解决智能问题的途径,因为这种方法需要使用大量的数据,因此被称为数据驱动方法。这种方法最大的好处是,随着数据的积累,系统变得越来越好。相比之下过去人工智能的方法很难受益于数据量的提升。
数据创造奇迹:量变到质变
数据驱动方法从20世纪70年代开始起步,在八九十年代得到缓慢但稳步的发展。进入21世纪后,由于互联网的出现,使得可用的数据量剧增,数据驱动方法的优势越来越明显,最终完成了从量变到质变的飞跃。
大数据的特征
大数据最明显的特征是体量大,这一点无论是内行还是外行都认可。
大数据第二个特征是多样性(多维度)
大数据的第三个重要特征是它的全面性(完备性)
大数据的最后一个,或许是最重要的一个特点,通过分析它名称的英文写法就能知道。
英语里的large和big翻译成中文都是大的意思,因此很少有人关心为什么大数据使用“big data”这个英语词组,而不是“large data”。
big,large和vast到底有什么差别呢。large和vast在程度上略有差别,后者可以看成是very large的意思。而big和它们的差别在于,big强调的是相对小的大,是抽象意义上的大,而large和vast常常用于形容体量的大小。比如“large table”常常表示一张桌子尺寸很大,而如果说“big table”,其实是要表示这不是一张小桌子,真实尺寸是否很大倒不一定,但是这样的说法是要强调已经是称得上打了,比较抽象。
仔细推敲英语中的big data这种说法,我们不得不承认这个提法非常准确,它最重要的是传递了一种信息-----大数据是一种思维方式的改变。现在的数据相比过去大了很多,量变带来质变,思维方式、做事情的方法就应该和以往有所不同。这其实是帮助我们理解大数据的一把钥匙。
在大数据之前,计算机并不擅长解决需要人类智能来解决的问题,但是今天这些问题换个思路就可以解决了,其核心就是变智能问题为数据问题。
一些数据专家将大数据的特征概括成三个V,即大量(Vest)、多样性(Variety)和及时性(Velocity),这种说法虽然方便记忆,但并非完全准确。
首先,尽管一些大数据具有及时性的特点,但它并非所有大数据所必需的特征,一些数据没有及时性,一样可以被称为大数据。
其次,多样性虽然是大数据的一个特征,但是含义上有歧义性,其中最重要的含义是多维度。实际上,多维度的讲法更加简明而准确。
大数据的时效性其实不是必需的,但是有了时效性可以做到和很多过去做不到的事情,城市的智能交通管理是一个例子。
通常我们把问题归结为7类:
“是什么”(what)
"什么时候"(when)
"为什么"(why)
"哪一个"(which)
"是谁"(who)
"什么地点"(where)
"怎么做"(how)
这7个疑问词被称为WH单词(WH words),各种问题也被称为WH语句。
在这7类问题中,容易回答的的询问事实,包括“是什么”(What)、“什么时候”(when)、“什么地点”(where)、“哪一个”(which)和“是谁”(who)。
难回答的是询问原因的“为什么”(why)问题,以及询问过程的“怎么做”(how)问题。
变智能问题为数据问题