邓仰东专栏|机器学习的那些事儿(五):基于GPU的机器学习实例之IBM Waston

目录

1.绪论

1.1.概述

1.2 机器学习简史

1.3 机器学习改变世界:基于GPU的机器学习实例

     1.3.1 基于深度神经网络的视觉识别

     1.3.2 AlphaGO

     1.3.3 IBM Waston

1.4 机器学习方法分类和本书组织


1.3 机器学习改变世界:基于GPU的机器学习实例

机器学习技术正在不断取得举世瞩目的成就,这一节会介绍三个机器学习的成功案例,让大家体会机器学习技术怎样解决极度挑战性的实际问题。


1.3.3 IBM Waston

前面两个小节介绍的是机器学习图像和游戏的成就,还没有直接处理人类知识。2010年,IBM “沃森”系统在人类知识竞赛中同样战胜了人类对手。IBM选择的突破口是美国著名的电视智力竞赛节目《危险边缘》(Jeopardy!)。《危险边缘》从1984年开始播出,其形式如图1-18所示。每次竞赛有三名参赛者,以抢答形式参赛。游戏直播现场的大屏幕被分为6×5的网格,每列对应一个主题(如历史、科学和政治等),每行对应一定的奖金数量。每次选中一个网格后,其中的文字(英语)显示出来,节目主持人念完内容后,参赛者可以开始抢答。这里的题目是最为独特的部分,大屏幕的网格显示的内容是题目的线索,而不是问题。参赛者看到线索后,按下抢答器后要回答出相应的问题。举例来说,大屏幕上显示的线索可以是:“他曾经被12道金牌召回,后来被秦桧陷害而死”,那么正确的答案是“岳飞是谁”。如果抢答正确,则相应参赛者奖金增加,否则要扣除一定的奖金。显然,《危险边缘》这种独特的竞赛形式对计算机来说是相等困难的。试想,提问题说答案的形式对计算机是很容易的,只需要进行一次搜索即可,甚至不需要真正理解问题;而目前的形式要求计算机不仅能够理解线索,还要找到线索之间的内在关系,从而找到答案。同时,在不能完全确信答案正确性的时候,计算机需要判断是冒险抢答还是保守求稳,从而最大化最后的奖金总额。


邓仰东专栏|机器学习的那些事儿(五):基于GPU的机器学习实例之IBM Waston_第1张图片

图1-18. 《危险边缘》节目示意图


为了证明机器学习能够掌握职业水准的问题-回答能力并且能够基于该能力进行关键决策,IBM成立了DeepQA团队,用三年时间研发了“沃森”计算机系统。该系统由90台IBM服务器组成,拥有360个Power 7系列处理器(由45nm工艺制造,每个处理器拥有8个内核、支持32个线程,主频最高可达4.1GHz),存储容量15TB,体积大致相当于10台冰箱那么大的计算机系统。“沃森”存储了大量图书、新闻和电影剧本资料、辞海、文选和《世界图书百科全书》(World Book Encyclopedia)等数百万份资料,全部资料长达2亿页。在参加《危险边缘》竞赛时,题面的问题线索以文字流的方式送给“沃森”,没有使用语音识别。参赛过程中,“沃森”没有上网,和人类一样只依靠自身的知识库。


邓仰东专栏|机器学习的那些事儿(五):基于GPU的机器学习实例之IBM Waston_第2张图片

图1-19. IBM“沃森”超级计算机


“沃森”在接受问题后,首先使用自然语言处理技术对问题进行语法语义分析,从中提取出关键词和核心语义。语义分析需要识别各种微妙的语言结构,例如讽刺、谜语、诗词以及特定文化现象。接下来,“沃森”把问题分解进行大规模并行计算。这里的分解包含若干层次,既有多种解题思路或角度的分解,也有基于同一思路使用不同算法的分解,还有把一套思路分解若干步骤的分解。每一个并行任务中,“沃森”根据关键词和语义从其知识库中查找线索并提取相关证据,由此产生针对答案的假设,然后对假设-证据组合进行评分。多个并行任务的答案汇总后,“沃森”再一次对解答的置信度进行评估,决定是否抢答。“沃森”能够象人类一样跳过自身不擅长的题目,甚至可以模仿开玩笑。图1-20是“沃森”计算机上运行的DeepQA深度问答系统的体系结构框图。


邓仰东专栏|机器学习的那些事儿(五):基于GPU的机器学习实例之IBM Waston_第3张图片

图1-20. DeepQA顶层架构图(根据[11]改画)


IBM“沃森”系统于2011年2月14日至16日与《危险边缘》历史上两位最成功的选手肯·詹宁斯(Ken Jennings,最长连胜记录的保持者,2004年连续获得74场的胜利,共赢得2,520,700美元)和布拉德·鲁特(Brad Rutter,2005年终极冠军)展开对决,图1-22是比赛场景的照片。最后成绩以比赛过程获得的奖金金额决定,实际冠军奖金为100万美元,亚军为30万美元,季军为20万美元。比赛过程略有波折:第一天,“沃森”与两位人类选手胜负难分,最终分别取得5000美元、5000美元和2000美元的成绩;第二天,“沃森”开始发力,以35734美元的成绩遥遥领先,而詹宁斯和拉特分别只获得4800美元及10400美元;第三天,“沃森”势如破竹,以41413美元的分数击败对手,使得两位人类选手仅获得19200美元和11200美元。我们可以进一步看看“沃森”回答的一些题目:


1.“There are about 50 species of the hedgehog type of this plant, so named for its spiny fruit.”(这种形似刺猬的植物有50个左右品种,根据其多针的果实命名),“沃森”首先抢答,正确地猜到答案应该是“cactus”(仙人掌),显然“沃森”在这道题目的优势在于其速度;


2. “Wanted for killing Sir Danvers Carew; appearance--pale & dwarfish; seems to have a split personality.”(意图谋杀丹佛斯·卡鲁爵士,外表苍白而侏儒化,似乎有分裂人格),这道题目对人来说很容易,看过《化身博士》的参赛者立刻指导答案,“沃森”则需要确定这个内容在什么文本里面以及描述的是哪个任务,它也的确正确推导出上面描述的是“Hyde”(海德);


3.“It was the anatomical oddity of US gymnist George Eyser who won a gold medal on the parallel bars in 1904. ”(这是生理解剖学的奇迹,美国体操运动员乔治·艾瑟尔在1904年赢得了一枚双杠金牌),这道题目相当困难, 乔治·艾瑟尔的奇迹在于他只有一条腿,对于“沃森”来说,知道乔治·艾瑟尔缺一条腿不难,但是推理出“缺一条腿还能得金牌是奇迹”就很难,此时“沃森”需要理解什么可以称之为奇迹,遗憾的是“沃森”给出的答案是“腿”,然而正确答案是“缺一条腿”;


4.“Its largest airport is named for a World War II hero; its second largest, for a World War II battle.”(该城市最大机场以一位二战英雄命名,第二大机场以二战的一场战役命名),这道题目必须考虑题目范畴“美国城市”,而且需要把“二战”、“城市”和“机场”等概念放在一起考虑,“沃森”错误的回答多伦多(正确答案应为芝加哥),显然是没有考虑题目范畴。


邓仰东专栏|机器学习的那些事儿(五):基于GPU的机器学习实例之IBM Waston_第4张图片

图1-22. “沃森”与两位人类对手


在取得《危险边缘》的胜利后,IBM为“沃森”规划了4条商业化道路,分别是医疗、金融、呼叫中心和政府公共事业。比如,“沃森”已经在美国克利夫兰医学中心找到了一份工作,参与医生培训工作,并与克利夫兰医学中心的临床医生和师生一起工作不断在医学领域的理解和分析能力。此外,“沃森”也为美国最大的百货公司——梅西百货处理顾客问题,为著名的“芝麻街”节目设计节目等。根据著名的市场调查公司IDC的报告,到2018年,以“沃森”为代表的IBM数据服务将贡献415亿美元的年收入。

你可能感兴趣的:(邓仰东专栏|机器学习的那些事儿(五):基于GPU的机器学习实例之IBM Waston)