机写新闻报道能否胜过人工记者?(腾讯科技配图)
腾讯科技讯(中涛)北京时间5月2日消息,美国知名IT杂志《连线》记者史蒂芬·列维(Steven Levy)近日发表长篇评论文章称,虽然由计算机程序控制的新闻报道编写技术已取得了长足进展,且该技术很可能致使大量记者丢掉“饭碗”,但至少目前这种威胁尚未真正显现出来。
以下为列维文章全文:
未来新闻90%以上将为电脑化新闻
Narrative Science(以下简称“Narrative”)是一家专门训练计算机编写新闻报道的公司。假如Narrative技术已经能够编写出我今天撰写的这篇文章,那我们很可能既不必提及该公司的芝加哥总部其实就在《芝加哥论坛报》(Chicago Tribune)报业大楼附近,也不必揭示出这种可能让记者丢掉饭碗的潜在技术,其实是部分诞生于美国西北大学梅迪尔新闻学院(Medill School)的媒体、整合营销通信项目。显而易见,这种讽刺意味其实是针对人类,而非计算机本身。
但至少目前尚未如此。
Narrative员工量为30名左右,该公司在芝加哥环路边上有一个很大的房间。我们不妨试想一下这种场景:每隔30秒钟左右,Narrative算法的如椽大笔就能撰写出一则新闻报道,这无疑将引发我们进行哲学高度的思考。这种计算机撰写的新闻可以是美国大学篮球联赛的Big Ten最新进展情况,也可能涉及某家企业营收的声明,更可能是把多个Twitter信息汇总成有关赛马的新闻。此类文章已在诸如《福布斯》以及其他知名媒体(其中不少媒体不愿透露其身份)的网站上发表。Niche新闻服务已聘请Narrative为其注册用户撰写后续报道,使Narrative成为着他们的体育“粉丝”、小型投资者或快餐店老板。
事实上,通过Narrative算法所撰写的文章,读起来并不是那么晦涩和生硬。当然,这种文章无法与美国体育评论作家罗杰·安吉尔(Roger Angell)的文风相提并论。但这种叙述平实的文章,却能很快将赛事结果等信息传达给体育爱好者。Narrative利用iPhone用户在GameChanger应用程序中输入的赛事得分结果等数据,进而撰写出一篇篇文章。去年期间,这种软件所生成的美国儿童棒球赛事帐号达40万个,预计今年该数字将增至150万个。
Narrative联合创始人兼首席技术官(CTO)克里斯蒂安·哈蒙德(Kristian Hammond)管理着一群编程人员和技术工程师。在哈蒙德看来,这些文章只是计算机写作的开始,最终计算机写作的文章将在新闻产业中占据着主导优势地位。这种优势地位将究竟有多高?去年我曾要求哈蒙德回答这个问题,他最初有点“王顾左右而言他”。但在我的连续追问下,哈蒙德说出了这样一个数字:“90%以上。”
这也是我为何决定写这篇文章的原因所在,并希望自己赶快完成,以免被一部MacBook Air笔记本电脑抢在我前头发布了同类文章。
哈蒙德却安慰我道,大不必为此而担心。哈蒙德坚称,这种计算机撰写的新闻稿,并不会让新闻记者等人员丢掉饭碗,他们今后仍将能够每月按时领取薪酬。随着新闻产业规模的空前增长和扩大,计算机将通过相关数据而撰写出成本低廉的新闻稿,此类文章将涵盖大量活动、产业趋势和产品开发,而这些领域目前尚未被传统记者所关注。
然而这并不是说计算机所撰写文章,将永远处于边缘化的位置,也不会永远被限定在一些小打小闹或生成一些简单的企业营收评论上面。哈蒙德最近曾被问及这样一个问题:今后20年内,计算机所撰写文章能否获得普利策新闻奖(Pulitzer Prize)?哈蒙德回答道,应该用不了20年,5年之内就可能实现该目标。
Narrative公司与其创始人
哈蒙德生于美国犹他州,其父为一名考古学家,并在当地一所州立大学任教。成年后,哈蒙德原本计划当一名律师。但在上个世纪1980年代后期,也就是哈蒙德在耶鲁大学上学期间,他深受知名人工智能专家、耶鲁大学计算机系主任罗杰·尚克(Roger Schank)的影响。在拿到计算机科学博士学位后,哈蒙德受聘于芝加哥大学,并担任该大学一家新型人工智能实验室负责人。在该实验室工作期间(1990年代中期),他开发了一套可追踪用户阅读、写作习惯并向用户推荐相关内容的系统。
在该技术基础上,哈蒙德创建了一家小型科技公司,后来他将该公司出售。这段时间中,哈蒙德进入美国西北大学工作,并担任该大学情报信息实验室主任。2009年期间,哈蒙德和他的同事拉里·伯恩鲍姆(Larry Birnbaum)在梅迪尔新闻学院教授一项课程,该课程同时包括电脑编程和未来新闻学两项内容。他们两人鼓励学生创建出可将数据转移成新闻故事的系统。在该班学生中,有一位是《芝加哥论坛报》的特约记者,其报道范围为美国高中生体育赛事。这名学生、以及另外两位新闻系学生同一名计算机系学生被分成一组。该开发小组的原型软件“Stats Monkey”,能够搜集各大学、中学的体育赛事得分和相应数据。
在那个学期结束时,这个班级参与了该校举办的产品演示会。出席该演示会的新闻业人员,包括来自ESPN体育电视台、Hearst报业集团以及《芝加哥论坛报》的高管。Stats Monkey软件给与会人员留下了深刻印象。梅迪尔新闻学院院长约翰·拉文(John Lavine)回忆道:“他们将体育赛事得分数据输入到该程序当中之后,大约12秒钟之后,该程序就写出了有关美国体育机构历史的文章,同时还配备了图片和图片文字说明。”
美国网络广告公司DoubleClick(注:此前已被谷歌收购)前高管斯图亚特·弗兰克尔(Stuart Frankel)也是参与当天演示会的嘉宾之一。弗兰克尔说:“他们当时一演示这款软件后,房间里的氛围马上就变了。尽管如此,该产品也就仅仅是一款能够撰写有关棒球新闻报道的软件而已。”从DoubleClick离职后,弗兰克尔随即加盟哈蒙德和伯恩鲍姆两人的行列中。这种软件能否撰写任何新闻报道?能否使用任何数据?在得到肯定的回答后,弗兰克尔认定计算机写作产业有着巨大增长潜力。2010年期间,哈蒙德、伯恩鲍姆和弗兰克尔共同创建了Narrative公司,弗兰克尔出任该公司CEO。
Narrative首名客户是一家报道美国大学篮球联赛Big Ten会议的电视网络。合同规定,Narrative算法将需要以相当于实时方式,而撰写出数千条有关Big Ten的体育新闻,同时每个季度对该赛事的数据和新闻进行更新。Narrative还负责为美国女子垒球赛事撰写文章,Narrative也因此变成为该赛事撰写文章最多的“记者”。
在Narrative开始执行合同后不久,就出现了一些小问题:这些文章往往侧重报道比赛胜出方。如果Big Ten的某只球队被外围球队击败后,Narrative软件撰写的文章会让人感到很丢脸。Big Ten赛事举办者因此向Narrative提出新要求:即使Big Ten的球队输球,Narrative文章仍能加以表扬。在这种情况下,多数人认为应该引进人工记者加以干预,但Narrative技术开发人员却认为无此必要,而只需对软件代码进行相应修订。有过这次教训后,Narrative在负责为美国儿童棒球赛事进行撰文过程中,也对相应数据进行了调整处理。
Narrative的新闻撰写引擎需要数个步骤:首先,该引擎需要收集大量高质量的数据。这也是金融业和体育产业能够成为Narrative服务对象的直接原因:这两个产业都涉及大量波动性很强的数据:每股收益、股价变化、垒球投手责任得分率(ERA)以及棒球打点(RBI)等。而新数据总是源源不断,因此Narrative总能根据新数据撰写出新文章或丰富旧内容。
举例来说,棒球“粉丝”们已创建了在比赛进行过程中预测某个球队胜算把握的模式。在此过程中,如果某个得分改变了胜算把握的几率,比如由40%上升至60%,则Narrative算法就会将这个得分作为截止当前比赛进程中的亮点加以描述(比如Narrative必须知道击跑数量最多的球队将胜出)。因此Narrative技术工程师就为每种赛事或活动预先设定一些规则。那么该如何做才能将这些分析数据变成文章?该公司招聘了一个所谓“元作者”的团队,该团队由资深记者组成,以负责创建一系列报道题材的模板。该团队同Narrative技术工程师密切合作,使计算机能够从不同“角度”来识别相应数据。比赛结果是哪个球队胜出?是艰难胜出还是大败对方?比赛过程中是否有某位球员表现绝佳?该算法还根据比赛已知数据和其他数据库进行推测:是否某个关键一击起到了定胜负的作用?
然后就是文章结构事宜。绝大部分新闻报道尤其是体育和金融题材,往往都会形成一个可预见的固定模式,因此创建相应文章模板,就成为相对比较简单的问题。该算法按照元作者提供的词汇来组成句子(就垒球而言,元作者似乎会在很大程度依赖20世纪早期知名体育评论家林·拉德纳(Ring Lardner)的写作用词习惯),该公司将这种完成后的产品称为“叙事作品”(narrative)。
当然这种算法偶尔也会犯些小错误。比如说棒球比赛中的代打者(pinch hitter)每场比赛只能代打一次,但Narrative算法所撰写文章有时会将代打次数描述成2~6次。只是诸如此类的错误很少出现。哈蒙德表示,有时数据库也会提供错误信息,而Narrative算法已具有纠错功能。哈蒙德说:“如果某家公司的季度利润环比增长了600%,算法就会指出,很可能某个环节出现了错误。人们会问这样的问题:我们的算法是否出过令人难堪的大错误,我们的回答是从未有过。”
《福布斯》媒体首席产品官刘易斯·德沃金(Lewis Dvorkin)表示,在对Narrative所报道的每一个赛事或其他活动进行了解后,他本人对此印象深刻但并不感到惊讶。尽管人工记者所撰写文章出现重大错误并不鲜见,但德沃金并没有听说过有关计算机自动新闻报道出错的任何投诉。德沃金说:“一次也没有。”
新闻稿件文风可以定制化
Narrative技术团队还让客户对文章基调加以定制化。美国金融分析公司Data Explorers在其安全资讯服务中使用了Narrative技术。Data Explorers首席运营官(COO)乔纳森·莫里斯(Jonathan Morris)表示:“你可以获得任何内容,如文章读上去像是一位金融记者正股票交易所大声呼喊,或像一位理智的金融分析师正纵观整个金融市场。”
莫里斯要求Narrative为Data Explorers撰写的文章,将其基调处理成为一名受过良好教育、态度非常直率的金融新闻记者。其他客户则要求Narrative将文章处理成更为活泼的博客文风。Narrative产品副总裁拉里·亚当斯(Larry Adams)对此表示:“截止目前,Narrative要撰写一篇言辞活泼文章的难度,并不会比写一篇中规中矩的文章高多少。我们甚至能够以美国知名新闻评论人、1972年普利策新闻奖得主迈克·罗伊科(Mike Royko)式的文风来报道股票市场。”
在Narrative掌握如何报道体育和财经新闻的“玄机”后,该公司意识到,其实还可以将Narrative算法应用范围扩大到除新闻报道的其他领域。事实上,任何人希望翻译或处理大一堆数据,都可从Narrative算法中受益良多。Narrative接到了大量数据处理的请求,试用结果发现,这些客户愿意向Narrative付费,进而使自己杂乱无意的数据,能够变为简洁明快并切中要害的句子。
显而易见,Narrative算法经过改进提高后,肯定能满足此类数据处理要求。Narrative刚刚创建时,该算法每接触一个新的报道主题,“元作者”们必须费尽心机来对机器进行“培训”。但不久后元作者们开发出一款平台,从而使Narrative算法能够更快了解新的业务领域。举例来说,如果某位元作者希望创建一台可报道某个城市饭店服务业的写作机器,那么利用数据库中的宾馆评论文章,该机器就能很快了解饭店业的常用词汇(服务良好、美食等等)。元作者们还给机器提供一些该行业的常见句子。在经过此种“培训”后,数小时内Narrative算法就能撰写出诸如“亚特兰大市最佳意大利饭馆”之类的文章。
Narrative主要竞争对手为Stat Sheet公司,后者总部位于美国北卡罗来纳州,主营业务为自动文章创建,其业务范围在经过扩张后,与Narrative有不少重叠之处。由于自感无法与Narrative展开直接竞争,Stat Sheet将其服务目标定为小型报刊杂志。另一方面,Stat Sheet也开始涉足体育新闻报道。在认识到计算机撰写新闻产业具有巨大增长潜力后,Stat Sheet将公司名称更改为“Automated Insights”。该公司创始人罗比·艾伦(Robbie Allen)说:“以前我曾认为,我们的业务范围很窄,即仅限于数据处理产业。现在看来我们应该是商机无限。”
Narrative算法的业务范围也变得越来越多样化。Narrative曾受聘于一家快餐公司,被要求根据该快餐公司经销商所提供食品销量数字而撰写出每月报告,并将这些销售数字同本地竞争对手进行比较,然后向该快餐公司提出应该推出哪些新菜品的建议。
此外,这种低成本数据输入后变成文章的操作方式,甚至能够针对单一读者撰写文章。Narrative正考虑撰写针对《魔兽世界》玩家的个性化费用支出报告,玩家们就能对自己近一段时间内的游戏费用有着更全面了解。Narrative董事会成员、前DoubleClick首席执行官戴维·罗森布拉特(David Rosenblatt)表示:“互联网所产生数据的规模可谓前所未有,Narrative能够将这些数据转化成文章。这就是Narrative必须存在的理由。我们以撰写新闻报道为主,报道管理为辅。”
光荣与梦想
截至目前,新闻报道仍是Narrative的核心业务。与任何刚出道的新闻记者一样,Narrative也有着自己的“光荣与梦想”:能够参与重大新闻事件的首发和后续报道。而要实现这一目的,Narrative仍需在机器学习、数据处理等事宜上进行大量投资,从而使机器能够更为准确理解人类语言和文字。事实上,Narrative在这方面已取得一些进展。哈蒙德说:“就金融业而言,我们算法能够读懂文章头条,能够识别某家企业股票的涨跌,了解到某位高管受聘或解聘,明白某家公司正制定并购计划。同时我们知道这些事件同公司股价波动之间的关系。”哈蒙德还表示,今后在Narrative所撰写体育新闻报道中,除常规的数据内容外,还将增加球员受伤或面临法律起诉等信息。
即便Narrative永远也无法实现获得普利策新闻奖的目标,其文章可能永远也不会具备美国作家琼·狄迪恩(Joan Didion)那种犀利的文风,但无论如何,该公司确实认识到了这样一个事实:我们的日常生活活动,正越来越多被转化为海量数据。举例来说,过去数年中,美国职业棒球大联盟已投资数百万美元,以在比赛场地安装高分辨率摄像头和高强度传感器,目的是分析每场比赛中各位球员的表现情况,如球员身体动作和棒球运动轨迹等信息。在不少情况下,体育新闻报道的取材就来自于这些数据当中。或许球队教练并没有意识到,自己所带领球队之所以被击败,主要原因就是球员身体过度疲劳所致。而这些结论,通常都需要数据作为强有力证据。
哈蒙德相信,随着Narrative市场规模的进一步增长,其业务范围也将形成更为高端的“食物链”:从社区新闻到新闻分析,最终再进入长篇深度报道业务。从某种程度上讲,人工记者和计算机算法或许能够协手合作,并发挥出各自优势。计算机的优势在于记忆无差错,并能够快速访问各类数据。而人工记者在进行采访过程中,能够做到“直奔主题”,在获得相关材料后,再将撰写文章的任务交给计算机。随着计算机处理此类任务次数的增长并能够获得更多数据,计算机的“叙事”技巧也将越来越高。当然,要达到这一阶段我们可能尚需等上一段时间。但最终有一天,或许类似我的这篇文章,根本就不需要我本人动手来写。哈蒙德说:“人类思考能力非常强大,也异常复杂,而电脑不过是机器而已。今后20年内,将不存在Narrative无法胜任的新闻报道领域。”
就目前而言,哈蒙德一再强调,Narrative算法并不是为了取代人工记者。哈蒙德透露,自己曾出席一次晚会,在那儿遇到了一名戏剧评论家。该评论家了解了哈蒙德的Narrative业务模式后,便对哈蒙德横加指责,称当前新闻从业者的日子已经过得很艰难,Narrative怎么忍心让写作机器人来抢走新闻记者的饭碗?
哈蒙德回忆道:“我当时盯着他回答说,难道你在美国儿童棒球小联盟(Little League)赛场上看见过记者的身影吗?搞清这一点对我们而言非常重要。尚没有任何新闻记者因Narrative开展的各项业务而丢掉饭碗。”
至少目前尚未如此。