只有到了现场才能深切体会新智元的“AI春节”有多么火热,这不仅仅是说700多人的聚会让会场温暖到热,各位技术大牛轮番知识轰炸也让人的脑筋在高速运转下真的发起烫来。
一身优雅的衬衫和儒雅的台湾腔,今日头条马维英博士的登台瞬间为现场带来一股清流,脑汁被干货压榨也成为享受。
马维英博士是今日头条副总裁兼人工智能实验室主任。今年2月他离开微软加入今日头条的消息在业界引发了不小的震动。各方都在密切关注这位前微软亚洲研究院常务副院长在新岗位上的新动向。
马维英博士的研究领域包括机器学习、自然语言处理、多媒体分析和理解、信息检索、互联网搜索技术、知识图谱和大规模数据挖掘。在微软亚洲研究院担任常务副院长期间,他带领团队开发了许多关键核心技术,应用在微软的搜索引擎、在线广告等微软认知服务当中。更早之前,马维英从1997年到2001年在惠普实验室工作,从事多媒体自适应传输和移动因特网的分布式多媒体服务系统的研究。
去年10月,今日头条创始人兼CEO张一鸣表示,今日头条是目前人工智能在实际应用层面,应用最广泛的一款科技产品。作为一款个性化信息推荐引擎产品,今日头条离不开数据挖掘、神经网络、自然语言理解、机器学习这些人工智能技术。而头条成立人工智能实验室的主要研究方向则是:1. 自然语言理解;2. 计算机视觉;3. 机器学习(算法与系统)和4. 人机交互。可以说,所有这些都与马维英的研发经历十分契合。
通过移动端获取新闻资讯在全球范围内逐渐成为主流,而个性化推荐则成为各个新闻客户端的标配。国内新闻资讯市场百家争鸣,内容战争全面升级,而今日头条则是其中不能忽视的重磅级玩家。
人工智能与新闻资讯的结合是一个全新且充满希望和挑战的领域,人工智能的强势介入已经改变了信息的生产和消费,而马维英的演讲则为我们窥见这一历程的未来提供了重要的线索。在演讲中,马维英博士更多是从数据而非算法的角度去看待人工智能。如今数据越来越多、软件越来越聪明,这些趋势都形成了正循环,促成了人工智能产生变革。马维英说,人工智能实际上并没有很神秘,由于现在的机器已经能够直接从数据中学习,只要定义好输入和输出,拥有大量标注的数据,就能得出有意义的表达。
下面是马维英博士在新智元开源·生态AI技术峰会暨新智元2017创业大赛颁奖盛典上的演讲全文。
马维英:谢谢杨静,谢谢新智元,今天很高兴有机会来这里和大家分享。我刚刚加入今日头条这家公司一个多月,今天在这里希望能跟大家分享我这一个多月的感想,包括在人工智能领域对今日头条等公司发展的一些想法,以及今日头条人工智能实验室想要从事的创新。
连接人与信息:从结绳记事到超级智能
首先,我还是回到今日头条本身的愿景,回到人类社会自古以来的基础需求,就是连接人与信息。当我还是学生的时候,历史课老师告诉我,人类最开始尝试把信息传递给下一代,用了一种技术叫结绳记事,那时候还没有语言。有大的事件就结一个大的结,小的事件就结一个小的结,我们当年还开过玩笑,说过了一阵子人忘记当年那个结是什么怎么办。
公元前100年蔡伦发明了纸,后来又有了书。书的传播需要印刷术。公元前1000年,毕昇发明了活字印刷术。这两件发明都是来自于中国,在很长的一段时间内,整个人类社会还是靠书和纸来传播信息。之后,在我读博士期间,有了数字图书馆项目,美国开始把全国的图书馆数字化,开始出现搜索、管理、影像分析。在PC互联网时代,网站成为纸张之外的另一个主要信息来源,但还是有局限性。在PC互联网时代,虽然有了搜索引擎和相对应的广告引擎,但大部分搜索还是受限于不能移动,人只能定点于PC上。纸张有所消亡,但是并不彻底。当我们走路或者外出时,还是习惯于随身携带杂志或报纸。
最近10年,移动互联网与智能手机让人不再受限于固定的地理位置,这让纸张进一步消失。尤其在近几年,这一趋势尤其明显,很多传统媒体、传统出版社都需要转型。在PC互联网时代,搜索引擎可以借着爬虫器在WEB上到处爬虫,但到了移动互联网时代,很多信息都藏在应用里面,这也让搜索引擎发现信息有了一定的难度。
在这个新的时代里,机会与挑战并存。虽然不能利用搜索引擎,将每个APP里的信息轻松爬出,但是在这股潮流中涌现出一些新的应用,让我们能够重新定义信息的源头。例如头条有头条号,我们可以与很多信息的供应商、内容的提供商、媒体一起来解构这个格式。以前我们需要做很多抽取的工作,现在可以更直接拿到结构化的数据。
到了今天,头条大规模使用人工智能做个性化推荐。因为在移动互联网上、在手机上人有很多碎片化的时间,让人产生了学习、娱乐等需求。由于这些需求,产生了有各式各样的应用场景。突然之间我们发现,在推荐引擎这一块突然间有了一个榜,将人与信息相连接。搜索引擎里所有的排序、分析等技术,都用于进一步的个性化精准推荐,从而变成信息流。在座的各位不一定了解什么是信息流,信息流是一种新的、更智能的方式,让人能够随时随地在需要时得到他所要的信息。人工智能不但能够做个性化推荐,可以让人类在各种不同的地方享受服务。我们的目标就是——用超级无所不在的机器智能帮助人类创作、发现、使用、分发信息,还有进行社交场景的互动。
再向前发展就会出现超级智能,在这个新的时代,在很多的场景下,人工智能与人可以互相帮助,从而让彼此变得更聪明。人工智能需要很多标注,在信息流的场景我们有更多机会拿到更多细颗粒度的标注,帮助我们做自然语言的理解、自然语言的生成,图像视频的理解和图像视频的生成。人将与人工智能进一步地共同进化,这也是一个非常值得期待的未来。
人工智能的本质是软件产业革命
在过去5年,人工智能快速发展。之前,人工智能虽然有机器学习,但往往受限于传统思维。20年前,有一些传统AI实际上并不能有效使用大数据。前不久我参加2016 NIPS大会,发现NIPS吸引了全世界最聪明的6000多位研究人员,每个人都带来了新想法、新视角,不再受限过去20年的经验和成就,而是更大胆地开始创新。
今天人工智能的本质其实是软件产业的革命。很多人知道“Software is eating the world”——软件正在改变全世界,但是软件产业本身都已经在被人工智能的发展颠覆。越来越多的软件不再依靠软件工程师的逻辑和认知一行一行被写出来。这些软件已经是大的模型,里面有上千亿的参数,有各式各样的大数据,训练各种各样的模型,包含统计模型、符号、逻辑、知识表达的模型。
今天,视频、图像、文字都已经被数字化,而数字化到了一定阶段之后要进一步语义化,比如图像理解。数字原始表达空间计算机很难做语义理解,我们需要深度学习的模型来学习非线性的转化。机器跟人的思维方式不一样,机器算得快,任何问题只要能表达,加减乘除就能搞定,机器都会做得比较好。
我们到了这样一个时代,我们有了更好的技术,能够学习这样一个表达方式,而且直接从数据本身学习。以前我们还需要做人工的标注,现在看到很多Deep Learning模型,将decision network和feature extraction combine,从没有标注的数据中学习。这将构成一个正循环,我们发现很多正循环中都有摩尔定律。越大的数据学习出来的表达方式越好,有更高的识别精度,这将构成一个正循环。我们希望训练更大、更深的网络,但也带来一定的挑战,因为我们需要更大的数据和更大的计算平台,这也让分布式机器学习的平台变得非常重要。
今天大部分的应用还是依赖于监督学习。但是,我们也看到很多研究,比如对抗学习,它让机器学习里面的生成模型跟辨别模型两个互相对抗,在博弈论的框架里面彼此学习。这就好像你训练两个模型,一个是学生模型,一个是教练模型,教练不断出更好、更难的题目来测试学生,学生也借由这些更难的题目被训练得更好。例如,一个滑冰选手大部分的场景都跳得很好,但是在三转跳的时候可能需要更进一步的improve,教练就需要训练模型。学生在大量针对性的improve后,就能不断进步。当然,这里也涉及到我们能够创造出更多的训练样本。另外,unsupervised learning,weakly supervised learning还有人机互动学习也是一个很重要的方向。
AI 驱动信息流:打通内容生产和消费
今日头条是一家信息流的产品与平台服务的公司,我们看到两端,一端是信息的创作源头,包含文字、文章、影像、问答,还有最近流行的短视频——头条也有视频服务,最近在短视频领域发展迅速。
另外一端是入口,现在有很多的入口,社交网络的时代有越来越多的人可以借由不同的信息流(feeds),还有不同的Apps、Channels接入信息。在信息流的过程中,人工智能能够处理、分析、挖掘和理解信息流里面的每一个环节。头条有大量的审核工作,需要过滤信息,再进一步将各式各样的特征向量做标注,借由推荐引擎的算法推荐。使用搜索引擎搜索,大部分人看到的结果是一样的,但信息流个性化推荐的难度复杂度更高,但也因此提供了更多的使用场景。
人工智能实验室在头条要做的就是在这个过程中把所有的输入跟输出连接起来。今天的人工智能没有什么秘密,只要能够定义输入是什么,输出是什么,有大量的例子、标注数据让系统来学习,基本就可以建立数据模型。当然我们希望把所有的input、output在信息流的pipeline里面define好。一旦有大数据我们就用机器学习,若没有大数据,就利用人工的特征向量,并进一步形成闭环,借由用户不断的消费和信息的创作,能够再一次拿到更进一步的标注数据。
在这个过程中,我们的AI也会越来越智能,我们甚至能够借由信息的创造,让AI帮助内容创作。我们的目标是有一天machine可以做writing,可以创作内容;不仅如此,人工智能还可以帮助消费,有一天也会有 machine reading。比如,依靠机器阅读,知道文章有没有内容,有没有问题需要过滤掉,文章的质量如何。将来,machine在writing和reading都会借由新的信息流机会,不断进步,质量不断提升。在这一过程中,我们希望建立AI的infrastructure和platform。这方面,我们会在内部先提供自己产品组所需要的服务,希望将来有一天能够对外开放。
在 AI Era 保持竞争力的5大优势
今天这个时代竞争越来越激烈,智能化的门槛也在不断降低,有五件重要的事情可以帮助我们思考。大数据还是最关键的,如果你是一家创业公司或者公司,我觉得你一定要有这样的思想。
第一,数据非常重要,最好能够建立data warehouse来管理所有的训练样本,而且最好bigger than anyone else。一旦有了这个想法你就会知道数据是很重要的,是数据让我们的AI技术不断迭代训练。
第二,想办法闭环。你要有很大的用户基础和用户的使用时间,这将进一步给你很多细粒度的标注,有助于你思考你的产品定位。
第三,应用场景。最好有很多很多应用场景,当然头条非常幸运,今天我们能在一个战略节点(strategic point)上面,看到大量的、无穷无尽的AI可以用到的地方。解决人类社会的基础需求就是连接人与信息。这里面你自己要先做给自己用,你自己有这个需求,你要真正把它解决好,将来有一天才能够to B,也能够提供给其他人用。
第四,除了算法以外,AI包括从底层的芯片到数据中心的管理都至关重要,你必须加速和训练你创新的算法,必须build your own AI infrastructure,必须能够看到 real workload。如果没有大规模计算的需求,没有分布式机器学习的需求,你或许无法意识到一些重要问题的存在。
第五,人才还是非常重要的。今天的算法还在不断往前,众多公司纷纷保持开放与合作,很多很优秀的人才在外面,在开源社交媒体里面,怎么有效利用与学术界的合作,建立联合实验室,或者贡献到开源community,都能帮助公司成长。
这就是五个我认为非常重要的关键点。具体到头条,我们有非常大的信息,包含每天展示的文章和视频数目已经超过100亿,每天处理的数据量已经超过7.6 PB,每天新增日志超过300 TB,当前数据总量是200 PB。头条系列的用户每天产生60亿次服务器请求,峰值达到每秒150万次,每天用户产生数十亿点击。
截止到2016年12月底,我们今日头条单一产品每天服务7800万DAU(日活)——在移动互联网时代,日活是非常重要的指标。头条系列产品合起来还超过这个数字。在内部我们有非常大规模的计算和分布式机器学习的建造,还有丰富多样的AI应用场景来连接人与信息。
文章转自新智元公众号,原文链接