机器之心报道
作者:李泽南、寓扬
7 月 19 日至7月20日,「市北·GMIS 2019 全球数据智能峰会」在上海市开幕。在峰会活动中,多位重磅嘉宾带来了精彩的主题演讲,内容涵盖自然语言对话、认知智能、AutoML 、联邦学习、认知智能、图表征神经网络等前沿技术,同时也围绕数据智能经济及产业生态的发展情况、同时 AI 应用侧的探索进行了深入交流。
本届大会以「拥抱数智经济,赋能产业生态」为主题,聚焦人工智能学术研究、工程技术与产业应用。「由大数据、人工智能引领的科技革命方兴未艾,正对社会正产生着深远的影响。」上海市大数据中心副主任朱俊伟在大会上表示。「滚滚的数据洪流、超强的云计算大脑、自我进化的机器算法,这些都促成了当前从数据技术向智能化应用的爆发式增长,我们每天的生活都在发生着深刻的变化。」
「我非常高兴能够看到中国在人工智能领域的巨大能量。不论学界、创业公司还是大企业都在开展人工智能研究,已形成了完善的生态,」2018 年图灵奖获得者,MILA 主任 Yoshua Bengio 为大会做了寄语,「我们应该把眼光放长远。今天我们拥有的机器学习系统,其智力甚至不如两岁小孩——我们还有大量工作要做。我们正在研究强化学习、使模型在计算机视觉等应用中学习更好的表征,包括 AI for Good 应用。所有这些都需要全世界范围内大量企业和研究人员的合作。」
用空间信息技术落地精准农业
中科院院士、中国科学院上海分院院长王建宇主要分享了空间信息技术及在大数据中的应用。空间信息技术通过卫星对地球进行了解,主要应用对地观测,导航定位,卫星通信、科学实验等。
去年上海市发布了《上海空间信息领域发展 2018-2035》白皮书,从顶层设计,自主创新,开放合作等四个方面进行规划。空间信息技术就可以为长三角地区的绿色发展、环境保护提供很好的支撑。
他首先介绍了空间分辨率技术,卫星通过对地观测,分辨率越高对地面看的越清晰。比如大家最熟知的气象卫星,不需要太高的分辨率就可以实现对天气的预测,还能用于火灾、沙尘暴、森林破坏等地表变化的监测。在该领域,美国、欧洲、中国走在世界前列。
目前,全球最顶尖的卫星可以做到 0.1 米精确度的空间监测,已经可以清晰的识别建筑物、车辆行人等,很多信息要保密几乎是不可能的。
曾经有报道说,美国卫星水平非常厉害,地上放一张人民日报的报纸,它都能够看到报纸的标题。但今天王建宇院士辟谣道,「这一说法是忽悠人的」。
他还介绍了成像光谱技术的进展,根据光谱,可以识别植被的类别、识别伪装等,在这方面,中国已经走到世界最前列。
接着他着重介绍了空间技术与大数据的融合。一个典型的应用是精准农业,以小麦种植为例,首先通过卫星的对地观测,范围小的可以通过无人机实现,然后依据小麦在生长过程不同阶段光谱的不同,可以判断哪里有了病虫害,哪里需要施肥等。
管理者就可以足不出户,查看农田状况,进行精准作业,还可以判断作为的生长状况,从而通过大数据估算产量。但他也表示,在技术转换成落地应用方面,还需要企业进一步转化落地。
最后他总结道,第一,空间信息技术的发展让我们的地球变小、变清晰,古代说的千里眼,顺风耳对我们已经不是不可能的事情了;第二,通导一体化,给我们带来一个全新的地球;第三空间信息和大数据融合,可以让我们「秀才不出门,尽知天下事」。
AI 开启智能企业时代
欧洲科学院院士、德国人工智能研究中心(DFKI)科学董事 Hans Uszkoreit 在大会上分享了人工智能技术在未来智能企业中的展望。
「看看今天的机器学习,它既可以学习知识,你也可以学习行为。但最成功的学习方法,包括深度学习,是只学习行为,却不学习显性的知识的,」Hans Uszkoreit 表示。「谷歌的机器学习翻译系统并不能理解你的语句,但却能够完成翻译工作,这是因为它的算法从大量数据中学习人类的翻译方法,从而让阅读的人类可以理解翻译后的内容。」
同样的还有现在的自动驾驶系统,它们并不是理解了交通法规——自动驾驶汽车遵守交通法规,是因为他们学习的是行为,而非知识。
「想要实现超越人类的 AI 能力,我们要在基于知识、基于规则和机器学习系统中找到交叉的部分,真正的超级 AI 是超越人类的,但仍然不是人类形式的智能——它不会是伊隆·马斯克所说的超级智能。」Hans Uszkoreit 说道。
目前欧洲学界普遍认为,AI 研究会存在四个阶段:第一个阶段是启发式的搜索,随后是基于知识的系统,目前的第三阶段中,我们开发了学习系统,其中包括深度学习,神经网络等等,并有了大规模的应用。我们现在的挑战就是把这些技术整合起来建立认知系统,其中需要包括大量的知识。
对于企业智能化,Hans Uszkoreit 认为在发展的道路上会有两波浪潮:第一波是数字化,把模拟内容转化为数字内容。在第二波浪潮中,人工智能开始扮演重要作用。其中包括机器人的大规模应用、智能物联网、IT 基础设施的部署、工业 4.0 和商业智能的推进,技术的铺开也意味着智能企业数量的增加。
未来的智能化企业就像人类的大脑,从不同感官收集情报,通过算法帮助人类进行决策,但人类还是必不可少的。「商业决策需要思考大量不同来源的内容。世界是动态变化的,我们不能简单地使用过去知识训练过的算法来对现在的问题进行决策,总会有意外发生,所以这里需要人类把关。」Hans Uszkoreit 介绍道。
另一方面,机器学习算法可以处理大量数据——人类显然无法观察并处理所有数据。今天,知识图谱已经可以在很多领域中帮助我们进行分析和决策了。
通过大数据、人工智能和物联网的进步。智能企业可以实现更好的供应链管理、市场开发、质量控制,所有这些过程都会有 AI 的参与。「我们希望把这些工作结合到一起。连接不同的供应商,将不同的数据以多种形式提供给公司。我们需要处理非结构化的数据,变革公司内部的结构,结合公司内外部生产的不同数据,这样才能实现更为广泛的机器学习。」Hans Uszkoreit 表示。
把当今的企业整合在统一的数据战略下,更好的运用数据,这样才可以让 AI 对与我们有更多帮助。不仅仅是百度、谷歌这样的科技公司,所有传统企业都应该有这样的知识流程。我们需要结合最先进的知识学习。包括强化的学习和主动学习,将显性知识与深度学习算法连接在一起。
李航:不要让系统假装智能
字节跳动人工智能实验室总监、IEEE 会士、ACM 杰出科学家李航分享了自然语言对话技术的发展机遇、挑战,以及他从事对话系统开发的经验。
李航表示,开放域的对话仍面临巨大挑战,各种聊天机器人真正跟你聊起来的可能性非常低。他认为自然语言对话主要有两个问题,一个是自然语言理解问题,语言理解涉及到人类智能的所有的方面,是非常困难的。
另外一方面对话是一种任务,两个人需要能交流感情、交换信息,但在对话系统中,聊天不断被终止、设置、恢复,用强化学习或者规则的方法能够做一些事情,但是真正的去像人一样定义任务、产生任务、完成任务,这涉及到整个人的智能的各个方面,也是非常具有挑战的问题。
未来 5~10 年,一方面要做技术的突破,以提高技术可以达到的上限。另一方面又要将满足用户使用下限的技术落地,从而为用户带来更大的价值。
李航认为,在做对话系统时,我们不光要考虑技术,通过语言做一个交互,还要考虑设计,如何将技术和设计结合起来支持不同的功能。
结合在字节跳动与华为对话系统的开发经验,李航总结了设计对话系统的四条规则:
要能够在一个场景中自封闭,让用户不论怎么说,能够完成一件事情、一个功能。
机器不可能 100% 理解,失败的时候,一定要能比较自然地应对。
对话不仅仅是语言的问题,也包括情感和文化因素,需要加入社交因素让对话更富情感。
第四,不要让系统装智能(是不是暗指获得首个获得公民身份的机器人?)。
需要强调的是,当下的对话系统解决了一部分问题,但用户真正痛点的问题还没有真正的解决,商业化的关键,是一定考虑到怎么样给用户带来真正的价值。
人工智能多模态的未来
香港中文大学终身教授、腾讯优图实验室杰出科学家、IEEE Fellow 贾佳亚向我们介绍了人工智能发展的现状,以及多模态方法的未来。
「媒体、投资人、各类公司的创始人和高管都在问我,人工智能现在发展到了什么阶段?我们对于它的乐观可以持续多久?」贾佳亚表示。「我对这些问题有很长时间的思考,直到现在终于整理出了自己的观点。」
对于 AI 的发展现状,我们可以参考人工智能顶会的论文数量。过往五年每年的 CVPR 大会投稿数目都有 50% 的增长,在 2020 年,预计投稿数目会达到 7000 篇左右。论文数量的猛增意味着大量研究人员正在加入这一领域。在自然语言处理领域里,ACL 大会今年因为 BERT 的突破性进展导致论文投稿数量突然提升了一倍——新的突破让很多问题变得可解了。
但是我们在 CVPR 论文的文字云中几乎找不到「Language」,在 ACL 大会中也几乎找不到「Visual」。这从一个侧面说明了今天人工智能的发展现状:每个方向的研究都在蓬勃发展,但这些领域基本上都是分离的。「虽然大家认为人工智能是一个整体,但现在实际上是一个个孤岛,视觉、自然语言处理等方向互相独立。」贾佳亚表示。
任何一个领域的发展都是以单点突破为方式发展的,从深蓝、AlphaGo 到 ImageNet、德州扑克 AI、OpenAI Five 在 Dota2 上的技术突破都是这样。但只有当所有组件整合在一起的时候,我们才能真正收获技术发展带来的红利。
多模态是人工智能的基础难点,机械要做到这一点需要识别图像、分析 3d 模型,分析结构化信息,认识文本,识别声音。
「下一代产品会最先出现在哪个方向?应该不是机器人。在未来 20-50 年里机器人仍然无法达到人类小孩的智商水平,」贾佳亚表示。「我认为会是汽车,它有多种传感器,需要强大的处理能力。车这个行业未来可能会有翻天覆地的变化。」
如果我们对机器人说:请给我桌子上左边的瓶子。AI 解决这个问题需要语言模型、三维建模、自动导航、图像分析等多种能力。对于人类来说非常简单的一个问题,对于机器人来说却是非常难完成的——我们需要对不同的模型进行监督训练。我们今天看到的机器人都只能进行非常简单的操作,这意味着未来技术的发展还有非常多的空间。
在多模态 AI 方面,腾讯优图也已有自己的工作。其推出的手语翻译器可为国内 7200 万听障人士提供帮助。「中国有 5% 的听障人口,这个数字非常大,但是人们没有意识到,」贾佳亚介绍道。「你的微信朋友圈可以有几百人,但很可能一个残疾人都没有。这是一个可怕的现象:我们的社会和他们的社会是相互隔绝的,完全没有交集。」
这就是腾讯开发多模态 AI 手语翻译的动力。手语识别是一个多模态的问题,需要有姿态识别、动作识别、语义转化和语言模型这个翻译器是很有趣的工具,它对社会也很有意义。
除此之外,开发者们在内容平台上实现了很多交叉融合,通过视频内容和字幕文本,AI 可以对视频内容进行精准理解。这在视频平台上已经收获了不错的反响。
「人工智能近年来的发展令人振奋,多模态人工智能是未来的方向。大家不用过分乐观,也不用过分悲观。走下去或许还有十年二十年。希望大家对于人工智能保持谨慎乐观的态度。」贾佳亚表示。
从 AutoML 到认知智能:AI 前沿研究趋势
复旦大学教授,极链科技首席科学家姜育刚的演讲以视频 AI 技术的发展为题。人工智能视频的生成,DeepFake 换脸是最近人们热议的话题,这种技术如果被滥用,可能会带来很大威胁。
极链科技致力于开发视频检测系统,面向电影、电视剧、综艺、短视频、广告等种类的视频。不同内容的场景复杂,难以控制,在这样的内容上做视频识别难度很大。极链科技提出的视频 AI 技术可以理解视频内容,经过 AI 处理的视频可以在中间插播具有关联性的广告,让用户产生更多的场景共鸣。
「我们都知道 ImageNet 对于计算机视觉领域的发展贡献很大,然而在视频领域,YouTube8M 和 ImageNet 相去甚远,」姜育刚表示。「极链科技和复旦大学希望通过举办 VideoNet 视频内容识别挑战赛,形成新一代视频识别算法评测标准。」
Video-Net 是一个新类型的数据集,其中包括业内标注粒度最为精细的视频数据,全面覆盖视频中事件、动作、物体、场景等工作。姜育刚希望通过这项工作,让人工智能也能根据场景推断其他物体。
人工智能不仅可以在娱乐方面提升体验,也可以帮助人们获得更好的教育。松鼠 AI 的崔炜探讨了如何使用人工智能提高学生的学习效率。
「人工智能的自适应学习或许可以实现千人千面的教育,」崔炜表示。「AI 和教育的结合可以帮助孩子获得更好的学习能力。即使在未来知识本身被遗忘,学习方法在生活和工作中也可以帮助他们不断获取新的知识。」
松鼠 AI 开发的 K12 智能教育产品,做到了精准的诊断和高效的「治疗」。可实现实时的学生画像更新,了解学生的知识状态,为学生规划最佳学习路径,进而实现个性化的学习内容推荐。最大化提升学生的学习效率。在没有老师干预的情况下,人工智能系统可以帮助学生自行完成目标。
「基于信息论和知识空间理论的知识诊断可以使用最小的题量,最短的时间内诊断出学生的知识漏洞,」崔炜介绍道。「而基于贝叶斯认知诊断模型的知识状态评测可以考虑相关知识点,以及历史学习记录,更准确地评估学生的学习状态。」
深度好奇创始人、CEO 吕正东为我们分享了认知智能对于行业的帮助:「这是一种高级的,对于人类抽象思维的模拟,其中包括理解、推理,对于知识表达的使用。人类能够轻松地理解自然语言,在解答问题时可以使用大量知识。」
对于深度学习模型来说,解决真实世界的大多数问题是非常困难的。新一代的神经符号智能需要三个维度的特质:拥有类似人脑的多异构处理器,算法机制基于联结主义和符号主义,学习过程采用非监督、弱监督学习(强化学习)并与有监督学习进行有效混合。这或许就是下一代人工智能的范式。
深度好奇在近几年来主要的技术框架有关解析和推理。解析框架以神经网络的中央控制器驱动多个符号规则的协处理器,可以像人类一样阅读和理解长篇文章,它会将阅读当做一个复杂的决策过程,总结并进行理解和推理。
推理框架有关图结构计算,采取混合态的表示,以「神经·符号」方法进行多通道运算,对规则性知识进行动态查询和吸收,其推理过程可解释。
第四范式的涂威威回顾了自动机器学习技术(AutoML)的近期发展:「机器学习是非常复杂的技术,从最早的定义问题,导数据的收集和处理,最后的模型应用是非常复杂的过程。以往只有机器学习专家才能胜任这样的角色。」
AutoML 可以将技术平民化,通过自动机器学习的方式让更多的人来完成专业的人工智能算法构建工作。人们在这个领域研究了很长的时间。AutoML 是在有限系统资源情况下把机器学习系统实现最优配置的方法。机器学习的配置、评估配置的效果是需要了解的问题,高效求解的方法则是研究的目标。
AutoML 的未来会有哪些发展趋势?从配置空间来讲,我们需要寻找更紧致的精确控件以降低算力开销,提升评估的精确性。自动半监督学习(AutoSSL)已经可以自动预测数据的标记,实现很好的训练效果。此外,神经网络架构搜索工作适用范围仍然狭窄,未来自动的图像分割、自动文本分类或许可以为图像分类之外的机器学习方向带来更多的可能性。
为了解决更多现实问题,我们可能需要交互式的自动机器学习系统(Interactive AutoML):让人做人类擅长的事物,机器做机器擅长做的事。通过实时交互的方式,最终让人们探索适合解决问题的高效机器学习算法。
AI 为汽车行业带来 DNA 级革命
在数据智能产业化落地方面,上海市经济和信息化委员会介绍了 AI 在学校、医疗等场景的落地,上汽重点介绍了 AI 为汽车行业带来 DNA 级的革命,上海电气则介绍了 AI 在能源管理中的智慧预警。
首先,上海市经济和信息化委员会裘薇女士介绍,去年 12 月,上海在国内率先提出「上海市人工智能应用场景建设实施计划」,解决 AI 公司技术落地和产业对 AI 需求的匹配问题,主要聚焦教育、医疗、制造业、城市管理等重点领域。面向十个场景,上海吸引了全球超 170 份解决方案,其中微软、IBM、BAT 等国际知名企业均参与其中。
在具体落地上,上海闵行蔷薇小学通过智能课堂行为分析系统,对课堂学习情况进行量化评估,指导教学实践;还借助计算机视觉、深度学习、数据挖掘等技术,实现综合分析学生课内课外行为。
复旦大学肿瘤医院开发了挂号预约系统,通过上传患者近期病情信息,可用 AI 文本识别、语音交互等方式进行病情诊断,推荐合适的就医路径;还通过医疗语音录入系统,帮助医生快速录入病历和报告,准确率达 97% 以上;推出智能辅助诊断系统,降低乳腺 X 光的漏诊、误诊情况。
下一步工作,上海会打造场景示范区,聚焦「大场景」,突出高端引领,破解痛点问题。
工业互联网时代,汽车一直扮演着工业进化中的明珠。上汽乘用车公司首席数据官张亮称,AI 和数据智能正为汽车行业带来 DNA 级的革命和重塑。
他表示,上汽在 2016 年推出中国首款互联网汽车,至今互联网汽车已经销售 70 万台。
汽车行业 130 多年的发展,主要基于经验的积累,来建立标准。但张亮称,用经验建立标准存在 4 个不足:1. 具有极强的冗余性;2. 标准的不完整性;3. 用户使用中存在偏差;4. 过去标准主要聚焦实物标准,缺少感知标准。
而随着 AI 的到来,将数据连接到一起,为产品的研发、故障预测、故障诊断,以及售后的质量问题解决等都带来可能。比如电池寿命是新能源汽车中大家最担忧的一个问题,上汽推出一款电池医生产品,基于使用习惯可以预测电池寿命。
「真正改变汽车行业的是智能研发平台」,张亮称,上汽在前期产品的目标设定、产品研发方案、虚拟平台仿真等都用到了数据的回流,进行产品定义,加快研发节奏,满足精准需求。
他还透露,荣威 RX5 MAX 将在今年下半年上市,将会是全球首款量产的智能座舱。
接着,上海电气智能中心主任黄猛介绍了 AI 在能源管理中的应用。上海电气风电集团是一家智能制造企业,风力发电机是它一项重要业务。
黄猛称,风力发电机往往安装到偏远地区,在运维中往往存在很多难题,比如如何通过数字化手段进行集中管理;远程管理风机时,如何让数据有效的接入进来;以及如何通过搜集的数据进行健康预警来避免故障。
数字化、大数据、AI 技术在能源管理中能够发挥很大作用,但这些技术与实际应用落地还有距离。
他表示,在能源管理中,最关键最核心的是智能故障预警,通过海量历史数据,提取特征,用机器学习进行模型训练,可以进行有效的故障预警。比如在上海东海大桥的风电场,对风机中的关键部件齿轮箱进行健康预警,可以提前十天左右发现故障,从而进行小范围检修,从而节省非常高的成本。
此外,到 2021 年国家将取消风电补贴,在降低成本提升效率,数字化、AI 技术将会起到重要作用。
在第一天的圆桌论坛上,金棕榈企业机构董事长、CEO 潘皓波,小 i 机器人高级副总裁杜玉清,华润微电子控股有限公司应用技术研究院工艺集成首席专家李铁生和中译语通科技副总裁、首席技术官程国艮一通探讨了实体经济与数据智能融合的挑战和机遇。
「我们和国内大型金融机构合作多年,这些银行在近几年业务量增长 20 倍,网点数增加了 6 倍,但是整个客服体系和业务人员其实没有增加,反而从原来的四千人减少到了两千四百人左右,」小 i 机器人高级副总裁杜玉清表示。「在这其中大数据应用起到了很关键的作用。AI 解放出来的人力,并不会形成裁员,而会解放出来从事系统管理、数据分析等更具创造性的工作。」
潘皓波则认为,人工智能公司未来会形成 B to C 服务的群体,如导游领队、私人医生、法律顾问、咨询师等等。过去的金字塔形组织架构会变成一个大平台加上「超级个体」的形式。
杨强:用联邦学习打破「数据孤岛」
微众银行首席人工智能官、国际人工智能学会理事长、香港科技大学教授杨强带来联邦学习的最新发展与应用。
AI 发展到今天面临很大挑战,尤其是数据挑战。数据孤岛、小数据、用户隐私的保护等导致数据的割裂,让 AI 技术很难发挥出价值。为了解决这一问题,杨强教授提出「联邦学习」的研究方向。
所谓联邦学习,是多个数据方之间组成一个联盟,共同参与到全局建模的建设中,各方之间在保护数据隐私和模型参数基础上,仅共享模型加密后的参数,让共享模型达到更优的效果。
杨强介绍道,联邦学习可分为横向联邦和纵向联邦,横向联邦是指企业各方数据维度相同、ID 维度不同,更多存在于消费者应用中;纵向联邦是指企业各方数据的 ID 维度相同(样本重叠)、数据维度不同,更多存在于 B 端应用。
在具体的使用场景中,杨强重点介绍了联邦学习在金融行业中的应用。比如针对保险行业的个性化保险定价问题,一家互联网企业和一家保险企业进行数据合作,这种合作数据的 ID 重合度相当大,数据特征维度大大增加,使模型的个性化定价效果显著提升,为保险企业带来 8 倍覆盖率提升和 1.5 倍利润率提升。
在另外一个小微企业信贷管理案例中,使用联邦学习后,企业将风控区分度提升 12%,使贷款不良率小于千分之五。
即使在双方既没有共同的 ID,数据特征也不同的情况下,也可以使用迁移学习结合联邦学习进行共同建模。
杨强强调,联邦学习一定是多方共同协作组成一个联盟,生态的建设十分重要。它最大的优势是,保证数据不出户,通过生态在不同行业选取合作伙伴,用群体智能不断提升模型效果。
未来,安全合规、防御攻击、算法效率、联盟机制等都需要进一步研究。比如联邦学习中各方合作的一个基础就是加密技术,加密算法的效率显得尤为重要,算法的改善还有很长的路要走。
吴恩达:利用 AI 带来的动能
深度学习先驱吴恩达(Andrew Ng)是大家耳熟能详的名字,他的演讲也获得了最多的掌声。今天,吴恩达在 GMIS 大会上与人们探讨了企业的人工智能转型。
「四年前我提出了一个概念:AI 是新的电力。现在我得说,AI 带来的动能正在展现效果。」吴恩达说道。「看看近年来有关 AI 的工作需求数量,每年都有 35% 的增长,深度学习的发展正在让人工智能领域变得繁荣。麦肯锡最近的预测认为到 2030 年,全球的经济增长量中将有 13 万亿美元来自人工智能技术的贡献。」
「以机器学习领域的论文数量为例,两个月前谷歌的 Jeff Dean 曾展示了一个数字:arXiv 上每天关于机器学习的论文数量超过 100 篇。」吴恩达表示。「今天,我们也有了很多机器学习工具,包括神经网络框架 TensorFlow、PyTorch、MXNet 和百度飞桨,这些工具正在让人们使用机器学习的门槛变得越来越低。」
吴恩达表示,几个月前他曾在加州参加了一个创业挑战:一支来自印度的团队展示了机器人应用方法,其可以自动拍摄农田的照片。有趣的是,开发这一应用的人只有 12 岁——他使用开源的工具和算法完成了这一任务。现在的人工智能业务已经可以由任何人来做了。
通过足够的数据和算力、灵活的工具以及创新的想法,我们可以建立起属于自己的 AI 项目。很多公司的 CEO 都在担心如何把 AI 技术加入企业工作流程中。这个转型过程有时是 1-2 年,或是更长。他们担心选择了错误的项目、设定了不切实际的目标,如果转型失败,公司会蒙受巨大损失。
「看看今天的世界,有关 AI 的应用越来越多了。但企业的 AI 转型并不是开发一个 APP 这么简单。」吴恩达表示。
去年底,吴恩达发布了《AI 转型指南》,希望以教育者的身份将「All in AI」的经验传授给众多公司管理者。作为 AI 领域的先驱者,吴恩达从谷歌大脑和百度 AI 团队的发展中收集洞见,它们对谷歌、百度的 AI 转型扮演着重要角色。参照此指南,任何企业都有可能成为强大的 AI 公司。
为了找到正确的方向,我们需要从简单的地方起步,自动化任务而非工作,并把人工智能和人类的专业知识进行结合,这样才能更好地帮助公司选择正确的 AI 项目。「我们发现,很多公司第一个落地的 AI 项目通常并不是最有潜力的项目。我给很多公司的建议是做一次头脑风暴,至少看六个不同的项目,」吴恩达表示。「然后花费几个星期进行调研工作,确保这个项目是有价值的。」
吴恩达为企业 AI 转型给出了如下建议,在《AI 转型指南》中也有详尽解释:
1. 实行试点项目获得动力
2. 建立一支内部 AI 团队
3. 提供广泛的 AI 培训
4. 策划合适的 AI 战略
5. 建立内部和外部沟通
在期待 AI 为企业带来的红利之前,我们还需要避免几个陷阱:不要期待 AI 立刻产生作用,而是要多次尝试,对 AI 发展的回报曲线进行合理预算;不要使用传统的流程评估人工智能项目,应该为 AI 项目团队设立合适的 KPI 和目标;在团队建设时,我们不能仅依靠明星工程师,而是要建立一个完善的团队。
「看到 AI 崛起,我们需要有正确的概念,首先 AI 是一个系统的工程。我们需要集中很多人的团队才能完成一项具体任务。」吴恩达表示。
对于未来的人工智能发展,吴恩达认为,我们应该期待能够利用小数据的新算法:「我们现在只能用人眼检测手机屏幕的划痕——如果有大量图片,AI 也可以做得很好,但没有任何工厂会有几百万不同划痕的手机。这个时候我们就需要 few shot learning、无监督学习等新方法,能从很少的例子中学习出正确的概念。」
强化学习和自我学习可以在虚拟环境中进行训练,从而避免在真实世界的应用中遇险。而且这些模拟可以并行化,同时进行大量的试验,很快学习出解决方案。
AI 正在走向端侧,区域计算中心也要承担部分计算,吴恩达对于 5G 有着很高的期待:「5G 是非常重要的技术,这项技术在中国的发展已经超过了美国。它能让网络延迟从 4G 的 20 毫秒降低到仅仅 1 毫秒,并支持更多设备的连接。5G 可以支持更多种类的应用,帮助 AI 发展出更多新的形势。」
认清人工智能的极限
在过去十年里,我们看到了人工智能的一些真正突破,机器翻译这样 20 年前仅存在于科幻小说里的东西,现在已经成为全球数百万人每天都在使用的技术了。同时我们还看到了很多令人兴奋的进展,如人脸识别技术。在 2012 年时,吴恩达等人在谷歌的研究引领了图像识别领域的重大突破。
「现在的计算机在识别面部方面比人类做得更好。所有这些使得我们相信:我们似乎拿到了人工智能魔法的配方,它就是深度学习。」牛津大学计算机系主任 Michael Wooldridge 在大会上说道。「看起来是这样的,但进一步的探索之后。我们就会看到目前机器学习技术的尽头。人们都在问边界是什么,我们现在已经看到了一些界限。」
Michael Wooldridge 向我们介绍了人工智能目前的优势与限制。
计算机在 1940 年被发明出来的时候,被用来处理一些数学问题——它比人类做得好,可以 24 小时不停地工作,人类是做不到的。
但一些人类每天都在使用的简单能力,机器学习却是做不到的——计算机无法进行长期推理,无法做问题的定义,难以对周遭环境形成认知,也难以完成可靠的判断。
「你抽烟吗?如果你每天抽 20 支烟,得肺癌的几率会有很大提升。这是一个简单的推论,但对于计算机来说是难以理解的。」Wooldridge 表示。
今天,AI 最重要的问题在于认知能力——理解周围的情况。「这个技术关乎无人驾驶的可行性,我们可能会在未来的 5、10 或是 30 年后实现它,」Wooldridge 说道。「自动驾驶归根结底就是让汽车知晓周遭情况。深度学习在这方面已经形成了很大的突破,但并未完全解决有关认知的问题。」
历史上,想要让 AI 进行推理,并展现认知能力,人们找到了两种思路:
自上而下的方法:基于专家知识的 AI——比如由人类教 AI 认识规则,从而让它学会如何开车。但在规则太多的情况下,我们仍然无法实现可靠的认知,深度学习这种方法效果反而很好。
自下而上的方法就是机器学习,通过数据的输入和判断的输出,通过大量已标注样本进行学习,不断更新模型权重,最终让计算机学会概念,进而拥有判断的能力。神经网络和深度学习是目前流行的方法。
由于算力限制等客观原因,深度学习方法在很长一段时间内并不实用,而今天,深度学习已经可以学会很多能力了。Wooldridge 举了 DeepMind 让 AI 打 Atari 游戏的例子:在 600 次迭代之后,强化学习算法在没有人类教学的情况下,通过自我训练学会了效率最高的得分方法。
但基于数据驱动的方法也有其极限,以法文诗歌的翻译为例,人类专家的翻译结果能够保持优美,但谷歌翻译的机械结果显然不尽完美。机器不能理解语言背后的意义,不懂法国文化。如果需要好翻译,计算机需要看懂文字背后的深层内容。截至目前,我们不管把多少英文-法文文本输入到神经网络中,也无法获得像人类这样的理解。
Wooldridge 举了个更有趣的例子,机器学习也不能理解这样的文字:
-Bob:「I'm leaving you.」
-Ann:「Who is she?」
如果把这六个单词输入谷歌翻译中,翻译成任何语言,我们都能获得不错的直译结果,但机器是无法理解自己在干什么的。「人类的学习方法和机器是不同的过程。机器如果要对语言有所理解,就要理解世界的一些常识知识。深度学习是一个很大的突破,但这不是真正的 AI。要想实现真正的智慧,我们还需要更多。」Wooldridge 说道。
周涛:一张街景照片引发的城市安全感分析
作为国内大数据行业启蒙导师之一,电子科技大学教授周涛呈现了在商业之外,AI、大数据在社会治理和监管中的真实应用。他抛出一个独到观点:「未来社会治理和监管会有四方面的变化,自动化+规模化+定量化+客观化,AI、大数据将会发挥越来越大的作用。」
围绕这一观点,他介绍了 AI、大数据在城市治理、金融监管、环境治理等方面的真实应用。
你很难想象,一张城市街景照片可以跟社会治理产生关联。周涛教授的学生在北美一个城市,通过谷歌在十几万张照片中选择了 2000 张街景照片,然后在网上通过志愿者做了一个简单的实验,看图回答你觉得这个地方是否安全,大约经过 60 天采集到了五十多万数据。然后将这 2000 张图片排序,看哪些是安全的,哪些是不安全的,把排序映射到 0-1 的空间中去。再通过计算机进行特征学习,对看到的图片进行打分,结果表明计算机的打分和人类评分的关联性可达 0.87,这意味着很强的相关性。
这一打分背后可以反映大众对城市环境的安全认知。同样地,计算机也可以对城市的绿化水平、卫生条件、总体幸福感等评分。周涛团队在成都也做了一些类似的事情。通过计算机的评分,我们能够立刻知道一个城市哪里最安全、哪里幸福感最好、哪里卫生条件最差等。
另外,通过观察一个城市 5 年、10 年的城市发展照片,计算机也能从数据中呈现城市环境是否变好、老百姓的幸福感有没有变强。这可以大幅改变城市管理者对城市的认知,从而指导政府的城市治理工作。大数据、机器学习技术连接了人类判断和机器判断。
此外,周涛团队基于中小企业的行为数据为政府提供金融监管平台,通过卫星遥感数据在四川进行水质污染的实时监测。
机器学习的工程化视角
在「数据思维与工程实践」板块,华为 IT 标准专利部主任工程师黄之鹏另辟蹊径地分享了 AI 的工程化视角。
「我们提到机器学习,经常会想到大数据应用,但这次我希望介绍一下工程化视角(GAIA 原则)的机器学习,」黄之鹏表示。「华为希望以通用性技术来解决问题。在抽象的过程中,则希望有统一的接口。我们希望所有的工作都能有很好的操作性、可解释性:写好一次代码,在其他任务中都可以应用。另外,机器学习最终的目的是自动化。」
在开源领域里,华为一直在推动全栈视角,真正的 AI 需要打通全栈,实现端到端的人工智能工作流程,开发者不仅应该知道怎么用框架完成任务,还要知道模型跑在不同的环境里,需要如何简单地进行转换。
黄之鹏着重介绍了近年来华为在开源社区 ONNX 中的贡献。在此前推理侧的模型转换基础上,机器学习社区正在密集讨论模型训练的新方向。华为在这方面的贡献包括边缘设备的通用方法,以及对于 Model Zoo 的算法贡献与方法提升。
华为今年开始尝试推动开放异构计算框架(OHCF),实现端到端的开源全栈概念。对于厂商来说,新的框架是一个基准,对于客户来说它也可以作为开发的参考。通过 OHCF,我们可以实现面向专用硬件的元数据管理。
「开源正在吃掉软件,其实也在吃掉硬件。对于我们来说,最重要的是把这些信息汇总到管理平台上,形成更好的映射,更好地调用机器学习任务。」黄之鹏表示。
接着,阿里巴巴资深技术专家、阿里妈妈大数据和机器学习平台负责人张迪介绍了深度学习与图表征神经网络在淘宝广告推荐中的超大规模应用。
他说,「过去五年中,以深度学习为代表的 AI 技术在 CV 领域取得巨大成功,但对于很多大的互联网公司来说,占公司内部 80% 以上算力的应用还是搜索、推荐、广告,它们是沉默的大多数应用。」
用户在淘宝上的行为是非常复杂的,包括浏览、收藏、购买等,电商广告面临的挑战是如何洞察用户的兴趣习惯,推荐个性化的产品。而随着深度学习的引入,网络变得越来越复杂,新的挑战是,广告推荐场景以特征为主,一方面高维稀疏特征导致模型非常大,往往达数百 G 甚至上 T 规模;另一方面,相比 CV 场景,广告推荐场景在参数规模、样本规模上都要大一两个数量级,参数通常达千亿规模,样本通常达千亿到万亿规模,所以必须要做一个全局设计保证计算芯片高效率运行。
阿里打造了高维稀疏场景的深度学习框架,并提供非常多的训练模式,进行分布式模型存储等,进而优化推荐模型,比如推荐场景下使用的结构化训练范式可将训练性能提高 4~5 倍。
张迪还谈道,淘宝上的商品、店铺、品类等本身就是一个超级大图,用户的购买行为构成了大图之间的连接,所以电商人货场匹配的场景非常适合用大规模图表征学习进行刻画。
它可以对图中的深层次关系进行更动态地刻画,比仅仅使用深度学习有更好的可解释能力。以 CTR 点击率预估为例,使用分布式图表征学习后,可以把表征做的更加深入,并且整个系统更加简单。
他总结道,使用图表征学习和深度学习结合有两个优点,第一是使输入的样本大幅度减少,另一个是在对整个历史用户行为进行刻画时可以动态地进行表征学习。
美团和大众点评每天在全国都会有 60 万骑手把商品递送到消费者手中。美团大众点评智能搜索团队负责人张弓介绍了搜索智能化的落地和相应系统建设:「与通用搜索和电商搜索不同,美团点评的生活服务搜索会遇到不同的挑战。当用户搜索日本料理的时候,我们是给他推荐一个近距离的商家,还是距离稍远,但是更高端的呢?」
搜索不仅是一种完成用户需求的服务,也是一个天然的大数据系统,美团点评构建了支持海量离线数据的处理能力,使用在线学习方法实时感知用户需求的变化。「通过大数据处理框架的开发,我们建设的搜索系统架构支持异构数据,支持复杂模型。智能数据的处理是非常重要的。」张弓介绍道。
目前,美团点评已有 4 亿用户、千万级 POI、1.4 亿店菜、数量高达 40 亿的真实点评文本,这些数据可以用来构建知识图谱,从海量数据中学习知识。张弓表示:「我们构建了美团大脑,这是一个知识提炼框架。我们在构建的过程中发现这和人类社会的科技进化史方法很相似:通过大数据(原料),我们可以提炼出知识(金属),进而构建模型(工具与组件),最后打造出高科技的产品——飞机、火车等等。」
这样一套框架可以帮助美团源源不断地产出各种丰富的显性和隐性知识。美团最终希望打造一个一站式的全场景搜索需求,构建面向消费者的智能助理,帮助消费者吃得更好、玩得更好。
传统汽车交易链条很长,具备不确定性,导致交易的复杂性。车好多集团高级算法专家王文斌分享道,车好多围绕「人、货、场」探索了不同的智能化应用,比如车况智能评估、智能定价等。今天他重点介绍了公司在对话机器人领域的探索。
对话机器人可以连接企业和用户,一方面它降低了人力和培训成本,使服务质量可控,提升效率,另一方面它通过推荐系统和多轮对话,引导用户完善用户画像,实现精准营销。
对话机器人最核心的是两个方面,理解用户意图,然后给出回答。车好多基于底层的 NLP 技术,结合汽车领域的数据,开发出了意图识别、智能导购、对话辅助等,来支持相关业务的开展。
王文斌认为多轮对话是个工程问题,需要从填槽、场景管理、可配置上进行优化。此外他还谈到,在具体业务场景中,产品与算法的平衡、业务和技术的平衡等都是对话机器人所面临的挑战。
产业的重生与变革
在最后一个板块「智能应用与产业生态」中,如何定制对话式语音助理、AI 在零售和教育的落地成为关注点。
思必驰联合创始人、首席科学家余凯谈道,「技术提供商的通用技术和高度灵活个性化应用的需求往往成为主要矛盾。」
为此,思必驰提供可定制的对话式人工智能平台。他称这样一个平台,必须要具备工程、(模型)资源、(个性化)算法三方面的支撑。
在工程支撑方面,语音助理必须以对话为核心,做到高可用定制、定制规模化,此外还要做到软硬件一体化,提供智能信息服务。
在资源支撑上,针对语音识别、理解、表述、合成等方面,需要有自动化的技术,实现定制化的识别,并扩展相应的语义理解。
在算法支撑方面,个性化自适应算法要解决三个难点问题,首先要能够智能检测,发现目标;通过小数据迁移学习,通过语意槽的共享,迁移到不同的应用场景;还要具备在线自适应试错学习,基于试错的强化学习解决对话交互策略问题。
余凯还指出对话层面的认知智能技术路线,即从深度学习演进到迁移学习,由数据驱动变为数据和知识混合驱动,由需要预先搜集数据的开环学习转变为闭环学习。
码隆科技联合创始人、首席技术官 Matt Scott 向我们介绍了人工智能技术近期在零售领域的发展:「我们现在处于零售的重生阶段,而不是零售的启示录阶段。零售业公司不会全部变成电商,但在演进过程中必然会有转型,这就是我们需要用到 AI 零售的地方。」
有关新零售这个主题,我们已经看到了太多 PR 内容,什么是真正的零售 AI?Scott 认为,我们谈论的首先是数据,其次是算法,我们需要无监督学习/弱监督学习处理大量数据。
对于零售商来说,他们需要的是可扩展的、有真实效益的解决方案。零售在真实世界中总会遇到各种各样的问题,AI 必须解决这些问题,否则无法实际部署。另一方面,零售行业的利润率非常低,在成本效益上,新的方法必须达到很好的效益。
「我们不能为高科技付出太多的成本,我们不能放太多的摄像头,有太多的设备要求,这是无法扩展的,」Scott 表示。「比如自动化的购物体验,它还有很长的路要走,在大店模式上难以实现,目前只适用于小店。」
在超市自主称重的问题上,我们现在可能需要在商品列表中翻好几页选择正确的种类才能算钱,如果我们为这个系统加入一个摄像头,使用 AI 自动识别商品,问题就能很快解决了。Scott 表示,使用码隆科技的技术,即使被装在袋中的水果,摄像头之后的算法也能快速识别,准确率超过 99%。
在这背后的算法也很重要,码隆科技立足于科技领先的研究。「大多数人都关注 AI 的架构和数据,码隆科技则关注损失函数和学习策略,我们发现这可以极大提升算法的识别效果。」Scott 表示。
码隆科技推出的弱监督学习算法 CurriculumNet 在一些任务中实现了业内最佳的效果。论文已经被 ECCV 2018 大会收录。而在 GPW Framework 的研究中,码隆已经可以对比所有损失函数的优缺点,新的研究已被 CVPR 2019 大会接收。
暗物智能深耕的场景是 AI+教育。其研发总监梁小丹称,暗物智能从技术上搭建了五层的 AI 认知架构,第一层是执行交互层,第二层是感知和行为层,第三层是任务与调度层,第四层是思维与动机层,第五层是价值和规范层。
它具备语音交互、计算机视觉、逻辑处理等多模态能力,并研发了一款桌面陪伴机器人。
暗物智能还通过学习教育机构的视频,自动生成背后的教学逻辑,训练 AI 老师。在智慧课堂场景中,它通过分析老师与学生的对话交互,判断老师有没有把某个知识点教会学生,以及学生对哪个知识点掌握得较为薄弱,进而进行个性化 AI 辅导。
最后,黄之鹏、俞凯、Matt Scott、梁晓丹和 Wonder Technologies 首席数据科学家 Christopher Dossman 共同围绕 AI 应用创新与挑战进行了一场圆桌对话。
「在未来十年可解释的 AI 是最重要的方式,只有可信的 AI 才能够推广到各类领域中。」俞凯表示。
Matt Scott 则认为目前我们仍然处在 AI 技术发展的开始阶段:「当今的人工智能研究还有一些基础的问题未被攻克。机器学习无法学会人类学习经验的方法,我认为结合多种感官输入的多模态算法将会是未来 AI 的重要发展方向。」