上周日,微软亚洲研究院(MSRA)于北京举办了第二届院友会年度闭门会议,包括前微软亚洲研究院院长、创新工场创始人、董事长及CEO李开复,前微软亚洲研究院院长、微软全球执行副总裁、微软人工智能及微软研究事业部负责人沈向洋,以及现微软亚洲研究院院长,微软全球资深副总裁,微软亚太研发集团主席洪小文在内的共三十余位嘉宾为各位院友献上了六场诚意满满的对话,分别涉及对 AI 领域的投资逻辑,CTO 的职责与体悟,人脸识别、人机交互、金融以及自动驾驶领域的选择与挑战。清大学国家金融研究院院长朱民为会议做了以「世界金融群结构及市场波动」为主题的报告。
以下为机器之心对会议内容所做纪要。
洪小文致辞:数字化转型对每个公司的影响
参与嘉宾
- 微软全球资深副总裁、微软亚太研发集团主席、微软亚洲研究院院长 洪小文
洪小文提到,大数据、大计算,以及AI算法的结合所造成的影响,叫做数字化转型(Digital Transformation)。而数字化转型将对每一个个人、每一个单位、每一个公司都将产生无比的影响。影响有四部分:
第一,用智能系统迭代产品,这跟中国几年前提出的“互联网+”是非常类似的。
第二,利用智能系统更好地与客户联系。无论是 2B 或者 2C 的企业,乃至政府,都能从消极到积极提供支持以及更好的沟通。
第三,优化公司运营。如何利用系统智能来更有效、更高级地运营,是每个公司、每个单位可以利用的机会。
第四,赋能员工。员工是公司最宝贵的财富,用智能系统帮助员工高效地处理工作,同时可以兼顾家庭,甚至于激发其创造力,为公司产出更多的价值。
总而言之,数字化转型是一个全面性的机会。这也是今天在互联网IT行业工作的人最振奋人心的未来机会。
而微软亚洲研究院从今年开始进行了一项新尝试:除了对内输出赋能外,也开放研发成果乃至人才,与中国其他领域的公司合作。例如,和中国最大的投资公司,华夏基金一起做一些前瞻性的共同研究。陆续还会有和其他公司的合作曝光,也欢迎在各个公司的对微软技术有兴趣的院友前来接洽,进行战略上、商业上、技术上的合作。
朱民主题演讲: 世界金融群结构及市场波动
参与嘉宾
- 清华大学国家金融研究院院长 朱民
朱民展示了自己在国际货币基金组织(IMF) 工作期间的有关世界经济体「关联性」的研究。
世界金融的根本结构变化,使得人的行为、市场的行为发生了根本的变化。一方面,世界经济金融的结构变为网络和群结构,另一方面,群结构引起了世界经济金融的高度关联性和溢出效应。
观察的开始是 2008 年,市值 8000 亿美元的雷曼公司的垮台让全球金融市场当年损失了一半的市值,合 26.2 万亿美元,让世界经济直接损失了 14 万亿 美元,让 6700 万跟雷曼无关的工人变成失业者。由此看来,世界的传导机制已经改变了。
今天世界分成三大版块:服务业版块,核心是美英;制造业板块,主要是亚洲垂直供应链、巴西和智利(巴拿马运河以南,所有的国家在经济上属于亚洲);能源板块,由俄罗斯、沙特阿拉伯、哈萨克斯坦等组成。
而国家和世界通过群结构而不是点线结构联系在一起。小的国家群结构里有小队长,小队长把这个群带到中等集群,中等集群的队长再把它们带到全球核心国家。有趣的是,这个世界群的结构居然和微信非常相近。
当世界变成群时,信息在群之间的流动、耦合的速度是指数级增长的,从而带来系统的不稳定性。
每个人在同一时间接到信息,信息会迅速在群内反弹震荡,变成信心,信心会走向恐慌,恐慌会推动市场波动。这完全异于原有的市场运行机制:大震荡不需要大事件发生引导,一条消息就可以了,而信息的起源无法控制。
最后,朱民称,经济学家最终可能需要回到微软,请科学家来解决由信息和信心引起的恐慌问题。
对话:投资未来
参与嘉宾
- 创新工场创始人、董事长及CEO李开复
- 源码资本合伙人 张宏江
- 海尔集团副总裁、首席技术官 赵峰
主持人
- 硬蛋CTO 李世鹏
投些什么?
李开复:创新工场由孵化器转化为风投后,投资的要点有二。一是投资数据。今天中国已经成为了世界最大的市场:移动互联网人口是美国的 3 倍;手机移动支付是美国的 60 倍;共享单车是美国的 500 倍。大市场意味着大数据,一方面是把已有的数据激活,一方面是快速产生大量新数据。数据转化成为价值,是巨大的创业机会。二是投资「不满意」。因为没有信用卡,所以移动支付起来了;因为没有大型购物商场,所以电子商务起来了。未来其他行业的颠覆,也都是可以预期的,今天中国的医疗、教育,还有有很多不满意的地方,这些都是可以快速颠覆推动的。
张宏江:源码资本主要投资从「应用」开始。如同 AlphaGo Zero 打破大家对数据的迷信:场景规则清楚、目标清晰的情况下,没有数据也能够做出很好的AI。
赵峰:海尔在投资三件事:第一是「人工智能+硬件+软件」,让硬件成为人工智能的出口;第二是不止卖一件产品,而是投资客户的终身价值;第三是通过资本的方式引入资源、硬件、传感器、服务等生态,建造智能全链条的服务生态。
谁适合创业?
李开复:在座的每一位都适合创业,不一定适合做CEO。AI 创业有四种,第一,互联网 AI 创业,靠流量。AI 人才拿不到流量,但是可以把进入这样公司的机会看做「就业」;第二,商业 AI 创业,激活传统行业多年存储下来的数据价值。靠谱,但也有问题,因为要服务于思维固化的公司,且「CEO 要变销售」,因为对方会「一定要跟大科学家 CEO 喝酒」。第三,颠覆型 AI 创业,过去没有数据的,把数据找出来。重点是要想清楚合作的方式。第四,全自动化,先做技术,再找应用。一个提醒是,一定要是被市场证明的技术,投资人已经承担商业的风险、竞争的风险、市场的风险、周期的风险、资本的风险,不愿意再承担技术的风险。
张宏江:技术提供者一定要向上走到 killer app,或者向下走到平台,不然长期价值会有大问题。
前沿技术论坛:看脸的时代
参与嘉宾
- 商汤科技联合创始人兼CEO 徐立
- Face++ 旷视科技首席科学家、研究院院长 孙剑
- 旷视科技创始人兼CEO 印奇
- 中科院计算所教授、中科视拓董事长兼CTO 山世光
- 依图科技业务技术副总裁 吴岷
主持人
- 微软全球执行副总裁,微软人工智能及微软研究事业部负责人 沈向洋
计算机视觉,历史与未来
沈向洋:今天在中国有很多计算机视觉初创的公司,其实计算机视觉已经有 50多年的历史了,最早由 Marvin Minsky 在 MIT 提出,他想得比较简单:相机接到计算机上看看就可以解决,结果做了 50 多年终于有点希望了。
最近深度学习对计算机视觉带来巨大影响,让计算机视觉在很多特定的识别方面,已经初步超越人类。我认为,未来五年,计算机语音会超过人类。十年,计算机视觉会超过人类。超过指的是,不管你看到什么东西,AI 都能做到识别效果比人更好。
我很感动的是微软亚洲研究院做的 ResNet 在计算机视觉里扬威立万,包括 AlphaGo Zero 的两大支柱之一就是 ResNet。
计算机视觉对世界影响巨大,但是还有很长的路要走。
人脸识别:计算机与人类,孰强?
徐立:陌生人识别技术,在一定程度上超过人。熟人识别,还远远不能超过人。不过,不同阶段对「技术成熟」的定义不同:十多年前在罗湖口岸,53% 准确率的人脸识别技术已经在应用了;现在这个阶段也是,在一些场景上可以应用了,因此成为发展的契机。
印奇:人脸识别跟场景结合最重要。场景选好,系统局部可能可以和人相比较。
吴岷:用户体会到计算机的功能强大后自行开发场景的实例:警察系统看到机器在对比 10 年前身份证旧照与真人方面胜过人(哪怕是熟人),就主动询问能否识别尸体照片。
山世光:陌生人识别,特别是配合场景下,机器无疑超越人。熟人识别,哪怕是家庭场景 5 个人,也做不到 100% 识别。
孙剑:人脸识别不止于人脸,人脸识别的问题要超出人脸识别的范围来去解答。
云平台、端应用、垂直领域服务:三个产品角度,公司如何选择?
山世光:中科视拓做垂直领域服务,满足实名制与验明正身需求,落地在公安、单位,全面替代指纹。部署到家庭风险还是偏大,暂时不考虑。
吴岷:依图在云平台方面,接了200多家互联网金融远程身份核实业务。在垂直领域服务方面,我们做了警务通,给民警做身份核实,把核查效率从原来的十万分之三得到了显著提高。
徐立:云+端是必然的走势。端上必然有前置化运算,因为全世界有 37 亿台联网手机,2 亿 5000 万安防摄像头,在 2020 年,中国的安防摄像头+室内摄像头将达到 10 亿支。这不可能完全集中化,但也需要云在背后进行整体调控。垂直服务方面,定制化项目即使营收很大也不赚钱,因此一定要标准化、产品化。
印奇:垂直领域行业要选择中间层。不能是被互联网完全改造过的行业,因为其公司数据垄断,即使占有先机,也容易在后期被抹平。也不能是特别传统的行业,因为尚未完成信息化和联网化,更无从谈数据化与智能化。符合中间层要求典型行业是广义的金融行业与安防行业。
学术分类法:人脸识别是感知问题还是认知问题?
山世光:前端是感知的(perception),后端是认知的(cognition)。目前,计算机视觉只有感知没有认知。但感知也可以做很多:虽然表情识别方面由于缺少专业标注人员,机器很难做到比人好,但是对其他内心情绪的指标感应方面(如眨眼次数,心跳次数,微表情),机器可以感知到肉眼无法观察到的细节并进行解析。
孙剑:认知究竟是否必要,这个问题我纠结了很久且仍在纠结。一方面认知标注难度大,主观内容很难标注一致。另一方面低等动物不需要认知也能进行交互,因此认知的作用仍未可知。但是这是非常重要的问题,下一步机器人要和人交互,一定要解决这个问题。
印奇:企业界往往不在意能否解决艰深的学术问题,业界往往会用工程化、产品化的方法,绕开技术壁垒,找到高性价比的解决方案。
Face ID:终端强应用场景带来哪些机会?
徐立:现在各家的人脸的使用标准都是不兼容的,没有办法进行数据流同步。未来我觉得应该形成联盟,尽早统一人脸的使用标准,才能应用于更多线上与线下场景,获得更大流通性。
印奇:这一代 iPhone 搭载人脸识别技术的驱动力有二:一是全面屏的普及,二是手机厂商对摄像头强大的投入意愿。这两大驱动力之下,人脸识别成为了短期关注点,但可能不是最核心的商业动机。
山世光:iPhone X 对人脸识别有蛮大的一个推广作用,解除大家对「深度学习计算太复杂,没法在便宜的端上做」的误解,让大家意识到可以在端上做很多工作。
对话:CTO 之路
参与嘉宾
- 联想集团首席技术官、高级副总裁 芮勇
- 硬蛋CTO李世鹏
主持人
- 微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长 洪小文
「登顶」 CTO 之后:会不会输入少于输出?
芮勇:去年加入联想后,我发现还是输入比输出大。计算机领域非常广阔,我只了解有限的几个方向,有太多别的东西是从同事那里学到的。联想有一个三级的研发技术体系:BU 看 1-2 年的技术创新,研究院、研发部门看 3-5 年的,创投看 5-10 年的。研究院的大方向包括设备、5G,都和我原来的知识结构没有太大的关系,让我学到很多。同时 CTO 也要和技术部门之外的其他部门打交道,乃至吵架,都是非常好的输入。
李世鹏:芮勇说的是大公司的 CTO,我们是一个小公司,CTO 其实所有的事情都要做,因此输入多而全面,不只是技术,还有商业的需求。
CTO 眼中的技术发展趋势
李世鹏:大方向是物联网+人工智能,也就是数据+算法+AI。然而目标要远大,路线却要脚踏实地。小公司要避免直接做平台,应该先做好特别的产品,再思考横向、纵向扩展。
芮勇:一是设备,PC 之后,手机之后,下一个设备是新发力点?我认为 AR 会成为一个较大的生态。二是设备和云中间的「雾计算」,边缘服务器垂直行业。三是服务器,从单纯服务器转型到服务器+软件,结合垂直行业落地。
数字化转型对外、对内的影响?
芮勇:对外,联想和客户的关系从基于交易的关系变成基于关系的关系。卖完 PC 之后还要思考,什么服务可以帮助 ta。对内,我们在研究如何把员工提出的意见通过自然语言处理的方式直接发给对应部门负责人。另外,联想不同于微软之处,在于做硬件的企业要考虑供应链。我们内部也在举行一个「人机大战」,让供应链专家和 AI 算法分别估算上游进货量、下游出货量等,每月一 PK,还在持续中。
李世鹏:我们也希望把对接商业需求、做客户拜访报告的过程用人工智能来记录、识别、总结。
前沿学术论坛:未来人机交互
参与嘉宾
- 今日头条人工智能实验室主任 李航
- 小鱼在家创始人兼 CEO 宋晨枫
- 清华大学美术学院信息艺术设计系主任、清华大学终身学习实验室主任、清华大学无障碍发展研究院副院长 徐迎庆
- 百度技术委员会主席 吴华
主持人
- 微软亚洲研究院副院长 周明
徐迎庆:第一,人机交互中,人的自然交互行为和物理空间的状态变化是多通道、非精确、动态多样的。第二,人要告诉计算机如何理解人的自然交互行为、意图,并且精确的反馈。自然交互的准确性,实时性和鲁棒性还有很大的提高空间。人的生理变化、心理变化、周围环境变化也会影响交互的状态。这都是我们面临的挑战。
吴华:自然语言的精确理解问题,哪怕是限定领域的,也还没有解决,现在只能做到模式匹配。因此接下来第一个待解决问题:不依赖太多标注地解决具体领域的精确语言理解问题。随后还有理解人和人、人和机器之间对话逻辑的问题,人的主观倾向建模问题,人的进化机制问题等等。自然语言的路还有好长好长。
李航:人得到信息主要通过眼睛看,输出信息主要通过语音和语言,所以要做人机交互,理解人的对话是最核心的部分了。在我看来,人机交互的基础已经得到了普遍应用:推荐和搜索就是最成功的人机交互。搜索是人找信息,推荐是信息找人。在对话系统方面,整个业界的水平是只能把单轮对话做得不错。现在看到的多轮对话是以单轮对话为主实现的,含有简单多轮对话机制的,让人感觉像是多轮对话的系统。业界尚未达到认真研究多轮对话的状态,数据并不够。可喜的是,单轮对话通过和用户不断交互为多轮对话收集到了更多数据,在闲聊和任务驱动这两类多轮对话中,可能任务驱动的多轮对话更容易突破。
宋晨枫:人机交互影响用户体验的除了技术还有很多其他因素,例如音频处理、ASR、NLP等多个模块的串联。理想情况下,这个串联系统可以达到 90% 满意度,现在的用户交互满意度不足 70%,三个模块都有技术瓶颈,如果想等所有技术完美了再解决问题、推出产品,可能还需要五年的时间。因此在初期,要管理用户预期,做用户自然语言成长体系。让用户知道能问的问题的类目和边界。
前沿技术论坛:AI+金融
参与嘉宾
- 美团金融 CTO 包塔
- Datavisor 中国区总经理 吴中
- 微软亚洲研究院副院长 刘铁岩
- 乌镇智库理事长 张晓东
- 36氪联合创始人、鲸准公司总裁 胡健
主持人
- 氪信创始人兼 CEO 朱明杰
人工智能 + 金融的机会和挑战
胡健:中国市场跟美国市场不一样,但是这几年中国的金融机会非常多。特别是在一级市场。差异体现在:第一,中国有很多做风控/征信的企业,美国相对少。因为美国的信用体系非常成熟,而中国使用信用卡的人数不超过 20%。第二,美国有较多金融技术、智能投顾、量化投资公司,中国较少。因为我国金融市场整体信息化程度偏低、数据结构化程度不足,并且我国大部分金融企业为国有,对人工智能这类新兴事物接受度不高。第三,美国二级市场发达,我国一级市场活跃。中国平均基金的规模不到 2 亿人民币,但是美国平均基金规模至少在 5 亿美金。
张晓东:我国分析师目前搜集数据的手段大部分还是手工搜索,因此智能投研是一个重要的方向。
刘铁岩:在微软亚洲研究院跟金融机构合作的半年多时间里,我们发现了其实有很多技术上的挑战。第一,数据不准确。通常认为,金融相对于其他传统行业数字化的程度较高,实际上这句话只对了一半。在金融领域,输出端信号很好,股票涨跌数据可以细致到分钟;输入端信息不明确,甚至有虚假信息,需要做数据清洗、风控、反欺诈,导致精度很难有保障。第二,二级市场并不是稳定系统,经济原动力、市场规律都会发生变化,基于历史数据的机器学习模型就不好用了。第三,散户数量多,处于盲目投资状态,同时机构投资人受考核指标限制,行为短视而非理性,因此市场离理想状态很远,无法用博弈的方式分析。
包塔:很多时候大家讨论是「金融科技」,还是「科技金融」,我现在的看法很明确:这是金融,科技是手段。所以要尊重金融的客观规律。举一个挑战的例子:小额信贷公司试图用 AI 做人群分析,降低坏账率,但是 AI 分析不出来循环借贷、多头借贷现象,因此有系统性风险。再举一个机会的例子:我国推行普惠金融,力求汇集原来难以服务的客户,而美团等平台,提供了 AI 还原商户运营情况的基础数据,
前沿技术论坛:智能驾驶
参与嘉宾
- 地平线创始人兼CEO 余凯
- Momenta CEO 曹旭东
- 图森高级研究员 黄泽铧
- Deep Motion 创始人兼CEO 蔡锐
- 博世中国新业务发展部总监 张翠波
主持人
- 将门CEO,将门创投创始合伙人 高欣欣
提问地平线:智能驾驶的现状?
余凯:计算力是未来的重要资源,未来资源型的效应会更加明显,因此以十年为维度,大家应该投资计算力。地平线关注自动驾驶领域的计算力,我们希望花十年的时间能够成为自动驾驶这个领域的核心计算力的供应商。自动驾驶需要软硬件的深度结合。它首先是一个软件问题,要把感知、定位、建图、路径规划都要做好,核心是软件。硬件是软件的高效实现方式。我们很期待和英特尔合作,英特尔在自动驾驶里的地位就像三国里的曹操,它兵多将广,有综合实力。当然,我们也会跟英伟达等其他机构保持合作关系。
提问 Momenta: 下一步继续算法创新,还是延展向产业链其他业务
曹旭东:Momenta 成立一年多的时间,经历了三个阶段。第一个阶段搭建人工智能平台和大数据的平台。第二阶段,在做跟自动驾驶相关的算法。第三个阶段,也就是现在,还是持续以软件和算法为主。自动驾驶这个行业太大,未来产业一定会分层,会有众多玩家。一个创业公司能在一个关键点上做透已经创造很大价值了。这是我们关注的重点。
提问图森:为什么选择卡车场景落地?
黄泽铧:我们选择在卡车深耕,有三点考量。第一,长尾问题。L4级别的自动驾驶需要在没有司机监管的情况下完成所有的问题。做到99.99%都不够,任何的 0.01% 都会导致事故,而这对于创业公司来说这是致命性打击。我们预计会花 99% 的精力解决在无人驾驶中占时长 1% 的问题。逐个解决长尾问题对创业公司来说非常困难,我们希望专注于特定业务。第二,高精地图。大规模高精地图的建立和维护都非常困难,而做点对点的货运,可以从线到面去逐渐构建高速运输网,不需要一开始解决全部的问题。
从研发者到创业者,身份转变的感受是什么?
蔡锐:以前我在研究院做立体视觉,做三维,会自诩比做图像厉害一点点。出来以后发现我看问题一直是一维的:只从技术这一个维度看问题。此外,还有商业的问题、用户的问题、资本的问题…… 空间一大,就要降维和投影,会发现奇妙的图案。这让我非常兴奋。
智能驾驶时间表
张翠波:基于博世的预测,L3 量产在 2020 年之后,L4 量产在 2020 年到 2023 年。影响整个时间表的会是个底层技术。一个是芯片本身,第二是传感,第三部分是算法。