争夺智能化船票:如何迈出第一步 ——访百度主任科学家 毕然

如今,一个十分有趣的现象是,很多企业赶在大数据AI风口树立起宏大的数字化愿景或AI愿景,但结果却并不乐观。究其原因,一方面,高层管理者反复斟酌数字化、AI化如何长效改变具体的商业模式,这自然是有益的。但大多数人在探讨这些概念时,都认为数字化、AI化是宏大且具有颠覆性的,都有一个雄心勃勃的开始,似乎能在这一轮竞争中脱颖而出。然而,在与竞争中的领先者比较时,会发现很多企业在建立愿景上浪费了过多的精力,导致它们没有精力在这一轮竞争中迈出实质性的第一步。


争夺智能化船票:如何迈出第一步 ——访百度主任科学家 毕然_第1张图片

另一方面,一些高层管理者对整个产业链条认识不足,总是寄期望于招聘大量大数据或AI技术人才,实现企业转型升级。然而,成为数字智能化的优秀企业,不仅要会用数据、善用数据,还要充分了解自身优势,利用自身优势与整个行业从政策到业务做深度融合,才能在机遇面前一步步迈向成功。

百度早就认识到,利用自身在搜索领域积累的海量数据,进军人工智能领域,将迎来又一个新时代的曙光。百度从诞生的那一天起,就带有人工智能的天然基因,即以数据为基础,通过深度学习提取特征、模式,为用户和客户创造价值的研发流程和研发文化,与人工智能系统的开发高度吻合。

在这一领域建树颇丰的百度,自然积累了大量成功经验和模式,近期,《大数据周刊》专访了百度主任科学家毕然,他专注数据分析、商业战略、机器学习和人工智能等领域,获得百度首届最高奖,著有《大数据分析的道与术》一书。采访中他详细分析了人们在这一领域的一些认知鸿沟,并展示了百度搜索面向广大内容方(企业和自媒体)提供AI技术赋能的思路和计划,颇有让人茅塞顿开之感。

颠覆认知,AI技术的挑战在整个产业链条上

《大数据周刊》:大数据和AI技术成为时下热门话题,众多企业赶在这一风口积极布局,目前在哪些行业领域技术较成熟,落地应用较多?

毕然:首先,我认为IT化、信息化是基础,因此目前来看,这些技术和应用在互联网行业较为成熟,预计金融会成为其次。

真正的大数据技术不是凭空存在的,以模型技术为例,它是将从系统中收集来的数据和业务实施两者串联起来,这个设计对数据收集和业务实施均有要求。如数据环节,期望形成自动收集的数据流;而对于业务实施,同样期望实现机器的自动化执行。


为什么现在的人工智能或者大数据,在互联网行业应用的最为广泛?其中一个重要原因就是互联网行业在数据采集端和业务实施端天然适合学习模型发挥作用,因为互联网大数据本来就是线上的,在产品运行过程中,能够自动把大量数据收集到系统中(生成日志)。然后,对于执行来说,如搜索服务或者个性化推荐服务,虽然是千人千面的个性化服务,但并非人工完成,全部是由机器完成。基于模型产生的个性化建议,也完全可以通过机器执行下去。如此来看,不管个性化生产还是批量生产,成本对于机器来说都是一样的。以汽车制造为例,如果制造汽车的过程完全由机器完成,那么无论是生产全黑色车还是其他千奇百怪的车,成本都不变,而一旦换成人工完成,成本将是巨大的。

其次,我认为落地应用多不多很取决于该产业的业务模式,当数据收集端和业务实施端均线上化,应用AI是相对容易的,就像一个人的眼睛和手都跟得上大脑的节奏。如果眼睛和手都没有准备好,空有大脑是难以产生价值的。

《大数据周刊》:近两年AI技术在各领域得到快速发展,如百度自动驾驶、阿里城市大脑、腾讯医疗影像、科大讯飞智能语音等,那么在技术层面的主要挑战是什么?

毕然:主要问题不在于技术,而是完整的产业链条,即从需求-业务-数据-技术。很多企业会认为,加入AI就是招一些技术人才,这是完全错误的想法。当一个企业所有的产品业务、渠道运营、高级管理职位的人全懂AI的时候,才能真正实现AI的产业落地。

像自动驾驶、语音识别与合成、图像理解和处理等,确实每一个领域均有技术层面的挑战,但是把这些领域合并来看,他们的共性挑战是在完整的产业链条上。比如,自动驾驶技术就仅仅是传感器和控制算法这么简单吗?其实,自动驾驶需要整合硬件、软件、数据、3D高精地图多方面的技术,并考虑到社会法律、道路设计以及其他层面问题。因此,AI要在某一领域得到更多的发展,需要行业各阶层的人都能够从上到下去拥抱AI技术,懂得AI技术,才能实现AI的全面发展。

在技术层面,有些基础技术已成熟到实用阶段。比如语音识别技术,当大家在使用百度的语音搜索时,可以发现用小声的、口语化的语言,也同样可以做到准确识别,搜索到丰富内容。以下几个有趣案例可以尝试,可以体会到百度搜索在语音识别和自然语言理解技术上做到的成熟效果。

1.“嗯那个桃花流水什么鱼肥的上一句是啥“

2.“哦哦帮我搜一下那个啊李宗盛的漂洋过海来看你“

3.“我明天要去上海查一下天气“

但还有些基础技术其实没有大家想象的那么成熟。以计算机视觉领域的ImageNet竞赛为例,多个图像领域的著名科学家都曾表示,在ImageNet1000类别的识别问题上(Label:打标签),机器的识别效果已经超越人类,我们应该继续追求更深层次的语义理解了。不懂行的人往往会关注“机器在识别物体类别上已经超越人类”,而忽略“超越人类是发生在这个特定场景下的”。即ImageNet是在特定任务和充足数据集的前提下,有1000类别和126万标记数据,平均每个类别1200张图片。按照计算机视觉算法的能力,每类样本量500张+,才能获得较好识别准确率。但现实世界中,常见的细粒度实体数量为20亿+,那么需要标记的数据就应该是20亿*500=10000亿。如果要产业落地应用,去哪里找如此大量的标记数据?“在足够的标记数据下,计算机识别分类的效果超越人类”,这句话正如阿基米德的宣言:“给我一根足够长的杠杆,我能撬动地球!撬动地球的技术我们已经解决了,只要找到足够长的杠杆即可“。由此可见,基础技术在理论上解决了问题,并不代表现实中可以落地应用。

所以,如何基于现有的技术水平,进行有效的产品设计,提供有使用价值的产品才是AI应用的核心。这里以百度视觉搜索为例,谈谈我们的实践心得。点击百度APP中搜索框旁边的照相机图标,即可以随意拍摄现实物体进行搜索查询。因为随意拍摄照片中的物体,如随手拍摄的办公桌绿萝盆栽,受光线或柔性可变等干扰因素影响,如果没有足够的训练数据,往往无法精准识别该物种。这时视觉搜索产品会提供一张筛选卡片,展示视觉上最相似的一些植物候选,供用户选择。人的视觉识别能力往往是更加强大的,用户通过观察拍摄的物体和我们提供的候选图片,就能确定他拍摄的植物类别。然后,视觉搜索会提供该植物的更多说明和介绍,以及相关的网页搜索结果。这个产品是在基础图像技术不足的场景下,通过有效的产品设计,将人的识图能力和机器识图能力整合(后者用于提供候选,前者用户最终筛选),帮助用户解决识别万物的任务。这种设计思路,我认为是在产业实践中更重要的思考。春天到了,大家去野外郊游的时候,不防多用用视觉搜索,探索下这个多彩的世界,也体会下计算机视觉给我们带来的便利。

(如何将人的能力和机器的能力进行有效的结合,产生有使用价值的“视觉搜索产品“)

跨越壁垒,数据源企业将会脱颖而出

《大数据周刊》:AI的基础和核心是大数据,目前,在数据采集、数据挖掘、数据融合共享等层面还存在哪些壁垒?

毕然:AI技术的核心是大数据这句话非常正确,目前最大的壁垒应该是数据壁垒。大数据时代往往会发现传统算法(不依赖数据)依然非常有效,比如视觉搜索的例子,SIFT特征依然非常有效。所以,期望大家更理性的看待大数据。

众所周知AlphaGo围棋下得厉害,但实际上AlphaGo在训练数据获取的环节是取巧的。AlphaGo训练用的海量数据是通过机器自己与自己下棋来采集的。而在工业界的大量应用场景中,要采集数据则无法这么简单地实现。因此,只能说AlphaGo在技术层面是很创新的突破,但从获取数据层面是取巧的方法,而这种方法无法在其它工业界的实用的任务上复制。


今天深度学习备受关注,深度学习能解决很多难题,并带来多个领域的突破。但是,真正在工业界应用时,非深度学习的、传统的算法和特征依然是非常有效的。其中的重要原因就是这些传统方法不太依赖大数据,因为工业实践中,并不是所有的应用场景都有足够大量的数据。所以,千万不要人云亦云,在大数据时代,只关心大数据的算法是要吃亏的。

刚才谈了AI技术的核心在于数据,而数据往往来源于业务场景。无论是AI技术还是任何黑科技,技术本身都不是壁垒,任何一个新兴技术,包括AI技术,都只是竞争的时间窗口,数据才是真正的壁垒。从长远来看,数据技术公司竞争不过数据公司,因为技术可以通过学习获取,但数据没办法获取。

除了数据本身,挖掘其价值方面的关键在于人才。曾与传统行业管理者交流,传统行业的业务人员期望由外包人员进行数据统计的支持,他们再对统计结果进行分析,这是非常低效的。未来处理和分析数据的能力,就如开汽车一样是常备技能。现在对数据的分析和挖掘面临同样的问题,我认为所有的业务人员都应该会写基本的脚本程序,例如SQL和Python,能够自由的处理系统中各种各样的数据,分析辅助业务的发展。如果业务人员不会处理数据,需要专门配数据统计工程师。这不仅是人力浪费的问题,而意味着业务人员的分析能力被锁死了,每一个分析思路和想法均需要和统计工程师沟通需求,反复几轮迭代需要一周才能拿到验证结果。而业务人员自己会摆弄数据的话,各种思路想法的探索只需要1~2个小时。在分析效率上的巨大差距,导致在业务改进的效率上的巨大差距。目前在互联网公司,许多新入职的产品同学也要学编程处理数据,但好像传统行业在这个意识层面还比较薄弱。

人才洞察:开创者、经验者、应用者迎来康庄大道

《大数据周刊》:人工智能被看成是新一轮变革的主要力量,相关技术人才则是主导这一变革的中流砥柱。而这类人才的缺口和不菲的身价成为众多人才希望转型AI的关键因素,那么,对于转型AI的人才您有什么好的建议?

毕然:我认为大家目前存在两个误区。首先,很多应届毕业生认为自己的数学基础很好,投身这个行业就是有优势的,虽然也没错,但数学好只是一个助力条件,不能当成自己的核心优势。为什么这么说呢?因为数学好基本表现在刚毕业时,未来会持续有更多刚毕业的学生,加上长期在这一领域做研究的科研人员和教授,如果这样定位,自己的竞争者是非常庞大的。所以,我不认为数学好可以作为核心优势。


其次,现在有很多AI人才培训班,有人认为培训一下就可以利用各种平台写各种深度学习的算法了,这一点我并不赞同。如果把深度学习和算法定义为核心竞争力,那么,未来就会面临大量的培训班出来的人才,就如几年前大量培训班出来的JAVA编程人员类似。

所以,转型AI人真正应该走的有三条路:

一是成为开创者,但能够走上这条路的人很少,都是学术界和工业界凤毛麟角的大牛们。

二是成为经验者,比如做模型,基本道理大家都懂,但具体环境如何打磨得好,如何去调整参数,如何去选择模型,如何设计特征,都需要相当多的经验。同时,通透的理解模型背后的数学原理,往往对形成体系化的经验非常有帮助。经验者有一个好处,他是时间的朋友,经验会随着时间的增长越来越好。

三是成为应用者,应用者对于传统企业以及很多做AI的人都非常实用。应用者不仅要懂得整个产业的所有应用,还要懂AI技术,属于跨领域的人才,这也是目前做AI产业应用需求缺口最大的一批人。

当然,提升AI技术能力的最佳办法是实践,而这方面百度有着国内实践AI技术最好的平台和项目,比如搜索、Feed流、度秘、无人车,甚至与很多传统行业合作的企业AI赋能。另外,与公司内的诸多AI技术的创新者和领导者共事,也是大家学习提升的捷径。

《大数据周刊》:如何能在数据分析中得到有价值的分析结论?

毕然:在《大数据分析的道与术》一书中,我讲到不要小瞧数据分析的威力,因果性的探讨+人的分析能力,往往是业务革新的发动机。有一些过去很火的模型(如决策树),在最新的一些业务系统中使用的已经不多了,更多都在用升级的GBDT或深度学习模型。但决策树模型依然在我们分析很多数据关系时被使用,因为它可以让人更好的解读数据中的内涵。而不像深度学习,虽然可以做有效的预测模型,但无法人工解读。机器学习模型更多是增进业务效率,但改进业务模式本身还是需要人的设计。所以,人对数据解读的能力,怎么强调其重要性都不过分。《大数据分析的道与术》配套有9个小时的课程可以在百度技术学院(bit.baidu.com)上免费观看。另一个系列的课程《机器学习的思考故事》于2018年春节后在百度技术学院推出,从应用的角度向更旷阔的领域谈了机器学习的思考和应用方法论。

虽然大家都在谈人工智能和机器学习,但对于相当多的企业来说,目前最大的问题不是如何从数据中建立人工智能的模型,而是先要做好数据分析,找出可产生的价值,才能在短期内对业务发展变革产生较大影响。

《大数据周刊》:百度有哪些技术平台可以提供给众多的企业,能让大家一起共享AI技术为产业带来的福利?

毕然:如果是互联网内容提供的企业或自媒体,可以关注百度搜索“熊掌号”,2018年会向诸多合作伙伴提供AI技术赋能的解决方案,对于互联网内容方的流量获取、用户运营、内容生产多方面提供定制化的AI技术支持。熊掌号的AI赋能是更加全面的搜索与内容方的合作,提供的不仅仅是单独的AI技术点,而是融入搜索体系,与搜索用户更好沟通的解决方案。如果是一个主要业务不在互联网上的传统企业,或者技术研发者,也可以查看ai.baidu.com的百度AI技术对外开放平台,获取一些通用的AI技术实现模块。

争夺智能化船票:如何迈出第一步 ——访百度主任科学家 毕然_第2张图片
关注大数据周刊公众号了解更多经常内容

你可能感兴趣的:(争夺智能化船票:如何迈出第一步 ——访百度主任科学家 毕然)