编译/洪杉 来源:
[ 编者按 ] 本文适读对象:那些不打算投资AI基础技术开发、只关心AI能带来哪些商业智能应用的企业决策者。
对这些企业来说,它们关心的是,既不能错过新技术浪潮,但也要等待技术成熟到“鲜嫩时刻”才行——不宜迟,但也不宜过早。
人工智能不是“万能钥匙”。让AI真正能为企业赋能,需要提前评估和决策以下几点:何时是关键;核心商业目标是AI项目的出发点;评估应用AI的必要性:如果有其它解决方案呢;需要准备好大量的高质量数据;对预算、时间表、人才等进行合理把控……
更重要的是,我们需要建立一套衡量AI驱动型企业的新指标,而不能再是传统的以资产为核心指标的体系。平台参与度、数据价值和客户参与度等因素变得更重要。
每期监测和精编中文视野之外的全球高价值情报,为你提供先人一步洞察机会的新鲜资讯,为你提供升级思维方式的深度内容,是为 [ 红杉汇内参 ]。
AI究竟能为你的生意做什么
(以及不能做什么)
作者 / Isaac Sacolick
编译 / 洪杉
关于人工智能,每天都有各种吹得天花乱坠的夸张宣传。该如何判断像人工智能这样的新兴技术是否值得花费时间投入?这是每次某种新技术开始成为主流的时候,CTO们需要回答的问题:
▨ 怎么和企业领导者解释,该项技术可以应用在企业的什么方面,这是一个竞争机会还是潜在威胁?
▨ 对于好奇的员工,如何用易于理解的语言来简单描述这项技术可以做什么,如何区分哪些是宣传、哪些是当前现实、哪些属于未来潜力?
▨ 对于有志于尝试的员工,我们要表示支持吗?应该让他们研究哪些问题,应该花时间学习这一新技术的哪些方面?
▨ 对于某些开发者推销的应用方案,是现在就该采用,还是为时尚早?该如何评估呢?
莫混淆夸大宣传和现实
一旦你对历史和科技有所了解,这时候对新兴技术所处生命周期的阶段做出判断,会是很有帮助的做法。
Gartner预测“通用型AI”(用以解决任何智能问题的人工智能技术)将于2020年之后出现。Venture Scanner披露的数据表明,大约2/3的AI创业公司的融资还处于初期融资阶段,这表明许多销售AI解决方案的公司都还处在产品开发及销售周期的早期阶段。麦肯锡称只有20%的有AI意识的公司实际采用了AI,而在AI上的投资超过50%是来自于大型技术公司和创业公司,而非刚好在使用这项技术的企业。
这些数据足以让CTO或企业高管在投资AI前三思而行。尽管AI的确很有前景,但这些算法的大规模商业应用才刚起步。
早期赢家都是大型科技公司和有能力、有资金、有耐心试验新技术的创业公司。大多数企业和中型公司并不具备这些奢侈的条件,它们的AI之旅才刚刚上路。
AI是具备高度破坏性的技术,我们不该视若无睹。但我们应该审慎地前进,避免中了那些夸大宣传的催眠术。
比如,当声音在某些应用上成为比屏幕、键盘更好的人机交互手段,或者当聊天机器人变得比人类客服更加智能、反应更加迅速时,许多企业就不得不采取这些技术来改善用户体验。
同样的,当深度学习算法在识别诈骗、风险交易或安全威胁上日趋完善,企业也要做好采用这些新手段的准备。
而随着我们利用数据库,最大限度地从口头语言、音频和视频等资料数据采集智能,这些技术手段的使用会使得很多企业获得重要竞争优势。
何时是关键
企业应该努力成为反应迅速的追随者,而不是早期采用者。这意味着,企业要在早期阶段关注AI技术,甚至可以尝试使用AI技术,但要等到技术足够成熟了,得到反复验证了,或者可以大规模产出的时候再来依靠AI技术。
了解AI功能的时候,你需要寻找那些可以帮助评估AI应用及其成熟度的工具和应用案例。比如:
▨ 研究公司Forrester定义了七项AI核心技术,并提出一种“搭积木”模型(building-block model),该模型以假设和研究为开始,以三个层次的实际应用为结束。
▨ Workday发布了人工智能成熟度模型,这个模型将AI分成四个阶段,分别是自动化、通知、发现以及改造。只有当AI应用于解决人们正在解决的问题上时,评估AI取得成果才更容易。
▨ 还有很多行业案例,如保险、医疗、银行、农业、法律、广告、建造、慈善、媒体等等。
将企业的核心商业目标
作为AI项目的出发点
围绕AI和机器学习的种种夸大或虚假宣传使得一些CTO和企业决策者武断地采取了技术第一的策略。相反地,看看企业存在的问题以及有哪些能带来显著优势的机会,以此为出发点,才能让研发投入得到有目的地产出。而且,所发现的机会应有相当规模的数据集,或是能轻易获得并进行整合的数据集作为支撑。
要以一个明确的商机为出发点,原因在于,你可能在此过程中发现其实有其它解决办法,无需用到最新的AI技术。如果需要用到一部分的AI技术,通过这一方法你还可以对解决方案进行分类,评估所需AI技术的整体成熟度。
反过来,若是解决方案需要深度的评估和思考,那说明你即将驶往的是不成熟的AI领域。
评估AI成熟度的一个方法是:浏览关于AI创业公司的各种供应商评估报告等资料,你会发现很多创业公司都把关注点放在独立而分散的几个问题的解决方案上,而不是想寻求一个普遍的认知上的解决办法。
当某个开发者跟你说“尽管把数据交给我们的AI吧”,你千万别信,不要期待能得到专家级的智能化作为回报。这是不可能发生的。
要真正起作用
你的AI系统需要大量数据
以下是成功运用AI的第二个前提:你需要大量的高质量数据来训练AI算法,评估输出结果。
自动驾驶汽车得以成为可能的原因之一在于,在一个小时的驾驶中,激光定位器和其它感应器可以产生4000GB的数据。而如此大量的数据,仅仅是用于车要不要转弯、加速、减速或停下这样几个关键决策而已。
许多成功的AI解决方案也属于此类,也就是将大量的数据转化为有限数量的决策。
除了数据集,企业还需要具备数据整合及自动化能力,这样才可以让数据在任何AI处理引擎中自由转移。如果你的企业习惯靠人工运行脚本,手动地转移数据,我强烈建议你先投资自动化,再投资AI解决方案。
尝试AI的几种选择
一旦你发现了商机,也具备了大样本的干净数据集,你的AI之旅就准备好了。这两个步骤是为企业装备AI技术的前提条件。下一步则是考虑采用哪种AI解决方案以及如何执行。
如果没有专业技术,聘请专家前要三思,毕竟科技巨头公司都在花重金争抢懂AI的稀有人才,所以这场游戏的入场费是相当昂贵的。
还有一个选择是,可以使用那些解决方案中嵌入了AI技术的供应商。
选好一个或多个方案后,你需要让董事会或其它利益相关者建立符合实际的期望,这点很重要。投资AI后,你需要全身心的投入于灵活的实验中,因为你很可能会时不时地步入死胡同,要进行许许多多实验才能使其最优化。所以,对预算、时间表、人才等,都要提前做好评估。
#你所管理的即是你所衡量的#
成为算法企业?先找到衡量新指标
IDC预计,到2020年,以平台参与度、数据价值和客户参与度为基础的具体衡量标准在企业估值中的占比将达到75%以上,使得原本以资产为核心指标体系的重要性下降。
▨ 数字化转型的核心是从推动式经济(产品和生产推动企业发展)到拉动式经济的转换过程(客户参与推动关键过程并提升价值)。数字化转型是将自动化和数据驱动的学习引入核心决策,进而创建算法企业的过程。
▨ 数字化改造:从资产驱动型企业到算法型企业。关键变化就是价值创造不再主要依托于资产,从资产使用效率的最大化过程转变成了互动和情境关联性的最大化过程。
▨ 正确的回报函数:企业需要建立内外部两套度量指标。对内,建立新的KPIs以及如何管控新算法,用以衡量价值创造。
▨ 对外,算法企业需要新的市场估值方法。就本质而言,算法企业的生产效率要远远高于由资产驱动的公司,这是激励企业进行数字化转型的动力,应该且将会反映到估值当中。
#现在得1个,之后得2个,你会怎么选?#
“棉花糖”法则:创业怎样避免急功近利
来自20世纪60-70年代心理学家的一项实验,测量了“延迟满足”与否所带来的效应。对创业者来说,创业初期每天都有很多“棉花糖”时刻,选择马上获得一个“棉花糖”很容易,但却容易涸泽而渔、后续乏力。
▨ 杰夫・贝佐斯是一个典型的双倍“棉花糖”选择者。他懂得将所有利润再投资到企业长远发展中会带来何种价值,从而推迟了当时获得盈利的满足感。
▨ 丹尼尔・卡内曼在其著作《思考,快与慢》中谈到了体验自我和记忆自我。这两个自我与“棉花糖”时刻的两大选项密切相关。前者追求即时满足,后者注重长远思考。
▨ 体验自我永远追求眼下的最佳选择。什么是最快或最“偷懒”的方式?我的身体目前告诉我该怎么做?体验自我永远会挑一个“棉花糖”选项。
▨ 记忆自我关注的是长期利益,会制定新年计划和实现时间表。
▨ 你必须有意识地努力分析你最糟糕和最常见的“棉花糖”时刻,从而学会控制自己,获得“延迟满足”。
#人之异于机器者#
激发“下一代”创新力的四种方法
根据世界经济论坛对人力资源和其他高级管理人员所做的调查,当机器替代那些重复性劳动,未来52%的工作需要人类复杂的认知能力如创造力、逻辑推理、问题敏感性等,这就是“下一代”创新力。怎么做?
▨ 知道应该制定哪些界限,打破哪些界限。尽可能多地了解一个项目的具体参数,同时在实施过程中留给员工创造性空间。
▨ 营造创新氛围——不是指添置台球桌。创建沉浸式模拟体验和奖励冒险这两种方法都能够让领导者有效地激发团队的创造力。
▨ 知道什么地方最适合即兴发挥。当一种机制失灵时,其他机制可能会因为一些出人意料的想法而成功。
▨ 注重问题,而不是答案——让答案慢慢浮现。不要急于解决问题,而要关注未知的问题,领导者一心关注结果时,员工就会失去创造力。等待一段时间,“顿悟时刻”就会到来。
随着大数据技术的普及和发展,机器学习技术从搜索引擎开始,伴随着互联网、移动互联和共享经济的发展,日益成为改善用户体验、提高产品质量的核心组件。机器学习技术不仅给互联网带来了源源不断的收入(互联网广告),甚至也在改善每一位用户的日常电商购物、交通出行、旅游等方方面面的体验。那如何在已有的系统或者业务中落地机器学习相关实践呢?在开始使用机器学习之前,企业应该有哪些准备?带着这些问题,InfoQ 记者采访了 PayPal 大数据研发架构师张彭善。
InfoQ:机器学习现在非常火热,很多企业也逐步开始考虑在业务中实践机器学习,你认为机器学习适合解决什么样的问题?
张彭善:抛开 AI 不谈,机器学习在很多领域已经证明了其具有非常巨大的价值,尤其是在互联网领域,无论是杀手级应用互联网广告、还是电商内容平台推荐、风控欺诈识别以及共享出行,机器学习已经成为互联网变现提高盈利的重要手段。从这些主流应用中可以看出目前的机器学习主要是在解决复杂的预测优化问题,所以对于企业来讲,应当思考业务环节中任何涉及优化策略的业务都可以尝试实践机器学习,比如新产品目标用户推广、销售策略优化、客户流失预警等等。
InfoQ:那在落地机器学习之前,企业应该有哪些准备?什么样的团队适合实践机器学习?
张彭善:我和很多企业聊过,这个问题和第一个问题构成目前企业应用机器学习最大的痛点。对于大部分企业来讲不会像互联网企业一样有强大的数据科学和工程团队,但是我也注意到很多传统企业也是有数据分析和业务开发团队的,这是一个很好的基础,利用这些团队可以组建或培训适应机器学习应用的数据科学团队。然后可以着手先尝试以最小成本构建起端到端的机器学习管道,这包括基础平台的构建、收集数据的渠道、特征工程和模型开发的流程以及最终模型的部署上线,有了这样的管道和平台,就可以持续不断的优化性能进而达到预期的业务目标,然后可以慢慢尝试应用到其它业务场景。
InfoQ:结合你的工作经验以及业界的一些实践,你认为企业落地机器学习的最佳路径是什么?
张彭善:始终以业务优化作为指导,无论是任何一个步骤,都需要思考是否是有利于达到最终的优化目标。最佳路径是在构建整个流程管道和平台的同时,力争快速部署模型到系统中去。当模型部署上去之后,通过反馈结果再持续的迭代和改进机器学习平台和整个管道,此过程中没有必要去追求完美的模型和完美的系统,快速响应业务和持续演进能力是关键。
InfoQ:在落地机器学习的过程中,企业应该注意避开哪些坑?
张彭善:落地机器学习的过程,确实会有很多的坑,比如:
学习目标应尽可能的简单以及可以量化,如果目标定义模棱两可,很难想像能做出很好性能的模型。
应当首先从简单线性模型开始,不要上来就盲目迷信复杂的非线性和深度模型,事实上每一个模型都有其适用场景和优缺点,从线性模型出发首先可以提供一个好的基准,其次也能帮助发现数据中存在的问题,比如说剔除一些噪音数据,解释一些复杂的特征数据等等。
确保训练数据、测试数据和线上数据的分布一致,这个说起来简单,实际上随着业务的复杂性增加,很多情况下训练数据和线上数据并不一致。有可能是业务调整导致线上预测只是之前的一小部分数据集,也有可能训练数据集只是取的业务其中有偏差的一部分数据。
始终以机器学习平台管道构建为目标,不要局限于短期的性能改善,作为一个优化系统,更多的尝试意味着更大可能的性能提高,有了平台的基础,才能持续稳定的改善机器学习模型的性能,提高业务收益。
InfoQ:在一个相对完整的机器学习平台中,你认为应该包含哪些技术栈?
张彭善:机器学习平台是一个相对复杂的系统,主要包括离线、近线、在线三个方向的技术栈。
离线系统的技术栈主要是构建在 Hadoop 系统,如日志数据存储(HDFS)、特征数据仓库(Hive,SparkSQL,…)、ETL 计算、MapReduce 特征工程、模型训练和评估,目前一些主流的基于 GPU 的深度学习也可以统一到 YARN、Kubernetes 等系统中进行统一的调度管理。
近线主要涉及到一些流式的计算,如计算各个产品维度的滚动值、历史值等,涉及到的技术栈包括消息系统如 Kafka、流失计算如 Storm、Flink、Spark Streaming 等。
在线主要涉及到在线特征管理和计算以及模型执行,在线系统对于系统的可用性有很高的要求,主要涉及的技术栈包括各种 NoSQL 数据库用来管理和快速存取特征,Rest 或微服务架构管理各种模型和所依赖的特征。除模型预测外,在线系统还可能包括策略系统:主要根据模型预测做相应的策略,此系统一般会和业务系统结合也是偏向服务化的技术栈。
除此之外,还会有监控、日志收集、调度等系统辅助整个平台的运行,这些技术栈并不是特别固定,可以根据实际需要选取和研发。
InfoQ:做应用的时候,大家都经常喜欢说架构。机器学习平台有架构之类的说法吗?
张彭善:机器学习平台并没有脱离软件工程,架构在整个平台依然扮演着非常重要的作用。
和传统应用一致,在线机器学习平台目前主要也是分层的微服务架构,通过微服务可以把数据存取及模型执行以及策略执行做很好的解耦,数据服务通过数据库存取一般是 IO 密集型的,模型和特征计算是 CPU 密集型,各服务和应用可以单独优化和部署,进而提高整个在线系统的性能和可用性。如果在线系统涉及到模型增量运算,对于在线系统还需要做好线上模型更新和隔离,这时分层和服务架构更加重要而且对层次划分也更细致。
机器学习平台还涉及到很重要的离线数据平台,底层一般是构建在 Hadoop/YARN 之上的资源管理系统,数据和特征存储在上层的 HDFS/Hive 或其它 Hadoop 数据仓库,此外构建基于内存的分布式迭代计算框架,也可以使用 Spark 或者 TensorFlow 等主流框架,再上层构建完整的机器学习特征工程和模型训练的管道。
InfoQ:你认为一个机器学习从业人员和传统的应用工程师(程序员)最大的区别是什么?他们的能力侧重点各是什么?
张彭善:从机器学习的应用来看对于传统的应用工程师也提出了新的挑战,首先机器学习应用是一个融合了离线平台和在线平台的更加复杂的应用,机器学习从业者主要包括数据科学家和机器学习工程师,他们往往是围绕数据和优化目标来设计系统,而为了很好的达到优化目标和业务预期,实际机器学习从业者需要对业务、统计和机器学习以及工程领域都要有很好的理解,而他们的相对弱势是对于系统架构如可用性和服务化等的掌握。传统的应用工程师在这方面较有优势,工程能力是一个很好的基础,也可以帮助他们扩展到面向数据和业务的机器学习应用系统。
AI中国
2017余额不足,在年尾的时候除了盘算着领个年终奖,还是得展望下未来的大势,来年也好先定个500万的小目标嘛!
首先是一些行业领航者们对于“2017年人工智能,大数据,数据科学,机器学习的主要发展情况以及2018年的主要趋势是什么?”的看法。
涉及到的一些主要的话题是:人工智能是新的大数据、更多的数据转移到云、混合云、深度学习炒作、企业机器学习、AI / ML成为特定行业、自助商务智能、自动数据 科学/机器学、,Kubernetes、GDPR、Spark和流数据。
以下是来自17家公司的分析和预测:Alation,Arcadia Data,AtScale,BlueData,Dataiku,DataStax,IBM Analytics,IBM Cloud,Infogix,Kaggle,KNIME,MathWorks,RapidMiner,Splunk,Splunk,StreamSets和Unravel。
云扩张:随着CIO们试图将计算提供商的投资多样化,包括自身的内部部署能力,多样化将导致数据、服务和算法在多个云中分布。在单个云中查找信息或代码非常困难,由多个云建立的数据孤岛将会相距甚远,将管理成本推向需要了解基础设施的人。
微服务将导致宏观混乱:随着容器和微服务的激增,软件创建、部署和基础架构的成本将进一步下降。哪些服务是存在的?他们是如何被使用的?我们如何知道服务是否被弃用?还有什么人在使用该服务?
购买者偏向于购买“傻瓜”式数据接口以实现员工自动化:凭借“简单”的商务智能(BI)和漂亮的仪表盘,一直是商业智能领域的热门话题,企业正在处理这样一个事实,即使他们仍然不能信任他们的数据。规模庞大,数据种类繁多,复杂性和数据量大,传统的治理方法没有得到值得信赖的数据。因此,组织将从简单的仪表板转向教人们更多的数据知识,用最好的接口帮助解决这个挑战。
在AI上:人工智能(AI)应该和Hadoop和其他大数据技术最近得到的处理方式一样。如果业界试图平衡围绕大数据导向产品的炒作,就必须确保不要过度宣传AI。这并不是说人工智能在当前和未来的大数据项目中没有地位,只是我们还没有到达那个时间点,我们可以把业务决策过程完全转化为机器。相反,到2018年,行业将开始通过机器辅助来实现BI的现代化,而不是AI驱动的任务。把它看成是动力转向与自动驾驶汽车。商业用户将更快地获得更好的见解,因为他们不需要被告知什么是正确的见解。可能目前对于人工智能的执念过深,实际情况是它还并没有准备好在为业务用户分析数据的情况下自行采取行动。
在BI上:我们也会开始看到企业将BI带到数据会发生的转变。商业智能和大数据已经碰到了一堵砖墙。公司在他们的数据基础设施上投入了大量的资金,但是很多人仍然不知道为什么他们需要等待这么久的报告。部分问题是由于公司正在利用Hadoop等技术构建的数据库中捕获他们的数据,但是他们没有充分利用数据池的力量。明年和未来,我们将开始看到越来越多的公司将着重数据处理,这是Hadoop和数据池的核心原则,就其BI工作负载而言。这将加快洞察和改进投资回报率的公司在大数据基础设施投资上的投入。
1.随着商业智能领域在2015年增长了60%,然后开始出现萎缩的情况,人工智能开始腾飞。《哈佛商业评论》(Harvard Business Review)最近的一篇文章指出,在拥有完善的分析基础之前,企业还没有对人工智能做好准备。人工智能是公司在大数据和分析方面投资的自然演进,那么在2018年,企业就需要确保他们具有强大的分析基础,以便为人工智能做好准备。
2. 2018年,企业将把他们的大数据迁移到云端。根据AtScale的数据成熟度调查,72%的受访者表示他们计划在未来五年内在云中部署大数据。
3. 2018年将是一个融合的世界。虽然企业会将一部分业务迁移到云,但他们不会完全取代他们的大数据环境。一些资产永远是前提。
4. 2017年,企业的卓越中心是全方位服务,而到2018年,这些中心将成为实施中心。在过去,企业用户可以输入他们的要求并接收报告,但是现在的业务用户可以自助服务于可扩展但也受管理的数据。 COE可能会像沙拉,你可以帮助自己,你可以自己动手床架自己的沙拉。
Kubernetes赢得了容器战争,这显然是无状态应用程序(如Web服务器)和微服务的实际标准。 但是,大数据和有状态应用程序呢? 在接下来的一年里,Kubernetes将解决长期运行、分布式、多业务的大数据应用平台所面临的挑战:包括持久性存储、安全性、性能以及其他一些业务需求。 大数据应用程序打破了容器编排的典型假设。 Kubernetes将在接下来的12-24个月内解决这些问题,因为他们将继续看到越来越多的采用。
在2017年数据治理取得了中心舞台,不幸的是,数据泄露正变得比我们大多数人所熟悉的更普遍。最值得注意的是,Equifax灾难。推动数据治理进一步上台的是欧盟通用数据保护条例(GDPR)的通过,企业在2017年全面铺开(并将在2018年继续面临)。
2018年,我预测:
1.数据团队经理将成为专业 - 随着数据团队开始变得更有组织、更强大,他们将开始分解的更为专业(如数据分析师,数据科学家,数据工程师,数据操作员等)。随着这种持续的专业化,项目经理或小组负责人(迄今为止在数据空间中并不像在整个企业中的其他小组那样突出)的作用更为重要。
2.自动化ML将成为商品 - 自动化机器学习(ML),即自动搜索功能转换和模型空间的能力,将成为一种商品,并且已经被大多数可用的软件工具包所利用。随着这一转变,数据科学将不再是关于框架的专业知识,更多的是关于数据管理和成功阐述业务需求。
3.销售机器人将开始工作得益于ML和全球机器对话库 - 机器人系统,尤其是在企业对客户交易中,(通常是)硬编码规则集。在2018年,这些系统将随着机器学习和机器学习框架的商品化而发展,这些机器学习框架将经过真正的人与人之间的对话训练。
你应该在2018年做什么 - 数据科学家的新年决心
解决方案#1 - 准备怀疑人工智能
人工智能和机器学习等领域正在帮助提高应用程序内的性能,而深度学习的发展也越来越受到关注。
然而,尽管这种炒作可能会打开未来的预算,但炒作可能会导致过度膨胀,那这就不是一个好事情了。为共同构建具体的模型和商业案例,避免炒作崩溃以及随之而来的怀疑做好准备,将是下一步需要努力的方向。
解决方案#2 - 熟悉流式传输和传统的批处理流程
对于某些用例,传统的批次样式分析运行应该是最合适的。对于其他人来说,对交易正在进行的分析将是必需的。
最简单的方法是,流式分析适用于满足特定条件的项目,并在事件发生时立即进行分析。对于那些想要大规模处理数据的公司来说,每秒钟可能会发生成百上千的事件,而这些事件在发生时都需要进行分析。批量处理根本跟不上这样的数量。
除此之外,还有Forrester称之为translytics的新类别。这包括如何通过在创建时操作数据时进行分析并使用它。最终结果应该与流式分析相似,知道何时实施流处理,什么时候选择转换数据库以及何时使用批处理将是重要的。
解决方案#3 - 提前计划把工作交给信任的人
你可以构建和运行自己的数据中心,或者使用云提供商,或两者兼而有之。对于企业来说,迁移到公有云确实可以降低资本成本,但是随着时间的推移,也会导致更高的运营成本。
但是,最大的问题之一是如果你想要移动到另一个供应商,你可能会做什么。将数据从云服务提供商的离合器中取出需要成本吗?或者是否有一个简单的迁移路径可用?什么服务是唯一的一个提供商独家?
要避免“锁定”是不可能的 - 你必须和某人合作。然而,你可以选择建立在哪个基础上,可以选择谁作为你的长期合作伙伴。
机器学习将继续进军企业。在企业中,ML正在开展认真的工作,但并不像我们在新时代的ML应用程序中所看到的那么复杂。所以,虽然我们可能不会看到企业中的自动驾驶汽车,但ML在金融、制造、医疗保健和其他几个行业将会有更大的进步。我们也会看到ML越来越多地使数据中心和数据管理的日常工作自动化。明年会耗费大量的时间和资源的任务(如数据匹配和元数据创建),以更高的频率自动执行,这大大地释放了管理员的工作,使其能够更好地完成核心数据中心的工作。
自然语言界面也将变得越来越普遍(不那么令人沮丧)。除了已经在市场上的语音激活搜索助手之外,明年我们将看到自然语言界面集成到更多的应用程序中。
到达成熟的临界点:容器,Kubernetes和无服务器
基于容器和无服务器计算的微服务架构已经彻底改变了应用的构建速度,以及如何连接到当今竞争最激烈的技术,如:AI,区块链和机器学习。到2018年,我们将看到这些技术的采用达到一个临界点。他们将从早期的采用转向成为各种行业和各种规模公司的复杂和生产就绪应用程序的事实标准。
2017年出现的新工具(如Grafeas,Istio和Composer)推动了这一转变,使开发人员能够更安全地管理和协调,通过使用容器、无服务器和微服务构建的许多移动部件。这些工具为开发人员提供了更高的可视性,包括谁在使用数据,正在改变什么以及谁有权访问,从而提高安全性。结果将会是成熟应用程序的发展,可以跨越多个系统、团队和数据流进行跨越和操作。
在2017年,由于许多组织采用某种大数据环境,大数据成为常态。作为回应,可以发现采用自助式数据准备工具的情况有所增加,使得企业无论数据类型如何都可以准备数据。这些工具使他们能够利用他们的大数据更好地了解他们的客户并提供改进的客户体验。此外,企业现在正在将机器学习、人工智能和高级分析应用于客户行为和财务预测之外的用例。正因为如此,我们看到很多技术融入了机器学习的解决方案。
我们预计这一趋势将持续到2018年,将继续看到数据质量、分析、治理、元数据管理等广泛的数据管理技术的融合。提取有意义的见解并提高运营效率,需要集成的工具使用户能够快速提取、准备、分析、操作和管理数据。我们也希望看到对数据治理的重视。随着监管压力的不断增加,数据不断积累,而且与客户进行准确而有效的沟通变得更加重要,团队可以更好地访问组织内的数据,并且利用高级分析,这使得数据治理变得至关重要。
Kaggle的公共数据平台(www.kaggle.com/datasets)实际上是作为Kaggle活动的主要驱动力超越比赛。现在拥有6000多个关于机器学习者或数据科学家关心的大多数话题的数据集。历史上,UCI Irvine数据存储库一直是数据科学和ML社区的价值资源。 Kaggle的公共数据平台使得它增加了收入。
2017年,大数据在现实世界中的到来。一些早期的炒作已经冷却下来,我们看不到,但我们所看到的更严重,是把大数据用于实际使用后的情况。
“深度学习”也一样,但到目前为止,在术语方面,2017年已经花费了大量的精力来创造一个混乱。现在许多年轻人将机器学习与深度学习混为一谈,陷入了90年代我们偶然发现的陷阱,认为神经网络将解决所有数据问题。 在2018年,这种趋势可能会持续一段时间。
在所有这些喧嚣的背后,许多人仍然会遇到以下经典问题:分析结果的自动化部署以及对成千上万个预测模型的监视和管理。特别是对于后者,明年应该会有许多的进展。部分管理推送也是自动化参数扫描,来自H20的人已经在这方面做了一些有趣的工作,期待看到更多的指导版本,显示在结尾...
数据分析师,尤其是欧洲的数据分析师还有数据隐私方面的问题,需要着重关注,并构建分析应用程序,以解释他们的决策,这对于深度学习人士来说是一个有趣的挑战。
趋势:机器学习和深度学习
随着机器学习技术的应用变得越来越简单,越来越多的产品和服务将采用机器学习模式。 通常用于控制和诊断的嵌入式系统将结合能够检测先前不可观察现象(例如,检测驾驶员的驾驶风格,或分类机器是否可能发生故障)的机器学习模型。 在2018年,我们将继续看到将机器学习模型整合到新的地方,特别是边缘节点和嵌入式处理器。
虽然深度学习持续看好,但仍然需要进行大量的设计和调整来培养一个有用的深度网络。 诸如自动化超参数调整等技术似乎能很好地减少这项工作,这将加快深度学习的采用步伐。
模型构建中对自动化的需求将会继续增加,但是它将超越盲目的数字处理。为了使自动化模型更具相关性,从业者将需要更好的方法来定义他们关于用例和数据的背景知识以获得有意义的模型。
许多人警告纯人工智能的危险。人工智能将在下一年得到实际检查。实用的人工智能将提升并汇集所有必要的组件。机器学习仍然是核心,但知识管理、优化、计划和沟通将与ML整合,这将导致ML和AI更多地集成到业务流程和自动决策中,主要由物联网应用程序驱动。
机器学习是通过语境来学习的,即算法将更多地利用它们对于以前情况和决策的记忆。这将解决一些基于流的机器学习的问题。
当然,深度学习的炒作也将继续,特别是在无监督和生成式学习方面。除了图像,音频或视频分析之外,我们还需要寻找更多高价值的用例,否则炒作就会很快开始淡化。
最后,处理个人数据(GDPR)的新国际标准将需要更多的模型可理解性和决策的解释。这将给自动化和深度学习带来新的挑战。基于模型的决策的可解释模型和路径将成为标准实践。
在线预测处理(Online Predictive Processing,OLPP)作为在一个平台上结合OLTP、OLAP、流媒体和机器学习的新方法而出现。
人工智能是一种新的大数据:无论需要与否,企业都会展开竞争。
在Hadoop时代,许多企业都淹没在它们的数据池中,由于管道铺设Hadoop计算引擎的复杂性,无法获得投资回报。
SQL已经重生,许多企业意识到他们的基于Hadoop的数据池需要传统的数据库操作,比如将记录更新和索引应用到power应用程序。
OLPP数据库的最新技术将按行进行索引,以便快速访问和更新,但存储在columnar编码中,用于节省大量的存储空间和扫描速度。
人工智能和机器学习经常被误解和误用。许多初创公司和大型科技公司都试图通过强迫与这些词组相关联来提高他们的吸引力。那么,这个嗡嗡声将不得不在2018年停止。这将是我们开始要求物质证明任何能够使用数据来预测任何与业务,IT或安全相关的结果的理由的一年。尽管2018年将不再是人工智能能力成熟以匹配人类技能和能力的一年,但使用机器学习的人工智能将越来越多地帮助企业对大量数据做出决定,否则这些数据将难以理解。
AI和ML成为特定行业:使用机器学习的AI将越来越多地为金融服务组织提供识别欺诈、识别用户行为异常的能力,并建议客户采取精确步骤来缓解这些威胁。此外,计算机新闻的兴起将会对美国和全世界媒体产业的发展产生重大影响。在2018年,我们将看到越来越多的记者与数据科学家合作,就像他们在普利策提名的“亚特兰大宪法”中所做的一样。新闻工作者将转向人工智能、机器学习和自然语言处理(NLP)方面的专家,以发现与当地、全国和全球观众最为相关的具有新闻价值的故事、为以前可能从未发现的问题提供亮点。
AI和ML在B2B中成为主流:增加对大量实时数据的访问带来了额外的负担,即在复杂的信息海中识别相关信号。无论是预测和防止关键的IT基础设施停机,还是识别单个数百万流量的不受欢迎的用户,这些都是最关键的要求的AI和机器学习功能。除去世俗的任务,赋权让机器自己学习,这将会带来更多的创新、生产力和工作场所的满意度。
2017年,流处理市场在使用流处理框架方面存在混淆。 Apache Flink、Spark Streaming、Kafka Streams和其他替代品浮出水面,表面上所有这些都提供了类似的功能。使用这些框架的企业都在纠结究竟使用哪种框架,会不会有明确的领导者出现。最终的结果带来一个不必要的副作用:“解决方案蔓延”,它缺乏对摄入数据的监督和控制。
在2018年,尽管可能会出现一个领头羊,但实际上可能不止一个。最初的混乱将转向标准化,大多数企业会选择自己喜欢的。虽然Spark Streaming似乎是主角,但预计由于前期投资的剩余部分和整个业务持续存在多个框架而导致蔓延。幸运的是,企业可以使用多个框架,而无需担心通过选择包含具有自动更新功能的活动数据映射的数据操作平台来失去对数据的控制权。这允许在数据流中对应用持续集成和持续部署方法进行流处理。
第一个预测是关于企业将侧重于关键任务的大数据应用而不是技术。在过去,人们专注于学习各种大数据技术:Hadoop、Spark、Kafka、Cassandra等。用户需要花时间来理解、区分和最终部署。有很多辩论和大量的炒作。现在企业已经彻底摆脱了这些噪音,并且把所有这些都弄清楚了,他们关心的是实际上如何使用他们的数据。
以推荐引擎为例,这是大多数网络公司的关键应用程序。考虑一下Netflix:他们的推荐引擎不仅仅是一个很好的可以增强用户体验的插件,它是体验和Netflix的底线。
Netflix 企业并不关心正在使用的技术。他们使用哪种分布或数据库或分析并不重要,重要的是结果。企业已经意识到这一点,期望来年将会有更多采用以应用程序为中心的大数据方法。
人工智能赛博物理操作系统
AI-CPS OS
“人工智能赛博物理操作系统”(新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPS OS形成数字化+智能化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生。
AI-CPS OS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化,这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合,没有颠覆现状的意愿,这些将不可能实现。
领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位:
重新行业布局:你的世界观要怎样改变才算足够?你必须对行业典范进行怎样的反思?
重新构建企业:你的企业需要做出什么样的变化?你准备如何重新定义你的公司?
重新打造自己:你需要成为怎样的人?要重塑自己并在数字化+智能化时代保有领先地位,你必须如何去做?
AI-CPS OS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以帮助企业将创新成果融入自身业务体系,实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:
精细:这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能:模型随着时间(数据)的变化而变化,整个系统就具备了智能(自学习)的能力。
高效:企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力,这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。
边界模糊:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。
AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长:
创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;
对现有劳动力和实物资产进行有利的补充和提升,提高资本效率;
人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间。
给决策制定者和商业领袖的建议:
超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;
迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新
评估未来的知识和技能类型;
制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开
发过程中确定更加明晰的标准和最佳实践;
重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临
较高失业风险的人群;
开发数字化+智能化企业所需新能力:员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。
子曰:“君子和而不同,小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。
如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!
新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。
产业智能官 AI-CPS
用“人工智能赛博物理操作系统”(新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能),在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。
长按上方二维码关注微信公众号: AI-CPS,更多信息回复:
新技术:“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”;新产业:“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”、“智能驾驶”;新模式:“财富空间”、“数据科学家”、“赛博物理”、“供应链金融”。
官方网站:AI-CPS.NET
本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!
版权声明:由产业智能官(公众号ID:AI-CPS)推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:[email protected]