什么是数据驱动?(转译)

Neil Zhu,ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。

数据驱动

定义
一个数据驱动的组织会以一种及时的方式获取、处理和使用数据
来创造效益,不断迭代并开发新产品,以及在数据中探索(navigate)。

有很多方式可以评估一个组织是否为数据驱动的,如:

  1. 产生的数据量
  2. 使用数据的程度
  3. 内化数据的过程

作者认为有效地(effectively)使用数据为关键。

商务公司拥有使用数据来改善效益的历史。
任何好的销售人员天性知道如何去向消费者推荐采购。

那些浏览过这些商品的客户同样浏览了另外一些东东……Amazon将该技术移至线上。
这种简单的协同过滤的实现是Amazon诸多特性的一种。
这是一个对于传统搜索之外的机缘巧合的强大的机制。

数据产品是社交网站的心脏。它们的数据必然是庞大的用户数据集,形成的一张图。也许对于社交网络来说最重要的产品是某种帮助用户链接彼此的工具。任何新的用户需要找到新的伙伴,熟人或者联系方式。让用户去搜索他们的朋友可不是一个好的用户体验。如同LinkedIn,工程师发明了People You May Know(PYMK)来解决这个问题。在理论上的确很容易完成这项工作,根据已经存在的关系图,我们可以准确地发现新用户的关系网络。这样的推荐朋友比自己去选择更为高效。尽管PYMK现在很新颖,它却已经成为了每个社交网站的必备部分。Facebook不仅支撑了自身版本的PYMK,他们还监控了用户获得朋友的时间。使用精密的跟踪和分析技术,他们已经标识了让一个用户长期参与的的时间和连接数。

如果你缓慢地链接一些朋友或者添加朋友,你将不会是一个长期依赖社交网络的用户。
通过学习达到信任的活动的层级,他们已经将网站设计成为能够有效降低新人加一定数量朋友为其好友的时间。

类似地,Netflix在线电影事业完成了同样的任务。当你注册时,他们强烈推荐你添加你打算观看的电影。他们的数据组已经发现一旦你增加超过某个数量的电影,你成为一个长期用户的概率将大大增加。借助这个数据,Netflix可以构造、测试和监测产品流来最大化新人转变为长期顾客的数量。他们已经简化了高度优化的注册/试用服务,有效利用了这样的信息来快速和高效地黏合客户。

Netflix、LinkedIn和Facebook并不是仅有的使用用户数据来鼓励客户的长期参与。如Zynga,它不仅仅关注游戏,还会常态化地监测用户身份和他们的行为,生成了一个不可思议的大数据。通过分析用户在一段时间内在一个游戏中的交互行为,他们已经识别出那些直接导致成功游戏的特征。基于用户和其他用户的交互行为的数目、前n天内用户建造的房子数目、在前m个小时内他们杀死了怪物的个数等等,他们便可以知道用户将成为长期会员的概率的变化。他们找到了如何达成参与的挑战的关键点,并已经设计出产品来鼓励用户达到这些目标。通过持续测试和监测,他们优化了对这些关键点的理解。

Google和Amazon在使用A/B测试来优化网页的展示方面是先行者。在互联网发展历史上,设计者门借助直觉和本能来完成工作。这没有任何错误,但是如果你对一个页面作出修改,你需要确保这个改动是有效的。你卖出更多的产品了么?用户需要多久才能发现想要的东西?多少用户放弃了并转向了其他网站?这些问题只能借助实验、收集和分析数据来完成,这些是数据驱动公司的第二特性

Yahoo已经对数据科学作出了很多重要的贡献。在看到Google使用MapReduce来分析海量数据后,他们认识到了自身需要同类的工具来完成自己事务这就是Hadoop,现在是数据科学家的最重要的一项工具之一。Hadoop已经由Cloudera,Hortonworks,MapR等公司商业化了。Yahoo并未停步于Hadoop,他们注意到流数据的重要性,而这是Hadoop不能给出很好的解决方案的。目前Yahoo致力于开源工具S4来解决流数据问题。

支付服务,如PayPal、Visa、American Express和Square,靠自身技术能力领先于对手。它们使用精密的欺诈检测系统来发现数据中的异常行为模式。这些系统必须在毫秒级时间做出反应,其模型需要在新数据生成后实时更新。这工作就像在不断堆叠新草的草堆中找出一根针那样。

Google和其他搜索引擎常态地监测搜索相关的度量来识别哪些情况是用户只是在耍弄系统哪些情况可以帮助改进用户体验。Google所面临的数据移动和处理的挑战是巨大的,也许比目前所有其他的公司的都大。为了支撑其业务,他们不得不发明新颖的技术解决方案,从硬件到软件如MapReduce再到算法如PageRank),其中很多方案的思想都已经流入开源软件项目中。

最强的数据驱动组织的座右铭“If you can't measure it, you can't fix it”。这是从一个牛人那儿学来的。这个态度给人一种美妙的能力来传达这种价值,其方式包括:

  1. 产生和收集尽量多的数据。不管你是做商业智能还是构建产品,如果不能收集数据,你就不能使用数据。
  2. 以一种积极和省时的方式来度量你的产品或策略是否成功?如果你不去度量结果,你又如何得知呢?
  3. 让更多的人来观察数据。任何问题可能只是因为一些简单的原因导致。更多有经验的专家可以从不同的角度迅速发现问题出在哪儿。
  4. 刺激对数据产生变化或者不变的背后原因的好奇心。在一个数据驱动的组织,每个人都在思考数据。

当然,假装自己是一个数据驱动的组织其实很简单。但是如果你试着以上面的心态来收集数据和度量你能做到的每件事,思考自己收集的数据背后的意义,你将会超前于大多数只是嘴上说说的公司。并且我需要指出的是,当我在对专业的数据科学家介绍这些内容时,并未限制其他的人来了解这些知识。每个人都应该看看数据

-------
translation from part of the book: Building Data Science Teams

你可能感兴趣的:(什么是数据驱动?(转译))