~洪泰原汁原创~
洪泰新鲜出品,原汁原创
金海燕,洪泰基金投资 VP 。关注 AI &Data、海外项目等领域。北京大学信息管理系硕士,浙江大学信息资源管理系学士。她的邮箱是: [email protected] 。
本文根据作者在「第四届中国数据分析行业峰会」上的发言整理而得。
大家下午好,我是洪泰基金的金海燕。我在做投资之前,做过两份工作。一份是百度产品架构师,负责几个用户量过亿的产品,包括PC 网页搜索、开放平台、移动 APP Store 、手机百度和移动搜索;另一份工作是作为联合创始人做一家 B2B 电商公司,从公司成立第一天起就跟数据服务商打交道,所以自认为对大数据有一些理解。
今天跟大家分享一下我对大数据的理解,以及我从中看到的创业机会。
对大数据的理解
大数据其实不是什么新鲜事物,它很早就有成功的商业化应用。大家猜是什么?对,是搜索引擎。2000 年左右 PC 互联网上产生了大量的网页数据,搜索引擎对这些实时变动的网页数据进行抓取,它面对的是 PB 量级的数据量,存储索引然后开放给网民搜索使用。
大数据的核心环节有三个:数据源、数据管理、商业化的数据应用场景。其中是否有可获取的数据源是前提,数据管理是技术保障,而数据有应用场景则是商业化的关键。
搜索引擎的数据源是通过 Spider 抓取回来的,上千号的工程师用了大量的机器学习来优化存储、索引和检索算法。最关键的是抓住了网民获取信息这个需求,构建了产品、采集到用户数据、将网民需求和广告库进行匹配,从而实现变现。
之后的啤酒和尿布、飓风和蛋挞,这种大数据的经典应用之所以首先出现在超市行业中,也是因为超市有大量的电子化的商品销量数据,这种数据分析研究结果能指导商品排架,进而提升经营业绩。
在我看来,要构建一个好的大数据商业应用,数据源、数据管理、商业化的数据应用场景,这三个环节缺一不可。
现在是大数据方向好的创业时机吗?
先看几个数据。
14 年全国产生的数据规模是 0.6 ZB ,5 年这个数据规模是 1.7 ZB ,今年预计达到 3.79 ZB。可以看到每年新产生的数据量都超过已经存在数据的总和,这是在膨胀。大家知道互联网上的网页数据、APP 数据、微信公共帐号数据,以及用户在上面的浏览使用行为数据,这些数据都是记录在云端的。包括上午的演讲嘉宾讲到的传感器检测到的数据,都是可获取的。
近半年我们还看到一种现象是:很多原来割裂的数据源由于打通了某个环节,从而产生了互动,进一步发酵后形成了更有价值的可应用数据。
就像卫星传输回的数据,频率是 40 天一次。天上只有一颗卫星时,数据是很零散的。而现在天上放了 30 颗卫星,每颗卫星都往回传数据时,数据量就大了,整合起来就能看到连续的轨迹了。
数据的可获得性和流动性持续改善,这些新数据源的产生,萌生了一些大数据应用的新机会。
1TB 的存储成本,30 年以前需要 16 亿美元,现在只需要 100 美元。分布式存储和分布式计算技术的成熟,使得大量的数据源存储成本快速下降,应用的成本大大降低。
人工智能 Deep Learning 技术在 2006 年后被广泛的应用在大数据处理上,应用在文本、语音、视觉和传感数据语料的学习与训练中。这种 Deep Leaning 算法并不会随着处理数据量的级别增大而遇上明显的效率与变现上的瓶颈。
综上看到,左边是一些新的有价值的数据源不断产生,右边是数据管理的基础设施和技术已经越来越完善。等待的就是好的数据商业化的应用场景。在有数据源的领域找到好的商业化应用场景,并切入进去,这是好的创业机会。
全球大数据营收 TOP 的 30 个企业,都在美国。新兴的数据分析企业,通过结合应用场景,在各个领域崛起。比如协助抓住本拉登落网的大数据分析与预测公司 Palantir,应用在政府、金融、电信领域;还有在 12 年上市的超级日志管理大数据公司 Splunk,应用在电信、能源和公共事业、金融、医疗保险等领域。
对比全球市场,中国的应用与服务仍处于快速发展的早期阶段。为什么这么说?因为根据全球的发展趋势,基础软件、计算存储、应用化服务三个子分支里,应用化服务占比这些年逐渐增大,至今已经超过 50%,而这个占比在中国今天还只有 24%。
虽然国内外的国情有差异,比如政府、金融、电信这三个在国外有很强付费能力的行业主体,在国内却受限于体制和观念,目前还不是付费主体。但综合看趋势,中国的大数据服务应用仍有巨大的空间和机会。
最大的机会在大数据应用层
通用数据应用比较看好的方向,是将大数据处理能力服务于有数据的企业,并直接收费的 TO B 服务模式。
中国企业的信息化水平参差不齐,发展最领先的是互联网企业。很多企业经过了多年的粗放式发展,现在进入需要数据化驱动企业经营的阶段,比如可视化的 BI 分析、舆情监控、精细化的市场营销、风险监控与优化等。这些企业自己有数据,但并没有能力搭建数据分析系统,需要有人服务于它。
德克萨斯州大学研究统计,如果企业数据使用率提高 10% ,各行业效益将提升 17-49% 不等。那么这些有数据处理经验的人可以把在互联网大公司已经实现的数据处理能力,拿出来服务于市场上的其他企业。
能广泛在多个行业的企业中得到应用的数据服务所具备的特点:
1. 形成数据标准,SAAS 而不是软件部署是主流数据通用应用形态;
2.可视化展现数据处理结果;
3.提供多环节打通服务、有技术壁垒和基于已服务企业数据,发展出衍生服务,并形成规模效应。
经过近些年的发展,TO B 数据服务产业前后环节会进入整合阶段,能够做到前面三点的企业最有前景。
从一个企业的数据应用层级来看,包括数据线上化、基础运营分析、细化多维分析和深度分析预测与推荐。这几个层级逐步递进,越往上智能化技术门槛越高。
在数据通用应用 TO B 方向上,对创业团队的要求是有数据经验。这个很容易理解,给其他企业提供服务的前提,是你自己在原来的企业用得好。同时团队要有销售 Sense,知道哪些企业需要这项服务,知道怎么营销和卖给企业。
对于已跑了一段时间的通用数据服务项目,需要看它的几个指标来进行评估,包括 LTV 客户生命周期付费总量、CAC 获客成本和 MRR 月收入。
大数据在行业中的应用,是有机会产生伟大公司的领域。是 TO C ,还是 TO B 后再 TO C 的模式,取决于具体的应用场景。
在这个方向上,依托于该行业的信息化及信息可获取性,要对行业线上线下进行数据源的整合,结合行业知识对训练模型进行训练与不断优化。
在行业应用方向上,很多号称为大数据的,其实是伪大数据项目。
有的 TO C 方向的应用,靠分析用户使用后的行为数据做个性化训练。这个是低频需求,处在今天这种互联网流量红利期已结束的阶段,这就是伪大数据;
有的虽然有利用数据进行分析统计的环节,但它并不提升用户体验核心环节,或影响行业增值关键环节。比如购房这种复杂决策,线下流程很长,所以当前期匹配只是很小的一步时,也不应将其当作大数据项目看;
有的项目号称做智能应用,但是团队中都没有大数据工程师背景的人员,这种项目也是伪大数据。
一个好的应用,应该是那些利用大数据能力,真正解决或改善了某个行业的核心问题的应用。比如教育和医疗这种供需关系中优质资源明显不足的行业,利用大数据训练的行业知识体系,可以辅助供给侧改革;比如零售、电子商务,大数据分析与预测能指导供应链,从而大大优化效率。
这个方向上,对创业团队的要求是比较高的。需要是深度学习方向的数据科学家和行业人才组成的复合团队。必须对行业理解透彻,且能运筹需要的资源。
比如之前提到的打通电视与手机的项目。团队一边要说服绝大多数电视机厂商Merge 技术进去,另一边要跟互联网 BAT 谈判互换用户数据资源,这样才能产生数据协同的价值。
比如,医院这么多年来对病例、化验结果、诊断结果的电子化记录,是个庞大的数据库,且至今仍然是对外保密的。可不可以将用户信息脱敏,只在医院内部的数据库中,做具备中等职称医生技能的辅助诊疗系统?这个系统需要学习病症、进行处理方法的训练,因此需要很强的资源打通能力。
在这个方向上很看团队的综合能力。
最后留一个我的邮箱,欢迎感兴趣的同行或创业者们一起交流,谢谢大家!
小编:小煦
文章转载:请保留以上所有信息。
文章内容:本文仅代表作者个人观点,不代表「洪泰帮」及其运营方立场。
文章图片:本文可能有部分图文来自网络的情形,如涉及版权或其它民事权利问题,请与我们联系。
BP通道:[email protected]
投稿通道:[email protected]
简历通道:[email protected]
你可以试试回复这些关键词:洪哥 | 泰哥 | 投资人 | 创业者
往期内容推荐
~洪泰行研报告~
想要成为风口上的猪,先找到风口
~洪泰原汁原创~
洪泰新鲜出品,原汁原味
~洪泰特约观点~
特约行业专家,掷地有声的观点,让脑力一起激荡
~洪泰创业有知~
有了这些知识,你不一定成功;没有这些知识,你一定不成功
~洪泰新闻直达~
记录洪泰重要时刻
~洪泰真爱分享~
因为爱,舍不得不与你分享
~洪泰私房故事~
满足你对洪泰的所有想象
长按上面二维码,关注洪泰基金