The N V's of Big Data
Volume - Peta byte/Records/Arch/Trasactions/Tables,Files
Variety - Structured/Unstructured/Multi-factor/Probabilistic
Veracity - Trustworthiness/Authenticity/Origin,Reputation/Availability/Accountability
Value - Statistical/Events/Correlations/Hypothecical
Velocity - Batch/Real,near-time/Processes/Streams
大体量,数据量的大小。之后是实时性,即数据的速度(数据进来的速度)。现在特别是传感器网络的数据,是在一秒钟之内进来。例如PM2.5数值,每秒钟都在发生变化。然后是多样性,之前在传统的商业世界里面,大部分数据都是结构化数据,大家谈论数据库。现在很多数据都是非结构化数据,其中包含多种因素,一些数据甚至有与之关联的概率。另外一个被提到的就是真实性,是指数据的可信度如何。大数据很重要但我们在谈到一些错进错出的问题的时候,会提及隐私,安全等等,确保数据不被破坏。互联网是一片狂野之地,数据的完整性可能受到影响是真的。人们担心自己的系统被破坏,真实性在未来会变得越来越重要。
Other V’s
Variability - Dynamicity
Volatility - how long the data is valid
Visibility - monitoring/forensics/analysis
我认为谈到动态性(随时间变化),大数据是非常易变的。与此有相关的另外一件事情,就是易失性,易失性是指数据在多长时间内是有效的,易失性也意味着有些东西可能会是错的。例如PM2.5,只是在这个时间段内有效,过了这个时间段后,你需要重新获得数据。数据有一个与之相关的时间戳。
可见性,它通常指的是什么呢?如果某件事情是一个黑盒,你不想要它,那么它就会是不好的。你想要一些事情更像玻璃杯一样,至少像某种半透明的盒子一样,你可以看到其中发生了什么并进行诊断、辩论和分析。
New Infrastructure & Tools
Hadoop,Azure
当你想真正学习大数据的时候,什么样的工具能够真正让你释放你的想法。大数据应该像Windows,Office一样,使得每个有好主意的人都能够将注意力聚焦在自己的领域上。你们不需要成为数据科学家,就可以建设大数据基础设施。对于真正的普通大众,他们只想要交钥匙的解决方案。他们能够真正的使用这些工具来提出自己的洞见和想法。
微软的大数据结构使用了很多开源的Hadoop,Apache Hadoop。
High performance Computing, Storage, Network - Cloud Computing Infrastructure
Heterogeneous multi-provider services integration
Data Ingestion(Harvesting), Storage & Management
New Data Centric service/security models
Traditional relational Database & Data Warehouse
Hadoop - Open - Source distributed computing & data storage
Data Analytics to close the feedback loop
Data mining - data Visualization - Real-time/streaming analytics, interactive and machine learning analytics.
对于一般供应商来说,如何收集数据,存储数据,清洗数据?或者甚至是组合传统数据库。未经处理的数据是非常难于用上的,你需要处理数据,增加一些额外的标签,做相同的结构以便之后无法处理这些非结构化数据。然后是安全和隐私,谁会真正看到这些数据,在这里我们不谈论政府和军队,只讨论公司/民营企业等,你会相信公司并把数据存放在它们的云基础设施中吗?像微软、IBM、Oracle,这些提供云基础设施的公司,我们要确信在我们提供的云里面,我们看不见数据,因此只有程序能看到数据。你甚至需要让数据被加密。首先需要的是信任,你需要信任像微软这样的公司,如果我们做不到这一点(加密数据),没有人会真正使用我们的云基础设施。其次对于很多人来说,信任可能还不够,那么你需要自己加密好你的数据(在服务器上,只有你们有密钥),现在有一些新的技术,你真的能够对加密数据进行计算吗?那么你需要确保没有人,甚至在过程中也不能够看到数据。
新的趋势,像INTEL这样的公司提供了一种机制,让解密在芯片内完成。由于INTEL没有运行数据中心,像微软这样的公司有数据中心(当然我们没有具体的技术资料),密钥会被发送给芯片,芯片对数据解密和执行计算,计算完成之后,芯片将计算结果加密。因此像微软这样运行云基础设施的公司,没有办法看到加密的数据,因为所有的解密和计算都是在芯片内部完成的。这种算法100%的安全。未来这种技术会在1-2年内慢慢推出。如果说像政府或者军队要把所有的工作任务放云端完成,那么无论你做私有云还是公有云,都需要确保数据安全和隐私。
此外我提到的Hadoop,可以完成这个反馈闭环的数据分析。之前我提到过重要的是发现洞见,因此传统的数据挖掘和实时流分析,数据可视化。
为什么各种力量会来驱动所有这些大数据?因为数据获取和存储的成本接近于0。组合数据的能力,新工具的可获得性,这些真正使大数据时代到来了。现在你们去任何一家公司,无论是创业公司还是大公司小公司,你问人们关于商务智能/大数据,没有人会对此表示怀疑,没有人会对此表示质疑,每个人都想要解决方案,这是巨大的商业机会(无论对于初创公司还是中小型公司,大公司他们都需要这个)。其原因都在于洞见、商务智能和商务决策。如果你想要领先于其他人,你都需要创新,就可以拥有优势。
---写于2016年1月11日。