大树日课第003篇
本文首发于币乎
无需授权即可转载
前言
这几天要读的书是《区块链与大数据》,这是一本深度阐述区块链与大数据融合发展的书。纵观全书,分别从大数据发展的历史与目前所面临的问题,区块链概论,关于技术的演进与思考,区块链技术的应用,以及区块链与大数据联合应用的角度展开论述。
通读全书,我提出了四个问题,分别是:
第一,大数据从诞生之初,发展到今天面临着哪些问题亟待解决呢?也即现有技术背景下,大数据的应用遇到了哪些瓶颈。
第二,区块链诞生以后,大数据技术发生了怎样的演进?
第三,在区块链技术的加持下,大数据所面临的问题能否得到解决呢?
第四,区块链+大数据的具体应用场景有哪些呢?
接下来,我将用四篇文章分别来回答自己提出的四个问题。
大数据起源
我们知道,互联网的发展给整个人来带来了翻天覆地的变化,但是这种变化要通过多年的技术积累和社会实践才能达到,而且其发展的过程也需要众多相关技术的同步发展和融合。大数据亦如此!
在人类尚未发明文字之前,便有了结绳记事等简单记录信息的方法,但大部分的信息还是靠口耳相传,这个时期的显著特点是,数据的准确记录无法保证,更无法分析和利用数据。
后来,大概在五六千年前,人类发明了不同的文字和相关的数据记录方法,数据的记录得到了一定的保证,但由于缺乏统一且高效的数学语言,即使有了文字,对数据信息做有效的发掘还是非常困难的。
再后来,大约在公元3世纪左右,印度科学家发明了阿拉伯数字,在此后的逾千年当中,阿拉伯数字得到了广泛传播,使得处理数据有了相对统一的语言,数据的记录、存储、分析、交流的条件便成熟了。
总的来说,在这个非常长的时期内,人类对于数据的处理表现出这几个特点:数据不会自动产生和保留;缺少有效的加工数据信息的技术和工具;缺乏相应数据信息交流工具和手段。这个时期可以称作是大数据的史前时代。
经过了漫长的进化之后,人们终于开始有意识地进行数据的采集、处理与利用。以天文学领域的事件为例。丹麦天文学家布拉赫用了20年时间观察记录了750颗行星的运行数据。在此基础上,德国人开普勒又花了16年时间对观测数据进行分析,最终才得到了开普勒三定律。由于没有现代化计算技术的辅助,人类最终还是难以完成对庞大数据的处理。
终于随着计算机的问世,人类在数据记采集、分析与应用上的方法论得以更新与迭代。可随之而来的问题却更加严峻。大部分数据处理需要专门的技术人员采用专业的设备才能完成,成本高昂;而好不容易分析得出的数据,却由于私密性不能被广泛共享和重复利用;更进一步,随着数据量的增加,单纯的采样分析,已经不能得出很好的分析结论。在大数据概念被提出之前的这段时间,可以称作是小数据时代。
步入21世纪是之后,IT互联网、物联网、信息数字化、3G4G等技术带来的信息爆炸,使得人类得以接触的数据以指数级增长,早已超过了人类历史上所有数据的总和。于是,在新技术条件下,以研究接近于总体数据的完整数据为代表的“大数据”技术,逐步兴起。这个时期的数据通常有这样的特点:数据量大、数据输入和处理速度快、数据多样性高、数据价值密度低。
大数据的优势
由于数据量大,大数据具有传统数据难以比拟的优势,可以获得接近总体的完整描述。大数据的产生已经不再是专门设计和采样,而是靠大规模的网络、传感器自动采集。例如,在过去采集全民的面部信息几乎是不可能的事情,但是现在,靠大街小巷各处的摄像头,可以说很轻松就能完成这个任务,而且获得的样本接近整个社会的总体。
由于大数据采集的是多数据源,也即采集范围不再局限于那些制定的变量,而是“漫无目的”顺便采集尽可能多的各种各样的信息。这样获得的数据,可以避免传统的核心变量缺失和变量相关性带来的不足,甚至可以说全方位地补齐了缺失的核心信息。本质上就是利用信息的全面性来消除不确定性,以求达到完备性。
人类社会就是一个大数据的总体样本,有了大数据采集的足够样本之后,再加上某些现代化的分析、统计方法,大数据的作用就不仅仅是对现状进行呈现了,在将来完全可以做到对未来的预测,而这才是大数据的最终价值体现。
举个例子,在获得地铁、公交和私家车的流量情况之后,就可以提前一两个小时预支未来的人流密度,甚至结合以往的数据对节假日的流量做出合理预测,从而提早预警防患于未然。
大数据测量的参数涉及到种种方面,可以说反映的就是整个社会的即时运营情况。当对社会和个体的反应有了较为精准的把握和预测之后,大数据就将彻底改变人们的工作和生活方式,甚至改变国家的治理模式,从而真正做到重塑整个人类社会。
大数据之殇
大数据好处多多,但凡事有利弊。
最近在著名的高德纳技术成熟度曲线中,大数据技术已经进入到了“幻灭的低谷期”。我们生活中也有感触,前几年炒的比较火热,凡事和“大数据”这三个字沾边的公司或者项目必定受到热捧,而如今已经几乎看不到它们的身影了。
从前面了解到,大数据技术也不是凭空产生的,而是科技文化发展到一定阶段的必然产物。它没有预想的那样神奇,短期的资本爆炒,盲目的崇拜与过度包装,虽然可以短期获利,但终会干扰正常的发展路径。
在炒作和过度包装之后,我们才清醒意识到大数据目前面临的最大问题:数据基础严重缺失。一方面采集和处理数据的技术领先了,在某些领域,例如IT行业,日渐积累的数据量已经能够满足现有的需求;而另一方面,某些行业发展极其缓慢,严重阻碍了大数据技术的发展与应用,例如到目前为止医疗行业的电子病例系统的普及率仍旧非常低,有的医院甚至还采用手工缴费的方式,所以对这些医院进行大数据的整理与开发是非常头疼的。
除此之外,长远看还有一个更加严重的问题:大数据开放共享能力不足带来的信息孤岛,导致大数据远远不能发挥它真正的作用。
对于政府部门而言,它们掌握的信息往往具有一定的敏感性,所以并不适合共享;对于大企业而言,数据中本来就蕴含着宝贵的商业利益,甚至是立身之本,所以也不太可能做数据共享;对于个人而言,个人隐私问题更是无法回避。于是探索出一种更加适合当下环境的大数据共享机制,同时保证数据安全与隐私,才是未来我们要面临的关键问题。
在大数据急需新技术辅助之时,区块链诞生了,那么它能为大数据的应用带来新的可能吗?敬请关注下一篇“大数据与区块链的共生演进之路”。
2018.09.28