大数据:正在到来的数据革命

涂子沛 (作者)

编辑推荐

《大数据:正在到来的数据革命》编辑推荐:大数据战略,重新洗牌全球格局:美国,再一次领跑世界;中国,却很可能再失良机而浑然不知!中国迷局如何解开? 海归视野、16年中美职业生涯的作者,从太平洋对面看到中美两国的差距,披露大量美国真实案例,为华文世界开启一个重要的话题,写成一本意在兴邦治国的战略之书,图文并茂,老百姓也看得懂。

名人推荐

在极权的国家,他们手上拥有足够的资讯,足以利用这资讯,掌握每一个人的日常生活;“老大哥”的影子,可以无所不在……涂子沛先生《大数据》这部书,清楚地叙述了资讯时代对我们生活的影响与社会的控御力。他讨论的范围方方面面、极为广泛。我们要对涂子沛先生致敬与致谢,因为他为华文世界提出一个重要的话题。
——史学大家、匹兹堡大学历史系荣誉讲座教授 许倬云
在很多领域,中国政府和中国的企业都有雄心勃勃的计划,这引起了全世界的关注,这些雄心和计划,现在应该拓展到大数据的领域。涂子沛先生的《大数据》这本书,将在这个重要的领域,为中国政府和企业的努力提供引导和帮助。无论是对中国政府,还是就中国的商业组织而言,《大数据》都是一本重要的书。
——哈佛大学商学院访问教授、巴布森学院总统杰出奖教授、全球顶尖的管理咨询大师 托马斯•H•达文波特
《大数据》这本书讲述了数据技术浪潮的兴起过程,回顾了近一个世纪以来美国作为一个世界强国的开放历史,气势磅礴。从书中可以看到,美国的发展动力,正是开放和创新。我们正在向个性化的智能互联网时代迈进,计算力的扩展正在不断加速,数据将成为我们最强大的创新动力。
——英特尔全球副总裁、中国区总裁 杨叙
《大数据》从奥巴马建设“前所未有的开放政府”出发,描写了半个多世纪以来数据对美国社会政治、商业、文化等方方面面的影响,谈及了1930年以来历任美国总统,可谓波澜壮阔。涂子沛作为科技业的精英,并没有将自己眼光和生活局限于技术之上,他对美国社会的独到观察和理解、对华人社区工作的积极参与和贡献,都是促成本书成为一本佳作的重要原因。
——奥巴马总统大选亚裔事务顾问、美国华人全国委员会会长、凤凰卫视时事评论员 薛海培
《大数据》是一本视角独特、取材新颖、别开生面的好书。它以数据为轴线,描绘了美国走过的开放创新历程。从该历程中我们看到,数据挖掘是一种知识生产过程,从中产生创新,产生管理,产生推动社会变革的理论与实践。更有意思的是,美国政治的发展,公民权利的实现,以及各种自由与福利的保障,都和对数据的创造性应用密切相关。这对已经步入信息时代的中国,尤其有借鉴意义。趋势所在,数据乃大。涂子沛先生的专业性分析和介绍,是一项创造性的工作。
——中山大学政治与公共事务管理学院教授 郭巍青
大数据具有催生社会变革的能量。但释放这种能量,需要严谨的数据治理、富有洞见的数据分析,以及一个激发管理创新的环境。涂子沛的《大数据》这本书总结了美国的经验和实践,并为中国提出了一个路线图。我为他的成就感到骄傲。这本书完整地融合了技术、政治、商业三个角度,体现了我们学院师资教学的独特优势。我相信本书会在中国激发新的思想和讨论,帮助中国迎接大数据的挑战。
——卡内基梅隆大学海因兹学院及信息管理学院院长、终身教授 Ramayya Krishnan
通过历史故事的讲述,用近似新闻评论的笔法,《大数据》这本书以美国为例介绍了由经验管理到数据管理这场正在发生的革命性变革,通俗形象地讲清楚了科学的道理,实属难得。这对学者们扩大视野,对管理干部深化科学发展观的认识,都有十分重要的价值。
——中国管理信息系统的主要开创者、澳门科技大学行政与管理学院名誉院长 薛华成
《大数据》这本书揭示了数据在未来社会中的革命性作用。大数据将是下一个社会发展阶段的“石油”和“金矿”。无论是个人、企业还是国家,谁能更好地抓住数据、理解数据、分析数据,谁就能在下一波的社会竞争中脱颖而出。关于数据的知识,将成为个人知识结构中的必备要素和基础。
——复旦大学计算机研究所所长、上海(国际)数据库研究中心主任 施伯乐
子沛兄的《大数据》这本书,帮助我们形象地了解信息自由、技术创新与社会进步的关系。我最感兴趣的是美国信息自由制度建立的过程。它让我看到,一个社会、一种文化,是如何通过自省式的努力,认清比自身存在更本源的客观规律。这种制度一旦建立,就如同打开了控制某个基因群组的开关,后面所呈现的演化,虽然眼花缭乱,反而显得平淡无奇、顺理成章了。
——东西网总裁、译言网创始人之一 赵嘉敏
18世纪启动的工业革命为人类创造了巨大的财富,也极大地推动了社会变革。20世纪中启动的信息革命对人类社会也将产生巨大的冲击,而这个进程刚刚开始。涂子沛先生所著的《大数据》一书,用有趣的故事带我们回顾信息时代的里程碑,使我们透过未来的变幻不清的迷雾,展望和畅想信息革命的大趋势。
——苏州大学企业创新和发展研究中心主任、教授 董洁林
《大数据》值得仔细阅读与思考。要让数据更好地说话,既依赖于数据科学与技术的发展,更需要政府、机构和公民的数据意识的不断提高。
——上海交大电子信息与电气工程学院教授 汪小帆
数据科学正在成为一个新兴的学科和领域。涂子沛先生的《大数据》这本书,为我们揭示了大数据浪潮发生的前因后果,以及这种技术进步对政治、经济、文化的种种影响。希望读者从本书中获益,以积极的态势应对中国的大数据挑战。
——卡内基梅隆大学计算机系终身教授 张晖

媒体推荐

在极权的国家,他们手上拥有足够的资讯,足以利用这资讯,掌握每一个人的日常生活;“老大哥”的影子,可以无所不在……涂子沛先生《大数据》这部书,清楚地叙述了资讯时代对我们生活的影响与社会的控御力。他讨论的范围方方面面、极为广泛。我们要对涂子沛先生致敬与致谢,因为他为华文世界提出一个重要的话题。
——许倬云(史学大家、匹兹堡大学历史系荣誉讲座教授)

在很多领域,中国政府和中国的企业都有雄心勃勃的计划,这引起了全世界的关注,这些雄心和计划,现在应该拓展到大数据的领域。涂子沛先生的《大数据》这本书,将在这个重要的领域,为中国政府和企业的努力提供引导和帮助。
无论是对中国政府,还是就中国的商业组织而言,《大数据》都是一本重要的书。
——托马斯•H•达文波特(哈佛大学商学院访问教授、巴布森学院总统杰出奖教授、全球顶尖的管理咨询大师)

《大数据》这本书讲述了数据技术浪潮的兴起过程,回顾了近一个世纪以来美国作为一个世界强国的开放历史,气势磅礴。从书中可以看到,美国的发展动力,正是开放和创新。我们正在向个性化的智能互联网时代迈进,计算力的扩展正在不断加速,数据将成为我们最强大的创新动力。
——杨叙(英特尔全球副总裁、中国区总裁)

《大数据》从奥巴马建设“前所未有的开放政府”出发,描写了半个多世纪以来数据对美国社会政治、商业、文化等方方面面的影响,谈及了1930年以来历任美国总统,可谓波澜壮阔。涂子沛作为科技业的精英,并没有将自己眼光和生活局限于技术之上,他对美国社会的独到观察和理解、对华人社区工作的积极参与和贡献,都是促成本书成为一本佳作的重要原因。
——薛海培(奥巴马总统大选亚裔事务顾问、美国华人全国委员会会长、凤凰卫视时事评论员)

《大数据》是一本视角独特、取材新颖、别开生面的好书。它以数据为轴线,描绘了美国走过的开放创新历程。从该历程中我们看到,数据挖掘是一种知识生产过程,从中产生创新,产生管理,产生推动社会变革的理论与实践。更有意思的是,美国政治的发展,公民权利的实现,以及各种自由与福利的保障,都和对数据的创造性应用密切相关。这对已经步入信息时代的中国,尤其有借鉴意义。趋势所在,数据乃大。涂子沛先生的专业性分析和介绍,是一项创造性的工作。
——郭巍青(中山大学政治与公共事务管理学院教授)

大数据具有催生社会变革的能量。但释放这种能量,需要严谨的数据治理、富有洞见的数据分析,以及一个激发管理创新的环境。涂子沛的《大数据》这本书总结了美国的经验和实践,并为中国提出了一个路线图。我为他的成就感到骄傲。这本书完整地融合了技术、政治、商业三个角度,体现了我们学院师资教学的独特优势。我相信本书会在中国激发新的思想和讨论,帮助中国迎接大数据的挑战。
——Ramayya Krishnan(卡内基梅隆大学海因兹学院及信息管理学院院长、终身教授)

通过历史故事的讲述,用近似新闻评论的笔法,《大数据》这本书以美国为例介绍了由经验管理到数据管理这场正在发生的革命性变革,通俗形象地讲清楚了科学的道理,实属难得。这对学者们扩大视野,对管理干部深化科学发展观的认识,都有十分重要的价值。
——薛华成(中国管理信息系统的主要开创者、澳门科技大学行政与管理学院名誉院长)

《大数据》这本书揭示了数据在未来社会中的革命性作用。大数据将是下一个社会发展阶段的“石油”和“金矿”。无论是个人、企业还是国家,谁能更好地抓住数据、理解数据、分析数据,谁就能在下一波的社会竞争中脱颖而出。关于数据的知识,将成为个人知识结构中的必备要素和基础。
——施伯乐(复旦大学计算机研究所所长、上海(国际)数据库研究中心主任)

子沛兄的《大数据》这本书,帮助我们形象地了解信息自由、技术创新与社会进步的关系。我最感兴趣的是美国信息自由制度建立的过程。它让我看到,一个社会、一种文化,是如何通过自省式的努力,认清比自身存在更本源的客观规律。这种制度一旦建立,就如同打开了控制某个基因群组的开关,后面所呈现的演化,虽然眼花缭乱,反而显得平淡无奇、顺理成章了。
——赵嘉敏(东西网总裁、译言网创始人之一)

18世纪启动的工业革命为人类创造了巨大的财富,也极大地推动了社会变革。20世纪中启动的信息革命对人类社会也将产生巨大的冲击,而这个进程刚刚开始。涂子沛先生所著的《大数据》一书,用有趣的故事带我们回顾信息时代的里程碑,使我们透过未来的变幻不清的迷雾,展望和畅想信息革命的大趋势。
——董洁林(苏州大学企业创新和发展研究中心主任、教授)

《大数据》值得仔细阅读与思考。要让数据更好地说话,既依赖于数据科学与技术的发展,更需要政府、机构和公民的数据意识的不断提高。
——汪小帆(上海交大电子信息与电气工程学院教授)

数据科学正在成为一个新兴的学科和领域。涂子沛先生的《大数据》这本书,为我们揭示了大数据浪潮发生的前因后果,以及这种技术进步对政治、经济、文化的种种影响。希望读者从本书中获益,以积极的态势应对中国的大数据挑战。
——张晖(卡内基梅隆大学计算机系终身教授)

作者简介

涂子沛,知名专栏作家、信息管理专家,先后为《南方都市报》、《IT经理世界》、艾瑞网等多个报刊网站撰写专栏,网易、财经网名博博主。毕业于华中科技大学、中山大学和卡内基梅隆大学。赴美留学之前,曾在省、市、县几级政府的不同部门磨砺10年,做过职业程序员,担任过公安边防巡逻艇的指挥官,也从事过政府统计工作。现为美国某软件公司数据中心的主任。除了工作、写作,还热心公益,是匹兹堡华人社区的领袖。

目录

序言一 大数据:为华文世界提出一个重要话题 许倬云
序言二 中国的雄心应该拓展到大数据领域 托马斯•H•达文波特
序幕 新总统的第一天
一人一票:把“黑”人送进“白”宫
大国新政:阳光是最好的防腐剂
上篇 帝国风云
第一章 历史争战《信息自由法》
第四股力量:知情权的起点
国会议员:孤独的战争
白宫当家人:一个妥协者和机动者
政府VS. 社会:旧剧情重现新时代
第二章 数据帝国的兴起
摩尔定律:全世界半个世纪的发展规律
最小数据集:上升到立法高度的开路先锋
民意几时有:选票催生的创新
普适计算:计算机本身将从人们的视线中消失
“大数据”战略:争夺全世界的下一个前沿
第三章 数据治国
循“数”管理:平安大道怎样铺
数据“验”平权:民权史上的碑石
数据“打”假:最大的争议就是福利滥用
CompStat:街头警察的创新传奇
第四章 商务智能的前世今生
起源:从数据到知识的挑战和跨越
结蛹:数据仓库之厚积薄发
蚕动:联机分析之惊艳
破茧:数据挖掘之智能生命的产生
化蝶:数据可视化的华丽上演

中篇 法则博弈
第五章 帝国的法则
收集法则:减负,为人民减负
使用法则:隐私,文明社会的共识
发布法则:免费,人民已经交税
管理法则:质量,互联网时代的根本
第六章 《数据质量法》的困局
产业界“俘虏”政府:数据背后的政经战争
美式“旋转门”:权、名、利大串场
“掺沙子”法案:国会对付总统的独门秘器
环保“风险门”:公共利益常常无人代表
集体行动的逻辑:人人都想“搭便车”
三权之歧:什么是真正的“和谐”
第七章 全国隐私风波
《一九八四》:零隐私的恐惧
大数据就是“老大哥”:中央数据银行之争
百年纠结:统一身份证
“9•11”大拐点:以反恐的名义向左转
万维信息触角计划:追踪恐怖分子的“数据脚印”
6 种改变政府的力量:山姆大叔大退让

下篇 公民故事
第八章 数据开放运动
一个新的世界:从软件开源到数据开放
总统的雄心:公共财政支出透明
数据民主:印裔首席信息官的崛起
Data.Gov:从旗舰初航到保“数”运动
大众创新:航班延误之候机经济学
第九章 试金石:白宫访客记录
总统在见谁:大医改中的“小”插曲
全体美国人的房子:白宫
步步妥协:总统与草根的对决
从白宫安保到政治监督:执著的公民改变世界
第十章 矿难中的歌声和数据
集体行动的号角:你站在哪一边
可以避免的悲剧:数据揭示的全景式真相
默认公开推定:和矿难赛跑的原则
唯一的道路:民主时时都要“争”

外篇 天下趋势
视界一 大趋势
数据权:大不列颠的硕果
大合流: 国际开放联盟
云计算:新的航向
再造互联网:从网页相连到数据相“联”
视界二 大挑战
逐鹿政坛:得数据者得天下
数据竞争:企业赢之道
下一波浪潮:从大数据到大社会
尾声 挑战中国:摘下“差不多先生”的文化标签
大事记 20世纪大萧条后美国信息开放、技术创新之路
译名表 美国政府机构ABC
后记 搭建“大数据”的世界

序言

序言二 中国的雄心应该拓展到大数据领域
托马斯·H·达文波特
无论是对中国政府,还是就中国的商业组织而言,《大数据》都是一本重要的书。大数据及其分析,将会在未来10年改变几乎每一个行业的业务功能。任何一个组织,如果早一点着手大数据的工作,都可以获得明显的竞争优势,正如早期在“小数据”时代脱颖而出的竞争者一样,如第一资本金融公司、前进保险公司、万豪酒店等等。时光荏苒,现在到了抓住大数据机遇的时候了。
大数据之所以产生,是因为今天无处不在的传感器和微处理器。我们正在迈进普适计算的时代。其实,所有的机械或电子设备都可以留下数据痕迹,这些痕迹表明了它的性能、位置或状态。这些设备和使用它的人,通过互联网互相交流,又形成了另外一个庞大的数据源。当这些数据和来自其他媒体、无线或有线电话、有线电视、卫星等等来源的数据相结合的时候,更加显得庞大无比。
这些数据可以被使用,这意味着我们可以把所有的商业或组织活动都视为大数据的问题。如今的制造业,大多数机器上都已经安装有一个或多个微处理器,已经进入了大数据的状态。消费营销行业,无数顾客的交易触点和网上点击的流量,也成了大数据的问题。谷歌甚至认为其无人驾驶汽车也是一个大数据的问题。
世界各国的政府也开始认识到,他们坐拥海量数据,这些数据都有待分析。在亚洲国家的政府,也出现了大数据战略以及基于数据分析的方案和倡议。去年,新加坡成立了德勤数据分析研究所(DAI),这个新的机构是由新加坡政府经济发展委员会资助成立的。德勤数据分析研究所的目标,就是引领政府和企业对于数据的研究和应用。新加坡政府还资助了几所大学开展大数据和数据分析的研究活动。
任何一个组织,要抓住大数据的机遇,就必须做好几个方面的工作。从技术角度来看,首先要收集并且开发特定的工具,来管理大规模并行服务器产生的结构化和非结构化数据,这些数据,可能是自己专有的,也可能来源于“云”。其次,每一个组织都需要选定分析软件,用它来挖掘数据的意义。但可能最重要的是,任何组织都需要人才来管理和分析大数据。这些人被称为“数据科学家”,他们集黑客和定量分析员的优势和特长于一身,非常短缺。聪明的领导人,将想方设法留住这类人才。
不少公司都意识到了这种难得的机遇,现在已经采取了行动。例如,通用电气将投资15亿美元在旧金山湾区建立一个全球软件和分析中心,作为其全球研发机构的一部分。这个中心拟雇用至少400名数据科学家,现在已经有180名各就其位了。通用电气在全球拥有超过1万名工程师从事软件开发和数据分析工作,通过共同的分析平台、训练、领导力培训以及创新,他们的努力得以协调合作。通用电气对于大数据的研究活动,相当一部分集中在工业产品上,例如机车、涡轮机、喷气发动机以及大型能源发电设施。
对任何一个试图通过大数据获得成功的组织来说,通用电气的投资规模和雄心都是一个榜样。在很多领域,中国政府和中国的企业都有雄心勃勃的计划,这引起了全世界的关注,这些雄心和计划,现在应该拓展到大数据的领域。涂子沛先生的这本书,将在这个重要的领域,为中国政府和企业的努力提供引导和帮助。

后记

后记:搭建“大数据"的世界
2008年12月,我刚从卡内基梅隆大学毕业,就碰上了美国的金融危机,被卷进了失业大军。
两年多的留学生活,既紧张又辛苦,结果却没工作,不免郁闷。但“宅”在家里,却有了和女儿一起玩耍、抒情咏志的时间。我开始写博客,记录自己在异国他乡的生活和感受。后来,一篇文章被中山大学的郭巍青教授读到,经他推荐,发表在2009年9月的《时代周报》上。
没想到,一个崭新的写作空间,就此豁然打开。
此后,我陆续接受了《新快报》、((南方都市报》、艾瑞网等报纸网站的邀约,写了近一年的专栏。期间,郭巍青教授、《新快报》的杨震编辑、《南方都市报))的邓志新编辑和《时代周报》的彭晓芸编辑都对我的写作有过帮助,令我受益匪浅。
但促成本书最重要的原因,是我们这个时代的迅猛发展,以及我在其中的职业经历。
1996年,作为计算机专业的毕业生,我的第一份工作是数据库程序员。后来担任了边防巡逻艇的指挥官,从事过政府部门的统计工作。但没想到,在美国的工作,又和数据、政府发生了关系。我所在的美国公司,是政府合同商,致力于为各级政府部门提供数据解决方案。我的新职位,和十几年前在中国的第一份工作极为相似,但所使用的技术已经无法同日而语。通过和一个又一个项目的“亲密”接触,我真真切切地“透视”到数据在美国政府和企业当中的重要作用。在深入了解其成因、背景和趋势的过程中,我常常被数据的力量和美感所震撼。
我将这种新的特点和趋势概括为“大数据时代”的“循数管理”和“数据竞争”。
作为一名曾经在中国工作过10年的公务人员,我知道,这种管理方法和竞争态势还不为我们的政府、企业和大众所熟悉。
这触发我产生了一个系统的中文写作计划。
就在我决心暗下之时,我的职业发展突然峰回路转:2010年下半年,被公司提拔成技术部门的主管。在美国带队伍——立刻又成为一个挑战。为了做好本职工作,我无暇他顾,本书的设想,甚至专栏写作,都被迫搁置。
次年3月,在回国期间,我和东西网的张文武总编提到了这本书的构思。他听后眼睛一亮,说这是一本好书,建议我快快写出来。
他的眼神,又拨动了我心底那根弦。加上新岗位的工作慢慢驾轻就熟,写作的计划,于是重上日程。
从2011年6月起,全书历经8个月。这8个月当中,我几乎断绝了一切的社交、娱乐和休闲,投入了全部的业余时间。如精卫填海、乌鹊衔枝,每晚夜深人静之时,我就坐在书桌和电脑前,一点一点搭建“大数据”的世界。无论白天黑夜,一有空,谋篇布局、遣词造句的问题就在脑中盘旋。记得好几次,下班回家,过了家门的路口,还浑然不觉,一直把车往前开,最后绕了个大弯才调头回来。
本书的完成,首先要感谢我在华中科技大学的同窗王怡河。虽然都是理工科出身,但在校期间,我们就对文、史、哲很感兴趣,常常聚在一起讨论国家和社会的问题。怡河博闻强记,对我的写作,给予了很大帮助。本书的每一篇章,他都是第一读者,一些精彩片段,凝聚有他的智慧。挚友张炳剑也曾阅读过部分章节,提出过很好的意见。我还要感谢KIT Solution软件公司的总裁张小彦博士。小彦在美国工作、生活了30多年,对美国的政治、经济、文化都有深入的体察和了解。与他的日常交流和思想碰撞,是我写作灵感的重要来源。
广西师范大学出版社的曹凌志主编、王家胜编辑对本书的编辑和出版倾注了心血。戚丽艳、肖准对个别文本和图片的翻译有贡献。杨文卓、王玺等好友曾关心过本书的写作。在这里,无法列出所有我心存感激的人员。我在34岁的时候,下决心负笈海外,中山大学的周超教授、华中科技大学的梁木生教授都曾在我人生的这个关键点上对我指点、关心、鼓励良多。
除了辛苦和感激,在我的心里,还堆积了愧疚。
这8个月中,记不清有多少次,5岁的女儿奕奕拿着玩具、来到我的书房门口,轻声地问:
“爸爸,你可以跟我一起玩吗?”
我总是保持统一的口径,转过身、硬着心肠回答说:
“爸爸在工作,没时间……”
带着失望的表情,她快怏地离开。
一个周末的下午,大雪初晴。我坐在电脑前修改最后一个章节。起身休息,踱步到窗口,忽然看见女儿和太太俩人正在给我停在院子中的车清扫积雪。奕奕的身高,刚过车头,她穿着大衣、戴着手套,站在厚实的雪地中,一下一下挥动着小铲。隔着玻璃窗,我听不到声音,第一反应是抬脚下楼,一转念,又不忍打扰这个画面。我静静地靠在窗口,看着红色的车身慢慢从白色的积雪当中露出来,心,像被抚摸了一样,感到特别的温暖。 我知道,很多事难以周全。我期望这本书,能为他人带去知识和视野。
旅居海外的经历,让我深深感到,美国,是一个值得中国人认真学习的国家。所谓的“中国崛起”,我认为现阶段还是要证明我们有正确的学习态度和敏锐的学习能力。不要有桥不走,硬要下河摸石头。
要学习、要上路,这是中国的当务之急。我们的进步,应该以全世界的文明为基础。在这个过程中,中国需要对西方世界客观的观察者、理性的思考者和开放的分享者。
海外的华人、留学生拥有这样的历史机遇。我也愿把这作为自己的坐标,为国家的进步尽绵薄之力。
为了确保本书引用的资料和数据准确,我查对了很多资料。语言表达上,也做了反复的修改。尽管如此,肯定还有错漏和不足。感谢您的阅读,也欢迎您的意见和评点,以备再版时修订完善。
涂子沛于美国匹兹堡
2012年2月28日

文摘

尾声 挑战中国:摘下“差不多先生”的文化标签 涂子沛
“而最大的毛病,则是西欧和日本都已以商业组织的精神一切按实情主持国政的时候,中国仍然是亿万军民不能在数目字上管理。……一旦某一个国家能在数目字上管理,到底使用何种数字,尚可以随时商酌,大体上以技术上的要求作主,不必笼统的以意识形态为依归了。”
——黄仁宇(1918—2000),美籍华裔历史学家,1991年
在论述完大数据时代的趋势以及这个时代给个人、企业和社会带来的诸多挑战之后,本书应该可以画上句号了。但在结束之前,作为一名中国人,还是按捺不住,要絮叨几句我们中国在这个大时代当中所处的位置。
数据表明,今天的中国,是一个人口大国、互联网大国、手机大国,但却恰恰还不是一个数据大国。2011年,麦肯锡公司以2010年度各国新增的存储器为基准,对全世界大数据的分布作了一个研究和统计,中国2010年新增的数据量约为250拍,不及日本的400拍、欧洲的2000拍,和美国的3500拍相比,更是连十分之一都不到。
和美国相比,中国拥有数据量的绝对值较小,这在情理当中。本书第三章曾谈到,美国的联邦政府,是一个数据帝国,它的数据主要有三个来源,一是业务管理的数据,二是民意社情的数据,三是物理环境的数据。这三种数据的积累,并不是一蹴而就的,在其漫长的发展过程中,有其重要的里程碑,例如1940年罗斯福引进的民意调查、1962年启动的海浪监测计划和1973年诞生的最小数据集。
而中国类似进步的取得,都是进入21世纪之后才发生的事情。2003年,中国开始着手制定医疗系统的最小数据集,3年之后,中国卫生部出台了第一版中国医院最小数据集的标准。也是在2003年,中国创立了第一个全国性的大型社会调查项目,开始对社会的发展和变迁进行全方位、综合性、纵贯性的问卷访谈调查。这个调查叫做“中国综合社会调查”,是由中国人民大学发起的,中国人民大学随后还按照国际标准成立了“中国社会调查开放数据库”,向全社会开放调查的结果和数据。2006年9月,在几经周折之后,国家统计局正式成立了社情民意调查中心,这是中央政府第一个、也是目前唯一一个专司社情民意调查的单位;至于对物理环境数据的采集,更是2010年前后才见到若干零星的报道。
因此,从历史发展的角度来看,中国拥有的数据量较小,可以理解;但另一方面,立足现实,中国的人口、互联网的用户、手机的持有量都位居全世界第一,2010年全年新增的数据量却尚不及美国的十分之一,也大大出人意料。
2011年,中国拥有4.8亿的互联网用户,几乎是美国的两倍;拥有近9亿部手机,是美国的3倍。互联网和手机,都是产生数据的重要来源。在中国,存储器的价格也已经和国际接轨、相对便宜。在认真考察了这些因素之后,就不难发现,中国缺乏的不是可供收集的数据,也不是收集数据的手段,而是收集数据的意识。
中国人数据意识的淡薄,由来已久,甚至可以称之为国民性的一部分。
19世纪中叶,中国的大门被西方的坚船利炮打开。由于科学落后、文化封闭,此后的百多年来,中国人饱受屈辱。在落后、挨打的痛苦挣扎中,中国人开始慢慢睁眼看世界,反省自己与西方的差距,在这个过程当中,也有思想先贤对国民“数据意识”方面的问题进行反省、批判和鞭笞。
中国近现代著名的思想家胡适就对中国人“凡事差不多、凡事只讲大致如此”的习惯和作风深感忧虑。1919年,他写下著名的《差不多先生传》,活灵活现地白描了中国人取道中庸、不肯认真、甘于糊涂、拒绝精准的庸碌形象:你知道中国最有名的人是谁?
提起此人,人人皆晓,处处闻名。他姓差,名不多,是各省各县各村人氏。你一定见过他,一定听过别人谈起他。差不多先生的名字天天挂在大家的口头,因为他是中国全国人的代表。
差不多先生的相貌和你和我都差不多。他有一双眼睛,但看的不很清楚;有两只耳朵,但听的不很分明;有鼻子和嘴,但他对于气味和口味都不很讲究。他的脑子也不小,但他的记性却不很精明,他的思想也不很细密。
他常常说:“凡事只要差不多,就好了。何必太精明呢?”
……
后来他在一个钱铺里做伙计;他也会写,也会算,只是总不会精细。十字常常写成千字,千字常常写成十字。掌柜的生气了,常常骂他。他只是笑嘻嘻地赔小心道:“千字比十字只多一小撇,不是差不多吗?”
有一天,他为了一件要紧的事,要搭火车到上海去。他从从容容地走到火车站,迟了两分钟,火车已开走了。他白瞪着眼,望着远远的火车上的煤烟,摇摇头道:“只好明天再走了,今天走同明天走,也还差不多。可是火车公司未免太认真了。八点三十分开,同八点三十二分开,不是差不多吗?”他一面说,一面慢慢地走回家,心里总不明白为什么火车不肯等他两分钟。
……
他死后,大家都很称赞差不多先生样样事情看得破,想得通;大家都说他一生不肯认真,不肯算账,不肯计较,真是一位有德行的人。于是大家给他取个死后的法号,叫他做圆通大师。
他的名誉越传越远,越久越大。无数无数的人都学他的榜样。于是人人都成了一个差不多先生。——然而中国从此就成为一个懒人国了。
黄仁宇,是著名的华人历史学家,他参加过抗日战争,后来在美国学习、研究、深造,成为学贯中西的一代大家。他在晚年时发表了一系列的著作探讨中西方社会的异同。他认为:
“资本主义社会,是一种现代化的社会,它能够将整个的社会以数目字管理(Mathematically Management)。”
数目字管理,即以事实为基础、以数据为核心的精确管理。
黄仁宇总结说:“中国过去百多年来的动乱,并不是所谓道德不良,人心不古,也不是全部军人专横,政客捣乱,人民流离”,而是因为中国未能像西方那样实行“数目字管理”的现代治国手段。他还认为:“一旦某个国家能在数目字上管理,到底使用何种数字,尚可以随时商酌,大体上以技术上的要求作主,不必笼统的以意识形态为依归了。”
一句话:中国的落后,根源之一正是缺乏以数据为基础的精确管理;而未来中国的进步,也有赖于建立这种精确的管理体系。
除了中国人自己思想家的反省和批评,西方世界对我们中国人漠视数据的特点也洞若观火。
阿瑟•史密斯(Arthur Smith)是一位美国的传教士,他于1872年来到中国,在中国的普通社区生活了54年,随后著书立说,成为名动一时的中国文化研究专家。1894年,史密斯出版了《中国人的性格》一书,该书在中国社会、国际社区都产生过很大的影响,一度被公认为研究中国人最权威、最详尽的著作之一,被翻译成很多个国家的文字。
史密斯认为,中国人,是一个“漠视精确、思维含混”的民族,他在书中写道:
“中国人完全能够像其他民族一样学会对一切事物都非常精确——甚至更加精确,因为他们有无限的耐心——但我们必须指出的是,他们目前还不重视精确,他们还不知道精确是什么。如果这一看法是正确的,那么就可以有两条推论:其一,在我们考查中国历史档案时,必须考虑到中国人漠视精确这一特性。我们采用中国人所提供的数字和数量很容易使我们自己受骗,因为他们从来就不想精确。其二,对于中国人所提供的冠以‘统计数字’以抬高其权威性的各种材料,必须留有很大的余地。”(《中国人的性格•漠视精确》)
作为一名留学生,长期在美国学习、工作和生活,我也深感到,和美国人相比,中国人确实缺乏“用数据来说话”的素养。中国的语言表达方式中“重定性、轻定量”的特点非常明显,口语中经常使用“大概”、“差不多”、“少许”、“若干”、“一些”等等高度模糊的词语。我身边的一位攻读博士学位的朋友,曾经给一位美国教授提供过一份中国菜的烹调方法,但其中关于“盐少许”、“酒若干”、“醋一勺”的提法,令这位美国教授抓耳挠腮、不知所措。我事后自问,也确实感到这种提法,完全是跟着感觉走,让人无从下手。此外,和美国数据资源的丰富、开放相比,不少中国留学生对于国内的数据匮乏有切肤之痛。写论文、做研究,如果能选一个自己熟悉的中国话题,于国于己,都更有意义。可选的话题不少,但常常因为一数难求,多数选题都逃不出夭折的命运!有些数据国内确实没有,有待收集;还有些数据水分太大,经不起推敲和检验;再有的,被有关部门贴上了“机密”的标签,平民百姓无缘相见。
黄仁宇还对中国人缺乏“数据精神”的根源做了剖析,他认为:在中国传统的学问——理学或道学当中,一直都分不清伦理之“理”与物理之“理”的区别。这两个“理”混沌不分的结果,是中国人倾向于粗略的主观定性、排斥精确的客观定量,从而养成了重形象、重概括、轻逻辑、轻数据的文化习惯。这种文化习惯,使中国人长期沉浸在含蓄、模糊的审美意识当中,凡事只能在美术化的角度来印证,满足于基于相似的“模糊联想”,止步于用逻辑来分析、用数据来证明,最终将表象上的相似,当做本质上的相同。
但欧洲在中世纪之后,就将“伦理之理”与“物理之理”这两个“理”划分得很清楚了。
黄仁宇的看法,并不是一家之言。现代著名思想家汉娜•阿伦特(Hannah Arendt)也曾经对比过中国人和西方人在思维方法上的不同。她的结论是:西方人是“词语思维”,中国人则是“形象思维”,而形象思维不是一种基于逻辑的推理性思维。
归根到底,中国人对数据的漠视,缘于一种文化上的缺欠:随意、盲目、不求甚解、理性不足。
因为这种文化上的不足,科学最终在西方国家起源,当然不足为奇,中国人100多年来只能跟在别人身后亦步亦趋,也是应得的命运。
除了数据的收集和使用,中国在大数据时代需要面对的挑战,还有数据的开放。
如果说收集数据是一种意识,使用数据是一种文化、一种习惯,那是否开放数据则是一种态度。
正如本书前文所描述的,互联网上的数据开放,其开放的对象不仅仅是一个国家的人民,而是全世界的人民。这种开放,是无法阻挡的。中国人,只要愿意,就可以登陆其他国家的开放网站,下载他们的公共数据,分析他们的财政开支细目,考察他们的房屋交易价格,甚至参与他们对公共事务、社会事务的批评和监督。即使作为外国人,在这个全球化的时代,中国人也可以感受到数据开放给全人类带来的种种便利和实惠。而这些便利和实惠,正在成为信息时代世界各国一项基本的公民权利。
由于互联网的发明,“开放”已经成为人类社会一个不可逆转、不断加速的社会思潮。如雨果所说:你可以阻挡一支入侵的军队,但你无法阻挡一种思想。在这个浩浩荡荡、不断前进的世界大潮当中,我们将发现,中国如果不跟上,我们的处境将会越来越微妙、越来越尴尬、越来越孤立。
收集数据、使用数据、开放数据,都是大数据时代我们中国人需要一一面对的挑战。
这三大挑战,没有一个不是任重道远。但这些挑战,也是我们在大数据时代彻底摘掉“差不多先生”文化标签的重大历史机遇。如果在这个数据意义凸显的时代,我们还抓不住这些历史机遇,继续漠视数据、拒绝精准、故步自封,等待我们的,还将是一个落后的100年。
大数据就是“老大哥”:中央数据银行之争
“我们有很多小的、独立的信息记录系统。这些系统,就单个而言,它们可能无关痛痒,甚至是很有用的、完全合理的。但一旦把它们通过自动化的技术整合连接起来,它们就会渐渐蚕食我们的个人自由。这才是真正的危险。”
——美国隐私研究委员会,1977年
1965年,人类的计算模式还仅仅处在第一个阶段——主机时代,这种危险和担心就开始初现端倪。
那个时候,现在白宫的行政管理预算局(OMB)还叫预算局。
预算局提出了一个简单、大胆、在当时堪称革命性的创新计划。
该局建议,联邦政府应该成立一个统一的“数据中心”,把政府部门所有的数据库连接、集中、整合起来,建立一个大型的数据库。预算局相信,这不仅能节约硬件成本,还能提高数据管理、查询和统计的效率;此外,通过部门之间的数据对接和整合,还可以提高数据的准确性和一致性,减少数据的错误。
预算局甚至为这个计划提出了具体的实施方案:人口普查局、劳工统计局、税务局以及社保局等4个数据密集型部门先行一步,首先将数据库连接起来,其他各个部门的数据库逐步纳入,最终的目标是,以公民为单位,为全国每一个人建立一个数据档案,这个档案将包括每一个人教育、医疗、福利、犯罪和纳税等等一切从摇篮到坟墓的数据记录。
预算局将这个大型数据库称为“中央数据银行”。
普林斯顿大学的高等研究院(IAS)是全世界最顶尖的研究机构之一,它的特点,是可以不屈从任何行政的任务和资金的压力,自主开展纯粹的科学研究。时任该研究院主任的是凯森教授(Carl Kaysen),他盛赞这是一个划时代的计划。凯森发表了专门的可行性报告,指出统一管理不仅能节省运营成本、提高数据的准确性和查询的效率,还将更好地保障数据安全。
听起来有百利而无一弊,中央数据银行的计划得到了行政圈、学术界的一致响应。
经过一年的论证,1966年,联邦政府正式向国会提交了“中央数据银行”的方案,请求拨款、开工,开创新的数据管理篇章。
新闻界也开始报道联邦政府的这个创举。
但没想到,新闻界的报道引起了强烈的社会反弹。这种反弹,最后导致了这个计划的流产。
1967年1月,《纽约时报》发表了著名记者、隐私权专家帕卡德(Vance Packard)的文章《不能告诉计算机》,他写道:
“当政府把我们每一个人的信息和日常生活的细节都装进一个中央级的数据银行,我们将受控于坐在电脑机器前面的那个人和他的按钮。这令人不安,这是一种危险。”
美国公民自由联盟(ACLU)是一个成立于1920年、位于纽约的公益组织,它的目标是利用法律的手段维护公民的权利,隐私权正是ACLU关心的重点。对于中央数据银行的计划,ACLU强烈反对,并发表了一系列的声明和调查。
哈佛大学也对这个计划开展了专门的民调,其调查的结果表明,56%的美国人担心自己的隐私会受到侵害,明确反对这个计划。
一时间,曾经赢得了各方赞誉的数据银行计划在国会的讨论中陷入了泥沼。
此后,美国国会对此召开了一系列的听证会。1968年,众议院隐私委员会发布了一份报告,作出结论说,该计划无法保证公民的隐私不会受到侵害,不予批准。
但这只是一个中断,甚至仅仅只是一个开始。此后的几十年,随着数据库越来越多,类似于“中央数据银行”的计划不断改头换面,在国会发起冲刺。美国各界对其的讨论也从来没有间断过,并形成了泾渭分明的两派。
支持的一派以经济学家和技术专家为主,这个阵营认为,现代经济依赖于大规模的数据整合和交换,统一集成的中央数据库,将提高经济效率,方便大众的生活,是现代社会发展的必然,是社会进步的不二选择。
反对方自然是隐私至上的信奉者。他们认为,在信息时代,无论是个人的日常消费等琐碎小事,还是事关健康、教育的重大决策,都会在各种各样的信息系统当中留下“数据脚印”。这些“数据脚印”,保存在不同的系统中,可能无伤大雅。但如果建立起中央数据银行,通过数据整合和信息加总,就可以再现一个人生活的轨迹和全景,各个系统之间的数据可以彼此印证、互相解释,个人隐私就无所遁形。
隐私学学者认为,这种信息加总和数据整合,无异于一种监控,准确地说,是一种“数据监控”(Dataveillance),其对个人隐私权的侵害,无异于《一九八四》中的电幕。进入大数据时代之后,甚至有专家提出:大数据就是老大哥!(Big Data is Big Brother)
百年纠结:统一身份证
“我们的立场是:现在或者可预见的将来,在美国都不应该建立统一的身份证。就严格的定义来说,社会安全号不能算是身份证,它最多只能算一个近似的身份标识。”
——联邦政府卫生、教育和福利部部长咨询委员会的报告《数据记录、计算机和公民权利》,1973年
近几十年以来,美国也对统一身份证这个问题做过很多次民意调查,但除了珍珠港事件之后的昙花一现,每次都是反对意见占了绝对上风。1942年,民意调查的创始人乔治•盖洛普曾经在《纽约时报》上对统一身份证这个问题做过一个很好的总结。他认为,统一身份证是管理社会、控制公民的一种手段,在美国,这种手段被视为是警察国家的做法,是集权社会的象征,是违反美国精神的。当然,盖洛普也承认,统一身份证有利于警察打击犯罪、加强国家的安全,特别是在应对恐怖袭击、自然灾害等等突发事件当中,统一身份证将大大方便政府对社会的管理和控制。
统一身份证也多次成为总统大选的辩论话题。前文提到的纽约市的市长朱利安尼,曾经是2008年大选期间知名度最高的候选人,他表态支持全国统一身份证,随后遭到了其他多位候选人的攻击,这些候选人认为:没有任何理由去牺牲公民实实在在的自由以换取“可能会好一点”的国家安全。
总统的雄心:公共财政支出透明
“联邦政府掌握和维护的信息是整个国家的资产和财富。”
——奥巴马,2009年1月21日
“如果我们坐等他人,那改变就不会到来。我们自己——就是我们一直在等的人,我们自己——就是我们所要寻求的改变。”
——奥巴马,竞选总统时的演讲,2008年2月5日
正是在陶伯拉发布第一个数据开放网站TrackGov.us的同年,2004年11月,奥巴马赢得了联邦参议员的选举。
次年1月,他踌躇满志,从芝加哥飞往了华盛顿。
有理由相信,初起乍兴的数据开放运动,也进入了他的视野。
因为,作为联邦参议员,奥巴马就任之后成功推出的第一份法案,就是一份有关数据开放的法案。
美国国会参议员的任期,是6年一届。奥巴马在参议员的位置上,只干了3年多。根据TrackGov.us网站上发布的数据,在他短暂的参议员生涯当中,奥巴马作为第一发起人提出过137个法案,但最终成为法律的,却仅仅只有2个。奥巴马还作为合署人和其他议员共同发起过600多个法案,最后通过的也屈指可数。
奥巴马成功交出的第一份答卷,是2006年4月作为主要合署人和共和党参议员科伯恩(Tom Coburn)联合推出的《联邦资金责任透明法案》(FFATA),这个法案后来产生了广泛的影响,也被称为《科伯恩—奥巴马法案》。
这个法案要求联邦政府向全社会开放所有公共财政支出的原始数据,这些数据,包括政府和私营机构的购买合同、公共项目的投资、直接支付以及贷款等等明细。其基本理念和TrackGov.us是一样的:建立一个完整的、专业的公共支出数据开放网站,以统一的格式提供可以下载的数据,以供公众查询使用。
奥巴马是民主党员,科伯恩属共和党,作为一个跨党提案,该法案在参众两院都高票通过,2006年9月,经小布什签署后,成为法律。2007年,根据该法的规定,网站USAspending.gov上线发布,成为美国联邦政府发布公共支出信息的门户网站。
USAspending.gov是个巨大的数据开放网站,可以对联邦政府2000年以来高达3万亿的政府资金使用情况以及30多万个政府合同商所承包的项目进行跟踪、搜索、排序、分析和对比,其数据每两周更新一次。网站上线之后,受到了社会各界的极大好评,获得了“政府搜索引擎”(Google for Government)的美誉。
当然,这个法案的产生和通过,并不仅仅是奥巴马和科伯恩两人力推的结果。
公共支出数据的开放,真正的先行者,还是美国民间的普通公民。
USAspending.gov网站建立的背后,更有一段国会、政府和公益组织3方携手合作的佳话。
上文说到,开放数据的运动兴起之后,首先直指公共数据。有一批社会活动家和公益组织,多次召开民间会议,发起游说活动,督促政府开放公共数据,政府财政支出的数据正是其中的焦点。
“OMB监督”(OMB Watch)就是这其中最执著、强力的行动者之一。这是一个位于华盛顿的公益组织,由加里•巴斯(Gary Bass)于1983年创办。“OMB监督”以监督政府的预算、税收和工作绩效为己任。它的直接监督对象是总统行政办公室下属的行政管理预算局,该局简称为OMB,这也是该组织之所以命名为“OMB监督”的原因。
美国的联邦政府其实很早就开始公开发布公共支出的信息,但这种发布是零散的、不系统的,其发布形式可能是新闻发言、文字简报,也可能是电子数据,很不统一。2005年,巴斯意识到,如果能将联邦政府全部的开支数据统一发布在同一个网站,全社会就可以更好地查询、研究和监督联邦政府的开支和预算。
巴斯后来为这个项目发起了专门的社会募款活动。通过筹款集资、整理数据、开发网站、接洽政府等一系列的工作,2006年,“OMB监督”(OMB为美国总统行政办公室下属的行政管理预算局)推出了美国首个公共支出的数据开放网站:Fedspending.org。
Fedspending.org能够逐条跟踪、记录、分析、加总OMB发布的每一笔财政支出。它推出之后,受到了全国舆论的好评,《洛杉矶时报》盛赞其为“财政透明的起点”。
正是受到这个网站的直接启发和帮助,科伯恩、奥巴马发起了《联邦资金责任透明法案》,奥巴马本人,也在这个法案的草拟和推行过程中,和“OMB监督”建立了合作关系。
《联邦资金责任透明法案》通过之后,根据它的规定,行政管理预算局也必须建立一个和Fedspending.org类似的网站,向全社会统一开放联邦政府所有的公共支出数据。


你可能感兴趣的:(大数据)