南海数据统筹局 《大数据》作者怎么看?

      当互联网深深嵌入我们的生活,当我们应对的是日益精细和复杂的社会,人们越来越希望找到更强有力的工具,去分析和应对互联网时代加速到来的一切。而海量的数据,让人们有了这种分析和改进的可能。


  自2012年涂子沛的《大数据》登陆国内市场,“大数据”兴起,风靡国内。继《大数据》之后,身在美国硅谷的涂子沛在今年又出版了《数据之巅》。


  6月19日,涂子沛接受南方日报记者越洋电话采访。针对南海数据统筹局的设立,他强烈建议广东省以及各级大数据管理局,应该设立首席数据信息官,推进跨部门数据的分析。他甚至具体建议,这个首席数据信息官可由副秘书长来担任。“未来的决策,一定是数据推动的决策。无数据,不决策”。


  以“最小数据集”为基础,清理“数据烟囱”


  “数据烟囱”是说各条块数据四处林立、到处冒烟,是缺乏统筹的、凌乱的。因此,需要数据统筹、顶层设计。建立最小数据集,就建立了标准化模块,有利于各类数据统一起来。


  南方日报:我们在采访中了解到,目前南海区的数据,在政府层面上,其条块系统很清晰,从区一直延伸到村居。但据工作人员透露,存在所谓的“数据烟囱”的问题,数据量庞大,但是杂乱。请问,如何进行这种“数据烟囱”的清理?


  涂子沛:“数据烟囱”这个说法非常形象,就是说四处林立、到处冒烟,是缺乏统筹的、凌乱的。因此,需要统筹、规划、从上至下治理。我的新书《数据之巅》的“巅”字也有这个意思,就是从上往下看,大数据统筹,需要顶层设计、需要从上至下规范。


  如何清理,这就涉及到最小数据集的概念。政府数据治理委员会为各业务流程制定一个最小数据集,各单位可在最小数据集上增添新的元素。因为最小数据集是核心的、统一的,所以这些数据能够统一起来。打个比方,这些数据是可以像糖葫芦一样串起来的,需要一根线把这些数据、数据库串起来,这根线就是这个最小数据集。


  最小数据集如何制定?需要数据治理委员会从上至下统筹、规范业务流程、确定标准,来制定出来的。我认为,数据增值的关键在于整合,但数据有效整合的前提是数据标准的统一,这就需要在各行各业建立统一的元数据定义,这个任务,是中国和世界其他国家都在面临的挑战。作为政府的数据治理机构,大数据管理局以及类似的部门就应该积极领导,推动全社会的数据标准制定工作。


  鼓励下硬指标,从统筹核心数据开始


  破解数据的行政壁垒,可鼓励下硬指标,每年每个单位要贡献多少组数据,从一些核心的数据开始,逐步推动。为了避免行政长官更迭带来的对大数据统筹的影响,应该进行制度的建设。


  南方日报:目前政府数据整合面临的一个巨大阻力,是政府部门之间的行政壁垒。一些部门出于各种考虑,并不愿意将手中的数据拿出来共享,你认为应该如何解决此类问题?


  涂子沛:首先是需要从上至下,由行政推动力来推动,需要行政长官有这样的眼光。因为数据统筹涉及到业务流程的改造,只有主要业务流程改造,才能有效将各部门的数据打通,这离不开行政力的推动。所以,我建议,数据治理委员会(或相应的数据统筹部门)的首脑应该由地方上的一把手来担任。


  其次,逐步推动行政壁垒,鼓励下硬指标,每年每个单位要贡献多少组数据,从一些核心的数据开始,逐步推动。这需要领导有足够长远的眼光。再次,行政力才是推动这个事情最重要的力量,行政壁垒肯定是要靠行政力来破除。最后,这个不是一时一事的项目,而是一个长远的工作,为了避免行政长官更迭带来的对大数据统筹的影响,应该进行制度的建设,让大数据统筹工作可以长期有效地运行。


  数据越开放,市场之手就越有力


  数据开放和数据公开是两个不一样的概念。对大部分公共数据而言,其开放应该是面向全社会的免费开放。数据、信息越开放的地方,市场之手就越有力。


  南方日报:政府数据整合,还涉及到信息公开的问题。南海区的工作人员在推进南海数据统筹局建立的过程中发现,一些数据涉及到不同部门、不同层级的授权,到底哪些应该公开、哪些信息不应该公开,有许多规定,但这些规定零碎而分散。为了应对大数据的发展信息,我们的信息公开的相关法律和条例是否应该进行修订和梳理,以建立一个通用的标准?


  涂子沛:这是一个需要不断完善的过程。国内的信息公开的相关法律,或许也可以根据我们社会管理和经济发展的需要进行修订,适应时代的变化。在数据开放这方面,最近两个月,国内不少城市都有新动作,比如上海要成立大数据管理局,北京大数据管理部门也宣布向社会开放源数据。南海乃至广东,也应该加快这方面的步伐。


  另外,我想强调一下,数据开放和数据公开是两个不一样的概念。数据开放是指将原始数据以及其他相关元数据以电子格式放在互联网上,供其他方自由下载、使用。其本质上是开放数据的所有权,允许他方拥有原始数据。


  数据公开是信息层面的,是一条一条的,数据开放是数据库层面的,是一片一片的,因此数据公开并不等于数据开放。要准确理解开放,还要注意:开放并不一定代表免费,企业的数据可以收费的形式开放,开放也是有层次的,可以对某个群体、某个组织开放,也可以对整个社会开放。对大部分公共数据而言,其开放应该是面向全社会的免费开放。


  南方日报:但这个数据开放可能涉及到一些伦理的问题,比如一些个人的隐私还是可能会受到侵犯。


  涂子沛:可以先从人口普查、地理、天气等基础的数据开放做起,这种数据没有太多的敏感性,可以先行开放。还有民生方面的数据,如交通的,为什么不能开放呢?数据开放绝对是有益于整个社会大数据事业的发展。数据、信息越开放的地方,市场之手就越有力,因为数据公开透明之后,市场自己是会进行调节的。数据、信息越不开放,各种人为的干预就越高。


  支持发展开源社区,引导全社会创新


  南海的数据统筹局可借此大力推动社会用数据创新。比如,支持大数据开源社区、数据科学家协会等民间组织的发展等等。还可以开放的数据为基础,举办应用程序开发大赛,向全社会征询数据使用、创新的意见。


  南方日报:北京的政府数据网,偏向于以民生服务为主,而南海则想建成电子地图库、企业库、人口库、政务库、市政库等,以此实现政务数据大融合。你认为南海的路径应当如何推进?


  涂子沛:美国联邦政府有一个大数据项目LEHD(工作单位和家庭住址的纵向动态系统)。这个项目因为911事件而得到极大的推动,通过这个项目,可以了解到人口、就业等数据,并可提供以时间为跨度的纵向分析。这个项目给我们的启示是,政府用好数据、开放数据,可以服务于经济发展,推动社会创新。


  2010年,美国总统科技顾问委员会在写给奥巴马的报告中就说:美国政府的每一个部门,都需要制定一个大数据战略。政府大数据从哪里来呢?以国家的人口普查数据为基础,对多种来源的数据进行整合,比如各级部门、机关保存的行政记录,各种以抽样技术开展的民意调查数据、社情研究数据,此外,还有在互联网上广泛存在的各种数据。


  南海的数据统筹局可借此大力推动社会用数据创新,这将是当下推动知识经济和网络经济发展的关键。具体做法包括,可以政府为主导建立大数据产业园,对和大数据相关的企业提供办公场所等便利条件或者现金支持。


  不过,更有效的方式是调动全社会的力量,比如,支持大数据开源社区、数据科学家协会等民间组织的发展等等。还可以开放的数据为基础,举办应用程序开发大赛,向全社会征询数据使用、创新的意见。


  借助“人工合成数据”,维护企业和个人隐私


  借助“人工合成数据”的方法,总体统计特征是对的,但一些个人和商业隐私的东西,比如平均工资、年龄、住哪里等,可以通过人工合成数据,把这些个人隐私的信息屏蔽了。


  南方日报:南海数据统筹局还想建立企业的数据库,但这些数据如何获取,企业方面是否愿意。另外,这可能会涉及到企业的商业机密。关于隐私维护和开放数据,你有何建议?


  涂子沛:首先,企业数据是可以获得的。企业需要提交很多数据,比如注册信息、劳工信息、纳税信息等,关键是政府能否整合起来。


  关于大数据会否透露个人和商业的隐私问题,前述的LEHD系统在运用的时候,也碰到过这样的争议。如果一个街区只有一两个人居住,或只有一两家公司,那么他们是谁、姓名、工资等会很快被人肉出来。


  美国人口普查局对此采取的办法是,对个别的小街区进行限制。同时,还采用了新的数据技术,即“人工合成数据”。其合成方法是,在掌握了全体数据的统计特征的基础上,利用人为手段,产生一些统计特征和原始数据一样的人工数据,但在个体信息层面,其敏感的数据字段都被虚拟的数值取代了,个体信息因此不会泄露。


  也就是说,借助“人工合成数据”的方法,总体统计特征是对的,但一些个人和商业隐私的东西,比如平均工资、年龄、住哪里等,可以通过人工合成数据,把这些个人隐私的信息屏蔽了,是用虚拟的值代替真实的数值,但总体而言,那个数据特征还是真实的。


  “人工合成数据”是一个非常重要的维护隐私的手段,建议国内想推动大数据的各级政府部门,都对此进行关注。另外,我们收集企业的数据,首先是服务企业,然后是服务社会。开放是有层次的,有范围的。通过云技术,可以做到对谁收费开放,对谁免费开放。


  设立首席数据信息官由副秘书长担任


  在大数据管理方面,本来广东走在前面,但现在别的地方抢了先机。强烈建议广东省以及各级大数据管理局,应该设立首席数据信息官,这个信息官可以由副秘书长来担任。


  南方日报:对南海今后运营数据统筹局,你还有什么建议?


  涂子沛:在大数据管理方面,本来广东走在前面,但现在别的地方抢了先机。北京、上海都有数据管理局,武汉也出台大数据的规划。


  我强烈建议,广东省以及各级大数据管理局,应该设立首席数据信息官,推进跨部门数据的分析,为省、市、区各级的政府、行政首长提供决策支持。


  我甚至建议,这个首席数据信息官,由副秘书长来担任。未来的决策,一定是数据推动的决策,做到“无数据,不决策”。


  涂子沛和他的


  《大数据》《数据之巅》


  涂子沛,江西吉安人,现居美国硅谷。2012年其著作《大数据》在中国社会开大数据之先河,引发了大数据战略、数据治国和开放数据的讨论,历史学家许倬云先生盛赞其“为华文世界开创了一个重要话题”。


  《数据之巅》为作者第二本著作。全书从美国建国之基讲起,通过阐述初数时代、内战时代、镀金时代、进步时代、抽样时代、大数据时代的特征,系统梳理了美国数据文化的形成,阐述了其数据治国之道,论述了中国数据文化的薄弱之处,展望了未来数据世界的远景。


  作者本科毕业于华中科技大学计算机系,研究生毕业于中山大学和卡内基梅隆大学,获公共管理硕士和信息科学硕士学位。

你可能感兴趣的:(南海数据统筹局 《大数据》作者怎么看?)