【大数据100分】CESI吴东亚:大数据标准及应用〖大数据高级教程〗
主讲嘉宾:吴东亚
主持人:中关村大数据产业联盟 副秘书长陈新河
承办:中关村大数据产业联盟
吴东亚,中国电子技术标准化研究院信息技术研究中心标准总监。1972年生,籍贯黑龙江。1992年毕业于东南大学自动控制系毕业,1992-2001年,在中国空间技术研究院硕士学习、工作,参加“神舟一号”飞船地面测试系统研制工作,积累了一线科研和工程经验。2001-2004年,北京理工大学博士学习。2004至今,中国电子技术标准化研究院工作,期间到欧洲标准化机构留学。涉足电子信息技术领域国家/行业标准化、检测、认证、注册等各项工作,组织研制了数据管理、信息化、网络等领域多项国家/行业标准研制工作,推动我国自主研制的闪联(IGRS)、元模型互操作、物联网标识等技术成为国际标准。作为主笔专家,参与《新一代信息技术标准化指导意见》、《战略性新兴产业标准化规划》和《软件信息技术服务业“十二五”技术标准体系建设方案》等文件起草。现负责信息技术领域国内、国际标准化工作。
以下为分享实景全文:
中国电子技术标准化研究院系统地开展大数据标准化研究,大概有一年多的时间了,很高兴在这里和大家分享我们的一些想法。
首先我们看一下大家现在在大数据方面都在做什么
从国际上看,大数据方面的工作主要集中在以下4个方面:一是政府层面,主要是提供政策导向,推动政府数据、科学数据开放,为大数据发展提供政策支持和可信数据来源;二是研究机构利用政府资金,开展科学数据、论文等开放数据集建设,并开展数据集间互操作方面的研究;三是Google等公司研制了分布式数据处理平台等产品,为大数据发展提供技术和产品支撑;四是标准化方面,目前最为实质性的是ISO/IEC JTC1成立了大数据研究组,由美国NIST牵头,NIST系统地开展了大数据架构、数据、安全需求等方面的研究,研究成果将贡献至JTC1。
从国内情况来看,多个地方政府提出大力发展大数据的政策导向,在北京市率先开放了政府数据资源;中国科学院计算机网络信息中心研发了科学数据库等开放数据集;阿里利用拥有的大量商业数据为基础,进行统计、分析和挖掘,对外提供数据服务;人民大学等研究院所和百度、阿里等公司正在开展大数据处理技术和平台研制工作;在标准化方面,全国信息技术标准化技术委员在充分调研基础上,提出了技术体系参考模型和标准体系框架,提出了术语、体系结构、数据表示、非结构化数据、数据质量、科学数据集等方面标准,其中多项标准已经立项。
从国际标准化角度上来看,最早开展工作的是ISO/IECJTC1/SC32(ISO/IEC 第一联合标准化技术委员会 第32分技术委员会)。
ISO/IEC JTC1 SC32 (数据管理和交换)分技术委员会,是与大数据关系最为密切相关的标准化组织。
SC32下设4个工作组和几个研究组,
WG1:电子业务
工作范围为:研制为达到各组织使用的信息系统间全球互操作所需的开放电子数据交换方面的通用IT标准,包括商务和信息技术两方面的互操作标准。
WG2:元数据
工作范围为:研制开发和维护有利于规范和管理的元数据、元模型和本体的标准,此类标准有助于理解和共享数据、信息和过程,支持互操作性,电子商务以及基于模型和基于服务的开发,
WG3:数据库语言
工作范围为:为动态规定、维护和描述多用户环境中的数据库结构和组件制定和维护语言标准;
WG4:SQL多媒体和应用包
工作范围为:规定各种应用领域使用的抽象数据类型包的定义。
JTC1/SC32是一个长期开展数据管理标准化研究的组织,大家熟悉的SQL语言、元数据等等标准都是这个组织研制的。
目前SC32还存在下一代分析技术与大数据研究组( SG Next Generation Analytics and Big Data)、云计算元数据研究组(SG Metadata for Cloud Computing)和基于事实基础的建模元模型研究组(SG Metamodel for Fact Based Modelling)等专项研究组,2年前,SC32针对大数据、社交网络、云计算等新兴领域,开展了相关的相关研究工作。后来,他们发现这个已经超过了SC32的范围。
ISO/IEC JTC1于2013年11月全会上新成立负责大数据国际标准化的研究组(ISO/IEC JTC1 SG2)。美国国家标准与技术研究院(NIST)专家Wo Chang担任召集人。
2014年ISO/IEC JTC1 SG2的工作重点包括:调研国际标准化组织(ISO)、国际电工委员会(IEC)、第1联合技术委员会(ISO/IEC JTC1)等在大数据领域的关键技术、参考模型以及用例等标准基础;确定大数据领域应用需要的术语与定义;评估分析当前大数据标准的具体需求,提出ISO/IEC JTC1大数据标准优先顺序;向2014 年ISO/IEC JTC1全会提交大数据建议的技术报告和其他研究成果。
这也是国际标准化组织对于新兴领域进行规划的常用方法。针对一些新兴领域,他们往往首先开始标准化预研,界定范围,例如云计算、物联网等领域,都是先预研,然后系统地开展标准化工作的。
大数据研究组的成立,标志着JTC 1统筹开展大数据的标准化工作,有利于大数据国际、国内标准化工作的开展。截至到目前,ISO/IEC JTC1 SG2于2014年计划召开三次会议,每次四天,前两天为成果交流展示,后两天为具体标准工作讨论。第一次会议于2014年3月18日至21日在美国圣地亚哥超级计算中心召开;第二次会议于2014年5月13日至16日在荷兰阿姆斯特丹大学召开。第三次会议计划于2014年6月在中国召开。
6月份的会议,正巧在北京召开。SC32全会、JTC1/WG2开放论坛“大数据标准化”、SG2 大数据研究组会议,都集中在今年6月份在北京召开。国际上大佬将齐聚北京。
ITU在2013年11月发布了题目为《大数据:今天巨大,明天平常》的技术观察报告,这个技术观察报告分析了大数据相关的应用实例,指出大数据的基本特征、促进大数据发展的技术,在报告的最后部分分析了大数据面临的挑战和ITU-T可能开展的标准化工作。在这份报告中,特别提及了NIST和JTC1/SC32正在开展的工作。
从ITU-T的角度来看,大数据发展面临的最大挑战包括:数据保护、隐私和网络安全;法律和法规的完善。根据ITU-T现有的工作基础,开展的标准化工作包括:高吞吐量、低延迟、安全、灵活和规模化的网络基础设施;汇聚数据机制和匿名;网络数据分析;垂直行业平台的互操作;多媒体分析;开放数据标准。ITU-T正在开展的工作中,与大数据最为密切相关的是已经提出了一项题目为“基于大数据的云计算的需求和能力”的新工作项目,将由中国、韩国和波兰的专家为主研制。
ITU-T是专门研制电信标准的国际标准化组织,重点针对大数据环境下如何提高网络的支持能力角度做了标准化研究。
这里要特别提到NIST的工作。NIST,即美国国家标准和技术研究院。NIST建立了大数据公共工作组(NBD-PWG),工作范围是建立来自于产业界、学术界和政府的公共环境,共同形成达成共识的定义、术语、安全参考体系结构和技术路线图,提出数据分析技术应满足的互操作、可移植性、可用性和扩展性的需求和安全有效地支持的大数据应用的技术基础设,用于大数据相关方选择最佳的方案。
NBD-PWG是一个开放工作组,欢迎来自于产业界、学术界和政府的各方面力量参与并贡献力量。原则上,工作组每周召开一次会议。工作组下设术语和定义、用例和需求、安全和隐私、参考体系结构和技术路线图5个分组,目前正在研制《大数据定义》、《大数据术语》、《大数据需求》、《大数据安全和隐私需求》、《大数据参考体系结构》和《大数据技术路线图》等输出物,均已经形成了初步版本。
下面说国内的情况。
全国信息技术标准化技术委员会(SAC/TC28,简称信标委)持续开展数据标准化工作,在元数据、数据库、数据建模、数据交换与管理等领域推动相关标准的研制与应用,为提升跨行业领域数据管理能力提供标准化支持。
信标委中与大数据关系比较密切的组织包括:信标委非结构化数据管理标准工作组、信标委云计算工作组、信标委SOA分技术委员会(筹)、信标委传感器网络工作组等。此外大数据安全部分的标准与全国信息安全标准化技术委员会密切相关。
信标委成立于1983年,是在国家标准化管理委员会和工业和信息化部的共同领导下,从事全国信息技术领域标准化工作的技术组织,负责对ISO/IEC JTC1(信息技术第一联合技术委员会)国际归口工作。
信标委是是全国最大的标准化技术委员会,信标委的工作范围是信息技术领域的标准化,涉及信息采集、表示、处理、传输、交换、描述、管理、组织、存储、检索及其技术,系统与产品的设计、研制、管理、测试及相关工具的开发等的标准化工作。标准范围涵盖词汇、编码字符集和字型、数据通信、软件和系统工程、卡和身份识别、程序设计语言、图形图像表示、信息技术设备、多媒体、自动识别和数据采集技术、数据管理、文件描述与处理语言、用户接口、信息技术教育、生物特征识别、分布应用平台与服务、信息技术可持续发展等领域。信息技术领域的标准,几乎都是这个组织研制的。
信标委于2012年成立了非结构化数据管理标准工作组,对口ISO/IEC JTC1 SC32 WG4。非机构化数据管理标准工作组联合产、学、研、用等力量,致力于制定非结构化数据管理体系结构、数据模型、查询语言、数据挖掘、信息集成、信息提取、应用模式等相关国家标准和行业标准。目前正在开展《非结构化数据表示规范》、《非结构化数据访问接口规范》、《非结构化数据管理系统技术要求》等国家标准研制。
信标委的云计算标准工作组目前正在开展大数据存储和分析应用的研究工作,旨在研究大数据存储和分析技术的应用分析、技术框架和标准研究等。同时,正在组织编制《云数据存储和管理》系列国家标准,为推动大数据存储和分析标准研究奠定了基础。
全国信标委的SOA分技术委员会(筹)(以下简称“SOA分委会”)负责面向服务的体系结构(SOA)、Web服务和中间件的专业标准化的技术归口工作,并协助全国信息技术标准化技术委员会承担国际标准化组织相应分技术委员会的国内归口工作,现有成员108家。SOA分委会还同时负责推动软件构件、云计算技术、智慧城市领域的标准化工作。2013年7月5日,SOA分委会全会上决定在基础工作组内启动大数据预研项目,目前正在征集成员阶段;2013年7月22日开展了《大数据应用、技术、产业与标准化调研》,作为下一步大数据标准化研究的基础;此外,SOA分委会智慧城市应用工作组在推动智慧城市中大数据的应用和服务化的标准研究 。
全国信息安全标准化委员会(TC260)是在信息安全技术专业领域内,从事信息安全标准化工作的技术工作组织。 委员会负责组织开展国内信息安全有关的标准化技术工作,技术委员会主要工作范围包括:安全技术、安全机制、安全服务、安全管理、安全评估等领域的标准化技术工作。全国信安标委目前正开展大数据安全技术、产业和标准研究,为大数据的安全保障提供支撑。
前面说完现状,下面我们说说我们对于大数据目前阶段的理解。
从大数据与相关技术的关联关系上来看,互联网、物联网、云计算等技术的发展为大数据提供了基础,互联网、物联网提供了大量数据来源;云计算的分布式存储和计算能力提供了技术支撑;而大数据的核心是数据处理。其中传统的数据处理技术经过演进依然有效,新兴技术还在不断探索和发展中。
大家经常在说大数据和传统数据管理的关系,我们认为是个技术演进的过程,原来的一些技术还是适用的,需要根据新情况不断发展
从大数据商业模式上来看,大数据时代,不断涌现出围绕大数据、利用大数据的的新产品形态、新业务模式。其中,“数据租售”即通过出售原始的业务数据或者是经过初步处理分析的数据来获取直接的利益,以商品化的数据应用创造了新的商业模式。百度游戏通过搜集整理网络游戏用户的搜索需求和搜索热点,建立完备的用户行为数据库,提供给上游的游戏运营商创造数据服务的收入来源,成为在搜索引擎领域中将以数据支持服务变为主要盈利模式的成功案例。阿里巴巴正在研发的数据仓库,以阿里巴巴拥有的大量商业数据为基础,进行统计、分析和挖掘,形成规范的实体明细数据和指标数据,对外服务。其中, “魔方”是淘宝网成立的专门用于提供数据服务的机构,为商家提供行业分析数据,从中获取利益。此外,科学机构、政府机构提供的数据集也成为可信的重要数据来源。
大数据的发展目前急需解决三方面的问题:一是提供处理大数据能力的技术和平台;二是需要明确大数据生态环境中的各个角色的权利、义务,解决数据开放和共享过程中的产权保护、权限管理和隐私保护等问题;三是需要建立可管理维护、可信、易于互操作的数据资源集,这是大数据发展的初步成果,为大数据处理、应用和进一步发展提供基础,也是我国的重要信息资源。其中第一个问题是技术问题,后面两个问题既是技术问题,也是管理问题。
这是我们针对大数据的各个方面,比较认可的一个技术参考模型。
大数据技术参考模型表示了通用的、技术无关的大数据系统的逻辑功能模块以及模块之间的互操作接口(如:服务)。这些被称为“提供者”的模块代表了大数据生态系统中的功能角色,表明他们提供或实施大数据系统中特定技术的功能。
大数据技术参考模型基于代表大数据价值链的两个维度组成:信息流(垂直维)和IT集成(水平维)。在信息流维度上,价值通过数据采集、集成、分析、使用结果来实现。在IT维度上,价值通过为大数据应用的实施提供拥有或运行大数据的网络、基础设施、平台、应用工具以及其他IT服务来实现。大数据处理提供者模块是在两个维的交叉点上,表明大数据分析和其实施是为两个价值链上大数据利益相关者提供的特定价值。
五个主要的架构模块代表在每个大数据系统中存在的不同技术角色:数据提供者、数据消费者、大数据处理提供者、大数据框架提供者、系统协调者。另外两个架构模块是安全隐私和管理,代表能为大数据系统其他模块提供服务和功能的构件。这两个关键功能极其重要,因此也被集成在任何大数据解决方案中。
此架构可以用于多个大数据系统组成的复杂系统,这样其中一个系统的大数据使用者可以作为另外一个系统的大数据提供者。
我们对于现有标准进行分析,梳理出了标准体系。包括71项标准,44项急需研制的标准。
a)基础标准
为整个标准体系提供包括总则、术语和参考架构等基础性标准,为标准体系的研究建立基础。并为未来标准建设提供指导。
b)数据处理标准
数据处理类标准包含数据整理、数据分析和数据访问三种类型的标准。
数据整理标准主要是针对数据在采集汇聚后的初步处理方式、方法的标准,包括数据表示、数据注册和数据清理三类标准。数据分析标准主要针对大数据环境下数据分析的性能、功能等要求进行规范。数据可视化则是对数据产生的过程以及数据分析的结果进行标准化的可视化展现,主要是采用现有技术标准。而数据访问标准则是提供标准化的接口和共享方式,数据能够被广泛的应用。
c)数据安全标准
数据安全作为数据标准的支撑体系,贯穿于数据整个生命周期的各个阶段。抛开传统的网络安全和系统安全之外,针对在大数据时代下的数据安全标准化主要包括通用要求、隐私保护两类标准。
d)数据质量标准
该类标准主要针对数据质量提出具体的管理要求和相应的指标要求,确保数据在产生、存储、交换和使用等各个环节中的质量,为大数据应用打下良好的基础。并对数据全生命周期尽情规范化管理。主要包括元数据质量、质量评价和数据溯源三类标准。
e)产品和平台标准
该类标准主要针对大数据相关技术产品和应用平台进行规范。包括关系型数据库产品、非结构化数据管理产品、可视化工具、开放数据集、数据处理平台和数据服务平台六类标准。其中关系型数据库产品标准针对存储和处理大数据的关系型数据库管理系统进行标准化,涉及访问接口、技术要求、测试要求等内容,为关系型数据库管理系统进行大数据的高端事务处理和海量数据分析提供支持;非结构化数据管理产品标准针对存储和处理大数据的非结构化数据管理系统,从参考架构、数据表示、访问接口、技术要求、测试要求等方面进行规范;可视化工具是针对大数据处理应用过程中所需用到的可视化展现工具的技术和功能要求进行规范;数据处理平台标准是针对大数据处理的平台的技术架构、建设方案、平台接口等方面进行规范。
f)应用和服务标准
应用和服务类标准主要是针对大数据所能提供的应用和服务进行技术、功能、开发、维护和管理等方面进行规范。主要包括开放数据集和数据服务平台两类标准。其中开放数据集标准主要针对向第三方提供的开放数据包中内容、格式等要求进行规范;数据数据服务平台标准是针对大数据服务平台所提出的功能性、维护性和管理性的标准。
与以前的信息技术不同,大数据提出了“数据是一种产品”的概念。因此我们特别加上了应用和服务标准。我们首先没有特别关注行业应用数据标准,因为这个有很强的行业背景,不是目前能够做的。在这部分,我们建议集中在通用的数据集、数据服务平台两方面。还有详细的标准清单,我就不介绍了。
我们是上周专门召开了”大数据标准化白皮书“的会议,20多家单位、40多位专家参加了会议,提出了很多宝贵意见。我们会尽快完善后,和大家分享我们的阶段性成果。
通过对现有各类标准情况进行分析可以看出:
(1) 从技术标准上来看,大数据相关的技术标准具有一定的工作基础。在数据整理方面,我国已经研制的一些相关标准,同样适用于大数据环境,目前急需加强这类标准的推广应用;数据分析是大数据的特点和难点,标准较为缺乏;在数据访问方面,目前在研多项数据库、云数据存储和管理类标准,适用于大数据底层数据接口,但是尚缺乏数据导入、导出类标准;数据安全方面,部分现有标准适用,但是尚缺乏针对大数据的安全框架、隐私、访问控制类标准;数据质量是大数据应用和发展的基础,目前有多项在研标准,但是均尚未发布,较为缺乏;
(2) 针对大数据产品和平台,目前在研多项数据库、非结构化数据管理产品类标准,尚无针对大数据可视化工具、数据处理平台的标准;在大数据环境下,数据也成为产品,而针对开放数据集、数据服务平台等新兴产品和服务形态,尚缺乏相应的标准。
综上所述,针对大数据,我国在数据管理、云计算、信息安全等方面,已经发布和在研一些标准,适用于大数据环境,提供了一定的基础,但是缺乏标准化整体规划;数据分析、数据安全、数据质量管理等技术标准,数据处理平台、开放数据集、数据服务平台类新型产品和服务形态的标准较为缺乏,急需研制。
这是我们对于标准梳理的一些分析。不成熟,还需要完善。
互动内容:
Q1 Bright Star:@吴东亚:谢谢!请问IEEE和国内的CCSA有没有在做相应的工作?如果没有,为何?谢谢!
吴东亚:IEEE我们没有系统跟踪,所以说的不一定很全。IEEE比较活跃的大概有几块,网络,无线局域网啥的,教育,软件,这几块,其实和ISO/IEC都有很强的密切关系。很多IEEE在这些领域的标准直接采用为ISO/IEC的标准。但是,在ISO/IEC JTC1/SC32这个最为专业做数据标准化的组织中,IEEE并没有参与过。所以,我认为可能是IEEE在这方面可能集中在研究,并没有专门做相关标准。
吴东亚:CCSA的情况不是特别了解。从背景上来说,CCSA主要侧重于通信以及相关领域,以前直接做数据的并不多。ITU-T目前只是做了一份技术观察报告,因为ITU-T原来的组织设置上,并没有直接做数据管理标准的,可能有这个关系。毕竟标准化组织工作,是有连续性的。
张存勇:我认为,高层应用的模型、算法、工具很成熟的经典可当成标准,还会有层出不穷的新模型算法不知是否精准,不急着建标准吧。大数据的元数据采集标准应该是迫在眉睫的。
吴东亚:其实算法,基本上不会直接做标准。标准,不会依附于具体实现,国际国内都是这个情况。元数据,确实十分重要这也是我为什么谈技术是演进的原因。这个系列标准,都是ISO/IEC JTC1/SC32研制的,影响力很大很大。5年前,大家认为这些标准过于理想化,理论化,不知道元数据是什么,现在重要的是这些标准的应用层面。
吴东亚:当然,元数据采集或者应用是有很强的应用背景的。其实,所有做数据的系统,等等,都是依据ISO/IEC 11179系统标准。我们认为,中国首先可能做起来的是科学,企业,地方政府的等领域。部委级的,尤其是各部委之间能够达成共识的元数据,还需要时间,这是中国国情。
吴东亚:非结构化数据,要处理,第一步就是结构化,说白了,就去提取关键特征,提取元数据。
Q2张存勇:@吴东亚听说过标码系统标准吗?据说ITU在推,基于IPV6体系的,主要是IPV6地址和设备结合的唯一标识码系统,用于全球物联网统一标识。
张存勇:据说标码系统来源于Kindle图书分类标准。
张存勇:@吴东亚标识太重要了,接触过标码组织的专家,感觉好像很重要。
吴东亚:物联网标识有很多类,不同层面的,不能搅合在一起谈。IPv6不是直接解决物联网的,虽然需要用到。大数据发展,也需要解决统一标识的问题,大数据真正应用,也需要首先解决数据标识问题。国外已经在做。目前国外的一些联盟机构,已经对世界范围的各种信息资源(针对数字出版物的DOI、针对数字视听产品的ISAN)进行统一注册管理,并在世界范围内寻找代理机构,以实现对世界范围内信息资源的管理和控制。网络等基础设施安全也就这样了,如果数据层面,再被国际控制,就是全裸了。大数据更是这个样子,这个层面的标识,数据表示啊,啥的,可是要小心设计呢。关于标识方面,我们还是做了研究的,应该说,我们是这方面很专业的团队。数据的标识等,需要我们自己管理,这样才能安全地大规模应用。
张存勇:没错,我们也感觉,ID标识必须自己掌握,主标识不变,但里边的内容要更新,也就是动态标识体系,必须控制在自己人手里,涉及到将来的数字国防领域。
吴东亚:说到物联网统一标识,再说一下。我们、卫生部信息中心、农业信息中心、交通公路院、中兴等等20多家单位,合作提出的《OID在物联网中应用指南》的标准,今年1月份在ITU正式立项。这是中国提出的第一个物联网标识方面的国际标准立项,很不容易。
北京海泰方圆的柳晶:我们公司是做电子文件管理、大数据环境下非结构化内容管理的。初来报道,听了吴博士和大家的发言很受启发。我想提提个问题:目前国际国内对于数据本身价值鉴定的方法和规则有没有一些标准或做法。以便不同价值等级的数据采取相应合理的存储、处理、保护、分析等手段。谢谢!
吴东亚:关于数据质量,目前,软件工程软件产品质量要求和评价(SQuaRE)数据质量模型。有这个国际标准,但是还没有转化为国家标准,我印象中,在工业控制领域,大概有几个数据质量的标准。关于不同价值等级的数据采取相应合理的存储、处理、保护、分析等手段。我了解目前是没有的,倒是有关于数据长期保存方面的研究。如果贵公司在这方面,有技术积累,愿意贡献出来,我们可以探讨,是否可以做成标准
陈新河:工业社会的标准、质量、管理体系,都是经过几百年的沉淀,信息社会即使早的说从1970年开始,也才不到半个世纪,所以其质量、标准的完善也需要一个相当漫长的过程。
吴东亚:目前的阶段,我觉得不要说大数据,即使是小数据,还有很多问题都没有解决。比方说,元数据,这第一步,都还没有实现。和基础设施层面,已经完全标准化的状态,还是不一样的。同意主持人的说法,质量、管理体系,基本上是老牌资本主义国家英国建立起来的,包括认证,都是英国先开的。制造方面的,严谨的德国人做了很多贡献,信息技术方面,美国的贡献最大。我们国家在部分新兴领域,物联网、云计算等等,大家都还有些晕的情况下,能后和国际上一起探讨。
陈新河:德国的系统,日本的质量,美国的软件,这个好像是20年前IBM总结的,目前看仍是如此!
Q3吴东亚:中关村大数据产业联盟推动的数据交易平台怎么样了?
陈新河:数据交易平台,应该说有一点进步,昨天上午还到交通部信息信息中心谈如何推动数据开放、合理定价和数据交易。目前我看到的在企业之间的数据交易已经初具规模,大的平台有几千万的收入了,京东、新浪微博等也在积极推进数据交易,每年谷歌从推特上购买的数据的费用有3000多万美元。整体来看企业数据交易进行的比想象的要好,反而是政府的数据交易做的差强人意。
吴东亚:希望,后续,在这部分,我们可以一起探讨标准研制
陈新河:把标准讲的能吸引到如此多人提问题还是第一次,足见吴博士的功力。也希望通过这个平台更多的企业产业标准制定中来。
吴东亚:好的,也找到我们进一步合作的结合点。
Q4董健:关于非结构化数据,我有不同的观点,现在很多做法都是把非结构化数据提取转化成结构化数据,放到数据仓库里,进行利用,其实有的时候非结构化数据是不应该转换的或者价值是不可转换的,数据分析和挖掘应该就在非结构化数据的基础上完成,一旦提炼,数据本身的场景就消失了。必须基于混搭的结构化和非结构化数据进行价值发掘。当然非结构化数据的范畴是模糊的,有人说语音图像视频这样,其实有的时候那种网状的星形的数据关系都可以看作是非结构化的。数据价值的挖掘只要是信息能够数据化,就应该直接处理。其实数据有一个数据流的概念,数据的产生都是在工作流中完成的,那么这个工作流其实就是数据的一部分,也就是数据的上下文,但很多时候数据被提炼以后这些场景信息都消失了,这时候数据的含义也就变化了。跟刚才说的非结构化数据提炼是一个意思。
吴东亚:部分同意这份专家意见,其实我也对非结构化这么处理比较疑惑,丢失信息为代价的。
Q5张存勇:@吴东亚是否只要我们搞好了自己的物联网统一标识体系并采用了,一旦对大数据体系里的某个物联网设备进行配置变动,全网的有关部分都会自动应对,减少相应维护更新成本?
吴东亚:标识体系包括很多方面,编号规则,管理程序,数据标识,解析系统。大家说的,往往只是编号规则,其实是不完全的。标识体系,只能解决找到的问题,至于说您提到的要求,要看具体设计方案了。标识,首先解决的是找到对象的问题。
C陈新河,联盟副秘书长;《软件定义世界,数据驱动未来》@吴东亚 再次感谢吴博士的精彩分享!
原文发布时间为:2014-04-07
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号