数据挖掘与云计算—专访中科院何清博士

——专访中国科学院计算技术研究所何清 博士

 
重庆邮电大学数字通信 张诚

 

    数字通信:当今世界处于一个数据爆炸时代,如何有效地从海量数据中找到有用、可理解的知识正考验人类智慧,我们是否拥有应对这一挑战的技术手段?

    何清:人类社会信息正以“每18个月产生的数量等于过去几千年的总和”的速度不断增加,如此浩瀚的数据在带给人们大量信息的同时,也极大地增加了人们从海量数据中发现有用知识的难度,而解决这一问题的努力促进了云计算和数据挖掘技术的结合和快速发展。

按照中国电子学会云计算专家委员会的技术白皮书阐述,云计算是一种基于互联网的、大众参与的计算模式,其计算资源(计算能力、存储能力、交互能力)是动态、可伸缩、且被虚拟化的,而且以服务的方式提供。

云计算给软件带来的变革主要表现在Saas(软件即服务)。软件的单机安装将逐渐被云计算平台部署所代替,用户只需通过网络浏览器便可享受快速高质的云服务,中小企业既可以在公共云计算平台上使用云服务软件,也可以在硬件开支不大的情况下部署自己的云计算平台,从而实现高性能、低成本的计算。随着云计算的发展,很多公共需求的服务将会日益满足大众需求,普惠各个行业。

数据挖掘远比信息搜索要复杂。过去对海量数据的处理主要是通过高性能机或者更大规模的计算设备来实现,现在通过基于云计算的数据挖掘能更好地达到目的。采用云计算模式有许多好处,成本低廉、容错性强、计算速度快、程序开发便捷、节点的增加更容易。可以说云计算是数据挖掘中普遍适用较为理想的计算模式,也是我们从海量数据中找到有用、可理解的知识的技术手段。

数字通信:数据挖掘技术经历了怎样一个发展过程?

何清:数据挖掘(Data Mining),又称为数据库中的知识发现,就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。目前,数据挖掘技术已在金融、医疗、军事、管理等诸多领域的决策分析中被广泛应用。

数据挖掘技术的发展经历了五个阶段:第一代是单独算法、单个系统、单个机器,采用的是向量数据。第二代是与数据库相结合,支持多个算法。第三代是与预测模型相集成,支持Web数据、半结构化的数据,是一种网络化计算。第四代是分布式数据挖掘,是基于网格计算的多种算法,分布在多个节点上的方式。第五代是现在基于云计算的并行数据挖掘与服务的模式,同一个算法可以分布在多个节点上,多个算法之间是并行的,多个节点的计算资源实行按需分配,而且分布式计算模型采用云计算模式,数据用DFS或者HBASE,编程模式采用了Map/reduce这种方式。

Chu et alNIPS2006上发表了一篇文章,他们采用Map/reduce编程完成了很多机器学习方法,这是一项有非常重要意义的工作,不过他们的运算环境是基于多核系统。目前,基于Hadoop的数据挖掘开源项目有Mahout,这个项目致力于数据挖掘并行化,是以云计算方式来做数据挖掘的开源项目。

通过云计算的海量数据存储和分布计算,为云计算环境下的海量数据挖掘提供了新方法和手段,有效解决了海量数据挖掘的分布存储和高效计算问题。开展基于云计算的数据挖掘方法的研究,可以为更多、更复杂的海量数据挖掘提供新的理论与支撑工具。而作为传统数据挖掘向云计算的延伸将推动互联网技术成果服务于大众,是促进信息资源的深度分享和可持续利用的新方法、新途径。

数字通信:目前研发进展和行业应用如何?

何清:在中国,基于云计算的数据挖掘工作开始于中国移动的“大云”云计算平台建设。2008年底中国科学院计算技术研究所与中国移动合作开发完成了基于云计算的数据挖掘软件PDMiner,软件集成了多种算法,可有效解决多种云计算问题。该系统包含ETL组件和数据挖掘组件,ETL算法具有线性加速比,挖掘效率随节点增加而增加,多个任务工作流之间互不干扰,不同节点间可同时启动,可以处理失败的节点,具有容错能力,架构具有开放性,算法可方便地配置加载到平台上,达到了商用软件精度,成为中国移动数据挖掘分析支撑工具。中国移动黄晓庆院长2009年云计算大会上对该系统的评论是:“用1/6的成本实现了6倍的性能。”

关于面向Web的研究,近期中国科学院计算技术研究所开发了数据挖掘云服务平台COMSCOMS系统有四部分——数据管理、任务管理、用户管理和系统帮助模块,提供基于云计算的并行数据挖掘云服务模式。系统可以把任务的输入输出参数设定好,配置平台的数据,按照工作流的方式可再添加另外任务。在执行任务过程当中,对Map/reduce的进程是可视的,这就是一种数据挖掘云服务。

数字通信:时下,最热门的话题非云计算和物联网莫属,数据挖掘在物联网中将扮演怎样的角色?

何清:物联网就是“物物相连的互联网”——The Internet of Things,它是通过射频识别(RFID)装置、红外感应器、 全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网相连接,通过信息交换实现智能化识别、定位、跟踪、监控和管理的一种网络。

物联网层次结构包含: 感知层——将物品信息进行识别、采集;传输层——通过现有的2G3G以及未来4G通信网络将信息进行可靠传输;信息处理层——通过后台系统来进行智能分析和管理。物联网的核心任务就是数据的采集、识别、传输、分析和管理,任何时候都离不开数据挖掘。

李国杰院士认为:智能电网、智能物流、智能交通等应用涉及到十分复杂的动态环境优化问题,不是装几个传感器就能轻松解决的,是一个十分困难的系统科学问题。发展物联网和嵌入式系统的关键是看系统的智能体现在什么地方。

物联网和嵌入式系统有两个基本模式,即云计算模式和物计算模式。云计算模式是通过分布式的架构采集数据,然后集中进行信息处理。此模式一般用于宏观决策等信息处理的过程中,如智能电网、智能交通、智能物流、智能医疗等。系统的智能主要体现在处理中心,即需要较强的集中计算能力和高带宽,但终端设备比较简单。物计算模式强调实时控制,对终端设备的性能要求较高,如智能化的汽车电子、数控机床、安全监控系统、智能家居等。系统的智能主要体现在终端设备上,对集中处理能力和系统带宽要求比较低。

由此可见,数据挖掘是物联网的重要一环,只有通过数据挖掘实现系统的智能化,才能建立起一个巨大的物联网产业。

数字通信:基于云计算的数据挖掘工作面临哪些问题与挑战

何清:首先,数据挖掘采用怎样的算法设计和方案制定是一个需要认真思考的问题,只有选择合适的算法,并采取适当的并行策略,才能提高效率。参数的设定和调节也很重要,处置不当将直接影响最终结果。

其次,数据挖掘过程中存在许多不确定性,例如:任务的描述、数据的采集、使用的方法和出现的结果都具有不确定性,需要在数据挖掘过程中,把不确定性确定下来。

第三、 数据挖掘中软件服务的可信性也令人纠结,服务是否正确,系统状态是否正常,服务的质量是否过关,都需要特别关注并加以验证测试。

最后、数据安全问题。云计算安全的本质是信任管理问题,在云计算环境下计算模型与需求要有一致性,算法要可检验,过程对用户可控、可视,挖掘结果对用户可理解。隐私保护也是一个不容忽视的问题,解决不好,中小企业或个人用户会拒绝数据挖掘云服务。

数字通信:如何应对这些挑战,您的建议是?

何清: 基础建设方面,应根据个性化和多样化需求,并考虑按不同领域,不同行业的特点构建数据挖掘云服务平台; 虚拟化技术是数据挖掘云服务的技术支撑,应大力推进虚拟化技术研究开发,促进成果的应用,实现计算资源的自主分配和调度; 在云服务应用产品的研发中,需要考虑社会实际需求,注意引导大众积极参与,以满足个性化、多样化的数据挖掘需求;可信性方面,算法要通用,要可查、可调、可视; 数据安全问题不能像一般的信息安全那样加密,应该是由客户在自己的平台终端上通过适当加密措施来实现。

数字通信:基于云计算的数据挖掘技术的发展趋势,您的研判是?

何清: 数据挖掘技术的研究门槛将降低,这表现在公共的数据挖掘服务为数据挖掘算法的研究提供了研究、比较、测试的平台。在这个平台上研究者可以关注与自己的算法改造和创新,不必重复实现他人算法或与之作比较,这可以大大提高研究效率。这个平台使得海量数据挖掘成为可能,这在以前是不可想象的,只有在数据挖掘云服务极大丰富的情况下,数据挖掘才会普惠各类企业和机构。数据挖掘将作为一种通用的、像水电一样获得的服务方式为企业、机构、研究人员、决策者提供服务。 

 数据挖掘与云计算—专访中科院何清博士_第1张图片

嘉宾介绍:

何清:2000 7 月北京师范大学数学系模糊数学与人工智能专业博士毕业,获博士学位。现任中国科学院计算技术研究所研究员,博士导师;中国人工智能学会副秘书长,常务理事,机器学习专业委员会常务理事, 分布智能与知识工程专业委员会秘书长,中国电子学会云计算专家委员会委员。Springer 出版的国际期刊IJMLC 副主编。

研究领域:机器学习与数据挖掘。提出了基于超曲面的覆盖学习算法;提出极小样本集抽样方法与相关理论;提出了基于进化规划的基于摄动的模糊聚类改进算法,解决了模糊聚类失真问题;证明了模糊集扩展原理在范畴论意义下的合理性;提出概念语义空间用于知识管理;提出一种新型信息熵用于分类;提出基于粒度的多层次决策方法;提出了从单个源领域到单个目标领域的基于混合正则化迁移学习算法和基于一致性正则化的多个源领域的学习算法;作为课题负责人承担863 课题、NSFC 课题以及多项企业合作课题。

已在IEEETKDEIEEETITKDD2007CIKM2008ICDM2010SDM2010AAAI2010 等国内外重要刊物和会议上发表录用近百篇学术论文,组织开发了基于自主计算技术的分布式数据挖掘系统和国内最早的基于Hadoop 的并行数据挖掘系统用于中国移动TB 实际数据挖掘。

quote from :http://blog.sina.com.cn/s/blog_593990cf01017f11.html

你可能感兴趣的:(数据挖掘与云计算—专访中科院何清博士)