云计算的Web数据挖掘分析

下面来介绍一下比较热门的云计算中的Web数据挖掘分析,如下:

最新的网络技术和计算机新的功能的出现而产生了云计算,云计算能够借助网络以提供高效率的、快捷式的和伸缩的分布式计算能力。数据存储技术、数据管理技术、虚拟化技术以及并行编程模式构成了云计算的关键技术。

1、以分布为特征的存储技术

分布式存储技术是指将数据存储在在不同的硬盘和系统内,在云计算中分布式存储的好处是它的存储量比较大,通过分布式存储技术的运用,大量的数据都可以得到存储。分布式存储技术有很多的优势。它可以提高数据存储的数量,也可以提高数据处理的高效性、精确性和实用性。通过这些优势,分布式存储技术将大量的数据进行存储,这样计算机的硬件容量太小就不是一个障碍。因此,云计算在发展的过程中离不开分布式存储技术在经济性和实用性等方面的支持。

2、数据管理技术

在运用分布式存储技术存储了大量的数据后,立即需要对这些大数据进行分析,但是这些数据比较多,没有规律,数据管理不能快速的提取有效的信息,传统的计算机技术从互联网中搜索和处理数据的能力比较差,效率比较慢,而云计算中的数据管理技术在互联网中提出有用的信息的能力强、效率高。

3、虚拟化技术在传统的计算机中,硬盘、软件、以及存储都是相互联系的,是一个统一的系统,这个统一的系统不利于数据处理效率的提高。在云计算中虚拟技术是非常重要的技术,虚拟技术的特点就是打破了传统技术的障碍,也就是它不同于传统技术中硬件、软件、以及存储都是统一工作的,云计算中的各个部分是独立的工作和运行的,这样方便了信息的搜索和处理。虚拟技术将各种应用软件存置于云网络中,并从云网络读取信息时可以从网络各个接入点传进,只需要读取就可以,不用重新安装各个软件。

4、并行编程模式

并行编程采用的是Map-Reduce编程。这种编程与传统的编程相比不同的地方是,在同一时间内各级都能够能够执行任务,这是由于任务是按照树状被逐级分配的。因此这样任务的实现比传统的计算更加及时和准确。

5、Web数据的挖掘

Web数据挖掘的对象大多是非结构化的数据库,而这些数据库是海量的和动态分布的,并且是高速度地更新。Web数据挖掘的内容不仅包括了Web页面上的显性的内容也包括所有隐性的超链接页面和内容。在Web数据挖掘中,传统数据挖掘的数据模型模型将很难被使用。

6、Web数据挖掘的分类情况

Web数据挖掘一般有三种类型,第一个是web数据的挖掘,第二个是web的内容挖掘,第三个是web的结构挖掘,现在对这三种不同的挖掘方式进行具体描述。第一web数据挖掘,这种挖掘主要是对用户的相关的web日志和使用记录进行挖掘,通过这种方式可以发现用户访问web页面的一种习惯方式,通过这种方式进一步了解用户的爱好和其他的反馈信息,这种挖掘主要是挖掘潜在的客户,也可以增加网站站点的服务水平。第二个是内容挖掘,在web内容挖掘中,图像、音频、视频、文本和多媒体都是挖掘的对象。第三是结构挖掘,所谓结构挖掘主要是指对web页面的结构进行挖掘,挖掘站点的页面结构和组织结构,以及知识导出的结构,通过对这些结构的挖掘,很容易发现页面的关系。

7、Web数据挖掘的流程
Web数据挖掘和传统数据挖掘在流程上由很大的不同,这是由于挖掘对象和挖掘方式出现了不同的情况,下面来具体挖掘
web数据挖掘的流程。

7.1》信息搜索。搜索信息主要是搜索web的信息和文档,也搜索了邮件、日志以及在网上交易形成的数据,这是微博数据挖掘必须要进行的流程。

7.2》信息预处理。信息预处理就是针对第一步搜索到的信息作一个预先的处理,这个处理主要是对有用的信息和无用的信息做一个分类,然后将有用的信息进行处理。

7.3》发现模式。模式发现是对第二步信息预处理的进一步处理。这是对这些有用的信息进行进一步处理和发现的过程,在这个过程中有利于发现web数据挖据的模式。

7.4》分析模式。分析模式主要是对第三步骤中发现到的模式再次进行解释、检验和证明。对模式的分析一般可以由人工独立完成也可以由人工和机器共同完成。

8、云计算的Web数据挖掘

云计算的web数据挖掘的体系架构。云计算的web数据挖掘的框架主要由三层,数据存储层、挖掘算法层、业务处理层。数据存储层有以下功能,它可以将web上收集到的文件进行自动解析,解析成XML文件,并装入分布式的存储系统中。同时它可以复制
XML文件,这样可以防止Date Node瘫痪而丢失数据。挖掘算法层中存储了各种中云计算web平台的算法,这种算法是在传统算法改进后的算法。当需要调用这层算法时,主要的控制节点会获取元数据,然后合适的节点会被相应的算法从原始数上据传输到其他所有的节点。业务处理层是基于云计算的web数据的挖掘中,Master一般负责调度所有的挖掘器,每每隔一定的时间,业务节点会向发送信号到Master,同时业务节点会被Master放入空闲的节点中,然后用户会向Master发出申请,这一层的业务处理的节点都可以获取存储的各个数据块的信息以及相应的算法,算法层的节点被优先的发送到业务节点。此时文件存储服务器就启动并开始工作,工作完成向,相关的工作的结果会被传输到中心上处理器,最后客户获得处理后的结果。数据存储和数据挖掘在一个节点上出现,文件被传输和重组的过程中时间比较短。

9、基于云计算的Web数据挖掘算法

用户一般会通过web浏览器发送数据挖掘请求服务,关节点在接受到用户的数据请求后会将服务节点发送到主控节点,接下来主控节点主控节点向算法节点发送元数据,算法存储节点将会将已经选择的最合适的挖掘算法发送给各个服务点。接下来各个服务点将会扫描本地的是数据库,扫描后将会对数据库中选项出现的个数和频数进行统计,然后获得一些部分的频集。云计算的web
数据挖掘算法将最后吧统计结果和上一步获得的一部分的频集发送到主控节点上,从而得出全部的频集。吧全部频集发送到主控节点上,再次生成更加精确的局部频集。整个算法的最后一步将获得更加精确的频集,而这个频集是符合用户定义的频集,关联规则也会被发送给主空节点,关联规则将被返还给相关用户,返还给相关用户后整个算法才算真正完成。这就是基于云计算的
web数据挖掘算法。

基本介绍完毕,请大家继续关注!!!

 

 

你可能感兴趣的:(Web数据挖掘)