顶尖大数据挖掘实战平台
(TipDM-H8)
产 品 说 明 书
广州泰迪智能科技有限公司 版权所有
地址: 广州市经济技术开发区科学城232号
网址: http://www.tipdm.com
热线: 40068-40020
企业QQ:40068-40020
邮编: 510663
电话: (020)82039399
目 录
1 引言............................................................................................................... 3
1.1 背景............................................................................................................ 3
1.2 目标............................................................................................................ 3
1.3 联系我们..................................................................................................... 4
2 产品介绍........................................................................................................ 5
2.1 大数据挖掘实战平台................................................................................... 5
2.2 适用对象..................................................................................................... 5
3 产品构成........................................................................................................ 7
3.1 数据挖掘教学软件....................................................................................... 7
3.1.1 软件功能....................................................................................... 7
3.1.2 软件界面...................................................................................... 13
3.1.3 运行环境...................................................................................... 14
3.2 数据挖掘多媒体软件................................................................................. 14
3.3 数据挖掘教学PPT..................................................................................... 17
3.4 数据挖掘实训教程..................................................................................... 18
3.5 数据挖掘辅助教学案例库.......................................................................... 20
3.6 大数据分析平台........................................................................................ 20
3.7 大数据实战培训........................................................................................ 21
3.7.1 环境部署...................................................................................... 21
3.7.2 虚拟机资源.................................................................................. 21
3.7.3 课程安排...................................................................................... 22
3.8 云服务器(可选)..................................................................................... 23
4 硬件配置及软件部署..................................................................................... 25
4.1 硬件清单................................................................................................... 25
4.2 数据挖掘平台配置..................................................................................... 25
4.3 大数据实战机器配置................................................................................. 26
随着云时代的来临,大数据技术将具有越来越重要的战略意义。大数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产要素,人们对于海量数据的运用将预示着新一轮生产率增长和消费者盈余浪潮的到来。大数据分析技术将帮助企业用户在合理时间内攫取、管理、处理、整理海量数据,为企业经营决策提供积极的帮助。大数据分析作为数据存储和挖掘分析的前沿技术,广泛应用于物联网、云计算、移动互联网等战略性新兴产业。虽然大数据目前在国内还处于初级阶段,但是其商业价值已经显现出来,特别是有实践经验的大数据分析人才更是各企业争夺的热门。为了满足日益增长的大数据分析人才需求,很多大学开始尝试开设不同程度的大数据分析课程。“大数据分析”作为大数据时代的核心技术,必将成为许多高校计算机、应用数学、软件工程等专业的重要课程之一。为加强大数据分析创新发展顶层设计和科学布局,推动学校相关教师和学生更好理解和掌握大数据分析的关键技术原理和未来发展方向,特推出大数据挖掘实战平台,承担学校“大数据”人才的培养,同时满足教师和研究生的大数据分析需求。具体表现在:
大数据挖掘实战平台建成后,将承担学校的科研和教学任务,为师生提供便利、实用和符合信息技术发展方向的大数据分析平台,同时该工程与实战中心也将满足本科生和研究生的教学需求,为培养各行业需要的大数据分析人才提供实训平台。大数据挖掘实战平台建设按照自顶向下的科学设计原则和分步实施建设的风控指导原则,将分为两个建设阶段。
实战平台建设中,将建立大数据科研平台。将云存储资源、服务器资源和网络资源整合,然后通过VMware 搭建私有云平台,在私有云平台上搭建统一的数据挖掘平台和基于Hadoop的大数据分析平台,统一的数据挖掘平台供学校有数据挖掘与分析需求的教师访问(无需编程经验),以满足其数据处理需求。基于Hadoop 的大数据分析平台供教师进行大数据处理与大数据算法分析使用(需有编程经验)。
在前面大数据科研平台建设的基础上,通过VMware 私有云搭建大数据教学平台。通过该大数据教学平台的建设能让学生既掌握必要的理论基础,又能将大数据分析理论和方法用于解决实际问题。该大数据教学平台也能解决教学过程中实验环节非常薄弱,造成学生缺少数据挖掘实践经验、缺乏实践应用能力等问题。
大数据挖掘实战平台的建设采用四层架构,其整体架构如下图所示。
大数据挖掘实战平台底层数据处理平台采用云计算技术实现,基于云计算的基础设施层能充分保障资源的有效利用率和资源的动态伸缩性,云基础设施层上搭建了基于VMware 的虚拟化层,该虚拟化层能充分保证业务的连续性和平台运行的可靠性。建立在虚拟化层上的统一数据挖掘平台TipDM 能满足全校有数据挖掘需求的教师利用图形化的界面进行数据分析,而基于Hadoop 的大数据实训平台(TipDM-Hadoop)能为大数据算法分析和大数据处理提供基础平台。位于架构最上层的大数据教学平台为培养大数据时代的数据科学家提供实训平台。
大数据挖掘实战平台建成后将极大地满足大数据时代高校师生数据分析的需求,也将为数据科学家的培养提供便利的基础设施环境,同时该工程与实战中心也将承接我省综改转型攻坚的部分重任。
感谢您选择广州泰迪科技公司的数据挖掘产品,在系统的使用过程中如果遇到问题,请通过如下的方式与我们联系,我们将为用户提供周到满意的服务。
电话:020-82039399
传真:020-28871586
热线:40068-40020
地址:广州经济技术开发区科学城科珠路232号
邮编:510663
随着当前信息技术发展,云计算模式已成为潮流,网络与基础设施的虚拟化等技在机构和企业得到广泛应用。社会就业单位对掌握云计算相关知识的网络操作人员存在迫切需求。这都要求相关专业教师需要掌握云计算的相关网络维护知识,开展针对云计算教学教研工作,着力于解决新兴技术在教学中的不足;尤其数学和计算机相关专业的学生,需要掌握基于虚拟化的云计算技术,以更好地寻找合适工作、适应未来岗位。
基于Hadoop实战项目,在大数据实战环境中,通过动手实操,让学员在短时间内掌握使用HortonWorkspace Data Platform(HDP)平台开发Hadoop程序,以完成高效的大数据存储、清洗和分析。
大数据挖掘与实战中心主要包括两大部分:
1、数据挖掘辅助教学套件(TipDM-T8)
² 数据挖掘建模软件
² 数据挖掘多媒体软件
² 数据挖掘教学PPT
² 数据挖掘教学案例库
² 数据挖掘实训教程
2、大数据挖掘辅助教学平台
² 大数据挖掘基础平台(TipDM-Hadoop)
² Vmware HDP虚拟机大数据实战培训教程
² 有大数据挖掘相关课程教学的高校、研究所和培训机构
² 用大数据挖掘进行科研的高校、研究所
特别说明:Hortonworks作为全球领先的大数据平台开发、咨询、培训和支持服务提供商,是下一代大数据平台Hadoop 2.0 的领导者。
Hortonworks的全球技术合作伙伴达140多个,比如微软、Teradata和Rackspace等都建立了各自的基于Hortonworks数据平台的生产线。
Hortonworks Hadoop培训认证课程代表了行业最高水平,也是业界公认的Hadoop权威认证。
目前我公司已与Hortonworks公司在培训、咨询和系统集成方面展开了深度合作。
建议:如果采用泰迪科技公司提供的大数据挖掘实战平台建设方案,泰迪公司将派出讲师对实战中心技术人员进行专业培训(或直接派讲师进行授课),课程结束后,学员可直接参加认证考试!
3.1.
数据挖掘辅助教学软件采用广州泰迪智能科技有限公司花费数年时间自主研发的一个数据挖掘平台——顶尖数据挖掘平台(TipDM)。该软件使用JAVA语言开发,能从各种数据源获取数据,建立各种不同的数据挖掘模型。系统支持数据挖掘流程所需的主要过程,并提供开放的应用接口和常用算法,能够满足各种复杂的应用需求。2010年初“顶尖数据挖掘平台(TipDM)”通过了由广州赛宝软件评测中心的功能和性能测试。现产品在广东省电信规划设计院、珠江水产研究所、华南师范大学、广东中医药大学、武汉理工大学、广东工业大学、韩山师范学院、番禺职业技术学院、交通运输部公路科学研究院等单位成功试用,受到用户的赞许与肯定。
顶尖数据挖掘平台(TipDM)应用非常广泛,能够模拟以下众多方向的应用:
学生可以根据数据挖掘课程需要在(TipDM)软件平台上模拟各种数据挖掘实际应用,快速提高数据挖掘实践能力,增加数据挖掘应用经验。
顶尖数据挖掘平台(TipDM)包含了目前主流的各类算法,方便学员寓教于学,快速理解和学习算法,并可以在平台上进行算法对比,下面是顶尖数据挖掘平台(TipDM)主要算法功能:
数据探索是对导入系统中的数据进行初步研究,以便更好地理解它的特殊性质,有助于选择合适的数据预处理和数据分析技术。
模型预测的质量不会超过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量,从而为保证预测质量打下基础。
算法名称 |
算法描述 |
相关性分析 |
相关性分析是考察两个变量之间相互关系的方向和程度的一种统计分析方法。更精确地说,当一个变量发生变化时,另一个变量如何变化,此时就需要通过计算相关系数来做深入的定量考察。当然,还有其他类型的相关系数用于测量两个以上变量之间的关系,如多元回归等。 |
主成分分析 |
主成分析分析(PCA)是指用几个较少的综合指标来代替原来较多的指标,而这些较少的综合指标既能尽可能多地反映原来较多指标的有用信息,且相互之间又是无关的。 |
周期性分析 |
分析数据变化过程中,某些特征重复出现,连续的两次出现的客观规律。在时序预测时,经常要对样本数据进行周期性分析,以更好地理解样本数据变化的特点,为时序预测分析提供指导依据。 |
缺失值处理 |
样本数据中经常存在一些缺失值,在进行预测建模前,需要对缺失值按照某些规则进行处理。处理方法主要有:1)删除;2)数据补齐(人工填写、平均值填充、特殊值填充、热卡填充、 K最近距离邻法、回归、期望值最大化方法等)。 |
坏数据处理 |
如果抽取数据中存在坏数据(脏数据),则需要对坏数据进行预处理。通常的做法是采用绝对均值法或莱因达法等对样本中的坏点数据进行剔除处理。 |
属性选择 |
由给定的属性构造或添加新的属性,以帮助提高精度和对高维数据结构的理解,是具有最佳预测准确率的子集。 |
数据规约 |
将属性数据按比例缩放,使之落入到一个小的特定区间。找出最小属性集合,使得数据类的概率分布尽可能地接近使用所有属性的原分布。 |
离散处理 |
离散化技术用来减少给定连续属性的个数,这个过程通常是递归的,而且大量时间花在排序上。对于给定的数值属性,概念分层定义了该属性的一个离散化的值。 |
特征提取 |
主要对图像、声音、信号等数据源,通过图像处理、小波变换等建立一组新的、更紧凑的属性来表示数据的过程。如图像特征提取是指根据图像特征,提取反映图像本质的一些关键指标,以达到自动进行图像识别或分类的目的。 |
说明:版本不断更新,更多算法详见:www.tipdm.com.cn
分类是数据挖掘中应用得最多的方法。分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
回归是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。
分类与回归算法主要有:
l 贝叶斯:朴素贝叶斯网络、贝叶斯信念网络
l 决策树及表:决策表、CART决策树、ID3决策树、C4.5决策树
l 神经网络:BP神经网络、LM神经网络、RBF神经网络、FNN神经网络、ANFIS神经网络、WNN神经网络
l 回归分析:线性回归、逐步回归、逻辑回归、保序回归
l 其它算法:AdaBoostM1算法、KStar算法、SVM支持向量机、K-最近邻分类
主要算法介绍:
算法名称 |
算法描述 |
输出示例 |
BP 神经网络 |
BP(Back Propagation)神经网络是是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。 |
|
LM 神经网络 |
Levenberg-Marquardt是基于梯度下降法和牛顿法结合的优化算法,特点:迭代次数少,收敛速度快,精确度高。 |
|
FNN 模糊神经网络 |
模糊神经网络(Fuzzy Neural Network,FNN)是具有模糊权系数或者输入信号是模糊量的神经网络,是模糊系统与神经网络相结合的产物,它汇聚了神经网络与模糊系统的优点 |
|
RBF 径向基神经网络 |
径向基函数(Radial Basis Function, RBF)神经网络是具有单隐层的三层前馈网络。它是一种局部逼近网络,能够以任意精度逼近任意连续函数,特别适合于解决分类问题。 |
|
ANFIS 自适应神经模糊推理系统 |
自适应神经模糊推理系统(Adaptive Neural Fuzzy Inference System,ANFIS)是功能上与一阶T-S模糊推理系统等价的自适应网络,它是将神经网络的学习机制引入模糊系统,构成一个带有人类感觉和认知成分的自适应系统。 |
|
WNN 小波神经网络 |
小波神经网络(Wavelet Neural Network,WNN)是基于小波变换而构成的神经网络模型,即用非线性小波基取代通常的神经元非线性激励函数(如Sigmoid函数),把小波变换与神经网络有机地结合起来,充分继承了两者的优点。 |
|
SVM支持向量机 |
支持向量机是V.Vapnik等人在研究统计学习理论的基础上发展起来的一种新的机器学习算法,它在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。支持向量机根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以获得最好的推广能力。 |
|
CART决策树 |
分类与回归树(classification and regression tree,CART),是一种十分有效的非参数分类和回归方法,通过构建树、修剪树、评估树来构建一个二叉树。 |
|
说明:版本不断更新,更多算法详见:www.tipdm.cn
时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
时序模式类算法主要有:
l 指数平滑
l 多元回归
l GM灰色理论
l RBF神经网络
l ANFIS神经网络
l SVM支持向量机
主要算法介绍:
算法名称 |
算法描述 |
输出示例 |
指数平滑 |
使用指数平滑(Exponential Smoothing)方法进行时间序列预测 |
|
GM 灰色理论 |
使用灰色GM(1,1)模型进行时间序列预测 |
|
RBF 神经网络 |
使用RBF神经网络方法进行时间序列预测 |
|
多元回归 |
使用回归方法进行时间序列预测 |
|
SVM 支持向量机 |
使用SVM支持向量机方法进行时间序列预测 |
|
ANFIS 自适应神经模糊推理系统 |
使用ANFIS自适应神经模糊推理系统方法进行时间序列预测 |
|
说明:版本不断更新,更多算法详见:www.tipdm.cn
聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。
聚类分析类算法主要有:
l K-均值算法
l EM最大期望算法
l DBScan密度算法
l 改进K-均值算法
l 多层次聚类
主要算法介绍:
算法名称 |
算法描述 |
输出示例 |
K-均值算法 |
K-均值聚类(K-means clustering)是Mac Queen提出的一种非监督实时聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K。 |
|
EM最大期望算法 |
最大期望(Expectation–Maximization,EM)算法是 Dempster,Laind,Rubin提出的求参数极大似然估计的一种方法,它可以从非完整数据集中对参数进行 MLE 估计。 |
|
DBScan密度算法 |
DBScan(Density Based Spatial Clustering of Applications with Noise),是基于密度的聚类方法,它根据对象周围的密度不断增长聚类。它能从含有噪声的空间数据库中发现任意形状的聚类。 |
|
多层次聚类 |
这种方法对给定的数据集合进行层次的分解,根据层次的分解如何形成,它又可分为凝聚法(也称自底向上方法)和分裂法(也称为从上向下方法) |
|
|
|
|
关联规则挖掘是由Rakesh Apwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。
关联分析类算法主要有:
l HotSpot关联规则
l Apriori关联规则
l FP-Tree关联规则
l HOTSPOT关联规则
l 灰色关联法
主要算法介绍:
说明:版本不断更新,更多算法详见:www.tipdm.cn
1、硬件环境
² CPU:P4 3.0G以上,建议使用双CPU
² 内存:1GB以上
² 硬盘:80G以上硬盘剩余空间
2、软件环境:Windows 2003 Sever
结合课程教学需要,教研版(TipDM-Res)提供配套的教学用多媒体软件,指导学生快速了解和掌握数据挖掘建模技术。
多媒体软件主要包含:混合编程、挖掘建模、完整案例、自动动手和交互练习等。以下是部分截图:
结合课程教学需要,数据挖掘辅助教学套件(TipDM-Res)同时提供配套的教学用PPT:
主要包含以下内容:
结合课程教学需要,数据挖掘辅助教学套件提供实训教程,方便学生基于数据挖掘软件快速实现数据挖掘预测建模。
《数据挖掘:实用案例分析》和《MATLAB数据分析与挖掘实战》中每个案例分别由挖掘目标的提出、分析方法与过程、建模仿真、核心知识点和拓展思考等内容构成,如下图示:
泰迪公司近10年来在电信、电力、金融、互联网、教育、水产、税务、生产制造等行业20多个数据挖掘应用整理成案例库,案例库包括项目背景、研究目标及详细的技术实现路线,并配完整的数据资料。
产品描述:云数据挖掘引擎:包括云分类引擎、云聚类引擎、云关联规则引擎、云智能推荐引擎等;调度系统:包括作业调度、作业监控和作业管理;主机监控系统:采集集群中主机的cpu、memory、disk、process、network等相关数据,并采用图形化的方式展示;云平台监控系统:监控云计算平台的运行指标,可以实时监控云平台的运行情况,子节点运行情况;云数据挖掘算法库:包括随机森林、K-Means聚类、推荐器、基于用户的协同过滤等分布式算法;培训:包括Hadoop环境配置,理解Hadoop2.0和HDFS,开发MapReduce程序,Map端流程—聚合,分区和排序,Hadoop输入输出格式,优化MapReduce任务,高级MapReduce特性,Hadoop单元测试编程,HBase编程,Pig编程,Hive编程,Oozie工作流。
功能 |
模块 |
说明 |
云数据挖掘引擎 |
挖掘引擎 |
云分类引擎、云聚类引擎、云关联规则引擎、云智能推荐引擎等 |
调度系统 |
包括作业调度、作业监控和作业管理 |
|
主机监控系统 |
主要用来采集集群中主机的cpu、memory、disk、process、network等相关数据,并采用图形化的方式展示 |
|
云平台监控系统 |
主要用来监控云计算平台的运行指标,可以实时监控云平台的运行情况,子节点运行情况,用来为系统增加/删除/更新节点提供知道依据。它主要包括:1)分布式文件系统监控;2)作业监控;3)云平台管理等功能 |
|
云数据挖掘算法库 |
分类算法 |
基于并行计算的分类算法,如: 1、朴素贝叶斯、贝叶斯网络 2、随机森林 3、神经网络 4、模糊神经网络 5、支持向量机 |
聚类算法 |
基于并行计算的聚类算法,如: |
|
关联规则 |
基于并行计算的关联规则算法,如: 2、推荐器算法 |
|
智能推荐 |
基于并行计算的智能推荐算法,如: 2、基于内容的协同过滤算法 |
使用10台实体服务器分别安装Windows7 64位操作系统或者Linux(Redhat 6、CentOS 6都可)64位操作系统,每台机器安装Vmware软件用于部署培训使用虚拟机。
每台实体服务器建立6个虚拟机(由HortonWorks提供),其虚拟机参数设置如下:
硬件 |
要求 |
备注 |
服务器数量 |
7(集群)+1(数据库服务器)+1(应用服务器) |
|
CPU |
厂家:Intel/AMD 主频:3000MHz+ 核数:12+ L3缓存:15MB+ 线程数量:12+ |
针对所有服务器 |
内存 |
16G+(集群) 8G+(数据库服务器) 8G+(应用服务器) |
最少8G |
硬盘 |
SATA/SAS 1T+200G,2个磁盘驱动器,每个500G+2个磁盘驱动器每个100G(用作系统盘)(集群) 1T+200G(数据库服务器) 300G+200G (应用服务器) |
最少50G |
网络 |
千兆以太网 |
固定IP |
宿主机 |
支持虚拟化/64位系统 |
|
系统 |
CentOS6.4 64位 |
可为虚拟机系统 |
说明:若需保持60个客户端同时可操作,则每台实体机开启6个虚拟机,这时需要客户端安装Vmware相关软件保证可以远程桌面到虚拟机。
虚拟机资源列表如下:
软件 |
版本 |
备注 |
系统 |
CentOS6.4 |
64位 |
HDP Hadoop平台 |
HDP2.0 |
包括服务: HDFS Yarn MapReduce Hive HBase Pig Ganglia Nagios ZooKeeper |
Ambari |
1.5 |
HDP调度软件 |
Eclipse |
4.3 |
Java 开发IDE |
Java |
1.6 |
|
数据 |
|
包含培训使用各种数据 |
|
|
|
HDP平台包括的服务有:
培训使用HortonWorks提供的培训资料,帮助开发者了解HDP平台,理解开发Hadoop程序的基本原理,最后可以使培训者能自主开发Hadoop程序,同时进行培训后,学员可以有更大的机会通过HortonWorks培训师认证,其认证在业界是比较有含金量的。
课程安排:课程一共包含40课时,主要内容如下:
大纲 |
课程 |
Hadoop基础 |
培训准备:环境配置 单元1:理解Hadoop2.0和HDFS 单元2:开发MapReduce程序 |
Hadoop进阶 |
单元3:Map端流程—聚合 单元4:分区和排序 |
Hadoop进阶 |
单元5:Hadoop输入输出格式 单元6:优化MapReduce任务 单元7:高级MapReduce特性 |
Hadoop应用 |
单元8:Hadoop单元测试编程 单元9:HBase编程 单元10:Pig编程 |
Hadoop应用 |
单元11:Hive编程 附录A:Oozie工作流 其他: 交流 |
与课程相关的代码资源:
云计算作为网格计算的升级,在近几年来被提出,他具有超大规模、虚拟化、高可靠性、通用性强、高扩展性、按需服务、易用等优点,这些优点可被用来搭建系统解决海量数据挖掘的问题。
基于云计算的数据挖掘模式,它的同一个算法可以分布在多个节点上,多个算法之间是并行的,多个资源实行按需分配,而且分布式计算模型采用云计算模式。
硬件使用使用16台IBM机器,其中可以分为两部分,数据挖掘平台使用机器和大数据实战培训部分。其主要硬件要求以及说明如下表。
服务器名称 |
服务器型号 |
服务器数量 |
CPU |
内存 |
硬盘 |
备注 |
IBM机 |
x3650 M4 |
6 |
Xeon E5-2650 |
每16G/个 |
SAS硬盘/2个 每200G个 |
数据挖掘平台使用 |
IBM机 |
X3650 M4 |
10 |
Xeon E5-2650 |
每60G/个 |
SAS硬盘/2个 每500G个 |
大数据实战培训使用/支持虚拟化 |
以上硬件配置供参考,同类配置亦可。
数据挖掘平台包括两部分,单机版算法以及云平台算法。其中云平台占用5台机器,数据挖掘平台主工程部署在1台机器,其拓扑图如下所示:
大数据实战机器配置主要是指针对学员使用的环境进行配置。初步估计60个客户端接入,那么10台IBM机器每台配置6个虚拟机即可。同时需保证每台虚拟机占有专属的IP,每个客户端可以远程桌面到虚拟机。