顶尖大数据挖掘实战平台（TipDM-H8）产品白皮书

顶尖大数据挖掘实战平台

(TipDM-H8)

产品说明书

地址：广州市经济技术开发区科学城232号

网址： http://www.tipdm.com

邮箱： [email protected]

热线： 40068-40020

企业QQ：40068-40020

邮编： 510663

电话：（020）82039399

1 引言............................................................................................................... 3

1.1 背景............................................................................................................ 3

1.2 目标............................................................................................................ 3

1.3 联系我们..................................................................................................... 4

2 产品介绍........................................................................................................ 5

2.1 大数据挖掘实战平台................................................................................... 5

2.2 适用对象..................................................................................................... 5

3 产品构成........................................................................................................ 7

3.1 数据挖掘教学软件....................................................................................... 7

3.1.1 软件功能....................................................................................... 7

3.1.2 软件界面...................................................................................... 13

3.1.3 运行环境...................................................................................... 14

3.2 数据挖掘多媒体软件................................................................................. 14

3.3 数据挖掘教学PPT..................................................................................... 17

3.4 数据挖掘实训教程..................................................................................... 18

3.5 数据挖掘辅助教学案例库.......................................................................... 20

3.6 大数据分析平台........................................................................................ 20

3.7 大数据实战培训........................................................................................ 21

3.7.1 环境部署...................................................................................... 21

3.7.2 虚拟机资源.................................................................................. 21

3.7.3 课程安排...................................................................................... 22

3.8 云服务器（可选）..................................................................................... 23

4 硬件配置及软件部署..................................................................................... 25

4.1 硬件清单................................................................................................... 25

4.2 数据挖掘平台配置..................................................................................... 25

4.3 大数据实战机器配置................................................................................. 26

1 引言

1.1 背景

随着云时代的来临，大数据技术将具有越来越重要的战略意义。大数据已经渗透到每一个行业和业务职能领域，逐渐成为重要的生产要素，人们对于海量数据的运用将预示着新一轮生产率增长和消费者盈余浪潮的到来。大数据分析技术将帮助企业用户在合理时间内攫取、管理、处理、整理海量数据，为企业经营决策提供积极的帮助。大数据分析作为数据存储和挖掘分析的前沿技术，广泛应用于物联网、云计算、移动互联网等战略性新兴产业。虽然大数据目前在国内还处于初级阶段，但是其商业价值已经显现出来，特别是有实践经验的大数据分析人才更是各企业争夺的热门。为了满足日益增长的大数据分析人才需求，很多大学开始尝试开设不同程度的大数据分析课程。“大数据分析”作为大数据时代的核心技术，必将成为许多高校计算机、应用数学、软件工程等专业的重要课程之一。为加强大数据分析创新发展顶层设计和科学布局，推动学校相关教师和学生更好理解和掌握大数据分析的关键技术原理和未来发展方向，特推出大数据挖掘实战平台，承担学校“大数据”人才的培养，同时满足教师和研究生的大数据分析需求。具体表现在:

大数据挖掘实战平台建设是培养云计算与大数据时代新型数据分析人才的需要。
大数据挖掘实战平台建设能有力促进及推动学校及各学院科研水平，为大数据的分析及挖掘提供基础平台。
该工程与实战中心的建立能使学校走在全省高校，乃至全国高校前列，能为其余高校建立同类大数据挖掘实战平台提供示范经验，充分带动学校教学、科研的改革创新与发展。
该工程与实战中心的建设能充分推动校企合作，真正实现产学研一体化，工程中心利用企业提供的大数据资源，分析与挖掘出有战略指导意义的结论，为企业领导者做决策提供导向性作用。为数据爆炸时代高校学生走出去提供更大机会。
目前我国正处于综合改革的攻坚期，大数据挖掘实战平台的建设能承接部分转型跨越的任务，一方面能为大数据产业落地提供理论与技术支撑，另一方面也能使学校走到信息技术革命的前列。

1.2 目标

大数据挖掘实战平台建成后，将承担学校的科研和教学任务，为师生提供便利、实用和符合信息技术发展方向的大数据分析平台，同时该工程与实战中心也将满足本科生和研究生的教学需求，为培养各行业需要的大数据分析人才提供实训平台。大数据挖掘实战平台建设按照自顶向下的科学设计原则和分步实施建设的风控指导原则，将分为两个建设阶段。

实战平台建设中，将建立大数据科研平台。将云存储资源、服务器资源和网络资源整合，然后通过VMware 搭建私有云平台，在私有云平台上搭建统一的数据挖掘平台和基于Hadoop的大数据分析平台，统一的数据挖掘平台供学校有数据挖掘与分析需求的教师访问（无需编程经验），以满足其数据处理需求。基于Hadoop 的大数据分析平台供教师进行大数据处理与大数据算法分析使用（需有编程经验）。

在前面大数据科研平台建设的基础上，通过VMware 私有云搭建大数据教学平台。通过该大数据教学平台的建设能让学生既掌握必要的理论基础，又能将大数据分析理论和方法用于解决实际问题。该大数据教学平台也能解决教学过程中实验环节非常薄弱，造成学生缺少数据挖掘实践经验、缺乏实践应用能力等问题。

大数据挖掘实战平台的建设采用四层架构，其整体架构如下图所示。

大数据挖掘实战平台底层数据处理平台采用云计算技术实现，基于云计算的基础设施层能充分保障资源的有效利用率和资源的动态伸缩性，云基础设施层上搭建了基于VMware 的虚拟化层，该虚拟化层能充分保证业务的连续性和平台运行的可靠性。建立在虚拟化层上的统一数据挖掘平台TipDM 能满足全校有数据挖掘需求的教师利用图形化的界面进行数据分析，而基于Hadoop 的大数据实训平台（TipDM-Hadoop）能为大数据算法分析和大数据处理提供基础平台。位于架构最上层的大数据教学平台为培养大数据时代的数据科学家提供实训平台。

大数据挖掘实战平台建成后将极大地满足大数据时代高校师生数据分析的需求，也将为数据科学家的培养提供便利的基础设施环境，同时该工程与实战中心也将承接我省综改转型攻坚的部分重任。

1.3 联系我们

感谢您选择广州泰迪科技公司的数据挖掘产品，在系统的使用过程中如果遇到问题，请通过如下的方式与我们联系，我们将为用户提供周到满意的服务。

主页：http://www.tipdm.com

电话：020-82039399

传真：020-28871586

热线：40068-40020

地址：广州经济技术开发区科学城科珠路232号

邮编：510663

邮箱：[email protected]

2 产品介绍

2.1 大数据挖掘实战平台

随着当前信息技术发展，云计算模式已成为潮流，网络与基础设施的虚拟化等技在机构和企业得到广泛应用。社会就业单位对掌握云计算相关知识的网络操作人员存在迫切需求。这都要求相关专业教师需要掌握云计算的相关网络维护知识，开展针对云计算教学教研工作，着力于解决新兴技术在教学中的不足；尤其数学和计算机相关专业的学生，需要掌握基于虚拟化的云计算技术，以更好地寻找合适工作、适应未来岗位。

基于Hadoop实战项目，在大数据实战环境中，通过动手实操，让学员在短时间内掌握使用HortonWorkspace Data Platform（HDP）平台开发Hadoop程序，以完成高效的大数据存储、清洗和分析。

大数据挖掘与实战中心主要包括两大部分：

1、数据挖掘辅助教学套件（TipDM-T8）

² 数据挖掘建模软件

² 数据挖掘多媒体软件

² 数据挖掘教学PPT

² 数据挖掘教学案例库

² 数据挖掘实训教程

2、大数据挖掘辅助教学平台

² 大数据挖掘基础平台（TipDM-Hadoop）

² Vmware HDP虚拟机大数据实战培训教程

2.2 适用对象

² 有大数据挖掘相关课程教学的高校、研究所和培训机构

² 用大数据挖掘进行科研的高校、研究所

特别说明：Hortonworks作为全球领先的大数据平台开发、咨询、培训和支持服务提供商，是下一代大数据平台Hadoop 2.0 的领导者。

Hortonworks的全球技术合作伙伴达140多个，比如微软、Teradata和Rackspace等都建立了各自的基于Hortonworks数据平台的生产线。

Hortonworks Hadoop培训认证课程代表了行业最高水平，也是业界公认的Hadoop权威认证。

目前我公司已与Hortonworks公司在培训、咨询和系统集成方面展开了深度合作。

建议：如果采用泰迪科技公司提供的大数据挖掘实战平台建设方案，泰迪公司将派出讲师对实战中心技术人员进行专业培训（或直接派讲师进行授课），课程结束后，学员可直接参加认证考试！

3 产品构成

3.1.

3.1 数据挖掘教学软件

数据挖掘辅助教学软件采用广州泰迪智能科技有限公司花费数年时间自主研发的一个数据挖掘平台——顶尖数据挖掘平台（TipDM）。该软件使用JAVA语言开发，能从各种数据源获取数据，建立各种不同的数据挖掘模型。系统支持数据挖掘流程所需的主要过程，并提供开放的应用接口和常用算法，能够满足各种复杂的应用需求。2010年初“顶尖数据挖掘平台（TipDM）”通过了由广州赛宝软件评测中心的功能和性能测试。现产品在广东省电信规划设计院、珠江水产研究所、华南师范大学、广东中医药大学、武汉理工大学、广东工业大学、韩山师范学院、番禺职业技术学院、交通运输部公路科学研究院等单位成功试用，受到用户的赞许与肯定。

顶尖数据挖掘平台（TipDM）应用非常广泛，能够模拟以下众多方向的应用：

学生可以根据数据挖掘课程需要在（TipDM）软件平台上模拟各种数据挖掘实际应用，快速提高数据挖掘实践能力，增加数据挖掘应用经验。

顶尖数据挖掘平台（TipDM）包含了目前主流的各类算法，方便学员寓教于学，快速理解和学习算法，并可以在平台上进行算法对比，下面是顶尖数据挖掘平台（TipDM）主要算法功能：

3.1.1 软件功能

1. 数据探索及预处理

数据探索是对导入系统中的数据进行初步研究，以便更好地理解它的特殊性质，有助于选择合适的数据预处理和数据分析技术。

模型预测的质量不会超过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量，从而为保证预测质量打下基础。

算法名称	算法描述
相关性分析	相关性分析是考察两个变量之间相互关系的方向和程度的一种统计分析方法。更精确地说，当一个变量发生变化时，另一个变量如何变化，此时就需要通过计算相关系数来做深入的定量考察。当然，还有其他类型的相关系数用于测量两个以上变量之间的关系，如多元回归等。
主成分分析	主成分析分析（PCA）是指用几个较少的综合指标来代替原来较多的指标，而这些较少的综合指标既能尽可能多地反映原来较多指标的有用信息，且相互之间又是无关的。
周期性分析	分析数据变化过程中，某些特征重复出现，连续的两次出现的客观规律。在时序预测时，经常要对样本数据进行周期性分析，以更好地理解样本数据变化的特点，为时序预测分析提供指导依据。
缺失值处理	样本数据中经常存在一些缺失值，在进行预测建模前，需要对缺失值按照某些规则进行处理。处理方法主要有：1）删除；2）数据补齐（人工填写、平均值填充、特殊值填充、热卡填充、 K最近距离邻法、回归、期望值最大化方法等）。
坏数据处理	如果抽取数据中存在坏数据（脏数据），则需要对坏数据进行预处理。通常的做法是采用绝对均值法或莱因达法等对样本中的坏点数据进行剔除处理。
属性选择	由给定的属性构造或添加新的属性，以帮助提高精度和对高维数据结构的理解，是具有最佳预测准确率的子集。
数据规约	将属性数据按比例缩放，使之落入到一个小的特定区间。找出最小属性集合，使得数据类的概率分布尽可能地接近使用所有属性的原分布。
离散处理	离散化技术用来减少给定连续属性的个数，这个过程通常是递归的，而且大量时间花在排序上。对于给定的数值属性，概念分层定义了该属性的一个离散化的值。
特征提取	主要对图像、声音、信号等数据源，通过图像处理、小波变换等建立一组新的、更紧凑的属性来表示数据的过程。如图像特征提取是指根据图像特征，提取反映图像本质的一些关键指标，以达到自动进行图像识别或分类的目的。

说明：版本不断更新，更多算法详见：www.tipdm.com.cn

2. 分类与回归

分类是数据挖掘中应用得最多的方法。分类就是找出一个类别的概念描述，它代表了这类数据的整体信息，即该类的内涵描述，并用这种描述来构造模型，一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。

回归是利用历史数据找出变化规律，建立模型，并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性，通常用预测方差来度量。

分类与回归算法主要有：

l 贝叶斯：朴素贝叶斯网络、贝叶斯信念网络

l 决策树及表：决策表、CART决策树、ID3决策树、C4.5决策树

l 神经网络：BP神经网络、LM神经网络、RBF神经网络、FNN神经网络、ANFIS神经网络、WNN神经网络

l 回归分析：线性回归、逐步回归、逻辑回归、保序回归

l 其它算法：AdaBoostM1算法、KStar算法、SVM支持向量机、K-最近邻分类

主要算法介绍：

算法名称	算法描述	输出示例
BP 神经网络	BP（Back Propagation）神经网络是是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。
LM 神经网络	Levenberg-Marquardt是基于梯度下降法和牛顿法结合的优化算法，特点：迭代次数少，收敛速度快，精确度高。
FNN 模糊神经网络	模糊神经网络（Fuzzy Neural Network,FNN）是具有模糊权系数或者输入信号是模糊量的神经网络，是模糊系统与神经网络相结合的产物，它汇聚了神经网络与模糊系统的优点
RBF 径向基神经网络	径向基函数(Radial Basis Function, RBF)神经网络是具有单隐层的三层前馈网络。它是一种局部逼近网络，能够以任意精度逼近任意连续函数，特别适合于解决分类问题。
ANFIS 自适应神经模糊推理系统	自适应神经模糊推理系统（Adaptive Neural Fuzzy Inference System,ANFIS）是功能上与一阶T-S模糊推理系统等价的自适应网络，它是将神经网络的学习机制引入模糊系统，构成一个带有人类感觉和认知成分的自适应系统。
WNN 小波神经网络	小波神经网络（Wavelet Neural Network,WNN）是基于小波变换而构成的神经网络模型,即用非线性小波基取代通常的神经元非线性激励函数(如Sigmoid函数),把小波变换与神经网络有机地结合起来,充分继承了两者的优点。
SVM支持向量机	支持向量机是V.Vapnik等人在研究统计学习理论的基础上发展起来的一种新的机器学习算法，它在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。支持向量机根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷，以获得最好的推广能力。
CART决策树	分类与回归树（classification and regression tree,CART），是一种十分有效的非参数分类和回归方法，通过构建树、修剪树、评估树来构建一个二叉树。

说明：版本不断更新，更多算法详见：www.tipdm.cn

3. 时序模式

时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样，它也是用己知的数据预测未来的值，但这些数据的区别是变量所处时间的不同。

时序模式类算法主要有：

l 指数平滑

l 多元回归

l GM灰色理论

l RBF神经网络

l ANFIS神经网络

l SVM支持向量机

主要算法介绍：

算法名称	算法描述	输出示例
指数平滑	使用指数平滑（Exponential Smoothing）方法进行时间序列预测
GM 灰色理论	使用灰色GM(1,1)模型进行时间序列预测
RBF 神经网络	使用RBF神经网络方法进行时间序列预测
多元回归	使用回归方法进行时间序列预测
SVM 支持向量机	使用SVM支持向量机方法进行时间序列预测
ANFIS 自适应神经模糊推理系统	使用ANFIS自适应神经模糊推理系统方法进行时间序列预测

说明：版本不断更新，更多算法详见：www.tipdm.cn

4. 聚类分析

聚类是把数据按照相似性归纳成若干类别，同一类中的数据彼此相似，不同类中的数据相异。聚类分析可以建立宏观的概念，发现数据的分布模式，以及可能的数据属性之间的相互关系。

聚类分析类算法主要有：

l K-均值算法

l EM最大期望算法

l DBScan密度算法

l 改进K-均值算法

l 多层次聚类

主要算法介绍：

算法名称	算法描述	输出示例
K-均值算法	K-均值聚类(K-means clustering)是Mac Queen提出的一种非监督实时聚类算法，在最小化误差函数的基础上将数据划分为预定的类数K。
EM最大期望算法	最大期望（Expectation–Maximization,EM）算法是 Dempster,Laind,Rubin提出的求参数极大似然估计的一种方法，它可以从非完整数据集中对参数进行 MLE 估计。
DBScan密度算法	DBScan（Density Based Spatial Clustering of Applications with Noise），是基于密度的聚类方法，它根据对象周围的密度不断增长聚类。它能从含有噪声的空间数据库中发现任意形状的聚类。
多层次聚类	这种方法对给定的数据集合进行层次的分解，根据层次的分解如何形成，它又可分为凝聚法(也称自底向上方法)和分裂法(也称为从上向下方法)

5. 关联规则

关联规则挖掘是由Rakesh Apwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性，就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性，还不断引入兴趣度、相关性等参数，使得所挖掘的规则更符合需求。

关联分析类算法主要有：

l HotSpot关联规则

l Apriori关联规则

l FP-Tree关联规则

l HOTSPOT关联规则

l 灰色关联法

主要算法介绍：

说明：版本不断更新，更多算法详见：www.tipdm.cn

3.1.2 软件界面

3.1.3 运行环境

1、硬件环境

² CPU：P4 3.0G以上，建议使用双CPU

² 内存：1GB以上

² 硬盘：80G以上硬盘剩余空间

2、软件环境：Windows 2003 Sever

3.2 数据挖掘多媒体软件

结合课程教学需要，教研版(TipDM-Res)提供配套的教学用多媒体软件，指导学生快速了解和掌握数据挖掘建模技术。

多媒体软件主要包含：混合编程、挖掘建模、完整案例、自动动手和交互练习等。以下是部分截图：

3.3 数据挖掘教学PPT

结合课程教学需要，数据挖掘辅助教学套件(TipDM-Res)同时提供配套的教学用PPT:

主要包含以下内容：

3.4 数据挖掘实训教程

结合课程教学需要，数据挖掘辅助教学套件提供实训教程，方便学生基于数据挖掘软件快速实现数据挖掘预测建模。

《数据挖掘：实用案例分析》和《MATLAB数据分析与挖掘实战》中每个案例分别由挖掘目标的提出、分析方法与过程、建模仿真、核心知识点和拓展思考等内容构成，如下图示：

3.5 数据挖掘辅助教学案例库

泰迪公司近10年来在电信、电力、金融、互联网、教育、水产、税务、生产制造等行业20多个数据挖掘应用整理成案例库，案例库包括项目背景、研究目标及详细的技术实现路线，并配完整的数据资料。

3.6 大数据分析平台

产品描述：云数据挖掘引擎：包括云分类引擎、云聚类引擎、云关联规则引擎、云智能推荐引擎等；调度系统：包括作业调度、作业监控和作业管理；主机监控系统：采集集群中主机的cpu、memory、disk、process、network等相关数据，并采用图形化的方式展示；云平台监控系统：监控云计算平台的运行指标，可以实时监控云平台的运行情况，子节点运行情况；云数据挖掘算法库：包括随机森林、K-Means聚类、推荐器、基于用户的协同过滤等分布式算法；培训：包括Hadoop环境配置，理解Hadoop2.0和HDFS，开发MapReduce程序，Map端流程—聚合，分区和排序，Hadoop输入输出格式，优化MapReduce任务，高级MapReduce特性，Hadoop单元测试编程，HBase编程，Pig编程，Hive编程，Oozie工作流。

功能	模块	说明
云数据挖掘引擎	挖掘引擎	云分类引擎、云聚类引擎、云关联规则引擎、云智能推荐引擎等
	调度系统	包括作业调度、作业监控和作业管理
	主机监控系统	主要用来采集集群中主机的cpu、memory、disk、process、network等相关数据，并采用图形化的方式展示
	云平台监控系统	主要用来监控云计算平台的运行指标，可以实时监控云平台的运行情况，子节点运行情况，用来为系统增加/删除/更新节点提供知道依据。它主要包括：1）分布式文件系统监控；2）作业监控；3）云平台管理等功能
云数据挖掘算法库	分类算法	基于并行计算的分类算法，如： 1、朴素贝叶斯、贝叶斯网络 2、随机森林 3、神经网络 4、模糊神经网络 5、支持向量机
	聚类算法	基于并行计算的聚类算法，如： 1、K-Means算法 2、Canopy 算法 3、Fuzzy K-Means算法 4、Mean Shift算法
	关联规则	基于并行计算的关联规则算法，如： 1、二项集关联规则 2、推荐器算法
	智能推荐	基于并行计算的智能推荐算法，如： 1、基于用户的协同过滤算法 2、基于内容的协同过滤算法

3.7 大数据实战培训

3.7.1 环境部署

使用10台实体服务器分别安装Windows7 64位操作系统或者Linux（Redhat 6、CentOS 6都可）64位操作系统，每台机器安装Vmware软件用于部署培训使用虚拟机。

每台实体服务器建立6个虚拟机（由HortonWorks提供），其虚拟机参数设置如下：

硬件	要求	备注
服务器数量	7（集群）+1（数据库服务器）+1（应用服务器）
CPU	厂家：Intel/AMD 主频：3000MHz+ 核数：12+ L3缓存：15MB+ 线程数量：12+	针对所有服务器
内存	16G+（集群） 8G+（数据库服务器） 8G+（应用服务器）	最少8G
硬盘	SATA/SAS 1T+200G，2个磁盘驱动器，每个500G+2个磁盘驱动器每个100G（用作系统盘）（集群） 1T+200G（数据库服务器） 300G+200G （应用服务器）	最少50G
网络	千兆以太网	固定IP
宿主机	支持虚拟化/64位系统
系统	CentOS6.4 64位	可为虚拟机系统

说明：若需保持60个客户端同时可操作，则每台实体机开启6个虚拟机，这时需要客户端安装Vmware相关软件保证可以远程桌面到虚拟机。

3.7.2 虚拟机资源

虚拟机资源列表如下：

软件	版本	备注
系统	CentOS6.4	64位
HDP Hadoop平台	HDP2.0	包括服务： HDFS Yarn MapReduce Hive HBase Pig Ganglia Nagios ZooKeeper
Ambari	1.5	HDP调度软件
Eclipse	4.3	Java 开发IDE
Java	1.6
数据		包含培训使用各种数据

HDP平台包括的服务有：

3.7.3 课程安排

培训使用HortonWorks提供的培训资料，帮助开发者了解HDP平台，理解开发Hadoop程序的基本原理，最后可以使培训者能自主开发Hadoop程序，同时进行培训后，学员可以有更大的机会通过HortonWorks培训师认证，其认证在业界是比较有含金量的。

课程安排：课程一共包含40课时，主要内容如下：

大纲	课程
Hadoop基础	培训准备：环境配置单元1：理解Hadoop2.0和HDFS 单元2：开发MapReduce程序
Hadoop进阶	单元3：Map端流程—聚合单元4：分区和排序
Hadoop进阶	单元5：Hadoop输入输出格式单元6：优化MapReduce任务单元7：高级MapReduce特性
Hadoop应用	单元8：Hadoop单元测试编程单元9：HBase编程单元10：Pig编程
Hadoop应用	单元11：Hive编程附录A：Oozie工作流其他：交流

与课程相关的代码资源：

3.8 云服务器（可选）

云计算作为网格计算的升级，在近几年来被提出，他具有超大规模、虚拟化、高可靠性、通用性强、高扩展性、按需服务、易用等优点，这些优点可被用来搭建系统解决海量数据挖掘的问题。

基于云计算的数据挖掘模式，它的同一个算法可以分布在多个节点上，多个算法之间是并行的，多个资源实行按需分配，而且分布式计算模型采用云计算模式。

4 硬件配置及软件部署

4.1 硬件清单

硬件使用使用16台IBM机器，其中可以分为两部分，数据挖掘平台使用机器和大数据实战培训部分。其主要硬件要求以及说明如下表。

服务器名称

服务器型号

服务器数量

CPU

内存

硬盘

备注

IBM机

x3650 M4

Xeon E5-2650

每16G/个

SAS硬盘/2个

每200G个

数据挖掘平台使用

IBM机

X3650 M4

Xeon E5-2650

每60G/个

SAS硬盘/2个

每500G个

大数据实战培训使用/支持虚拟化

以上硬件配置供参考，同类配置亦可。

4.2 数据挖掘平台配置

数据挖掘平台包括两部分，单机版算法以及云平台算法。其中云平台占用5台机器，数据挖掘平台主工程部署在1台机器，其拓扑图如下所示：

4.3 大数据实战机器配置

大数据实战机器配置主要是指针对学员使用的环境进行配置。初步估计60个客户端接入，那么10台IBM机器每台配置6个虚拟机即可。同时需保证每台虚拟机占有专属的IP，每个客户端可以远程桌面到虚拟机。

你可能感兴趣的:(数据挖掘)

Python爬虫实战：研究MarkupSafe库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 MarkupSafe
1.引言1.1研究背景与意义随着互联网数据量的爆炸式增长，网页内容自动提取与分析技术在信息检索、舆情监控、数据挖掘等领域的需求日益凸显。网络爬虫作为获取网页内容的核心工具，能够自动化采集互联网信息。然而，直接渲染爬取的网页内容存在安全隐患，特别是跨站脚本攻击（XSS）风险。攻击者可能通过注入恶意脚本窃取用户信息或破坏网站功能。MarkupSafe作为Python的安全字符串处理库，能够有效处理不可
信息检索简介——文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2005年8月17日至9月3日在美国加利福尼亚州伯克莱纳举行了SIGIR国际会议（中文全称“计算机信息retrieval国际会议”），这是信息检索领域的顶级会议之一。该会议由ACM主办，主题涵盖了包括文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等多个热门方向。此次会议是第一次将信息检索作为一个学科，并取得重大突破。本文试图对SIGIR进行一个完整的介绍，阐述
22种创新思路！今年必将是特征选择爆发的一年小唯啊小唯人工智能注意力机制特征选择
2025深度学习发论文&模型涨点之——特征选择特征选择是机器学习和数据挖掘领域中一个非常重要的步骤。它指的是从原始特征集合中挑选出对目标变量有较强预测能力的特征子集。在实际的数据集中，往往包含众多特征，但并非所有特征都对模型的性能有正面影响。例如在房价预测任务中，原始特征可能包括房屋的面积、房间数量、所在小区、周边配套设施等众多内容。通过特征选择，可以剔除一些无关的或者冗余的特征，比如可能存在的重
【数据挖掘】分类算法学习—ID3 会的全对٩(ˊᗜˋ*)و 数据挖掘数据挖掘分类学习经验分享 ID3
分类算法学习—ID3ID3（IterativeDichotomiser3）是一种经典的决策树学习算法，由RossQuinlan于1986年提出，主要用于处理离散特征的分类问题。其核心思想是通过信息增益选择最优特征进行节点分裂，递归构建决策树。要求：理解并掌握ID3算法，理解算法的原理，能够实现算法，并对给定的数据集进行分类，分析个人参股的情况代码实现：importpandasaspdimportn
四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
Python 数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙清水白石008 python Python题库 python 数据挖掘动画
Python数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙引言在数字化浪潮席卷全球的今天，数据已成为企业和组织最重要的战略资产。海量数据蕴藏着巨大的价值，等待我们去挖掘和发现。数据挖掘(DataMining)，作为从海量数据中提取有价值知识和模式的关键技术，正日益受到各行各业的重视。它如同探矿者的火眼金睛，能够穿透数据的迷雾，发现隐藏在背后的规律和趋势，为商业决策、科学研究和社会发展提供强有
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
Python web框架FastAPI——一个比Flask和Tornada更高性能的API 框架 Python进阶者中间件 python web http docker
点击上方“Python爬虫与数据挖掘”，进行关注回复“书籍”即可获赠Python从入门到进阶共10本电子书今日鸡汤借问酒家何处有，牧童遥指杏花村。0前言前几天给大家分别分享了（入门篇）简析Pythonweb框架FastAPI——一个比Flask和Tornada更高性能的API框架和（进阶篇）Pythonweb框架FastAPI——一个比Flask和Tornada更高性能的API框架。今天欢迎大家来
【Python报错】成功解决error: subprocess-exited-with-error：安装lxml模块不再报错云天徽上 python运行报错解决记录 python 开发语言 lxml
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
揭秘互联网大数据求职面试：从Zookeeper到数据挖掘小葛呀大数据面试宝典互联网大数据 Zookeeper Yarn Redis Kafka HDFS
场景：互联网大数据求职者面试角色介绍：面试官老黑:严肃而专业，技术深入，擅长引导候选人展示自己。程序员小白:搞笑且略显紧张，对基础问题能应付自如，但面对复杂问题时经常词穷。第一轮提问：老黑:"小白，你对Zookeeper的理解是什么？它在分布式系统中扮演什么角色？"小白:"Zookeeper...是个协调者，负责管理配置和同步数据...就像一个团队的协调员，确保每个节点都知道该做什么。"老黑:"没
在大数据求职面试中如何回答分布式协调与数据挖掘问题
在大数据求职面试中如何回答分布式协调与数据挖掘问题场景：小白的大数据求职面试小白是一名初出茅庐的程序员，今天他来到一家知名互联网公司的面试现场，面试官是经验丰富的老黑。以下是他们之间的对话：第一轮提问：分布式与数据采集老黑：小白，你对Zookeeper有了解吗？小白：当然，Zookeeper是一个分布式协调服务，主要用于分布式应用程序中的同步服务、命名服务和配置管理。老黑：不错，你能说说Flume
另类数据挖掘：如何用网络搜索数据预测上市公司业绩？量化价值投资入门到精通数据挖掘人工智能 ai
另类数据挖掘：如何用网络搜索数据预测上市公司业绩？关键词：另类数据、网络搜索数据、业绩预测、文本挖掘、机器学习、量化投资、自然语言处理摘要：本文探讨了如何利用网络搜索数据这一另类数据源来预测上市公司业绩。我们将从理论基础出发，详细分析搜索数据与公司业绩之间的关联机制，介绍完整的数据采集、处理和分析流程，并通过实际案例展示如何构建预测模型。文章还将讨论该方法的局限性、实际应用场景以及未来发展方向，为
解锁数据宝藏：数据挖掘之数据预处理全解析奔跑吧邓邓子必备核心技能数据挖掘数据预处理机器学习
目录一、引言：数据预处理——数据挖掘的基石二、数据预处理的重要性2.1现实数据的问题剖析2.2数据预处理的关键作用三、数据预处理的核心方法3.1数据清洗3.1.1缺失值处理3.1.2离群点处理3.1.3噪声处理3.2数据集成3.2.1实体识别3.2.2冗余处理3.2.3数据值冲突处理3.3数据变换3.3.1平滑处理3.3.2聚合操作3.3.3离散化3.3.4归一化四、数据预处理的实践流程4.1数据
数据挖掘助力AI人工智能提升竞争力 AI大模型应用工坊人工智能数据挖掘 ai
数据挖掘助力AI人工智能提升竞争力关键词：数据挖掘、AI人工智能、竞争力提升、数据处理、算法应用摘要：本文深入探讨了数据挖掘如何助力AI人工智能提升竞争力。首先介绍了数据挖掘与AI的背景知识，包括目的、预期读者、文档结构和相关术语。接着阐述了数据挖掘和AI的核心概念及联系，详细讲解了核心算法原理和具体操作步骤，并辅以Python代码。随后分析了相关的数学模型和公式，通过具体例子加深理解。在项目实战
NLPIR智能语义：大数据精准挖掘是信息化发展趋势 weixin_33778544 大数据数据库人工智能
随着信息技术的高速发展、数据库管理系统的广泛应用，人们积累的数据量急剧增长，大量的信息给人们带来方便的同时，也带来了诸如：信息过量难以消化，信息真假难以辨识，信息安全难以保证，信息形式不一致难以统一处理等问题。如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。数据挖掘就是对观测到的数据集进行分析，目的是发现未知的关系和以数据拥有者可以理解并对其
KNN算法数字识别实战：训练集、测试集与代码实现 Aurora曙光
本文还有配套的精品资源，点击获取简介：KNN算法，作为一种经典的监督学习方法，特别适用于分类和回归问题，在模式识别和数据挖掘中应用广泛。本文通过构建数字识别任务的训练集和测试集，并提供完整的代码实现，向读者展示如何使用KNN算法进行数字识别。文章详细解释了K值选择、数据预处理、距离计算、最近邻选择、类别决定以及模型评估等关键步骤，并强调了KNN在大数据集中的效率问题。1.KNN算法概述与在数字识别
解锁决策树：数据挖掘的智慧引擎
目录一、决策树：数据挖掘的基石二、决策树原理剖析2.1决策树的基本结构2.2决策树的构建流程2.2.1特征选择2.2.2数据集划分2.2.3递归构建三、决策树的实践应用3.1数据准备3.2模型构建与训练3.3模型评估四、决策树的优化策略4.1剪枝策略4.1.1预剪枝4.1.2后剪枝4.2集成学习五、案例分析5.1医疗诊断案例5.2金融风险评估案例六、总结与展望一、决策树：数据挖掘的基石在当今数字化
Python爬虫实战：研究concurrent.futures相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 php mr
一、引言1.1研究背景与意义随着互联网的迅速发展，网络上的信息量呈爆炸式增长。网络爬虫作为一种自动获取网页内容的技术，在搜索引擎、数据挖掘、舆情分析等领域有着广泛的应用。然而，面对海量的网页资源，传统的单线程爬虫效率低下，无法满足实际需求。因此，开发高效的并发爬虫系统具有重要的现实意义。1.2国内外研究现状国外在网络爬虫领域的研究起步较早，技术相对成熟。例如，Google的爬虫系统能够在短时间内抓
Python爬虫实战：研究threading相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 html scrapy
1.引言1.1研究背景与意义随着互联网的快速发展，网页数据量呈爆炸式增长。网络爬虫作为一种自动获取网页内容的工具，在搜索引擎优化、数据挖掘、舆情分析等领域具有广泛应用。传统的单线程爬虫在面对大规模数据采集任务时效率低下，无法充分利用多核CPU资源。多线程技术可以显著提高爬虫的并发处理能力，加快数据采集速度。1.2国内外研究现状国外在网络爬虫领域起步较早，Google、Bing等搜索引擎公司拥有大规
如何运用 AI 工具运营海外社媒账号引量AI 人工智能大数据海外社媒 tiktok矩阵矩阵
在全球化与数字化深度融合的当下，海外社交媒体成为企业拓展国际市场、塑造品牌形象的关键平台。借助AI工具能显著提升海外社媒账号运营效率与效果，特别是在构建和运营TikTok矩阵等方面，AI的赋能作用不容小觑。下面我们就来详细探讨如何应用AI工具运营海外社媒账号。一、借助AI进行精准市场分析与账号定位剖析海外市场需求AI工具凭借强大的数据挖掘和分析能力，可深入剖析海外不同地区、不同文化背景下用户的兴趣
微博商业数据挖掘方法社会我857 程序员杂志-大数据技术深度实践
本文主要介绍微博商业数据挖掘的体系及方法，但并不注重模型和算法这些细节，而是阐述数据如何贴近、支持和引导业务，如何建立合理的评价体系，以及如何围绕这两点建设数据挖掘架构。业务及产品微博广告生态的复杂程度在业界数一数二。由于微博本身的开放性，微博广告客户天生就有如下多样性：类型电商类型：投放方式大多比较传统，投放目标主要是注册或购买；App类型：投放目标主要是App下载或者用户唤醒；O2O：投放目标
【数据挖掘】期末复习模拟题（暨考试题） chaser&upper 数据分析随笔小记数据挖掘 python 聚类
数据挖掘-期末复习试题挑战全网最全题库单选题多选题判断题填空题程序填空sigmoid曼哈顿距离泰坦尼克号披萨价格预测鸢尾花DBSCN密度聚类决策树购物表单-关联规则火龙果-关联分析数据非线性映射高斯朴素贝叶斯分类器手写数字识别k1-10聚类平均偏差程序分析PM2.5线性回归Titanic数据清洗KNN鸢尾花Kmeans聚类KNN电影分类频繁k项集混淆矩阵OverlookMOOC总结挑战全网最全题库
Turkey HSD检验法/W法 weixin_30746117 python r语言 matlab
sklearn实战-乳腺癌细胞数据挖掘（博主亲自录视频）https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share医药统计项目联系QQ：231469242python2.7#-*-cod
python中Scikit-learn模块介绍不会仰游的河马君 python python scikit-learn 开发语言
Scikit-learn是Python中一个开源的机器学习库，它提供了简单高效的工具，用于数据挖掘和数据分析。该库包含了各种分类、回归、聚类算法，以及数据预处理、模型选择、模型评估等功能。Scikit-learn的特点是接口统一、使用简单、运行高效，并且有一个活跃的社区不断维护和更新。它广泛应用于数据科学、机器学习、人工智能等领域。应用和发展趋势Scikit-learn在机器学习和数据科学领域的应
Python爬虫实战：模拟登录微博 – 通过POST请求获取Cookie Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 selenium beautifulsoup
1.引言在现代的互联网应用中，爬虫技术作为数据收集的重要手段，广泛应用于社交媒体、电商平台、新闻网站等各种领域。社交媒体平台，特别是微博，作为中国最受欢迎的社交网站之一，聚集了海量的用户数据和内容。通过爬取微博数据，开发者可以获取到大量的用户信息、热门话题、微博动态等数据，对分析社交趋势、舆情监测、数据挖掘等具有重要意义。在这篇博客中，我们将通过模拟登录微博的方式，爬取需要登录后才能访问的微博数据
数据挖掘与机器学习期末复习整理无敌摸鱼高手数据挖掘与机器学习数据挖掘机器学习人工智能期末复习知识总结
1.分类：–有类别标记信息,因此是一种监督学习–根据训练样本获得分类器，然后把每个数据归结到某个已知的类，进而也可以预测未来数据的归类。2.聚类：–无类别标记,因此是一种无监督学习–无类别标记样本，根据信息相似度原则进行聚类，通过聚类，人们能够识别密集的和稀疏的区域，因而发现全局的分布模式，以及数据属性之间的关系3.聚类方法：划分方法-（分割类型）K-均值K-Means顺序领导者方法基于模型的方法
简历模板1——王明 | 高级数据挖掘工程师 | 5年经验 XiaoQiong.Zhang 数据挖掘人工智能
王明|高级数据挖掘工程师|5年经验(+86)189-xxxx-xxxx|[email protected]|深圳市GitHub|LinkedIn工作经历科技前沿集团|高级数据挖掘工程师2021.06-至今核心贡献：主导建立公司AI中台，整合10+业务线数据资源，支撑日均5亿+数据处理研发自适应特征工程框架，特征生成效率提升3倍，减少人工特征工程工作量70%设计模型健康监测系统，关键业务模型异常响
线性代数导引：附录：行列式几何解释 AGI大模型与大数据研究院 AI大模型应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍线性代数是数学中的一个重要分支，它研究的是向量空间和线性变换。在计算机科学中，线性代数被广泛应用于图形学、机器学习、数据挖掘等领域。行列式是线性代数中的一个重要概念，它可以用来求解线性方程组的解、计算矩阵的逆、判断矩阵是否可逆等问题。本文将介绍行列式的几何解释，帮助读者更好地理解行列式的概念和应用。2.核心概念与联系2.1向量的叉积向量的叉积是指两个向量的乘积得到的另一个向量。设向量$
爬虫技术：数据挖掘的深度探索与实践应用代码老y 爬虫数据挖掘人工智能 python
一、爬虫技术的深度应用爬虫技术的应用范围非常广泛，从简单的网页数据抓取到复杂的多源数据整合，爬虫技术都能发挥重要作用。以下是一些常见的深度应用场景：（一）多源数据整合在许多情况下，单一数据源往往无法满足我们的需求。例如，在进行市场研究时，可能需要从多个电商平台、社交媒体平台和新闻网站获取数据。爬虫技术可以同时从多个数据源抓取数据，并将这些数据进行整合和分析，从而提供更全面的市场洞察。（二）数据实时
mysql查询每种产品的销售总额_MDX示例：统计各产品每个季度的销售排名爱喝冰红茶
ITPUB数据仓库与数据挖掘论坛用户Damon__Li问：统计各种产品在本年每个季度的销售排名，(现在有日期、产品维度和销售额度量)大体显示如下Q1Q2Q3Q4销售额排名销售额排名销售额排名销售额排名产品130002200035000140ITPUB数据仓库与数据挖掘论坛用户Damon__Li问：统计各种产品在本年每个季度的销售排名，(现在有日期、产品维度和销售额度量)大体显示如下Q1Q2Q3Q4
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin