小琳猫

初识大数据

摘要
写在前面
- 书本导读
- 聊聊
0.序
1.绪论
- 1.1大数据
- 1.2大数据分析
2.大数据分析模型
- 2.1大数据分析模型的建立方法
- 2.2基本统计量
- 2.3推断统计
3.关联分析模型
- 3.1回归分析
- 3.2关联规则分析
- 3.3相关分析
4.分类分析模型
- 4.1判别分析
- 4.2基于机器学习的分类模型
5.聚类分析模型
6.结构分析模型
7.文本分析模型
8.大数据分析的数据预处理
9.降维
- 9.1特征工程
- 9.2降维算法
10.面向大数据的数据仓库
- 10.1概述
- 10.2分布式数据仓库系统
- 10.3内存数据仓库系统
11.大数据分析算法
12.大数据计算平台
13.流式计算平台
14.大图计算平台
15.社交网络
16.推荐系统
- 16.1概述
- 16.2一些推荐算法

摘要

本篇博客参考哈尔滨工程大学王宏志老师于2017年出版的《大数据分析原理与实践》一书，对大数据的概念进行简略地总结。

由于阅读该书的目的仅是快速了解大数据所涉及的理论和技术，再加之其中包含的许多原理已在先前学习的机器学习、数据库、数理统计等科目中熟悉，因而未作详细记录，仅用4天完成。

写在前面

书本导读

《大数据分析原理与实践》一书从大数据分析的概述、模型、分析过程与技术、算法、平台、应用多维度地对大数据分析进行了全面、基础、理论实践并行的介绍，这几个维度也为深入研究大数据提供了指引和入口，是入门大数据的绝佳教材。

该书是教育部与阿里云产学结合的产物之一，书中的分析示例均通过阿里云的大数据分析平台，商业气息十分浓重。

聊聊

大数据的概念在早年IT行业、信息数字化上升的初期被提出，并随着行业的繁荣发展得到了同样的热度，成为家喻户晓的名词。大数据客观上见证了IT行业和数字化的繁荣，主观上更多受到了媒体和工学业界的鼓吹，近两年也逐渐随着IT行业的凛冬而逐渐淡化。

从个人观点来看，大数据涵盖的思想并不新颖，无论从理论上“含有较多人工干预的传统数据分析”、“融入更多自动化的机器学习”，到技术上“数据库技术的发展应用”、“行业垄断带来的软硬件资源集约造成的云计算”、“数字化、信息化规模扩大带来的分布式、大规模数据”，以及“围绕着垄断行业和电商、中介平台行业带来的如推荐系统、关系推理等应用”。

实际上，大数据更多地是IT垄断企业为了搏得更多政府支持、公众眼球，统计应用学者跟逐时代浪潮进行转型发展的一次契机。当然，大数据客观上也带来了一些新的技术、产业增长点和应用。

这里给出阮一峰244期的科技爱好者周刊，表达了他对大数据的一些观点。

0.序

1）阿里云总裁——胡晓明序

从IT领域讲，第四次科技革命的主角是IT技术，主要包括：云计算、大数据、人工智能、物联网。
①云计算特别是公有云作为基础设施，作为这场科技革命的承载平台，将全面支撑各类新技术、新应用。
②云计算相比于传统IT计算资源具有：硬件集约化、人才集约化、安全集约化、服务普惠化四个优点。
③云计算是“数据在线”的主要承载，“在线”是当前时代最重要的本能，它让互联网变成了最具渗透力的基础设施，数据变成了最具共享性的生产资料，计算变成了随时随地的公共服务。
④云计算不仅承载数据本身，同时也承载数据应用所需的计算资源。云计算是“智能”与“智慧”的重要支撑。
⑤智慧的两大支撑是网络（负责收集与共享数据）与大数据（“原材料”是各类智慧应用的基础），云计算是支撑网络和大数据的平台。
⑥云计算是企业享受平等IT应用与创新环境的有力保障，打破了小微企业和创业企业面临的IT技术和IT技术成本方面的壁垒，方便企业更加聚焦于擅长的领域进行创新。
⑦除了发挥基础设施平台的支撑作用，2.0时代的云计算将影响产业从量变到质变，云计算将重塑整个ICT生态，向下定义数据中心、IT设备，向上定义软件与应用，横向承载数据与安全，纵向支撑人工智能技术的演进与创新。

从国家层面讲，发展云计算产业的战略意义重大：
①云计算不仅是“IT基础设施”，还应像电网、移动通信网、互联网和交通网一样，成为“国家基础设施”，全面服务国家多项重大战略的实施与落地。
②云计算是网络强国建设的重要基石，发展云计算产业有利于我国实现IT全产业链的自主可控，提高信息安全保障水平，并推动大数据和人工智能的发展。
③云计算是提升国家治理能力的重要工具，助力于大数据、人工智能、物联网等技术应用到智慧城市、智慧政务等建设中，助于提高国家及各城市的治理水平和服务能力。
④云计算将全面推动国家产业转型升级，支持“中国制造2025”、“互联网+”，推动“两创”深度融合，为创新创业提供优质土壤。
⑤在DT时代，计算及计算能力是衡量一个国家科技实力和创新能力的重要指标，只有掌握计算能力，才具备全面支撑创新的基础，才有能力挖掘数据的价值，才能在重塑ICT生态过程中掌握主导权。
⑥云计算将成为接下来几年全球科技和产业竞争的焦点，我国云计算产业目前具备和发达国家抗衡的能力，我们对数据的认知、驾驭能力和对资源、人力的利用开发也与发达国家等同，因而正处于一个“黄金窗口期”。

人才是支撑技术进步和产业发展的最主要力量，未来世界各国在IT领域的竞争在某种程度上会转变为人才之争，加强专业人才培养是推动云计算、大数据产业发展的重要抓手。

2）作者序

对“大数据分析”的解读：①分析：可看作统计分析的延申；②数据：可看作数据管理与挖掘的扩展；③大：数据密集高性能计算的具体化

所需知识：①分析：统计学、数据分析、机器学习；②处理：数据库、数据挖掘；③计算平台：并行系统、并行计算

涉及内容：①模型：大数据分析模型的描述方法，不考虑实现下针对应用需求建立大数据分析模型，可用R语言、阿里云可视化工具描述；②技术：解决大数据分析的效率和可扩展性；③实现平台；④应用

未涉及内容：①数据流分析算法；②神经网络/深度学习；③大数据可视化；④大图分析算法；⑤医疗、社会安全、教育、工业领域应用

阅读人员：数据科学家；大数据算法研究、开发人员；大数据系统工程师

其他推荐书目：《大数据算法》、《复杂数据统计分析方法》、《多元统计分析导论》、《模式分类》

大数据分析平台：阿里云大数据开发治理平台DataWorks

1.绪论

1.1大数据

1）大数据时代（大数据的起源与背景）

起源：08年《Nature》杂志刊登的"Big Data"专题，11年《Science》杂志刊登了"Dealing with Data"

背景：①由(移动)互联网的发展，带来社会的信息化，信息量激增；②数据作为一种生产资料具有高可挖掘价值，对于海量数据的分析和开发受到国家级重视

2）大数据的定义

①wiki：大数据是指无法在可承受的时间范围内用常规工具进行捕捉、管理和处理的数据集合
②《大数据时代》：大数据是指不用随机分析法（抽样调查）这样的捷径，采用全量数据进行分析处理
③大数据研究机构“Gartner”：大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

3）大数据的特点（4V）

①Volume：规模大，数据的存储和计算都需要耗费海量规模的资源。数据的规模越大，通常对数据挖掘所得到的事物演变规律越可信，数据的分析结果也具有代表性，这两者难以用线性进行表达
②Velocity：高速性，数据增长速度快，需要及时处理，让对数据分析处理的速度跟上数据产生和失效的时间
③Variety：多样性，数据来源多样（网络、企事业单位、政府、媒体）；形式多样，多为非结构化或多模态的半结构化数据（位置、图片、音频、视频）
④Value：高价值，大数据的价值总量大，但价值稀疏，即知识密度低。不同数据集的知识密度不同，大多数据是重复的，忽略部分数据对整体的分析和处理结果几乎没有影响

大数据不仅是一种资源，还作为一种思维方法，伴随大数据产生的数据密集型科学，有学者称为第四种科学模式，其特点在于：①不在于数据的杂乱，但强调数据的规模；②不要求数据的精准，但看重其代表性；③不刻意追求因果关系，但重视规律总结；这一思维成为复杂现象中透视本质的重要工具

1.2大数据分析

大数据分析是大数据到信息，再到知识的关键步骤

1）数据分析的定义：数据分析是指用适当的统计分析方法对收集来的大量数据进行分析、提取有用信息、形成结论的详细研究和概括总结的过程

2）数据分析的层次

①描述分析：探索历史数据并描述发生了什么（对历史数据的总结），如聚类、相关规则挖掘、模式发现和描述数据规律的可视化分析
②预测分析：预测未来的概率和趋势，如逻辑回归、基于分类器的预测
③规范分析：根据期望的结果、特定场景、资源以及对过去和当前事件的了解对未来的决策给出建议，如基于模拟的复杂系统分析和基于给定约束的优化解生成

3）大数据分析的过程

①业务理解：理解项目目标和业务需求，将业务知识转化为数据分析问题的定义和实现目标的初步计划上（需求分析）
②数据理解：从初始数据的收集开始经过一些处理，熟悉数据、识别数据的质量问题、首次发现数据的内部属性、探测引起兴趣的子集去形成隐含信息的假设（在正式进行数据清洗、建立数据模型、开发部署之前进行一些尝试，以理解数据，便于采用合适的方法分析处理）
③数据准备：从未处理数据中构造最终数据集的所有活动，准备后的数据是模型的输入值，包括数据结构选择与转换、数据清洗
④建模：模型选择与调参
⑤评估：评估模型的质量和项目目标需求是否完成
⑥部署：将数据中的知识以便于用户使用的方式重新组织和展现，如产生简单的报告等

4）大数据分析涉及的技术

①数据采集：利用数据库接收终端数据，该步骤的主要挑战是高并发，ETL工具负责将分布式的，异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成，最后导入到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础

②数据管理：使大数据“存得下，查的出”，关键是数据的组织，NoSQL（键值对、文档型、图数据库）NewSQL（可扩展高性能还满足ACID）

③基础架构：高性能的计算架构和存储系统，如用于分布式计算的MapReduce计算框架、Spark计算框架，用于大规模数据协同工作的分布式文件存储HDFS等

④数据理解和提取：从结果、语义多样的数据中提取出可以直接进行分析、处理的数据，包括NLP、信息抽取（将非结构化数据进行结构化处理）

⑤统计分析：运用统计方法和分析对象的有关知识，从定量和定性结合上进行的研究活动，是继统计设计、统计调查、统计整理后的工作，如假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步分析、回归预测与残差分析、岭回归、逻辑回归、曲线估计、因子分析、聚类分析、PCA、快速聚类分析与聚类法、判别分析、对应分析、多元对应分析（最有尺度分析）、bootstrap技术等，常用的工具有R语言、SPSS等

⑥数据挖掘：通过算法搜索海量数据中隐藏信息的过程，包括分类、估计、预测、相关性分组或关联规则、聚类、描述和可视化、复杂数据类型挖掘。相比于统计分析，数据挖掘一般没有事先预定好的主题，而是基于现有数据进行各种计算，以达到预测的效果，实现一些高级别的数据分析需求。

⑦数据可视化：关于数据视觉表示形式的科学技术研究，将数据表示成人能够直接读取的形式，根据可视化的原理可分为：基于几何的技术、基于像素的技术、基于图标的技术、基于层次的技术、基于图像的技术和分布式技术，根据数据类型可分为：文本可视化、图可视化、时空数据可视化、多维数据可视化，其工具包括：报表类工具、BI分析工具和专用的可视化工具

5）大数据分析的难点

①可扩展性：使得分析算法能够适应大规模数据，在大规模数据上能够在时间约束内得到结果
②可用性：分析结果高质量；分析结果适用于实际的需求
③领域知识结合：需要与领域紧密结合
④结果的检验：分析结果需要一定检验

2.大数据分析模型

尽管大数据分析的方法林林总总，但面对具体的应用，大数据分析非常依赖于想象力，即分析的目标（通过分析从大数据中发现什么知识、得到什么规律，进而产生什么样的价值）

1）何为大数据分析模型：大数据分析模型用于描述数据之间的关系，讨论要从大数据中发现什么

2）大数据分析模型的分类：①按数据类型：面向结构化多维数据的多元分析、图分析、非结构化的文本分析；②按输入与输出的关系：回归、分类、聚类、关联性分析；③按输入的特征：监督学习、无监督学习、半监督学习

面向具体应用的大数据分析模型往往是分析方法、模型的扩展或叠加

大数据分析与统计分析、机器学习、数据挖掘、数据仓库等学科都存在关系，因而有学者建议使用数据科学来覆盖整个领域

2.1大数据分析模型的建立方法

1）传统数据建模方法与大数据建模方法的比较

首先以大数据分析为结点，将数据分析方法分为传统建模方法和大数据建模方法，这两者的异同自大数据分析的概念提出开始就争辩不休

①传统分析是”因果分析“，大数据分析是”关联分析“
②传统分析是”假设→检验“形式的分析，大数据分析是”探索→关联“形式的分析
③大数据分析并无新颖之处，只是将传统分析方法扩展到了更大规模的数据上，需要的只是一些大规模数据处理技术而不是更新的建模方法
④作者观点：两者并非割裂或对立，无需可以区别，应该重于应用

2）大数据分析模型的建立方法

业务调研 → 准备数据 → 浏览数据 → 变量选择 → 定义（发现）模型的模式 → 计算模型参数（调参） → 分析模型的解释和评估

2.2基本统计量

基本统计量：通过对数据进行基本的统计计算得到的统计量，简单但有效

1）全表统计量
①反应数据集中趋势：均值：受极端值影响大；中位数：不能充分利用所有数据信息；众数：当各个数据的重复次数相当时失效
②反应数据的波动大小：极差：不能充分利用全部数据；方差（标准差）：计算繁琐，单位与原数据单位不一致

2）相关系数
相关系数：用于衡量变量之间关联关系的统计量

①皮尔森相关系数： $ρ_{X,Y} = \frac {conv(X,Y)} {σ_X × σ_Y} ∈ [-1,1]$ ，两变量协方差与标准差的商，0表示两变量无关，正表示正相关，负表示负相关，绝对值越大关联性越强

2.3推断统计

推断统计：研究如何利用样本数据来推断总体特征的统计方法

1）参数估计
利用样本推断总体特征，实际问题中所研究的总体分布类型是已知的（经验或假设），但分布依赖于几个未知的参数，此时求总体分布的问题就归结为求其未知参数的问题

①点估计：寻求未知参数的估计量和估计值

设θ是总体分布X的未知参数，由观测样本X={x1,x2,…}构成的函数θ’(X)称为θ的估计量，其代入具体数值后称为估计值

矩估计：以样本的各阶矩（原点矩、中心矩）[的连续函数] 作为总体的各阶矩得到的估计量，如一阶原点估计作为期望的无偏估计，二阶中心矩作为期望的有偏估计
极大似然估计

②区间估计

从点估计和抽样标准差出发，按给定的概率值（置信度/置信水平，显著性水平=1-置信度）建立包含待估计参数的区间（置信区间），其原理是样本分布理论。

样本分布提供提供概率解释，标准差大小决定区间估计的长度。通常我们希望，置信度大一些，置信区间短一些，但实际上这两者往往是矛盾的。

2）假设检验：利用样本信息判断对总体的假设是否成立

步骤：根据问题提出假设 → 选取合适的统计量，该统计量需要在假设成立时分布已知 → 由观测样本计算估计量的值，并根据给定的显著性水平进行检验，做出接收或拒绝假设

①t检验：适用于单因素小样本（n＜50）、样本来源于正态分布、总体标准差未知、两样本均数比较时其总体方差相等

单样本t检验
两个独立样本均数t检验
配对样本均数t检验

②u检验：大样本，样本小但总体标准差已知

3.关联分析模型

关联分析：关联分析用于描述多个变量之间的关联，其输入是数据集合，输出是数据集合中全部或部分元素之间的关联关系

若两个或多个变量之间存在一定的关联，那么其中一个变量的状态就能通过其他变量进行预测

3.1回归分析

回归分析：描述因变量与自变量之间的关系，用函数表示，适用于定量地解释变量之间的相互关系或预测因变量的值

1）多元回归分析

如何进行参数估计：最小二乘法OLS

回归分析的模型检验

[1]拟合优度检验：检验来自总体中的一类数据的分布是否与某种理论分布相一致的统计方法，用以检验回归模型整体的拟合度

[2]残差分析：判断残差（ $ε^{'} = y - y^{'}$ ）是否服从均值为0的正态分布；判断残差独立性；残差的方差相等判定（残差图、Spearman等级相关分析）

[3]变量相关性 [4]判断模型中自变量对因变量线性相关的显著性

2）其他回归：多项式回归；梯度提升决策树GBDT回归（多重累计回归树）；逻辑斯蒂回归；生存分析数据cox回归；weibull回归；泊松回归；probit回归；负二项回归；主成分回归；岭回归；偏最小二乘回归

实验：回归的阿里云实现

3.2关联规则分析

关联规则分析又称关系挖掘，寻找在数据集合之间（隐藏）的频繁模式、关联、相关性与因果结构，并以规则的形式表达出来。

可分为：简单关联、时序关联、因果关联；常用算法有：Apriori算法、FPgrowth算法

过程：①从数据集中找出所有的频繁项集，它们的支持度≥最小支持度阈值；②由频繁集产生关联规则，计算其置信度，保留置信度≥最小置信度阈值的关联规则

3.3相关分析

相关关系是一种非确定性关系，如人的身高和体重有关系，但无确切关系。一般考察两个变量之间或是两组变量之间的相关关系

基本思想：在每组变量中找到变量的线性组合，使得两组线性组合之间具有最大的相关系数。挑选和这对线性组合不相关的线性组合，使其配对，并选取相关系数最大的一对，如此进行，直至两组变量之间的相关性被提取完。

4.分类分析模型

4.1判别分析

1）判别分析是多元统计分析中判别样品所属类型的一种统计分析方法，通常设法建立一个判别函数，然后通过该判别函数来判别；①根据判别函数的形式可分为：线性判别、非线性判别；②根据处理变量的方法可分为：逐步判别、序贯判别等；③根据判别准则可分为：距离判别；Fisher判别；贝叶斯判别等

2）判别准则：衡量新样品与各已知组别接近程度的理论依据和方法准则

①距离判别法（直观判别）：样品和哪个总体最近就判断其为哪个总体，具体有：马氏距离；相对距离
②Fisher判别法（典型判别）：转换坐标系统，从X空间映射到Y空间，使得Y空间的系统坐标方向尽量选择能使不同类别的样本尽可能分开的方向，然后再在Y空间上使用马氏距离判别法
③贝叶斯判别法：相比于距离判别法只考虑了待分类样本到各个类别中心的距离，贝叶斯判别法还考虑了已知类别的分布特征

4.2基于机器学习的分类模型

1）支持向量机 2）逻辑回归 3）决策树与回归树 4）k近邻 5）随机森林（组合多棵决策树，Bagging、Boosting）6）朴素贝叶斯

5.聚类分析模型

1）聚类分析的定义：将数据按照它们性质上的亲疏程度进行分类的分析方法，是典型的无监督分析方法

2）如何描述个体亲属程度

①个体间差异度：基于距离的亲疏关系度量

将每个变量看成多维空间上的一个点，在多维空间中定义点与点、类与类之间的距离，用距离描述变量间的亲疏程度

Ⅰ.连续型变量距离：

欧氏距离：欧式空间中点点，点面间距
曼哈顿距离： $d_{12}=\sum_{k=1}^n|x_{1k}-x_{2k}|$
切比雪夫距离： $d_{12}=max_k(|x_{1k}-x_{2k}|)$
闵可夫斯基距离： $d_{12}=[{\sum_{k=1}^n |x_{1k}-x{2k}|^p}]^{\frac 1 k}$
标准欧氏距离
马氏距离

Ⅱ.离散型变量距离：卡方距离；Phi距离；二值变量距离；Jaccard系数

②个体间相似度：基于相似系数的相似性度量

计算变量间的简单相关系数或等级相关系数，用相似系数描述变量间的亲疏程度

余弦相似度： $\frac { \sum_k x_{1k}x_{2k}} { \sqrt { \sum_k x_{1k}^2} \sqrt {\sum_k x_{2k}^2} }$
汉明距离：两个等长字符串对应位置不同字符的个数
Jaccard相似系数/Jaccard距离：衡量两个集合相似度的一种指标/用两个集合中不同元素占所有元素的比例衡量两个集合的区分度
皮尔森相关系数

3）如何描述个体与类、类与类间的亲属关系度量

最远/近距离；组间平均链锁距离；③组内平均链锁距离；④重心距离；⑤离差平方和距离（Ward方法）

4）变量的选择与处理：选取的变量应该与类别相关；数据应先标准化消除量纲对距离的影响；分量之间若存在强线性关系，结果则会偏向于该分量

5）聚类分析的分类

①基于分类对象的分类

Q型聚类：对样本个体进行分类，将性质相似的观测样本分在一个类，性质差异大的观测样本分在不同类，结果直观
R型聚类：将分量作为分类对象进行聚类，将性质相近的分量聚为一类，找出代表分量达到降维的目的，适用于分量数目多相关性较强的情景

②基于聚类结构的分类

凝聚方式：每个个体自成一体，将最亲密的凝聚成一类，再重新计算个体间的距离，最相近的凝聚成一类，以此类推。随着凝聚过程的进行，每个类内的亲密程度逐渐降低
分解方式：将所有个体看成一个大类，计算类内间距，将彼此间距离最远的个体分离出去，直到每个个体自成一类。分解过程中，每个类内亲密程度逐渐增强

6）聚类有效性评价

①CH指标（Calinski-Harabasz）②DB指标（Davies-Bouldin）③Wint指标（Weighted inter-intra）④KL指标（Krzanowski-Lai）⑤Hart指标（Hartigan）⑥IGP指标（In-Group Proportion）

7）聚类分析方法

①k均值聚类：指定聚类数目K确定K个数据中心，将每个点分到最近的类中，重新计算K个类的中心，要么结束，要么重复上述步骤，直到达到迭代次数或样本距中心点的偏移量小于阈值

②系统聚类法：开始各个样本自成一类，随后将相似样本进行两两合并，合并后重新计算新类与其他类的距离或相近性测度，该过程可以通过一张谱系聚类图描述

③调优法（动态聚类法）：先对样本进行初步分类，然后根据分类的损失函数尽可能小的原则对其进行调整，直到分类合理为止

④最优分割法（有序样本聚类）：将所有样本看作一类，然后根据某种最优准则将它们分为二类、三类，…，k类为止

⑤模糊聚类法：利用模糊集理论来处理分类问题

⑥图论聚类法：利用图论中最小生成树、内聚子图、顶点游走等方法来处理图像问题

6.结构分析模型

结构分析：对数据中结构的发现，输入是数据，输出是数据中具有某种规律的结构。结构分析的基础是统计分组，将部分与整体的关系作为分析对象，以发现在整体过程中各关键的影响因素及其做用的程度和方向。

1）最短路径

2）链接排名：基于图中结点的链接关系（点权与边权），对图中的结点按照其重要程度进行排名，经典算法有：PageRank、HITS

3）结构计数：对图中具有某种特定结构的结构进行计数，如三角形计数

4）社团/社区发现

①社团的定义

Wikipedia：社团是一个或一组网站，是虚拟的社团，是有着共同爱好和目标的人通过媒体相互影响的社交网络平台，该平台跨越了理想和政治的边界
基于主题的定义：社团是由一群有着共同兴趣的人和备受他们欢迎的网页组成
社团是图中共享相同属性的顶点的集群
基于主题和结构定义：图中所有顶点的一个子集，它满足子集内部顶点之间的连接紧密，而子集与子集外部的其他顶点连接不够紧密

②社团的分类

按主题分类：明显的社团；隐含的社团
按社团的形成机制：预定义社团；自组织社团

③社团的用途：帮助搜索引擎提供更好的搜索服务（推荐）；主题爬虫；研究社团与知识的演变过程

④社团的数学定义

基于主题的社团难以用数学方法严格刻画，这里介绍基于结构的社团定义方法：

绝对定义：社团是图中的稠密顶点子集
团：一组顶点，顶点间两两连接；
准团：近似团的顶点集合，t-准团（导出子图的密度≥t），p-准团（每个顶点至少与集合中p个顶点连接）；
k-核：集合中每个顶点至少与k个顶点连接的集合；
k-plex：集合中每个顶点至少与|S|-k个顶点连接；
kd-团：集合中任意两个顶点之间的最短路径（不能经过集合以外的顶点）长度≤k；
k-club：集合中任意两个顶点之间的最短路径（可以经过集合以外的顶点）长度≤k；
(s,t)-biclique：集合S∪T，S、T中任意结点都有边连接，但S、T自身结点没有任何连接
相对定义
强定义形式：集合中任意顶点与其他顶点之间的边数要大于自身与集合外顶点的边数
弱定义形式：集合中任意顶点之间的边数≥集合中任意顶点与结合外任意顶点的边数
中间定义形式：集合中任意顶点与其他顶点之间的边数≥它与其他集合中顶点之间的边数

7.文本分析模型

1）文本分析定义：对文本的表示及其特征项的选取，对从文本中抽取的特征词进行量化来表示文本信息

将无结构的原始文本转化成结构化的计算机可以处理的信息，即对文本进行科学的抽象，建立其数学模型，用以描述和代替文本。

2）通常采用向量空间模型来描述文本向量，但直接使用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维，则会造成维度灾难，因而需要先对文本向量通过特征选择来降维。

3）主要研究：文本表示模型的选择、特征词选择算法，涉及分词、文档向量化、主题抽取等

4）文本分析方法：①SplitWord；②词频统计；③TF-IDF；④PLDA；⑤Word2Vec

8.大数据分析的数据预处理

1）数据抽样：①随机抽样：抽签法、随机数法、水库抽样 ②系统抽样 ③分层抽样 ④加权抽样：因子加权、目标加权 ⑤整群抽样

2）数据过滤

3）数据归一化与标准化

归一化是将数据变为(0,1)之间的小数，可以将有量纲表达式变为无量纲表达式，成为纯量，方便数据比较和共同处理

标准化是将数据按比例缩放，使之落入一个特定区间，以屏蔽不同数据的度量单位不同，方便后续的处理

归一化、标准化方法：0-1标准化、Z-score标准化、log函数转换、atan函数实现归一化

4）数据清洗

①数据质量

数据质量管理：对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段可能引发的各类数据质量问题，进行识别、度量、监控、预警等一系列管理活动，并通过改善和提高组织的管理水平使得数据质量获得进一步的提高

数据质量通常包括：数据一致性（不包含语义错误或相互矛盾的数据）、数据完整性、数据精确性、数据时效性、实体同一性（同一实体的标识在所有数据集合中必须相同）

②缺失值填充：删除、统计填充、统一填充、预测填充

③实体识别和真值发现

实体识别：在给定的实体对象集合中，发现正确的不同的实体对象，并将其聚类，使得每个经过实体识别得到的对象簇在现实世界中指代的是同一个实体。实体识别的结果可以在数据质量管理的各个阶段得到广泛的应用，如真值发现、不一致数据发现、去除数据冗余

实体识别的主要问题：冗余问题：同一类实体可能由不同的名字指代，通过冗余发现技术解决；重名问题：不同类的实体可能由相同的名字指代，通过重名检测技术解决

真值发现：经过实体识别后，描述同一实体的不同数据被聚集到了一起，这些数据对象的相同属性可能包含冲突值，冲突值很多情况下来源于信息集成中的不同数据源。在描述同一实体同一属性冲突值中发现真实值的操作称为真值发现

《Innovative Techniques Applications of Entity Resolution》

④错误发现与修复

[1]格式内容清洗：显示格式不一致、内容中有非法字符、内容与该字段应有内容不符

[2]逻辑错误清洗：去重、去除不合理值、修正矛盾内容

[3]非需求数据清洗

9.降维

9.1特征工程

数据特征会直接影响到预测模型的效果

1）特征提取：自动地降维使得特征集合小到可以进行建模

2）特征选择：自动选择出对于问题最重要的特征子集

①计算每一个特征与响应变量的相关性 ②单个特征模型排序 ③使用正则化方法选择属性 ④应用随机森林选择属性

⑤训练能够对特征打分的预选模型 ⑥通过特征组合后再来选择特征 ⑦基于深度学习的特征选择

3）特征构建：人工进行特征的构建

4）特征学习：在原始数据中自动识别和使用特征

5）特征变换

①从信号处理的观点看，特征变换是在变换域中处理并提取信号的性质，常有明确的物理意义，如傅里叶变换、小波变换、Gabor变换

②从统计的观点，特征变换通过变换消除原始特征之间的相关关系或减少冗余，得到新的特征，如PCA、因子分析FA、独立成分分析ICA

③从几何的观点看，特征变换通过变换到新的表达空间，使数据可分性更好，包括线性判别分析、核方法

9.2降维算法

1）主成分分析PCA 2）因子分析FA 3）压缩感知 4）面向神经网络的降维

5）基于特征散列的维度缩减 6）基于Lasso算法的降维

10.面向大数据的数据仓库

10.1概述

1）数据仓库的定义：面向主题的、集成的、稳定的、包含历史数据的数据集合，用于支持管理中的决策制定过程，对大数据进行有效管理以支持可扩展性和大数据分析。数据仓库接收来自联机的事务处理系统、异构的外部数据源、脱机的历史业务数据等。

2）基本组成：数据定义、数据提取、数据管理、数据应用

3）数据仓库系统的体系结构：元数据、源数据、数据变换工具、数据仓库、数据分析工具

4）数据仓库的建立：确定主题、选择平台、建立数据仓库的模型、数据仓库数据模型优化、数据清理转换和传输、开发数据仓库的分析应用、数据仓库的管理

10.2分布式数据仓库系统

1）基于Hadoop的数据仓库系统（并行数据库技术、基于MapReduce并行计算框架）：①Hive；②HadoopDB

2）Shark：基于Spark的数据仓库系统

3）Mesa

10.3内存数据仓库系统

1）SAP HANA 2）Hyper

11.大数据分析算法

1）大数据分析算法分类：①实时分析算法 ②弱实时分析算法（有用户参与分析决策） ③非实时分析算法

2）大数据分析算法的设计技术：①随机算法 ②外存算法 ③并行算法 ④Anytime算法

3）算法介绍：①回归算法-最小二乘 ②关联规则挖掘算法-Apriori ③分类算法-线性支持向量机、逻辑斯蒂回归、k-最近邻、朴素贝叶斯、决策树 ④聚类算法-k-means、CLARANS算法

12.大数据计算平台

Spark、Hyracks、DPark、HaLoop、MaxCompute、

13.流式计算平台

1）简介

传统数据计算过程：将待计算的数据全量存储在DBMS中 → 通过查询与DBMS交互，对存储的静态数据集中计算

流式计算：无法确定数据的到来时刻和顺序，也无法将全部数据存储起来，需要当流动的数据到来后在内存中直接进行实时计算

①不确定数据速率的事件流进入系统，系统处理能力必须与事件流量匹配，或通过近似算法进行优雅降级（负载分流）

②对数据流做出实时响应 ③用户是被动的，DBMS是主动的

2）平台：Storm、分布式流处理系统Samza、Cloud Dataflow、阿里云StreamCompute、

14.大图计算平台

GraphLab、Giraph、Neo4j、Apache Hama、MaxCompute Graph

15.社交网络

1）定义：社交网络即社交网络服务SNS

2）建模：社交图，用于表示社交网络的图

3）统计学构成：随机图理论、渗流理论、小世界网络、无尺度网络

4）社交网络的群体形成：①社区会员（影响个人加入社区的结构特征是什么）②社区成长（随着时间的推移，影响一个社区重大成长的结构特征是什么）③社区演化（社区的主题是如何随着时间改变的、这些变化与社区成员的变化有什么关联）

5）基于社交网络语义（语义网Web）分析的利益冲突（COI）发现

6）社交网络中的社区发现：动态社交网络中的社区识别框架、基于经验对比算法的网络社区组织检测

7）社交网络中的关联分析：社交网络中的关系强度模型、社交网络中的”正向连接“与”负向连接“预测

8）社交网络中的影响力预测：主题因子图模型TFG

16.推荐系统

16.1概述

传统零售商的货架空间是稀缺资源，网络使零成本产品信息传播成为可能，由此货架空间变得十分丰富，此时注意力成为稀缺资源，催生推荐系统的出现

1）从计算的角度，推荐系统的基本输入是用户集X和项目集S，基本输出是效用函数u:X×S→R

2）推荐系统需要解决的问题：如何收集已知评分形成R矩阵、如何收集效用矩阵中的数据、如何根据已知的评分推断未知的评分、如何评估推断方法、如何衡量推荐方法的性能

3）推荐策略：基于内容的推荐（直接分析内容）；协同过滤推荐；基于关联规则的推荐；基于效用的推荐

4）推荐策略的组合：加权；变换；混合；特征组合；层叠；特征扩充；元级别

5）推荐系统的评价：用户满意度、预测准确度、覆盖率、多样性、新颖性、惊喜度

16.2一些推荐算法

协同过滤

1）概念：协同过滤分析用户兴趣，在用户群体中找到指定用户的相似（兴趣）用户，综合这些相似用户对某一信息的评价，形成对指定用户对此信息喜好程度的预测

2）与传统文本过滤的优点：能够过滤难以进行机器自动基于内容分析的信息；能够基于一些复杂得到、难以表达的概念进行过滤；新颖

3）面向物品的协同过滤算法：贝叶斯网络技术；聚类技术；Horting技术

4）改进的最近邻法

5）集成协同过滤方法：邻近模型；潜在因素模型；集成模型

基于用户评价的推荐

特征回归；
商品特征鉴别；
挖掘消费者意见
基于人的推荐

1）基于用户偏好学习的在线推荐
2）混合推荐系统
基于标记的推荐

社交标记系统STS
社交网络中的推荐

1）基于信号的社交网络推荐
2）基于在线主题的社交网络推荐

你可能感兴趣的:(大数据)

大数据 ETL 工具 Sqoop 深度解析与实战指南
一、Sqoop核心理论与应用场景1.1设计思想与技术定位Sqoop是Apache旗下的开源数据传输工具，核心设计基于MapReduce分布式计算框架，通过并行化的Map任务实现高效的数据批量迁移。其特点包括：批处理特性：基于MapReduce作业实现导入/导出，适合大规模离线数据迁移，不支持实时数据同步。异构数据源连接：支持关系型数据库（如MySQL、Oracle）与Hadoop生态（HDFS、H
Python（28）Python循环语句指南：从语法糖到CPython字节码的底层探秘一个天蝎座白勺程序猿 Python爬虫入门到高阶实战 python 开发语言
目录引言一、推导式家族全解析1.1基础语法对比1.2性能对比测试二、CPython实现揭秘2.1字节码层面的秘密2.2临时变量机制三、高级特性实现3.1嵌套推导式优化3.2条件表达式处理四、性能优化指南4.1内存使用对比4.2执行时间优化技巧五、最佳实践建议六、总结Python爬虫相关文章（推荐）引言在Python编程中，循环语句是控制流程的核心工具。传统for循环虽然直观，但在处理大数据时往往面
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
React金融数据分析应用性能优化实战：借助AI辅助解决18万数据量栈溢出Bug 马特说 REACT react.js 金融数据分析
React金融数据分析应用性能优化实战：借助AI辅助解决18万数据量栈溢出Bug前言在现代前端开发中，处理大数据量的实时金融应用已成为常态。最近我在开发一个React-based金融数据分析应用时，遇到了典型的"Maximumcallstacksizeexceeded"错误。通过AI辅助分析和系统性优化，最终成功解决了这个复杂的性能问题。这篇文章将分享从问题发现到最终解决的完整过程。项目背景这是一
python模拟内置函数reversed_Python内置函数reversed weixin_39594895
{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台；社区覆盖了云计算、大数据、人工智能、IoT、云原生、数据库、微服务、安全、开发与运维9大技术领域。","link1":
RabbitMQ消息队列在大数据系统中的实战应用案例 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据 rabbitmq 分布式 ai
RabbitMQ消息队列在大数据系统中的实战应用案例关键词：RabbitMQ、消息队列、大数据系统、实战案例、高并发处理、分布式架构、数据管道摘要：本文深入探讨RabbitMQ消息队列在大数据系统中的核心应用场景，结合具体技术实现和实战案例，详细解析其在数据采集、实时处理、异步解耦等关键环节的技术优势。通过架构设计原理、核心算法实现、数学模型分析和项目实战，展示如何利用RabbitMQ构建高可靠、
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
HTML表格导出为Excel文件的实现方案 ~风清扬~ 前端技术 html excel 前端
1、前端javascript可通过mime类型、blob对象或专业库（如sheetjs）实现html表格导出excel，适用于中小型数据量；2、服务器端方案利用后端语言（如python的openpyxl、java的apachepoi）处理复杂报表和大数据，确保安全性与格式控制；3、常见问题包括数据类型识别错误、样式丢失、大文件卡顿、浏览器兼容性及乱码，需通过设置单元格类型、使用后端样式api、分页
数据库锁等待时间过长问题的深度解析与大数据解决方案百态老人数据库大数据
一、锁等待问题的核心原因与日志特征锁等待超时是数据库高并发场景下的典型瓶颈问题，其根本原因与日志特征可归纳为以下维度：事务管理缺陷原因：未提交的长事务（如代码分支遗漏提交）、隐式事务（自动提交关闭）导致锁持有时间过长。日志特征：information_schema.innodb_trx表中存在trx_started时间早于当前时间数分钟的事务。错误日志中频繁出现Lockwaittimeoutexc
科学的第五范式：人工智能如何重塑发现之疆田园Coder 人工智能科普人工智能科普
在人类探索未知的壮阔史诗中，科学方法的演进如同照亮迷雾的灯塔。从基于经验的第一范式（描述自然现象），到以理论推演为核心的第二范式（牛顿定律、麦克斯韦方程），再到以计算机模拟为标志的第三范式（气候模型、分子动力学），直至以大数据挖掘为驱动的第四范式（基因组学、高能物理），每一次范式跃迁都极大地拓展了认知的疆界。如今，我们正站在一个更恢弘转折的门槛上——第五范式：人工智能驱动的科学（AIforScie
数据结构与算法中外部排序的详细剖析数据结构与算法学习网络 ai
数据结构与算法中外部排序的详细剖析关键词：外部排序、归并排序、多路归并、置换选择排序、败者树、磁盘I/O优化、大数据处理摘要：本文将深入探讨外部排序技术，这是处理大规模数据时不可或缺的算法。我们将从基本概念出发，逐步解析多路归并、置换选择排序等核心技术，并通过实际代码示例展示如何实现高效的外部排序。文章还将分析外部排序在现代大数据处理中的应用场景和优化策略。背景介绍目的和范围本文旨在全面介绍外部排
阿里云Flink：开启大数据实时处理新时代云资源服务商阿里云大数据云计算
走进阿里云Flink在大数据处理的广袤领域中，阿里云Flink犹如一颗璀璨的明星，占据着举足轻重的地位。随着数据量呈指数级增长，企业对数据处理的实时性、高效性和准确性提出了前所未有的挑战。传统的数据处理方式逐渐难以满足这些严苛的需求，而阿里云Flink凭借其卓越的特性和强大的功能，成为众多企业实现数据价值挖掘与业务创新的关键技术。它不仅继承了开源Flink的优秀基因，还融入了阿里云自主研发的创新技
java毕业设计-基于java的电商网购平台，网购商城管理系统(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥 spring boot vue jave java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
Python机器学习实战——逻辑回归（附完整代码和结果）小白熊XBX 机器学习机器学习 python 逻辑回归
Python机器学习实战——逻辑回归（附完整代码和结果）关于作者作者：小白熊作者简介：精通c#、Halcon、Python、Matlab，擅长机器视觉、机器学习、深度学习、数字图像处理、工业检测识别定位、用户界面设计、目标检测、图像分类、姿态识别、人脸识别、语义分割、路径规划、智能优化算法、大数据分析、各类算法融合创新等等。联系邮箱：[email protected]科研辅导、知识付费答疑、个性化定制
计算机毕业设计Python知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解) B站计算机毕业设计大学大数据毕业设计人工智能课程设计知识图谱 python 大数据深度学习爬虫
温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！信息安全/网络安全大模型、大数据、深度学习领域中科院硕士在读，所有源码均一手开发！感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人介绍资料《Python知识图谱中华古诗
计算机毕业设计Python知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解)
温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！信息安全/网络安全大模型、大数据、深度学习领域中科院硕士在读，所有源码均一手开发！感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人介绍资料Python知识图谱中华古诗词
自动驾驶技术研发适用Infortrend普安存储IEC平台
Infortrend普安存储IEC私有云平台，轻松高效应用无人驾驶技术自动驾驶汽车（例如自动驾驶出租车、无人驾驶公交）和无人驾驶飞行器（UAV）依靠摄像头、物联网传感器、雷达、GPS采集的实时数据瞬间做出决策。自动驾驶系统作为核心部分，不间断分析环境条件，应对潜在风险，确保乘客和货物运输安全。Autopilot应用程序在开发和模拟中，大数据、AI（人工智能）、ML（机器学习）等技术能否高速发挥作用
大数据系列 | 日志数据采集工具Filebeat的架构分析及应用降世神童大数据技术专栏大数据架构
大数据系列|日志数据采集工具Filebeat的架构分析及应用1.Filebeat的由来2.Filebeat原理架构分析3.Filebeat的应用3.1.安装Filebeat3.2.实战采集应用程序日志1.Filebeat的由来在介绍Filebeat之前，先介绍一下Beats。Beats是一个家族的统称，Beats家族有8个成员，早期的ELK架构中使用Logstash收集、解析日志，但是Logs
基于SpringBoot+Vue+大学校园图书管理系统设计和实现(源码+LW+部署讲解) 阿勇学长大数据项目实战案例 Java精品毕业设计实例微信小程序项目实战案例 spring boot vue.js 后端大学校园图书管理系统 Java毕业设计
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
Java爬虫技术详解：原理、实现与优势 cyc&阿灿 Java 多线程 java 爬虫开发语言
一、什么是网络爬虫？网络爬虫（WebCrawler），又称网络蜘蛛或网络机器人，是一种自动化程序，能够按照一定的规则自动浏览和抓取互联网上的信息。爬虫技术是大数据时代获取网络数据的重要手段，广泛应用于搜索引擎、数据分析、价格监控等领域。Java作为一种稳定、高效的编程语言，凭借其强大的网络编程能力和丰富的生态库，成为开发网络爬虫的热门选择。二、Java爬虫核心组件一个完整的Java爬虫通常包含以下
如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
Anconda环境下Vscode安装Python Java后时代程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
新华妙笔：AI智能写作助手，让高效写作触手可及东风西巷 AI写作 android 软件需求智能手机
在当今快节奏的时代，无论是职场人士、学生还是创作者，都面临着大量的写作任务。从工作总结、调研报告到公文写作、商业文案，高效且高质量的写作能力成为了提升个人竞争力的关键。然而，写作不仅需要丰富的知识储备和扎实的文字功底，还需要大量的时间和精力去打磨。为了帮助用户更高效地完成写作任务，新华妙笔APP应运而生。它是一款功能强大的AI智能写作助手，依托自然语言处理（NLP）和大数据分析技术，能够快速生成各
中国软件供应链安全厂商推荐︱悬镜安全聚焦全球数字经济大会·中国信通院最新成果发布 DevSecOps选型指南安全
2025年7月3日，由全球数字经济大会组委会主办，中国信息通信研究院、中国通信标准化协会承办的全球数字经济大会—云智算安全论坛暨第三届“SecGo论坛”在京召开。北京市经济和信息化局副局长顾瑾栩、中国通信标准化协会副理事长兼秘书长代晓慧、中国信通院党委副书记王晓丽、中国信通院云计算与大数据研究所副所长栗蔚出席会议。在成果发布环节，中国信通院对云智算安全行业发展、产业创新有突出贡献的个人予以表彰，悬
数据编织趋势探秘
今天跟大家聊聊数据编织（DataFabric）的概念Gartner在2022年重要战略技术趋势中重点提到数据编织（DataFabric）这个概念，本质上是在谈怎么实现“数据找人而不是人找数据”的愿景为什么DataFabric将会成为一种趋势，为什么越来越多的企业将在未来采用这样的方式进行部署？1、在传统IT时代，无论是早年的“数据仓库”还是近几年的“数据湖”和“大数据”时代，其实数据利用都是集中式
大数据基础知识-Hadoop、HBase、Hive一篇搞定原来是猪猪呀 hadoop 大数据分布式
HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构，其核心设计包括分布式文件系统（HDFS）和MapReduce编程模型；Hadoop是一个开源的分布式计算框架，旨在帮助用户在不了解分布式底层细节的情况下，开发分布式程序。它通过利用集群的力量，提供高速运算和存储能力，特别适合处理超大数据集的应用程序。Hadoop生态圈Hadoop生态圈是一个由多个基于Hadoop开发的相
Hadoop、HDFS、Hive、Hbase区别及联系静心观复大数据 hadoop hdfs hive
Hadoop、HDFS、Hive和HBase是大数据生态系统中的关键组件，它们都是由Apache软件基金会管理的开源项目。下面将深入解析它们之间的区别和联系。HadoopHadoop是一个开源的分布式计算框架，它允许用户在普通硬件上构建可靠、可伸缩的分布式系统。Hadoop通常指的是整个生态系统，包括HadoopCommon（共享库和工具）、HadoopDistributedFileSystem(
大数据(1)-hdfs&hbase viperrrrrrr 大数据 hdfs hbase
hbase&hdfs一、体系结构HDFS是一个标准的主从(Master/Slave)体系结构的分布式系统；HDFS集群包含一个或多个NameNode(NameNodeHA会有多个NameNode)和多个DataNode(根据节点情况规划),用户可以通过HDFS客户端同NameNode和DataNode进行交互以访问文件系统。HDFS公开文件系统名称空间，并允许将用户数据存储在文件中。在内部，一个文
阿里云SelectDB：开启实时数仓新时代云资源服务商阿里云云计算数据库云原生
一、引言在当今大数据时代，数据如同企业的“石油”，蕴含着巨大的价值。随着数据量呈指数级增长，企业对于实时数据分析的需求愈发迫切。实时数据分析能够帮助企业及时捕捉市场动态，快速做出决策，从而在激烈的市场竞争中占据优势。无论是电商企业需要实时分析用户购买行为以进行精准营销，还是金融机构需要实时监测风险以保障资金安全，实时数据分析都发挥着关键作用。阿里云SelectDB作为一款专为实时数据分析打造的云原
探秘阿里云Tablestore：大数据存储与查询的神器云资源服务商阿里云大数据云计算
一、引言在大数据时代，数据量呈爆炸式增长，数据类型也日益丰富多样，这对数据库技术提出了前所未有的挑战。传统的关系型数据库在应对海量数据存储、高并发读写以及复杂数据分析时，往往显得力不从心，难以满足企业日益增长的业务需求。为了解决这些问题，各种新型数据库技术应运而生，阿里云Tablestore便是其中的佼佼者。阿里云Tablestore是一款构建在阿里云飞天分布式系统之上的分布式NoSQL数据存储服
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo