敲代码的小提琴手

2021 数据挖掘与大数据分析复习笔记电子科技大学《数据挖掘与大数据分析期末》课程期末高分指南

狼狈不堪的数据挖掘期末课程复习结束辽
给这门课程画上一个句号吧！
虽然之后主要方向是搞开发了但是万一以后想去搞大数据捏~

这是我总结的这门课程的部分章节内容

为了总结下这门课程所学也让之后有缘找到的学弟学妹们（如果这个课还在的话）能更好地复习吧~
分享一下复习笔记

2021.6.23出了成绩来更新一波
最后这门课的成绩是89 简单了解了下在班里大概算是中等水平吧？
期末考试中的好多题目在笔记里都是有体现的（有复习需求的）大家可以下载下来根据自己的理解进行增删进行学习理解
没有复习需求的也可以看着玩玩hhh

下面的只是一个概况
没有插图片（图片都在本地一个个粘过来太麻烦惹！）
如果有兴趣的
可以戳这里下载完整的课程ppt与笔记

文章目录

题型
第一章数据挖掘与大数据简介
- 复习提纲
- 1.基本概念
- 2.数据挖掘主要任务
- 3.【重要！】KDD过程（知识发现过程）
- 最后一道题的一个思路
- 4.数据挖掘的挑战
第二章认识数据与数据预处理
- 复习提纲
- 1.属性类型
- 2.【重要！选填题】数据的统计描述
- - 中心趋势度量
  - 数据的散布
- 3.【重点上机实习】（数据的）相似性度量
- - 1.标称属性数据
  - 2.二元变量属性数据
  - 3.序数型变量数据
  - 4.数值属性数据
- 4.【重点！】数据预处理
- - 为什么要挖掘？
  - 数据预处理的主要任务：
  - 【重点】数据清理（数据的填充方法重点！）
  - 数据集成
  - 数据归约
  - 数据变换
  - 数据离散化
第三章关联规则挖掘
- 复习提纲
- 1.定义以及一些概念
- 2.Apriori算法
- 3.FP-growth算法
- - - 如何构造FP树？
- 4 支持度、置信度及兴趣因子
第四章分类/回归
- - 复习提纲
- 1.基本概念
- 监督学习 VS 无监督学习
- 【重要！】模型分类
- - 生成模型
  - 判别模型：
  - 二者的区别
- 2.决策树（DT）
- 【重要！】决策树的优缺点
- 【重要！】构建决策树的方法
- 【重要！】**属性选择基本准则：**
- - 【重要！】信息增益（ID3）：
  - 【重要！】信息增益率（C4.5）：
  - Gini指数（CART）
- 3.【重要！】过拟合问题和解决
- - 过拟合的解决策略
- 【重要！】在决策树中如何避免过拟合
- 4.【重要！】KNN
- 【重要！】KNN的优点和缺点
- - 基本思想
  - 优缺点
- 5.朴素贝叶斯
- 6.【重要！】SVM支持向量机
- 【重要！】SVM的优缺点
- - 什么是支持向量？
- 7.人工神经网络
- 8.集成学习
- 9.分类评价指标
10.练习题
第五章聚类分析和噪声检测
- 复习提纲
- 1.什么是聚类
- 2.聚类算法分类
- 3.【重要！】KMEANS
- 【*】KMEANS优缺点
- 3.【重要！】DBSCAN
- 缺点
- 4.什么是离群点
- 5.离群点种类
- 6.LOF 离群（异常/孤立）点检测
第六章大数据分析
- 复习提纲
- 1.哈希技术
- 【重点】Min哈希（最小哈希）
- 【重点！】会算签名矩阵！
- 【重要】LSH（局部敏感哈希）
- - 原因：
  - 哈希的思想：
- **2.** 数据流挖掘
- 【重点】如何检测概念漂移
- **3.** 【重点】Hadoop/spark的基本概念！

题型

选择题——单选、多选
大题——2道计算题大部分是简答题最后一题是综合题

决策树的流程

聚类有哪些类型

数据挖掘的任务有哪些~

关联规则挖掘

分类/预测与回归

聚类分析

孤立点检测

第一章数据挖掘与大数据简介

复习提纲

1.基本概念
- 什么是大数据
- 什么是数据挖掘
2.数据挖掘主要任务
3.KDD过程（数据挖掘是核心）
4.DM的挑战

1.基本概念

什么是大数据

无法在 一定时间内用常规软件工具 对其内容进行 抓取、管理、处理 的数据集合

是要更新处理模式才能具有更强的决策力、洞察发现力、流程优化能力来适应海量、高增长率和多样化的信息资产

什么是数据挖掘

从大量的数据中挖掘那些 令人感兴趣的、有用的、隐含的、先前未知的、可能有用的模式或知识。

关键是 “从大量的数据中挖掘令人感兴趣的模式或知识”

2.数据挖掘主要任务

【1】关联（规则）分析 如挖掘空气质量和气象条件之间的关系

【2】聚类分析 将数据归为不同的类形成新的类别进行分析

【3】分类预测回归 找出描述和区分数据类或者概念的模型让该模型可以预测未知的对象类标签

【4】离群点分析分析孤立而原本会被当作噪音丢弃的数据在欺骗检测中通过孤立点分析得到的结论

这些内容之后章节都会讲到！

3.【重要！】KDD过程（知识发现过程）

最后一道题的一个思路

KDD ：从数据中获取知识

【1】数据清理：消除噪声和删除不一致数据

【2】数据集成：多种数据源可以组合在一起

【3】数据选择：从数据库中提取与分析任务相关的数据

【4】数据变换：把数据变换和统一成适合挖掘的形式

【5】数据挖掘 ：核心步骤，使用智能方法提取数据模式

知识发现的核心！

【6】模式评估：根据兴趣度度量，识别代表知识的真正有趣的模式

【7】知识表示：使用可视化和知识表示技术，向用户提供挖掘的知识

注意数据挖掘是核心

4.数据挖掘的挑战

数据容量 Scale of Data — VOLUMN

数据实时性 Data Stream — VELOCITY

数据多样性 Different format of data different sources — VARIETY

数据不确定性 Uncertainty, missing value

第二章认识数据与数据预处理

复习提纲

1.属性类型
2.数据的统计描述
- 中心性
- - 均值
  - 众数
  - 中位数
  - 中列数
- 散度
- - 极差
  - 最大
  - 最小
  - 四分位
  - 百分位
  - 方差
3.相似性度量
- 标称 d(i, j) = #不同/#总
- 数值
- - 欧式
  - 曼哈顿
- 数据标准化/归化
- - 最大最小法
  - Z-Score
- 其他相似性
- - 余弦
  - 马
  - 相关子数
  - KL散度
4.数据预处理
清理 -> 集成 ->归约 -> 变换 -> 离散化
- 清理：缺值、噪声
- 集成：冗余分析、卡方检验
- 归约：采样 PCA/特征筛选（没太看懂
- 变换：最大最小法

1.属性类型

分类型
- 标称型
- 标称型目标变量的结果只在有限目标集中取值，比如真与假(标称型目标变量主要用于分类)
- - 例: ID 号、眼球颜色、邮政编码
- - 特殊：二元
- 序数型
- - 例: 军阶、 GPA、用 {tall, medium, short}表示的高
数值型
数值型目标变量则可以从无限的数值集合中取值，如0.555，666.666等 (数值型目标变量主要用于回归分析)
- 区间
- - 例: 日历、摄氏或华氏温度.
- 比率
- - 例: 开氏温度、长度、计数
**标称属性**的值是一些符号和事物的名称（比如头发的颜色）

标称：意味着“与名称相关”

二元属性 是标称的一种 1代表有 0代表没有

如果是对称的说明无权重（例如男女性别）

如果是非对称的说明有权重（例如检测结果为阴性/阳性）

数值属性：区间、比率

2.【重要！选填题】数据的统计描述

中心趋势度量：均值（中列数）、众数、中位数、 —— （中心性描述）

数据的散布：**极差、四分位数、四分位数极差、五数概括、盒图 **—— （散布描述）

中心趋势度量

均值(mean)

均值 = 总和/个数

加权平均：考虑权重的均值

- 中列数：

数据集的最大和最小值的平均值

中位数(median)

有序数据值的中间值。

大数据：近似值估计（线性插值方法）

众数：（mode）

在集合中出现最频繁的值。（一个数据集中可能有多个众数）

对于非对称的单峰数据,有以下经验关系：

mean-mode ~ 3 * (mean-median)即为 均值 - 众数近似等于 3*(均值 - 中间数)

选填可能会考！

数据的散布

方差
标准差
极差

max-min

四分位数(quantile)
四分位数极差（距离）

IQR=Q3-Q1

五数概括

[ min,Q1,median,Q3,max]

3.【重点上机实习】（数据的）相似性度量

1.标称属性数据

标称变量是二元变量的拓广它可以取多于两种状态值

相异性度量方法中不匹配率

计算方法为：d（i，j）= (p - m) / p

m 状态取值匹配的变量数目 p 变量总数

2.二元变量属性数据

（2）对称的二元变量的相异度计算

对于对称属性，r+s是一个1一个0的总数和，q是两个1

如果是非对称则t被忽略

不对称的二元变量的相异度计算

二元变量的两个状态的输出不是同样重要

3.序数型变量数据

4.数值属性数据

使用距离来度量两个数据对象之间的相似性/相异性

闵可夫斯基(Minkowski) 距离
曼哈顿距离

一维绝对值之和

欧氏距离

二维开根号

数据标准化

4.【重点！】数据预处理

为什么要挖掘？

现实世界的数据是“肮脏的”

不完整的：有些感兴趣的属性缺少属性值，或仅包含聚集数据
含噪声的：包含错误或者“孤立点”
不一致的：在编码或者命名上存在差异

数据预处理的主要任务：

【重点】数据清理（数据的填充方法重点！）

【填充方法-重点】

人工填写空缺值：工作量大，可行性低

使用一个全局变量填充空缺值：比如使用unknown或-∞替换

使用属性的平均值填充空缺值

使用最可能的值填充空缺值：使用像Bayesian公式或判定树这样预测的方法

空缺值噪声数据删除孤立点解决不一致性

用均值或者用临近数

噪声使用过滤的方法（聚类、回归）

数据集成

将多个数据源中的数据整合到一个一致的存储中

集成多个数据库时，经常会出现冗余数据

冗余分析：相关分析，皮尔逊系数

卡方检验

数据归约

得到数据集的压缩表示，但可以得到相同或相近的结果

分为[1]维度规约和[2]数量规约

还包括[3]数据压缩（非重点）

维度规约：PCA、小波分析、特征筛选

特征筛选：

利用信息增益，信息熵等（信息增益越大越好）

信息熵：刻画信息的混乱程度

数量规约：回归、聚类、采样

数据变换

规范化和聚集

把数据变换和统一成适合挖掘的形式

数据离散化

将连续数据进行离散处理

第三章关联规则挖掘

复习提纲

1.定义
- 关联规则挖掘
- *频繁模式
- *项集
- *支持度/计数
- *置信度
2.Apriori算法
- 剪枝基本思想
- Apriori流程、计算
- 存在挑战及改进
3.FP-Growth算法
- 如何构造FP树
- 如何挖掘
4.评估方法
- 支持度
- 置信度
- 兴趣因子

1.定义以及一些概念

关联数据挖掘的目的：在事务、关系数据库中的项集和对象中发现频繁模式、关联规则、相关性或者因果结构
- 频繁模式：数据库中频繁出现的项集
支持度 support

置信度 confidence

这两个标准来衡量事物关联规则的强度

支持度 support (X -> Y): 确定项集的频繁程度

包含项集的事务数与总事务数的比值

置信度
项集
频繁项集
置信度计算公式

2.Apriori算法

通过对数据的多次扫描来计算项集的支持度，发现所有的频繁项集从而生成关联规则。

剪枝基本思想：

性质一：如果一个项集是频繁的，则它的所有子集一定也是频繁的

性质二：相反，如果一个项集是非频繁的，则它的所有超集也一定是非频繁的

提高Apriori算法的方法

Hash-based itemset counting（散列项集计数），压缩候选k项集

Transaction reduction（事务压缩），删除不可能对寻找频繁项集有用的事务

Partitioning（划分），分而治之

Sampling（采样），选取原数据库的一个样本, 使用Apriori 算法在样本中挖掘频繁模式

3.FP-growth算法

优点：快。

该算法不同于Apriori算法的“产生-测试”范型。而是使用一种称作FP树的紧凑数据结构组织数据，并**直接从该结构中提取频繁项集**。

基本思想：

首先：将代表频繁项集的数据库压缩到FP树上

其次：将FP树划分为一组条件数据库（每个数据数据库关联一个频繁项或“模式段 ”），挖掘每个条件数据库获取频繁项集

如何构造FP树？

支持度排序
构建FP树

4 支持度、置信度及兴趣因子

第四章分类/回归

重点中的重点~

复习提纲

1.基本概念
- 监督/无监督
- 生成/判别
- 分类 vs 回归
2.分类算法
- 【很重要！】决策树
- - 构造过程
  - 属性选择基本准则
  - 信息增益/率
  - 基尼指数
- 【重要！】过拟合问题
- - 如何避免
  - 决策树中xx
- 【重要！】KNN
- - 基本思想
  - 优缺点
- Naive Bayes朴素贝叶斯
- - 贝叶斯理论（优点）
- 【重要！】SVM 支持向量机
- - 支持向量/小样本/泛化能力
  - 基本思想
  - 非线性问题：核函数
- 人工神经网络
3.集成学习
- 学习准则
- - 准确性
  - 多样性
- 集成策略
- - RF
  - Ada Boost
  - Stacking
4.评估
- 准确度
- 轻度
- 吕四率？
- F1？
- 类不平衡：灵敏度、特效性

1.基本概念

监督学习 VS 无监督学习

监督学习

分类、预测等

“告诉机器怎么学”

无监督学习

关联规则挖掘聚类分析都是无监督学习~

“不告诉机器怎么学”

【重要！】模型分类

生成模型

希望从数据中学习/还原出原始的真实数据生成模型。

朴素贝叶斯隐马尔可夫模型

判别模型：

从数据中学习到不同类概念的区别从而进行分类。

KNN SVM ANN 决策树

二者的区别

生成模型：
- 容量大时生成模型容易接近真实模型
- 能处理具有隐含变量的情景
判别模型
- 速度快
- 准确率较高

分类和回归

分类：根据训练数据集和类标号属性，构建模型来分类现有数据，并用来分类新数据

预测：建立连续函数值模型，预测未来的情况比如预测空缺值

2.决策树（DT）

【重要！】决策树的优缺点

优点

容易转化成分类规则
计算量相对较小所以速度较快
准确性高（挖掘出来的分类规则准确性高便于理解）

缺点

容易过拟合
忽略了属性之间的相关性

【重要！】构建决策树的方法

构造方式：

【重要！】属性选择基本准则：

具有最好度量得分的属性（对分出的数据类别越“纯”）选定为分裂属性

三种度量：信息增益、信息增益率、Gini指标

【重要！】信息增益（ID3）：

信息增益：原来的信息与分裂后的信息只差，说明我们通过划分得到了多少信息

【重要！】信息增益率（C4.5）：

信息增益倾向于有大量不同取值的属性，但是每个划分只有一个类的时候info=0

C4.5 (ID3 后继) 使用增益率来克服这一问题(规范化信息增益)

公式为信息增益/根据当前那个类利用信息熵公式算出来的值，越大越好

Gini指数（CART）

Gini指数度量数据元组的不纯度，越小越好

如果是三个属性，要进行二元分裂，那么两两为一组，计算加权后的Gini指数

3.【重要！】过拟合问题和解决

过拟合：为了得到一致假设而使假设变得过度复杂称为过拟合。
过拟合是监督学习中普遍存在的一个问题，
- 原因：因为训练样本只是真实情况下的一个抽样集
- 结果：泛化能力不强

过拟合的解决策略

增加样本集
噪声去除
降低模型复杂度
模型选择正确：正则项等（例如选择VC维）

【重要！】在决策树中如何避免过拟合

一棵归纳的树可能过分拟合训练数据造成——

分枝太多，某些反映训练数据中的异常，噪音/孤立点

对未参与训练的样本的低精度预测

限制决策树的层数来限制树的生长
设定每个节点必须包含的最少记录数节点个数小于这个最少记录数就停止分隔
树剪枝
- 先剪枝 提前终止树构造
- 后剪枝 从完全生长的树中剪去树枝（但是后剪枝的计算量代价比先剪枝方法大很多！尤其是大样本集中）（小样本中后剪枝要好~）

4.【重要！】KNN

【重要！】KNN的优点和缺点

基本思想

算法步骤：

1.算距离：给定测试对象，计算它与训练集中的每个对象的距离；

2.找邻居：圈定距离最近的k个训练对象，作为测试对象的近邻；

3.做分类：根据这k个近邻归属的主要类别，来对测试对象分类。

优缺点

优点：简单，易于理解，易于实现，无需估计参数，无需训练

准确率一般较高
适合对稀有事件进行分类，特别适合于多分类问题

缺点：懒惰算法，对测试样本分类时的计算量大，内存开销大，评分慢

当类不平衡的时候，倾向于将类全部归类为大类
可解释性较差，无法给出决策树那样的规则。对噪声非常敏感

5.朴素贝叶斯

关注分子：

哪个更大

找更大的y（y是类别）

优点：概率输出，对文本分类效果较好

6.【重要！】SVM支持向量机

【重要！】SVM的优缺点

什么是支持向量？

在分界线上的点称为支持向量

SVM的优点：

可以处理小样本
泛化能力强

7.人工神经网络

人工神经网络（ANN，Artificial Neural Networks）是在人类对大脑神经网络认识理解的基础上，人工构造的能够实现某种功能的神经网络。

它是理论化的人脑神经网络的数学模型，是基于模仿大脑神经网络结构和功能而建立起来的一种信息处理系统。

是一个多输入单输出的非线性阈值器件。

8.集成学习

（考的可能性不大因为ppt里都没有~）

集成学习：通过构建并结合多个学习器来完成学习任务，个体学习器要有一定的“准确性”，并且要有“多样性”，即学习器间具有差异

多样性是核心~

9.分类评价指标

准确度：Accuracy = (TP + TN)/All
精度

A代表实际，PR代表预测，左上角和右下角是预测正确的

准确度：Accuracy = (TP + TN)/All

误差率: 1 – accuracy

错误率 = （FP+FN）/ALL,(左下和右上为错误）

精度：被分类器预测为正确的占所有实际正确的比例TP/(TP+FP)

召回率：在所有实际正确的类别中被识别为正确的比例TP/(TP+FN)

10.练习题

第五章聚类分析和噪声检测

复习提纲

1.什么是聚类？
2.聚类算法分类
3.KMeans DBSCAN算法
4.什么是离群点？
5.离群点种类
6.LOF

1.什么是聚类

无监督学习的一种，就是将数据分为多个簇(Clusters)，使得在同一个簇内对象之间具有较高的相似度，而不同簇之间的对象差别较大。

目的是寻找数据中潜在的自然分组结构 ，让一个簇内的数据尽可能相似，不同簇的数据尽可能不同

2.聚类算法分类

一般而言，从不同的角度出发可以将各种聚类算法分成不同的类型。如按照聚类的基本思想可主要分为：

基于划分方法

给定一个有n个对象的数据集，划分聚类技术将构造数据k个划分，每一个划分就代表一个簇

对于给定的k，算法首先给出一个初始的划分方法，以后通过反复迭代的方法改变划分，使得每一次改进之后的划分方案都较前一次更好。经典的算法有：K-Means（K-均值）, K-Medoids（K-中心点）等

基于层次的方法

层次聚类方法对给定的数据集进行层次的分解，直到某种条件满足为止

凝聚的层次聚类一种自底向上的策略，首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到某个终结条件被满足。AGNES算法

分裂的层次聚类采用自顶向下的策略，它首先将所有对象置于一个簇中，然后逐渐细分为越来越小的簇，直到达到了某个终结条件。DIANA算法

基于密度的方法

密度聚类方法的指导思想是，只要一个区域中的点的密度大于某个阈值，就把它加到与之相近的聚类中去。

这类算法能克服基于距离的算法只能发现“类圆形”的聚类的缺点，可发现任意形状的聚类，且对噪声数据不敏感

基于网格的方法

将对象空间量化为有限数目的单元，形成一个网格结构，所有的聚类都在这个网格结构中上进行。

3.【重要！】KMEANS

KMEANS
- 选取 K 个点作为初始的类中心点，这些点一般都是从数据集中随机抽取的；
- 将每个点分配到最近的类中心点，这样就形成了 K 个类，然后重新计算每个类的中心点；（一般用欧几里得距离公式算最近，用每个维度的平均值重新计算每个类的中心点）
- 重复第二步，直到类不发生变化，或者你也可以设置最大迭代次数，这样即使类中心点发生变化，但是只要达到最大迭代次数就会结束。

【*】KMEANS优缺点

优点：速度快，相对可伸缩和高效率

缺点：对K值敏感，对初值敏感，不适合非球形的簇，对于孤立点和噪声敏感

3.【重要！】DBSCAN

缺点

缺点：

对参数EPS和Minspt非常敏感，但是这两个参数的选取主要依靠主观判断
数据库比较大的话会有比较大的IO开销

4.什么是离群点

“离群点是一个数据对象，它显著不同于其它数据对象，好像它是被不同的机制产生的一样。”

异常数据具有特殊的意义和很高的实用价值 ，异常数据虽然有时候会作为离群点被排斥掉，但是却也有可能给我们新的视角，比如——

在欺诈检测中，异常数据可能意味欺诈行为的发生

在入侵检测中，异常数据可能意味入侵行为的发生。

5.离群点种类

全局离群点和别的点一点关系都没有
局部离群点对全局来说不是离群点，但是对某个簇来说是离群点
集体离群点某一个集体和其他不同

6.LOF 离群（异常/孤立）点检测

基于统计学的孤立点检测
基于距离的孤立点挖掘算法
基于偏离的孤立点检测
基于密度判断：

对象p的局部可达密度(Local Reachable Distance)

对象p的局部可达密度为对象p与它的MinPts-邻域的平均可达距离的倒数。

对象p的局部异常因子(Local Outlier Factor)

Lrd是局部密度，所以孤立点的密度小，分子大，分母小，所以最终结果大

对象p的局部异常因子表示p的异常程度，局部异常因子愈大，就认为它更可能异常；反之则可能性小。

第六章大数据分析

复习提纲

1.哈希技术
- Mini Hash 最小哈希-签名矩阵的计算
- LSH 局部敏感哈希
- 其中签名矩阵的计算与局部敏感哈希近似
2.数据流挖掘
- 数据流挑战
- 概念漂移（PCC(x)改变) 检测方法
- 分类（VFDT —— > Hoe(fdig bound？)
- 聚类：线上 + 线下
- - 线上：数据抽象：微簇
  - 线下：KMeans DBSCAN

1.哈希技术

【重点】Min哈希（最小哈希）

步骤

1.计算签名矩阵

【重点！】会算签名矩阵！

2.通过签名矩阵寻找相似的签名

3.检测签名相似的是否真的相似（可选）.

主要思想：
把每一列转换成一个更小的签名矩阵C，让C足够小能放到内存里面，让C1和C2能表征原式数据的相似性

相似性用雅阁比距离来表征：a/a+b+c a为两者都是1，b和c表示一0一个1

最小哈希定义：

首次出现1的行号

【重要】LSH（局部敏感哈希）

原因：

想要比较两个文档，一一校对是非常困难的，提出LSH

哈希的思想：

不一一匹配，把数据放在桶里，每个桶里面的东西都非常相似

将列向量划分为b块，对每一块进行映射，如果是相似的，那么至少有一块会映射到一个桶子中

将签名矩阵划分为几块，对每一块进行映射，候选对是至少散列到一个桶的对

概率随比例变化

将每一列划分为b个bands，然后每个bands分别放到桶里

如果相似性很大（超过0.5），至少有一个band全部放到一个桶里，就可以放在一起

2. 数据流挖掘

【重点】如何检测概念漂移

数据流：持续的依次到达的对象，无穷长，有概念漂移（模式在发生漂移）

挑战：

单程处理 内存限制 低时间复杂度 概念漂移

****概念飘移****：

在预测分析和机器学习中，概念漂移意味着模型试图预测的目标变量的统计特性随着时间以不可预见的方式改变。

条件概率发生变化

如下图，中间是真正的概念漂移，右边是虚假的，如果是P（x）变化整体不会变

*如何去检测数据漂移？*

使用分布

用于检测突变的概念漂移

对相同时间间隔（窗口）检测P(C|X)，如果检测到变化就说明发生了

问题：

窗口大小不好确定 2. 学习漂移慢 3. 虚假的概念飘逸

ADWIM：处理当前数据，发生显著性变化就用新的代替老的

错误率（error rate）

缺点：1 对噪声敏感 2 对缓慢变化的数据难以处理 3 取决于学习模型的健壮性

*分类*

传统静态不适用，每一次输入一个数据后快速进行分类

方法：快速决策树 (VFDT)

动态地构造决策树，利用小部分数据构造

算法：

假如新来的数据满足关系，那么就划分一次

如果错误变多了，那么可以认为是发生了概念漂移，使用新的节点

*聚类*

数据流抽象，分为在线和离线

线上把数据用合适的数据结构处理，线下用传统方式去进行聚类

微簇：用一个点表示几个相近的点

动态变化，线上（重要），如何去线上整出这些微簇

****簇特征（重要）****：

CF = (N,LS,SS) N是点的个数，LS是横坐标之和，SS是横坐标平方和

为什么需要做处理？

\1. 可以计算这些点的中心和半径 2. 可以支持动态增量式计算

因为数据连续不断的进入，只需要加新增点的数据就可以（可加性、可减性）

3. 【重点】Hadoop/spark的基本概念！

*什么是Hadoop/spark？*

先说Hadoop：

Hadoop是一个软件框架，用于跨大型计算机集群对大型数据集进行分布式处理 TB PB 级别

后来Spark：

一个统一的完整的引擎

*Hadoop设计准则*

需要处理大数据

需要跨数千个节点并行计算，大量廉价机器并行计算

分而治之

1.自动并行化 2.容错和自动恢复 3.给用户提供接口

*Hadoop生态*

MapReduce（计算）和HDFS（存储） ZooKeeper用来协调

*HDFS怎么存储？*

分而治之，分为很多块

Namenode和Datanode

用namenode去存哪一块放到哪个机器里面，存储数据原信息

Datanode存储实际数据，文件被存在各个节点里，拥有时钟机制，每隔几秒发送一次汇报工作，如果过了很久还没发送，那么默认你已经挂掉，重新创建节点存储被挂掉节点存储的数据

可以存储大数据

*MapReduce Vs Spark*

Mapreduce 适用于一次操作，对多次操作不适用，共享机制落后，花费大量时间IO

Spark是用于推广reduce去支持同一引擎的新应用，拥有RDD支持内存计算，提供多种的API

*RDD 弹性分布式数据集*

只读，便于内存计算

操作方式：

\1. Transformation

它从现有数据集创建一个新数据集,所有操作都是懒惰的

\2. Action

它在对数据集运行计算之后向驱动程序返回一个值

你可能感兴趣的:(课堂笔记-数据挖掘与大数据分析,数据挖掘,决策树,电子科技大学,期末复习笔记,新星计划)

Neo4j 的向量搜索（Neo4jVector）和常见的向量数据库（比如 Milvus、Qdrant）之间的区别与联系
先说联系（共同点）点内容✅都支持向量检索都可以基于embedding（向量）做相似度搜索，比如给一段文本、找出最相似的若干条记录。✅都用于语义检索你可以把它们用在RAG（检索增强生成）、ChatwithDocs、智能问答、推荐系统等应用里。✅都支持批量插入、查询都可以批量向数据库中插入文本+向量，然后用向量做top-k检索（如search(k=8)）。✅都和LangChain集成它们都可以通过la
区块链技术核心组件及应用架构的全面解析
区块链技术是一套融合密码学、分布式系统与经济激励的复合型技术体系，以下是其核心组件及应用架构的全面解析：一、区块链核心技术栈1.分布式账本技术（DLT）核心原理：多节点共同维护不可篡改的数据链数据结构：哈希指针哈希指针区块N区块N+1区块N+2关键创新：默克尔树（MerkleTree）实现高效数据验证2.密码学保障技术算法示例应用场景非对称加密ECC/secp256k1,RSA数字签名（设备身份认
开源模型应用落地-OpenAI Agents SDK-集成MCP与Qwen3-8B模型的创新应用探索（七）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言在人工智能技术飞速发展的今天，如何将先进的模型和技术无缝结合，成为推动行业变革的关键。OpenAIAgents通过集成模型上下文协议（MCP）和阿里巴巴推出的Qwen3-8B模型，正开启一场智能应用的革命。这种创新的结合不仅提升了AI代理与外部工具之间的通信能力，还在多模态任务处理、个性化服务等领域展现出巨大潜力。本文将深入探讨这一技术组合的实际应用场景，揭示其在改善客户体验和提升运营效率
开源模型应用落地-OpenAI Agents SDK-集成Qwen3-8B-探索output_guardrail的创意应用（六）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言随着人工智能技术的迅猛发展，大语言模型（LLM）在各行各业的应用日益广泛。然而，模型生成的内容是否安全、合规、符合用户预期，成为开发者和企业不可忽视的问题。为此，OutputGuardrail应运而生，作为一种关键的安全机制，它在模型生成结果之后进行内容审核与过滤，确保输出不偏离道德、法律和业务规范。通过检测不当的内容，不仅提升了AI系统的可信度，也为构建更加稳健和负责任的人工智能应用提供
《中国电信运营商骨干网：历史、现状与未来演进》系列第一篇：中国骨干网全景图：一级运营商与专用网络的演进老马爱知通信网络 #电信运营商网络骨干网电信运营商网络架构数字基础设施互联网科普
一、引言：骨干网——国家“信息大动脉”在当今数字经济蓬勃发展的时代，信息网络已成为国家基础设施的核心组成部分。而在这张错综复杂的信息大网中，骨干网(BackboneNetwork)扮演着“
容器基础5-Helm 与 K8s 的关系旗浩QH Android系统虚拟化 kubernetes 容器云原生
一、Helm是什么？为什么需要它？K8s是强大的容器编排平台，但部署复杂应用时（如包含Web服务、数据库、缓存等多个组件的系统），需要编写大量YAML文件，管理成本高。Helm就是为简化K8s应用部署而生的工具，它被称为“K8s的包管理器”，类似Ubuntu的apt或Mac的brew。二、Helm如何工作？核心概念解析Chart（图表）Helm的基本单位，是一组YAML文件的集合，描述了一个或多个
Activity各类控件学习小结：实现简单的用户界面 giaoho 安卓开发学习学习 ui windows
Activity各类控件学习小结：实现简单的用户界面目标：实现不同用户的图片的选择与显示对应图片的demo（1）默认添加10个照片文件到app中，p1到p10（2）主要控件和逻辑：一个ImageView，显示用户头像；一个下拉框，显示用户的姓名列表信息，默认两个用户，下拉选择后更新用户头像，并显示年龄和身高在头像下面；三个输入框，输入姓名、年龄，身高；一个添加按钮，点击添加按钮后，把新增的用户添加
Kafka-python 核心 API 深度解析：BrokerConnection 与 ClusterMetadata 的全方位指南佑瞻 python工程化 kafka python 分布式
在Kafka应用开发中，我们时常会面临连接管理混乱、元数据获取不及时等问题，这些问题的根源往往在于对底层API的理解不够深入。今天我们将聚焦kafka-python客户端中两个核心类——BrokerConnection和ClusterMetadata，通过剖析其核心功能与应用场景，帮助大家建立系统化的Kafka连接与元数据管理知识体系。BrokerConnection：Kafka连接管理的中枢神经
正则表达式咸鱼时日翻身正则表达式
是指定一组与之匹配的字符串，限定符号a*a出现0或者多次a+a出现1次或者多次a？a出现0次或者1次a{2,5}出现在2到5次之间或运算法（cat|dog）匹配cat或者dog字符类[abz]+表示匹配的字符只能是中括号中的字母如果使用了^则为取反符号元字符、/d代表数字字符/w代表英文字符数字加上下划线/s代表tab和换行符其中/加大写的DWS则表示取反符号.表示任意字符不包括换行符号^a匹配行
杭州隆鑫出海电子科技有限公司最新声明：跨境电商开店服务协商进展披露！
近期，我司杭州隆鑫出海电子科技有限公司在提供跨境电商开店技术指导服务过程中，与部分消费者之间出现了一些纠葛。对此，我们深表歉意，并高度重视这一问题。为了妥善解决这些纠纷，维护消费者权益，同时确保公司服务质量的持续提升，我司特此发布相关公告，公布处理方案，希望双方最终能达成一致，妥善解决问题。一、问题概述在过去的一段时间里，我司在为消费者提供跨境电商开店技术指导服务时，由于沟通不畅、服务流程不完善以
场外期权流动性风险分析张文6.7 区块链
场外期权流动性风险的定义场外期权流动性风险指因市场深度不足或交易对手稀缺，导致无法及时以合理价格平仓或对冲头寸的风险。与交易所交易的标准化期权不同，场外期权通常为定制化合约，流动性较低。流动性风险的来源合约非标准化：场外期权的条款（如行权价、到期日、标的资产）由交易双方协商确定，缺乏统一市场，难以快速转让。交易对手集中：依赖少数金融机构做市，若对手方退出或信用恶化，可能无法找到替代交易方。市场冲击
VW(viewport width) 码哥DFS css 前端 html
vw表示当前视口宽度的1%。1vw等于视口宽度的1%，100vw等.element{width:50vw;/*元素宽度为视口宽度的50%*/font-size:2vw;/*字体大小随视口宽度缩放*/}vw的适用场景响应式布局：根据屏幕宽度调整元素尺寸，避免固定像素的局限性。全屏元素：实现宽度或高度与视口完全匹配的效果（如全屏轮播图）。字体缩放：结合calc()或媒体查询实现动态字体大小。vw结合媒
开源模型应用落地-让AI更懂你的每一次交互-Mem0集成Qdrant、Neo4j与Streamlit的创新实践（四）开源技术探险家开源模型-实际应用落地 neo4j 开源人工智能语言模型
一、前言在人工智能迅速发展的今天，如何让AI系统更懂“你”？答案或许藏在个性化的记忆管理之中。Mem0作为一个开源的记忆管理系统，正致力于为AI赋予长期记忆与个性化服务能力。通过结合高性能向量数据库Qdrant、图数据库Neo4j的强大关系分析能力以及Streamlit的高效可视化交互，我们可以打造出一个既能存储用户历史行为、又能实时推理并展示结果的智能记忆助手。本文将带您一步步探索这一技术组合的
【123揭秘】Elasticsearch内部数据结构大起底：行存、列存与倒排索引，你选对了吗？墨瑾轩 Java乐园 elasticsearch 数据结构 jenkins
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣第一部分：理解基本概念——构建知识的基础首先，我们需要了解一些基础概念，这对于理解Elasticsearch如何处理和存储数据至关重要。1.1行存储vs列存储行存储：适用于频繁写入和读取整行数据的场景。例如，在关系型数据库中，每一行代表一条记录，所有列的数据都
【Python】邮件处理2 宅男很神经 python 开发语言
7.Pythonemail库深度解析：MIME邮件构建与解析的艺术在前面的章节中，我们深入探讨了电子邮件的底层协议（SMTP,POP3,IMAP）以及如何使用imaplib库从服务器接收和管理邮件。然而，邮件内容的实际格式和结构并非由这些传输协议定义，而是由MIME(MultipurposeInternetMailExtensions)标准规范。Python的email库是处理MIME格式邮件的强
Set接口常用方法总结（Java：集合与泛型(二)）挺菜的 java 集合与泛型 Set java
一、Set接口概述：Set接口继承Collection接口。Set接口的常用实现类有：HashSet,LinkedHashSet和TreeSet.Set和List一样是接口,不能直接实例化,只能通过其实现类来实例化.二、Set接口常用方法总结:注:该博客代码中引包代码均省略,eclipse用户可通过CTRL+shift+o来进行快捷引包add(Objectobj)：向Set集合中添加元素，添加成功
替代进口SCA7606【智芯微】国产高精度电流传感器工业新能源电网专用深圳市尚想信息技术有限公司智芯微传感器电流传感器新能源智能电网工业控制代替进口
SCA7606（智芯微）产品解析与推广文案一、产品概述SCA7606是智芯微电子（ZXMICRO）推出的一款高精度数字隔离式电流传感器芯片，采用霍尔效应+数字输出技术，专为工业控制、新能源、智能电网等领域的电流检测需求设计。二、核心功能与参数特性参数/功能检测类型隔离式电流检测（非接触式）量程±5A/±20A/±50A（多量程可选）输出方式数字输出（I²C/SPI），支持实时数据传输精度±1%FS
C语言数据结构与算法专栏目录 CodeAllen嵌入式嵌入式 C语言数据结构算法
后序会开一个《嵌入式数据结构专栏》主要为了学习嵌入式的同学，软件能力提升和大厂面试能力，感谢大家关注！直达专栏：https://blog.csdn.net/super828/category_11083370.html《C语言数据结构与算法》专栏已经更新完毕，共计72篇分享，后期会逐渐修改错误并添加内容0数据之间的关系有哪些？1如何度量一个算法的好坏？2常见的时间复杂度实例
2025.7.4总结天真小巫职场记录职场和发展
感恩环节:感谢今日工作顺利度过，明天终于能美美的睡个懒觉了。感谢这周有个美好的双休。今日去实验室参观设备，感谢我的一个同事解答了我关于硬件设备与所做软件业务之间的关系，通过控制器控制网元等相关设备，同时，虽然参加过两周的硬装培训，但在这个光交箱得众多设备里，连交换机长什么样子都忘了。同事之间的交流完全插不上话。业务上还是需要多学习。如果所学的只是不能为自己所用，那么它将化为一摊死水。有氧运动:晚上
【探讨】同样是微服务解决方案——Spring Cloud、Service Mesh的区别和优劣到底在哪？千早爱音Official 微服务 spring cloud service_mesh
SpringCloud和ServiceMesh都是用于构建微服务应用程序的技术，它们各自具备不同的优点和缺点。SpringCloud是SpringFramework生态系统中的一个子项目，它提供了一组工具和框架，在构建分布式系统时提供了必要的支持。SpringCloud提供了各种功能，包括服务发现、路由、负载均衡、断路器和配置管理等。SpringCloud与SpringBoot框架天然集成，易于使
MySQL分区我说人人平等 mysql mysql分区
MySQL分区优点：1，和单个磁盘或者文件系统分区相比，可以存储更多数据2，优化查询。在where子句中包含分区条件时，可以只扫描必要的一个或者多个分区来提高查询效率；同时涉及sum()和count()这类聚合查询时，可以容易的在每个分区上并行处理，最终只需要汇总所有分区得到的结果3，对于已经过期或者不需要保存的数据，可以通过删除与这些数据有关的分区来快速删除数据4，跨多个磁盘来分散数据查询，以获
21天刷题计划之10.1—统计大写字母个数（Java语言描述） justlikeu777 21天刷题计划 java基础算法基础
题目描述：找出给定字符串中大写字符(即’A’-‘Z’)的个数接口说明原型：intCalcCapital(Stringstr);返回值：int输入描述:输入一个String数据输出描述:输出string中大写字母的个数示例1输入add123#$%#%#O输出1分析：获取输出的字符串，将字符串转换成字符数组，遍历字符数组并判断是否为大写字母即可。importjava.util.Scanner;publ
【云原生篇】微服务革命：解锁Istio与Service Mesh 林木森^~^ 云原生云原生微服务 istio
ServiceMeshServiceMesh是一种用于处理服务间通信的基础设施层，它以轻量级的网络代理的形式实现，这些代理与应用程序的微服务一同部署。ServiceMesh的核心目的是将网络通信的复杂性从应用程序代码中抽象出来，从而使开发人员可以专注于业务逻辑的开发，而不是通信的细节和问题。主要特点和功能服务发现：自动管理服务间的发现，使得各服务可以相互识别并进行通信。负载均衡：智能地将请求流量分
分布式系统核心基石：CAP定理、BASE理论与一致性算法深度解析 Eqwaak00 分布式系统设计实战算法 python java
一、CAP定理：分布式系统的设计边界1.1核心定义与经典三角CAP定理（Brewer'sTheorem）指出，在分布式系统中，一致性（Consistency）、可用性（Availability）、分区容错性（PartitionTolerance）三者不可兼得。（注：若需实际配图，可替换为Mermaid流程图或专业示意图）三大特性详解：一致性（C）：所有节点在同一时间看到的数据完全相同（强一致性）。
前端大文件直传华为云OBS实践与问题解决 neon1204 前端工作中记录前端华为云状态模式前端框架 javascript vue.js
问题背景在我们的项目中，原本采用的文件上传方案是将文件先上传到应用服务器，再由服务器转发至华为云OBS。这种架构在实际运行中暴露了两个关键问题：上传速度严重受限：服务器的带宽成为瓶颈（特别是100MB以上的大文件）服务器压力过大：频繁出现负载过载告警为解决这些痛点，我们决定改为前端直传OBS方案。技术流程如下：前端后端华为云OBS1.初始化上传(initUploadUrl)uploadId,obj
下一代防火墙 999感冒灵. 网络安全
一.防火墙是什么1.防火墙的定义：防火墙是一个位于内部网络与外部网络之间的安全系统（网络中不同区域之间），是按照一定的安全策略建立起来的硬件或软件系统，用于流量控制的系统（隔离），保护内部网络资源免受威胁（保护）。防火墙的主要用于防止黑客对安全区域网络的攻击，保护内部网络的安全运行。2.防火墙基本性质：①安全区域和接口：一台防火墙具有多个接口每个接口属于一个安全区域，每个区域具有唯一的名称，所以防
发起请求并处理响应：`XHR` 与 `axios` 使用指南来啦[特殊字符]~
又又又要长脑子呐~了解到通过发起HTTP请求并在不刷新页面的情况下更新页面内容是一种常见的需求。学习使用XMLHttpRequest或axios来实现，现在进行对比两者，比较项目使用时候的优缺点，文末使用表格进行对比学习1.使用XHR实现下面是一个使用XMLHttpRequest发起GET请求并处理服务器响应的示例：html体验AI代码助手代码解读复制代码//创建一个新的XMLHttpReques
在C#中，可以不实例化一个类而直接调用其静态字段就是有点傻 C#c#
这是因为静态成员（staticmembers）属于类本身，而不是类的实例。这是静态成员的核心特性1.静态成员属于类，而非实例当用static关键字修饰字段、方法或属性时，这些成员会绑定到类级别，而不是实例级别。它们在类加载时（通常是在程序启动或首次访问时）由CLR（公共语言运行时）分配内存并初始化，与是否创建实例无关。2.为什么不需要实例化？内存分配：静态字段的内存空间在程序运行期间只有一份，所有
MySQL分布式ID冲突详解：场景、原因与解决方案码不停蹄的玄黓 mysql 分布式数据库 ID冲突
引言在分布式系统开发中，你是否遇到过这样的崩溃时刻？——明明每个数据库实例的自增ID都从1开始，插入数据时却提示“Duplicateentry‘100’forkey‘PRIMARY’”；或者分库分表后，不同库里的订单ID竟然重复，业务合并时直接报错……这些问题的核心，都是分布式ID冲突。今天咱们就来扒一扒MySQL分布式ID冲突的常见场景、底层原因，以及对应的解决方案，帮你彻底避开这些坑！一、为什
如何在YashanDB中管理数据模型变更数据库
在现代企业中，数据模型的变更管理扮演着关键角色。无论是扩展现有业务，还是应对新的需求，业务模型的改变往往需要相应的数据模型更新。如何有效地管理这些变更，确保数据的完整性、一致性及应用的高可用性，成为了数据架构师和开发者必须面对的重要问题。本文将详细探讨在YashanDB中管理数据模型变更的策略和方法，旨在提升对YashanDB数据库技术的理解及应用能力。数据模型变更管理的关键要素版本控制与变更日志
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

2021 数据挖掘与大数据分析复习笔记 电子科技大学《数据挖掘与大数据分析期末》课程期末高分指南

文章目录

题型

第一章 数据挖掘与大数据简介

复习提纲

1.基本概念

2.数据挖掘主要任务

3.【重要！】KDD过程（知识发现过程）

最后一道题 的 一个思路

4.数据挖掘的挑战

第二章 认识数据与数据预处理

复习提纲

1.属性类型

2.【重要！选填题】数据的统计描述

中心趋势度量

数据的散布

3.【重点 上机实习】（数据的）相似性度量

1.标称属性数据

2.二元变量属性数据

3.序数型变量数据

4.数值属性数据

4.【重点！】数据预处理

为什么要挖掘？

数据预处理的主要任务：

【重点】数据清理（数据的填充方法重点！）

数据集成

数据归约

数据变换

数据离散化

第三章 关联规则挖掘

复习提纲

1.定义以及一些概念

2.Apriori算法

3.FP-growth算法

如何构造FP树？

4 支持度、置信度及兴趣因子

第四章 分类/回归

复习提纲

1.基本概念

监督学习 VS 无监督学习

【重要！】模型分类

生成模型

判别模型：

二者的区别

2.决策树（DT）

【重要！】决策树的优缺点

【重要！】构建决策树的方法

【重要！】属性选择基本准则：

【重要！】信息增益（ID3）：

【重要！】信息增益率（C4.5）：

Gini指数（CART）

3.【重要！】过拟合问题和解决

过拟合的解决策略

【重要！】在决策树中如何避免过拟合

4.【重要！】KNN

【重要！】KNN的优点和缺点

基本思想

优缺点

5.朴素贝叶斯

6.【重要！】SVM支持向量机

【重要！】SVM的优缺点

什么是支持向量？

7.人工神经网络

8.集成学习

9.分类评价指标

10.练习题

第五章 聚类分析和噪声检测

复习提纲

1.什么是聚类

2.聚类算法分类

3.【重要！】KMEANS

【*】KMEANS优缺点

3.【重要！】DBSCAN

缺点

4.什么是离群点

5.离群点种类

6.LOF 离群（异常/孤立）点检测

第六章 大数据分析

复习提纲

1.哈希技术

2021 数据挖掘与大数据分析复习笔记电子科技大学《数据挖掘与大数据分析期末》课程期末高分指南

第一章数据挖掘与大数据简介

最后一道题的一个思路

第二章认识数据与数据预处理

3.【重点上机实习】（数据的）相似性度量

第三章关联规则挖掘

第四章分类/回归

第五章聚类分析和噪声检测

第六章大数据分析