雨停有你

数据挖掘复习

1. 概要

1.1 为什么要做数据挖掘？

我们生活在大量数据日积月累的年代。分析这些数据是一种重要需求。数据的爆炸式增长，广泛可用和巨大数量使得我们的时代成为真正的数据时代。急需功能强大和通用的工具，以便从这些海量数据中发现有价值的信息，把这些数据转换成有组织的知识。这种需求导致了数据挖掘的诞生。

1.2 数据挖掘需要解决什么问题

分类与回归、聚类、关联规则、时序模式、偏差检测

1.3 数据挖掘的主要步骤

数据清理
数据集成
数据选择
数据变换
数据挖掘
模式评估
知识表示

2. 数据的概念：统计描述、可视化、距离度量

2.1 数据的基本概念

标称属性（Nominal）：是一些符号或事物的名称。每个值代表某种类别、编码或状态，因此标称属性又被看做是分类的。
二元属性（Binary）：是一种标称属性，只有两个类别或状态：0 和 1。
序数属性（Ordinal）：其可能的值之间具有有意义的序或秩评定，但是相继值之间的差是未知的。例如小、中、大。
数值属性（Numeric）：是定量的，是可度量的量。用整数或实数值表示。
- 区间标度属性（interval-scaled）：用相等的单位尺度度量。区间的值有序，可以为正、0、或负；没有真正的零点；可以计算差值、均值、中位数和众数。
- 比率标度属性（ratio-scaled）：具有固定零点的数值属性，也就是说一个数可以是另一个数的倍数；此外这些值是有序的，可以计算差值、均值、中位数和众数。
离散数学和连续属性：
- 离散属性具有有限或无限可数个值，可以用或者不用整数表示。
- 如果属性不是离散的，则它是连续的。

2.2 数据常见的统计特征有哪些分别是怎么计算

基本统计描述有三类

中心趋势度量：度量数据分布的中部或中心位置。讨论均值、中位数、众数、中列数
数据的散布：数据分散程度的度量。极差、四分位差、四分位数极差、盒图、方差、标准差
基于图形的可视化审视数据：分位数图、分位数-分位数图、直方图、散点图

中心趋势度量

均值
中位数

奇数是中间的数，偶数是中间两个数的和。但是当观测的数量很大，中位数的计算开销就很大，所以我们可以计算中位数的近似值，

$L_1$ 是中位数的下界， $N$ 是整个数据集中值的个数， $\sum(freq)_l$ 是低于中位数区间的所有区间的频率和， $frea_median$ 是中位数区间的频率，而 $w i d t h$ 是中位数区间的宽度。
众数（mode）

集合中出现的最频繁的值。具有一个、两个、三个众数的数据集合分别称为单峰的（unimodal）、双峰的（bimodal）和三峰的（trimodal）。具有两个或多个众数的数据集是多峰的，极端情况下，每个数据只出现一次，则没有众数。
中列数

数据集中最大和最小值的平均值。

度量数据散布

极差

max-min
四分位数

2-分位数是将数据分为两半，小于二分位数的数据最多有1/2，对应于中位数。四分位数用3个数据点把数据划分成4个相等的部分。q-分位数将数据分成100个大小相等的连贯集。中位数，四分位数和百分位数是使用最广泛的分位数。
四分位数极差（IQR）

$IQR = Q_3 - Q_1$

给出被数据中间一半所覆盖的范围
五数概括

min,Q1,中位数(Q2),Q3,max
盒图

盒图体现了五数的概念

盒的端点一般在四分位数上，使得盒的长度是四分位数极差IQR；中位数用盒内线标记，盒外两条线（称作胡须）延伸到最小值和最大值。
方差和标准差

方差如下公式

标准差是方差的平方根，是发散性的度量。 $\delta$ 度量关于均值的发散，仅当选择均值作为中心度量使用。 $\delta$ 越小，整体数据越靠近均值。

数据的基本统计描述图形显示
- 分位数图
  
  对于一个序列数据 $X$ ,设每个观测值 $x_i(i = 1，···，N)$ 是按递增排序的, $x_1$ 最小， $x_N$ 最大，每个观测值与一个百分数 $f_i$ 配对，指出大约 $f_i $ x 100% 的数据小于 $x_i$ ,这里说大约是因为可能没有一个精确地值 $f_i$
  
  百分比0.25对应于四分位数Q1，百分比0.50对应于中位数，百分比0.75对应于Q3
  
  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-a2buM3tv-1669877471579)(https://tva1.sinaimg.cn/large/008eGmZEgy1gmh789j66hj30me0b4abg.jpg)]
- 分位数-分位数图
- 直方图
- 散点图

2.3 怎么度量距离和相似性

标称属性和二元属性的邻近性度量

数值属性：Lp距离

标称属性的近邻性度量

标称属性可以取两个或多个状态，设一个标称属性的状态数目为 $M$

相异性

两个对象i和j之间的相异性可以根据不匹配率计算：
$\frac{p - m} {p}$
其中 $m$ 是匹配的数目，即 $i$ 和 $j$ 取值相同的状态的属性数,而 $p$ 是刻画对象的属性总数，由 $d (i, j)$ 可以构造相异性矩阵。

相似性
$\frac{m}{p}$

二元属性的近邻性度量

考察对称和非对称二元属性刻画的对象间的相异性和相似性度量。

二元属性只有 0 和 1 的取值。

相异性

如果所有的二元被看成具有相同的权重，则我们可以得到一个两行两列的列联表。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WXnQio1L-1669877471579)(https://tva1.sinaimg.cn/large/008eGmZEgy1gmhbnm8yp1j30lg08k3zk.jpg)]

其中 q 是对象 i 和 j 都取 1 的属性数；

r 是在对象 i 中取 1 、在对象 j 中取 0 的属性数；

s 是在对象 i 中取 0、在对象 j 中取 1 的属性数；

t 是对象 i 和 j 都取 0 的属性数；

属性总数为 p， p = q + r + s + t

基于对称二元属性的相异性叫做对称二元相异性，如果i 和 j是对称的，即它们同样重要，则 i 和 j 的相异性为
$\frac{r+s}{q+r+s+t}$
对于非对称的二元属性，两个状态不是同样重要，认为两个都取1的情况比两个都取0的情况更有意义，这种二元属性经常被认为是（“一元的”）其中负匹配数t被认为是不重要的
$\frac{r+s}{q+r+s}$
类似的，我们可以基于相似性而不是相异性来度量两个二元属性的差别，非对称的二元相似性可以用如下公式
$\frac{q}{q+r+s} = 1 - d(i,j)$
这里的 $s i m (i, j)$ 被称作 Jaccard系数

数值属性的相异性

欧几里得距离、曼哈顿距离、闵可夫斯基距离

欧几里得距离

描述对象 i 、 j 之间的欧几里得距离
$\sqrt{(x_{i1}-x_{j1})^2+(x_{i2}-x_{j2})^2+...+(x_{ip}-x_{jp})^2}$

加权欧式距离
$\sqrt{w_1(x_{i1}-x_{j1})^2+w_2(x_{i2}-x_{j2})^2+...+w_p(x_{ip}-x_{jp})^2}$

曼哈顿距离
$d(i,j) = |x_{i1}-x_{j1}| +|x_{i2}-x_{j2}| + ... + |x_{ip}-x_{jp}|$

欧式距离和曼哈顿距离满足如下数学性质

非负性：$d(i,j)>= 0 $ :距离是个非负的数值

同一性： $d (i, j) = 0$ ：对象到自身的距离是0

对称性： $d (i, j) = d (j, i)$ ：距离是对称函数

三角不等式： $d (i, j) < = d (i, k) + d (k, j)$ ：从 i 到 j 的距离不会大于途径任何其他对象 k 的距离

满足这些条件的测度叫做度量（metric）

闵可夫斯基距离（Minkowski distance）

是欧氏距离和曼哈顿距离的推广
$\sqrt[h]{|x_{i1}-x_{j1}|^h+|x_{i2}-x_{j2}|^h+...+|x_{ip}-x_{jp}|^h}$
其中 $h$ 是实数， $h > = 1$ ,也称作 $L_p$ 范数，其中的p就是这里的h，只不过这里保留了p作为属性数, p=1时候表示曼哈顿距离（ $L_1$ 范数），p=2表示欧氏距离（ $L_2$ 范数）

上确界距离（ $L_{max}$ , $L_{\infty}$ 范数和切比舍夫距离）

是 $h->\infty$ 是闵可夫斯基距离的推广
$\lim_{h\rightarrow\infty}{(\sum_{f=1}^{p}|x_{if}-x_{jf}|^h)^{\frac{1}{h}}} = \max_f^p{|x_{if}-x_{jf}|}$
$L_{\infty}$ 范数又称一致范数

例如，使用相同的数据对象 $x_1 = (1,2)$ 和 $x_2 = (3,5)$ ，这两个对象的最大值差为 5 - 2 = 3.这是两个对象的上确界距离。

余弦相似度
$\frac{x · y}{||x||\times||y||}$
其中， $∣ ∣ x ∣ ∣$ 是向量x的欧几里得范数 $\sqrt{x_1^2+x_2^2+...+x_p^2}$ ,即向量的长度。该度量基于向量x和y之间夹角的余弦，等于0意味着两个向量呈 $90^o$ 夹角（正交），没有匹配。

3. 数据预处理

3.1 为什么要进行数据预处理

不正确、不完整和不一致的数据是现实世界的大型数据库和数据仓库的共同特点。数据预处理正是需要解决这样的数据质量问题。

3.2 数据清洗主要解决什么问题

现实世界的数据一般是不完整的、有噪声的和不一致的。数据清洗试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。

3.3 数据规约

数据规约（data reduction ）技术可以用来得到数据集的规约表示，它小得多，但仍接近于保持数据的完整性。

数据规约策略包括

维规约（dimensionality reduction）减少所考虑的随机变量的属性的个数。维规约方法包括小波变换和主成分分析，它们把元数据变换或投影到较小的空间。属性子集选择是一种维规约方法，其中不相关、弱相关或冗余的属性或维被检测和删除。
数量规约（numerosity reduction）用替代的较小的数据表示形式替换元数据，这些技术可以使参数的也可以是非参数的。对于参数方法而言，使用模型估计数据，使得一般只需要存放模型参数，而不是实际数据，离群点可能要存放，例如回归和对数-线性模型。非参数方法包括直方图、聚类、抽样和数据立方体聚集。
数据压缩（data compression）使用变换，以便得到元数据的规约或者压缩表示。如果元数据能够从压缩后的数据重构而不损失信息，则该数据规约成为无损的，否则是有损的。维规约和数量规约也可以视为某种形式的数据压缩。

小波变换

离散小波变换（DWT）是一种线性信号处理技术，用于数据向量 $X$ 时，将它变换成不同的数值小波系数向量 $X^{'}$ ，两个向量具有相同的长度。用于数据规约时，每个元组看成是n维数据向量，即 $X = (x_1,x_2,...,x_n)$ ，描述n个数据库属性在元组上的n个测量值。

如果小波变换后的数据与元数据的长度相等，这种技术如何能够实现数据压缩？关键在于小波变换后的数据可以截短，就能保留近似的压缩数据。例如保留大于设定的某个阈值的所有小波系数，其他系数置0。

DWT与离散傅里叶变换（DFT）有密切关系。一般来说DWT是一种更好的有损压缩，能提供元数据更准确的近似。

离散小波变换的一般过程使用一种层次金字塔算法（pyramid algorithm），它在每次迭代时将数据减半，导致计算速度很快。

输入数据向量长度L必须是2的整数幂，必要时补0，满足L>=n
每个变换涉及应用两个函数。第一个使用某种数据光滑，如求和或加权平均，第二个进行加权查分，提取数据细节特征。
两个函数作用于 $X$ 中的数据点对，即做用户所有的测量对（ $x_{2i},x_{2i+1}$ ）。这导致两个长度为L/2的数据集，一般而言，它们粪便代表输入数据的光滑后的版本或低频版本和它的高频内容
两个函数递归地作用于前面循环得到的数据集，直到得到的结果数据集的长度为2.
由以上迭代得到的数据集中选择的值被指定为数据变换的小波系数。

主成分分析（PCA）

首先介绍方差过滤。如果一个特征的方差很小，则意味着这个特征上很可能有大量取值都相同（比如90%都是1，只有10%是0，甚至100%是1），那这一个特征的取值对样本而言就没有区分度，这种特征就不带有有效信息。从方差的这种应用就可以推断出，如果一个特征的方差很大，则说明这个特征上带有大量的信息。因此，在降维中，PCA使用的信息量衡量指标，就是样本方差，又称可解释性方差，方差越大，特征所带的信息量越多。

PCA作为矩阵分解算法的核心算法，其实没有太多参数，但不幸的是每个参数的意义和运用都很难，因为几乎每个参数都涉及到高深的数学原理。

教材《数据挖掘概念与技术中》进行了简短的定义

基本过程如下：

（1）对输入数据规范化，使得每个属性都落入相同的区间。此步有助于确保具有较大定义域的属性不会支配具有较小定义域的属性。

（2）PCA计算k个标准正交向量，作为规范化输入数据的基。这些是单位向量，每一个方向都垂直于另一个。这些向量称为主成分。输入数据是主成分的线性组合。

（3）对主成分按“重要性”或强度降序排列。主成分基本上充当数据的新坐标轴，提供关于方差的重要信息。也就是说，对坐标轴进行排序，使得第一个坐标轴显示数据的最大方差，第二个显示次大方差，如此下去。例如，图2-17显示原来映射到轴X1和X2的给定数据集的前两个主成分Y1和Y2。这一信息帮助识别数据中的分组或模式。

（4）既然主成分根据“重要性”降序排列，就可以通过去掉较弱的成分（即方差较小）来归约数据的规模。使用最强的主成分，应当能够重构原数据的很好的近似

参考自吴恩达《机器学习》

在PCA中，我们要做的是找到一个方向向量（Vector direction），当我们把所有的数据都投射到该向量上时，我们希望投射平均均方误差能尽可能地小。方向向量是一个经过原点的向量，而投射误差是从特征向量向该方向向量作垂线的长度。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fzn0ep0w-1669877471579)(https://tva1.sinaimg.cn/large/008eGmZEgy1gmhfaciecrj308c06lmx4.jpg)]

下面给出主成分分析问题的描述：

问题是要将 $n$ 维数据降至 $k$ 维，目标是找到向量 $u^{(1)}$ , $u^{(2)}$ ,…, $u^{(k)}$ 使得总的投射误差最小。主成分分析与线性回顾的比较：

主成分分析与线性回归是两种不同的算法。主成分分析最小化的是投射误差（Projected Error），而线性回归尝试的是最小化预测误差。线性回归的目的是预测结果，而主成分分析不作任何预测。

上图中，左边的是线性回归的误差（垂直于横轴投影），右边则是主要成分分析的误差（垂直于红线投影）。

PCA将 $n$ 个特征降维到 $k$ 个，可以用来进行数据压缩，如果100维的向量最后可以用10维来表示，那么压缩率为90%。同样图像处理领域的KL变换使用PCA做图像压缩。但PCA 要保证降维后，还要保证数据的特性损失最小。

PCA技术的一大好处是对数据进行降维的处理。我们可以对新求出的“主元”向量的重要性进行排序，根据需要取前面最重要的部分，将后面的维数省去，可以达到降维从而简化模型或是对数据进行压缩的效果。同时最大程度的保持了原有数据的信息。

PCA技术的一个很大的优点是，它是完全无参数限制的。在PCA的计算过程中完全不需要人为的设定参数或是根据任何经验模型对计算进行干预，最后的结果只与数据相关，与用户是独立的。

但是，这一点同时也可以看作是缺点。如果用户对观测对象有一定的先验知识，掌握了数据的一些特征，却无法通过参数化等方法对处理过程进行干预，可能会得不到预期的效果，效率也不高。

以下复习过程如有困惑直接不看吧。

主成分分析算法

PCA 减少 $n$ 维到 $k$ 维：

第一步是均值归一化。我们需要计算出所有特征的均值，然后令 $x_j= x_j-μ_j$ 。如果特征是在不同的数量级上，我们还需要将其除以标准差 $σ^2$ 。

第二步是计算协方差矩阵（covariance matrix） $Σ$ ：
$\sum=\dfrac {1}{m}\sum^{n}_{i=1}\left( x^{(i)}\right) \left( x^{(i)}\right) ^{T}$

第三步是计算协方差矩阵 $Σ$ 的特征向量（eigenvectors）:
$X\rightarrow QΣQ^{-1}$
将特征矩阵X分解为以下三个矩阵，其中 $Q$ 和 $Q^{-1}$ 是辅助的矩阵，Σ是一个对角矩阵，其对角线上的元素就是方差。。降维完成之后，PCA找到的每个新特征向量就叫做“主成分”，而被丢弃的特征向量被认为信息量很少，这些信息很可能就是噪音。

也可以我们可以利用奇异值分解（singular value decomposition）来求解，[U, S, V]= svd(sigma)。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-i1KTeRXF-1669877471580)(https://tva1.sinaimg.cn/large/008eGmZEgy1gmhfdsy0hyj30b403u0th.jpg)]

$Sigma=\dfrac {1}{m}\sum^{n}_{i=1}\left( x^{(i)}\right) \left( x^{(i)}\right) ^{T}$

对于一个 $n \times n$ 维度的矩阵，上式中的 $U$ 是一个具有与数据之间最小投射误差的方向向量构成的矩阵。如果我们希望将数据从 $n$ 维降至 $k$ 维，我们只需要从 $U$ 中选取前 $k$ 个向量，获得一个 $n \times k$ 维度的矩阵，我们用 $U_{reduce}$ 表示，然后通过如下计算获得要求的新特征向量 $z^{(i)}$ :
$z^{(i)}=U^{T}_{reduce}*x^{(i)}$

其中 $x$ 是 $n \times 1$ 维的，因此结果为 $k \times 1$ 维度。注，我们不对方差特征进行处理。

而SVD使用奇异值分解来找出空间V，其中Σ也是一个对角矩阵，不过它对角线上的元素是奇异值，这也是SVD中用来衡量特征上的信息量的指标。 $U$ 和 $V^{T}$ 分别是左奇异矩阵和右奇异矩阵，也都是辅助矩阵。我们使用 $U$ 这个矩阵为我们构造降维后的特征。

选择主成分的数量

主要成分分析是减少投射的平均均方误差：

训练集的方差为： $\dfrac {1}{m}\sum^{m}_{i=1}\left\| x^{\left( i\right) }\right\| ^{2}$

我们希望在平均均方误差与训练集方差的比例尽可能小的情况下选择尽可能小的 $k$ 值。

如果我们希望这个比例小于1%，就意味着原本数据的偏差有99%都保留下来了，如果我们选择保留95%的偏差，便能非常显著地降低模型中特征的维度了。

我们可以先令 $k = 1$ ，然后进行主要成分分析，获得 $U_{reduce}$ 和 $z$ ，然后计算比例是否小于1%。如果不是的话再令 $k = 2$ ，如此类推，直到找到可以使得比例小于1%的最小 $k$ 值（原因是各个特征之间通常情况存在某种相关性）。

还有一些更好的方式来选择 $k$ ，当我们在调用“svd”函数的时候，我们获得三个参数：[U, S, V] = svd(sigma)。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d1b0szFA-1669877471581)(https://tva1.sinaimg.cn/large/008eGmZEgy1gmhfmtw8xwj3065031mx0.jpg)]

其中的 $S$ 是一个 $n \times n$ 的矩阵，只有对角线上有值，而其它单元都是0，我们可以使用这个矩阵来计算平均均方误差与训练集方差的比例：
$\dfrac {\dfrac {1}{m}\sum^{m}_{i=1}\left\| x^{\left( i\right) }-x^{\left( i\right) }_{approx}\right\| ^{2}}{\dfrac {1}{m}\sum^{m}_{i=1}\left\| x^{(i)}\right\| ^{2}}=1-\dfrac {\Sigma^{m}_{i=1}S_{ii}}{\Sigma^{k}_{i=1}S_{ii}}\leq 1\%$

也就是： $\frac {\Sigma^{k}_{i=1}s_{ii}}{\Sigma^{n}_{i=1}s_{ii}}\geq0.99$

在压缩过数据后，我们可以采用如下方法来近似地获得原有的特征： $x^{\left( i\right) }_{approx}=U_{reduce}z^{(i)}$

PCA作为压缩算法。在那里你可能需要把1000维的数据压缩100维特征，或具有三维数据压缩到一二维表示。所以，如果这是一个压缩算法，应该能回到这个压缩表示，回到你原有的高维数据的一种近似。

所以，给定的 $z^{(i)}$ ，这可能100维，怎么回到你原来的表示 $x^{(i)}$ ，这可能是1000维的数组？

PCA算法，我们可能有一个这样的样本。如图中样本 $x^{(1)}$ , $x^{(2)}$ 。我们做的是，我们把这些样本投射到图中这个一维平面。然后现在我们需要只使用一个实数，比如 $z^{(1)}$ ，指定这些点的位置后他们被投射到这一个三维曲面。给定一个点 $z^{(1)}$ ，我们怎么能回去这个原始的二维空间呢？ $x$ 为2维，z为1维， $z=U^{T}_{reduce}x$ ，相反的方程为： $x_{appox}=U_{reduce}\cdot z$ , $x_{appox}\approx x$ 。如图：

如你所知，这是一个漂亮的与原始数据相当相似。所以，这就是你从低维表示 $z$ 回到未压缩的表示。我们得到的数据的一个之间你的原始数据 $x$ ，我们也把这个过程称为重建原始数据。

3.4 通过规范化变换数据

令A是数值属性，具有n个观测值 $v_1,v_2,...,v_n$

最小-最大规范化

把A的值 $v_i$ 映射到**新的区间 $new\_min_{A},new\_max_{A}]$ **中的 $v_i^{'}$

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-p5wIRgZX-1669877471581)(https://tva1.sinaimg.cn/large/008eGmZEgy1gmhgrj9wf7j312g07m0ug.jpg)]

z分数（z-score）规范化

或零均值规范化，属性 $\bar{A}$ 的值基于 $A$ 的均值和标准差规范化
$v^{'} = \frac{v_i - \bar{A}}{\delta_{A}}$

小数定标规范化

通过移动属性A的值的小数点位置进行规范化。小数点的移动位数依赖于A的最大绝对值，A的值 $v_i$ 被规范化为 $v_i^{'}$ ,又下式计算
$v_i^{'} = \frac{v_i}{10^j}$
j是使得 $max(|v_i^{'}|) < 1$ 的最小整数

4 数据仓库

基本概念：

cell**（单元格）cuboid（方体）cube（立方体）**
数据立方体：维度，度量，格
度量：分布的、代数的、整体的

基本操作（上卷、下钻、切片、切块）

数据立方体物化

全物化，半物化
聚集路径的选择，优化（例题）

4.1 数据立方体（data cube ）

允许以多维对数据建模和观察，由维和事实定义。

图4.3所示的数据立方体叫做方体(cubiod)，我们对给定的诸维的每个可能的子集产生一个方体，结果形成一个个的格（cell），这个格就是一个个具体的数值的在立方体中的体现。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5aJRUJIw-1669877471582)(https://tva1.sinaimg.cn/large/008eGmZEgy1gmhi07jhboj315c0nkafn.jpg)]

上图中，每个方体代表一个不同程度的汇总，存放最底层汇总的方体叫做基本方体，上图是4-D方体，逐渐往上是3-D方体；0-D方体存放最高层的汇总，叫做顶点方体，通常用all表示。

4.2 多维数据模式

星形模式

最常见的模型范式，其中数据仓库包括

一个大的中心表（事实表）,包含大批数据且不含冗余
一组小的附属表（维表）每维一个，可以在这里有冗余

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XtXwg3Gq-1669877471582)(https://tva1.sinaimg.cn/large/008eGmZEgy1gmhiee4zp0j312w0o2q7u.jpg)]

雪花模式

星形模式的变种，不同之处在于雪花模式的维表可能是规范化形式，以便减少冗余。这种表易于维护且节省存储空间，但是查询需要更多连接操作，可能降低性能。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-j2bzECjd-1669877471583)(https://tva1.sinaimg.cn/large/008eGmZEgy1gmhighfbv5j31600ok7a1.jpg)]

事实星座

复杂的应用，可能需要多个事实表共享维表，这种模式可以看做星形模式的汇集，

上图中有两个事实表sales和shipping，共享了维表time,item,location

4.3 概念分层

定义一个映射序列，将低层概念集映射到较高层

4.4 度量的分类和计算

立方体的度量是一个数值函数，可以对立方体的空间的每个点求值。

根据聚集函数可以分成三类：分布的（distributice）、代数的（algebraic）、整体的（holistic）

分布式的

如果一个聚集函数可以用于分布式的计算，将数据划分成n个集合，将函数用于每个部分，得到n个聚集值，得到的结果和用函数作用于整个数据集的结果一样的话，该函数可以用于分布式计算。如 sum(),count(),min(),max()。一个度量如果可以用分布聚集函数得到，则它是分布式的
代数的

一个聚集函数能够用一个具有M个参数的代数函数计算，而每个参数都可以用一个分布聚集函数求得，则他是代数的。如avg(),可以用sum()/count()， min_N()、max_N() （找到N个最小最大值）, standard_deviation()。一个度量如果可以用代数聚集函数得到，则它是代数的。
整体的

一个聚集函数如果描述它的自己所需的存储没有一个常数界，则它是整体的。也即，不存在一个具有M个参数的代数函数进行这一计算。如 median()、mode()和rank()。一个度量如果用整体聚集函数得到的，则它是整体的。

4.5 典型的OLAP操作

上卷（roll-up）/ 上钻（drill-up）

通过沿一个维的概念分层向上攀升或者通过维规约在数据立方体上进行聚集

下钻（drill-down）

是上卷的逆操作，它由不太详细的数据得到比较详细的数据。通过沿维的概念分层向下或引入附加的维来实现。

切片（slice）

在给定的立方体的一个维上进行选择，定义子立方体。

切块

通过在两个或多个维上进行选择，定义子立方体。

转轴（pivot）/旋转（rotate）

转动数据的视角，提供数据的替代显示

4.6 数据立方体的物化

compute cube 操作和维灾难

Compute cube操作在指定的维的所有子集上计算聚集。可能需要很大的存储空间。

对于n维立方体的方体总数为 $2^n$ 。

全物化

预先计算所有的方体。通常需要海量的存储。

部分物化

有选择地计算整个可能的方体集中一个适当的子集。

冰山立方体

只存放其聚集值如（count）大于某个最小支持度阈值的立方体单元。这个阈值为最小支持度。

基本单元和聚集单元

基本方体的单元是基本单元，非基本方体的单元是聚集单元。基本方体泛化程度最低，逐层提高，最高的是顶点放图all。

数据立方体其实就是在大量的多维数据中，进行了一个group by的操作，使得数据能够按照一定的规则聚集起来，从而形成一些小的立方体，继而观察各种聚集的值。

聚集单元在一个或多个维度上聚集，其中每个聚集维用单元记号中的 “*” 表示。假设我们有一个n维数据立方体。令 $a = (a_1,a_2,...,a_n,measures)$ 是一个单元，取自构成数据立方体的一个方体，如果 ${a_1,a_2,...,a_n}$ 恰有 $m (m < = n)$ 个值不是**“*”**，则我们说 $a$ 是m维单元。m=n是基本单元，m

祖先和后代

单元之间存在祖先后代的关系。在这里我们说一个 $i - D$ 单元是一个 $j - D$ 单元的祖先，当且仅当

$且$
对于 $\geq k \geq n$ ,只要 $a_k \neq *$ ，就有 $a_k = b_k$ ，特别地， $a$ 是 $b$ 的父母，且 $b$ 是 $a$ 的子女，当且仅当 $j = i + 1$ 。

祖先是后代在某些维上的上卷操作，不考虑某些维或某些维已被上卷；而后代，则是祖先在某些唯上的下钻操作，更细致的去考虑某些维。因此祖先是后代的泛化，后代是祖先的具体。

闭覆盖（closed coverage）

一个单元 c 是闭单元，如果不存在单元d，使得 d 是单元 c 的后代，即d通过将 c 的 * 用非“*”值替换能得到，且d和c有相同的度量。闭立方体是一个仅由闭单元组成的数据立方体。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hBtfA38N-1669877471584)(https://tva1.sinaimg.cn/large/008eGmZEgy1gmkkz89inlj30om0gogmz.jpg)]

立方体外壳（cube shell）

部分物化的另一个策略是只预计算涉及少数维的方体，这些方体形成对应数据立方体的立方体外壳，在附加的维组合上的查询必须临时计算。

4.7 数据立方体的计算

多路数组聚集（MultiWay）

多路数组聚集（MultiWay）方法使用多维数组作为基本的数据结构，计算完全数据立方体。MultiWay是一种使用数组直接寻址的典型MOLAP方法，其中维值通过位置或对应数组位置的下标访问，不能使用基于值的重新排序作为优化技术。基于数组的立方体结构构造方法：

a.把数组分成块。块是一个子立方体，足够小，可以放入立方体计算时可用的内存。分块是一种把n维数组划分成小的n维块的方法，其中每个块作为一个对象存放在磁盘上。块被压缩，以避免空数组单元所导致的空间浪费。一个单元为空，如果它不含有任何有效数据（其单元计数为零）。如为了压缩稀疏数组结构，在块内搜索单元时可以用chunkID+offset作为单元的寻址机制。

b.通过访问立方体单元（即访问立方体单元的值）来计算聚集。可以优化访问单元的次序，使得每个单元必须重复访问的次数最小化，从而减少内存访问开销和存储开销。技巧是使用这样的一种次序，使得多个方体的聚集单元可以同时计算，避免不必要的单元再次访问。

由于分块技术涉及重叠某些聚集计算，因此称该技术未多路数组聚集（multiway array aggregation），执行同时聚集，即同时在多个维组合上计算聚集。

MultiWay使用直接数组寻址，比ROLAP基于关键字的寻址搜索策略快，不过MultiWay计算从基本方体开始，逐步向上到更泛化的祖先方体，因此不能利用先验剪枝。

计算方法

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-x844q50P-1669877471584)(https://tva1.sinaimg.cn/large/008eGmZEgy1gmkoobimjpj319m0lix35.jpg)]

根据前提条件，如果我们按顺序从1到64依次扫描，BC、AC、AB各有16个块，聚集 $b_0c_0$ 块需要扫描 1-4块，聚集 $a_0c_0$ 则需要扫描1-13块，也就是扫描1、5、7、13块，而对于 $a_0,b_0$ 就需要扫描49块才能聚集了。

我们来计算一下按顺序扫描的话的内存消耗，A、B、C的大小分别为40、400、4000，因此最大的2-D平面是BC（400x4000 = 1600000）,AC(40x400=160000),AB（40x400 = 16000）。按顺序扫描的时候，扫描ABC方体的块1到块4的行，就能聚集一个BC方体的块，相对的，AB需要扫描的块最多。我们的目的是节省内存，则显然我们需要尽可能少的扫描最大的平面。

为了避免把1个3-D块多次调入内存，我们在块内存中维持所有相关2-D平面所需的最小内存单位为：

40 x 400(用于整个AB平面) + 40 x 1000(用于AC平面的一行)+100x1000(用于BC平面的一块) = 156000个内存单位

整个扫描顺序就是先聚集BC，再是 AC，再是AB。

如果我们换一种次序，假设顺序为1、17、33、49、5、21、37、53等，也就是先向AB平面，然后向AC平面，最后向BC平面聚集，则需求量为 400 x 4000(用于整个BC平面) + 10 x 4000(用于AC平面的一行) +10 x 100(用于AB平面的一块) = 1641000个单位

上图演示了我们如何从ABC聚集到ALL，图从自底向上看，每次聚集都由所需内存小的上一方体聚集。一开始AB、AC、BC都由ABC聚集而成，由于AB所需内存最小，则A 和B 由AB聚集而成，C由AC聚集而成，ALL由A聚集而成

BUC：从顶点方体向下计算冰山立方体

BUC是一种计算稀疏冰山立方体的算法。和MultiWay不同，BUC从顶点方体向下到基本方体构造冰山立方体，这使得BUC可以分担数据划分开销，这种处理次序也使得BUC在构造立方体时使用先验性质进行剪枝。

方体格一般采用顶点方体在顶部基本方体在底部的表示，将下钻（从高聚集单元向较低、更细化的单元移动）和上卷（从细节的、低层单元向较高层、更聚集的单元移动）概念一致起来。BUC是指自底向上构造（Bottom-Up Construction），BUC作者采用顶点方体在底部而基本方体在顶部的表示，这样看BUC确实是自底向上的。在这里，下钻表示从顶点方体向下到基本方体，所以我们将BUC的探查过程视为自顶向下（这里的下钻方向就反过来了）。

Star-Cubing：使用动态星树结构计算冰山立方体

不用细看

Star-Cubing集成自顶向下和自底向上立方体计算，并利用多维聚集（类似MultiWay）和类Apriori剪枝（类似BUC），在一个称为星树（star-tree）的数据结构上操作，对该数据结构进行无损数据压缩，从而降低计算时间和内存需求量。

Star-Cubing算法利用自底向上和自顶向下的计算模式：在全局计算次序上，使用自底向上模式；同时有一个基于自顶向下模式的子层，利用共享维的概念。如果共享维上的聚集值不满足冰山条件，则沿该共享维向下的所有单元也不可能满足冰山条件。

共享维：ACD/A意味方体ACD具有共享维A，ABD/AB意味着方体ABD具有共享维AB，ABC/ABC意味方体ABC具有共享维ABC等。

这源于泛化，在以ACD为根的所有子树中的所有方体都包含维A，在以ABD为根的所有子树中的所有方体都包含维AB，在以ABCX为根的所有子树中的所有方体都包含维ABC（尽管只有一个），我们称这些公共维为特定子树的共享维（shared dimension）

几个概念：方体数、星节点、星树

方体树（cuboid tree），树的每一层代表一个维，每个结点代表一个属性值；每个结点有四个字段：属性值、聚集值、指向第一个子女的指针和指向第一个兄弟的指标；方体中的元组逐个插入组中，一条从根到树叶结点的路径代表一个元组。如果单个维在属性值p上的聚集不满足冰山条件，则在冰山立方体计算中识别这样的节点没有意义。这样的结点p用*替换，使方体树可以进一步压缩。

如图所示基本方体ABCD的方体树片段， $c_2$ 具有聚集（计数）值5，表示 $a_1,b_1,c_2,*)$ 有5个单元。这种表示合并了公共前缀，节省内存并允许聚集内部结点上的值。利用内部结点上的聚集值，可以进行基于共享维的剪枝，例如AB的方体树可以用来对ABD的可能单元进行剪枝。

星节点和星树：如果单个维p上的聚集不满足冰山条件，则称属性A中的结点p是星结点（star node）；否则，称p为非星结点（non-star node）。使用星结点压缩的方体树称为星树（star-tree）。

4.8 课后练习

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yXgUGyw6-1669877471585)(https://tva1.sinaimg.cn/large/008eGmZEgy1gmkzqiqwrvj31n60u0dxo.jpg)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ec3NX5fG-1669877471585)(https://tva1.sinaimg.cn/large/008eGmZEgy1gmkupdxhy0j31630u04qp.jpg)]

第一问，问立方体有几个非空的方体，就是最底层是10维的基本方体，一层一层聚集上去之后，一共有几个，是 $2^{10}$ 个。我们题目给的数据是基本方体的具体的格，两者是一种概念和实体的关系。

第二问，求非空的经过3个基本格聚集的格有多少个。题目给的格在数据立方体中是基本方体，每个格可以向上聚集 $2^{10}-1$ 个格，即将其中的数据p一个个的变成*。总的格数为 $3\times2^{10}-3$ 。

往上聚集时候必会有重叠的部分，相异的部分一定在前三个确定的情况下，其中前三个为*的可以分别由三个基本单元格聚集而成，它们的度量值为3，每个出现了 $2^7$ 次，因此需要减掉 $\times 2^7$ 个单元格即 $d_4,...,d_{10})$ ，；另外 $d_2,*,...,*)、(d_1,*,...,*)、(*,*,d_3,*,...,*)$ 各出现了两次合计度量值为6，则只取出现的1次，所以还要减掉 $3\times2^7$ 个单元格。

所以总的单元格为 $3\times2^{10}-3 - 2 \times 2^7 - 3\times2^{7}$

第三问，求聚集单元格大于等于2的数量，由第二问知， $d_2,*,...,*)、(d_1,*,...,*)、(*,*,d_3,*,...,*)$ 符合，它们各出现两次， $d_4,...,d_{10})$ 出现了三次，也符合，所以一共有 $4\times2^7$ 。

第四问，一个单元 c 是闭单元，如果不存在单元d，使得 d 是单元 c 的后代，即d通过将 c 的 * 用非“*”值替换能得到，且d和c有相同的度量。闭立方体是一个仅由闭单元组成的数据立方体。闭单元要和祖先和后代单元的概念结合看。

本题问在全物化的数据立方体中闭单元的个数，则是答案中的7个。首先三个基本单元是闭单元，对于 $d_3,d_4,...,d_{10})$ $d_2,*,d_4,...,d_{10})$ $d_1,*,*,d_4,...,d_{10})$ 而言，度量值为2，当用 a或b或c去替换对应的*,度量值都变了，变成了1，最后一个单元格 $d_4,...,d_{10})$ 度量值为3，用a或b或c去替换*，度量值也变了，变成了1，因此也是闭单元格。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Gnk0mcCQ-1669877471585)(https://tva1.sinaimg.cn/large/008eGmZEgy1gml32dbq8lj31af0u0th7.jpg)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KiGpEhRJ-1669877471585)(https://tva1.sinaimg.cn/large/008eGmZEgy1gmkzr3uxwtj315q0u044c.jpg)]

对于©的多路计算，自底向上计算，AC数量级最大，AB次之，BC最小，因此B和C由BC聚集，A由AB聚集

5. 关联规则

5.1 关联规则

支持度和置信度的定义和计算

K-项集

极大频繁项集、闭频繁项集的概念

频繁模式

频繁模式是频繁地出现在数据集中的模式（如项集、子序列、或子结构）。

支持度和置信度

支持度： $\Rightarrow B) = P(A \cup B)$ 即A和B这两个项集在事务集D中同时出现的概率

置信度： $\Rightarrow B) = P(B \mid A )$ 即在出现项集A的事务集D中，项集B也同时出现的概率。

同时满足最小支持度阈值（min_sup）和最小置信度阈值（min_conf）的规则称为强规则，为方便计算

用0%~100%来计算而不是0~1.0。

上面的支持度公式又是被成为相对支持度，而项集出现的频度，也就是计数称为绝对支持度。

频繁项集

项的合集称为项集，包含k个项的项集称为k项集。项集的出现频度是项集的事务数，也就是数它出现的次数。

如果项集 $I$ 的相对支持度满足最小支持度阈值，换句话说 $I$ 的绝对支持度满足对应的最小支持度计数阈值，则 $I$ 是频繁项集。频繁k项集通常记为 $L_k$

$\Rightarrow B) = P(B \mid A ) = \frac{support(A\cup B)}{support(A)} = \frac{support_count(A \cup B)}{support_count(A)}$

如果一个项集是频繁的，那么它的子集也是频繁的。一个长的项集包含组合个数较短的频繁子项集。

关联规则挖掘步骤

找出所有频繁项集：每个频繁项集出现的次数大于等于最小支持度计数
由频繁项集产生强关联规则：这些规则必须满足最小支持度和最小置信度

以啤酒尿布为例，

设置最小支持度和最小置信度为50%，

频繁模式有： Beer:3,Nuts:3,Diaper:4,Eggs:3,{Beer,Diper}:3

关联规则：(支持度，置信度) 括号中的前者是 A和B一起出现的概率，后者是A出现时候B也出现的概率。

$\Rightarrow Diaper (60\% ,100\%)$

$\Rightarrow Beer (60\%,75\%)$

闭频繁项集和极大频繁项集

上面的

如果不存在真超项集Y使得Y与X在S中有相同的支持度计数，则称项集X在数据集S中是闭的。项集X是数据集S中的闭频繁项集（closed pattern）。

这里的真超项集，就是类似与我们的真子集。

Y是X的真超项集，如果X是Y的真子项集，即如果 $\subset Y$ ,X中的每一项都在Y中，而Y中至少比X多一个项。

所以闭频繁项集就是闭的+频繁的，这两个要求。

如果X是频繁的，并且不存在超集Y，使得 $\subset Y$ 且Y在D中是频繁的，则项集X是D中的极大频繁项集，或极大项集（max pattern）。

频繁项集是最大频繁项集的子集。最大频繁项集中包含了频繁项集的频繁信息，且通常项集的规模要小几个数量级。所以在数据集中含有较长的频繁模式时挖掘最大频繁项集是非常有效的手段。

简单点说：如果这个itemset增加任何一个item它的支持度计数都会变低，那么它就是闭频繁项集。极大频繁项集就是增加任何一个item，他的支持度计数不仅会变低还会低于最小支持度计数的阈值。所以极大频繁项集一定是闭频繁项集，closed patterns不一定是max patterns。

栗子：

因为项集{b,c}出现在TID为1,2,3的事务中，所以{b,c}的支持度计数为3。而{b,c}的直接超集：{a,b,c}的支持度计数为2，都不等于{b,c}的支持度计数3，所以{b,c}为闭项集，如果支持度阈值为40%，则{b,c}也为闭频繁项集。

项集{a,b}出现在TID为1,2的事务中，其支持度计数为2。而它的直接超集{a,b,c}支持度计数也为2，所以{a,b}不是闭项集。

5.2 Apriori算法的原理及实现

先验性质

频繁项集的所有非空子集也一定是频繁的。

反单调性

一个集合不是频繁的，它的所有超集也不是频繁的，则称它为反单调的。

Apriori算法

首先，找出所有的频繁项集，即所有符合最小支持度的项集。再从频繁项集中找出符合最小置信度的项集，最终便得到有强规则的项集（即我们所需的项的关联性）。

还是用一个例子来理解 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XkiNGUJf-1669877471586)(https://tva1.sinaimg.cn/large/008eGmZEgy1gmm0bljpbjj31ko0ditay.jpg)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kpVfnypb-1669877471586)(https://tva1.sinaimg.cn/large/008eGmZEgy1gmm0btstc0j314f0u012s.jpg)]

假设最小支持度计数为2，对应的相对支持度为2/9=22%。

每个项都是候选1项集的集合C1的成员。算法扫描所有的事务，获得每个项，生成C1。然后对每个项进行计数。然后根据最小支持度从C1中删除不满足的项，从而获得频繁1项集L1。

对L1的自身连接生成的集合执行剪枝策略产生候选2项集的集合C2，然后，扫描所有事务，对C2中每个项进行计数。同样的，根据最小支持度从C2中删除不满足的项，从而获得频繁2项集L2。

对L2的自身连接生成的集合执行剪枝策略产生候选3项集的集合C3，然后，扫描所有事务，对C3每个项进行计数。同样的，根据最小支持度从C3中删除不满足的项，从而获得频繁3项集L3。

进行自连接时候如何生成C3项集中 ${I1,I2,I3\}$ ，它的二项子集为 ${I1,I2\}、\{I2,I3\}、\{I1,I3\}$ ,

L2中有它全部的二项子集,这样才能自连接生成 ${I1,I2,I3\}$ 。

以此类推，对Lk-1的自身连接生成的集合执行剪枝策略产生候选k项集Ck，然后，扫描所有事务，对Ck中的每个项进行计数。然后根据最小支持度从Ck中删除不满足的项，从而获得频繁k项集。

上面每一步得到 $L_{k+1}$ 都由 $L_{k}$ 自连接，得到k+1项集

上述过程apriori做了两个动作，连接和剪枝，剪枝就是利用先验性质删除具有非频繁子集的候选。

5.3 FP-growth算法的原理及实现

量化关联规则（对Apriori算法的简单扩展，了解原理）

Apriori算法有两个问题

产生大量的候选项集
需要重复扫描数据库

因此提出了一种可以挖掘全部频繁项集而无需很高代价的候选产生过程——频繁模式增长（Frequent-Pattern Growth，FP-growth）

采取如下分治策略：将提供频繁项集的数据库压缩到一棵频繁模式树（FP-tree），但仍保留项集关联信息。

FP-Tree

将事务数据表中的各个事务数据项按照支持度排序后，把每个事务中的数据项按降序依次插入到一棵以 NULL为根结点的树中，同时在每个结点处记录该结点出现的支持度

栗子：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WH1Yfl1H-1669877471586)(https://tva1.sinaimg.cn/large/008eGmZEgy1gmm2xpqvodj31fg0meds3.jpg)]

第一步操作和Apriori相同，扫描一遍数据库，构造频繁1项集，得到它们的支持度计数，按照支持度计数递减排序，这个表记为 $L$ 。

第二步构造FP-Tree。第二次扫描数据库D，每个事务的项都按L中的次序进行处理，即按递减的支持度j计数排序，并对每个事物创建一个分支。

例如，第一个事务“T100:I1,I2,I5”的三个项按照L中的次序排序为“I2,I1,I5”，导致构造树的包含三个节点的第一个分支 $ 、 、 $ ，其中I2作为根的子女链接到根，I1链接到I2，I5链接到I1，计数都为1。

然后是第二个事务T200，按L的次序包含I2和I4，它导致了一个分支，I4链接到I2，I4计数为1，I2计数增加1，变成2。

然后是第三个事务。。。以此类推。

当为一个事务考虑增加分支时候，沿共同前缀上的每个结点的计数增加1，为前缀之后的项创建结点和链接。

同时为了方便树的遍历，创建了个项表头，增加了一列结点链，表中的结点链指向它在树中的位置，同时相同的结点也链接起来。

FP树的挖掘过程。

条件模式基：包含FP-Tree中与后缀模式一起出现的前缀路径的集合

条件树：将条件模式基按照FP-Tree的构造原则形成的一个新的FP-Tree

FP的挖掘过程，由长度为1的频繁模式（初始后缀模式）开始，就是上面FP树中计数为1的叶子节点，构造它的条件模式基（由改后缀模式一起出现的前缀路径集组成），然后构造它的条件FP树，并递归地在该树上挖掘，模式增长通过后缀模式与条件FP树产生的频繁模式连接实现。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Gqgf50Rv-1669877471586)(https://tva1.sinaimg.cn/large/008eGmZEgy1gofy38oakaj31ew0swe0x.jpg)]

首先考虑I5，因为它是L中的最后一项，I5出现在FP树的两个分支中，路径是 $$ $$ ，考虑以I5为后缀，它的两个对应前缀路径是 $$ 和 $$ ,它们形成I5的条件模式基。使用这些条件模式基构造I5的条件FP树，它只包含单个路径 $$ 不包含I3，因为I3的支持度计数为1，小于最小支持度计数。该单个路径产生频繁模式的所有组合：{I2,I5:2}、{I1,I5:2}、{I2,I1,I5:2}。

然后是计算I4、I3、I1，最后得到频繁模式。下图是构造的I3的条件FP树，I3的条件模式基是{ {I2,I1:2}, {I2:2} , {I1:2}}，它的条件fp树有两个分支 $$ 和 $$ ，

如何构造条件FP树？

可以看到，上面构造条件FP树的时候是还是先计算一项集的支持度计数，然后构造一棵FP树。这个条件FP树其实还是原来FP树的一部分。构建频繁一项集并排序之后，第二步扫描数据库，我们扫描前缀加后缀的项集，并把不满足最小支持度计数的删除，构成新的项集，然后构造条件FP树。例如 I5项，扫描了 $, 和 $ 删除第二个的I3，剩下了两个 $$ ，然后不计算I5，生成一棵FP树，这样路径也就确定了。

（猜测）为什么说是条件就在于我们舍弃了不满足最小支持度计数的项。

如何产生条件模式基的频繁模式？

就是将该项插入这些分支，一个个的递归这个条件FP树，构造频繁2-项集、······ 、频繁K-项集，这个K就是加上当前项后的最长的路径长度。

最后构成的频繁项集还是包括1-项集的，这在生成L表时候已经构建完成了。

6. 分类：概念、决策树、最近邻、贝叶斯、集成学习

6.1 分类的概念

分类的数据分析任务中，需要构建一个模型或者分类器（classifer）来预测类标号。

数据分类是一个两阶段的过程，包括学习阶段（构建分类模型）和分类阶段（使用模型预测给定数据的类标号）。

学习阶段

分类算法通过从训练集中学习来构造分类器。训练集由数据库元组和它们相关联的类标号组成。

元组 $X$ 是用n维属性向量表示， $X = (x_1,x_2, ... ,x_n)$ ，每个元组都属于一个预先定义的类，即确定一个类标号属性。这些元组也叫做样本、实例、数据点或对象。

提供了类标号的的学习也叫监督学习。（分类是监督学习，聚类是无监督学习）

分类的任务就是学习一个从元组到类别的映射 $y = f (X)$ ,给定一组数据 $X$ ,输出类标号 $y$ 。
分类阶段

用第一阶段的模型进行分类，首先要在验证集上预测分类器的准确率，如果认为分类器的准确率是可以接受的，那么就可以用它对类标号未知的数据元组进行分类。

6.2 决策树(原理)

什么优点有什么缺点

原理及实现

决策树是一种图结构，给定一个类标号未知的元组 $X$ ，在决策树上问一系列问问题，得到一条从根节点到叶子节点的路径，每个叶子节点都是一个类标签

算法的核心是解决两个问题：

如何从数据表中找到最佳节点和最佳分支（属性选择度量）
如何让决策树停止生长，防止过拟合（剪枝）

决策树执行贪心策略，通过实现局部最优来达到接近全局最优结果。

优点

(1)速度快: 计算量相对较小, 且容易转化成分类规则. 只要沿着树根向下一直走到叶, 沿途的分裂条件就能够唯一确定一条分类的谓词.
(2)准确性高: 挖掘出来的分类规则准确性高, 便于理解, 决策树可以清晰的显示哪些字段比较重要, 即可以生成可以理解的规则.
(3)可以处理连续和种类字段
(4)不需要任何领域知识和参数假设
(5)适合高维数据
缺点:
(1)对于各类别样本数量不一致的数据, 信息增益偏向于那些更多数值的特征
(2)容易过拟合
(3)忽略属性之间的相关性

6.2.1建立决策树的基本策略

如果数据集D种所有的数据都属于一个类, 那么将该节点标记为叶子节点.
如果数据集D中包含属于多个类的训练数据, 那么选择一个属性将训练数据划分为较小的子集, 对于测试条件的每个输出, 创建一个子节点, 并根据测试结果将D中的记录分布到子节点中, 然后对每一个子节点重复1,2过程, 对子节点的子节点依然是递归地调用该算法, 直至最后停止.

这里涉及不纯度的概念

决策树的每个叶子节点中都会包含一组数据，在这组数据中，如果有某一类标签占有较大的比例，我们就说叶子节点“纯”，分枝分得好。某一类标签占的比例越大，叶子就越纯，不纯度就越低，分枝就越好。

如果没有哪一类标签的比例很大，各类标签都相对平均，则说叶子节点”不纯“，分枝不好，不纯度高。

分类型决策树在叶子节点上的决策规则是少数服从多数，在一个叶子节点上，如果某一类标签所占的比例较大，那所有进入这个叶子节点的样本都回被认为是这一类别。

如何计算不纯度？

其实是由误差率衍生而来 $Classification error(t) = 1 - \max_{i=1}[p(i|t)]$

信息熵

误差率越低，则纯度越高。由此还衍生出了其他两个常用指标，一个是ID3中Informationgain（信息增益）的计算方法可用Entropy推导，即最为人熟知的信息熵，又叫做香农熵，其计算公式如下：

$\sum_{i=0}^{c-1}p(i|t)log_2p(i|t)$

注意前面有个负号，等价于 $Enttropy(t) = \sum_{i=0}^{c-1}p(i|t)log_2{(\frac{1}{p(i|t)})} $

其中c表示叶子节点上标签类别的个数，c-1表示标签的索引。注意在这里，是从第0类标签开始计算。设定 $log_20 = 0$ 。
Gini（基尼指数）

另一个指标则是Gini（基尼）指数，主要用于CART决策树的纯度判定中，其计算公式如下：
$\sum_{i=0}^{c-1}[p(i|t)]^2$
举例

假设在二分类问题中各节点呈现如下分布，则可进一步计算上述三指数的结果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nQgRxcBb-1669877471587)(https://tva1.sinaimg.cn/large/008eGmZEgy1goelvocjtzj313s0nqaiz.jpg)]

能够看出，三种方法本质上都相同，在类分布均衡时（即当p=0.5时）达到最大值，而当所有记录都属于同一个类时（p等于1或0）达到最小值。换而言之，在纯度较高时三个指数均较低，而当纯度较低时，三个指数都比较大，且可以计算得出，熵在0-1区间内分布，而Gini指数和分类误差均在0-0.5区间内分布，三个指数随某变量占比增加而变化的曲线如下所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-csMEIb6E-1669877471587)(https://tva1.sinaimg.cn/large/008eGmZEgy1goelwvqffej30wo0ke0xj.jpg)]

决策树最终的优化目标是使得叶节点的总不纯度最低，即对应衡量不纯度的指标最低。

ID3

ID3采用信息熵来衡量不纯度，此处就先以信息熵为例进行讨论。ID3最优条件是叶节点的总信息熵最小，因此ID3决策树在决定是否对某节点进行切分的时候，会尽可能选取使得该节点对应的子节点信息熵最小的特征进行切分。换而言之，就是要求父节点信息熵和子节点总信息熵之差要最大。对于ID3而言，二者之差就是信息增益，即Information gain。
$Gain(A) = Info(D) - Info_A(D)$
ID3中 $I n f o ()$ 函数就是我们的信息熵，唯一要确定的就是 $I n f o (D)$ 和 $Info_A(D)$ 的含义

假设现在有如下数据集，是一个消费者个人属性和信用评分数据，标签是”是否会发生购买电脑行为“，仍然是个二分类问题，在此数据集之上我们使用ID3构建决策树模型，并提取有效的分类规则。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rLPW7yam-1669877471587)(https://tva1.sinaimg.cn/large/008eGmZEgy1goemjj1sb7j31560lkk3k.jpg)]

D就是我们的根节点，Info(D)就是计算它的信息熵，用 $I(s_1,s_2)$ 表示，其中s下标1和2代表两个分类水平，即图中的yes和no,14个样本，9个yes，5个no
$I(s_1,s_2) = -\frac{9}{14}log_2\frac{9}{14}-\frac{5}{14}log_2\frac{5}{14}) = 0.940$

即在不进行任何切分前，总信息熵为0.940。然后我们依次选取各特征来尝试进行切分，并计算切分完成后的子节点信息熵是多少。首先选取age列进行切分，age是三分类的离散变量，因此若用age对根节点进行切分，将有三个分支，每个分支分别对应一个age的取值，

$Info_{age}(D) = E(age) = \frac{5}{14} \times (-\frac{2}{5}log_2\frac{2}{5}-\frac{3}{5}log_2\frac{3}{5}) + \frac{4}{14} \times (-\frac{4}{4}log_2\frac{4}{4}-\frac{0}{4}log_2\frac{0}{4}) + \frac{5}{14} \times (-\frac{3}{5}log_2\frac{3}{5}-\frac{2}{5}log_2\frac{2}{5}) = 0.694$

因此划分age的信息增益为

$Gain(age) = Info(D) - Info_{age}(D) = 0.940 - 0.694 = 0.264$

以此类推，我们还能计算其他几个特征的信息增益，最终计算结果如下
Gain(income)=0.029，Gain(student)=0.15，Gain(credit_rating)=0.048，很明显，第一次切分过程将采用age字段进行切分，因为它更接近。

ID3缺陷：
- 分支度越高（分类水平越多）的离散变量往往子节点的总信息熵会更小，ID3是按照某一列进行切分，有一些列的分类可能不会对我需要的结果有足够好的指示。极限情况下取ID作为切分字段，每个分类的纯度都是100%，因此这样的分类方式是没有效益的
- 不能直接处理连续型变量，若要使用ID3处理连续型变量，则首先需要对连续变量进行离散化
  对缺失值较为敏感，使用ID3之前需要提前对缺失值进行处理
- 没有剪枝的设置，容易导致过拟合，即在训练集上表现很好，测试集上表现很差
C4.5

首先通过引入分支度（IV：Information Value）（在《数据挖掘导论》一书中被称为划分信息度）的概念，来对信息增益的计算方法进行修正，简而言之，就是在信息增益计算方法的子节点总信息熵的计算方法中添加了随着分类变量水平的惩罚项。而分支度的计算公式仍然是基于熵的算法，只是将信息熵计算公式中的 $p (i ∣ t)$ （即某类别样例占总样例数）改成了 $P(v_i)$ （即某子节点的总样本数占父总样本数的比例）,其实就是权重的意思。

其中，i表示父节点的第i个子节点， $v_i$ 表示第 $i$ 个子节点样例数， $P(v_i)$ 表示第i个子节点拥有样例数占父节点总样例数的比例，IV值会随着叶子节点上样本量的变小而逐渐变大，这就是说一个特征中如果标签分类太多，每个叶子上的IV值就会非常大。

使用之前的信息增益除以分支度作为选取切分字段的参考指标，该指标被称作GainRatio（获利比例，或增益率），计算公式如下：

增益比例是我们决定对哪一列进行分枝的标准，我们分枝的是数字最大的那一列，本质是信息增益最大，分支度又较小的列（也就是纯度提升很快，但又不是靠着把类别分特别细来提升的那些特征）。IV越大，即某一列的分类水平越多，Gainratio实现的惩罚比例越大。当然，我们还是希望GR越大越好。

然后我们可利用GR代替InformationGain重新计算1.2.3的实例，例如计算age字段的GR，由于根据age字段切分后，3个分支分别有5个、4个和5个样例数据，因此age的IV指标计算过程如下：

进而可计算age列的GR：

然后可进一步计算其他各字段的GR值，并选取GR值最大的字段进行切分。
CART

CART用到了基尼指数来区分D的不纯度

对离散或者连续值属性A的二元划分导致的不纯度降低为
$\Delta Gini(A) = Gini(D) - Gini_A(D)$

最大化不纯度降低（或等价地，具有最小基尼数）的属性选为分裂属性。该属性和它的分裂子集（对于离散值的分裂属性）或分裂点（对于连续值的分裂属性）一起形成分裂准则。

依旧是上面的题目，计算D的不纯度：
$Gini(D) = 1 - (9/14)^2 - (5/14)^2 = 0.459$
剪枝

剪枝分为先剪枝和后剪枝

6.3 混淆矩阵（精度、召回率计算）

混淆矩阵

对于一个二分类问题，我们可以得到如表 1所示的的混淆矩阵（confusion matrix）：

TP	真实类别为positive，模型预测的类别也为positive
FP	预测为positive，但真实类别为negative，真实类别和预测类别不一致
FN	预测为negative，但真实类别为positive，真实类别和预测类别不一致
TN	真实类别为negative，模型预测的类别也为negative

准确率

准确率（accuracy）计算公式如下所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nMvbWly5-1669877471589)(https://tva1.sinaimg.cn/large/008eGmZEgy1gof0h5wzyqj317a05cmxt.jpg)]

准确率表示预测正确的样本（TP和TN）在所有样本（all data）中占的比例。在数据集不平衡时，准确率将不能很好地表示模型的性能。可能会存在准确率很高，而少数类样本全分错的情况，此时应选择其它模型评价指标。
精确率（查准率）和召回率（查全率）

positive class的精确率（precision）计算公式如下：

positive class的召回率（recall）计算公式如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-D1LDYTW5-1669877471589)(https://tva1.sinaimg.cn/large/008eGmZEgy1gof0tzlmpqj31ee05cjrz.jpg)]
$F_1$ 值和 $Font metrics not found for font: .$ 值

$F_1$ 值就是精确率和召回率的调和平均值， $F_1$ 值认为精确率和召回率一样重要。

$F_β$ 值的计算公式如下：

在β=1时， $F_β$ 就是 $F_1$ 值，此时 $F_β$ 认为精确率和召回率一样重要；当β>1时，Fβ认为召回率更重要；当0<β<1时， $F_β$ 认为精确率更重要。除了 $F_1$ 值之外，常用的还有 $F_2$ 和 $F_0.5$ 。

6.4 最近邻（原理）、贝叶斯（原理）、支持向量机（原理）

邻近算法，或者说K最近邻（KNN，K-NearestNeighbor）

K-NN区别于K-means,它是有监督的，数据集是打好标签的，本质是基于一种数据统计的方法。

对于一个样本X，要给它分类，首先从数据集中，在X附近找离它最近的K个数据点，将它划分为归属于类别最多的一类

如上图，蓝色和红色是打好标签的数据，我们给绿色这个数据进行分类，K=3的时候发现离他最近的有1个蓝色2个红色，则绿色的这个被分类成红色，k=5的时候，发现离它最近蓝色有3个，红色有2个

则被分类为蓝色
贝叶斯

事件A在事件B已发生的条件下发生的概率，与事件B在事件A已发生的条件下发生的概率是不一样的。然而，这两者是有确定的关系的，贝叶斯定理就是这种关系的陈述。

A以及B为随机事件，且P(B)不为零。P(A|B)是指在事件B发生的情况下事件A发生的概率。

P(A|B)是已知B发生后，A的条件概率。也由于得自B的取值而被称作A的后验概率。
P(A)是A的先验概率（或边缘概率）。其不考虑任何B方面的因素。

P(B|A)是已知发生后，B发生的条件概率。

P(B)是B的先验概率。

而 P(B|A)则是已知结果}A时，B的概率，称为B的似然性/可能性(likelihood)。

后验概率 = (似然性*先验概率)/标准化常量

记住下面三个公式
支持向量机

用二维的点距离，支持向量机就是找一条边，以最大间隔把两个类分开

扩展到超平面就是，数据点若是p维向量，我们用p-1维的超平面来分开这些点。但是可能有许多超平面可以把数据分类。最佳超平面的一个合理选择就是以最大间隔把两个类分开的超平面。因此，SVM选择能够使离超平面最近的数据点的到超平面距离最大的超平面。

6.5 集成学习（原理，为什么好于单分类器）

对于训练集数据，我们通过训练若干个个体学习器，通过一定的结合策略，就可以最终形成一个强学习器，以达到博采众长的目的

7. 聚类：概念、划分聚类、层次聚类

7.1 聚类概念

本节的聚类是一种无监督学习

把一个数据对象划分成自己的过程，每个子集是一个簇(cluster)，使得簇中的对象批次相似，但与其他簇中的对象不相似。

几种聚类间距离计算(平均值，最大最小距离，期望值等)

类间距离的计算有几种，其中 $∣ p - p^{'} ∣$ 是两个对象或点p和p’之间的距离， $m_i$ 是簇 $C_i$ 的的均值，而 $n_i$ 是簇 $C_i$ 中对象的数目

最小距离

分别在两个类中的两个点之间的最小距离
$dist_{min}(C_i,C_j) = \min_{p\in C_i,p'\in C_j}{\{{|p-p'|}\}}$
最大距离

分别在两个类中的两个点之间的最大距离
$dist_{max}(C_i,C_j) = \max_{p\in C_i,p'\in C_j}{\{{|p-p'|}\}}$
均值距离

两个类中心点的距离
$dist_{mean}(C_i,C_j) = |m_i - m_j|$
期望值
$dist_{avg}(C_i,C_j) = \frac{1}{n_in_j}\sum_{p\in C_i,p'\in C_j}{|p-p'|}$

聚类质量评价方法

7.2 K-means、K-Medoids 聚类方法（原理，算法，优化，优缺点）

重点

贪心策略与全局最优

参数选择

k-means：基于形心

原理

一开始随机选取k个点，计算数据集每个点到k个点的欧式距离，对每个点来说距离最短的就是它的分类中心。全部计算完之后，再计算每一类的中心，不断循环直到中心不再发生改变。
缺点
1. 要求事先给出聚蔟的簇数k
2. 对噪声和离群点敏感，少量这类数据会对均值产生极大影响
3. 均值可能不是很能反映各个类的属性（当不同的类有不同的大小、密度、形状）

K-Medoids（K-中心点）

和K-means很类似，只不过他的中心点是具体的对象，叫代表对象，设为 $O_i$ 。非中心点叫非代表对象，设为 $p$ 。

算法循环决定每一轮的代表对象。假设初始有k个代表对象 ${O_1, ... , O_{j-1}, O_{j}, ... , O_k}$ ，也即对应k个类，计算其他对象到这些代表对象的距离，将对象分配到对应的类，然后在每一个类中随机选取1个对象作为代表对象的替代，设为 $O_{random}$ ，我们用 $O_{random}$ 代替 $O_j$ ，剩下的代表对象为 $O_i$ ，重新计算p到这些类的距离，属的类。注意此时代表对象集合变为 ${O_1, ... , O_{j-1}, O_{random}, ... , O_k}$ 。如果重新分配后绝对误差E减小，则 $O_j$ 会被 $O_{random}$ 代替。

绝对误差：
$\sum_{k=1}^{k}\sum_{p\in{C_j}}dist(p,o_i)$

p到代表对象的距离之和

7.3 CF-Tree，BIRCH算法（原理，优缺点）

CF-tree是聚类特征树
$C F = (n, L S, S S)$
n是数据的数量，LS是 $\sum_{i=1}^N{\vec{X_i}}$ ，SS是 $\sum_{i=1}^N{\vec{{X_i}^2}}$ ，LS是n个点的线性和，SS是数据点的平方和

$CF_1 + CF_2 = (n,LS,SS) + (n,LS,SS) = (n_1 + n_2，LS_1 + LS_2,SS_1 + SS_2) $

使用聚类特征，可以很容易推导出形心，半径和直径

BIRCH算法构造CF-Tree

CF树是一棵高度平衡的树，存储了层次聚类的聚类特征。树中非叶子结点都有后代。非叶子结点存储了其子女的CF的总和。

对于CF Tree，我们一般有几个重要参数，第一个参数是每个内部节点的最大CF数B，第二个参数是每个叶子节点的最大CF数L，第三个参数是针对叶子节点中某个CF中的样本点来说的，它是叶节点每个CF的最大样本半径阈值T，也就是说，在这个CF中的所有样本点一定要在半径小于T的一个超球体内。对于上图中的CF Tree，限定了B=7， L=5，也就是说内部节点最多有7个CF，而叶子节点最多有5个CF。

BIRCH算法其实就是构建CF树的过程，构建CF树的过程包括插入和分裂的过程

我们先定义好CF Tree的参数：即内部节点的最大CF数B，叶子节点的最大CF数L，叶节点每个CF的最大样本半径阈值T

如下，我们插入一个类簇sc8，根据聚类算法，它和sc1，sc2，sc3，sc4为一个类,因此sc8插入到CF树中作为LN1的孩子

如果此时LN1的直径大于阈值，则产生分裂，在这里L=3,因此LN1分裂，sc1和sc8为一个聚蔟LN1’。

而此时分支节点个数也为4了，因此LN1’所在那一层也要分裂

还有就是对于分类效果不是很好的CF树，可以进行合并操作

你可能感兴趣的:(算法)

2021-11-12 455. 分发饼干（贪心算法） TABE_ 贪心算法 leetcode 算法
注：题目：假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值g[i]，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸s[j]。如果s[j]>=g[i]，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是尽可能满足越多数量的孩子，并输出这个最大数值。示例1:输入:g=[1,2,3],s=[1,1]输出
贪心算法（9）（java）最优除法奋进的小暄 java 贪心算法算法
题目：给定一正整数数组nums,nums中的相邻整数将进行浮点除法。例如，[2,3.4]->2/3/4.例如，nums=[2,3,4]，我们将求表达式的值“2/3/4"。但是，你可以在任意位置添加任意数目的括号，来改变算数的优先级。你需要找出怎么添加括号，以便计算后的表达式的值为最大值。以字符串格式返回具有最大值的对应表达式。注意:你的表达式不应该包含多余的括号。输入：【1000，100，10，2
机器学习中的贝叶斯网络：如何构建高效的风险预测模型 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术文章目录机器学习中的贝叶斯网络：如何构建高效的风险预测模型1.背景介绍2.基本概念术语说明2.1马尔科夫随机场（MarkovRandomField）2.2条件随机场（ConditionalRandomField，CRF）2.3变量elimination算法2.4贝叶斯网络3.核心算法原理和具体操作步骤以及数学公式讲解3.1原理介绍1.贝叶斯网络基础2.贝叶斯网络构建风险
机器臂运动控制算法工程师面试道亦无名面试算法人工智能机器学习
大厂的经验总结：一、基础概念理解请解释机器臂运动学正解和逆解的概念，并分别说明其用途。正解：已知机器臂各关节的角度（或位移），通过运动学模型计算出机器臂末端执行器在笛卡尔空间中的位置和姿态。用途在于可以根据给定的关节驱动值，预测末端的实际位置，用于运动仿真、路径验证等，比如在工业生产前模拟机器臂的动作是否能准确到达加工位置。逆解：已知机器臂末端执行器在笛卡尔空间中的期望位置和姿态，求解出各关节应处
Java高并发容器的内核解析：从无锁算法到分段锁的架构演进猿享天开开发语言 java
《Java高并发容器的内核解析：从无锁算法到分段锁的架构演进》本文将以JUC包核心容器为切入点，深入剖析ConcurrentHashMap在Java8中的64位Hash分段技术，解密LinkedBlockingQueue双锁队列设计的吞吐量秘密，并给出各容器在亿级流量场景下的性能压测对比与选型决策矩阵。一、BlockingQueue体系：生产者-消费者模式的工业级实现1.阻塞队列的四大行为矩阵行为
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
【大模型书籍PDF】从零开始大模型开发与微调：基于PyTorch与ChatGLM （推荐）_从零开始大模型开发与微调 pdf 喝不喝奶茶丫 pytorch 人工智能语言模型大模型转行大模型 AI大模型微调
今天又来给大家推荐一本大模型方面的书籍。本书使用PyTorch2.0作为学习大模型的基本框架，以ChatGLM为例详细讲解大模型的基本理论、算法、程序实现、应用实战以及微调技术，为读者揭示大模型开发技术。本书配套示例源代码、PPT课件。（书籍分享）
软考系统架构设计师考试学习和考试的知识点大纲，覆盖所有考试考点 DKPT #系统架构设计师系统架构学习
以下是软考系统架构设计师考试的知识点大纲，覆盖所有官方考点，分为基础知识、核心技术、系统设计、案例分析、论文写作五大模块，帮助系统性学习和备考：一、基础知识模块计算机组成与体系结构计算机硬件组成（CPU、内存、I/O设备）存储系统（Cache、RAID、虚拟内存）指令系统与流水线技术操作系统进程与线程管理（调度算法、死锁）内存管理（分页、分段、虚拟内存）文件系统与磁盘管理数据库系统关系数据库（SQ
单调栈详解【C/C++】ん贤算法单调栈算法 c++数据结构贪心算法
前言：了解过单调队列后，你会发现单调栈的思想其实挺简单...当然前提是要了解一下什么是栈(stack)。看待一个问题，从不同角度，也许能有不同的收获。在数学家眼中，单调栈本质上是一个严格或非严格维护的单调递增或单调递减的数学结构。其核心在于动态的维护动态递增或递减的有序关系。而对于算法工程师，他们首先关注单调栈的核心优势：O(n)的时间复杂度。在需要遍历序列，并纪录极值的情况下（如接雨水、每日温度
Caffeine vs Guava Cache：性能巅峰对决，谁才是 Java 本地缓存之王？ Julian.zhou Java 开发基础技能缓存 java 算法
CaffeinevsGuavaCache：性能巅峰对决，谁才是Java本地缓存之王？导语：在Java本地缓存的战场上，Caffeine和GuavaCache是开发者最常用的两大神器。但究竟谁的性能更胜一筹？为何Caffeine被称为“GuavaCache的终结者”？本文通过算法原理、并发性能、内存管理、实战测试四大维度，彻底揭秘两者的性能差异，文末附迁移指南和选型建议！一、核心差异：算法与淘汰策略
122. 买卖股票的最佳时机 II 请向我看齐 LeetCode 算法
题目分析LeetCode第122题是“买卖股票的最佳时机II”。题目描述为：给定一个数组prices，其中prices[i]是一支给定股票第i天的价格。设计一个算法来计算你所能获取的最大利润。你可以尽可能地完成更多的交易（多次买卖一支股票）。模式识别本题属于动态规划或者贪心算法的范畴。由于可以进行多次交易，且没有交易次数限制，所以可以通过比较相邻两天的价格，只要后一天价格比前一天高，就进行一次交易
二分查找算法 WH牛算法算法
目录1.二分查找算法的介绍1.1算法思路1.2算法模版1.2.1查找区间左端点1.2.1查找区间右端点2.模版题2.1数的范围2.2数的三次方根3.典题3.1机器人跳跃问题3.2分巧克力4.课后题1.二分查找算法的介绍1.1算法思路假设目标值在闭区间[l,r]中，每次将区间长度缩小一半，当l=r时，我们就找到了目标值。说人话：就是把答案所在的区间逐渐缩小，直到区间内只有答案。二分查找算法的时间复杂
搜广推校招面经五十四 Y1nhl 搜广推面经搜索算法 python 推荐算法机器学习人工智能
美团推荐算法一、手撕Transformer的位置编码1.1.位置编码的作用Transformer模型没有显式的序列信息（如RNN的循环结构），因此需要通过位置编码（PositionalEncoding）为输入序列中的每个位置添加位置信息。位置编码的作用是：提供序列位置信息：帮助模型理解输入序列中元素的顺序。保持唯一性和连续性：确保每个位置的位置编码是唯一的，且相邻位置的位置编码是连续的。1.2.位
搜广推校招面经五十三 Y1nhl 搜广推面经 python 机器学习人工智能推荐算法搜索算法算法
小红书推荐算法一、ESMM(EntireSpaceMulti-TaskModel)ESMM（EntireSpaceMulti-TaskModel）是一种用于解决推荐系统中多任务学习问题的模型。它由阿里巴巴团队提出，主要用于处理点击率（CTR）和转化率（CVR）的联合预测问题。1.1.背景在推荐系统中，CTR和CVR是两个重要的指标：CTR（Click-ThroughRate）：用户点击广告的概率。
EnerVerse：智元机器人提出首个机器人4D世界模型，在动作规划任务中达到SOTA水平强化学习曾小健机器人
EnerVerse：智元机器人提出首个机器人4D世界模型，在动作规划任务中达到SOTA水平PNP机器人PNP机器人2025年02月10日21:04上海本文来自：公众号智元机器人https://sites.google.com/view/enerverse，出于学术/技术分享进行转载，如有侵权，联系删文。EnerVerse的科研核心团队由智元机器人研究院的具身算法精英组成。黄思渊，作为上海交通大学与
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
【IT大学生必会的】 10 种图表线性回归 .Boss. 深度学习开发语言人工智能机器学习算法
这段时间，不少同学提到了一些图表的问题。每次在使用matplotlib画图，运用这些图表说明问题的时候，很多时候是模糊的，比如说什么时候画什么图合适？其实这个根据你自己的需求，自己的想法来就行。今天的话，我这里举例在线性回归中，最常用的一些图表，应该可以cover绝大多数情况了。其他算法模型适用的图表，咱们在后面再给大家进行总结~至于数据集，表现方式，大家可以根据我给出的代码继续调整即可！那么，在
分布式限流方案：基于 Redis 的令牌桶算法实现代码怪兽大作战后端分布式 redis 算法 java 令牌桶接口限流
分布式限流方案：基于Redis的令牌桶算法实现前言一、原理介绍：令牌桶算法二、分布式限流的设计思路三、代码实现四、方案优缺点五、适用场景总结前言在分布式场景下，接口限流变得更加复杂。传统的单机限流方式难以满足跨节点的限流需求，因此需要一种分布式限流方案。这里介绍一种基于Redis和Redisson实现的令牌桶算法分布式限流方案。一、原理介绍：令牌桶算法令牌桶算法是一种用于控制流量的经典算法，其基本
http与https的区别哥谭居民0001 网络安全服务器
加密方式：加密技术是对信息进行编码和解码的技术，编码是把原来可读信息（又称明文）译成代码形式（又称密文），其逆过程就是解码（解密），加密技术的要点是加密算法，加密算法可以分为三类：对称加密，如AES基本原理：将明文分成N个组，然后使用密钥对各个组进行加密，形成各自的密文，最后把所有的分组密文进行合并，形成最终的密文。优势：算法公开、计算量小、加密速度快、加密效率高缺陷：双方都使用同样密钥，安全性得
基于32单片机的无人机直流电机闭环调速系统设计赵谨言论文毕业设计经验分享
标题:基于32单片机的无人机直流电机闭环调速系统设计内容:1.摘要本文针对无人机直流电机调速需求，设计了基于32单片机的无人机直流电机闭环调速系统。背景在于无人机应用场景不断拓展，对电机调速精度和稳定性要求日益提高。目的是开发一套高精度、响应快的闭环调速系统，以提升无人机飞行性能。方法上，采用32单片机作为控制核心，结合编码器反馈电机转速信息，运用PID控制算法实现闭环调速。通过实验测试，结果表明
蓝桥杯动态规划实战：从数字三角形到砝码称重藍海琴泉蓝桥杯动态规划职场和发展
适合人群：蓝桥杯备考生|算法竞赛入门者|DP学习实践者目录一、我的动态规划入门之路1.数字三角形：经典DP首战告捷2.砝码称重：背包问题的变形二、蓝桥杯高频算法考点三、蓝桥杯DP专项训练题四、备考建议一、我的动态规划入门之路1.数字三角形：经典DP首战告捷题目描述：从三角形的顶部到底部有很多条不同的路径。对于每条路径，把路径上面的数加起来可以得到一个和，你的任务就是找到最大的和（路径上的每一步只可
策略模式详解：实现灵活多样的支付方式 Dong雨策略模式 java
多支付方式的实现：策略模式详解策略模式（StrategyPattern）是一种行为设计模式，它定义了一系列算法，并将每个算法封装起来，使它们可以互换使用。策略模式使得算法可以独立于使用它的客户端变化。本文将通过一个具体的业务场景来介绍策略模式，并给出相应的代码实现。业务场景我们以一个电商平台为例，该平台支持多种支付方式，包括信用卡支付、PayPal支付和比特币支付。我们希望在不修改客户端代码的情况
蒙特卡罗树搜索算法依赖游戏树，也就是游戏的状态空间和可选动作的构成。游戏树是游戏设计者为了实现对战或博弈的目的 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介20世纪末到21世纪初，计算机科学和互联网科技迅速发展。在这些新兴领域中，蒙特卡罗方法是一个显著的研究热点。蒙特卡罗方法源自物理学和数学领域，其目的是模拟物理系统的随机运动，从而解决很多数学、物理等领域的问题。蒙特卡loor方法被广泛应用于各类模拟、预测、优化、控制等领域。在计算机领域，蒙特卡罗方法也扮演了重要角色。现如今，计算性能已经足够强大，人们可以轻松地进
代码随想录算法训练营第八天| 344 反转字符串、541 反转字符串II Anjoubecoding 算法数据结构 c++c语言 leetcode
这两天开的是字符串专题，我准备在做题的时候用C++做一遍，再用C做一遍，因为一直刷leetcode用的都是C++，导致C的基础太薄弱了，之后工作中有可能用到C，相当于再复习复习一、Leetcode344反转字符串题目链接：Leetcode344反转字符串这道题很简单，这才是真正的简单题voidreverseString(char*s,intsSize){intleft=0,right=sSize-
便民服务一体化的智慧园区开源了 AI服务老曹音视频人工智能自动化运维能源开源
智慧园区场景视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，从而大大减少企业级应用约95%的开发成本。充分利用现有的摄像头设备，无需大规模更换，降低成本同时提升系统的实施效率。用户只需在界面上进行简单的操作，就可以实现全视频的接入及布控。项目搭建地址基础项目搭建地址：yihecode
实现物流行业数字化、智能化管理的新型模式的智慧物流开源了 AI服务老曹开源能源人工智能云计算安全
智慧物流视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，从而大大减少企业级应用约95%的开发成本。构建基于Ai技术的安全监管平台，可逐步实现智能化巡检，针对安全事故隐患进行有效监控预警，降低安全违规行为发生率，节省人工监管成本。用户只需在界面上进行简单的操作，就可以实现全视频的接入及
全流程数字化管理的智慧物流开源了 AI服务老曹开源科技生活人工智能自动化
智慧物流视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，从而大大减少企业级应用约95%的开发成本。构建基于Ai技术的安全监管平台，可逐步实现智能化巡检，针对安全事故隐患进行有效监控预警，降低安全违规行为发生率，节省人工监管成本。用户只需在界面上进行简单的操作，就可以实现全视频的接入及
降低成本、提高效率的智慧能源开源了。 ai产品老杨 vue.js 前端 javascript 人工智能安全
一、简介AI视频监控平台,是一款功能强大且简单易用的实时算法视频监控系统。愿景在最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，减少企业级应用约95%的开发成本，在强大视频算法加持下的AR使得远程培训和远程操作指导不仅仅能够实现前后场的简单互动，而且能够实现人机结合，最终实现整个巡检流程的标准化。用户仅需在界面上简单操作，即可实现全视频的接入及布控。通
python之连连看游戏 CrMylive. python 游戏 pygame
实现一个简单的连连看游戏需要用到pygame库和一些基本的数据结构和算法。导入pygame库在程序开始之前，首先需要导入pygame库。在Python中，可以使用以下代码导入pygame库：importpygame初始化Pygame在导入pygame库之后，需要使用以下代码初始化pygame：pygame.init()设置游戏窗口设置游戏窗口的大小、标题等属性。可以使用以下代码设置游戏窗口大小为6
力扣刷题|链表面试题 02.02. 返回倒数第 k 个节点柯ran 力扣 leetcode 算法数据结构链表
题目：实现一种算法，找出单向链表中倒数第k个节点。返回该节点的值。快慢指针思想，画图更容易理解/***Definitionforsingly-linkedlist.*structListNode{*intval;*structListNode*next;*};*/intkthToLast(structListNode*head,intk){assert(head!=NULL);if(head==N
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round