呼呼呼呼~~

数据挖掘分析考试笔记

文章目录

数据挖掘分析考试笔记
- 英译汉
- 第一章绪论
- 第二章知识发现过程与应用结构
- 第三章关联规则挖掘
- - Apriori算法
  - close算法
  - FP-tree
- 第四章分类
- - 分类两个步骤
  - 基于距离的类标识搜素算法
  - KNN
  - 决策树 ID3
  - 贝叶斯分类
  - EM算法(Expectation-Maximization Algorithm)
  - 混淆矩阵
- 第五章聚类
- - 距离与相似性的度量
  - K-Means算法
  - PAM(Partitioning Around Medoid)围绕中心点的划分
  - 层次聚类方法
  - - AGNES算法
    - DIANA算法
  - DBSCAN
- 第六章时间序列和序列模式挖掘
- 第七章 PageRank

英译汉

KDD, Knowledge Discovery in Database 知识发现
supervised learning 监督学习
Batesian Classification 贝叶斯分类
Agglomeration 凝聚
Division 分裂
information retrieval 信息检索
Knowledge Engineering 知识工程
OLTP(On-Line Transaction Processing) 联机事务处理
OLAP(On-Line Analytic Processing) 联机分析处理
Decision Support 决策支持
Distributed Database 分布式数据库
Lattice of Closed Itemset 闭合项目集格空间
Parallel Association Rule Mining 并行关联规则挖掘
Quantities Association Rule Mining数量关联规则挖掘
KNN(k-Nearest Neighbors) k最临近
decision tree 决策树
overfitting 过拟合
Iterative Dichotomization
Expectation-Maximization
PAM(partitioning around medoid) 围绕中心点的划分
DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 基于密度的噪声应用空间聚类
Partitioning method 划分方法
Hierarchical method 层次方法
Grid-based method 基于网格的方法
STING(Statistical Information Grid-based Method) 基于网格的统计信息方法
Time Series 时间序列
AR(Auto Regressive) 自回归
Sequential Mining 序列挖掘
Offset Translation 偏移变换
Subsequence Ordering 子序列排序
Crawler 爬虫
Look up Page 查找页
posterior probability 后验概率
prior probability 先验概率

第一章绪论

数据挖掘概念

数据挖掘是从大量的、不完全的、模糊的、有噪声的、随机的数据集中识别有效的、新颖的、潜在可用的信息，以及最终可理解的模式的非平凡过程。
数据挖掘与知识发现的关联性
1. KDD是数据挖掘的一个特例
2. 数据挖掘是KDD过程的一个步骤
  
  数据挖掘是在KDD中通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。
3. 含义相同

第二章知识发现过程与应用结构

KDD的阶段划分、功能、任务
1. 问题定义
  
  和领域专家及最终用户紧密协作，一方面了解相关领域的有关情况、熟悉背景知识、弄清用户要求、确定挖掘目标等要求，另一方面通过对各种学习算法的对比而确定可用的学习算法
2. 数据采集
  
  选取相应的源数据库，并根据要求从数据库中提取相关的数据
3. 数据预处理
  
  对前一阶段的数据进行再加工，确定数据的完整性和一致性
4. 数据挖掘
  
  运用选定的数据挖掘算法，从数据中提取出用户所需要的知识
5. 模式评估
  
  将KDD系统发现的知识以用户能理解的方式呈现，并且根据需求对知识进行评价，如果发现的知识和用户所需要的不一致，则重复以上阶段以最终获得可用知识

第三章关联规则挖掘

频繁项目集：大于或等于MinSupport的项目集合的非空子集，称为频繁项目集

强关联规则：事务数据库在项目集合上满足最小支持度和最小置信度的关联规则成为强关联规则

关联规则挖掘问题可以划分成两个子问题：

发现关联规则

**通过用户给定的最小支持度，寻找所有的频繁项目集，即满足Support不小于MinSupport的所有项目集合
生成关联规则

通过用户给定的最小置信度，在每个最大频繁项目集中，寻找Confidence不小于MinConfidence的关联规则

Apriori算法

原理：频繁项目集的所有非空子集都是频繁项目集，非频繁项目集的所有超集都是非频繁项目集

Apriori（发现频繁项目集）

输入：项目集合D，最小支持度minsup_count

输出：频繁项目集L

$L_1$ = {lager 1-itemsets};

FOR(k = 2; $L_{k-1} \neq \Phi$ ; k++) DO BEGIN

$C_k$ = apriori_gen( $L_{k-1}$ );

FOR all trancation t $\in$ D DO BEGIN

$C_t$ = subset( $C_k$ , t);

FOR all condiation c $\in$ $C_t$ DO c.count++;

END

$L_k$ = {c $\in$ $C_k$ | c.count $\geq$ minsup_count}

L = $\cup$ $L_k$

apriori_gen（候选集生成）

输入：(k-1)-频繁项目集 $L_{k-1}$

输出：k-候选项目集 $C_k$

FOR all itemset q $\in$ $L_{k-1}$ DO

FOR all itemset p $\in$ $L_{k-1}$ DO

IF q.item₁ = p.item₁, q.item₁ = p.item $\cdots$ q.item_k-2 = p.item_k-2, q.item_k-1 < p.item_k-1

THEN BEGIN

c = q $\infty$ p

IF has_inference_subset(c, $L_{k-1}$ )

delete c

ELSE IF

add c to $C_k$

END

Return $C_k$

has_inference_subset（判断候选集元素）

输入：候选集c，(k-1)-频繁项目集 $L_{k-1}$

输出： $L_{k-1}$ 中是否含有c的全部(k-1)-子集的布尔判断（c是否被删除的布尔判断）

FOR all (k-1)-itemset of c DO BEGIN

IF s $\notin$ $L_{k-1}$ THEN Return TRUN

Return FALSE

close算法

原理：一个频繁闭合项目集的闭合子集一定是频繁的，一个非频繁闭合项目集的闭合超集一定是非频繁的。

计算：见colse算法PPT

FP-tree

FP-tree算法主要由两个步骤完成：

利用事务数据库中的数据构造FP-tree
从FP-tree中挖掘频繁模式

只需两次数据库的扫描：

对所有1-项目集的频度排序
将数据库信息转变成紧缩内存结构

算法例子：

TID	Itemset
1	A,B,C,D
2	B,C,E
3	A,B,C,E
4	B,D,E
5	A,B,C,D

扫描一次数据库，得到频数排序

item	count
B	5
C	4
A	3
D	3
E	3

根据频数对事务数据库重新排列

TID	Itemset
1	B,C,A,D
2	B,C,E
3	B,C,A,E
4	B,D,E
5	B,C,A,D

构造FP-tree

寻找路径生成频繁项目集

item	条件模式基	条件FP-tree	产生的频繁模式
A	{(BC:3)}	BC:3	AB,AC,ABC
B	NULL	NULL	NULL
C	{(B:4)}	B:4	BC
D	{(BCA:2),(B,1)}	BCA:2	AD,BD,CD,ABD,BCD,ACD,ABCD
E	{(BD,1),(BC,2),(BCA,1)}	BC:2	BCE

最大频繁项目集{BCE, ABCD}

第四章分类

分类两个步骤

建立一个模型，描述预定的数据类集或概念集
使用模型进行分类。首先评估模型的预测准确率，如果准确率可以接受，那么就用他来对类标号未知的元组进行分类

基于距离的类标识搜素算法

输入：每个类的中心 $C_1$ , $C_2$ , $C_3$ … $C_m$ ，待分类元组t

输出：t的类别c

dist = $\infty$ ;

FOR i=1 to m DO

IF dist( $C_1$ , t) < dist THEN BEGIN

dist = dist( $C_1$ , t);

c=i;

END

flag t with c

KNN

思想：假定每个类包含多个训练数据，且每个训练数据都有一个唯一的类别标记。KNN的主要思想就是计算每个训练数据到待分类元组的距离，取离待分类元组最近的k个训练数据，k个训练数据中哪一类别的训练数据占多数，待分类元组就属于哪个类别。

k-最临近算法

输入：训练数据T
最临近数目k
待分析的元组t
输出：t的类别c
N = $\Phi$

FOR each d $\in$ T DO BEGIN

IF |N| < k THEN

N = N $\cap$ {d}

ELSE

IF $\exists$ u $\in$ N such that sim(u, t) < sim(d, t) THEN

BEGIN

N = N - {u};

N = N $\cap$ {d}

END

END

c = class related to such u $\in$ N which has the most number

优点：

简单、易于理解、容易实现
通过对k的选择可具备丢噪音数据的健壮性

缺点：

算法的时间复杂度高
占用大量存储空间
对k值的依赖性
当其样本分布不平衡时，如当其中一类样本占主导时，新的未知实例容易被归为主导样本

决策树 ID3

信息熵(information Entropy)：对随机变量不确定度的度量，熵越大，随机变量的不确定性就越大
$-\sum_xp(x)log_2(p(x))$

信息增益(information gain)：是针对一个一个特征来的，就是看一个特征，系统有它和没有它时信息量各是多少，两者的差值即这个特征给系统带来的信息量，即信息增益
$I G (T) = E n t r o p y (S) - E n t r o p y (S ∣ T)$
信息增益比：
$\frac{Gain(S,A)}{SplitInformation(S,A)}\\ SplitInformation(S,A) = -\sum^v_{j=1}p_jlog_2(p_j)$

预剪枝(Pre-Pruning)：在构造决策树的同时进行剪枝；设定一个阈值，如决策树根的长度等，构造决策树时不能超过这个阈值。

后剪枝(Post-Pruning)：在决策树构造之后进行剪枝；从树的叶子节点开始剪枝，逐步向根的方法剪。剪枝的过程是对拥有同一父节点的一组节点进行检查，如果将其合并后增加的熵小于某个阈值，则将其合并为一个节点。其中包含了所有可能的结果。

贝叶斯分类

$H:所属类别\\ X:某种特征\\ P(H|X) = \frac{P(X|H)P(H)}{P(X)}$

P(H) 先验概率(prior probability)：根据以往的经验和分析得到的概率

P(H|X) 后验概率(posterior probability)：已知结果发生的情况下，求导致结果的某种原因的可能性的大小

EM算法(Expectation-Maximization Algorithm)

概念：在概率模型中寻找参数最大似然预计或者最大后验预计的算法。用于寻找，依赖于不可观察的隐性变量的概率模型中，参数的最大似然预计。

基本思想：分为两步Expection-step和Maximization-step，E-step通过已知数据和现有模型估计参数，然后用这个估计的参数计算似然函数的期望值；M-step是寻找似然函数最大化时对应的参数。由于算法会保证在每次迭代后似然函数都会增加，所以函数最终会趋于收敛

EM算法流程：

初始化分布参数
反复直到收敛

混淆矩阵

记忆：第二个字母P/N表示预测值，预测为1就为P，预测为0就为N；第一个字母T/F，表示预测的对不对，预测对了就为T，预测错了就为F

Accuracy（准确率）
$\frac{TP+TN}{TP+TN+FP+FN}$

P:precision（精确率）
$P=\frac{TP}{TP+FP}$
r:recall（召回率/灵敏度）
$r=\frac{TP}{TP+FN}$

$F_\beta=(1+\beta^2)\frac{P*r}{\beta^2*P+r}$

评估分类方法：

保持法

在保持法中，把给定的数据随机地划分为两个独立的集合：训练集和测试集。通常，三分之一的数据为训练集，三分之二的数据为测试集。使用训练集得到分类器，其准确率用测试集评估
交叉验证

把数据随机的分为n等份，每份的大小基本相同，测试和训练都进行n次。

如：把数据分为10等份，其中一份保留用作测试，其余九份合在一起来建立模型，然后用那一份数据来测试建立的模型，得到错误率。对每一份都重复此步骤，得到十个错误率，最后模型用所有数据生成，错误率取十个错误率的平均。

第五章聚类

聚类的概念：把数据分成不同的组，使组与组之间的差距尽可能的大，组内间的差距尽可能小

聚类分析在数据挖掘中的应用

聚类分析可以作为其他算法的预处理步骤
可以作为一个独立的工具来获得数据的分布情况
聚类分析可以完成孤立点挖掘

距离与相似性的度量

距离函数
1. 明可夫斯基距离(Minkowski)
  $\sqrt[r]{\sum_{i=1}^n|x_i-y_i|^r}$
  当r=1时，演变为绝对值距离/曼哈顿距离
  $\sum_{i=1}^n|x_i-y_i|$
  当r=2时，演变为欧式距离
  $\sqrt[2]{\sum_{i=1}^n|x_i-y_i|^2}$
2. 余弦距离
  $d(x,y)=\frac{\sum_{i=1}^nx_i*y_i}{\sqrt[2]{\sum_{i=1}^nx_i^2*\sum_{i=1}^ny_i^2}}$
3. 相似度Jaccard系数
  $J(A,B)=\frac{|A\cap B|}{|A|+|B|-|A\cap B|}\\ \\ d_j= 1-J(A,B)$
类间距离（如何计算聚类簇之间的距离？）
1. 最短距离法
  
  定义两个类中距离最近的两个元素间的距离为类间距离
2. 最长距离
  
  定义两个类中距离最远的两个元素元素间的距离为类间距离
3. 中心法（均值距离）
  
  定义两个类中心间的距离为类间距离
4. 类平均法（平均距离）
  
  任意两个元素距离的平均值作为类间距离
  $D_C(C_a,C_b)=\frac{\sum_{x\in C_a}\sum_{y\in C_b}d(x,y)}{mn}\\ \\ m:C_a类的元素个数\\ n:C_b类的元素个数$

K-Means算法

思想：k-平均算法以k为参数，将n个对象划分为k个簇，以使簇内具有较高的相似度。相似度的计算根据一个簇中对象的平均值来进行。

过程：算法首先随机的选择k个对象，以此作为初始的k个簇的中心或平均值，对剩余的每个对象根据其到各个簇中心的距离，将它划分给最近的簇，然后重新计算每个簇平均值，这个过程不断重复，直到准则函数E收敛。
$E=\sum_{i=1}^k\sum_{x\in C_i}|x-\bar x_i|^2$

K-Means（k-平均算法）

输入：簇的数目k，n个对象的数据库

输出：k个簇，使平方误差准则最小

assign inivate value for means

REPEAT

FOR j = 1 to n DO assign each $x_j$ to the cluster which has the closest means;

FOR i = 1 to k DO $\bar x_i$ = $\sum_{x\in C_i}\frac{x}{|C_i|}$ ;

Compute E

UNTIL E收敛

PAM(Partitioning Around Medoid)围绕中心点的划分

思想：最初随机选择k个对象作为中心点，该算法反复的用非代表对象来替换代表对象，视图找出更好的中心点，以改变聚类的质量。

过程：

建立：随机寻找k个中心点作为类中心
对所有可能的对象对进行分析，找到交换后可以使平方-误差减小最大的对象，代替原中心点

层次聚类方法

AGNES算法

AGNES（自底向上凝聚算法）

输入：包含n个对象的数据库，终止的条件簇数目k

输出：k个簇，达到终止条件规定的簇数目

将每个对象当成一个初始簇

REPEAT

根据两个簇中最近的数据点找到最近的两个簇

合并这两个簇，生成新的簇的集合

UNTIL 达到终止条件定义的簇的数目

算法例子

序号	属性1	属性2
1	1	1
2	1	2
3	2	1
4	2	2
5	3	4
6	3	5
7	4	4
8	4	5

执行过程

步骤	最近的簇距离	最近的两个簇	合并后的新簇
1	1	{1},{2}	{1,2},{3},{4},{5},{6},{7},{8}
2	1	{3},{4}	{1,2},{3,4},{5},{6},{7},{8}
3	1	{5},{6}	{1,2},{3,4},{5,6},{7},{8}
4	1	{7},{8}	{1,2},{3,4},{5,6},{7,8}
5	1	{1,2}{3,4}	{1,2,3,4},{5,6},{7,8}
6	1	{5,6}{7,8}	{1,2,3,4},{5,6,7,8}

DIANA算法

DIANA（自顶向下分裂算法）

输入：包含n个对象的数据库，簇的终止数目k

输出：k个簇，达到终止条件规定簇的数目

将所有对象合成一个初始簇

FOR (i = 1; i $\neq$ k; i++ ) DO BEGIN
找到所有簇中直径最大的簇

找出所选簇中与其他点平均差异度最大的点加入splinter group中，其余点放入old party中

REPEAT

在old party中找出到splinter group点中最近距离不大于到old party点中最近距离的点，加入到splinter group中

UNTIL 没有新的old party的点分配给splinter group

splinter group 和 old party两个簇为被选定的簇分裂成的，与其他簇一起组成新的簇集合

END;

算法执行例子

序号	属性1	属性2
1	1	1
2	1	2
3	2	1
4	2	2
5	3	4
6	3	5
7	4	4
8	4	5

执行过程

步骤	具有最大直径的簇	splinter group	old party
1	{1,2,3,4,5,6,7,8}	{1}	{2,3,4,5,6,7,8}
2	{1,2,3,4,5,6,7,8}	{1,2}	{3,4,5,6,7,8}
3	{1,2,3,4,5,6,7,8}	{1,2,3}	{4,5,6,7,8}
4	{1,2,3,4,5,6,7,8}	{1,2,3,4}	{5,6,7,8}
5	{1,2,3,4,5,6,7,8}	{1,2,3,4}	{5,6,7,8}终止

DBSCAN

DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 基于密度的噪声应用空间聚类

输入：包含n个对象的数据库，半径 $\varepsilon$ ，最小数目MinPts

输出：所有生成的簇，达到密度要求

REPEAT

从数据库中抽取一个未被处理过的点

IF 抽取的点使中心点，THEN 找出所有的密度可达的对象，形成一个簇

ELSE 抽取的点是边缘点（非核心对象），则跳过本次循环，继续查找下一点

UNTIL 所有的点都被处理

算法执行例子（ $\varepsilon$ = 1, MinPts = 4)

序号	属性1	属性2
1	1	0
2	4	0
3	0	1
4	1	1
5	2	1
6	3	1
7	4	1
8	5	1
9	0	2
10	1	2
11	4	2
12	1	3

执行过程

步骤	选择的点	在 $\varepsilon$ 中的个数	通过计算可达点而找到的新簇
1	1	2	无
2	2	2	无
3	3	3	无
4	4	5	$C_1$ {1,3,4,5,9,10,12}
5	5	3	已在一个簇 $C_1$ 中
6	6	3	无
7	7	5	$C_2$ {2,6,7,8,11}
8	8	2	已在一个簇 $C_2$ 中
9	9	3	已在一个簇 $C_1$ 中
10	10	4	已在一个簇 $C_1$ 中
11	11	2	已在一个簇 $C_2$ 中
12	12	2	已在一个簇 $C_1$ 中

第六章时间序列和序列模式挖掘

时间序列

时间序列就是将某一指标在不同时间上的不同数值，按照时间的先后顺序排列而成的序列
时间序列数据挖掘

时间序列挖掘就是要从大量的时间序列数据中提取出人们事先不知道的、潜在有用的、与时间属性相关的信息和知识，并用于短期、中期或长期预测，指导人们社会、生活、军事、经济等行为。

第七章 PageRank

基于随机冲浪的PageRank算法

输入：页面链接网络G

输出：页面等级值向量R

设置点击概率d，等级值向量初始值 $R_0$ ，迭代终止条件 $\varepsilon$

根据根据页面链接网络G生成转移概念矩阵M

i = 1;

REPEAT

$R_{i+1}$ = M $R_i$ ;

$\varepsilon_i$ = || $R_{i+1} - R_i$ ||

UNTIL $\varepsilon_i < \varepsilon$

Return $R_{i+1}$

执行例子

[已在matlab运行]https://gitee.com/wu-yuhaohao/picture/tree/master/matlab)

A = [
[0,1/2,0,1/2],
[1/3,0,0,1/2],
[1/3,1/2,0,0],
[1/3,0, 1, 0]
]

A =

     0    0.5000         0    0.5000
0.3333         0         0    0.5000
0.3333    0.5000         0         0
0.3333         0    1.0000         0

Q = [
[1/4,1/4,1/4,1/4],
[1/4,1/4,1/4,1/4],
[1/4,1/4,1/4,1/4],
[1/4,1/4,1/4,1/4]
]

Q =

0.2500    0.2500    0.2500    0.2500
0.2500    0.2500    0.2500    0.2500
0.2500    0.2500    0.2500    0.2500
0.2500    0.2500    0.2500    0.2500

d = 0.85

d =

0.8500

M = (1-d)Q + dA

M =

0.0375    0.4625    0.0375    0.4625
0.3208    0.0375    0.0375    0.4625
0.3208    0.4625    0.0375    0.0375
0.3208    0.0375    0.8875    0.0375

R = ones(4,1)

R =

R1 = M*R

R1 =

varepsilon = sum(sum(abs(R1-R)))

varepsilon =

0.5667

R2 = M*R1

R2 =

varepsilon = sum(sum(abs(R2-R1)))

varepsilon =

0.3612

R3 = M*R2

R3 =

varepsilon = sum(sum(abs(R3-R2)))

varepsilon =

0.1365

R4 = M*R3

R4 =

varepsilon = sum(sum(abs(R4-R3)))

varepsilon =

0.1160

R5 = M*R4

R5 =

varepsilon = sum(sum(abs(R5-R4)))

varepsilon =

0.0698

你可能感兴趣的:(数据挖掘,数据库,数据仓库)

SQLite Delete 语句详解 wjs2024 开发语言
SQLiteDelete语句详解SQLite是一种轻量级的数据库管理系统，广泛应用于移动设备、嵌入式系统和服务器端应用。在数据库管理中，删除数据是一项基本操作。SQLite提供了强大的删除功能，本文将详细介绍SQLite的Delete语句及其用法。1.Delete语句概述Delete语句用于从SQLite数据库中删除记录。其基本语法如下：DELETEFROMtable_nameWHEREcondi
大数据学习（82）-数仓详解 viperrrrrrr 大数据学习数仓
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、什么是数据仓库数据仓库（下文以“数仓”称），顾名思义，存放数据的仓库，它集合了各个业务系统的数据，以金融业为例，数仓包含了贷款业务、CRM、存款业务等数据。用于企业做数据分析、出报告、做决策；在有些公司也作为各业务系统的数据来源。从逻辑上理解，数据库和数仓没有区别，都是通过数据
Java项目设计文档：架构、模块与实现策略详解体制教科书
本文还有配套的精品资源，点击获取简介：Java项目设计文档是项目规划、实施和维护的重要指导工具，包含系统架构、模块划分、接口定义、类设计、数据库设计、异常处理、测试计划、性能优化以及部署运维等方面。本设计文档集合对于理解Java项目的架构设计和提升项目开发质量具有极高的参考价值。1.项目背景阐述在当今数字化转型的大潮中，企业对于IT系统的依赖日益加重。项目背景阐述这一章，将为您揭示本次项目的发起缘
YashanDB yasrman恢复数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E6%95%B0%E6%8D%AE%...操作说明执行恢复操作的数据库版本需与生成备份集的数据库版本完全一致。恢复语法详细说明请参考工具手册yasrman。分布式部署模式下，需要保证待恢复的集群部署状态与备份前节点部署状态一致，包括节点类型、节点监听IP、节点个数、节
【赵渝强老师】达梦数据库的逻辑存储结构数据库信创
达梦数据库由硬盘上的文件组成，而要读写数据需要通过达梦实例来完成。那么，达梦数据库是如何存储数据的呢？要搞清楚这个问题，就需要理解什么是达梦数据库的存储结构。达梦数据库的存储结构是由逻辑存储结构和物理存储结构组成。一般来说数据库无论是关系型数据库，还是NoSQL数据库在存储结构上，都是通过逻辑存储结构来管理物理存储结构。视频讲解如下：https://www.bilibili.com/video/B
YashanDB巡检数据库
巡检在YashanDB中为一个单独的后台线程，该线程类似于巡逻小队，不断地监控数据库的运行状况。当发生严重错误时，收集诊断数据存储在自动诊断存储库中，并且触发相应的修复手段或者限制损坏及中断。巡检主要包含如下内容：监控数据库文件发生严重错误时触发健康检查监控同步备库（最大保护模式）文件监控YashanDB的后台文件都存储着重要的信息，部分文件丢失可能导致数据库无法正常使用。此外，用户不可以手动改动
YashanDB健康检查数据库
YashanDB提供健康检查框架，用于数据库运行诊断检查。健康检查也称为检查器，检查数据库的各个组件，如检测文件损坏、数据块损坏、redo日志损坏等，并生成一份报告，记录发现的错误以及错误带来的影响。可以通过如下两种方式运行健康检查：反应式——故障诊断架构自动运行健康检查以响应严重错误。手动——使用内置高级包手动运行健康检查。如有需要，可以通过定义JOB定期运行健康检查。健康检查执行的结果将存储在
常见的数据库操作语言DDL、DML、DQL和DCL 失败尽是常态Z MySQL基础学习数据库 sql mysql
DDL、DML、DQL和DCL是常见的数据库操作语言，分别代表数据定义语言、数据操纵语言、数据查询语言和数据控制语言。1、数据定义语言（DDL）用于在数据库中创建、修改或删除表、视图、索引、序列等对象。常见的DDL命令有CREATE、ALTER和DROP等。2、数据操纵语言（DML）用于在数据库中对表进行插入、更新、删除等操作。常见的DML命令有INSERT、UPDATE和DELETE等。3、数据
一篇文章，彻底理解数据库操作语言：DDL、DML、DCL、TCL Java布道者 oracle 数据库 sql
最近与开发和运维讨论数据库账号及赋权问题时，发现大家对DDL和DML两个概念并不了解。于是写一篇文章，系统的整理一下在数据库领域中的DDL、DML、DQL、DCL的使用及区别。通常，数据库SQL语言共分为四大类：数据定义语言DDL，数据操作语言DML，数据查询语言DQL，数据控制语言DCL。再加上事务控制语言TCL，一个共5个。下面，我们就详细了解一下它们。数据定义语言DDLDDL（DataDef
MySQL中处理JSON数据小村学长毕业设计 mysql json 数据库
MySQL中处理JSON数据已成为大数据分析领域的一个新方向，这一功能自MySQL5.7版本引入以来，为数据库管理系统在处理非结构化数据方面提供了强大的支持。以下是对MySQL中处理JSON数据的详细探讨，包括其引入的背景、特性、函数与操作符、性能优化以及在大数据分析中的应用等方面。一、JSON数据类型引入的背景随着大数据技术的迅猛发展和普及，数据量的爆炸性增长对数据处理能力提出了前所未有的挑战。
SQLServer : DDL,DML,DQL,DCL的区别 SJ15630070060 Sql Server sqlserver 数据库
01、DDL（DataDefinitionLanguages）语句：即数据库定义语句，用来创建数据库中的表、索引、视图、存储过程、触发器等对象。SQLServerDLL语法是指SQLServer数据库定义域发的语法规则集合，主要包括创建、修改和删除数据库对象的语句。常用的语句关键字有：【createtable创建表】、【altertable修改表】、【droptable删除表】、【truncate
MySQL数据库中DDL 、DML 、DQL 、DCL 分别是什么超爱西西鸭 MySQL数据库数据库 mysql sql 运维
目录：一、DDL语句二、DML语句三、DQL语句四、DCL语句在MySQL数据库中，DDL、DML、DQL、DCL分别代表不同的语言类别，用于执行不同的数据库操作。一、DDL语句DDL（DataDefinitionLanguage）语句：数据定义语言，主要是进行定义/改变表的结构、数据类型、表之间的链接等操作。如创建、修改或删除表、视图、索引等。常用的语句关键字CREATE、DROP、ALTER、
数据库开发必备：深入理解DDL、DML、DQL和DCL 平凡程序猿~ 数据库数据库开发 oracle 数据库
文章目录一、数据库操作分类概述1.DDL（数据定义语言）2.DML（数据操作语言）3.DQL（数据查询语言）4.DCL（数据控制语言）二、DDL：数据定义语言1.DDL-数据库操作2.DDL-表操作三、DML：数据操作语言1.DML-添加数据2.DML-修改数据3.DML-删除数据四、DQL：数据查询语言1.DQL-基本查询2.DQL-条件查询3.DQL-聚合函数4.DQL-分组查询5.DQL-排
MySQL 奇幻之旅：从基础探秘到高级应用魔法进阶的华夫饼进大厂 mysql 数据库
MySQL奇幻之旅：从基础探秘到高级应用魔法在数据库的神秘世界里，MySQL宛如一座蕴藏无尽宝藏的城堡，我怀揣着探索的热情与求知的渴望，踏上了这趟扣人心弦的学习征程。一、MySQL基础：城堡基石的雕琢（一）数据库与表的操作：构建数据的栖息之所数据库创建与管理：绘制数据城堡的蓝图：犹如精心绘制城堡的设计图，我熟练掌握了使用CREATEDATABASE语句创建数据库的魔法咒语，像CREATEDATAB
基于Redis geo地理位置的物流路线规划系统实现方案 xiyubaby.17 缓存 redis
物流路线规划系统实现方案一、系统架构图数据存储层数据处理层业务服务层客户端RedisGEOPostgreSQL图数据库地理编码服务实时交通处理路线优化引擎距离计算服务路径规划服务订单管理服务物流管理系统司机APP客户门户客户端API网关业务服务层数据处理层数据存储层二、核心模块实现1.地理模型定义publicclassLocation{privateStringid;privateStringad
前端简单数据存储：跳过后端数据库的一种高效策略，应对一些不需要后端访问数据库的简单操作：静态 Markdown 文件存储【D＇accumulation】前端数据库学习 vscode html5 vue.js
问题提出：在一些应用场景中，有些数据并不重要，也不需要频繁地进行动态增删改查，比如品牌历史、产品介绍等说明性内容。为此，我选择在前端直接存储这些静态数据，跳过后端数据库调用。本文将分享如何利用Vue工程中直接存放Markdown文件与内嵌数据，将数据管理与业务逻辑解耦，从而实现快速开发、便于维护和灵活更新的目的。静态Markdown文件存储方法案例：原理：将Markdown文件（如brandHis
chromadb向量数据库使用（2） ZHOU_CAMP RAG chat_Chain 数据库 chromadb
目录代码代码解释**1.导入chatGLM嵌入函数****2.创建ChromaDB客户端和集合****3.查询集合中的数据数量****4.添加数据到集合****5.获取已存储的文档****6.更新文档****7.再次获取数据，验证更新结果****8.删除某个文档****9.获取已删除的文档****总结**代码importchromadb.utils.embedding_functionsasemb
SAP-ABAP:SAP事务码SE14深度解析：数据库表管理核心工具爱喝水的鱼丶 SAP-ABAP开发基础详解 ABAP开发之必须知道的 VIP详情查看专栏 SAP ABAP 开发运维运维数据库
SAP事务码SE14深度解析：数据库表管理核心工具SE14是SAP中用于激活并调整透明表的数据库结构的工具，主要用于字段修改、主键变更或数据类型调整后同步数据库表结构，支持数据迁移及重建索引SE14核心功能
领域驱动新实践：COLA框架全解析——架构设计与实战案例解析 Java进阶八股文后端
1.引言：为什么选择COLA实现DDD？——从“代码泥潭”到“领域清晰”的架构跃迁传统分层架构的痛点：当代码沦为“数据库操作说明书”在典型的MVC或三层架构中，业务逻辑常常被“撕碎”成零散的片段，散落在Service层的各个角落。以电商系统的订单管理为例，开发者可能会遇到这样的场景：java代码解读复制代码//传统Service层：贫血模型的典型代码publicclassOrderService{
Spring 事务管理全解析：原理、源码与实战工一木子 SpringFramework 笔记 spring 数据库 java
Spring事务管理全解析：原理、源码与实战事务（Transaction）是保证数据一致性的重要机制，Spring通过声明式事务和编程式事务提供强大的事务管理能力。本篇文章将深入剖析Spring事务的底层原理、传播机制、源码解析，并通过代码实战讲解如何正确使用Spring事务。1.什么是事务？（What）事务是数据库操作的最小执行单元，必须具备ACID（原子性、一致性、隔离性、持久性）特性。Spr
SQL中体会多对多 PlumCarefree sql 数据库
我们可以根据学生与课程多对多关系的数据库模型，给出实际的表数据以及对应的查询结果示例，会用到JOIN``LEFTJOIN两种连接1.学生表（students）student_idstudent_name1张三2李四3王五2.课程表（courses）course_idcourse_name1数学2英语3物理3.选课表（student_courses）idstudent_idcourse_id1112
云智慧发布对象关系型数据库CloudPanguDB，打破传统技术壁垒
近日，云智慧推出关系型数据库CloudPanguDB（中文名称：盘古数据库），旨在通过高兼容性能和创新技术架构，降低企业项目整体运营成本。无论是处理海量复杂数据，还是构建清晰有序的数据结构关系，CloudPanguDB都具有强大的应用价值。随着各产业数字化转型的迅速发展，企业对国产化数据库需求与日俱增。CloudPanguDB以云智慧自身产品技术为基础，统一优化技术架构，功能覆盖关系型数据库、全文
python本地连接minio 伶星37 python 网络服务器
在你浏览器能成功访问到你的minio网页，并且成功登录之后。接下来如果你想用python连接数据库，并且想用python连接minio，就可以用这个blog。连接代码client=Minio("localhost:9000",#9000是默认端口号access_key="admin",#你的账户secret_key="password",#你的密码secure=False,#这点我会详细说明)为什
mongodb与爬虫的关系 getapi mongodb 爬虫数据库
MongoDB与爬虫之间的关系主要体现在数据存储和管理的层面。爬虫（WebCrawler或Spider）是一种自动化工具，用于从互联网上抓取网页内容或特定数据。而MongoDB是一个NoSQL数据库，常被用来存储和管理爬虫抓取到的数据。以下是它们之间关系的具体分析：1.爬虫的数据存储需求爬虫在运行过程中会抓取大量的非结构化或半结构化数据（例如HTML页面、JSON数据、图片链接等）。这些数据通常具
【MongoDB】分片部署和应用实践全过程 gaoyi1234560 mongodb 数据库运维开发
基本概念Router(mongos)：数据库集群请求的入口ConfigServers(replicaset)存储数据库的元数据，如路由，分片的配置Share:数据库拆分分片具体操作配置主机名：vi/etc/hosts192.168.0.222m1192.168.0.111m2192.168.0.113m3安装目录为：/opt/mongodb/cluster创建目录和日志目录：mkdir-p/opt
SQL Server 2022常见问题软件研究员数据库 sql server
根据本人多年使用数据库的经验，总结SQLServer2022数据库常见问题包含安装、链接、性能等问题，下面简单说下。一、安装失败问题主要是以下问题：1、硬件配置问题sqlServer2022运行的最低硬件配置要求：根据官网公布要求最低1G内存，最低6G可用磁盘空间，处理器速度1.4GHz，x64处理器；显示器Super-VGA(800x600)。注意：在这里我说的是最低配置。2、软件插件问题缺少.
Elasticsearch 搜索引擎原理与实践 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Elasticsearch是开源分布式搜索引擎，提供搜素、分析、数据可视化等功能。它是一个基于Lucene的全文搜索服务器，能够把结构化或非结构化的数据经过索引生成一个索引库，使其可以被搜索到。在现代Web应用中，搜索功能已经成为不可或缺的一项功能。但是传统上，传统搜索方式需要依赖于数据库查询或者其他复杂的查询接口。而Elasticsearch提供了一种高效、稳
redis过期删除、内存淘汰、双写一致性---java 皮卡兔子屋 #redis redis java mybatis
过期删除Redis的缓存失效不会立即删除，Redis的过期删除策略是选择「惰性删除+定期删除」这两种策略配和使用。惰性删除策略的做法是，不主动删除过期键，每次从数据库访问key时，都检测key是否过期，如果过期则删除该key。定期删除策略的做法是，每隔一段时间「随机」从数据库中取出一定数量的key进行检查，并删除其中的过期key。内存淘汰Redis提供了8种不同的数据淘汰策略，默认是noevict
生物信息复习笔记（3）——GEO数据库 Kriol 生物信息初学笔记
Platform：测序平台信息。不同测序平台对每一个基因编号不一样。拿到测序结果之后只是知道了某个基因ID的表达情况，需要将基因ID匹配成对应的基因，需要根据Platform信息去注释。GSM：样本。一个测序数据集里有很多个GSM，点进去可以看到该样本的各种信息（样本来源，临床表征，各种处理样本方式，处理数据方式）。GSE：包含所有信息的完整数据集。（最重要）做生信样本量不能少：30以上。精准搜索
JavaWeb学习笔记时间会给答案scidag java java-ee servlet 笔记学习数据库
一.刨析JDBC1.概念：JDBC就是java语言操作关系型数据库的一套API2.常用API2.1DriverManager:作用1.注册驱动2.获取数据库连接;都是静态方法，直接类名.方法2.2Connection:作用1.获取sql执行对象2.事务管理《《关于管理事务回滚常用方法setAutoCommit（）commit(),rollback()2.3Statement:作用执行SQL语句《《
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

数据挖掘分析考试笔记

数据挖掘分析考试笔记

文章目录

英译汉

第一章 绪论

第二章 知识发现过程与应用结构

第三章 关联规则挖掘

Apriori算法

close算法

FP-tree

第四章 分类

分类两个步骤

基于距离的类标识搜素算法

KNN

决策树 ID3

贝叶斯分类

EM算法(Expectation-Maximization Algorithm)

混淆矩阵

第五章 聚类

距离与相似性的度量

K-Means算法

PAM(Partitioning Around Medoid)围绕中心点的划分

层次聚类方法

AGNES算法

DIANA算法

DBSCAN

第六章 时间序列和序列模式挖掘

第七章 PageRank

你可能感兴趣的:(数据挖掘,数据库,数据仓库)

第一章绪论

第二章知识发现过程与应用结构

第三章关联规则挖掘

第四章分类

第五章聚类

第六章时间序列和序列模式挖掘