目标是分享一切

数据仓库与数据挖掘c5-c7基础知识

chapter5 分类

内容

分类的基本概念

分类

数据对象	元组(x,y)
X	属性集合
Y	类标签
任务	基于有标签的数据，学习一个分类模型，通过这个分类模型，可以把一组属性x映射到一个特定的类别y上
类别y	提前设定好的--如：学生，老师

有监督学习

Phase1	用有标记的数据对分类器进行训练，得到训练好的分类器
Phase2	用训练好的分类器对没有标记的数据进行分类预测

训练过程中，分类器在类标签的引导下进行学习，所以是有监督学习

预测问题：分类vs数值预测

分类【也是预测问题】	使用给定的有标记的数据去训练构造一个模型，基于分类模型对没有标记的数据进行预测【有类别的，是类别类型的属性，离散的】
数值预测	基于给定的数据训练数值预测模型，再利用模型对给定的数据进行预测【预测的数据类型是连续的，如房价】
Vs

分类过程

模型构建

训练集	有标记的数据；用于训练分类器
分类器模型	决策树、基于规则的分类器、数学公式、其他形式

模型验证与检测

测试集	无标记的数据；独立于训练集
准确率	预测对象中预测正确的数目占全体数据对象的比例
模型的验证	利用测试集，对比多个分类器，选择合适的分类器

分类技术

基础分类器

决策树模型、基于规则的方法、基于深度学习和神经网络的方法、naive贝叶斯方法和贝叶斯信念网络、支持向量机

集成分类器

基础分类器的基础上，通过集成策略，将多个分类器集成构建新的分类器

提升、袋装、随机森林

决策树分类器

决策树基本概念

基础概念

非终结节点

属性测试条件——把落入节点的测试集划分为两个或多个子集

根节点	没有入边，只有两条或多条出边
中间节点	有一条入边，有两条或多条出边

终结节点

代表类的数值——把落入节点的所有数据对象的类别等于叶子节点的值

叶子节点	只有一条入边，没有出边

应用模型

hunt算法

贪心策略

使用局部最优策略，选择比较合适的属性测试条件，从而完成决策树的构建

基本架构

递归、自顶向下、分而自治

用Dt代表落入到一个节点t上的数据对象集

如果Dt中所有数据对象的类都是一致的	当前的t是叶子节点，将其标上所有数据对象的类标签
若Dt中数据对象有多个类别	当前的t是中间节点，需要设定一个合理属性测试条件，将Dt划分为几个更小的子集。对每个子集迭代循环以上步骤，直到满足中介条件

停止划分的条件

落入到这个节点上的所有数据对象的类标签是一致的

无属性供我们选择去构造属性测试条件

数据集中所有数据对象都已被使用完

确定属性测试条件

标称属性

多路划分	根据标称属性的取值，将集合划分为若干个小的子集
二路划分

连续属性

多路划分
二路划分

如何实现最佳划分

贪心策略

评估属性测试条件分裂之后各个节点的纯度，纯度越高越理想

节点的纯度

倾斜性--如果一个节点中所有的数据对象都是一个类别那么节点的纯度最高

设定评估节点纯度的方法来判断属性测试条件是否合理

评估属性测试条件的方法

信息增益

熵

对一个随机变量不确定性的度量标准

熵值越大，这个变量的不确定性越高；

log的底是m

条件熵

在知道一个随机变量x的情况下，熵Y的值是多少

H(Y)可以理解为我们要弄清楚Y所需要的信息量

H(Y|X)可以理解为在我们知道随机变量X的信息的条件下，再要弄清楚Y所需要的信息量

I(,)中数的总和m是表示该随机变量包含的数据对象的数目还是就是2？？【就是2】

信息增益

H(Y)-H(Y|X)

随机变量X对于弄清楚Y这个随机变量取值的贡献

使用情况

我们对属性测试条件的选择是选择具有最大的信息增益的属性

用于ID3/C4.5

ID3——不确定性逐渐减少--信息增益

缺点	选择根节点和内部节点中的分支属性时，采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性，在有些情况下这类属性可能不会提供太多有价值的信息。只能对描述属性为离散型属性的数据集构造决策树【c4.5能对连续型属性值构造决策树】
先算总的信息量
在天气、气温、湿度、风四个指标中选一个根节点--选择信息增益最大的天气作为根节点	分别计算各自的信息熵确定值点是0 加权求和
下一步
最终决策树

解释

假设数据集为D，pi代表每个类别出现的概率也就是Ci出现的概率
计算类标签的熵	2？？
计算每个属性的条件熵	知道属性A的条件下，弄清D的类标签需要的信息量，j是A的可能取值
属性A的信息增益	在知道属性A后对认识类标签所需要的贡献
Eg	I(,)是根据类标签来的

如何处理连续属性

离散化

连续属性->标称属性

最佳分裂点

候选分裂点

根据每个分裂点对属性一分为二，计算在这样的属性测试条件的信息增益，最佳的分裂值具有最大的信息增益

缺点--ID3

倾向于选择属性取值比较多的属性

id纯度最大

信息增益率

对信息增益进行规范化

如果一个属性，取值越多，可能得到的信息增益越大，同理，熵也会比较大

splitinfo是熵，不是条件熵

C4.5--信息增益比

相较于信息增益，增加了分裂信息和信息增益比

splitinfo和label无关了，感觉是为什么会分开【很像针对label算的info】

基尼指标

Cart【二叉树】

确定根节点

有房者

婚姻

本来有三类：已婚、单身、离异，先把后两者作为一类

年收入

婚姻中的离异、单身类有六条数据，继续计算下一个节点

二叉树

基尼指标越大越不纯，不确定性越高

在A属性作用下划分为两个子集

例子

得到基尼贡献率

多路划分一般比二路划分好

连续属性

选择比较好的分裂值

排序后找class发生变化的地方作为候选分裂点，从而减少候选分裂点

比较

信息增益	选择取值多的属性
信息增益率	产生不平衡的分裂--子集规模差异性大
基尼指标	选择取值多的属性；产生平衡的分裂

过拟合与树的剪枝

贝叶斯分类器

基于统计的分类器

坚实的数学基础-贝叶斯定理

朴素

各个样本特征彼此独立

先把9，5写上

把yes乘起来，把no乘起来

任务

把每一个属性，每一个类都看作是随机变量
求解一个值使得已知x1，x2…Y=y概率最大
分类问题->概率求解问题【使用贝叶斯定理】
例子类别类型的属性可以计数得到：
连续类型的数据：模拟这个数据符合某种分布 eg：
Eg'

问题

要求每一个属性概率非零

拉普拉斯纠正：每一个类别都加一个数据对象

避免条件概率为0导致无法判断

优缺点

缺点：依赖于属性独立的假设

贝叶斯信念网络

集成

首先创建多个基础分类器，然后将多个基础分类器以某种策略组合在一起，对未标记数据进行分类，提高单个的性能

示意图

必要条件

构成的所有基础分类器必须彼此独立

所有基础分类器的性能必须比随机猜测要好，要求错误率低于0.5

基础分类器的错误率大于0.5时，集成分类器远大于0.5

为何能提升性能

对不稳定的基础分类器的集成效果较好

不稳定的分类器	具有比较高的方差
偏差	预测的平均值和目标之间的差异
方差	各个分类器预测的平均值和每一个基础分类器之间的差距【不稳定易受干扰】
集成可以减少方差

常用的集成技术

bagging袋装

从训练集中采用抽样的方式得到不同的抽样子集，根据每一个抽样子集得到基础的分类器，并行

步骤

训练

从训练集中采用有放回【彼此独立】的抽样得到一个训练集，用这个抽样集去训练我们的分类器，得到一个基础的分类器，重复以上过程，得到若干个分类器，最后利用这样的分类器进行组合，对我们的未标记数据进行分类

分类

首先用基础分类器对未标记数据进行分类
然后将多个分类器的预测结果组合	往往采用最大投票法--在多个基础分类器中出现比较多的结果作为预测结果

boosting提升

通过调整training set中数据对象的权重，在此基础上抽样得到不同的训练集，再用每一个训练集去得到基础的分类器，后一个依赖前一个，是串行。

原理

串行	下一次的权重由上一次的分类结果得到
	假设得到一个分类器Mi，利用Mi对我们预测数据集中所有元素进行分类，据其真实结果与预测结果更新权重
更新权重原则	如果一个对象被分类错误，那么这个数据对象的权重就会变大；若一个对象被正确分类，那么这个数据对象的权重就会变小。
	得到新的权重后，据其抽样得到新的数据集，用新的数据集训练模型Mi+1
	组合所有模型进行分类，组合时考虑每一个分类器的权重【和分类性能(error rate)相关】
Adaboost
数据权重调整	若模型错误率高于0.5，所有数据对象的权重恢复为初始权重1/n
Eg

随机森林

基于bagging

Data bagging	通过有放回的抽样产生不同的训练集的子集用于构建决策树
Feature bagging	通过有放回的抽样

构成的多个决策树组成随机森林

不平衡分类器

类别分布平衡

各个类别的数量差不多

策略

如果把普通的分类器运用到不平衡的训练集上，分类效果无法被保证

策略

oversampling	对正事例进行采样，用于补充正事例的数量
Undersampling	对负事例进行采样，去掉，从而达到正负平衡
阈值移动	调节阈值，使得为正的示例会比较多，如0.5->0.3
集成	前几种方法集成

模型评估和选择

分类器的评估度量

构建分类器的混淆矩阵+度量标准

Eg	行为真实，列为预测
正确率与errorrate
灵敏性与特效性	正事例、负示例被正确分类
精度与召回率
F measure	更看重精度还是召回率 F1 measure：同等重要
Eg

评估框架

留余法

数据2/3作为训练集，1/3作为测试集，重复得到多个训练集和测试集，利用每个训练好的分类器的精度作为每一轮的精度，然后把每一轮精度都加起来取平均得到分类器最终精度【做三次】

交叉验证法

k设为10
一般采用十折交叉验证

有放回采样，将采样后的数据分为k个部分，然后把每一次从这k个部分中取一部分作为测试集，其余作为训练集，得到一个分类器，计算精度，依次把所有精度加起来取平均

余一法：每次只取一块作为测试集，其余作为训练集
留余法是特殊的交叉验证法

每一个fold得到一个分类器，3折有3个分类器

roc曲线

真的正示例率与假的正事例率之间的平衡关系

同等的fpr，希望tpr越高越好，曲线下面积代表分类器性能

Auc

roc曲线下的面积
auc越大越好

如何绘制

通过调节分类阈值来得到分类器的多个tpr和fpr

对测试集的每一个事例计算它的分数	分数：每一个事例被判断为正事例概率
rank这些分数
依次选择每一个分数作为阈值来判断事例的类别
从而得到多个roc上的点
连接并平滑

计算分数的方法

朴素的贝叶斯分类器	每一个分类器为正事例的概率和为负示例的概率

其余性质

速率、鲁棒性、可扩展性【更新、大数据集】、可解释性

mooc题目

单选(2分)下面哪一项关于CART的说法是错误的

A.CART使用的分裂准则是Gini系数

B.分类回归树CART是一种典型的二叉决策树

C.CART输出变量只能是离散型

D.CART用“成本复杂性”标准(cost-complexity pruning) 来剪枝。

CART的输入和输出变量可以是离散型和连续型,
cart如果输出变量是「离散」的，对应的就是「分类」问题。如果输出变量是「连续」的，对应的就是「回归」问题

C4.5的输出变量只能是离散型

C4.5算法：可为多叉树，输出变量只能是分类型，能够处理连续型和离散型属性数据
id3离散型

单选(2分) 假定你现在训练了一个线性SVM并推断出这个模型出现了欠拟合现象。在下一次训练时，应该采取下列什么措施?

A.减少特征

B.增加数据点

C.增加特征

D.减少数据点

增加特征

单选(2分) 以下哪项关于决策树的说法是错误的

A.子树可能在决策树中重复多次

B.余属性不会对决策树的准确率造成不利的影响

C.决策树算法对于噪声的干扰非常敏感

D.寻找最佳决策树是NP完全问题

单选(2分) 通过聚集多个分类器的预测来提高分类准确率的技术称为 ()

A.投票(voting)

B。合并(combination)

C.组合(ensemble)

D，聚集(aggregate)

Ensemble…

单选(2分) 以下哪些算法是基于规则的分类器

A.ANN

B.KNN

C.Naive Bayes

D.C4

D。基于规则的分类器有决策树、随机森林、Aprior。

1.决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。

2.在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。

3.在关联规则挖掘领域最经典的算法法是Apriori，其致命的缺点是需要多次扫描事务数据库。

D选项：C4.5算法是一个分类决策树算法。

判断(2分) KNN算法不仅可以用于分类，还可以用于回归

A.X

B.√

Knn--k近邻

判断(2分) KNN算法是一种典型的消极学习器

对…

消极学习器	目标是通过学习不适合或错误的模型来识别和剔除负面样本，以提高模型的性能。消极学习器通常与正常学习器一起使用，用于筛选和过滤训练集中的负面样本。

判断(2分)在决策树中，随着树中结点数变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题。

过拟合：训练误差在降低，检验误差在增大
过拟合解决方法：增加数据量、正规化

chapter6

内容

基本概念

簇

一组数据对象的集合	簇内部相似
	不同簇之间的数据对象相异
高质量的簇具备两个特征：	高度的簇内相似性；簇间具有比较低的相似性

聚类分析

aka聚类、数据分割	给定一组数据集合，根据数据的特性，将这组数据集划分为若干个组，这些组内的数据对象是相似的，再聚类分析中，我们主要是依赖数据对象和数据对象之间的相似性进行划分，所以相似性度量很重要。
无监督学习	类是预先没有定义的；而分类的类别是预先定义好的，含义是明确的。聚类的任务是将数据划分为不同的簇，属于数据挖掘中的描述性任务，而分类需要依赖有标签的训练数据构建分类模型，然后利用分类模型将对没有标记的数据对象进行预测，属于数据挖掘中的预测性任务。

簇的类型

明显分离的簇

一个簇中，任意数据对象到其他数据对象的距离要比到其他所有簇中数据对象的距离要小

基于原型的簇

簇的原型	xx代表簇，如均值、一个数据点…
基于原型的簇	同一个簇中，数据对象到原型的距离小于这个数据对象到其他簇的原型的距离

基于近邻的簇

位于同一个簇的数据对象，它到这个簇中一个或多个对象的距离小于它到不同簇的数据对象的距离

基于密度的簇

簇	数据分布比较稠密的区间，这些稠密的区间是由密度比较稀疏的区域分隔得到的，
适用	不规则的簇、相互缠绕的簇、存在噪音异常点的簇

基于目标函数定义的簇

步骤

设定目标函数

通过对目标函数最大化或最小化得到簇

目标函数的优化

局部最优	层次聚类方法
全局最优	基于划分的方法

聚类分析的应用

主要作为其他数据挖掘任务的中间步骤使用

通过聚类得到不同的簇，将聚类的结果作为分类的输入，然后建立分类模型

异常检测

聚类分析的种类

基于划分准则的不同

基于划分的聚类算法

将聚类算法划分为若干个互不相交的簇，每个对象只能属于其中的一个簇

基于层次的聚类算法

结果：系统树图

对每一层进行阶段可以得到不同层次上的簇

簇的分离性

互斥性的聚类分析	一个数据对象只能属于其中的一个簇，簇和簇之间明显分离
非互斥性的聚类分析	一个数据对象可能属于其中的一个或多个簇

相似性度量方法

基于密度的聚类
基于距离的聚类

聚类的空间

全空间聚类
子空间聚类

要求和挑战

任意数据类型、任意形状、处理噪音；
可扩展性【高维】、可解释性【对簇的解释】

基于划分的聚类方法

基本概念

首先设定一个特定的目标函数，通过优化目标函数，不断提升划分的质量，得到最终的簇

目标函数

SSE--误差平方和--累计计算每一个簇中每一个数据对象到这个原型的距离--越小越好

K：簇的数目
ck：每一个簇的原型

xi：属于簇i的数据对象

优化sse

全局优化

列出k个划分所有的可能性，依次计算每一个划分的sse值，从中选择一个sse最小的划分

局部最优策略

启发式算法，逐步逼近最优值

Kmeans

原型由平均值代表

过程

首先设置一个参数k，随机选择k个簇中心
重复--都在优化sse	将每个数据对象分配到离它最近的簇中心所在的簇中，从而形成k个簇；[使用相似性的度量方法] 根据每个簇中的数据对象更新簇中心
[使用相似性的度量方法]	马氏距离、欧氏距离
终止条件	簇中心不再变化

缺陷

对初始中心点的选择非常敏感--结果与初始观察的分布差异性很大，质量差

讨论

效率

快，迭代次数较少

得到的聚类结果往往是局部优化的结果

因为是针对簇中心来优化

k值需要确定

绘制肘线图

选择下降率突变点作为k

对异常点很敏感

均值受异常值影响强烈

适用于球形簇

对k个初始中心点做初始化

随机选一个数据对象作为初始中心点
在下一次选择初始中心点的时候，根据数据对象的加权数据分数，选择离之前所有初始中心点最远的点作为下一个初始中心点，迭代以上步骤一直到选出k个初始中心点

空簇问题

空簇的产生

策略

选择一个对sse贡献最大的数据对象作为新的簇中心

选择具有最大sse的簇，在簇中随机选择一个数据对象作为新的簇中心

总结

不能处理不同尺度不同密度非球形的簇；
对于包含异常的数据集合聚类效果很差
解决：开始将k的数目设置比较大，得到若干个比较小的簇，然后对这些比较小的簇进行合并，从而得到比较好的聚类结果

k-medoids【中心点？】

处理kmeans对异常点敏感

使用最具有代表性的数据对象【往往离簇中心最近】取代原型

vskmeans区别--更新簇中心时

kmeans	计算所有数据对象的均值
k中心点	替换簇中心--从簇中非代表的数据中选择一个去替代原始数据对象，替代后计算代价cost，<0代表能缩小sse，可替换，重复直到簇标签不再变化

k-medians

不用均值用中位数

采用马氏距离作为相似度测量方法

基于层次的聚类方法

基本概念

产生嵌套类型的簇
以层次树的结构被组织
通过系统树图的形式可视化

结果是一棵系统树图
【记录簇与簇之间的层次关系】

记录了所有层次上的聚类结果，若想得到某一个层次上的聚类结果，直接截断即可

凝聚的层次聚类算法

自底向上

首先每一个数据对象被认为是一个簇，然后计算不同簇的相似性，合并最相似的两个簇，依次合并，直到所有对象在一个簇中

核心

迭代合并两个最为临近的簇--每次合并两个簇

过程

【近邻性矩阵】

如何更新簇和簇之间的相似度

单链方法min

两个簇的距离由两个簇中离得最近的两个数据对象的相似度代表

缺点：

基于局部【只考虑离得比较近的区域，两个簇的整体结构被忽略】

对于噪音和异常点敏感

全链方法max

两个簇的距离由两个簇中离得最远的两个数据对象的相似度代表

缺点：

对于噪音和异常点敏感

产生比较紧凑的簇

组平均

两个簇的距离由两个簇中所有点对的相似度【距离】的平均值代表

避免异常点的影响；复杂度较高

中心链方法

两个簇的距离由两个簇中原型的距离代表

基于目标函数的方法

沃德方法	两个簇的相似性可以理解为合并这两个簇对sse的降低程度类似组平均法，倾向于产生球形的簇

分裂的层次聚类

自顶向下

首先所有的数据对象组成一个簇，采用合适的分裂准则将簇一分为二，在得到的簇中选择对sse贡献最大的簇，再采用合适的分裂准则将簇分裂，分裂到最后每一个数据对象是一个簇。

层次聚类算法的特点

一旦一个划分或凝聚完成，不可逆转	误差会被累积
基于局部最优策略	缺乏全局优化
不同模型	对异常点敏感；不能处理不同形状或非球形簇；倾向于分裂大簇

基于密度和基于网格的聚类方法

DBSCAN

基于密度定义的簇

簇是一个稠密的区域，由密度较低的区域分割得到；
一个簇是密度相连点的最大集合

密度

一个特定区间中特定对象的数目

参数

eps	邻域半径，通过设定eps半径，指定范围大小
Minpts	最小密度，点的数目，由此确定稠密区域

点q的eps邻域指的是离这个点q的距离小于Eps所有点的集合

所有数据对象被划分为3类

核心点	位于稠密区域以该点为中心，eps为半径，该区域的数据对象数目大于minpts
边界点	某个核心点的邻居【落入该点邻域内】，但以该点为中心，eps为半径，该区域的数据对象数目往往代表簇的边缘地
异常点	不属于任何簇的点

数据对象之间的关系被划分为3类

直接密度可达

p属于q的eps邻域；
q是核心点

p为q的直接密度可达点

密度可达

若p为q的密度可达点，必然存在这样的一个策略p1,…,pn,p1=q,pn=p，在这个序列中，任意一个点pi+1都是pi的直接密度可达点

密度相连

若p和q是密度相连的，必存在点o，p与q都是o的密度可达点【对称性】

簇是一个密度相连点的最大集合

算法过程

任选一个核心点，从核心点出发，找到一个最大的密度相连的区域
选中一个随机点p，找到p点所有密度可达点，若p是核心点，那么从p出发的簇就找到，若p是边界点则可选下一个点，从下一个点出发，找到下一个点的最大的密度相连的区域
重复以上过程，直到所有的对象都被反应完

复杂度

数据对象被排序	O(nlogn)
否则【最坏】	O(n^2)

DBSCAN 的基本时间复杂度是 O (m * 找出 Eps 邻域中的点所需要的时间），m 是点的个数。最坏情况下，时间复杂度是O (m 2 ），用 kd 树可以降到 O (m log m），即使对于高维数据，DBSCAN 的空间仍然是 O (m)，

特点

对于参数的设定敏感

对噪音处理良好
对非凸形簇甚至是缠绕的处理良好

【DBSCAN可以处理不同大小或形状的簇，并且不太受噪声和离群点的影响。

】

不适用：
数据集分布的密度变化比较大（or高维）【由于只设定了一个minpts，它倾向于认为簇的分布比较平均】

合理设置参数

观察数据集中所有数据对象第k个最近邻的对象距离；
若数据集的分布比较均匀，大部分数据对象第k个最近邻的距离应该相近变化不大。【大的可能是噪音点】

可以选择突变附近的距离作为eps

小结

k的数目不需要确定

能发现任意形状的簇
能处理数据集中的噪音
需要确定eps和minpts

基于网格的聚类

依赖一种多分辨率的网格数据结构

网格数据结构

将整个数据空间划分为若干个小方格
最上层的小方格会对应到下层的若干个小方格

每一层上的特征可以进行累积计算，用落入到小方格的数据对象的均值数目方差minmax来作为方格特点
上一级方格的特征值可以由下一级方格的特征值进行简单运算得到【像图像处理…】

算法过程

定义合适的网格数据结构

把数据对象合理分配到网格

设立合适的阈值tao，将数据分布比较稀疏的网格过滤，保留较为稠密的网格

检索这些稠密网格的连通区域，这些连通区域就是簇

对聚类的评估

聚类质量的评估--簇的质量

外部方法

有监督的评估方法--常使用类标签--通过比较数据对象的簇标签和类标签来判断聚类质量

Q(C,T)

假设使用到的外部评价知识为T，得到的聚类结果为C，用Q(C,T)代表对聚类结果的评估

好质量要求：
同质性：簇中所有数据对象要求尽可能属于同一个类
完整性：一个类的数据对象要求尽可能分到同一个簇中
碎布袋：零散的数据对象放入一个簇中
保留小簇：小类->小簇质量差于大类->小簇

度量指标

纯度

同一个簇中某一类别所占的比例

精度

标记为p的t的比例【TP NP P】【横】

召回率

Fmeasure

对精度和召回率的平衡

Nmi
规范化互信息

基于互信息

规范化

接近1，质量好

内部方法

根据数据的分布特性去设计一些评估指标来评估聚类质量--簇内凝聚性+簇的分离性（簇间尽可能不相似）

内部方法评估指标

SSE	评估凝聚性
SSB	评估分离性
和为常量	最小化sse最大化ssb【同时评估】

ssb越大分离性越好

轮廓指数

a	一个数据对象到同簇的数据对象的距离的平均值
b	一个数据对象到非同簇的数据对象的距离的平均值，从所有中选一个最小的

【-1，1】	若小于0，差； 0，1，正常；接近1，好

mooc题目

单选 (2分) 简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集中，这种聚类类型称作()

A.划分聚类

B.模糊聚类

层次聚类

D.非互斥聚类

划分聚类

在基本K均值算法里，当邻近度函数采用 ()的时候，合适的质心是簇中各点的中位数

A.曼哈顿距离

B.平方欧几里德距离

余弦距离

D.Breqman散度

邻近度函数：曼哈顿距离。	质心：中位数。目标函数：最小化对象到其簇质心的距离和
邻近度函数：平方欧几里德距离。	质心：均值。目标函数：最小化对象到其簇质心的距离的平方和
邻近度函数：余弦。	质心：均值。最大化对象与其质心的余弦相似度和
邻近度函数：Bregman 散度。	质心：均值。目标函数：最小化对象到其簇质心的Bregman散度和

单选(2分)()将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度，它是一种凝聚层次聚类技术。

A.MIN (单链)

B.MAX(全链)

C.组平均

D.Ward方法

单链方法min

两个簇的距离由两个簇中离得最近的两个数据对象的相似度代表

缺点：

基于局部【只考虑离得比较近的区域，两个簇的整体结构被忽略】

对于噪音和异常点敏感

全链方法max

两个簇的距离由两个簇中离得最远的两个数据对象的相似度代表

缺点：

对于噪音和异常点敏感

产生比较紧凑的簇

组平均

两个簇的距离由两个簇中所有点对的相似度【距离】的平均值代表

避免异常点的影响；复杂度较高

中心链方法

两个簇的距离由两个簇中原型的距离代表

基于目标函数的方法

沃德方法	两个簇的相似性可以理解为合并这两个簇对sse的降低程度类似组平均法，倾向于产生球形的簇

单选(2分)DBSCAN在最坏情况下的时间复杂度是 ()

A. O(n^2)

B.O(n)

c.o(logn)

D.O(n*logn)

复杂度

数据对象被排序	O(nlogn)
否则【最坏】	O(n^2)

判断(2分)K均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处理不同大小和不同形状的

簇

A.V

B.X

K均值很难处理非球形的簇和不同大小的簇。

DBSCAN可以处理不同大小或形状的簇，并且不太受噪声和离群点的影响。

判断(2分) 从点作为个体族开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法

A.X

凝聚的：从点作为个体簇开始，每一步合并两个最近的簇，需要定义簇的邻近性概念（开始每个点都是一个簇，然后不断合并减少簇的数量）。

判断(2分) DBSCAN中密度相连关系满足对称性【对】

密度相连：假设有样本集D，s到p是密度可达的，s到q也是密度可达的，那么称p到q是密度相连的。

判断 (2分)

聚类中把小簇划分成更小簇比把大簇划分为小簇的危害更大【对】

判断(2分) 聚类中，当对象o的轮廓系数值接近0时，意味着包含o的簇是紧凑的，并且o远离其他簇【错】

聚类总的轮廓系数SC为：SC= \frac {1} {N}\sum_ {i=1}^ {N} {SC (d_ {i})}

轮廓系数为-1	聚类结果不好
+1	紧凑
0	簇重叠

chapter7

内容

异常和异常分析的基本概念

异常

一个数据对象和其余数据对象差异性比较大

噪音

测量数据中的随机错误或偏差；
在进行异常监测之前应该首先将噪音去掉

异常分类

全局离群点

一个数据对象和其余数据对象差异性比较大

上下文离群点【情境异常/情境离群点】

某一个情境下，该点和其余数据对象差异性比较大

对象属性划分为两部分

上下文属性	eg时间地点
行为属性	eg温度

群体异常

一组数据对象和其余数据对象差异性比较大

异常分析的方法

异常检测时是否需要使用有标记的数据

基于监督的

异常检测->分类

有标记的数据用作分类集和测试集，构建一个分类模型，对未标记的数据进行预测，判断类别

挑战

类别不平衡性【异常占比低】；

要求尽可能识别所有的异常，对于召回率的要求更高【错杀一千不放一个】

基于半监督的

可能标记为全为正常数据，也有可能标记为一小部分异常
如果数据标记的是正常数据	利用有标记的正常数据和与这些正常数据比较接近的数据，把它们作为训练集，用来代表正常数据，建模，然后判断数据对象是否与正常模型相符，如果不符合就认为是异常的。
仅标记少量异常	需要无监督的方法进行异常识别

基于无监督的

假设可以将数据划分为若干个簇，位于大簇中的数据是行为比较正常的数据，如果一个数据对象离所有的簇都比较远，那么我们认为这样的一个数据就是异常

缺点

不能识别群体异常；	使用聚类方法不能有效识别群体异常
正常数据行为的多样性	有较高的错误的正事例率但仍然会漏掉很多异常
基于聚类算法	很难将噪音和异常进行区分；代价比较高【先聚类后异常识别】

基于对正常数据及异常数据的假设

基于统计的异常分析方法

假设数据符合某个统计分布
计算每个对象属于这个分布的概率，若低则为异常
方法：有参和无参	假设模型，数据->参数->分布->概率密度->每个对象由这个分布产生的概率

基于邻近性的异常检测方法

如果一个数据的邻近性和数据中大部分对象的邻近性的差异性比较大，我们认为这个数据异常；
基于距离，基于密度；

基于聚类和分类的异常检测方法

基于聚类	如果一个对象属于的簇比较大，正常；如果一个对象属于的簇比较小或稀疏，异常

基于统计的异常分析方法

对一元数据的异常检测

一元数据

数据只有一个属性

正态分布

数据->参数->模型->估算

Eg：3sigma【有参】

使用最大似然方法估算均值和方差，使用zscore标准化

利用3σ原则

最大标准残差检验【有参】

使用最大似然方法估算均值和方差，使用zscore标准化

利用z进行

T分布

多元数据的异常检测

多元数据

属性个数>=2

mahalaobis距离

计算均值，计算o到均值的马氏距离，

构建一维数组，代表每一个对象到数据均值的马氏距离

使用最大标准残差检验方法检验异常

卡方检验【有参】

计算均值，计算每个对象的chi方值

无参

绘制直方图

困难

很难确定直方图宽度
宽度较小：正常数据落入空的直方图，产生fp【false positive】
宽度较大：异常数据落入频率高的的直方图，产生fn【false negative】

基于邻近性的异常检测方法

基于距离

根据某个数据对象特定邻域范围内数据对象的个数判断这个数据对象是否异常，若多则正常

参数

r	距离阈值--邻域范围
Π	比率阈值--衡量某个数据对象它特定邻域内的数据对象的个数占全体数据对象的个数的比例

判定

Π；
这个数据对象到它的第k个最近邻邻居的距离，若大于r则认为异常，k=Π*数据集中数据对象数目

缺点

难以确定局部异常-和邻居比是异常，和全局不是

若判o1o2异常，c2中所有对象可能被判定为异常

基于密度

方法

局部异常评分：将数据对象和它邻居的密度进行对比，若邻居密度高，则这个对象异常；反之正常

变量

数据对象o的k距离：distk(o)	o到第k个最近邻邻居的距离
数据对象o的k近邻邻域：Nk(o)	离这个数据对象的距离<=distk(o)的所有数据对象的集合【数目可能>k因为距离可能相等】
数据对象o到o‘的可达距离reachdistk(o)	右上为o1
局部可达密度lrdk(o)	某一个数据对象所有邻居到这个对象的可达距离的平均值的倒数【越大越好】样本 p 的第 k 邻域内点到 p 的平均可达距离的倒数
局部异常因子LOF	对每个数据对象的异常评分含义：这个数据对象所有邻居的局部可达密度和这个对象局部可达密度比值的均值【局部可达密度越大越好，这个对象做分母，所以越小越好】越高：周围邻居密度比对象的高很多，异常评分越高，为异常的可能性高如果这个比值接近 1，说明 p 其邻域点密度差不多，p 可能和邻域点输入同一簇；如果这个比值越小于 1，说明 p 的密度就高于其邻域点密度，p 为密集点；如果这个比值越大于 1，说明 p 的密度小于其邻域点密度，p 越可能是异常点。【要和周围邻居密度比较】

基于聚类和分类的异常检测方法

基于聚类

异常点

若一个数据对象不属于任何簇or这个数据对象离比较大的簇的距离较远or属于比较稀疏的簇

方法

dbscan

直接识别异常点

kmeans

若这个数大，代表这个数据对象可能离其簇中心距离较大->异常

针对群体异常

无法有效检测

分类

异常检测->分类

正常->正事例
异常->负事例

缺点

类别不均衡

One-class model

所有的正事例去构建一个用于描述正事例的模型

将数据对象与模型对比，若不符合则为异常

mooc题目

噪声不属于异常

异常分为群体异常、情境离群点、全局离群点

无参的异常检测方法和有参的异常检测方法

无参	直方图
有参	卡方检验、3σ、最大标准残差检验

局部异常因子

=1	可能与邻域点为一个簇
<1	p为密集点
>1	异常点

异常检测前需要剔除噪声

在异常检测中召回率比精度更重要

Recall[TP/P]异常中被抓出来的比例

聚类中的异常点

若一个数据对象不属于任何簇or这个数据对象离比较大的簇的距离较远or属于比较稀疏的簇

局部异常因子得到异常点的原理

局部异常评分：将样本的局部密度与其邻居的局部密度进行比较，样本密度明显低于其邻居的样本被认为是异常点。

局部异常因子计算中，样本 p 的第 k 邻域内点到 p 的平均可达距离的倒数成为样本p 的

局部可达密度

mooc期末考试试题

以下哪些算法是分类算法，A，DBSCAN B，C4.5 C,K-Mean D,EM （B）

C4.5就是决策树分类器，用于分类…

以下哪些算法是基于规则的分类器 ()

A. C4.5

B. KNN

C. Naive Bayes--基于统计

D. ANN

基于规则的分类器有决策树、随机森林、Aprior

召回率vs精确率

2.单选(2分)

以下两种描述分别对应哪两种对分类算法的评价标准?(a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。(b)描述有多少比例的小偷给警察抓了的标准。

A. Precision, Recall

B. Recall.Precision

C. Precision.ROC

D.Recall,ROC

	第一行P为数据集中实际为positive的； TP表示数据集中为P也真的被标记为P的； FN表示数据集中为P被标记为N的，实际为P 对应Recall
	第一列为P为数据集中被标记为positive的； TP表示数据集中为P也真的被标记为P的； FP表示数据集中为N被标记为P的，所以是假的P，实际为N 对应Precission
抓的人=标记为P的，是小偷=TP->TP/P'	Precission
小偷=真的为P的，被抓=TP->TP/P	Recall

将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?

A.频繁模式挖掘

B.分类和预测

数据预处理

数据流挖掘

数据预处理

属性Hair_color = fauburn, black, blond, brown,grey, red, white)，该属性属于 ()类型

A标称

B.二分

C.序数

数值

下面不属于数据集特征的是:()

A.连续性

B.维度

稀疏性

D.分辨率

数据集的一般特性：

维度（具有的属性数目）

稀疏性（在非对称特征数据集，一个对象大部分属性上的值为0）

分辨率（分辨率太高，模式可能看不清楚，分辨率太低可能模式不出现）
分布

当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()

A.分类

聚类B.

关联分析

隐马尔可夫链

分类：已经有标签可以自动分类

聚类：不知道标签，按照范围内圈区域聚类贴标签

关联分析：对象之间蕴含的关系和规律，比如超市里小朋友感兴趣的商品大多数放下面的货架

隐马尔科夫链：统计分析，描述一个含有隐含未知参数的马尔可夫过程，

只有非零值才重要的二元属性被称作：( )

A.计数属性

B.离散属性

C.非对称的二元属性

D.对称属性

二元属性：0和1.显而易见，0表示不出现，1表示出现

分为：对称性和非对称性

对称性二元属性：两个个状态同等重要

非对称性：两个状态不是同等重要的(更重要的/几率较小的赋值1)，两个都取1（正匹配）比两个都取0（负匹配）的情况更有意义

以下哪种方法不是常用的数据约减方法 ()

A.抽样

B. 回归

C.聚类

D.关联规则挖掘

回归

聚类

抽样

主成分分析

下面哪一项关于CART的说法是错误的 )

A.分类回归树CART是一种典型的二又决策树。

B.CART输出变量只能是离散型

C.CART用“成本复杂性”标准 (cost-complexity pruning) 来剪枝

D.CART使用的分裂准则是Gini系数

ID3 Gain max 离散型
C4.5 GainRatio max 输入：离散or连续；输出：离散
CART Gini加权 min 输入输出：离散or连续

检测一元正态分布中的离群点，属于异常检测中的基于 ()的离群点检测

A统计方法

B.邻近度

密度

聚类技术

以下哪些算法是分类算法

A. DBSCAN

B.C4.5

C.K-Mean

D.EM

分类技术

基础分类器

决策树模型、基于规则的方法、基于深度学习和神经网络的方法、naive贝叶斯方法和贝叶斯信念网络、支持向量机

集成分类器

基础分类器的基础上，通过集成策略，将多个分类器集成构建新的分类器

提升、袋装、随机森林

基于规则的分类器

有决策树、随机森林、Aprior。

()是一个观测值，它与其他观测值的差别如此之大，以至于怀疑它是由不同的机制产生的。

A.边界点

B.质心

离群点

核心点

离群点

不同簇的所有点对的平均逐对邻近度	组平均
两个簇合并时导致的平方误差的增量	ward

关于K均值和DBSCAN的比较，以下说法不正确的是 ()。

A.K均值丢弃被它识别为噪声的对象，而DBSCAN一般聚类所有对象。

B.K均值使用簇的基于原型的概念，而DBSCAN使用基于密度的概念

C.K均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处理不同大小和不同形状的簇

.D.K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇

均值聚类k-means是基于划分的聚类， DBSCAN是基于密度的聚类。区别为：

k-means需要指定聚类簇数k，并且且初始聚类中心对聚类影响很大。k-means把任何点都归到了某一个类，对异常点比较敏感。DBSCAN能剔除噪声，需要指定邻域距离阈值eps和样本个数阈值MinPts，可以自动确定簇个数。
K均值和DBSCAN都是将每个对象指派到单个簇的划分聚类算法，但是K均值一般聚类所有对象，而DBSCAN丢弃被它识别为噪声的对象。
K均值很难处理非球形的簇和不同大小的簇。DBSCAN可以处理不同大小或形状的簇，并且不太受噪声和离群点的影响。当簇具有很不相同的密度时，两种算法的性能都很差。
K均值只能用于具有明确定义的质心（比如均值或中位数）的数据。DBSCAN要求密度定义（基于传统的欧几里得密度概念）对于数据是有意义的。
K均值算法的时间复杂度是O(m)，而DBSCAN的时间复杂度是O(m^2)。
DBSCAN多次运行产生相同的结果，而K均值通常使用随机初始化质心，不会产生相同的结果。
K均值DBSCAN和都寻找使用所有属性的簇，即它们都不寻找可能只涉及某个属性子集的簇。
K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇。
K均值可以用于稀疏的高维数据，如文档数据。DBSCAN通常在这类数据上的性能很差，因为对于高维数据，传统的欧几里得密度定义不能很好处理它们。

大于或等于 min-support 的非空子集，称为____。

频繁项集

关联规则挖掘问题可以划分成两个子问题：发现频繁项目集和生成______。

关联规则

DBSCAN算法时间复杂性O(__)

‏局部异常因子计算中，样本 p 的第 k 邻域内点到 p 的平均可达距离的倒数成为样本p 的____

局部可达密度

数据挖掘是从大量数据中挖掘重要、隐含的、以前未知、______的模式或知识。

潜在有用的

‏从数据仓库的角度可以将数据挖掘过程划分为_______、数据集成、数据选择与变换、数据挖掘及知识评估等阶段。

数据清理

数据挖掘任务主要包括描述性和_____任务。

预测性

‍数据集的属性可以划分为_____和连续型两种。

离散型

‏通过离散化操作可以将连续属性转化为____属性

序数？

样本p的局部异常因子值接近____，说明 p 与其邻域点密度差不多，p 可能和邻域点属于同一簇。

通过数据集成可以维护数据源整体上的数据______

一致性

聚类中不属于任何簇的数据对象可以被认为是_____

离群点？

异常点类型包括全局异常、上下文异常和______

群体异常

KNN算法是一种典型的______学习器

消极

‌使用DBSCAN进行异常点检测时，异常点被定义为________的数据对象。

‎

不属于任何簇的点

‎C4.5算法采用基于_____作为选择分裂属性的度量标准。

ID3--信息增益

C4.5--信息增益率
CART--基尼指数
贝叶斯算法--基于统计的

CART采用Gini指数来度量分裂时的不纯度。_____越大，样本集合的不确定性程度越高

基尼指标越大越不纯，不确定性越高

你可能感兴趣的:(基础知识,数据仓库,数据挖掘,人工智能)

智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
批处理脚本基础知识快速掌握感叹号的豆浆 c++
一、批处理脚本概述定义批处理脚本是一种基于命令行的自动化脚本语言，通过.bat或.cmd文件保存，由Windows系统的cmd.exe解释器执行。核心作用自动化重复性任务（如文件操作、系统配置）批量处理文件（搜索、复制、删除）集成命令行工具（如ping、netstat）简单的系统管理（服务控制、注册表操作）执行环境原生支持：WindowsCMD.EXEPowerShell兼容：可通过&或call调
零基础怎么开始学网络安全（非常详细）零基础入门到精通，收藏这一篇就够了程序员羊羊 web安全安全网络 php 学习
一、学习建议1.了解基础概念：开始之前，了解网络安全的基本概念和术语是很重要的。你可以查找网络安全入门教程或在线课程，了解网络安全领域的基本概念，如黑客、漏洞、攻击类型等。2.网络基础知识：学习计算机网络基础知识，了解网络通信原理，不同网络协议（如TCP/IP）的工作方式，以及网络拓扑结构等。3.操作系统知识：了解常见的操作系统，特别是Windows和Linux。掌握基本的命令行操作和系统管理技能
在线视频创作平台（Vidnami） deepdata_cn 视频生成视频剪辑视频创作
Vidnami是一款功能强大的在线视频创作平台，前身为ContentSamurai，于2015年推出，2020年更名为Vidnami。它运用人工智能技术，能够分析输入的文本，自动从大量素材中选取合适的图像和视频片段，将文字快速转化为具有专业外观的视频，无需用户具备视频编辑经验。该平台提供多种视频模板、全主题定制功能以及内置的免版权媒体库，包括3000万张图片和3万首音乐，还支持自动配音，用户可以录
QR二维码开发实战：生成、管理与扫描的最佳实践 34号树洞 javascript 二维码开发 Python Javascript URL QRCode
目录一、QR二维码是什么？1.QR二维码的基础知识2.QR二维码的生成3.QR二维码的应用场景4.QR二维码的管理二、开发QR二维码1.生成二维码（支持移动端+网页）2.生成“活码”（可修改目标URL的二维码）3.扫描二维码4.嵌入二维码功能到App5.高级功能6.推荐技术栈7.开发注意事项一、QR二维码是什么？1.QR二维码的基础知识QR码结构：了解QR码的组成部分，如定位图案、校正图案、数据区
OpenCV第1课OpenCV 介绍及其树莓派下环境的搭建嵌入式老牛树莓派之OpenCV opencv 人工智能计算机视觉
1.机器是如何“看”的我们人类可以通过眼睛看到五颜六色的世界，是因为人眼的视觉细胞中存在分别对红、绿、蓝敏感的3种细胞。其中的光感色素根据光线的不同进行不同比例的分解，从而让我们识别到各种颜色。对人工智能而言，学会“看”也是非常关键的一步。那么机器人是如何看到这个世界的呢？这就涉及到人工智能方向重要的分支--机器视觉。机器视觉即用机器人代替人眼来做测量和判断，通过机器视觉产品（即图像摄取装置，分C
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
使用 EchoAPI 实现 API 断言的全面指南 Kairo_01 postman
API断言是API测试中的一个关键部分。通过执行API断言，您可以验证API响应数据的准确性，从而增强API的可靠性和稳定性。在本文中，我们将介绍API断言的基础知识，并演示如何通过用户友好的API测试工具Apipost来轻松执行响应断言。什么是API断言？API断言是指验证API响应返回的数据是否正确并符合预期的过程。具体而言，主要包括以下检查：验证响应状态码是否在预期范围内。确保响应体内容与规
推特关键词爬虫Python实现最新版（2025.2.20）才华是浅浅的耐心爬虫 python 开发语言
引言随着各类自媒体平台的兴起，数据挖掘和分析变得尤为重要。推特作为全球最大的自媒体平台，越来越来越多的人需要通过爬取其内容进行分析。然后自从马斯克接手推特之后，推特api不可再用，推特的反爬力度也在逐渐增强。今天小编就分享一个推特爬虫的教程。描述这篇文章主要通过关键词爬取帖子内容信息以及帖子作者主页相关信息，用户也可根据自己需要的时间段进行筛选。推特可支持筛选多种语言，我这里先展示中文和英文的。字
JVM八股文系列一:JVM基础知识 suikasa JVM八股文 java jvm
一.JVM基础知识1.JVM从编译到执行1.1Java程序的执行过程一个Java程序，首先经过javac编译成.class文件，然后JVM将其加载到方法区，执行引擎将会执行这些字节码。执行时，会翻译成操作系统相关的函数。JVM作为.class文件的翻译存在，输入字节码，调用操作系统函数。过程如下：Java文件->编译器>字节码->JVM->机器码。JVM也就是Java虚拟机。它能识别.class后
DeepSeek 大模型落地成都高新区：科技赋能警务的创新变革 AGI大模型学习科技人工智能 DeepSeek 大模型 chatgpt 大模型应用 AI大模型
在科技飞速发展的当下，人工智能正以前所未有的速度融入各个领域，深刻改变着人们的生活与工作方式。公安领域也不例外，积极拥抱科技创新，成为提升警务效能、维护社会稳定的关键路径。全国第一例警用DeepSeek大模型落地成都高新区，这一突破性举措在警务智能化发展进程中具有里程碑意义，为公安工作带来了全方位的革新。一、警用DeepSeek大模型落地的时代背景近年来，国产AI蓬勃发展，不断涌现出令人瞩目的成果
五、AIGC大模型_08Agent基础知识学不会lostfound AI 人工智能 agent 不同生命周期的知识用AI处理 AIGC
0、概述根据知识的生命周期分类，我们通常会采取不同的方法（微调、RAG、Agent）来将知识融入到AI中0.1长生命周期知识这类知识通常具有较高的稳定性和通用性，不会因时间的推移而轻易改变。它们是知识体系中的“基石”，在较长时间内保持有效性和价值。特点：稳定性强：如数学定理、物理公式等，这些知识经过长期验证，具有高度的确定性和普适性基础性强：往往是学习和研究其他知识的基础，例如教科书中的基础知识更
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
DeepSeek爆火，背后模型竟藏着这些秘密！ qq_23519469 ai
DeepSeek是什么来头最近，AI圈可是被一个名字刷爆了屏，那就是DeepSeek！它就像一颗横空出世的超级新星，在全球范围掀起了一阵狂热的追捧潮，这热度，简直了！大家都在疯狂讨论它，各种测评、对比层出不穷。它到底有啥过人之处，能让这么多人都为之疯狂？今天咱就来好好唠唠。DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，是一家专注于开发先进大语言模型（LLM）和相关技术的企业。它成
AI人工智能代理工作流AI Agent WorkFlow：设计智能任务处理流程 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：设计智能任务处理流程作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在当今的数字化时代，随着数据量的爆炸式增长和复杂性的提升，传统的手动任务处理方式已经无法满足高效、准确的需求。人工智能技术的发展为自动化任务处理提供了新的可能性。AI人工智能代理（AIAgent）作为一
JavaScript基础-事件基础難釋懷 javascript 开发语言
在现代Web开发中，交互性是网站用户体验的重要组成部分。通过使用JavaScript，我们可以捕获用户的操作并作出响应，实现动态网页效果。这一切都离不开事件（Events）的概念。本文将介绍JavaScript中事件的基础知识，包括事件类型、如何绑定事件处理器以及一些常见的实践技巧。一、什么是事件？在浏览器环境中，事件是由浏览器生成的通知，表明某种情况已经发生。这些情况可能是用户交互（如点击按钮）
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
EmbodiedSAM：在线实时3D实例分割,利用视觉基础模型实现高效场景理解数据猎手小k 3D 实例分割在线实时感知视觉基础模型（VFM）应用
2025-02-12，由清华大学和南洋理工大学的研究团队开发一种名为EmbodiedSAM（ESAM）的在线3D实例分割框架。该框架利用2D视觉基础模型辅助实时3D场景理解，解决了高质量3D数据稀缺的难题，为机器人导航、操作等任务提供了高效、准确的视觉感知能力。一、研究背景随着机器人技术和人工智能的发展，机器人在复杂环境中执行任务（如导航、操作和交互）的能力越来越依赖于对三维（3D）场景的实时、准
国产信创AI IDE：开启智能编程新时代 InsCode AI IDE
国产信创AIIDE：开启智能编程新时代随着信息技术的迅猛发展，软件开发工具也在不断演进。近年来，人工智能（AI）技术的应用为编程工具带来了革命性的变化。其中，国产信创AIIDE——InsCodeAIIDE，作为一款由CSDN、GitCode和华为云CodeArtsIDE联合开发的新一代集成开发环境（IDE），以其智能化、高效化的特点，正在引领智能编程的新时代。最新接入DeepSeek-V3模型，点
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
人工智能（AI）系统化学习路线 xiaoyu❅ python 人工智能学习
一、为什么需要系统化学习AI？人工智能技术正在重塑各行各业，但许多初学者容易陷入误区：❌盲目跟风：直接学习TensorFlow/PyTorch，忽视数学与算法基础。❌纸上谈兵：只看理论不写代码，无法解决实际问题。❌方向模糊：对CV/NLP/RL等细分领域缺乏认知，难以针对性提升。正确的学习姿势：“金字塔式”分层学习（理论→算法→框架→应用→工程化），逐步构建完整的AI知识体系。二、人工智能学习路线
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
MMScan数据集：首个最大的多模态3D场景数据集，包含层次化的语言标注数据集
2024-10-24，由上海人工智能实验室联合多所高校创建了MMScan，这是迄今为止最大的多模态3D场景数据集，包含了层次化的语言标注。数据集的建立，不仅推动了3D场景理解的研究进展，还为训练和评估多模态3D感知模型提供了宝贵的资源。一、研究背景：随着大型语言模型（LLMs）的兴起和与其他数据模态的融合，多模态3D感知因其与物理世界的连接而受到越来越多的关注，并取得了快速进展。然而，现有的数据集
【AI大模型】RAG如何让生成AI更智能？最新方法与优劣深度解析健忘的派大星人工智能语言模型 ai AI大模型 agi RAG 程序员
前言近年来，人工智能技术突飞猛进，尤其是生成式AI，简直像是开了挂一样，各种惊艳的表现让人直呼“未来已来”。根据IDC的研究，生成式AI的市场规模在2022年已经达到了107亿美元，而到2026年，这个数字预计会飙升至326亿美元！不过，尽管生成式AI很强大，但它也并非完美无缺——比如生成内容的质量、准确性和可靠性，依然有提升的空间。这时候，检索增强生成（RAG）技术登场了！RAG的核心思路很简单
Java的正则表达式一朵忧伤的蔷薇 java 正则表达式开发语言
Java中的正则表达式(RegularExpressions,简称regex)是一种强大的工具，用于在字符串中搜索、匹配和替换特定的模式。以下是Java正则表达式的一些基础知识点：1.基本语法字符类:.匹配任意单个字符（除了换行符）。\d匹配任意数字，相当于[0-9]。\D匹配任意非数字。\w匹配任意字母、数字或下划线，相当于[a-zA-Z0-9_]。\W匹配任意非字母、数字或下划线。\s匹配任意
A Survey of Large Language Models大模型综述论文章节总结 WhyteHighmore 论文语言模型人工智能自然语言处理论文笔记
ASurveyofLLM人大译ASurveyofLargeLanguageModels这篇论文全面回顾了大型语言模型(LLM)的最新进展，重点关注其发展背景、关键发现和主流技术。文章主要围绕LLM的四个主要方面展开：1引言自从1950年图灵测试被提出以来，人类一直在探索机器掌握语言智能的方法。语言本质上是一种受语法规则支配的复杂、精细的人类表达系统，这使得开发能够理解和掌握语言的强大人工智能(AI
AI：对比ChatGPT这类聊天机器人，人形机器人对人类有哪些不一样的影响？ InnoLink_1024 AGI 人工智能机器学习 chatgpt 人工智能机器人
人形机器人与像ChatGPT这样的聊天机器人相比，虽然都属于人工智能技术的应用，但由于其具备的物理形态和与环境的互动能力，它们对人类的影响会有很大的不同。下面从多个角度进行对比，阐述它们各自对人类的不同影响：1.物理交互与虚拟交互人形机器人：具有物理形态，能够在物理世界中与人类进行直接交互。例如，搬运物品、进行日常家务、提供身体上的帮助（如扶持老人、帮助走路等），以及进行非语言的沟通（如手势、面部
DeepSeek从入门到精通「清华团队」 YuKeeHgg DeepSeek 人工智能 ai
由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后及其团队撰写文档的核心内容围绕DeepSeek的技术特点、应用场景、使用方法以及如何通过提示语设计提升AI使用效率等方面展开，帮助用户从入门到精通DeepSeek的使用。「文末附下载方式」第一部分：DeepSeek基础概念1.1DeepSeek简介定义：专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。核心产品：开源
人工智能的未来：从基础到前沿的探索与展望小二爱编程· 人工智能 ai AI编程 AI写作 AI作画
1.人工智能简介内容概述：人工智能（AI）是指模拟和执行人类智能任务的技术。随着计算能力和数据量的增加，AI在各个领域取得了显著进展，从自动化的基本任务到解决复杂的实际问题，人工智能正渗透到我们生活的各个方面。2.人工智能的种类与发展内容概述：AI的种类可以按智能的复杂度分为三大类：弱人工智能（NarrowAI）：目前大多数应用都属于弱AI，如语音助手、自动驾驶等。它们专注于特定任务，并且无法扩展
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分