数据科学与大数据导论期末复习笔记(大数据)

 来自于深圳技术大学,此笔记涵盖了期末老师画的重点知识,分享给大家。数据科学与大数据导论期末复习笔记(大数据)_第1张图片

数据科学与大数据导论期末复习笔记(大数据)_第2张图片

  • 等深分箱和等宽分箱的区别:
  • 等宽分箱基于数据的范围来划分箱子,每个箱子的宽度相等。
  • 等深分箱基于数据的观测值数量来划分箱子,每个箱子包含相同数量的数据点。

数据科学与大数据导论期末复习笔记(大数据)_第3张图片

 

 文本编辑相似度度量方法

数据科学与大数据导论期末复习笔记(大数据)_第4张图片

 数据科学与大数据导论期末复习笔记(大数据)_第5张图片数据科学与大数据导论期末复习笔记(大数据)_第6张图片

类比直角坐标系中两点距离,理解一下公式。

数据科学与大数据导论期末复习笔记(大数据)_第7张图片

数据科学与大数据导论期末复习笔记(大数据)_第8张图片

r 是一个正整数,称为参数或次数。当 r=1 时,明氏距离变为曼哈顿距离;当 r=2 时,它变为欧几里得距离。

曼哈顿距离是 单单每个类型的距离差之和。

数据科学与大数据导论期末复习笔记(大数据)_第9张图片

数据科学与大数据导论期末复习笔记(大数据)_第10张图片

X = (-3, -2, -1, 0, 1, 2,3) Y = (9, 4, 1, 0, 1, 4, 9)这个例子pearson的r是0 。

pearson=COV(x,y)/x的标准差*y的标准差。

数据科学与大数据导论期末复习笔记(大数据)_第11张图片

数据科学与大数据导论期末复习笔记(大数据)_第12张图片

数据科学与大数据导论期末复习笔记(大数据)_第13张图片

独热编码将每个标称属性进行扩充,
p将一个颜色标称属性扩充为4个二元属性,分别对应黑、白、蓝、
黄四种取值。对于每一个产品,它在这四个属性上只能有一个取1,
其余三个都为0,所以称为独热编码

数据科学与大数据导论期末复习笔记(大数据)_第14张图片

数据科学与大数据导论期末复习笔记(大数据)_第15张图片

数据科学与大数据导论期末复习笔记(大数据)_第16张图片

数据科学与大数据导论期末复习笔记(大数据)_第17张图片

数据科学与大数据导论期末复习笔记(大数据)_第18张图片

最大最小值未知,或者离群点影响较大时 

数据科学与大数据导论期末复习笔记(大数据)_第19张图片

数据科学与大数据导论期末复习笔记(大数据)_第20张图片

**数据科学与大数据导论期末复习笔记(大数据)_第21张图片

数据科学与大数据导论期末复习笔记(大数据)_第22张图片

数据科学与大数据导论期末复习笔记(大数据)_第23张图片

数据科学与大数据导论期末复习笔记(大数据)_第24张图片

数据科学与大数据导论期末复习笔记(大数据)_第25张图片

数据科学与大数据导论期末复习笔记(大数据)_第26张图片

数据科学与大数据导论期末复习笔记(大数据)_第27张图片

数据科学与大数据导论期末复习笔记(大数据)_第28张图片
确定程度较高,对应的信息熵也较小。
n 数据点被完全打乱的时候,难以理解其意思,造成不确定性也
就多了,对应的信息熵也变大了。

数据科学与大数据导论期末复习笔记(大数据)_第29张图片

数据科学与大数据导论期末复习笔记(大数据)_第30张图片

数据科学与大数据导论期末复习笔记(大数据)_第31张图片

数据科学与大数据导论期末复习笔记(大数据)_第32张图片

数据科学与大数据导论期末复习笔记(大数据)_第33张图片

数据科学与大数据导论期末复习笔记(大数据)_第34张图片

数据科学与大数据导论期末复习笔记(大数据)_第35张图片

选择信息增益最大的分隔点
数据科学与大数据导论期末复习笔记(大数据)_第36张图片

*

数据科学与大数据导论期末复习笔记(大数据)_第37张图片

数据科学与大数据导论期末复习笔记(大数据)_第38张图片

数据科学与大数据导论期末复习笔记(大数据)_第39张图片

既可以降低数据“维数” 又保留了原数据的大部分信息

示例:
数据科学与大数据导论期末复习笔记(大数据)_第40张图片

数据科学与大数据导论期末复习笔记(大数据)_第41张图片

数据科学与大数据导论期末复习笔记(大数据)_第42张图片

数据科学与大数据导论期末复习笔记(大数据)_第43张图片

数据科学与大数据导论期末复习笔记(大数据)_第44张图片

数据科学与大数据导论期末复习笔记(大数据)_第45张图片

数据科学与大数据导论期末复习笔记(大数据)_第46张图片

数据科学与大数据导论期末复习笔记(大数据)_第47张图片

数据科学与大数据导论期末复习笔记(大数据)_第48张图片

数据科学与大数据导论期末复习笔记(大数据)_第49张图片

数据科学与大数据导论期末复习笔记(大数据)_第50张图片

数据科学与大数据导论期末复习笔记(大数据)_第51张图片

数据科学与大数据导论期末复习笔记(大数据)_第52张图片

数据科学与大数据导论期末复习笔记(大数据)_第53张图片

数据科学与大数据导论期末复习笔记(大数据)_第54张图片

如果当某属性两个样例都为0对聚类的影响不大,例如医院体检两个人某种不重要的病毒抗原都是阴性,则不影响分到不同聚类。

这个时候abcd中的d就没啥用了。

数据科学与大数据导论期末复习笔记(大数据)_第55张图片

数据科学与大数据导论期末复习笔记(大数据)_第56张图片

通俗理解:jaccard=不一样的个数/(不一样的个数+都为1的个数)

jaccard数值小的越相似。

数据科学与大数据导论期末复习笔记(大数据)_第57张图片

数据科学与大数据导论期末复习笔记(大数据)_第58张图片

数据科学与大数据导论期末复习笔记(大数据)_第59张图片 误差平方和不再减小

数据科学与大数据导论期末复习笔记(大数据)_第60张图片

数据科学与大数据导论期末复习笔记(大数据)_第61张图片

数据科学与大数据导论期末复习笔记(大数据)_第62张图片

SSE(Sum of Squared Errors,误差平方和)是一种用于衡量聚类质量的指标。SSE计算的是每个数据点到其所属簇的中心的距离的平方之和。

kmeans算法还会受到,离群点,规模,形状,密度影响。

数据科学与大数据导论期末复习笔记(大数据)_第63张图片数据科学与大数据导论期末复习笔记(大数据)_第64张图片

数据科学与大数据导论期末复习笔记(大数据)_第65张图片

数据科学与大数据导论期末复习笔记(大数据)_第66张图片

数据科学与大数据导论期末复习笔记(大数据)_第67张图片

数据科学与大数据导论期末复习笔记(大数据)_第68张图片

数据科学与大数据导论期末复习笔记(大数据)_第69张图片

数据科学与大数据导论期末复习笔记(大数据)_第70张图片

***

数据科学与大数据导论期末复习笔记(大数据)_第71张图片

数据科学与大数据导论期末复习笔记(大数据)_第72张图片

数据科学与大数据导论期末复习笔记(大数据)_第73张图片

数据科学与大数据导论期末复习笔记(大数据)_第74张图片

数据科学与大数据导论期末复习笔记(大数据)_第75张图片

数据科学与大数据导论期末复习笔记(大数据)_第76张图片

数据科学与大数据导论期末复习笔记(大数据)_第77张图片

邻域:以样本为中心,eps为半径所包括的点数据科学与大数据导论期末复习笔记(大数据)_第78张图片

核心点:这个点的圈圈囊括的点的数量达到最小阈值 minpts

边界点:这个点的圈圈所囊括的点的数量未达到最小阈值 minpts,但是被核心点圈住了。

噪声点:既没有被核心点圈住,自己的圈圈里也没有达到最小阈值数量

直接密度可达:单个核心点它圈圈里的点,它可以直接可达的点。

密度可达:例如 A密度可达B (A必须是核心点) 意味着A可通过链接其他核心点最终到达B(B可以是核心点也可以是边界点)。密度可达是非对称的。

密度相连:跟密度可达唯一不同的是 A可以是边界点,即:A可通过链接其他核心点最终到达B

数据科学与大数据导论期末复习笔记(大数据)_第79张图片

数据科学与大数据导论期末复习笔记(大数据)_第80张图片

1.遍历数据集中的点,判断是否是核心,如果是创建簇,进行2,如果不是列为噪声点或边界点。

2.把核心点直接密度可达的点加入到簇中

3.循环,直到没有新的点添加到簇中

数据科学与大数据导论期末复习笔记(大数据)_第81张图片

决策树

B站视频:http://【【数据挖掘】决策树零基础入门教程,手把手教你学决策树!】https://www.bilibili.com/video/BV1T7411b7DG?vd_source=1a684a3a1b9d05485b3d6277aeeb705d

数据科学与大数据导论期末复习笔记(大数据)_第82张图片

数据科学与大数据导论期末复习笔记(大数据)_第83张图片

数据科学与大数据导论期末复习笔记(大数据)_第84张图片

IG(X|Y)表示X在以Y为条件分为两类后,各类的加权熵比原来的熵减少了多少。

数据科学与大数据导论期末复习笔记(大数据)_第85张图片

数据科学与大数据导论期末复习笔记(大数据)_第86张图片

数据科学与大数据导论期末复习笔记(大数据)_第87张图片数据科学与大数据导论期末复习笔记(大数据)_第88张图片

   除了用熵来确定最优决策类别,还能用基尼系数来确定t。基尼系数是 1-所分的类别的平方和,一次分类好后要求加权基尼。

然后选择基尼系数最小的划分作为当前的最佳划分。

判断构建的决策树的优劣

判断构建的决策树的优劣

数据科学与大数据导论期末复习笔记(大数据)_第89张图片

数据科学与大数据导论期末复习笔记(大数据)_第90张图片

数据科学与大数据导论期末复习笔记(大数据)_第91张图片

数据科学与大数据导论期末复习笔记(大数据)_第92张图片

数据科学与大数据导论期末复习笔记(大数据)_第93张图片

数据科学与大数据导论期末复习笔记(大数据)_第94张图片

数据科学与大数据导论期末复习笔记(大数据)_第95张图片

数据科学与大数据导论期末复习笔记(大数据)_第96张图片

数据科学与大数据导论期末复习笔记(大数据)_第97张图片

数据科学与大数据导论期末复习笔记(大数据)_第98张图片

数据科学与大数据导论期末复习笔记(大数据)_第99张图片

数据科学与大数据导论期末复习笔记(大数据)_第100张图片

数据科学与大数据导论期末复习笔记(大数据)_第101张图片

数据科学与大数据导论期末复习笔记(大数据)_第102张图片

***

数据科学与大数据导论期末复习笔记(大数据)_第103张图片

数据科学与大数据导论期末复习笔记(大数据)_第104张图片

数据科学与大数据导论期末复习笔记(大数据)_第105张图片

数据科学与大数据导论期末复习笔记(大数据)_第106张图片

数据科学与大数据导论期末复习笔记(大数据)_第107张图片

数据科学与大数据导论期末复习笔记(大数据)_第108张图片

当d=1时就为一元线性回归。

数据科学与大数据导论期末复习笔记(大数据)_第109张图片数据科学与大数据导论期末复习笔记(大数据)_第110张图片

数据科学与大数据导论期末复习笔记(大数据)_第111张图片数据科学与大数据导论期末复习笔记(大数据)_第112张图片数据科学与大数据导论期末复习笔记(大数据)_第113张图片数据科学与大数据导论期末复习笔记(大数据)_第114张图片数据科学与大数据导论期末复习笔记(大数据)_第115张图片数据科学与大数据导论期末复习笔记(大数据)_第116张图片

数据科学与大数据导论期末复习笔记(大数据)_第117张图片数据科学与大数据导论期末复习笔记(大数据)_第118张图片数据科学与大数据导论期末复习笔记(大数据)_第119张图片

=1289 8115

数据科学与大数据导论期末复习笔记(大数据)_第120张图片

数据科学与大数据导论期末复习笔记(大数据)_第121张图片

数据科学与大数据导论期末复习笔记(大数据)_第122张图片

数据科学与大数据导论期末复习笔记(大数据)_第123张图片

数据科学与大数据导论期末复习笔记(大数据)_第124张图片

数据科学与大数据导论期末复习笔记(大数据)_第125张图片

数据科学与大数据导论期末复习笔记(大数据)_第126张图片数据科学与大数据导论期末复习笔记(大数据)_第127张图片

数据科学与大数据导论期末复习笔记(大数据)_第128张图片

数据科学与大数据导论期末复习笔记(大数据)_第129张图片

数据科学与大数据导论期末复习笔记(大数据)_第130张图片数据科学与大数据导论期末复习笔记(大数据)_第131张图片

数据科学与大数据导论期末复习笔记(大数据)_第132张图片

数据科学与大数据导论期末复习笔记(大数据)_第133张图片

数据科学与大数据导论期末复习笔记(大数据)_第134张图片

数据科学与大数据导论期末复习笔记(大数据)_第135张图片

数据科学与大数据导论期末复习笔记(大数据)_第136张图片

数据科学与大数据导论期末复习笔记(大数据)_第137张图片

数据科学与大数据导论期末复习笔记(大数据)_第138张图片

数据科学与大数据导论期末复习笔记(大数据)_第139张图片

数据科学与大数据导论期末复习笔记(大数据)_第140张图片

几何中心度

跟它相交的结点/除了自己以外的所有结点数据科学与大数据导论期末复习笔记(大数据)_第141张图片

数据科学与大数据导论期末复习笔记(大数据)_第142张图片

接近中心度

数据科学与大数据导论期末复习笔记(大数据)_第143张图片

数据科学与大数据导论期末复习笔记(大数据)_第144张图片

数据科学与大数据导论期末复习笔记(大数据)_第145张图片

下面的也不全对! 

数据科学与大数据导论期末复习笔记(大数据)_第146张图片数据科学与大数据导论期末复习笔记(大数据)_第147张图片

这里e11要*2

d1

数据科学与大数据导论期末复习笔记(大数据)_第148张图片

数据科学与大数据导论期末复习笔记(大数据)_第149张图片

分子in相当于自己社区内的边的和*2   ; tot是自己社区内的边的和*2+外部连接的边

数据科学与大数据导论期末复习笔记(大数据)_第150张图片

数据科学与大数据导论期末复习笔记(大数据)_第151张图片

数据科学与大数据导论期末复习笔记(大数据)_第152张图片

数据科学与大数据导论期末复习笔记(大数据)_第153张图片

数据科学与大数据导论期末复习笔记(大数据)_第154张图片

数据科学与大数据导论期末复习笔记(大数据)_第155张图片

数据科学与大数据导论期末复习笔记(大数据)_第156张图片

数据科学与大数据导论期末复习笔记(大数据)_第157张图片

在我的主页里搜索数据科学导论课件,可以获得期末总复习ppt,需要各章节ppt的私我。

你可能感兴趣的:(笔记,大数据)