银晗

数据挖掘学习

文章目录

绪论
- 定义
- 挖掘过程
- 数据准备
- 数据探索EDA
- - 数据仓库
  - 空间数据库
  - 时间数据库和时序数据库
  - 流数据
  - 异构数据和遗产数据
- 数据挖掘的模式
数据准备
- 数据组成
- - 什么是数据对象？
  - 什么是数据属性？
- 数据搜集
- 数据质量分析
- - 数据类型
  - 考点：描述统计和数据可视化
  - - 描述统计方法：
    - 可视化
  - 数据正确性
  - 数据有效性
  - 方法
- 考点：数据预处理
- - 缺失数据
- 噪声数据
- - 去噪方法
  - - 1. 回归法
    - 2.分箱- 均值平滑
  - 离群点分析
  - - 分析方法：
    - - Box-Cox变换方法：
      - MAD（中值绝对偏差）：
      - 箱线图
  - 局部离群因子LOF
  - 孤立森林
- 考点：数据集成
- 数据规约
- - 策略：
  - 考点：特征提取
  - 考点: 数据量规约
- 数据变换
- - 离散化
  - - 聚类离散化
    - 信息熵分箱
    - 决策树分箱
    - 卡方分箱
- 聚类
- 考点：数据探索性分析
- - 描述统计与可视化
频繁模式和关联规则挖掘
- Apriori算法
- FP-Growth
- 考点：置信度评价
考点：基于规则的分类器
- 考点：评价指标
考点：聚类
- 代表点
- - Kmeans：
  - K-medians ：
  - K-mediods :
- 概率聚类
- 图聚类
- 层次聚类
- - BIRCH算法
- Chameleon
- 概率凝聚层次聚类
- - DBSCAN
- 考点：聚类评估
- 离群点检测
- - 基于密度
  - - 全局：
    - 局部：
  - 基于聚类
- 基于分类
- 孤立森林
- ARIMA
- 考点：距离以及相似性
TF-IDF
智能优化算法
- 遗传算法GA
- - 遗传算法的实现过程
- 模拟退火
- - 突跳概率
- 粒子群优化算法
- - 标准PSO算法的流程
- 蚁群算法
协同过滤
- - 先说缺点：
- ItemCF
- - 计算步骤
  - - 计算物品之间的相似度
    - 生成推荐列表
    - 考虑用户活跃度
    - 归一化
- 基于用户
- - 步骤
  - - 找到相似的用户集合
    - 推荐列表
考试题

绪论

定义

也即是数据挖掘的目标：

数据挖掘的定义：
从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或者知识

挖掘过程

数据挖掘的过程：

挖掘目标的定义
数据的准备
数据的探索
模型的建立
模型的评估
模型的部署

数据准备

数据的选择
数据的质量分析
数据的预处理
- 数据清洗
- 数据集成
- 数据归约
- 数据变换

数据探索EDA

对数据进行初步的探究，以便了解数据的特征，为建模的变量选择和算法选择提供依据

描述性统计
描述统计包括均值、频率、众数、百分位数、中位数、极差、方差和百分位数等，一般来说描述统计均可以用来探索数据结构，它们均用于探索数据的不同属性
数据可视化
数据可视化就是将数据的总体特点以图形的
方式呈现，用以发现其中的模式。图形简明易懂，
这个在数据探索中起到很重要的作用，比如常用
的频次图（见右图）、散点图、箱体图等
数据探索的建模
一切可以用于建模的统计方法或计量模型
均可以用于数据探索

数据仓库

关系数据库
数据仓库
事务数据库
高级数据库系统和信息库
1. 空间数据库
2. 时间数据库和时间序列数据库
3. 流数据
4. 多媒体数据库
5. 文本数据库和万维网
6. 异构数据库和遗产数据

定义：

从多个数据源搜集的信息
存放在一致的模式之下

特点：

通过数据立方体提供多维视角
与计算和快速访问汇总数据

空间数据库

空间数据库是指在关系型数据库（DBMS）内部对地理信息进
行物理存储。空间数据库中存储的海量数据包括对象的空间
拓扑特征、非空间属性特征以及对象在时间上的状态变化

地理信息系统（GIS）
遥感图像数据
医学图像数据

时间数据库和时序数据库

时间数据库和时序数据库都存放与时间有关的数据

通过研究事物发生发展的过程，有助于揭示事物发展
的本质规律，可以发现数据对象的演变特征、变化趋势与异
常检测

流数据

定义：

一组顺序、大量、快速、连续到达的数据序列,一般情况下,
数据流可被视为一个随时间延续而无限增长的动态数据集合

特点：

与其它数据库相比，在存储、查询、访问、实时性方面都具
有很高的要求

异构数据和遗产数据

遗产数据库定义：

遗产数据库是一系列的异构数据库系统的集合，包括不同种
类的数据库系统，像关系数据库、网络数据库、文件系统

特点：

有效利用遗产数据库的关键在于实现不同数据库之间的数据
信息资源、硬件设备资源和人力资源的合并和共享
数据共享应当达到两点：一是实
现数据库转换；二是实现数据的透明访问

数据挖掘的模式

概念/类描述：特性化和区分
关联分析
分类和预测
聚类分析
离群点分析
趋势和演变分析

模型选择：

数据降维我用过的算法小结一下：

PCA通过坐标轴的变换，简单有效，维度很容易操作，多少维合适（保留大部分信息的情况下尽可能的降低维度）？ 弊端：属性失去可解释性，即降维后的属性都是原来所有属性的线性组合，现实意义无法解释
SVD通过坐标系的整体的变换，但是计算稍复杂
DSNE：效果最NP，线性映射到某个最佳的维度空间，最大程度的区分开不同群体
因子分析：理论最完备，具有可解释性，但是效果仅限于维度不高的情况

预测模型：

我以为就是传统的回归模型，知道我详细的研究了一下马尔可夫的模型，哇咔咔，深不见底…概率论黑洞…
关联模型，纯纯的数据挖掘，和现实情景很贴切，就是没有真实数据，挖吧挖吧

模型结构

数据准备

数据的定义：

数据是代表定性或定量的信息片段一个变量或一组变量的属性。数据通常被视为最低级别信息和知识从中派生的抽象（也就是基于原数据的抽象表达）

大数据的定义：

大数据是大容量、高速度、多品种的信息资产，需要具有成本效益的创新形式的信息处理以增强洞察力和决策

数据组成

数据由数据对象组成，数据对象由属性描述

什么是数据对象？

定义：

就是组成数据集的元素（例如excel表格里的一个单元格），数据格式：样本、数据点、元组等

什么是数据属性？

定义：代表数据对象特征的一个字段。也称为维、特征、变量（同义词）

属性的类型：

定类型：可以标记或分类为变量内互斥类别的数据
二值型
数值型：离散/连续

数据搜集

从各大数据源、数据库提取

数据质量分析

为什么？

数据不完整（缺失）
数据存在噪声
数据不一致

考虑两个方面：
4. 保证数据的正确性

保证数据的有效性

数据类型

数据挖掘的数据类型：

结构化数据：数据库
半结构化数据：邮件、HTML、报表、资源库
非结构化数据：视频、音频、图片、文档

考点：描述统计和数据可视化

抽样调查
- 抽样方法：简单随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样
- 抽样完对数据进行校正、有效性检验

描述统计方法：

总记录数：样本总数，表示数据规模
唯一值数：唯一值数，表示数据多样性
空值占比：无效数据的影响程度
非零占比：非零值的影响程度
正数占比：正值的影响程度
负数占比：负值的影响程度

可视化

直方图：落入某区间的对象频数，顺次连接矩形中点的光滑曲线就是数据分布曲线
箱线图：最小值、Q1、中位数、Q3、最大值
方差和标准差：数据散布程度的度量
散点图：确定两个数值变量是否存在联系、模式、趋势，聚类或离群点的初探索
热力图：属性的相关性
小提琴图：箱线与分布结合
KDE图：分布图加窗平滑
QQ图：一个分布到另一个分布是否存在漂移

数据正确性

缺失值
数据错误
度量标准错误（单位）
编码不一致（度量标志不一）

数据有效性

数据携带的信息量

注数据统计方面的信息，比如占比、方差、均值、分位数等
方面的信息，以此来了解这些数据包含的信息量程度

方法

值分析：数据的唯一值、无效值、异常值进行分析
统计分析：极值、均值、标准差的比值，找出异常的统计学指标
频数直方图：了解数据的分布

考点：数据预处理

缺失数据

如何缺失的？

完全随机缺失的
条件缺失的

缺失值的处理不再赘述了，烂熟于心
各种插补法的比较：

噪声数据

何为噪声？

定义：一个由测量得到的变量中存在的随机错误或偏差

去噪方法

1. 回归法

用一个回归函数取拟合数据来光滑数据

不是随便选一个回归函数，你可以用线性回归试试，画个散点图

蓝色：正常数据
红色：异常（噪声）数据

然后你会发现满屏红色，哈哈哈哈哈哈哈哈哈哈哈哈~
这很正常~

因为你的线性函数就是判断的标准，现实中的数据没有这么强的线性相关性，而且你还得考虑一个很重要的问题：多重共线性！

在普通的问题中，这是影响你回归模型的最大的因素

So，盘它，LASSO和岭回归或者弹性网就足够了，注意！你的目的不是让模型预测的有多准，而是来划分噪声，ok？

等等，差点忘了，噪声咋办，删掉or替换

2.分箱- 均值平滑

对于具有序列特征的变量用临近的若干数据的均值来替换原始数据的方法

不常用，因为这样会损失或偏离原数据携带的信息量

离群点分析

Q：离群点如何产生的？
A：数据集中含有的数据有些不合理，偏离观测值，属于录入错误
通过聚类等方法来检测离群点，并将其删除，从而实现去噪的方法

分析方法：

统计分析：极差分析，最大值-最小值，判断是否合理
3 $\sigma$ 原则：
- 数据符合正态分布： $P(|x-\mu|>3\sigma)<0.003$ 外的数据视为异常，即 $\mu+3 *\sigma,\mu-3\sigma]$
  1. 但是样本均值和样本标准差都不是稳健统计量，其计算本身受极值的影响就非常大
  2. 按照上面的计算方法，这个异常点可能仍在均值三倍标准差的范围内
  3. 因此按照这种方法剔除掉异常值后，需要重新观察数据的分布情况，看是否仍然存在显著异常点，若存在则继续重复迭代去寻找异常点
  - 为什么？
  因为剔除掉极值后，样本的方差可能发生变化了（正如文中所说，它不是一个稳健的估计量），每次剔除通常都会变化，所以需要重复的去做
- 数据不服从正态分布： $zscore$ 远离平均值的多少倍标准差

Z-Score的计算：

标准分数，为该组数据中各个原始数据点脱离该组数据均值的幅度，幅度以标准差为衡量单位。

Z score的计算公式为 $\frac{（x-μ）}{σ}$

Alpha因子的zscore计算。只有当两个因子的分布都为近似正态分布时，基于均值-标准差标准化得到的zscore 才有可比性，否则样本偏度和峰度的影响会使得个股在某一个因子上的得分明显偏大或偏小，其在多因子中的效用被显著放大或缩小，也就是提到的Percential Ranking Problem。

可以通过切比雪夫不等式依然可以对均值的若干倍标准差之外的样本数据量的占比进行估计 $P(|X-\mu|>k * \sigma)<= \frac{1}{k^2}$ , 但是问题又来了，随着k增加， $\frac{1}{k^2}$ 快速减小，上界偏大，受数据分布的偏度和峰度影响下，这种方法可能会把过量的数据认定为异常点
我之前了解到的是，针对非正态分布的数据，那就把它往正态分布的数据变换，Box-Cox方法出现在我的眼界之中 Box-Cox公式推导

Box-Cox变换方法：

Box-Cox变换的一个显著优点是通过求变换参数来确定变换形式，而这个过程完全基于数据本身而无须任何先验信息，这无疑比凭经验或通过尝试而选用对数、平方根等变换方式要客观和精确。

Box-Cox变换的目的是为了让数据满足线性模型的基本假定，即线性、正态性及方差齐性，然而经Box-Cox变换后数据是否同时满足了以上假定，仍需要考察验证

经过这样的一个变换，例如就取对数，它会缩小数据之间的距离，这样可能会使得原来是异常值的点变为不是异常值，数据分布也不一定满足正态分布

但是这种变换得到的数据分布往往都有明显的对称性，与正态分布的相似性更高
只有取正值的数据才能使用Box-Cox变换，对于一些数据是负数或者为零，在Box-Cox变换之前，需要在所有值上加一个正数，使得所有数据为正。但这种移动是主观确定的

MAD（中值绝对偏差）：

针对均值标准差方法的改进，把均值和标准差替换成稳健统计量，样本均值用样本中位数代替，样本标准差用样本MAD代替，通常把偏离中位数三倍以上的数据作为异常值，和均值标准差方法比，中位数和MAD的计算不受极端异常值的影响，结果更加稳健

MAD：

箱线图

箱线图上其实也会注明异常值，假设Q1和Q3分别为数据从小到大排列的25%分位数 $Q 1$ 和75%分位数 $Q 3$ （上下四分位数），记 $I QR （四分位距） = Q 1 - Q 3$

$(- \infty, Q 1 - 3 * I QR) ⋃ (Q 3 + 3 * I QR, + \infty)$ 区间里的数据标识为异常点

分位数也是稳健统计量, 因此Boxplot 方法对极值不敏感
但如果样本数据正偏严重，且右尾分布明显偏厚时，Boxplot 方法会把过多的数据划分为异常数据

偏度调整：

样本偏度定义采用了MedCouple方法：
$md = median(x_i , i=1,2,3,...,n)$
$median(\frac{(x_i-md)-(md-x_j)}{x_i-x_j},x_i >= md ; x_j <= md)$

上下限L和U：

区间 $(- \infty, L) ⋃ (U, + \infty)$ 上的点视为异常点。和原始Boxplot 方法相比，当样本数据分布右偏时，此法会提升正常数据区间上限的数值；样本数据左偏时，则会降低正常数据区间下限的数值

局部离群因子LOF

基于密度的离群点检测方法的关键步骤在于给每个数据点都分配一个离散度，其主要思想是：针对给定的数据集，对其中的任意一个数据点，如果在其局部邻域内的点都很密集，那么认为此数据点为正常数据点

而离群点则是距离正常数据点最近邻的点都比较远的数据点。通常有阈值进行界定距离的远近。在基于密度的离群点检测方法中，最具有代表性的方法是局部离群因子检测方法 (Local Outlier Factor, LOF)。

核心：样本点跟周围邻居的密度对比

LOF通过计算一个数值score来反映一个样本的异常程度。这个数值的大致意思是：一个样本点周围的样本点所处位置的平均密度比上该样本点所在位置的密度。比值越大于1，则该点所在位置的密度越小于其周围样本所在位置的密度，这个点就越有可能是异常点。

$distance(A,B) = \\max\{distance_k(B),distance(A,B)\}$

距离A点最近的k个点B，它们到A点的距离被认为是相当的，等于D（A，B）

$\frac{1}{\sum{_{B>N_k(A)}}diatance_k(A,B)/k}$

$N_k（A）$ 是A点的k距离邻域，也就是要计算A点与邻域内每一个点的距离

表示的意义是：A点的k距离邻域内的点到A点的平均可达距离

给每个数据点都分配一个依赖于邻域密度的离群因子 LOF，进而判断该数据点是否为离群点。

若异常分数 LOF 接近1，则说明样本点p的局部密度跟邻居的接近。
若异常分数 LOF 小于1，表明p处于一个相对密集的区域，不像一个异常点。
若异常分数 LOF 远大于1，表明p跟其他点比较疏远，很可能是一个异常点

代码：

import pandas as pd
from sklearn.neighbors import LocalOutlierFactor
def lof(data, predict=None, k=5, method=1, plot=False):
    
    # 判断是否传入测试数据，若没有传入则测试数据赋值为训练数据
    try:
        if predict == None:
            predict = data.copy()
    except Exception:
        pass
    predict = pd.DataFrame(predict)
    # 计算 LOF 离群因子
    clf = LocalOutlierFactor(n_neighbors=k + 1, algorithm='auto', contamination=0.1, n_jobs=-1)
    clf.fit(data)
    # 记录 k 邻域距离
    predict['k distances'] = clf.kneighbors(predict)[0].max(axis=1)
    # 记录 LOF 离群因子，做相反数处理
    predict['local outlier factor'] = -clf._decision_function(predict.iloc[:, :-1])
    # 根据阈值划分离群点与正常点
    outliers = predict[predict['local outlier factor'] > method].sort_values(by='local outlier factor')
    inliers = predict[predict['local outlier factor'] <= method].sort_values(by='local outlier factor')
    return outliers, inliers

clf.fit(data)

#获取第 k 距离邻域内的每一个点到中心点的距离
clf.kneighbors(data)

#获取每一个样本点的 LOF 值，该函数范围 LOF 值的相反数，需要取反号
-clf._decision_function(data)

clf._predict(data) 则按照原先设置的 contamination 输出判断结果（按比例给出判断结果，异常点返回-1，非异常点返回1）

致命缺点：

必须不存在大于等于 k 个重复的点。当这样的重复点存在的时候，这些点的平均可达距离为零，局部可达密度就变为无穷大
所有k diantance计算要去重

孤立森林

大多数基于模型的异常检测算法会先 ”规定“ 正常点的范围或模式，如果某个点不符合这个模式，或者说不在正常范围内，那么模型会将其判定为异常点

孤立森林的创新点包括以下四个：

Partial models：在训练过程中，每棵孤立树都是随机选取部分样本（Bagging思想）；
No distance or density measures：不同于 KMeans、DBSCAN 等算法，孤立森林不需要计算有关距离、密度的指标，可大幅度提升速度，减小系统开销；
Linear time complexity：因为基于 ensemble，所以有线性时间复杂度。通常树的数量越多，算法越稳定；
Handle extremely large data size：由于每棵树都是独立生成的，因此可部署在大规模分布式系统上来加速运算。

算法思想：

我们用一个随机超平面对一个数据空间进行切割，切一次可以生成两个子空间（也可以想象用刀切蛋糕）。接下来，我们再继续随机选取超平面，来切割第一步得到的两个子空间，以此循环下去，直到每子空间里面只包含一个数据点为止

这好像和决策树回归有异曲同工之妙！通过区域划分的思想来判断/预测值！

那到底怎么区分呢？

直观上来看，我们可以发现，那些密度很高的簇要被切很多次才会停止切割，即每个点都单独存在于一个子空间内，但那些分布稀疏的点，大都很早就停到一个子空间内了

稀疏的点是不是很有可能是离群点，惊！

算法过程：

从训练数据中随机选择 Ψ 个点作为子样本，放入一棵孤立树的根节点；
随机指定一个维度，在当前节点数据范围内，随机产生一个切割点 p —— 切割点产生于当前节点数据中指定维度的最大值与最小值之间（决策点划分）；
此切割点的选取生成了一个超平面，将当前节点数据空间切分为2个子空间：把当前所选维度下小于 p 的点放在当前节点的左分支，把大于等于 p 的点放在当前节点的右分支；
在节点的左分支和右分支节点递归步骤 2、3，不断构造新的叶子节点，直到叶子节点上只有一个数据（无法再继续切割）或树已经生长到了所设定的高度。
$X_i$ 处于密度较高的区域，因此切割了十几次才被分到了单独的子空间，而 $X_o$ 落在边缘分布较稀疏的区域，只经历了四次切分就被 “孤立” 了。

然后用集成的思想，整合全部树的结果，计算每次切分结果的平均值，即计算异常分数 s。对于每个样本 x，需要对其综合计算每棵树的结果

h(x) 为 x 在每棵树的高度，
c(Ψ) 为给定样本数 Ψ 时路径长度的平均值，用来对样本 x 的路径长度 h(x) 进行标准化处理

异常得分S：

如果异常得分接近 1，那么一定是异常点；
如果异常得分远小于 0.5，那么一定不是异常点；
如果异常得分所有点的得分都在 0.5 左右，那么样本中很可能不存在异常点。

官方文档：

sklearn.ensemble.IsolationForest(
              *, 
              n_estimators=100, 
              max_samples='auto', 
              contamination='auto', 
              max_features=1.0, 
              bootstrap=False, 
              n_jobs=None, 
              random_state=None, 
              verbose=0,               warm_start=False)

例子：

# 加载模型所需要的的包
import numpy   as np
import pandas  as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.ensemble import IsolationForest

# 模型训练
iforest = IsolationForest(n_estimators=100, max_samples='auto',  
                          contamination=0.05, max_features=4,  
                          bootstrap=False, n_jobs=-1, random_state=1)




#  fit_predict 函数 训练和预测一起 可以得到模型是否异常的判断，-1为异常，1为正常
df['label'] = iforest.fit_predict(X) 

# 预测 decision_function 可以得出 异常评分
df['scores'] = iforest.decision_function(X) 

# 我们看看哪些预测为异常的
df[df.label==-1]

#可视化1
df['anomaly'] = df['label'].apply(lambda x: 'outlier' if x==-1  else 'inlier') 
fig = px.histogram(df,x='scores',color='anomaly') 
fig.show()

#可视化2
fig = px.scatter_3d(df,x='petal width (cm)', 
                       y='sepal length (cm)', 
                       z='sepal width (cm)', 
                       color='anomaly')
fig.show()

考点：数据集成

元数据集成：将多个数据源中的数据整合到一个一致的存储中

注意的问题：实体识别问题，要匹配来自不同数据源的现实世界中的实体（比如两个表中两个不同的属性代表着一个含义）

属性集成：对现实世界中的同一实体，来自不同数据源的属性值可能是不
同的

注意的问题：数据表示不同、数据的度量不同

数据规约

原因：

数据仓库中往往存有海量数据，在其上进行复杂的数据分
析与挖掘需要很长的时间
通过数据归约可以得到比元数据小得多的数据集，但可以
产生相同的（或几乎相同的）分析结果

目的：
得到能够与原始数据集近似等效甚至更好但数据量却较少的数据集

策略：

维归约：减少所考虑的随机变量或属性个数。
- 特征选择，降维，找出最小属性集，使得数据类的概率分布尽可能地接近使用所有属性得到的原分布
数量规约：用较小的数据表示替换原数据。
- 抽样…逐渐筛选、逐级抽样的过程
数据压缩：使用变换，得到原数据的规约或压缩表示

考点：特征提取

主成分分析
线性判别分析
奇异值分解 SVD
算法提取，决策树、随机森林

考点: 数据量规约

属性子集选择
- PCA
样本选择：筛选、抽样
数据聚合：尺度变换
- 哈尔小波分解
-
调整类分布：处理类别不平衡

数据变换

定义：将数据从一种表示形式变为另一种表现形式的过程

标准化：
数据的标准化是将数据按比例缩放，使之落入一个小的特定区间。其中最典型的是0-1标准化和Z-score标准化

离散化

算法需要
克服数据中隐藏的缺陷
有利于非线性数据的诊断和描述

离散化指把连续型数据切分为若干“段”，也就是分箱的过程

离散化就是把无限空间中有限的个体映射到有限的空间中去，以此提高算法的时空效率。通俗的说，离散化是在不改变数据相对大小的条件下，对数据进行相应的缩小。

例如：
原数据为：{ 1, 999 , 100000 ,15 } 处理之后为：{ 1,3,4,2 }

原数据为：{100,200}，{20,50000}，{1,400}；处理之后为：{3,4}，{2,6}，{1,5}；

模型中，同一线性系数应该对所有可能的计数值起作用。过大的计数值对无监督学习方法也会造成破坏，比如k-均值聚类，它使用欧氏距离作为相似度函数来测量数据点之间的相似度。数据向量某个元素中过大的计数值对相似度的影响会远超其他元素，从而破坏整体的相似度测量

距离分箱-无监督

value, cutoff = pd.cut(df['mean radius'], bins=4, retbins=True, precision=2)

等频分箱-无监督

value, cutoff = pd.qcut(s1, 3, retbins=True)

利用聚类分箱-无监督
信息熵分箱-有监督
基于决策树分箱-有监督
卡方分箱-有监督

聚类离散化

通过聚类算法（K-Means算法）将连续属性值进行聚类，处理聚类之后的到的k个簇。聚类考虑数据属性值的分布以及数据点的邻近性，因此可以产生高质量的离散化结果

model_kmeans = KMeans(n_clusters=4,random_state=0)
kmeans_result = model_kmeans.fit_predict(data_reshape)
df['amount_cut'] = kmeans_result

聚类结果标签就是离散值

信息熵分箱

信息熵可以衡量区分能力，当特征按照某个分隔点划分为上下两部分后能达到最大的信息增益，那么这就是一个好的分隔点
利用信息增益最大化的方法寻找连续变量的最优切点，当切点确定后，将连续变量一分为二，分为两部分数据集，在这两部分数据集中用同样的方法循环切分，直到信息增益的值小于停止标准为止

决策树分箱

import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.tree import DecisionTreeClassifier
import numpy as np

# bc = load_breast_cancer()
# df = pd.DataFrame.from_records(data=bc.data, columns=bc.feature_names)
# df['target'] = bc.target
print(df.sample(5)[["mean radius","target"]])

print("-----------------")

dt = DecisionTreeClassifier(criterion='entropy', max_depth=3) # 树最大深度为3
dt.fit(df['mean radius'].values.reshape(-1, 1), df['target'])

print(dt.tree_.feature) # 存放每个节点所采用的特征
print(dt.tree_.threshold) # 存放每个节点特征的阈值
print(dt.tree_.children_left) # 存放经过特征和阈值分裂之后的左孩子
print(dt.tree_.children_right) # 存放经过特征和阈值分裂之后右孩子

print("-----------------")
# 取出这课决策树的所有叶节点的分割点的阈值
print(np.where(dt.tree_.children_right > -1))
qtsr = dt.tree_.threshold[np.where(dt.tree_.children_right > -1)]
print(qtsr)

print(np.where(dt.tree_.children_left > -1))
qts = dt.tree_.threshold[np.where(dt.tree_.children_left > -1)]
print(qts)

print("-----------------")

qts = np.sort(qts)
res = [np.round(x, 3) for x in qts.tolist()]

print(res)

卡方分箱

它主要包括两个阶段：初始化阶段和自底向上的合并阶段。
1、初始化阶段：
首先按照属性值的大小进行排序（对于非连续特征，需要先做数值转换，然后排序），然后每个属性值单独作为一组。
2、合并阶段：
（1）对每一对相邻的组，计算卡方值。
（2）根据计算的卡方值，对其中最小的一对邻组合并为一组。
（3）不断重复（1），（2）直到计算出的卡方值都不低于事先设定的阈值或者分组数达到一定的条件（如，最小分组数5，最大分组数8）。
简单来讲，卡方分箱就是不断的计算相邻区间的卡方值（卡方值越小表示分布越相似），将分布相似的区间（卡方值最小的）进行合并，直到相邻区间的分布不同，达到一个理想的分箱结果。理想的分箱是在同一个区间内标签的分布是相同的。

feature_selection.chi2

聚类

距离聚类：
最小距离距离：挑类间最小距离的两个点合并，合并计算新距离矩阵时，选取距离小的

最大距离距离：挑类间最小距离的两个点合并，合并计算新距离矩阵时，`选取距离大的

考点：数据探索性分析

构造衍生变量：通过已有变量，通过不同形式的组合而衍生出的变量

方法：

对多个列进行组合（加减乘除，造属性）
分类汇总
对某个变量进行分解
对时间属性进一步提取时序特征（增长率，差分…）
评价性衍生变量 (好坏)

描述统计与可视化

算数平均值
中位数
标准差
方差
极差
偏度
峰度
分位数

Q - Q 图：一个分布到另一个分布的漂移程度

频繁模式和关联规则挖掘

Support（支持度）：表示某个项集出现的频率，也就是包含该项集的交易数与总交易数的比例
Confidence（置信度）：表示当A项出现时B项同时出现的频率，记作{A→B}。换言之，置信度指同时包含A项和B项的交易数与包含A项的交易数之比。

频繁项集定义：

项集X的支持度计数是否大于最小支持度，大于等于，则为频繁项集

推理：项集X为某闭频繁项集的子集，一定频繁。

强规则：频繁且置信度大于最小置信度的规则

闭频繁项集：

项集X的直接超集的支持度不等于项集X的支持度，那么项集X为闭频繁项集
闭项集包含了频繁项集的完整信息

极大频繁项：项集X是频繁项集，X的所有超集均是非频繁项集，那么X为极大频繁项集

Apriori算法

基本思想：

任何非频繁项集的超集都是不频繁的
频繁项集的非空子集肯定是频繁的

算法过程：

扫描数据库，累计每一个项的计数，并收集满足最小支持度的项，找出频繁1项集的集合
使用频繁1项集的集合，找出频繁2项集的集合，如此循环直到找不到k频繁项集
每次生成k个项集都需要完整扫描一次数据库（因为需要统计项集的支持度）

连接：扫描数据库中的所有事务，寻找k频繁项集（k项集筛选得到）
剪枝：频繁k项集组合生成k+1频繁项集（排列组合，笛卡儿积+支持度筛选）
- 如何剪枝？如何发现候选集的某子集是非频繁的，那么这个候选集必然非频繁
- 给定一个k项集，只需要判断它的k-1项集是否频繁就行
迭代以上两步，直到k

置信度高并非可信

D=10000
{DVD}=7500
{Tape}=6000
{DVD,Tape}=4000
S(Tape -> DVD)=4000/10000 = 0.4
C(Tape -> DVD)=4000/6000 = 0.66

FP-Growth

Apriori算法：需要重复扫描数据库，生成候选集集合，再筛选出频繁项集
FP-Growth：

采用分治策略，无需产生候选集
将数据库压缩到频繁模式树
压缩后的数据库分成条件数据库

算法流程

扫描数据，得到所有频繁1项集的计数，去除原始数据非频繁1项集，然后按支持度降序排序
读入排序后的数据集，按照排序后的顺序插入FP树中
- 树具有层级特征
- 必须从根节点开始
如果有共有祖先，共用祖先支持度计数+1
新节点出现，项头表对应的节点会通过节点链表链接上新节点
从项头表底部（叶节点）依次向上找到条件模式基
- 若叶节点唯一：条件模式基为支持度计数为共有祖先的支持度计数
- 若不唯一：条件模式基支持度计数为取出该节点的根路径重新计算该叶子节点根路径上公用祖先计数
从条件模式基递归生成频繁项集

考点：置信度评价

置信度 $\frac{P(AUB)}{P(A)}$
提升度 $\frac{confiden（A-》B）}{P（B）} = \frac{P（B|A）}{ P（B）}= \frac{P（AUB）}{ P（A）* P（B）}$
- 小于1，负相关
- 大于1，正相关
- 等于1，相互独立
不平衡比 $\frac{|S(A)-S(B)|}{S( A)+S(B) - S(AUB)}$
- 等于0，二者方向相同，平衡
- 二者差值越大，越不平衡

考点：基于规则的分类器

分类过程：

训练过程生成一系列规则
分类阶段发现测试实例触发的规则

互斥：一条记录只能触发一个规则

考点：评价指标

准确率： acc = n+ / n ， 问题：准确率高的规则可能覆盖率低
似然比： $2*\sum^k_{i=1}f_ilog(f_i/e_i)$
- k是类的个数
- fi是被规则覆盖的类i的样本的频数
- ei：即期望频数（随机猜测频数）= 该规则所有类覆盖总数*该类出现总数/总样本数
$\frac{n_+ +1} { n+k}$ （n是覆盖总数，n+是覆盖的正例数）
FOIL信息增益：
- 原来有p0个正例，n0个反例
- 加了规则覆盖后有p1个正例，n1个反例
- $FOIL =p_1* [log_2(p_1/p_1+n_1) - log_2(p_0/p_0+n_0)]$

考点：聚类

考量数据是否可以进行聚类

熵：可以反馈特征子集的聚类质量

$\sum^m_{i=1}[p_ilog(p_i)+(1-p_i)log(1-p_i)]$

多簇数据集具有较小的熵，均匀分布熵很大
pi为所有采用得到的距离中，第i个距离区间所占比例

霍普金统计：空间统计量，描述数据的空间分布特征

$H=\frac{\sum^n_{i=1}d_{si}}{\sum^n_{i=1}d_{si}+d_{ri}}$

均匀分布时，H=0.5
聚集时：H>0.5

思想：现有数据集D，dri从D中采集所得，又从D中采样数据得到d_si，如果D是均匀分布的，dri和dsi相接近，H=0.5 ；如果D不是均匀分布，dsi大于dri，那么H>0.5

代表点

分配阶段：根据距离函数，将每个数据点分配到S中距离它最近的代表点
优化阶段：对于每个簇，使得局部目标函数（簇内距离的和）最小化

Kmeans：

均方误差：

$\sum||x-m_i||^2 \\ m_i= \frac{1}{n_i}\sum x$

一开始是随机抽取质心，之后是以簇内均值作为质心
- 适用于球状数据集，不适合非凸形状的簇
- 对噪声和离群点敏感，少量的异常值极大的影响簇均值

K-medians ：

$\sum ||x_i-y_i||$

$y_i$ 是每一个维度代表点的中值
代表点可能不属于原数据集，对异常点不敏感

K-mediods :

思想：将初始化的代表点集合S与数据集中选择的点进行交换（逐个尝试选择最优），来迭代更新S（改进为正时才替换）
更替的代价函数：平均相异度

概率聚类

每个簇都是一个概率分布，该概率分布的参数在训练中获得，一般由EM算法估计

每个数据都有一个归属概率，选择归属概率最大的簇

图聚类

将数据转换成图进行分析
- 转换方法：通过使用近邻图来定义成对相似性
- 定义对象间的距离函数
将每个数据定义为对象，每个对象都是单个节点
找最近邻点
- 如果两对象之间的距离小于特定的阈值，那么两对象之间存在一条边
- 分别计算两阶段之间的k近邻，如果是k近邻的，加一条边，可以为互近邻
核函数计算相似性

思想：

将图映射到多维空间，进行切图，使得切图的总代价最小（子图内点对之间权值大，子图间边权值较小）

层次聚类

自底向上：

初始化距离矩阵M
找到M中最近的两个簇i和j
将簇i和j合并，删除i和j两列，加上合并后的行列
更新距离矩阵M（最小、最大）

单链接：i和j更新过程中取最小值
全连接：i和j更新过程中先最大、后最小值
平均链接：取i和j的平均距离
均值链接：取i和j距离的绝对值

BIRCH算法

自顶向下：

引入CF树的层次结构
1. 每个节点由多个聚类特征组成
2. 每个聚类特征包含若干数据点
基于叶子节点进行聚类

聚类特征CF(超球体)

CF用一个三元组概括描述各簇的信息，每一个CF都可以用（N，LS，SS）表示
假设某簇有N个D维数据点，矢量LS是各点每一维的线性求和（一阶矩），多元组
标量SS，是各数据点每一维的平方和（二阶矩），多元组

CF（N，（x1,x2…）,(x1^2, x2^2…)）

CF的三个统计量：

簇质心 LS/N
成员对象到质心的平均距离 $\sum(x_i-x_0)^2/N$
簇直径：簇中两两数据点的平均距离 $D=(\sum_i\sum_j(x_i-x_j)^2)/N(N-1)^{1/2}$

多阶段聚类

算法流程：

数据点输入，通过计算直径或者半径和阈值比较（即是否在超球体内部）
在超球体内部，加入 $CF_i$ （距离最近的CF）
不在超球体内部，新建 $CF_i$ ；
叶子节点是否大于最大节点数，大于分裂
枝节点是否大于最大节点数，大于分裂
对叶子节点进行聚类，稀疏簇：叶子节点内部离群的簇，进行删除，稠密簇：进行合并生成更大的簇

Chameleon

考虑每个节点邻近的K个节点，即，只有最接近节点的K个节点会被认为与节点存在链接
使用动态建模确定一对簇之间的相似度（簇中对象的连接情况和簇的邻近性）

步骤：

构造稀疏图：生成k近邻图
图划分算法，将K近邻图划分为大量相对较小的子簇
- 边割最小
- 大簇被切成小簇，其被切断的边的权值之和最小
使用凝聚层次聚类算法，基于子簇的相似度反复合并子簇
划分依据：互联性RI、近邻性RC（簇与簇之间的相似性）

概率凝聚层次聚类

当距离计算无法进行时
距离度量难以选择时

描述：

生成一个概率模型，一般选分布函数（高斯分布、伯努利分布），由模型参数确定

训练过程中，找出最佳的拟合观测参数

每个对象一个簇
找出一对簇Ci和Cj
簇合并度量准则： $dist(C_i,C_j) = - log\frac{P(C_iUC_j)}{P(C_i)P(C_j)}$
如果 $log\frac{P(C_iUC_j)}{P(C_i)P(C_j)}$ > 0,就合并两个簇，代表质量有提升

缺点：结构不确定，可能具有多个描述数据的层次结构

DBSCAN

半径r，密度p

创建一个图，若每两个核心点是连接到一起的（密度可达），并且他们之间的距离在r内，则两个点之间连一条边
找出所有的连通子图
为每个边界点（稀疏点）找到一个与之有最强连接的连通子图
每个连通子图中的点作为簇

有效发现任意形状的簇

考点：聚类评估

聚类簇数的选择

经验： $k = （n/2）^{1/2}$
肘方法：

1.对于n个点的数据集，迭代计算k（从1到n），每次聚类完成后计算每个点到其所属的簇中心的距离平方和（簇内方差和）
2. 平方和逐渐减少直到0
3. 在这个平方和变化时，会出现一个拐点，即下降率突然变缓，这个拐点的k值即为所求

轮廓系数

对于其中的一个点 i 来说：

计算簇内距离：a(i) = average (i向量到所有它属于的簇中其它点的距离)
- 自身簇的紧凑性
计算簇外距离：b(i) = min (i向量到某一不包含它的簇内的所有点的平均距离)
- 和其他簇的分离程度

那么 i 向量轮廓系数就为：

可见轮廓系数的值是介于 [-1,1] ，越趋近于1代表内聚度和分离度都相对较优。

将所有点的轮廓系数求平均，就是该聚类结果总的轮廓系数。
a(i) ：i向量到同一簇内其他点不相似程度的平均值
b(i) ：i向量到其他簇的平均不相似程度的最小值

离群点检测

基于密度

全局：

直方图估计，根据数据的分布进行检测
核密度估计，确定数据中的稀疏区域以报告异常点

局部：

基于聚类

思想：

基于聚类产生簇，寻找远离簇的数据点
考虑对象和它最近簇之间的距离

FindCBLOF：

核心：检测簇中的离群点

聚类，按类别数量降序排序，分为大簇和小簇
赋予每个点一个基于簇的离群点检测因子CBLOF
- 大簇：簇的大小 * 点与簇之间的相似性
- 小簇：簇的大小 * 与最近的大簇之间的相似性
CBLOF的值越大，与该簇越相似，越不是离群点

计算CBLOF因子，也就是一个点到最近的大簇的距离。

如果这个点是大簇里面的点，直接计算他到簇中心的距离即可。
如果这个点不是大簇点，分别计算其到所有大簇的距离，选最小的作为因子。

基于分类

one-class SVM ：二分类的思想，只用判别是或者不是

SVDD：采用一个超球体而不是一个超平面来做划分

特征空间中获得数据周围的球形边界
最小化超球体的体积

孤立森林

利用决策树的特点，多次对特征空间进行划分，然后观察“孤立”一个点的难易程度
异常点往往在深度比较浅的叶子节点（一下子就划分出来的）

ARIMA

AR（p）：

自回归，用p个历史值预测当前值，p称为阶数，用PACF自相关系数确定p

I（d）：

差分，将非平稳的数据转换成平稳数据，后一个减去前一个

MA（q）：

移动平均，当前预测值等于q个历史预测误差的回归预测值，q为阶数，ACF系数确定q

考点：距离以及相似性

对称属性：属性的取值同等重要
非对称属性：属性的取值不同等重要

标称属性(nominal attribute)：

代表某种类别、编码或者状态。比如头发颜色如黑色、棕色、黄色等。标称属性值不具有有意义的序且并不是定量的。众数是该属性的人中心趋势度量
距离计算： $\frac{p-m}{p}$

序数属性：

大小是有意义的，可进行排序
优秀、一般、良好

数值属性：

分数

影响距离计算的因素

领域相关性: 数据特征的重要性不一样；不相关特征叠加效应
高维度（维度增加数据点之间的距离越来越难以区别，无法表达语义距离）- > Lp范数
分布特征
- 全局：马氏距离、ISOMAP 测地距离；
- 局部：共享最近邻相似度
噪声

马氏距离：到分布中心点的距离
IOSMAP：测地距离

不寻常相似度的重要意义：

医疗数据，发现异常值，癌症、糖尿病
不寻常类别属性值匹配权重大于常出现值

TF-IDF

余弦度量：
$\frac{\sum^{d}_{i=1}x_iy_i}{\sqrt{\sum^{d}_{i=1}x_i^{2}y_i^{2}}}$
TF: 词频，在文档中出现的频率
n：文章的总词数
ni: 该词在文档中出现的次数

$id_i = log(\frac{n}{n_i+1})$
如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0 。分母之所以要加1，是为了避免分母为0（即所有文档都不包含该词）。log表示对得到的值取对数

TF-IDF = TF * IDF

阻尼函数f(x)：针对词频(xi)的，将词频取根号，或者log

TF-IDF = f(TF)* IDF

智能优化算法

形象综述：

“袋鼠跳”问题

既然我们把函数曲线理解成一个一个山峰和山谷组成的山脉。那么我们可以设想所得到的每一个解就是一只袋鼠，我们希望它们不断的向着更高处跳去，直到跳到最高的山峰（尽管袋鼠本身不见得愿意那么做）。所以求最大值的过程就转化成一个“袋鼠跳”的过程。

作为对比下面简单介绍“袋鼠跳”的几种方式。

爬山法（最速上升爬山法）：

从搜索空间中随机产生邻近的点，从中选择对应解最优的个体，替换原来的个体，不断重复上述过程。因为爬山法只对“邻近”的点作比较，所以目光比较“短浅”，常常只能收敛到离开初始位置比较近的局部最优解上面。对于存在很多局部最优点的问题，通过一个简单的迭代找出全局最优解的机会非常渺茫。（在爬山法中，袋鼠最有希望到达最靠近它出发点的山顶，但不能保证该山顶是珠穆朗玛峰，或者是一个非常高的山峰。因为一路上它只顾上坡，没有下坡。）
模拟退火：

这个方法来自金属热加工过程的启发。在金属热加工过程中，当金属的温度超过它的熔点（Melting Point）时，原子就会激烈地随机运动。与所有的其它的物理系统相类似，原子的这种运动趋向于寻找其能量的极小状态。在这个能量的变迁过程中，开始时，温度非常高，使得原子具有很高的能量。随着温度不断降低，金属逐渐冷却，金属中的原子的能量就越来越小，最后达到所有可能的最低点。
利用模拟退火的时候，让算法从较大的跳跃开始，使到它有足够的“能量”逃离可能“路过”的局部最优解而不至于限制在其中，当它停在全局最优解附近的时候，逐渐的减小跳跃量，以便使其“落脚 ”到全局最优解上。（在模拟退火中，袋鼠喝醉了，而且随机地大跳跃了很长时间。运气好的话，它从一个山峰跳过山谷，到了另外一个更高的山峰上。但最后，它渐渐清醒了并朝着它所在的峰顶跳去。）
遗传算法：

模拟物竞天择的生物进化过程，通过维护一个潜在解的群体执行了多方向的搜索，并支持这些方向上的信息构成和交换。是以面为单位的搜索，比以点为单位的搜索，更能发现全局最优解。（在遗传算法中，有很多袋鼠，它们降落到喜玛拉雅山脉的任意地方。这些袋鼠并不知道它们的任务是寻找珠穆朗玛峰。但每过几年，就在一些海拔高度较低的地方射杀一些袋鼠，并希望存活下来的袋鼠是多产的，在它们所处的地方生儿育女。）（或者换个说法。从前，有一大群袋鼠，它们被莫名其妙的零散地遗弃于喜马拉雅山脉。于是只好在那里艰苦的生活。海拔低的地方弥漫着一种无色无味的毒气，海拔越高毒气越稀薄。可是可怜的袋鼠们对此全然不觉，还是习惯于活蹦乱跳。于是，不断有袋鼠死于海拔较低的地方，而越是在海拔高的袋鼠越是能活得更久，也越有机会生儿育女。就这样经过许多年，这些袋鼠们竟然都不自觉地聚拢到了一个个的山峰上，可是在所有的袋鼠中，只有聚拢到珠穆朗玛峰的袋鼠被带回了美丽的澳洲。）

遗传算法GA

遗传算法的实现过程

遗传算法的实现过程实际上就像自然界的进化过程那样。

首先寻找一种对问题潜在解进行“数字化”编码的方案。（建立表现型和基因型的映射关系）然后用随机数初始化一个种群（那么第一批袋鼠就被随意地分散在山脉上），种群里面的个体就是这些数字化的编码。

接下来，通过适当的解码过程之后（得到袋鼠的位置坐标），用适应性函数对每一个基因个体作一次适应度评估（袋鼠爬得越高，越是受我们的喜爱，所以适应度相应越高）。
用选择函数按照某种规定择优选择（我们要每隔一段时间，在山上射杀一些所在海拔较低的袋鼠，以保证袋鼠总体数目持平。）。让个体基因变异（让袋鼠随机地跳一跳）。

然后产生子代（希望存活下来的袋鼠是多产的，并在那里生儿育女）。

遗传算法并不保证你能获得问题的最优解，但是使用遗传算法的最大优点在于你不必去了解和操心如何去“找”最优解。（你不必去指导袋鼠向那边跳，跳多远。）而只要简单的“否定”一些表现不好的个体就行了。（把那些总是爱走下坡路的袋鼠射杀，这就是遗传算法的精粹！）

所以我们总结出遗传算法的一般步骤：

   开始循环直至找到满意的解。

1.评估每条染色体所对应个体的适应度。

2.遵照适应度越高，选择概率越大的原则，从种群中选择两个个体作为父方和母方。

3.抽取父母双方的染色体，进行交叉，产生子代。

4.对子代的染色体进行变异。

5.重复2，3，4步骤，直到新种群的产生。

结束循环。

编码方式：二进制、浮点数

选择的作用：优胜劣汰，适者生存；
交叉的作用：保证种群的稳定性，朝着最优解的方向进化；
变异的作用：保证种群的多样性，避免交叉可能产生的局部收敛。

物竞――适应度函数（fitness function）

自然界生物竞争过程往往包含两个方面：生物相互间的搏斗与及生物与客观环境的搏斗过程。但在我们这个实例里面，你可以想象到，袋鼠相互之间是非常友好的，它们并不需要互相搏斗以争取生存的权利。它们的生死存亡更多是取决于你的判断。因为你要衡量哪只袋鼠该杀，哪只袋鼠不该杀，所以你必须制定一个衡量的标准。而对于这个问题，这个衡量的标准比较容易制定：袋鼠所在的海拔高度。（因为你单纯地希望袋鼠爬得越高越好。）所以我们直接用袋鼠的海拔高度作为它们的适应性评分。即适应度函数直接返回函数值就行了。
天择――选择函数（selection）

自然界中，越适应的个体就越有可能繁殖后代。但是也不能说适应度越高的就肯定后代越多，只能是从概率上来说更多。

参考链接

模拟退火

模拟退火算法从某一较高初温出发，伴随温度参数的不断下降,结合一定的概率突跳特性在解空间中随机寻找目标函数的全局最优解，即在局部最优解能概率性地跳出并最终趋于全局最优。

突跳概率

结合概率突跳特性在解空间中随机寻找目标函数的全局最优解，那么具体的更新解的机制是什么呢？如果新解比当前解更优，则接受新解，否则基于Metropolis准则判断是否接受新解。接受概率为：

如上公式，假设当前时刻搜索的解为 $x_t$ ，对应的系统能量(目标函数)为E_t，对搜索点施加随机扰动，产生新解 $x_{t+1}$ ，相应地，系统能量为E_{t+1}，那么系统对搜索点 $x_t$ 到 $x_{t+1}$ 转变的接受概率就为上公式

假设开始状态在A，随着迭代次数更新到B局部最优解，这时发现更新到B时，能量比A要低，则说明接近最优解了，因此百分百转移.
状态到达B后，发现下一步能量上升了，如果是梯度下降则是不允许继续向前的，而这里会以一定的概率跳出这个坑，这个概率和当前的状态、能量等都有关系.
如果B最终跳出来了到达C，又会继续以一定的概率跳出来，直到到达D后，就会稳定下来。

算法实质分两层循环，在任一温度水平下，随机扰动产生新解，并计算目标函数值的变化，决定是否被接受。由于算法初始温度比较高，这样，使E增大的新解在初始时也可能被接受，因而能跳出局部极小值，然后通过缓慢地降低温度，算法就最终可能收敛到全局最优解，具体流程为：

流程图：

粒子群优化算法

粒子群算法通过设计一种无质量的粒子来模拟鸟群中的鸟
- 粒子仅具有两个属性：速度和位置
- 速度代表移动的快慢，位置代表移动的方向。

鸟被抽象为没有质量和体积的微粒(点)，并延伸到N维空间，粒子i在N维空间的位置表示为矢量Xi＝(x1，x2，…，xN)，飞行速度表示为矢量Vi＝(v1，v2，…，vN)。

每个粒子都有一个由目标函数决定的适应值(fitness value)，并且知道自己到目前为止发现的最好位置(pbest)和现在的位置Xi。这个可以看作是粒子自己的飞行经验。

除此之外，每个粒子还知道到目前为止整个群体中所有粒子发现的最好位置(gbest)(gbest是pbest中的最好值)，这个可以看作是粒子同伴的经验。粒子就是通过自己的经验和同伴中最好的经验来决定下一步的运动。

对于公式(1)：

公式(1)的第①部分称为【记忆项】，表示上次速度大小和方向的影响；
公式(1)的第②部分称为【自身认知项】，是从当前点指向粒子自身最好点的一个矢量，表示粒子的动作来源于自己经验的部分；
公式(1)的第③部分称为【群体认知项】，是一个从当前点指向种群最好点的矢量，反映了粒子间的协同合作和知识共享。粒子就是通过自己的经验和同伴中最好的经验来决定下一步的运动。

标准PSO算法的流程

1）初始化一群微粒(群体规模为N)，包括随机位置和速度；

2）评价每个微粒的适应度；

3）对每个微粒，将其适应值与其经过的最好位置pbest作比较，如果较好，则将其作为当前的最好位置pbest；

4）对每个微粒，将其适应值与其经过的最好位置gbest作比较，如果较好，则将其作为当前的最好位置gbest；

5）根据公式(2)、(3)调整微粒速度和位置；

6）未达到结束条件则转第2）步。

迭代终止条件根据具体问题一般选为最大迭代次数Gk或(和)微粒群迄今为止搜索到的最优位置满足预定最小适应阈值。

参考链接

蚁群算法

算法基本思想：

根据具体问题设置多只蚂蚁，分头并行搜索。
每只蚂蚁完成一次周游后，在行进的路上释放信息素，信息素量与解的质量成正比。
蚂蚁路径的选择根据信息素强度大小（初始信息素量设为相等），同时考虑两点之间的距离，采用随机的局部搜索策略。这使得距离较短的边，其上的信息素量较大，后来的蚂蚁选择该边的概率也较大。
每只蚂蚁只能走合法路线（经过每个城市1次且仅1次），为此设置禁忌表来控制。
所有蚂蚁都搜索完一次就是迭代一次，每迭代一次就对所有的边做一次信息素更新，原来的蚂蚁死掉，新的蚂蚁进行新一轮搜索。
更新信息素包括原有信息素的蒸发和经过的路径上信息素的增加。
达到预定的迭代步数，或出现停滞现象（所有蚂蚁都选择同样的路径，解不再变化），则算法结束，以当前最优解作为问题的最优解。

计算公式


参考链接

流行度：物品的流行度指对物品产生过行为的用户的总数
- 用户越活跃，越倾向于浏览冷门的商品
召回率
- 对该用户推荐多少个物品用户真喜欢与用户喜欢的物品之比
- 推荐的客观效果
精度
- 对该用户推荐多少个物品用户真喜欢与推荐的物品之比
- 推荐的准不准，主观效果
覆盖率：推荐商品的数量占总商品数的比例

协同过滤

协同：就是利用群体的行为来做决策(推荐)，生物上有协同进化的说法，通过协同的作用，让群体逐步进化到更佳的状态。

通过用户的持续协同作用，最终给用户的推荐会越来越准

过滤：就是从可行的决策(推荐)方案(标的物)中将用户喜欢的方案(标的物)找(过滤)出来。

协同过滤分为基于用户的协同过滤和基于标的物(物品)的协同过滤两类算法。

先说缺点：

随着网站的用户数目越来越大，计算用户的兴趣相似度矩阵将越来越困难，复杂度与用户数呈平方关系
基于用户的推荐很难解释

ItemCF

物以类聚，就是计算出每个标的物最相似的标的物列表，我们就可以为用户推荐用户喜欢的标的物相似的标的物，这就是基于物品(标的物)的协同过滤
ItemCF并不是利用物品的内容属性计算物品之间的相似度，它主要通过分析用户的行为记录计算物品之间的相似度

计算步骤

计算物品之间的相似度

$w_{ij} = \frac{|N(i)\cap N(j)|}{|N(i)|}$

分子：同时喜欢物品i和j的用户数
公式理解：
- 喜欢物品i的用户中是有多少喜欢物品j
- 物品的相似度来源于用户，用户的历史兴趣列表给物品贡献相似度
问题：
- 物品j太过于热门，所有的用户都喜欢，相似度为1，那么j与热门的物品都有很大的相似度
缓解：加阻尼函数,惩罚权重
$w_{ij} = \frac{|N(i)\cap N(j)|}{\sqrt{|N(i)|*|N(j)|}}$

建立用户-物品倒排表：

每个用户建立一个包含他喜欢的物品的列表
过程：由用户的历史物品列表，遍历生成物品相似度矩阵

def ItemSimilarity(train):
	#通过用户计算物品的相似度
	C = dict{}
	N = dict{}	# 记录用户/物品遍历次数,用于归一化
	for users,items in train.items():
		for i in items:
			N[i] += 1
			for j in items:
				if i==j : # 矩阵对角线排除
					continue 
				C[i][j] += 1
	# 计算最后的相似度系数矩阵
	W = dict{}
	for i,related_items in C.items():
		for j , cij in related_items():
			W[u][v] = cij / math.sqrt(N[i]*N[j]) # cij本身就是两物品出现次数的加和，这里就行归一化
	return W

生成推荐列表

得到物品的相似度矩阵后，计算用户u对一个物品的兴趣：
$p_{uj}= \sum_{i\in N(u) \cap S(j,K)}w_{ji} * r_{ui}$

N(u) : 用户喜欢的物品的集合
S(j,K)：和物品j最相似的K个物品的集合
wji : 物品j和i的相似度
rui：用户u对i的兴趣（兴趣得定义，例如：用户对该物品有过行为）

"""
生成推荐排名 rank  , K 是个比较关键的超参数
"""
def recommondation(train, user_id ,W ,K):
	rank = dict{}
	ru = train[user_id] #(物品，兴趣) ：用户喜欢某个物品，和对该物品的兴趣
	for i,pi in ru.items(): # 遍历用户的喜欢物品的集合和兴趣
		# 遍历和物品i最相似的top K 个物品，用相似度矩阵该物品行的相似度就行排序
		for j,wj in sorted(W[i].items(),\
						key=itemgetter(1),reverse=True)[0:K]:
			if j in ru: # 去除掉用户已经喜欢的，即已经在用户喜欢列表内的
				continue
			# 剩下的就隐含的、可能喜欢的,同时进行解释哪些物品参与了贡献
			rank[j].weight += pi * wj
			rank[j].reason[i] = pi * wj
	return rank

K 是个比较关键的超参数，可提升精度和召回，但是K增加覆盖率必然降低

考虑用户活跃度

100万个商品，有一个用户买了80%的商品，那他的相似度矩阵相当的大，80w * 80w，但他是商户，买东西不是自己的兴趣，那么他的贡献度应该很小才对
提出了IUF，用户活跃度对数的倒数的参数：活跃的用户对物品的贡献度应该低于不活跃的用户
$w_{ij}=\sum_{u \in N(i)\cap N(j)}\frac{log(1+|N(u)|)}{\sqrt{|N(i)||N(j)|}}$

说白了就是惩罚活跃的用户
IUF 提高了覆盖率，降低了流行度

归一化

ItemCF的相似度矩阵按最大值归一化，可以提高推荐的准确率。
$w_{ij} = \frac{w_{ij}}{\max w_{ij}}$

为什么这样做呢？

一般情况下，ItemCF类内的相似度要大于类间的相似度，这样的话推荐的都是一类的。这样归一化后，类间和类内的推荐几率和数目应该一样

基于用户

人以群分，就是我们可以将与该用户相似的用户喜欢过的标的物的标的物推荐给该用户(而该用户未曾操作过)，这就是基于用户的协同过滤。

步骤

找到相似的用户集合

计算两个用户的相似度
- 通过用户的物品列表的长度计算
- $w_{AB}=\frac{|N(u)\cap N(v)|}{\sqrt{|N(i)|*|N(j)|}}$
- 这里的绝对值是长度

def UserSimilarity(train):
	W = dict{} # 通过物品集建立用户相似度矩阵
	for u in train.keys():
		for v in train.keys():
			if u==v:
				continue
			W[u][v] = len(train[u] & train[v])
			W[u][v] /= math.sqrt(train[u])*len(train[v])
	return W

两两用户之间计算相似度开销太大，且矩阵稀疏，很多用户没有对相同商品产生行为
- 错误想法：详细来说就是，用户的物品列表长度不一，直接存的话方阵大部分是空的，给0的话开销也很大,用物品的倒排表的意义就是，减少物品列表很长的用户和物品列表很短的
- 正解：开销大不是矩阵的存储开销大，而是计算用户和用户的相似度的开销大，为什么大呢？用户和用户之间的商品列表差别太大了，交集很大几率为0，那矩阵里面很大一部分为0
- （存储开销无法避免，计算开销可以） 不要计算为0的相似度，倒过来去计算不为0的，只要分子不为0，相似度必不为0
- 所以用物品倒排表，两用户出现在一个物品列表中就加1，这样来计算相似度

def UserSimilarity(train):
	# 建立倒排表
	item_users = dict{}
	for u,items in train.items():
		for i in item.keys(): # 遍历物品列表
			if i not in item_users:
				item_users[i] = set()
			item_users.add(u)
	# 计算频率
	C = dict{}
	N = dict{}
	for i,users in item_users.items():
		for u in users:
			N[u] += 1
			for v in users:
				if u==v:
					continue
				C[u][v]+=1
	# 计算相似度
	W = dict{}
	for u, related_users in C.items():
		for v, cuv in related_users.item():
			W[u][v]= cuv / math.sqrt(N[u]*N[v])
	
	return W

考试题

数据挖掘导论课后习题：
专栏
第二章
第三章
第四章

第一章绪论
一.判断题（共10题,83.0分）
下面各项是否是数据挖掘任务？
1根据性别划分公司的顾客
我的答案：× 得分： 8.3分正确答案：× 答案解析：这属于简单的数据库查询
2根据可盈利性划分公司的顾客
我的答案：× 得分： 8.3分正确答案：× 答案解析：这是简单的会计计算
3计算公司的总销售额
我的答案：× 得分： 8.3分正确答案：× 答案解析：这是简单的会计计算
4按学生的标识号对学生数据库进行排序
我的答案：× 得分： 8.3分正确答案：× 答案解析：这是简单的数据库查询
5 预测掷骰子的结果
我的答案：× 得分： 8.3分正确答案：× 答案解析：由于每一面都是同等概率，属于概率计算；如果概率是不同等，根据历史数据预测结果则更类似于数据挖掘任务
6 使用历史记录预测某公司未来的股价价格
我的答案：√ 得分： 8.3分正确答案：√ 答案解析：需要建立模型来预测股票价格，属于数据挖掘领域中的预测模型，可以使用回归来建模，或使用时间序列分析
7 监测病人心率的异常变化
我的答案：√ 得分： 8.3分正确答案：√ 答案解析：需要建立正常心率行为模型，并预警非正常心率行为。这属于数据挖掘领域的异常检测。若有正常和非正常心率行为样本，则可看作一个分类问题
8 监视地震活动的地震波
我的答案：√ 得分： 8.3分正确答案：√ 答案解析：需要建立与地震活动相关的不同波形的模型，并预警波形活动。这属于数据挖掘领域的分类问题
9 提取声波的频率
我的答案：× 得分： 8.3分正确答案：× 答案解析：属于信号处理问题
10 为用户提供电影推荐
我的答案：√ 得分： 8.3分正确答案：√ 答案解析：典型推荐问题
二.简答题（共2题,17.0分）
1 举例说明数据挖掘、数据分析、机器学习、人工智能的概念以及区别。
正确答案：
数据挖掘是：从海量的业务数据中识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘受到很多学科领域的影响，其中数据库、机器学习、统计学无疑影响最大。简言之，对数据挖掘而言，数据库提供数据管理技术，机器学习和统计学提供数据分析技术。
数据分析，是指使用适当的统计分析方法(如聚类分析、相关性分析等)对收集来的大量数据进行分析，从中提取有用信息和形成结论，并加以详细研究和概括总结的过程。
机器学习：利用经验（以数据的形式存在）来改善计算机系统自身的性能，是人工智能的核心研究领域之一，也是计算机科学的子领域，同时也是人工智能的一个分支和实现方式。同时给出了形式化的描述：对于某类任务T和性能度量P，如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善，那么就称这个计算机程序在从经验E学习。
人工智能：是使计算机模拟或实现人类的学习行为，以获取新的知识和技能，使之不断改善自身的性能。
区别：我们可以把数据挖掘理解为一种类型的工作，或工作中的某种成分，机器学习是帮助完成这个工作的方法，所以说机器学习和数据库是数据挖掘的两大支撑技术。统计学、数据库和人工智能共同构造了数据挖掘技术的三大支柱，许多成熟的统计方法构成了数据挖掘的核心内容。数据分析是把数据变成信息的工具，数据挖掘是把信息变成认知的工具，如果我们想要从数据中提取一定的规律（即认知）往往需要数据分析和数据挖掘结合使用。从数据分析的角度来看，绝大多数数据挖掘技术都来自机器学习领域，但机器学习研究往往并不把海量数据作为处理对象，因此，数据挖掘要对算法进行改造，使得算法性能和空间占用达到实用的地步。同时，数据挖掘还有自身独特的内容，即关联分析。
我的答案：
一、概念
数据挖掘：一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
数据分析：是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程；
机器学习：通过计算机实现并采用特定算法学习和识别被测对象的隐含规律和联系，并做出智能决策；
人工智能：是使计算机模拟或实现人类的学习行为，以获取新的知识或技能，使之不断改善自身的性能；
二、区别
1、数据挖掘通常与计算机科学有关，更多针对内部企业行业小众化的数据挖掘，数据挖掘主要发现的是问题和诊断；
2、数据分析就是进行做出针对性的分析和诊断；
3、机器学习强调学习（任务➡训练过程➡模型表现P），而不是计算机程序；
4、人工智能包括了数据挖掘和机器学习，人工智能是目的、结果。机器学习是方法、工具；批语回答正确
2 当前主流的数据挖掘工具有哪些？下载其中一个工具，尝试简单操作。
正确答案： 1、 Weka WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。 2、 Rapid Miner RapidMiner是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。 3、 Orange Orange是一个基于组件的数据挖掘和机器学习软件套装，它的功能即友好，又很强大，快速而又多功能的可视化编程前端，以便浏览数据分析和可视化，基绑定了 Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理，并提供了数据帐目，过渡，建模，模式评估和勘探的功能。其由C++ 和 Python开发，它的图形库是由跨平台的Qt框架开发。 4、 Knime KNIME (Konstanz Information Miner) 是一个用户友好，智能的，并有丰演的开源的数据集成，数据处理，数据分析和数据勘探平台。 5、 jHepWork jHepWork是一套功能完整的面向对象科学数据分析框架。 Jython宏是用来展示一维和二维直方图的数据。该程序包括许多工具，可以用来和二维三维的科学图形进行互动。 6、 Apache Mahout Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目，其主要目标是创建一些可伸缩的机器学习算法，供开发人员在 Apache 在许可下免费使用。该项目已经发展到了它的最二个年头，目前只有一个公共发行版。Mahout 包含许多实现，包括集群、分类、CP 和进化程序。此外，通过使用 Apachehadoop库，Mahout 可以有效地扩展到云中。 7、 ELKI ELKI(Environment for Developing KDD-Applications Supported by Index-Structures)主要用来聚类和找离群点。ELKI是类似于weka的数据挖掘平台，用java编写，有GUI图形界面。可以用来寻找离群点。 8、 Rattle Rattle(易于学习的 R 分析工具)提供数据的统计和可视化摘要，将数据转换成容易建模的形式，从数据中构建无监督和监督模型，以图形方式呈现模型的性能，并得出新的数据集。
第二章数据仓库
一.简答题（共5题,100.0分）
1 数据仓库与数据库的本质区别是什么？
我的答案： 1、数据库用于事务处理，数据仓库用于决策分析； 2、数据库保持事务处理的当前状态，数据仓库既保存过去的数据又保存当前的数据； 3、数据仓库的数据是大量数据库的集成； 4、对数据库的操作比较明确，操作数据量少，对数据仓库操作不明确，操作数据量大。5、数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理； 6、数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向分析且支持决策。数据库：是一种逻辑概念，用来存放数据的仓库。通过数据库软件来实现。数据库由很多表组成，表是二维的，一张表里可以有很多字段。字段一字排开，对应的数据就一行一行写入表中。数据库的表，在于能够用二维表现多维关系。目前市面上流行的数据库都是二维数据库。如：Oracle、DB2、MySQL、Sybase、MS SQL Server等。数据仓库：是数据库概念的升级。从逻辑上理解，数据库和数据仓库没有区别，都是通过数据库软件实现的存放数据的地方，只不过从数据量来说，数据仓库要比数据库更庞大得多。数据仓库主要用于数据挖掘和数据分析，辅助领导做决策。
2 OLAP、OLTP全称是什么？两者有何区别？
我的答案：操作型处理：叫联机事务处理OLTP（On-Line Transaction Processing，），也可以称面向交易的处理系统， 1、它是针对具体业务在数据库联机的日常操作，通常对少数记录进行查询、修改。用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等问题。传统的数据库系统作为数据管理的主要手段，主要用于操作型处理。2、OLTP是传统关系数据库的主要应用，主要是基本的、日常的事务处理，如银行交易。分析型处理：叫联机分析处理OLAP（On-Line Analytical Processing）， 1、是数据仓库的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。2、OLAP具有汇总、合并和聚集功能，以及从不同角度观察信息的能力，支持多维分析和决策。
3 说明数据仓库与数据挖掘的关系
我的答案： 1一般情况下，进行数据挖掘之前，都会先用各个数据库中的数据构建数据仓库，再在数据仓库的基础之上进行挖掘。2数据挖掘是在数据仓库中进行数据深层分析的一种必不可少的手段。3数据仓库并不是进行数据挖掘必需的条件，数据挖掘可以不在建立数据仓库的基础上进行。
4 什么是元数据？元数据在数据仓库中有什么作用？
我的答案：元数据：是对数据描述的基础，是数据的数据。
元数据的作用：
1用来对数据仓库中的各种数据进行描述。
2用来组织和管理并挖掘信息资源。
3描述系统的具体功能要求、执行程序和系统的整体过程。
4为数据模型提供存储说明和存储格式，便于扩展。
5 说明数据仓库的4个特点
我的答案： 1、数据仓库的数据是面向主题的
2、数据仓库的数据是集成的
3、数据仓库的数据是不可更新的
4、数据仓库的数据是随时间不断变化的
第三章分类
一.单选题（共10题,50.0分）
1 决策树中不包含一下哪种结点
A、根结点 B、内部结点 C、外部结点 D、叶结点
正确答案： C 我的答案：C得分： 5.0分
2 以下哪项关于决策树的说法是错误的
A、冗余属性不会对决策树的准确率造成不利的影响
B、子树可能在决策树中重复多次
C、决策树算法对于噪声的干扰非常敏感
D、寻找最佳决策树是NP完全问题
正确答案： C 我的答案：C得分： 5.0分
3 以下关于人工神经网络（ANN）的描述错误的有
A、神经网络对训练数据中的噪声非常鲁棒
B、可以处理冗余特征
C、训练ANN是一个很耗时的过程
D、至少含有一个隐藏层的多层神经网络
正确答案： A 我的答案：A得分： 5.0分
4 在ID3算法中信息增益是指
A、信息的溢出程度 B、信息的增加效益 C、熵增加的程度最大 D、熵减少的程度最大
正确答案： D 我的答案：D得分： 5.0分
5 分类是一种（）学习
A、无监督 B、半监督 C、监督 D、以上都错
正确答案： C 我的答案：C得分： 5.0分
6 朴素贝叶斯分类算法是基于（）的朴素假定
A、类条件相关 B、类条件独立 C、类条件正相关 D、类条件负相关
正确答案： B 我的答案：B得分： 5.0分
7 下列哪项说法不正确
A、人工智能是对人类智能的模拟
B、人工神经元是对生物神经元的模拟
C、生物神经信号由树突传递给轴突
D、人工神经元的激活函数可以有多种设计
正确答案： C 我的答案：C得分： 5.0分
8 贝叶斯网络起源于贝叶斯统计学，是以（）为基础的有向图模型，它为处理不确定知识提供了有效方法。
A、线性代数 B、逻辑学 C、概率论 D、信息论
正确答案： C 我的答案：C得分： 5.0分
9 SVM算法的性能取决于（）
A、核函数的选择 B、软间隔参数 C、核函数的参数 D、以上所有
正确答案： D 我的答案：D得分： 5.0分
10 以下有关支持向量机说法不正确的是（）
A、具有很好的推广能力 B、采用结构化风险最小化原理
C、是凸二次优化问题 D、得到的是局部最优解
正确答案： D 我的答案：D得分： 5.0分

二.判断题（共10题,50.0分）
1 神经网络对噪音数据具有高承受能力，并能对未经过训练的数据具有分类能力，但其需要很长的训练时间，因而对于有足够长训练时间的应用更合适。
我的答案：√ 得分： 5.0分正确答案：√
2 数据分类由两步过程组成：第一步，建立一个聚类模型，描述指定的数据类集或概念集；第二步，使用模型进行分类。
我的答案：× 得分： 5.0分正确答案：×
3 分类规则的挖掘方法通常有：决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。
我的答案：√ 得分： 5.0分正确答案：√
4 对于SVM分类算法，待分样本集中的大部分样本不是支持向量，移去或者减少这些样本对分类结果没有影响。
我的答案：√ 得分： 5.0分正确答案：√
5 Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。
我的答案：× 得分： 5.0分正确答案：×
6 分类是预测数据对象的离散类别，预测是用于数据对象的连续取值。
我的答案：√ 得分： 5.0分正确答案：√
7 反向传播算法中要先计算靠近输入层参数的梯度，再计算靠近输出层参数的梯度
我的答案：× 得分： 5.0分正确答案：×
8 贝叶斯网络具有的条件独立性是结点与其后代结点条件独立
我的答案：× 得分： 5.0分正确答案：×
9 支持向量是最靠近决策表面的数据点
我的答案：√ 得分： 5.0分正确答案：√
10 数据有噪声，有重复值，不会导致SVM算法性能下降
我的答案：× 得分： 5.0分正确答案：×

第四章数据预处理
一.单选题（共10题,100.0分）
1 假设１６个销售价格记录组已经排序如下：２１, ６８,１５ , ５７ , ９５ ,３０, １２６ , ８９ , ５０, ５, ３４, ７０, ４６, ２,１０８, １０。将它们划分成四个箱。等频划分时，５０在第几个箱子内？（）
A、第一个 B、第二个 C、第三个 D、第四个
正确答案： C 我的答案：C得分： 10.0分
2 下面哪个不属于数据的属性类型：( )
A、标称 B、相异 C、区间 D、序数
正确答案： B 我的答案：B得分： 10.0分
3 下列关于等距离分箱的说法中错误的是（）
A、等距离分箱能使每个区间内包含的取值个数大致相同
B、等距离分箱可能导致属于某些的取值非常多，而某些由非常少
C、若区间个数为k，每个区间的间距为L=（max-min）/k
D、又称为等宽度分箱
正确答案： A
4 下列关于数据规范化说法错误的是（）
A、数据规范化是为了避免不同属性的不平等地位
B、数据规范化又称数据标准化
C、数据规范化是将属性的取值范围统一
D、数据规范化是为了给重要的属性赋予更大的权重
正确答案： D 我的答案：D得分： 10.0分
5 数据预处理的任务不包括（）
A、数据规范化和离散化 B、特征提取和特征选择 C、数据分类 D、数据清洗
正确答案： C 我的答案：C得分： 10.0分
6 缺失值处理方法中错误的是（）
A、对于所有属性都可以使用均值 B、对于离散属性或定性属性使用众数
C、转换为分类问题或数值预测问题 D、对于分类属性，使用同类对象属性值的均值
正确答案： A 我的答案：A得分： 10.0分
7 使用零均值规范化方法，年收入属性的均值为65，标准差为12，则年收入59万元规范化后为（）
A、 -0.2 B、 0.2 C、 0.5 D、 -0.5
正确答案： D 我的答案：D得8 使用最小-最大法进行数据规范化，需要映射的目标区间为【0，100】，原来的取值范围是【-10,10】。根据等比映射的原理，一个值8映射到新区间后的值是（）
A、 80 B、 85 C、 90 D、 95
正确答案： C 我的答案：C得分： 10.0分
9 列哪些选项能表示序数属性的数据集中趋势度量（）
A、标准差 B、四分位数 C、极差 D、众数
正确答案： D 我的答案：D得分： 10.0分
10 下列对客户相关属性描述中，不是标称属性的是（）
A、身份证号 B、性别 C、年龄 D、婚姻状况
正确答案： C 我的答案：C得分： 10.0分
第五章聚类
一.单选题（共10题,100.0分）
1 下列描述正确的是（）
A、分类和聚类都是有指导的学习
B、分类和聚类都是无指导的学习
C、分类是有指导的学习，聚类是无指导的学习
D、分类是无指导的学习，聚类是有指导的学习
正确答案： C
2 简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集中，这种聚类类型称作（）
A、层次聚类 B、划分聚类 C、非互斥聚类 D、模糊聚类
正确答案： B 我的答案：B得分： 10.0分
3 关于K均值聚类说法不正确的是（）
A、算法可能终止于局部最优解 B、簇的数目k必须事先给定
C、对噪声和离群点数据敏感 D、适合发现非凸形状的簇
正确答案： D 我的答案：D得分： 10.0分
4 闵可夫斯基距离表示为曼哈顿距离时p为（）
A、1 B、2 C、3 D、4
正确答案： A 我的答案：A得分： 10.0分
5 有关聚类的说法中错误的是（）
A、无须有标记的样本
B、可以用于提取一些基本特征
C、可以解释观察数据的一些内部结构和规律
D、聚类分析一个簇中的数据之间具有高差异性
正确答案： D 我的答案：D得分： 10.0分
6 K中心点算法每次迭代的计算复杂度是（）
A、 O(1) B、 O(k) C、 O(nk） D、 O(k（n-k）2）
正确答案： D 我的答案：D得分： 10.0分

7 如果有m个点，DBSCAN算法在最坏的情况下的时间复杂度为（）
A、 O(m) B、 O(mlogm) C、 O(m2) D、 O(logm)
正确答案： C 我的答案：C得分： 10.0
8 DBSCAN能够聚类以下哪种形状的数据（）
A、球形 B、环状 C、方型 D、以上都可以
正确答案： D 我的答案：D得分： 10.0分
9 DBSCAN之所以难以有效处理高维数据，其主要原因是（）
A、数据的形状太复杂 B、簇的大小未知 C、噪声点过多 D、开销过大
正确答案： D 我的答案：
10 K均值算法中，当相似度函数采用（）时，合适的质心是簇中各点的中位数。 A、曼哈顿距离 B、欧几里得距离 C、余弦距离 D、马氏距离
正确答案： A 我的答案：A得分： 10.0分

你可能感兴趣的:(机器学习,数据挖掘,学习,数据仓库)

学习以任务为中心的潜动作，随地采取行动三谷秋水计算机视觉智能体大模型计算机视觉语言模型机器人人工智能深度学习
25年5月来自香港大学、OpenDriveLab和智元机器人的论文“LearningtoActAnywherewithTask-centricLatentActions”。通用机器人应该在各种环境中高效运行。然而，大多数现有方法严重依赖于扩展动作标注数据来增强其能力。因此，它们通常局限于单一的物理规范，难以学习跨不同具身和环境的可迁移知识。为了突破这些限制，UniVLA，是一个用于学习跨具身视觉-
剑指offer第二版学习笔记（一）前言虚空来袭剑指offer第二版剑指Offer 第2版
久闻剑指offer大名，如今我也到了要找工作的时候了，趁现在还有时间，多学一点是一点，在此开一个分集记录一下在学习剑指offer过程中的一些经验和想法。注：使用的书籍是剑指offer第二版。本期内容书籍内容书籍内容简介结语本期仅写了书籍内容介绍，作者还总结了书籍特色、对创作过程中家人、朋友等进行了感谢，我略去了这些部分。下期应该是接着看第一部分。
【Transformer论文】通过蒙面多模态聚类预测学习视听语音表示 Wwwilling 推荐系统论文阅读 Transformer系列论文 transformer 聚类多模态
文献题目：LEARNINGAUDIO-VISUALSPEECHREPRESENTATIONBYMASKEDMULTIMODALCLUSTERPREDICTION发表时间：2022发表期刊：ICLR摘要语音的视频记录包含相关的音频和视觉信息，为从说话者的嘴唇运动和产生的声音中学习语音表示提供了强大的信号。我们介绍了视听隐藏单元BERT(AV-HuBERT)，这是一种用于视听语音的自我监督表示学习框架
对比2个数据库：google Cloud Firestore 和 supabase waterHBO 数据库云端数据库
帮我对比一下：CloudFirestore和supabase尤其是，是否免费，注册难度，是否需要银行卡注册，我没有国外的银行卡（我在中国大陆）。以及免费额度是多少，上手难度，即，学习曲线因为我平时一般是写小项目，我的数据库一般使用json或是sqlite3第1个回答好问题！下面是CloudFirestore（Firebase）和Supabase的全面对比，特别关注了中国大陆用户关心的注册、费用、学
【Spring AI】 1接入 Ollama实践占星安啦 springai java springai ollama
SpringAI接入Ollama实践学习笔记Ollama官方文档SpringAI快速开始SpringAIOllama集成文档1.pom.xml依赖配置前置条件：请确保你已安装好Java17+、Maven、Ollama，并已下载好所需大模型。在pom.xml中添加SpringAI及Ollama相关依赖：org.springframework.bootspring-boot-starter-webor
AWS Cognito项目实战指南：集成用户管理与自定义电子邮件功能一一MIO一一
本文还有配套的精品资源，点击获取简介：本项目涉及利用AWSCognito服务，创建一个基于云端的用户身份验证和管理应用。通过集成Cognito用户池，项目支持社交登录和自定义用户身份保护，同时涉及通过AWSLambda发送自定义电子邮件通知，增强用户体验。项目采用TypeScript编程语言，提升代码的可维护性和可读性，为开发者提供一个学习AWS无服务器认证解决方案的实践案例。1.AWSCogni
机器学习在智能仓储中的应用：库存管理与物流优化 Blossom.118 机器学习与人工智能机器学习人工智能深度学习机器人 sklearn tensorflow cnn
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。随着电子商务的蓬勃发展，仓储和物流行业面临着前所未有的挑战和机遇。智能仓储通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从货物入库到出库的全流程
使用matplotlib绘制散点图、柱状图和饼状图-学习篇 Zorione Python matplotlib 学习 python
一、散点图Python代码如下：num_points=100x=np.random.rand(num_points)#x点位随机y=np.random.rand(num_points)#y点位随机colors=np.random.rand(num_points)#颜色随机sizes=1000*np.random.rand(num_points)#大小随机alphas=np.random.rand(
【自然语言处理-NLP】文本预处理技术云博士的AI课堂哈佛博后带你玩转机器学习深度学习自然语言处理人工智能 NLP 深度学习数据预处理 NLP数据预处理机器学习
以下内容将从基本概念到实用代码分步骤、分场景地详细介绍NLP常见文本预处理方法及其背后的思想。如果无法从外部导入数据，我们会模拟一份简易文本数据（如字符串列表），并在此基础上演示预处理代码及详细解释，确保在常规Python环境下可以运行。一、文本预处理的常见需求和作用在自然语言处理（NLP）任务（如机器学习、深度学习、大模型开发）中，原始文本数据通常会包含各种噪声，例如：多余的空格、换行符、特殊符
java数组解析_实例讲解Java数组解构关然 java数组解析
数组是在程序设计中，为了处理方便，把具有相同类型的若干元素按有序的形式组织起来的一种形式。我们可以把数组看成是用于储存多个相同类型数据的集合，我们在需要用到数组中的一部分数据时，就需要用到数组解构，获得相应的数据。本文我们就一起来学习Java数组解构的相关知识。1.简单解构constnumbers=['a','b','c'];//获取前两项const[n1,n2]=numbers;console.
深度学习之基于Pytorch卷积神经网络人民币面值识别 Q1744828575 python pytorch plotly
欢迎大家点赞、收藏、关注、评论啦，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景在日常生活和商业活动中，人民币面值识别技术具有重要的应用价值。传统的面值识别方法，如基于模板匹配或特征工程的方法，在面对复杂多变的图像环境时，往往难以达到理想的识别效果。随着深度学习技术的兴起，特别是卷积神经网络（ConvolutionalNeuralNetwo
行为正则化与顺序策略优化结合的离线多智能体学习算法
离线多智能体强化学习（MARL）是一个新兴领域，目标是在从预先收集的数据集中学习最佳的多智能体策略。随着人工智能技术的发展，多智能体系统在诸如自动驾驶、智能家居、机器人协作以及智能调度决策等方面展现了巨大的应用潜力。但现有的离线MARL方法也面临很多挑战，仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战，中山大学计算机学院、美团履约平台技术部开展了学术合作项目，并取得了一些的成果，希望分享
《三生原理》如何改进阴阳参数冷启动？葫三生三生学派人工智能平面线性代数概率论算法
AI辅助创作：《三生原理》通过‌动态参数耦合‌与‌跨域迁移学习‌优化阴阳参数冷启动问题，显著降低15%的初始化成本并提升收敛效率，具体技术路径如下：一、动态参数化生成引擎‌‌阴阳本体的递归约束‌基于素数基底（阴元=2，阳元=3）构建参数化公式：p=3(2n+1)+2(2n+m+1)(m∈{0,1,2,3,4})通过约束参数mm的取值空间（对应五行属性），压缩冷启动搜索范围在华为高斯实验室的量子加密
利用视觉-语言模型搭建机器人灵巧操作的支架三谷秋水智能体大模型计算机视觉语言模型机器人人工智能计算机视觉机器学习
25年6月来自斯坦福和德国卡尔斯鲁厄理工的论文“ScaffoldingDexterousManipulationwithVision-LanguageModels”。灵巧机械手对于执行复杂的操作任务至关重要，但由于演示收集和高维控制的挑战，其训练仍然困难重重。虽然强化学习(RL)可以通过在模拟中积累经验来缓解数据瓶颈，但它通常依赖于精心设计的、针对特定任务的奖励函数，这阻碍了其可扩展性和泛化能力。
手机射频功放测试学习（二）——手机线性功放的静态电流和小信号(S-Parameter)测试零壹电子手机射频功放测试合集学习 S参数读取
目录一、概要二、LPA的电流测试1、LPA的泄漏电流测试手动测试步骤如下：自动化测试：2、LPA的静态电流测试手动测试步骤如下：自动化测试：三、LPA的S-Parameter测试1、矢量网络分析仪校准2、LPA的S参数手动测试步骤：3、LPA的S参数自动测试步骤：四、结语一、概要诚如上文介绍，实验室中进行手机线性功放测试，第一步是看静态电流，第二步再测试小信号(S-Parameter)特性；步骤是
Linux——搭建嵌入式Linux开发环境步骤总结（虚拟机、Ubuntu、JDK、库文件、GCC） Winter_world 搭建嵌入式Linux开发环境虚拟机Ubuntu 安装JDK 安装库文件 GCC版本更新
目录0前言1主机软件环境2Linux系统下安装编译组件3Linux系统下安装库文件和JDK0前言回顾一直以来做的嵌入式项目方向，从如ST的单片机裸机开发，SOC开发，到STM32裸机开发，基于uCOSII的开发，基于freeRTOS的开发等，在实时操作系统层面的应用开发停留了一段时间了，一直想再突破下自我，去年做了一个基于工控机方案的Linux系统应用开发项目，对于Linux一直没有系统性的学习整
【机器学习第四期（Python）】LightGBM 方法原理详解 WW、forever 机器学习原理及代码实现机器学习 python 人工智能
LightGBM概述一、LightGBM简介二、LightGBM原理详解⚙️核心原理LightGBM的主要特点三、LightGBM实现步骤（Python）可调参数推荐完整案例代码（回归任务+可视化）参考LightGBM是由微软开源的基于梯度提升框架（GBDT）的机器学习算法，专为高性能、高效率设计，适用于大规模数据处理任务。它在准确率、训练速度和资源使用上都优于传统GBDT实现（如XGBoost）
华为HDC 2025：一场开发者的技术盛宴与灵感之旅
前言作为一名开发者，参加华为HDC大会就像是一场朝圣之旅。每年这个时候，全球的开发者们都会汇聚一堂，分享最新的技术成果，探讨未来的趋势，而今年的HDC2025更是让我期待已久。这次大会不仅有华为最新技术的展示，还有各种实战案例和深度分享，对我来说，这是一次难得的学习和交流机会，更是面基各位好友的最佳机会。那么接下来就来分享一下三掌柜参加2025华为HDC大会的所见所感吧。初到会场：满满的科技感当我
【机器学习】机器学习的基本分类-监督学习-线性回归（Linear Regression） IT古董人工智能机器学习机器学习分类学习人工智能线性回归
线性回归是监督学习中的一种基础算法，用于解决回归问题。它通过拟合一条直线（或平面、高维超平面），来预测输出与输入变量之间的关系。1.线性回归的基本概念目标给定输入和对应的输出y，找到一个线性函数：其中：是权重（回归系数）。b是偏置（截距）。y是预测值。损失函数为了找到最佳的w和b，需要最小化预测值和真实值
pytest学习和使用-pytest如何进行分布式测试？（pytest-xdist）测试界晓晓软件测试 pytest 学习分布式软件测试功能测试自动化测试程序人生
1什么是分布式测试？在进行本文之前，先了解些基础知识，什么是分布式测试？分布式测试：是指通过局域网和Internet，把分布于不同地点、独立完成特定功能的测试计算机连接起来，以达到测试资源共享、分散操作、集中管理、协同工作、负载均衡、测试过程监控等目的的计算机网络测试。通俗的讲：分布式测试就是活太多，一个人干费时间，那就让多个人一起干，节省了资源和时间。2为什么要进行分布式测试？2.1场景1：自动
day45-Django RestFramework（drf）实战案例生而自由爱而无畏 Python django python 后端开发语言
1.6DjangoRestFramework（drf）实战案例1.需求请结合上述学习的drf知识开发简易版《抽屉新热榜》。其中包含的功能如下：注册输入：手机号、用户名、密码、确认密码。登录输入：手机号或用户名+密码注意：登录成功后给用户返回token，后续请求需要在url中携带token（有效期2周）我的话题-我的话题列表-创建话题-修改话题-删除话题（逻辑删除）我的资讯-创建资讯（5分钟创建一个
为什么要学习 next.js 框架 + Vercel 部署平台，因为我想把自己的 app 分享给别人。 waterHBO 学习 javascript 开发语言
前端开发太卷？不如给你的React换个“豪华座驾”和“F1赛道”**如果你像我一样，从create-react-app的时代一路走来，你一定经历过那种“甜蜜的烦恼”：React给了你一个超强的V8引擎，但造车剩下的所有事——从方向盘(路由)、底盘(项目结构)到导航系统(数据管理)——都得你自己撸。结果就是，每个项目开始前，你都在重复发明轮子，在Webpack的配置地狱里苦苦挣扎。好消息是，时代变了
提升AI产品竞争力：可用性评估的10个核心维度 AGI大模型与大数据研究院人工智能 ai
提升AI产品竞争力：可用性评估的10个核心维度关键词：AI产品、可用性评估、用户体验、人机交互、产品竞争力、评估维度、人工智能摘要：本文深入探讨了提升AI产品竞争力的10个核心可用性评估维度。我们将从用户角度出发，系统性地分析如何评估和优化AI产品的可用性，包括易用性、效率、可学习性、容错性等关键指标。通过详细的案例分析和实用建议，帮助产品团队打造更具竞争力的AI解决方案。背景介绍目的和范围本文旨
Python 数据分析与机器学习入门 (一)：环境搭建与核心库概览程序员阿超的博客 Python python 数据分析机器学习入门教程环境搭建 Anaconda JupyterNotebook
Python数据分析与机器学习入门(一)：环境搭建与核心库概览本文摘要本文是Python数据分析与机器学习入门系列的第一篇，专为初学者设计。文章首先阐明了Python在数据科学领域的优势，然后手把手指导读者如何使用Anaconda搭建一个无痛、专业的开发环境，并介绍了强大的交互式工具JupyterNotebook的基本操作。最后，简要概览了NumPy、Pandas、Scikit-learn等核心库
Python 数据分析与机器学习入门 (三)：Pandas 数据导入与核心操作程序员阿超的博客 Python python 数据分析机器学习 Pandas DataFrame Series 数据清洗
引言：Pandas是什么，为何如此重要？如果说NumPy是处理原始数值数组的利器，那么Pandas则是驾驭结构化数据的瑞士军刀。在真实世界的数据分析项目中，数据很少是单纯的数字矩阵。它们通常以表格形式存在，包含行和列，每列可能有不同的数据类型（如文本、数字、日期），并且带有描述性的列名和行索引。Pandas正是为高效处理这类数据而生。Pandas构建于NumPy之上，它不仅继承了NumPy的高性能
数据同步工具对比：Canal、DataX与Flink CDC 智慧源点大数据 flink 大数据
在现代数据架构中，数据同步是构建数据仓库、实现实时分析、支持业务决策的关键环节。Canal、DataX和FlinkCDC作为三种主流的数据同步工具，各自有着不同的设计理念和适用场景。本文将深入探讨这三者的技术特点、使用场景以及实践中的差异，帮助开发者根据实际需求选择合适的工具。1.工具概述1.1CanalCanal是阿里巴巴开源的一款基于MySQL数据库增量日志(binlog)解析的组件，主要用于
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
《深入浅出多模态》(四)：多模态经典模型CLIP GoAI 深入浅出多模态多模态大模型 LLM 人工智能
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
二次开发源码借贷系统uniapp/借贷认证系统/小额信贷系统/工薪贷APP/资金贷系统h5 csdndddsd uniapp借贷系统开发小额贷系统app 工薪贷系统安装搭建信用贷认证系统 h5资金贷系统安装搭建教程借贷系统安装搭建借贷系统二次开发
前端：UNIAPP后端：ThinkPHP数据库：Mysql前端使用的uniapp可以打包APPH5小程序系统提供了完善的网络借贷体系，为金融中介平台提供从获客到贷后管理全流程服务，解决了借贷手续繁琐、流程缓慢等问题此源码为运营中版本，具有极高稳定性，防注入，防攻击，修复全部已知后门漏洞仅供学习演示、二次开发专用，禁止一切违法行为的利用！可提现金额(元)￥{{qbMoney}}充值提现余额明细余额变
Java后端面试必备：高频知识点与实战解析（Git/Maven/MySQL/SpringBoot全攻略）陈遇巧学习 java maven spring spring boot
1.面试ToC面向个人，B2B2C（第1个B是指商品或服务的供应商，第2个B是指从事电子商务的企业，C是消费者。例子：腾讯课堂，第1个B是腾讯公司，第2个B是入驻授课的企业，C是用户学习课程）1.详细说说你的项目吧从以下几个方面进行项目介绍：1.项目的背景，包括：是自研还是外包，什么业务，服务的客户群是谁，谁去运营等问题。2.项目的业务流程3.项目的功能模块4.项目的技术架构5.个人工作职责6.个
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin

数据挖掘学习

文章目录

绪论

定义

挖掘过程

数据准备

数据探索EDA

数据仓库

空间数据库

时间数据库和时序数据库

流数据

异构数据和遗产数据

数据挖掘的模式

数据准备

数据组成

什么是数据对象？

什么是数据属性？

数据搜集

数据质量分析

数据类型

考点：描述统计和数据可视化

描述统计方法：

可视化

数据正确性

数据有效性

方法

考点：数据预处理

缺失数据

噪声数据

去噪方法

1. 回归法

2.分箱- 均值平滑

离群点分析

分析方法：

Box-Cox变换方法：

MAD（中值绝对偏差）：

箱线图

局部离群因子LOF

孤立森林

考点：数据集成

数据规约

策略：

考点：特征提取

考点: 数据量规约

数据变换

离散化

聚类离散化

信息熵分箱

决策树分箱

卡方分箱

聚类

考点： 数据探索性分析

描述统计与可视化

频繁模式和关联规则挖掘

Apriori算法

FP-Growth

考点：置信度评价

考点：基于规则的分类器

考点： 评价指标

考点：聚类

代表点

Kmeans：

K-medians ：

K-mediods :

概率聚类

图聚类

层次聚类

BIRCH算法

Chameleon

概率凝聚层次聚类

DBSCAN

考点：聚类评估

离群点检测

基于密度

全局：

局部：

基于聚类

基于分类

孤立森林

ARIMA

考点：数据探索性分析

考点：评价指标