_Liz

机器学习与数据挖掘

第一章引言

0. 什么是数据挖掘

数据挖掘是从大量数据中挖掘出有趣模式和知识的过程或方法，其中涉及机器学习、统计数据和数据库系统交叉处的方法。

1. 数据中的知识发现包括哪几个步骤

business understanding（业务理解）
data understanding（数据理解）
data preparation（数据准备）
modeling（建模）
evaluation（评估）
development（部署）

2. 数据挖掘的应用

商务智能、Web搜索、生物信息学、卫生保健信息学、金融、数字图书馆和数字政府等。

第二章学习的可行性

1. Hoeffding’s Inequality（霍夫汀不等式）

$\mu | > \epsilon) \leq 2 e^{-2 \epsilon^2 N}$

霍夫丁不等式说明，抽样比例 $v$ 与总体比例 $\mu$ 的差距大于某个边距值 $\epsilon$ 的概率，小于等于一个由 $\epsilon$ 和样本大小 $N$ 得到的关系式的值。

2. 用霍夫汀不等式说明学习的可行性

在统计学中我们通过霍夫丁不等式来限定抽样集与总体集中的频率与概率关系。通过将其推广到机器学习中，可以得到类似的单个hypothesis的 $E_{in}$ 与 $E_{out}$ 差距限定不等式。然而当考虑到一组hypothesis数量多的假设集时，即使对单个hypothesis遇到bad data使其 $E_{in}$ 与 $E_{out}$ 差别比较大的概率十分低，但总体而言其中有一个或几个hypothesis遇到bad data使其 $E_{in}$ 与 $E_{out}$ 差别较大。我们将假设集中假设的数量 $M$ 通过union bound引入不等式中，最终得到 $P_D(BAD D) \leq 2M e^{-2 \epsilon^2 N}$ 。在有限的假设数量时，只要样本数量 $N$ 足够，我们依然能让这组data保证取到的hypothesis的 $E_{in}$ 与 $E_{out}$ 差距不大，从而可以挑选 $E_{in}$ 最小的hypothesis，也即 $E_{out}$ 最小的hypothesis，作为结果。

第三章数据和数据预处理

1. 属性类型和可进行的操作

属性类型	描述	操作	举例
标称属性（nominal）	仅仅是不同的名字，用于区分属性（ $\neq$ ）	众数，熵，列联相关， $\chi^2$ 检验	邮政编码，员工ID，性别
序数属性（ordinal）	序数属性的值可以确定对象的序（ $<, >$ ）	中值，百分位	矿石硬度（好，较好，最好）
区间属性（interval）	值之间的差是有意义的（ $+, -$ ）	均值，标准差，皮尔逊相关	日历日期，摄氏温度
比率属性（ratio）	差和比率都有意义（ $\times, \div$ ）	几何平均，调和平均，百分比变差	质量，长度，绝对温度

标称属性和序数属性统称为分类的或定性的属性，区间属性和比率属性统称为定量的或数值属性。

2. 非对称属性

属性只有两个类别或状态，用0和1编码。如果他的两种状态具有同等的价值并且有相同的权重，则称为对称的二元属性，比如男女性别。如果其状态的结果不是同样重要的，其中更关注1编码的结果（通常是稀疏的），称其为非对称的二元属性，比如covid-19核酸检测的阴阳性结果。

3. 相似性和相异性度量

3.1 数据对象之间的相异度

欧几里得距离 $d=\sqrt {\Sigma_{k=1}^{n}(p_k-q_k)^2}$ 。
闵可夫斯基距离 $d=\lgroup \Sigma_{k=1}^{n}|(p_k-q_k)|^r\rgroup^{\frac{1}{r}}$ 是欧氏距离的推广。当 $r = 1$ 时，称为曼哈顿距离（ $L_1$ 范数）；当 $r = 2$ 时，称为欧几里得距离（ $L_2$ 范数）；当 $r=\infty$ 时，称为切比雪夫距离（上确界距离， $L_{max}$ 范数， $L_\infty$ 范数），它是对象属性间的最大距离。
马氏距离 $d_m(x) = \sqrt{(x-\mu) \Sigma^{-1} (x-\mu)^T}$ ，其中 $x$ 是一个均值为 $\mu$ 的协方差矩阵为 $\Sigma$ 的多变量矢量。对两个服从统一分布并且协方差矩阵为 $\Sigma$ 的变量（样本） $p$ 和 $q$ 来说，其差异程度可以由马氏距离表示为 $d_m(p,q)= \sqrt{(p-q) \Sigma^{-1} (p-q)^T}$ 。马氏距离排除了变量之间的相关性的干扰，且尺度无关（不受量纲影响）。

3.2 二元数据的相似性度量

简单匹配系数（SMC）： $\frac{f_{11}+f_{00}}{f_{00}+f_{10}+f_{01}+f_{11}}$
Jaccard系数： $\frac{f_{11}}{f_{10}+f_{01}+f_{11}}$
广义Jaccard系数（Tinamoto系数）： $\frac{p \cdot q}{\parallel p \parallel ^2 + \parallel q \parallel ^2 - p \cdot q}$
余弦相似度： $\frac{x \cdot y}{\parallel x \parallel \times \parallel y \parallel}$
相关系数： $Y)=\frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}[X] \operatorname{Var}[Y]}}$ 或 $Y)=\frac{\operatorname{Cov}(X, Y)}{{\sigma_X \sigma_Y}}$ 。

3.3 组合异种属性的相似度

在第 $k$ 个属性上，计算相似度 $s_k(p,q)$ ，在区间 $[0, 1]$ 中。
对于第 $k$ 个属性，定义一个指示变量 $\delta_k$ ，如果第 $k$ 个属性是非对称属性，并且两个对象在该属性的值都是0，或者如果有一个对象的第 $k$ 个属性具有缺失值，则 $\delta_k = 0$ ，否则 $\delta_k = 1$ 。
总相似度为 $\frac{\Sigma_{k=1}^{n}\delta_k s_k (p,q)}{\Sigma_{k=1}^{n}\delta_k}$ 。
当某些属性更重要时，可以使用不同权值对不同属性的相似度进行加权，则上式变为 $\frac{\Sigma_{k=1}^{n} w_k \delta_k s_k (p,q)}{\Sigma_{k=1}^{n}\delta_k}$ 。

4. 数据预处理

主要任务：数据清理（data cleaning）、数据集成（data integration）、数据规约（data reduction）、数据变换（data transformation）、数据离散化（data discretization）。

4.1 数据清理

4.1.1 填充缺失值（missing data）

忽略元组
人工填写缺失值
使用一个全局常量填充缺失值
使用属性的中心度量（如均值和中位数）填充缺失值
使用与给定元组属同一类的所有样本的属性均值或中位数填充缺失值
使用最可能的值填充缺失值

4.1.2 光滑噪声（noise）

分箱（binning）
- 等宽分箱：将变量的取值范围分为 $k$ 个等宽的区间，每个区间当作一个分箱。
- 等频（深）分箱：分为 $k$ 个区间，每个区间中的样本数大体相同。
- 分箱之后，可以使用箱均值平滑，箱中位数平滑，箱边界平滑（箱中的每一个值取离它最近的边界值，即最大值或最小值，与最小值的差小则取最小值，与最大值的差小则取最大值）。
回归（regression）
- 用一个函数拟合数据来光滑数据

4.1.3 识别离群点（outlier）

聚类（cluster）
- 落在簇之外的值为离群点
曲线拟合
给定模型上的假设检验

4.1.4 纠正数据中的不一致

4.2 数据集成

数据集成将多个数据源的数据合并，存放在一个一致的数据存储中，如数据仓库中。

4.2.1 实体识别问题

数据分析者或计算机如何才能确信一个数据库中的某个属性与另一个数据库中的某个属性指的是相同的属性。

4.2.2 冗余和相关分析

一个属性如果可以由另一个或另一组属性导出，则这个属性可能就是冗余的。有些冗余可以被相关分析检测到。对于分类的属性，使用 $\chi ^2$ （卡方）检验。对于数值属性（numerical），使用相关系数和协方差。

$\chi ^2检验$
- 假设对两个属性 $A$ 和 $B$ ， $A$ 有 $c$ 个不同的值， $B$ 有 $r$ 个不同的值，可以得到一个 $\times r$ 的列联表。令 $A_i,B_j)$ 表示属性 $A$ 取值 $a_i$ 、属性 $B$ 取值 $b_j$ 的联合事件， $\chi ^2$ 值可以通过公式计算
- $\chi ^2 = \Sigma_{i=1}^{c} \Sigma_{j=1}^{r} \frac{(o_{ij} - e_{ij})^2}{e_{ij}}$ 。其中， $o_{ij}$ 是联合事件 $A_i,B_j)$ 的观测频度（即实际计数）， $e_{ij}$ 是 $A_i,B_j)$ 的期望频度。
- $e_{ij}$ 的计算公式为 $e_{ij} = \frac{count(A=a_i) \times count(B=b_j)}{n}$ 。其中， $n$ 是元组的个数， $count(A=a_i)$ 是 $A$ 上具有值 $a_i$ 的元组个数， $count(B=b_j)$ 是 $B$ 上具有值 $b_i$ 的元组个数。
- 对卡方值贡献最大的单元是实际计数和期望计数很不相同的单元。
- 卡方检验假设 $A$ 和 $B$ 是独立的，检测基于显著水平，具有自由度 $\times (r-1)$ 。
协方差
- $E((A-\overline{A})(B-\overline{B})) = \frac{\Sigma_{i=1}^{n} (a_i - \overline{A}) ((b_i - \overline{B})}{n} = E(A \cdot B) - \overline{A} \overline{B}$
相关系数（皮尔森相关系数）
- 公式为 $r_{A,B} = \frac{\Sigma_{i=1}^{n} (a_i - \overline{A}) ((b_i - \overline{B})}{n \sigma_A \sigma_B}=\frac{\Sigma_{i=1}^{n} (a_i b_i) - n \overline{A} \overline{B}}{n \sigma_A \sigma_B}$
- 通过协方差的定义，相关系数公式还可以写为 $r_{A,B}=\frac{\operatorname{Cov}(A, B)}{{\sigma_A \sigma_B}}$
- $r_{A,B} \in [-1,+1]$ 。如果 $r_{A,B}>0$ ，则 $A$ 和 $B$ 是正相关的，该值越大，相关性越强。如果 $r_{A,B}=0$ ，则 $A$ 和 $B$ 是不相关的。
- 独立可推出不相关，但不相关并不能推出独立。不相关是指两个随机变量没有近似的线性关系，而独立是指两个变量没有任何关系。

4.3 数据归约

数据归约可以得到数据集的简约表示，它小得多，在规约后的数据集上挖掘将产生相同或几近相同的分析结果。

可以使用的策略：数据聚合（data aggregation）、数据压缩（data compression）、数量规约（numerosity reduction）、维归约（dimensionality reduction）、离散化和概念层次生成（Discretization and concept hierarchy generation）等。

4.3.1 数据聚合

把两个或者多个属性组合成单个属性。

4.3.2 数据压缩

使用变换得到原数据的规约表示或压缩表示。如果原数据可以从压缩后的数据中重构而不损失信息则称该数据归约是无损的，如果只能近似的重构原数据，则该数据归约称为有损的。

4.3.3 数量规约

用替代的、较小的数据表示替换原数据，分为参数化方法和非参数化方法。参数方法使用模型估计数据，因此只需要存放模型参数（离群点可能也需要存放），回归模型就是一个例子。非参数化方法包括直方图（histograms）、聚类（clustering）、抽样（sampling）等。

4.3.4 维归约

特征选择的方法：

嵌入法：与具体算法有关，不讨论。
过滤法：使用某种独立于数据挖掘任务的方法，在数据挖掘算法运行前进行特征选择。
包裹法：从初始特征集合中不断的选择特征子集，训练学习器，根据学习器的性能来对子集进行评价，直到选择出最佳的子集。

过滤法（Filters）：

优点
- 执行快（没有在数据集上进行迭代计算）
- 可以泛化（由于过滤器评估数据的内在属性，而不是评估它们与特定分类器的交互作用，所以它们的结果表现出更一般性）
缺点
- 倾向于选择较大的子集（由于过滤法的目标函数通常是单调的，过滤法倾向于选择全特征集作为最优解）
- 这使得用户随意选择特征的数量

包裹法（Wrappers）：

优点
- 准确性：包装法通常比过滤法获得更好的识别率，因为它们根据分类器和数据集之间的特定交互进行调整
- 泛化能力：包装法有一种避免过度拟合的机制，因为它们通常使用预测精度的交叉验证度量
缺点
- 执行缓慢：由于包装法必须为每个特征子集训练一个分类器（如果使用交叉验证，则为多个分类器），因此对于计算密集型方法，该方法可能变得不可行
- 缺乏通用性：解决方案缺乏通用性，因为它与评估函数中使用的分类器的偏差有关。“最优”特征子集将特定于所考虑的分类器

五种不同的特征选择方法：

顺序前向选择（SFS）
- 从一个空集合开始，逐渐加入属性（适合属性少的例子）；不能删除已加入的属性
顺序后向选择（SBS）
- 从一个包含全部属性的集合开始，逐渐删除无用的特征；删除后无法还原（不可逆性）
双向搜索
- 同时使用SFS和SBS，每一次使用SFS添加一个最好的特征，使用SBS删除一个最差的特征，直至二者相遇。为了防止双向搜索不相遇的问题，则要求SFS填入的属性不属于SBS删除的属性
顺序浮动前向选择
- 可以删除以前添加的属性
顺序浮动后向选择
- 可以增加以前删除的属性

4.4 数据变换与数据离散化

数据变换策略包括：光滑（smoothing）、属性构造、聚集、规范化、离散化等。数据预处理任务之间存在着重叠，因此这一部分只讨论规范化和离散化。

4.4.1 规范化

规范化可以避免对度量单位选择的依赖性。对于基于距离的方法，规范化可以帮助防止具有较大初始值域的属性和具有较小初始值域的属性相比权重过大。

最小-最大规范化
- 假设 $min_A$ 和 $max_A$ 是属性 $A$ 的最小值和最大值，要将属性 $A$ 规范化到区间 $new \_ min_A, new \_ max_A]$ 中， $a_i$ 的规范后结果为
- $a_i \prime = \frac{a_i - min_A}{max_A - min_A} \times (new \_ max_A - new \_ min_A) + new \_ min_A$
$z - s c o r e$ 规范化
- $a_i \prime = \frac{a_i - \overline{A}}{\sigma_A}$
小数定标规范化
- $a_i \prime = \frac{a_i}{10^j}$ ，其中 $j$ 是使得 $max(|a_i \prime |)<1$ 的最小整数。

4.4.2 离散化

对数值数据进行离散化，根据不同的标准可以划分为监督的和非监督的、自顶向下的和自底向上的（分裂的和合并的）。

常用的方法有：

直方图分析（自顶向下的，分裂的，非监督的）
聚类分析（自顶向下的或自底向上的、分裂的或合并的，非监督的）
基于熵的离散化（自顶向下的，分裂的，监督的）
通过 $\chi ^2$ 分析合并区间（自底向上的，合并的，监督的）
自然分割（自顶向下的，分裂的，非监督的）
- 3-4-5规则可以用于将数值数据划分成相对一致、“自然的”区间。一般地，该规则根据最重要的数字上（比如数字的最高位）的值区域，递归地、逐层地将给定的数据区域划分为3、4 或5 个等长的区间。
- 以最高位数字举例来说，如果在所有数字的最高位覆盖3, 6, 7或9个不同的值，则将数据分成3段；如果在所有数字的最高位覆盖2, 4, 8个不同的值，则将数据分成4段；如果在所有数字的最高位覆盖1, 5, 10个不同的值，则将数据分成5段。

第四章决策树学习

1. 决策树学习的基本思想

决策树是一个树结构，其每一个非叶节点表示一个属性上的测试，每个分支代表该测试的一个输出，每个叶节点存放一个类别。决策树学习的基本思想是对所有的属性进行评估，选择一个最好的属性作为树的根节点，然后为该属性的每个可能值创建划分节点，并将数据集按取值划分到不同的节点上，然后用与每个子结点相关联的训练实例重复整个过程，以选择树中该点处要测试的最佳属性。

2. 如何选择最佳划分

为了决定一个最佳划分，需要对节点进行不纯性度量，理想的情况是每个分区应当是纯的（落在一个给定分区的所有元组都属于相同的类）。

不纯性度量包括基尼（Gini Index）指数、熵（Entropy）和分类错误率（Misclassification error）等。

基尼指数
- 一个节点的基尼指数定义为 $\Sigma_{i=1}^{n} p_i^2$ ，其中 $p_i$ 是 $n o d e$ 中元组属于 $Class_i$ 类的概率。
- 如果将一个节点 $D$ 分裂成了 $k$ 个部分（子节点），对这个划分来说， $D$ 的基尼指数为 $Gini_{split}(D) = \Sigma_{i=1}^{k} \frac{n_i}{n}Gini(i)$ ，其中 $n_i$ 是属于某一个子节点的元组的个数， $n$ 是属于节点 $D$ 的元组数。
- 对于离散属性来说，选择分裂后的基尼指数小于未分裂的基尼指数且基尼指数最小的划分。
- 对于连续属性来说，对属性的可能取值进行排序，然后将每对相邻值的中点作为可能的分裂点，如果是二元划分，则选择产生最小基尼指数的点作为该属性的分裂点。对于分裂点 $split \_ point$ 来说，它产生的两个数据子集是 $\leq split \_ point$ 和 $split \_ point$ 。
- 基尼指数应用于CART（Classification and Regression Trees）算法中。
熵
- $\Sigma_{i=1}^{n} p_i log_2(p_i)$ ，其中 $p_i$ 是 $n o d e$ 中元组属于 $Class_i$ 类的概率。
- 熵越大表示区分类别需要的信息越多，则节点内的纯度越低。
- 信息增益： $Gain_{split}(A) = Entropy(node) - (\Sigma_{i=1}^k \frac{n_i}{n} Entropy(i))$ ，表示将一个节点按属性 $A$ 分为 $k$ 个部分后得到的信息增益，选择具有最大信息增益的属性进行划分。信息增益应用于ID3算法中。（倾向于产生大量的分区，使每一个值有一个分区，这样每一个分区都是纯的，但这种划分没用。）
- 信息增益率： $\frac{Gain(A)}{SplitInfo_A(D)}$ ，其中 $SplitInfo_A(D) = -\Sigma_{i=1}^k \frac{n_i}{n} log_2(\frac{n_i}{n})$ 。信息增益率应用于C4.5算法中。
分类错误率
- $Error = 1 - max(p_i)$ ，其中 $p_i$ 是 $n o d e$ 中元组属于 $Class_i$ 类的概率。

3. 过拟合和欠拟合

过拟合
- 过拟合是指模型把数据学习的太彻底，以至于把噪声或没有代表性的数据的特征也学习到了，这样就会导致在后期测试的时候不能够很好的识别数据，即不能正确的分类，模型的泛化能力差。
- 引起过拟合的原因包括数据集中有噪声数据或训练样例太少以至于不能产生目标函数的有代表性的采样。
- 解决决策树学习中过拟合的方法：预剪枝（及早停止树增长）和后剪枝（允许树过度拟合数据，之后对树进行修剪）。
欠拟合
- 欠拟合是指模型的拟合程度不高，模型没有很好地捕捉到数据特征，不能够很好地拟合数据。

4. 缺失值对决策树的影响

在选择分裂属性的时候，训练样本存在缺失值。（计算分裂损失减少值时，忽略特征缺失的样本，最终计算的值乘以比例（实际参与计算的样本数除以总的样本数））
分类属性选择完成，对训练样本分类，发现样本存在属性缺失。（将该样本分配到所有子节点中，权重由1变为具有属性a的样本被划分成的子集样本个数的相对比率，计算错误率的时候，需要考虑到样本权重）
训练完成，给测试集样本分类，存在缺失值。（分类时，如果待分类样本有缺失变量，而决策树决策过程中没有用到这些变量，则决策过程和没有缺失的数据一样；否则，如果决策要用到缺失变量，决策树也可以在当前节点做多数投票来决定（选择样本数最多的特征值方向）。）

5. 混淆矩阵（confusion matrix）

简记Actual Class为AC，Predicted Class为PC

TP: (true positive) AC=yes, PC=yes
FN: (false negative) AC=yes, PC=no
FP: (fasle positive) AC=no, PC=yes
TN: (true negative) AC=no, PC=no

准确率： $\frac{TP+TN}{TP+FN+FP+TN}$

精确率： $\frac{TP}{TP+FP}$

召回率： $\frac{TP}{TP+FN}$

$F_1$ 分数： $F_1 = 2 \times \frac{Precision \times Recall}{Precision + Recall}$

6. 评估分类器性能的方法

保持方法（holdout），将数据集按比例划分为不相交的训练集和验证集
随机二次抽样（random subsampling），多次重复保持方法
交叉验证（cross validation）
- $k$ 折交叉验证，把数据集分为大小相同的 $k$ 份，在每次运行时，选择其中的一份作为验证集，而其余的全作为训练集，该过程重复 $k$ 次，使得每份数据都用于验证恰好一次。
- 多次 $k$ 折交叉验证，将 $k$ 折交叉验证重复多次，比如十次十折交叉验证。
- 留一法（leave-one-out），令 $k$ 为数据集的大小，验证集中只有一个记录。优点是使用尽可能多的训练数据并且有效的覆盖了整个数据集；缺点是整个过程重复数据集大小次数，计算开销大，而且由于验证集中只有一个记录，所以性能估计的方差较大。
分层抽样（stratified sampling）
自助法（bootstrap）

ROC曲线，横坐标为假阳率 $\frac{FP}{N}$ ，纵坐标为真阳率 $\frac{TP}{P}$ 。AUC面积是ROC曲线下的面积，ROC曲线一般位于 $y = x$ 之上，所以AUC取值一般在 $\sim 1$ 之间，值越大说明模型的性能越好。

第五章神经网络

1. 神经网络如何学习

神经网络通过调整权值进行学习，从而能够正确的对训练数据进行分类，然后在测试阶段对未知数据进行分类。

特点：

神经网络需要很长时间的训练。
神经网络对噪声数据和不完整数据有很高的容忍度。
神经网络的可解释性较差。

2. 梯度下降算法

初始化每个 $w_i$ 为某个小的随机值
遇到终止条件之前做以下操作
- 初始化每个 $\Delta w_i$ 为0
- 对于每个训练样例 $(\vec{x}, t)$ ，做
  - 把实例 $\vec{x}$ 输入到此单元，计算输出 $o$
  - 对于线性单元的每个权 $w_i$ 做： $\Delta w_i \leftarrow \Delta w_i + \eta(t-o) x_i$
- 对于线性单元的每个权 $w_i$ ，做 $w_i \leftarrow w_i + \Delta w_i$

批量梯度下降（BGD）：在每一次迭代时计算完所有的样本后进行梯度的更新。

随机梯度下降（SGD）：在每一次迭代时每计算完一个样本后都进行梯度的更新。

3. 反向传播算法（BP算法）

逐层求出目标函数对各神经元权值的偏导数，构成目标函数对权值向量的梯度，作为修改权值的依据，网络的学习在权值修改过程中完成。误差达到所期望值时，网络学习结束。

第六章贝叶斯分类方法

1. 根据贝叶斯理论，如何计算一个假设h成立的后验概率？

$\frac{P(D|h)P(h)}{P(D)}$

$P (h)$ 和 $P (D)$ 是先验概率， $P (h)$ 表示假设 $h$ 是一个正确假设的概率， $P (D)$ 表示在没有确定某一假设成立时 $D$ 的概率。
$P (D ∣ h)$ 表示假设 $h$ 成立的情况下，观察到数据 $D$ 的概率。
$P (h ∣ D)$ 是要求的后验概率，即给定数据集 $D$ 上， $h$ 成立的概率。

2. 极大后验假设和极大似然假设

极大后验假设（MAP）
- 在假设集 $H$ 中寻找给定数据集 $D$ 时，最可能的假设 $h$ ，这样具有最大可能性的假设称为极大后验假设， $h_{MAP} = \underset{h \in H}{\arg \max } P(D \mid h) P(h)$ 。
极大似然假设（ML）
- 假定 $H$ 中每个假设具有相同的先验概率，使 $\mid h)$ 最大的假设称为极大似然假设， $h_{ML} = \underset{h \in H}{\arg \max } P(D \mid h)$ 。

3. 最小描述长度的基本思想

为随机传送的消息设计一个编码，其中遇到消息 $i$ 的概率为 $p_i$ ，为了传输随机消息所需的传送位数最小，需要为可能性较大的消息赋予较短的编码。用最小描述长度解释极大后验假设就是使假设描述长度和给定假设下数据描述长度之和最小化的假设。 $h_{max} = \underset{h \in H}{\arg \min } L_{C_H}(h) + L_{C_{D \mid h}}(h)$ ，其中 $C_H$ 和 $C_{D \mid h}$ 是 $H$ 的最优编码和给定 $h$ 时 $D$ 的最优编码。

4. 贝叶斯最优分类器

新实例的最可能分类可通过合并所有假设的预测得到，用后验概率加权。如果新实例的可能分类可取集合 $V$ 中的任一值 $v_j$ ，那么概率 $P(v_j \mid D)$ 表示新实例的正确分类为 $v_j$ 的概率： $P(v_j \mid D) = \Sigma_{h_i \in H} P(v_j \mid h_i)P(h_i \mid D)$ 。新实例的最优分类为使 $P(v_j \mid D)$ 最大的 $v_j$ 值，即 $\underset{v_j \in V}{\arg \max } \Sigma_{h_i \in H} P(v_j \mid h_i)P(h_i \mid D)$ 。

贝叶斯最优分类器开销很大，需要计算每个假设的后验概率，一个可替代的、非最优的方法是Gibbs算法：按照当前的后验概率分布使用一随机抽取的假设。Gibbs算法的误分类率的期望值最多为贝叶斯最优分类器的两倍。

5. 朴素贝叶斯分类器

贝叶斯方法的新实例的分类目标是在给定描述实例的属性值 $< a_{1}, a_{2}, . . ., a_{n} >$ 下，得到最可能的目标值 $v_{MAP} = \underset{v_j \in V}{\arg \max } P(v_j \mid a_1,a_2,...,a_n)$ ，利用贝叶斯公式可以重写为 $v_{MAP} = \underset{v_j \in V}{\arg \max } \frac{P(a_1,a_2,...,a_n \mid v_j)P(v_j)}{P(a_1,a_2,...,a_n)}=\underset{v_j \in V}{\arg \max } P(a_1,a_2,...,a_n \mid v_j)P(v_j)$ 。

朴素贝叶斯方法就是假设给定目标值时属性值之间相互条件独立，即 $P(a_1,a_2,...,a_n \mid v_j) = \prod_{i=1}^n P(a_i \mid v_j)$ 。朴素贝叶斯使用的方法即为 $v_{NB} = \underset{v_j \in V}{\arg \max } \prod_{i=1}^n P(a_i \mid v_j) P(v_j)$ 。

6. 贝叶斯信念网络的预测与诊断

7. 偏差-方差分析

第七章基于实例的学习

1. k近邻学习算法

假定所有的实例对应于n维空间 $R^n$ 中的点，一个实例的最近邻是根据标准欧式距离定义的。在最近邻学习中，目标函数值可以是离散值也可以是实值。

训练算法：

对于每个训练样例 $< x, f (x) >$ ，把这个样例加入列表 $training \_ examples$

分类算法：

给定一个要分类的查询实例 $x_q$
- 在 $training \_ examples$ 中选出最靠近 $x_q$ 的 $k$ 个实例，并用 $x_1,x_2,...,x_k$ 表示
- 返回 $\hat{f}(x_q) \leftarrow \underset{v \in V}{\arg \max } \Sigma_{i=1}^{k} \delta(v,f(x_i))$

其中，如果a=b，那么 $\delta(a,b) = 1$ ，否则 $\delta(a,b) = 0$ 。在实值目标函数中将公式变为 $\hat{f}(x_q) \leftarrow \frac{\Sigma_{i=1}^{k} f(x_i)}{k}$ 。

距离加权最近邻算法：将较大的权值赋给较近的近邻。

$\hat{f}(x_q) \leftarrow \underset{v \in V}{\arg \max } \Sigma_{i=1}^{k} w_i \delta(v,f(x_i))$
$\hat{f}(x_q) \leftarrow \frac{\Sigma_{i=1}^{k} w_i f(x_i)}{\Sigma_{i=1}^{k} w_i}$

2. k近邻学习时为什么距离要归一化

如果各个维度的量纲差距很大，那么在计算距离时模长大的维度会支配模长小的维度，造成距离失去意义。

3. 局部加权线性回归

给定一个新的查询实例 $x_q$ ，局部加权回归的一般做法是建立一个逼近 $\hat{f}$ ，使 $\hat{f}$ 拟合环绕 $x_q$ 的邻域内的训练样例。然后用这个逼近来计算 $\hat{f} (x_q)$ 的值，也就是为查询实例估计的目标值输出。

误差函数为 $E(x_{q}) = \frac{1}{2} \sum (f(x)-\hat{f}(x))^{2} K(d(x_{q}, x))$ ，其中 $x$ 是 $x_q$ 的 $k$ 个近邻， $K(d(x_{q}, x))$ 是权值，是关于相距 $x_q$ 距离的某个递减函数 $K$ 。
训练法则为 $\Delta w_{i}=\eta \sum K(d(x_{q}, x))(f(x)-\hat{f}(x)) a_{j}(x)$ ，其中 $x$ 是 $x_q$ 的 $k$ 个近邻， $a_j(x)$ 是 $x$ 的第 $j$ 个属性。

4. 基于案例的推理（CBR）与k-NN的异同

同：

都是懒惰学习的方法，把在训练数据之外的泛化推迟到遇到一个新的查询实例进行。
通过分析相似的实例来分类新的查询实例，忽略与查询极其不同的实例。

异：

CBR不把实例表示为n维空间中的实数点，而是采用更丰富的符号描述。
CBR检索相似实例的方法更加复杂。
CBR合并多个检索到的案例的过程与k-NN有很大的不同，它依赖于知识推理而不是统计方法。

5. 懒惰学习与积极学习的区别

懒惰（消极）学习：延迟了如何从训练数据中泛化的决策，直到遇到一个新的查询实例时才进行泛化。懒惰学习可以通过很多局部逼近的组合表示目标函数（局部逼近或全局逼近）。懒惰学习在训练时需要较少的计算，但在预测新查询的目标值时需要较多的计算时间。

积极学习：在见到新的查询之前就做好了泛化的工作。积极学习必须在训练时提交单个的全局逼近（必须全局逼近）。积极学习在训练时需要较多的时间，在预测新查询的目标值时需要较少的时间。

第八章集成学习

1. 集成学习的定义

集成学习是指将许多弱学习器组合起来以获得一个强学习器的技术。

2. 集成学习的两个主要问题

如何产生基学习器（基学习器要尽量准确并且多样）
如何合并基学习器
- 加权投票（Weighted voteing）
- 加权平均（Weighted averaging）
- 学习组合器（learning combiner）
  - Stacking(Wolpert)
  - RegionBoost(Maclin)

同质（homogeneous）集成：所有的个体学习器都是同一个种类的。

异质（heterogeneous）集成：所有的个体学习器不全是一个种类的。

3. Stacking基本思想和伪代码

Stacking算法分为两层，第一层是用不同的算法（因此Stacking一般是异质集成）形成多个弱分类器，然后将其输出用于训练第二层的元分类器，使用元分类器对第一层分类器进行组合。

伪代码

Input:

DataSet $D = {(x_1,y_1),(x_2,y_2),...,(x_m,y_m)}$

First-level learning algorithm $L_1, L_2,...,L_T$

second-level learning algorithm $L$

Process:

for $t = 1, . . ., T$ :

$h_t = L_t(D)$ %在数据集D上使用不同的学习算法训练第一层的分类器

end;

$\prime = \emptyset$ %创建一个新的数据集用来训练元分类器

for $i = 1, . . ., m$ :

for $t = 1, . . ., T$ :

$z_{it}=h_t(x_i)$ %用 $h_t$ 对实例 $x_i$ 进行分类

end;

$\prime = D \prime \bigcup \lbrace ((z_{i1},z_{i2},...,z_{it}),y_i) \rbrace$

end;

$\prime = L(D \prime)$ %在数据集 $\prime$ 上使用算法 $L$ 训练元分类器 $\prime$

Output:

$\prime (h_1(x), h_2(x), ..., h_T(x))$

4. Bagging基本思想和伪代码

对训练样本随机抽样，让基学习器在不同的训练集进行训练而得到不同的弱分类器，最后通过投票的方式或平均的方式进行集成。（同质集成）

伪代码

Getting $L$ samples by bootstrap sampling

From whice we derive:

$L$ classifiers $\in \lbrace -1, 1 \rbrace:c^1,c^2,...,c^L$ or

$L$ Estimated probabilites $\in \lbrack -1, 1 \rbrack:p^1,p^2,...,p^L$

The aggregate classifier becomes

$c_{bag} = sign(\frac{1}{L} \Sigma_{b=1}^L c^b(x))$ or $c_{bag} = \frac{1}{L} \Sigma_{b=1}^L p^b(x)$

5. Boosting基本思想和伪代码

首先从训练集用初始权重训练出一个弱学习器1，根据弱学习的学习误差率表现来更新训练样本的权重，使得之前弱学习器1学习误差率高的训练样本点的权重变高，使得这些误差率高的点在后面的弱学习器2中得到更多的重视。然后基于调整权重后的训练集来训练弱学习器2，如此重复进行，直到弱学习器数达到事先指定的数目T。对于训练好的弱分类器，如果是分类任务按照权重进行投票，而对于回归任务进行加权，得到最终的强学习器。（同质集成）

伪代码

Input:

Instance distribution $D$

Base learning algorithm $L$

Number of learning round $T$

Process:

$D_1 = D$ %初始化分布

for $t = 1, 2, . . ., T$

$h_t=L(D_t)$ %在分布 $D_t$ 上训练弱分类器 $h_t$

$\epsilon_{t}=\operatorname{Pr}_{x \sim D_{t}, y} I\left[h_{t}(x) \neq y\right]$ %计算 $h_t$ 的错误

$D_{t+1}=Adjust \_ Distribution\left(D_{t}, \epsilon_{t}\right)$ %调整分布，对分类错误的数据加大权重

end;

Output:

$\_ Outputs \left(\left\{h_{t}(x)\right\}\right)$

6. 为什么集成学习有效

统计上：当假设空间对于可用数据量来说太大时，数据上有许多相同精度的假设，学习算法只能够选择其中一个，这样有可能导致所选假设在未见数据上的准确性很差，把多个可能假设集合起来可以降低这种风险。
计算上：许多学习算法是通过执行某种形式的局部搜索来工作的，这些搜索可能会陷入局部最优。通过从多个不同的起始点运行局部搜索构造的集成比任何单个分类器都能更好的逼近真实的目标函数。
表示上：在大多数机器学习的应用场合中实际目标假设并不在假设空间之中，如果假设空间在某种集成运算下不封闭，那么我们通过把假设空间中的一系列假设集成起来就有可能表示出不在假设空间中的目标假设。

第九章分类技术

1. 基于规则的分类器

基于规则的分类器是使用一组“if…then…”规则来对记录进行分类的技术。规则的左边称为规则前件或前提，规则右边称为规则后件。一般用覆盖率（coverage）和准确率（accuracy）度量规则的质量。

1.1 规则质量评估

覆盖率： $\frac{|A|}{|D|}$ ，即满足规则前件的记录所占的比例。
准确率： $\frac{|A \bigcap y|}{|A|}$ ，即同时满足规则前件和后件的记录在满足规则前件的记录中所占的比例。

1.2 优点

像决策树一样具有高度的表达能力；易于解释，易于生成；可以快速分类新实例，性能可与决策树相媲美。

1.3 需要解决的问题

一个记录可能触发多条规则（不满足互斥规则）
- 对于有序规则集：基于规则的排序方案、基于类的排序方案
- 对于无序规则集：采用投票的方式
一条记录可能不会触发任何规则（不满足穷举规则）
- 使用缺省类（通常被指定为没有被现存规则覆盖的训练记录的多数类）

1.4 规则建立的方法

规则的建立可以使用直接方法和间接方法。直接方法直接从数据中提取分类规则，如RIPPER，CN2；间接方法从其他分类模型（如决策树和神经网络）中提取分类规则，如C4.5rules。

2. 顺序覆盖算法

直接从数据中提取规则，规则基于某种评估度量以贪心的方式增长。该算法从包含多个类的数据集中一次提取一个类的规则。

算法开始时决策表（规则集）为空，接下来用Learn-One-Rule函数提取类C的覆盖当前训练记录集的最佳规则。如果一个规则覆盖大多数的类C训练记录，没有或仅覆盖极少的其他类训练记录（这样的规则具有高准确率，不必是高覆盖率的，因为每个类可以有多个规则），那么该规则是可取的。一旦找到这样的规则，就删掉它所覆盖的训练记录，并把新规则追加到决策表中。重复这个过程，直至满足终止条件。

3. 支持向量机

第十章聚类分析

1. 聚类的定义

聚类分析，简称聚类，是一个把数据对象划分成子集的过程。每个子集是一个簇，使得簇中的对象彼此相似，但与其他簇中的对象不相似。（非监督的）

2. 聚类（clustering）的类型

层次的与划分的
- 层次聚类：允许簇有子簇
- 划分聚类：简单的将数据对象划分为不重叠的子集（簇）
互斥的、重叠的与模糊的
- 互斥的：每个对象都指派到单个簇
- 重叠的：一个对象同时属于不同的簇
- 模糊聚类：每个对象以一个0（绝对不属于）和1（绝对属于）之间的隶属权值属于每个簇
完全的与部分的
- 完全聚类：将每个对象都指派到一个簇
- 部分聚类：一些噪声、离群点等不被指派到任何一个簇

3. 簇（cluster）的类型

明显分离的。每个点到同簇中任意点的距离比到不同簇中所有点的距离更近。
基于中心的。每个点到其簇中心的距离比到任何其他簇中心的距离更近。
基于邻近的。每个点到该簇中至少一个点的距离比到不同簇中任意点的距离更近。
基于密度的。簇是被低密度区域分开的高密度区域。
概念簇。簇中的点具有由整个点集导出的某种一般共同性质。

4. 层次聚类

4.1 层次聚类的两种主要类型

凝聚的：从点作为个体簇开始，每一步合并两个最接近的簇。需要定义簇的邻近性的概念。
分裂的：从包含所有点的某个簇开始，每一步分裂一个簇，直到只剩下单点簇。需要确定每一步分裂哪个簇，以及如何分裂。

4.2 定义簇之间的邻近性

单链（MIN）：两个簇的邻近度定义为两个不同簇中任意两点之间的最短距离（最大相似度）。
全链（MAX）：两个簇的邻近度定义为两个不同簇中任意两点之间的最长距离（最小相似度）。
组平均：两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。
- $proximity(C_i,C_j)=\frac{\Sigma_{x \in C_i y \in C_j} proximity(x,y)}{m_i \times m_j}$
Ward方法：两个簇合并时导致的平方误差的增量。
- $\Delta(A, B)=\sum_{i \in A \cup B}\left\|\vec{x}_{i}-\vec{m}_{A \cup B}\right\|^{2}-\sum_{i \in A}\left\|\vec{x}_{i}-\vec{m}_{A}\right\|^{2}-\sum_{i \in B}\left\|\vec{x}_{i}-\vec{m}_{B}\right\|^{2}$ $=\frac{n_{A} n_{B}}{n_{A}+n_{B}}\left\|\vec{m}_{A}-\vec{m}_{B}\right\|^{2}$

单链擅长处理非椭圆形的簇，但对噪声和离群点很敏感。全链对噪声和离群点不太敏感，但是它可能使大的簇破裂，并偏好球形。

4.3 层次聚类的缺点

一旦决定合并两个簇，就不能撤销
没有直接最小化目标函数
不同的方案存在以下一个或多个问题
- 对噪声和异常值的敏感性
- 难以处理不同大小的簇和凸形状
- 破坏大型的簇

5. k均值和k中心点算法

5.1 k-means 算法

首先，选择k个初始质心，其中k是用户指定的参数，即所期望的簇的个数。每个点指派到最近的质心，而指派到一个质心的点集为一个簇。然后，根据指派到簇的点，更新每个簇的质心。重复指派和更新步骤，直到质心不再发生变化。

选择k个点作为初始质心

repeat

将每个点指派到最近的质心，形成k个簇

重新计算每个簇的质心

until

质心不再发生变化

考虑邻近度度量为欧几里得距离的数据，使用误差的平方和（SSE）作为度量聚类质量的目标函数。假设簇划分为 $C_1,C_2,...,C_k$ ，则目标函数为 $SSE=\sum_{i=1}^{k} \sum_{x \in C_{i}} d i s t^{2}\left(c_{i}, x\right)$ ，其中 $c_i$ 表示第 $i$ 个簇的质心（均值），计算公式为 $c_i=\frac{1}{m_i} \sum_{x \in C_i} x$ ，例如3个二维点 $(1, 1), (2, 3), (6, 2)$ 的质心是 $((1 + 2 + 6) / 3, (1 + 3 + 2) / 3) = (3, 2)$ 。公式中 $x$ 是一个点， $C_i$ 是第 $i$ 个簇， $c_i$ 是簇 $C_i$ 的质心， $m_i$ 是第 $i$ 个簇中点的个数。

k-means算法的结果依赖于初始簇中心的随机选择，实践中为了得到好的结果，通常以不同的初始簇中心多次运行k-means算法，然后选取具有最小SSE的簇集。

用后处理降低SSE：

总SSE只不过是每个簇SSE的和，通过在簇上进行诸如分裂和合并的操作，可以改变总SSE。

通过增加簇的个数来降低总SSE的策略
- 分裂一个簇，通常选择具有最大SSE的簇
- 引进一个新的质心，通常选择离所有簇质心最远的点
通过减少簇的个数来降低总SSE的策略
- 拆散一个簇，删除簇的对应质心
- 合并两个簇，通常选择质心最接近的两个簇

k-means算法的缺点：

通常停止在局部最优
并不适合所有的数据类型（仅限于具有中心概念的数据）
不能处理非球形簇、不同尺寸和不同密度的簇
不能处理噪声和离群点

5.2 k-medoids 算法

k-means算法的改进，降低它对离群点的敏感性。不采用簇中对象的均值作为参照点，而是挑选实际对象来代表簇，每个簇使用一个代表对象，其余的每个对象被分配到与其最为相似的代表性对象所在的簇中。

该算法的一个实现是围绕中心点（PAM）算法。随机选择代表对象，然后考虑用一个非代表对象替换一个代表对象是否能够提高聚类质量。尝试所有可能的替换，直到结果聚类的质量不可能被任何替换提高。

6. DBSCAN 算法

DBSCAN is a Density Based Spatial Clustering of Applications with Noise.具有噪声应用的基于密度的空间聚类。

根据基于中心的密度进行点分类：

核心点（core point）：这些点在基于密度的簇内部。点的邻域由距离函数和用户指定的距离参数 $E p s$ 决定。核心点的定义是，如果该点的给定邻域内的点的个数超过给定的阈值 $M i n P t s$ , 其中 $M i n P t s$ 也是一个用户指定的参数。
边界点（border point）：边界点不是核心点，但它落在某个核心点的邻域内。边界点可能落在多个核心点的邻域内。
噪声点（noise point）：噪声点是既非核心点也非边界点的任何点。

repeat:

从数据库中抽出一个未处理的点；

IF 抽出的点是核心点 THEN 找出所有从该点 密度可达 的对象，形成一个簇；

ELSE 抽出的点是边缘点(非核心对象)，跳出本次循环，寻找下一个点；

UNTIL 所有的点都被处理。

优点：

可以对抗噪声
能够处理任意形状和大小的簇

缺点：

密度变化太大时不能处理
对于高维数据也不能很好的工作

7. 聚类评估

用于评估簇的各方面的评估度量或指标一般分成如下三类：

非监督的。聚类结构的优良性度量，不考虑外部信息。例如，SSE。簇的有效性的非监督度量常常可以进一步分成两类: 簇的凝聚性（cluster cohesion）度量，确定簇中对象如何密切相关；簇的分离性（cluster separation）度量确定某个簇不同于其他簇的地方。非监督度量通常称为内部指标（internal index)，因为它们仅使用出现在数据集中的信息。
监督的：度量聚类算法发现的聚类结构与某种外部结构的匹配程度。例如，监督指标的熵，它度量簇标号与外部提供的标号的匹配程度。监督度量通常称为外部指标（external index），因为它们使用了不在数据集中出现的信息。
相对的：比较不同的聚类或簇。相对簇评估度量是用于比较的监督或非监督评估度量，因此它不是一种单独的簇评估独立类型，而是度量的一种具体使用。

第十一章关联分析

关联规则挖掘任务分解为两个主要的子任务：频繁项集的产生和规则的产生。

1. 概念

项集：设 $I=\lbrace i_1, i_2, ... , i_d \rbrace$ 是所有项的集合，在关联分析中，包含一个或多个项的集合被称为项集。如果一个项集包含 $k$ 个项，则称它为 $k -$ 项集。

频繁项集：支持度大于等于最小支持度阈值的项集。

关联规则：形如 $\rightarrow Y$ 的蕴含表达式，其中 $X$ 和 $Y$ 是不相交的项集。

支持度计数（ $\sigma$ ）：包含特定项集的事务个数。

支持度（s）：关联规则包含的项集出现的次数在总事务数中的比例。 $\rightarrow Y) = \frac{\sigma (X \bigcup Y)}{N}$ 。

置信度（c）： $Y$ 在包含 $X$ 的事务中出现的频繁程度。 $\rightarrow Y) = \frac{\sigma (X \bigcup Y)}{\sigma (X)}$

极大频繁项集：极大频繁项集是这样的频繁项集，它的直接超集都不是频繁的。

闭项集：项集是闭的，如果它的直接超集都不具有和它相同的支持度计数。

闭频繁项集：如果一个项集是闭项集，并且它的支持度大于等于最小支持度阈值。

注：极大频繁项集一定是闭频繁项集，因为任何极大频繁项集都不可能和它的直接超集有相同的支持度计数。

2. Apriori 算法

2.1 先验原理

穷举所有的规则是困难的，因此可以使用频繁项集的方法减少规则的产生。产生频繁项集时可以使用支持度度量。帮助减小频繁项集产生时所需要探查的候选项集的个数。该方法基于先验原理：如果一个项集是频繁的，那么它的所有子集一定是频繁的。相反的，如果一个项集是非频繁的，那么它的所有超集也一定是非频繁的。这种剪枝策略依赖于支持度的一个性质，即一个项集的支持度不会超过它的子集的支持度。（支持度度量的反单调性）

2.2 Apriori 算法的频繁项集的产生

通过单遍扫描数据集得到每个项的支持度，然后产生频繁1-项集
重复下面的操作，直到没有新的频繁项集产生
- 使用上一次迭代发现的频繁k-项集，产生新的候选(k+1)-项集
- 再次扫描一遍数据集，对每一个候选集计算支持度
- 删去支持度小于最小支持度阈值的候选项集

该算法需要的总迭代次数是 $k_{max} + 1$ ， $k_{max}$ 是频繁项集的最大长度。

在产生新的候选k-项集时，可以使用以下方法：

暴力法：把所有的k-项集看成是可能的候选
$F_{k-1} \times F_1$ 法：用频繁1-项集拓展频繁(k-1)-项集
$F_{k-1} \times F_{k-1}$ 法：合并两个频繁(k-1)-项集，只有当这两个项集的前(k-2)项相同时

2.3 Apriori 算法的规则的产生

定理：如果规则 $\rightarrow Y - X$ 不满足置信度阈值，则形如 $\prime \rightarrow Y - X \prime$ 的规则也一定不满足置信度阈值。比如 $\rightarrow D) \geq c(AB \rightarrow CD) \geq c(A \rightarrow BCD)$ ，即如果 $\rightarrow D$ 具有低置信度，则可以丢弃后件包含 $D$ 的所有规则。

3. FP 增长算法

3.1 FP 树表示法

FP树是通过每次读取数据集的一个事务并将每个事务映射到FP树中的路径来构造的。由于不同的事务会有若干个相同的项，因此它们的路径会有部分重叠。路径的重叠的部分越多，使用FP树获得的压缩的效果越好。

树根节点用null标记，最开始找到频繁1-项集并按支持度递减的顺序排序。然后根据事务拓展FP树，每个节点上标记覆盖的次数。

3.2 FP 增长算法的频繁项集产生

4. 关联模式评估

客观兴趣度度量
- 支持度： $\rightarrow Y) = \frac{\sigma (X \bigcup Y)}{N}$
- 置信度: $\rightarrow Y) = \frac{\sigma (X \bigcup Y)}{\sigma (X)}$
- 提升度： $\rightarrow Y) = \frac{c(X \rightarrow Y)}{s(Y)}$ ，小于1表示负相关，等于1表示统计独立，大于1表示正相关
- 兴趣因子： $\frac{s(X, Y)}{s(X)s(Y)}$ ，对于二元变量，兴趣因子与提升度等价
- $\phi$ 系数： $\phi = \frac{f_{11}f_{00} - f_{10}f_{01}}{\sqrt{f_{1+}f_{+1}f_{0+}f_{+0}}}$ ，相关度从-1（完全负相关）到+1（完全正相关），如果变量是统计独立的，则 $\phi = 0$ 。
- ……
主观兴趣度度量
- 对料想不到的模式感兴趣

其他

1. 协方差矩阵的计算

对于一组数据，比如 $x_1(1,2), x_2(2,6), x_3(4,2), x_4(5,2)$ ，因为数据是二维的（即两列），所以协方差矩阵是一个 $\times 2$ 的矩阵。协方差矩阵的元素 $(i, j) =$ （第 $i$ 维的所有元素-第 $i$ 维的均值） $\cdot$ （第 $j$ 维的所有元素-第 $j$ 维的均值） $/$ 行数 $- 1$ （即样本数 $- 1$ ）。

协方差矩阵是一个对称矩阵
对角线元素 $(i, i)$ 为第 $i$ 维数据的方差
非对角线元素 $(i, j)$ 为第 $i$ 维和第 $j$ 维的协方差

2. 标准差

总体标准差： $\sigma = \sqrt{\frac{\Sigma_{i=1}^{n}(x_i-\overline{x})^2}{n}}$

样本标准差： $\sigma = \sqrt{\frac{\Sigma_{i=1}^{n}(x_i-\overline{x})^2}{n-1}}$

Reference

由霍夫丁不等式论证机器学习的可行性

你可能感兴趣的:(机器学习,数据挖掘,复习笔记)

基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
Google机器学习实践指南(模型预测偏差) AI_Auto 人工智能机器学习人工智能
Google机器学习（31）-模型预测偏差预测偏差：模型为何总是"猜不准"的真相揭秘你的模型预测准确率高达95%，却总是与实际情况差那么一点点？这可能是预测偏差在作祟！本文将带你深入探索这个被忽视的模型"隐形杀手"。一、什么是预测偏差？一个生活化案例想象一下，你网购了一个智能体重秤，连续一周称重显示都是60kg。但你去健身房用专业设备测量，实际是62kg。这种系统性的测量偏差，就是预测偏差在现实中
【机器学习|学习笔记】用 Python 结合 graphviz 生成 ID3、C4.5、CART 三种决策树的结构示意图。
【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图文章目录【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图用Python结合graphviz生成ID3、C4.5、CART三种
智能产品经理的核心能力 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
智能产品经理的核心能力1.背景介绍在当今快节奏的数字时代,产品经理扮演着至关重要的角色,他们负责确保产品满足用户需求,实现商业目标,并保持竞争优势。随着人工智能(AI)和机器学习(ML)技术的不断发展,智能产品经理的概念应运而生。智能产品经理需要将传统的产品管理技能与新兴技术相结合,以创建具有创新性和智能化的产品体验。智能产品不仅需要满足功能需求,还需要提供个性化、智能化和无缝的用户体验。这对产品
使用Python进行机器学习入门指南软考和人工智能学堂 Python开发经验 python 机器学习开发语言
使用Python进行机器学习入门指南机器学习（MachineLearning）是人工智能（ArtificialIntelligence,AI）的一个重要分支，旨在通过算法和统计模型，使计算机系统能够自动从数据中学习和改进。Python作为机器学习领域的主流编程语言，提供了丰富的库和工具来实现各种机器学习任务。本文将介绍如何使用Python进行机器学习，包括基本概念、常用库以及一个实战项目示例。目录
【亲测免费】 CatBoost 教程项目使用指南
CatBoost教程项目使用指南tutorials项目地址:https://gitcode.com/gh_mirrors/tutorials1/tutorials1.项目介绍CatBoost是一个高效、灵活且易于使用的梯度提升库，特别适用于处理分类特征。它由Yandex开发，广泛应用于机器学习和数据科学领域。CatBoost提供了丰富的功能，包括自动处理分类特征、支持GPU训练、内置的交叉验证和模
Python自动化机器学习平台库之mindsdb使用详解
概要MindsDB是一个开源的自动化机器学习平台，它通过SQL接口简化了机器学习模型的创建、训练和预测过程。该库的核心理念是将机器学习功能直接集成到数据库中，让开发者无需深入了解复杂的机器学习算法，就能够快速构建和部署预测模型。MindsDB支持多种数据源连接，包括MySQL、PostgreSQL、MongoDB等主流数据库，同时提供了丰富的PythonAPI接口，使得数据科学家和开发者能够在熟悉
堡垒机操作行为异常检测的机器学习算法应用
一、传统检测模式的困境与机器学习的破局价值在数字化转型浪潮中，堡垒机作为运维安全的核心防线，面临着操作行为复杂度激增与检测能力滞后的双重挑战。传统检测手段主要依赖静态规则库与统计模型，存在三大致命缺陷：规则固化与误报泛滥：某金融机构曾因规则库未及时更新，导致运维人员正常批量操作被误判为“暴力破解”，单日误报量超2000次，消耗安全团队60%的精力。动态行为适应性弱：微服务架构下，运维人员访问路径呈
最全自动驾驶数据集（11/4号已更新）数据猎手小k 自动驾驶人工智能机器学习
自动驾驶是一个快速发展的行业，它融合了人工智能、机器学习、传感器技术、高精度地图和先进的计算平台等多种技术。技术方面，自动驾驶汽车依赖于先进的传感器、如激光雷达、摄像头、毫米波雷达等，以及强大的计算平台来处理大量数据，自动驾驶数据集是训练和验证自动驾驶系统的关键资源，它提供了丰富的场景和条件，使算法能够学习和适应复杂的真实世界驾驶环境。一、研究背景自动驾驶技术的发展需要大量的数据来训练和优化算法，
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
机器学习与光子学的融合正重塑光学器件设计范式 m0_75133639 光电智能电视二维材料电子半导体人工智能顶刊 nature
Nature/Science最新研究表明，该交叉领域聚焦六大前沿方向：光子器件逆向设计、超构材料智能优化、光子神经网络加速器、非线性光学芯片开发、多任务协同优化及光谱智能预测。系统掌握该领域需构建四维知识体系：1、基础融合——从空间/集成光学系统切入，解析机器学习赋能光学的理论必然性，涵盖光学神经网络构建原理2、逆向设计革命——通过AnsysOptics实战，掌握FDTD算法与粒子群/拓扑优化技术
AI模型训练新范式：基于同态加密的隐私保护方案 AIGC应用创新大全人工智能同态加密区块链 ai
AI模型训练新范式：基于同态加密的隐私保护方案技术解析关键词同态加密（HomomorphicEncryption）、隐私保护机器学习（PPML）、全同态加密（FHE）、安全多方计算（MPC）、加密数据训练摘要本报告系统解析基于同态加密的AI模型训练新范式，覆盖从理论基础到工程实践的全生命周期。首先通过第一性原理推导同态加密的数学本质，对比传统隐私保护技术的局限性；其次构建“加密-训练-解密”全流程
量子机器学习入门：从理论到实践
量子机器学习入门：从理论基石到实践路径元数据框架标题量子机器学习入门：从理论基石到实践路径——连接量子计算与人工智能的未来桥梁关键词量子计算；机器学习；量子算法；量子神经网络；Qiskit；PennyLane；量子变分算法摘要量子机器学习（QuantumMachineLearning,QML）是量子计算与机器学习的交叉领域，通过量子计算的叠加态、纠缠和并行性解决传统机器学习的计算瓶颈（如高维数据处
【字节跳动】数据挖掘面试题0010：解释全国人均收入下降，各省份人均收入增加的现象，属于辛普森悖论（开放性问题）言析数智数据挖掘常见面试题辛普森悖论局部与整体分析差异归因数据分析面试题
文章大纲一、辛普森悖论的核心定义二、现象成因：加权平均中的“权重偏移”三、数学逻辑与案例说明1.数学表达式2.具体案例四、辛普森悖论的本质：忽略“混杂因素”的影响五、生活中常见的辛普森悖论案例及应对策略1.医疗疗法效果评估2.大学录取率的性别偏差3.篮球运动员投篮效率4.公司员工绩效与部门规模如何利用辛普森悖论？（数据分析中的价值）六、总结全国人均收入下降而各省份人均收入增加的现象，确实属于辛普森
全球人工智能与机器学习大会PPT a flying bird 论文解读和大咖技术号记录人工智能
大会演讲PPT合集https://ppt.infoq.cn/list/93PPT分享|ppt|人工智能|aicon|infoq|机器学习PPT分享,前段时间的AICon北京站2021全球人工智能与机器学习大会（https://aicon.infoq.cn/2021/beijing），汇集了很多业界大佬，工业界多个方向的从业人员分享了他们在实际业……https://xw.qq.com/cmsid/2
人工智能基础知识PPT课件智慧化智能化数字化方案方案解读馆人工智能入门人工智能学习人工智能课件人工智能PPT
人工智能基础知识定义与概念：人工智能是研究、开发用于模拟、延伸和扩展人类智能行为的综合性科学，其目的是让计算机系统具备执行人类智能任务的能力。涉及计算机科学、数学等多学科，研究对象是让系统具备智能，智能包括认知、适应和自主能力等维度。学派与方法学派：有符号主义、联结主义、行为主义等学派，分别从不同角度研究人工智能。方法：包括基于知识、学习和仿生的方法，如专家系统、机器学习、深度学习等。分类与发展分
数据挖掘：从理论到实践的深度探索代码老y 数据挖掘人工智能
在当今数字化时代，数据已经成为企业决策的重要依据。数据挖掘作为一门从大量数据中提取有价值信息的技术，已经广泛应用于各个领域，如金融、医疗、零售、互联网等。本文将深入探讨数据挖掘的基本概念、主要技术和实际应用案例，帮助读者更好地理解数据挖掘的价值和应用。一、数据挖掘的基本概念（一）数据挖掘的定义数据挖掘（DataMining）是从大量数据中提取有用信息的过程。它结合了统计学、机器学习、数据库技术和人
【力扣（LeetCode）】数据挖掘面试题0003： 356. 直线镜像
文章大纲题目描述**坐标变化规律**解题方案题目描述在一个二维平面空间中，给你n个点的坐标。问，是否能找出一条平行于y轴的直线，让这些点关于这条直线成镜像排布？平行于y轴的直线（即垂直于x轴的直线，其方程形式为(x=a)，其中(a)为常数）的对称点具有以下显著特点：坐标变化规律设直线为(x=a)，平面内任意一点(P(x,y))关于该直线的对称点为(P’(x’,y’))，则两者坐标满足：纵坐标不变：
开发智能化的企业并购风险评估模型
开发智能化的企业并购风险评估模型关键词：企业并购、风险评估、人工智能、机器学习、深度学习、数学建模摘要：本文详细探讨了开发智能化企业并购风险评估模型的背景、核心概念、算法原理、系统架构设计以及项目实战。通过结合机器学习和深度学习技术，提出了一种基于数据驱动的智能化风险评估方法，旨在帮助企业更准确地识别和预测并购过程中的潜在风险，提升决策的科学性和有效性。第1章:企业并购风险评估模型的背景与问题描述
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

机器学习与数据挖掘

第一章 引言

0. 什么是数据挖掘

1. 数据中的知识发现包括哪几个步骤

2. 数据挖掘的应用

第二章 学习的可行性

1. Hoeffding’s Inequality（霍夫汀不等式）

2. 用霍夫汀不等式说明学习的可行性

第三章 数据和数据预处理

1. 属性类型和可进行的操作

2. 非对称属性

3. 相似性和相异性度量

3.1 数据对象之间的相异度

3.2 二元数据的相似性度量

3.3 组合异种属性的相似度

4. 数据预处理

4.1 数据清理

4.1.1 填充缺失值（missing data）

4.1.2 光滑噪声（noise）

4.1.3 识别离群点（outlier）

4.1.4 纠正数据中的不一致

4.2 数据集成

4.2.1 实体识别问题

4.2.2 冗余和相关分析

4.3 数据归约

4.3.1 数据聚合

4.3.2 数据压缩

4.3.3 数量规约

4.3.4 维归约

4.4 数据变换与数据离散化

4.4.1 规范化

4.4.2 离散化

第四章 决策树学习

1. 决策树学习的基本思想

2. 如何选择最佳划分

3. 过拟合和欠拟合

4. 缺失值对决策树的影响

5. 混淆矩阵（confusion matrix）

6. 评估分类器性能的方法

第五章 神经网络

1. 神经网络如何学习

2. 梯度下降算法

3. 反向传播算法（BP算法）

第六章 贝叶斯分类方法

1. 根据贝叶斯理论，如何计算一个假设h成立的后验概率？

2. 极大后验假设和极大似然假设

3. 最小描述长度的基本思想

4. 贝叶斯最优分类器

5. 朴素贝叶斯分类器

6. 贝叶斯信念网络的预测与诊断

7. 偏差-方差分析

第七章 基于实例的学习

1. k近邻学习算法

2. k近邻学习时为什么距离要归一化

3. 局部加权线性回归

4. 基于案例的推理（CBR）与k-NN的异同

5. 懒惰学习与积极学习的区别

第八章 集成学习

1. 集成学习的定义

2. 集成学习的两个主要问题

3. Stacking基本思想和伪代码

4. Bagging基本思想和伪代码

5. Boosting基本思想和伪代码

6. 为什么集成学习有效

第九章 分类技术

1. 基于规则的分类器

1.1 规则质量评估

1.2 优点

1.3 需要解决的问题

1.4 规则建立的方法

2. 顺序覆盖算法

3. 支持向量机

第十章 聚类分析

1. 聚类的定义

2. 聚类（clustering）的类型

3. 簇（cluster）的类型

4. 层次聚类

4.1 层次聚类的两种主要类型

4.2 定义簇之间的邻近性

4.3 层次聚类的缺点

第一章引言

第二章学习的可行性

第三章数据和数据预处理

第四章决策树学习

第五章神经网络

第六章贝叶斯分类方法

第七章基于实例的学习

第八章集成学习

第九章分类技术

第十章聚类分析

第十一章关联分析