上官永石

一、机器学习概论和模型评估与选择

一、绪论

1. 引言

人可以从原有的经验对现有的事物做出判断，也就是利用经验对新情况做出有效的决策。机器学习是通过模仿人的方式，通过计算的手段，利用经验来改善系统自身的性能。在计算机中，“经验” 通常以 “数据” 的形式存在，因此，机器学习所研究的 主要内容，是能够在计算机上从数据中产生 “模型” 的算法，也就是学习算法。即机器学习研究的是算法。

有了学习算法，我们把经验数据提供给它，它就能基于这些数据产生模型，在面对新的情况时，模型会给我们提供相应的判断。

2. 基本术语

数据集
数据记录的集合，其中每个记录是关于一个对象的描述，称为一个 “示例” （或 “样本”）。
属性
反映事件或对象在某方面的表现或性质的事项。某个对象在属性上的取值称为 属性值。属性张成的空间称为 “属性空间”，每个对象都可以根据自己的属性值在这个空间中找到自己的坐标位置，空间中的每个点对应于一个坐标向量，所以我们也把一个示例称为一个 “特征向量”。

组成

包含

张成

确定一个点(特征向量)

示例(样本)

数据集

属性

属性空间

我们可以用 $D=\{\pmb{x}_1,\pmb{x}_2,\cdots,\pmb{x}_m\}$ 表示包含 $m$ 个示例的数据集，每个示例由 $d$ 个属性描述，则每个示例表示为 $\pmb{x}_i=(x_{i1},x_{i2},\cdots,x_{id})$ ，它是 $d$ 维样本空间 $\mathcal{X}$ 中的一个向量， $\pmb{x}_i \in \mathcal{X}$ ， $d$ 称为样本 $\pmb{x}_i$ 的维数。
学习
从数据中学的模型的过程称为 “学习” 或 “训练” ，这个过程通过执行某个学习算法来完成。
训练样本、训练集
训练过程中使用的数据称为 “训练数据”，其中的每个样本称为一个 “训练样本”，训练样本组成的集合称为 “训练集” 。
假设、真相
学得的模型对应了关于数据的某种潜在的规律，所以也称为 “假设”；这种潜在的规律自身，称为 “真相” 或 “真实”，学习过程就是为了找出或逼近真相。
样例
有时我们为了学习一个模型，仅有示例数据是不够的，可能还需要训练样本的 “结果” 信息，关于示例结果的信息称为 “标记”，有了标记信息的示例称为 “样例”。一般地，用 $(\pmb{x}_i,y_i)$ 表示第 $i$ 个样例，其中 $y_i \in \mathcal{Y}$ 是示例 $\pmb{x}_i$ 的标记， $\mathcal{Y}$ 是所有标记的集合，也称为 “标记空间” 或 “输出空间”。
分类、回归、聚类
       如果我们预测的结果是离散值，例如预测结果为 “好” 或 “坏”，就将该任务称为分类。对于只涉及两个类别的 “二分类” 任务，称这两个类别分别为 “正类” 和 “反类” ，对于涉及多个类别时，称为 “多分类” 任务。

       如果预测的结果是连续值，例如预测结果是西瓜的成熟度 0.95、0.98，称为回归。

       一般地，预测任务是希望通过对训练集 $\{(\pmb{x}_1,y_1),(\pmb{x}_2,y_2), \cdots ,(\pmb{x}_m,y_m)\}$ 进行学习，建立一个从输入空间到 $\mathcal{X}$ 到输出空间 $\mathcal{Y}$ 的映射 $f：\mathcal{X} \mapsto \mathcal{Y}$ 。

       如果是将训练集中的对象分成若干组，每组称为一个 “簇” ，这种任务称为 “聚类” 。这些自动形成的簇可能对应一些潜在的概念划分。在聚类学习中，示例的标记结果信息通常是不包含在训练集中的。
监督学习和无监督学习
根据训练数据是否拥有标记信息，还可以将学习任务分为两大类：“监督学习” 和 “无监督学习” ，分类和回归是监督学习的代表，聚类是无监督学习的代表。
泛化能力
机器学习的目的是使学得的模型很好地适用于 “新样本” ，而不仅仅是在训练样本上工作得很好，学得的模型适用于新样本得能力，称为 “泛化” 能力。具有强泛化能力的模型能很好地使用于整个样本空间。通常假设样本空间中全体样本服从一个未知 “分布” $\mathcal{D}$ ，我们获得的每个样本都是独立地从这个分布上采样获得的，即 “独立同分布” 。一般来说，训练样本越多，我们得到的关于 $\mathcal{D}$ 的信息越多，这样就越有可能通过学习获得具有强泛化能力的模型。

3. 假设空间

归纳与演绎是科学推理的两大基本手段。

归纳是 从特殊到一般 的 “泛化” 过程，即从具体的事实归结出一一般性规律。

演绎是 从一般到特殊 的 “特化” 过程，即从基础原理推演出具体的情况。

从样例中学习显然是一个归纳的过程，因此也称为 归纳学习 。归纳学习有狭义与广义之分，广义的归纳学习相当于从样例中学习，而狭义的归纳学习则要求 从训练数据中学得概念 ，因此也称为 “概念学习” 。因为学得泛化性能好且语义明确的概念太过困难，因此概念学习的研究和应用都比较少，概念学习中最基本的是布尔概念学习，也就是对 “是” 或者 “不是” 这样的可表示为 0/1 布尔值的目标概念的学习。

我们可以把学习的过程看作一个在所有假设组成的空间中进行搜索的过程，搜索目标是找到与训练集 “匹配” 的假设。假设的表示一旦确定，假设空间及其规模大小就确定了。可以有许多策略对这个假设空间进行搜索，如自顶向下、从一般到特殊、自底向上、从特殊到一般等，搜索过程中可以不断删除与正例不一致的假设、和与反例一致的假设，最终将会获得与训练集一致的假设，这就是学习的结果。

因为学习过程是基于有限样本训练集进行的，所以可能有多个假设与训练集一致，也就是存在着一个与训练集一致的 “假设集合” ，我们称为 “版本空间”（version space）。

4. 归纳偏好

通过学习得到的模型对应了假设空间中的一个假设，但是可能会得到多个与训练集一致的假设，他们对应的模型在面临新样本时却会产生不同的输出，这时，我们应该采用哪一个模型（或假设）？

对于一个具体的学习算法而言，它必须要产生一个模型，这时，学习算法本身的 “偏好” 就会起到关键作用。我们可以通过选择偏向某种类型的假设作为我们的模型，机器学习算法在学习过程中对某种类型假设的偏好，称为 “归纳偏好” （inductive bias），或简称为 “偏好”。

任何一个有效的机器学习算法必有其归纳偏好，否则它将被假设空间中看似在训练集上 “等效” 的假设所迷惑，而无法产生正确的学习结果。

下图展示了归纳学习的作用，图中每个点是一个训练样本，要学得一个与训练集一致的模型，相当于找到一条穿过所有训练样本点的曲线。显然，对有限个样本点组成的训练集，存在着很多条曲线与其一致，所以算法必须有某种偏好，才能产生出它认为 “正确” 的模型。

归纳偏好可以看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式。一种简单的原则是 “奥卡姆剃刀”，即 “若有多个假设与观察一致，则选择最简单的那个” 。如果选择这个原则，那么下图的平滑意味着更简单，我们就会选择平滑的曲线 A 作为最后的结果。但是在很多情况下，我们并不能直接判断某个假设更简单，所以我们还需要其他的机制来解决归纳问题。

我们选择了一个学习算法后，希望的是该算法会比其他的算法表现得更好，在一般情况下，确实可能如此，但是也会存在在某种情况下其他的算法表现更好，也就是对于一个学习算法 A ，若它在某些问题上比学习算法 B 好，则必然存在另一些问题，在那里 B 比 A 好。这个结论对于任何算法均成立，这就是 “没有免费得午餐” 定理（No Free Lunch Theorem, NFL）。

但是，NFL 定理有一个重要的前提：所有 “问题” 出现的机会相同、或所有问题同等重要。但在实际中并不是这样，很多时候，我们只关注自己正在试图解决的问题，为这个问题找到一个解决方案，至于这个解决方案在别的问题、或相似的问题上是否为好方案，我们并不关心。NFL 定理最重要的是让我们意识到，要谈论算法的相对优劣，必须要阵对具体的学习问题，学习算法的好坏往往取决于自身的归纳偏好与问题是否相匹配。

二、模型评估与选择

1. 经验误差与过拟合

我们把学习器（模型）的实际预测输出与样本的真实输出之间的差异称为 “误差”（erroe），学习器在训练集上的误差称为 “训练误差”（training errror）或 “经验误差”（empirical error），在新样本上的误差称为 “泛化误差”（generalization error）。

显然，我们希望得到一个经验误差小的学习器，在很多情况下，我们可以学得一个经验误差很小、在训练集上表现很好的学习器，但是这样的学习器在多数情况下都不好。我们实际希望的是在新样本上能表现得很好的学习器，为了达到这个目的，应该从训练样本中尽可能学出适用于所有潜在样本得 “普遍规律”，这样才能在遇到新样本时做出正确得判别。但是当学习器把训练样本学得太好时，很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有得一般性质，这样会导致泛化性下降，这种现象在机器学习中称为 “过拟合”（overfiting）。与过拟合相对应的是 “欠拟合”（underfitting），这是指对训练样本的一般性质尚未学好。

有多种因素可能导致过拟合，最常见的情况是学习能力过于强大，以至于把所有训练样本所包含的不太一般的特性都学到了。过拟合是机器学习面临的关键障碍，各类学习算法都必然带有一些阵对过拟合的措施，然和过拟合是无法彻底避免的，我们所能做的只是 “缓解” 。

2. 模型的评估方法

在现实任务中，我们往往有多种学习算法可供选择，甚至对同一个学习算法，当使用不同的参数配置时，也会产生不同的模型，机器学习中对不同学习算法的选择和选择哪种参数配置的问题称为 “模型选择” （model selection）问题。理想的方法是对候选模型的泛化误差进行评估，然后选择泛化误差最小的那个模型。但是我们不能直接获得泛化误差，训练误差由于过拟合现象的存在而不适合作为标准，那么我们如何进行模型评估于选择呢？

通常，我们可通过实验测试来对学习器的泛化误差进行评估并进而做出选择。为此，需要使用一个 “测试集”（testing set）来测试学习器对新样本的判别能力，然后以测试集上的 “测试误差”（testing error）作为泛化误差的近似。但是测试集应该尽可能与训练集互斥，即测试样本尽量不在训练集种出现、围在训练过程中使用过。

对于只包含 $m$ 个样例的数据集 $D=\{(\pmb{x}_1,y_1),(\pmb{x}_2,y_2), \cdots ,(\pmb{x}_m,y_m)\}$ ，既要训练，又要测试，我们应该怎么进行划分，从中产生训练集 $S$ 和测试集 $T$ ? 下面介绍几种划分方法。

留出法

       “留出法”（hold-out）直接将数据集 $D$ 划分为两个互斥的集合，其中一个集合作为训练集 $S$ ，另一个作为测试集 $T$ ，在 $S$ 上训练出模型后，用 $T$ 来评估其测试误差，作为对泛化误差的估计。

       需要注意的是，训练/测试集的划分要尽可能保持数据分布的一致性，避免因数据划分过程引入额外的偏差而对最终结果产生影响。例如在分类任务中，至少要保持样本的类别比例相似。

       训练集和测试集的比例也会对最终的模型造成影响，若训练集 $S$ 包含大多数样本，则训练出的模型可能更接近于用 $D$ 训练出的模型，但是由于 $T$ 较小，评估结果可能不够稳定准确；若令测试集多包含一些样本，则训练集 $S$ 与 $D$ 差别更大了，被评估的模型与用 $D$ 训练出的模型相比可能有较大的差别，从而降低了评估结果的保真性（fidelity）。这个问题没有完美的解决方法，常见的做法是将大约 $\frac{2}{3} \sim \frac{4}{5}$ 的样本进行训练，剩余的样本用于测试。
交叉验证法

       “交叉验证法”（cross validation）先将数据集 $D$ 划分为 $k$ 个大小相似的互斥子集，即 $D=D_1 \cup D_2 \cup \cdots \cup D_k，D_i \cap D_j = \varnothing (i \neq j)$ 。每个子集 $D_i$ 都尽可能保持数据分布的一致性，即从 $D$ 中通过分层采样得到。然后，每次用 $k - 1$ 个子集的并集作为训练集，余下的那个子集作为测试集；这样就可以获得 $k$ 组训练/测试集，从而可以进行 $k$ 次训练和测试，最终返回的是这 $k$ 个测试结果的均值。

       交叉验证法评估结果的稳定性和保真性在很大程度上取决于 $k$ 的取值，为了强调这一点，通常称交叉验证法为 “ $k$ 折交叉验证”（k-fold cross validation）。 $k$ 常用的取值是 10，此时称为 10 折交叉验证，其他常用的 $k$ 值称有 5、20 等。下面展示了 10 折交叉验证的示意图：

       将数据集 $D$ 划分为 $k$ 个子集同样存在多种划分方式，为减小因划分样本不同而引入的差别，通常要随机使用不同的划分重复 $p$ 次，最终的评估结果是这 $p$ 次 $k$ 折交叉验证结果的均值。

       如果数据集 $D$ 中包含 $m$ 个样本，若令 $k = m$ ，则得到了交叉验证法的一个特例：留一法（Leave-One-Out，LOO）。显然，留一法不受随机样本划分方式的影响，因为 $m$ 个样本只有唯一的方式划分为 $m$ 个子集。在这种情况下，实际评估的模型与期望评估的 $D$ 训练出的模型很相似，所以其评估结果往往被认为是比较准确的。然而在样本数过多时，该方法的开销会特别大。同时，“没有免费的定理” （NFL）定理对于实验评估方法同样适用。
自助法

       我们期望评估的是用整个数据集 $D$ 训练出的模型，但是在留出法和交叉验证法中，总会保留一部分样本用于测试，所以其训练集总会比 $D$ 小，这必然会引入一些估计误差。味蕾减少训练样本规模不同造成的影响，我们提出 “自助法”（bootstrapping）。

       自助法直接以自助采样法（bootstrap sampling）为基础。给定包含 $m$ 个样本的数据集 $D$ ，我们对它进行采样产生数据集 $D^{'}$ ：每次随机从 $D$ 中挑选一个样本，将其拷贝放入 $D^{'}$ ，然后将该样本放回。重复这个过程 $m$ 次后，可以得到包含 $m$ 个样本的数据集 $D^{'}$ ，这就是自助采样的结果。我们用 $D^{'}$ 作为训练集， $D - D^{'}$ 用做测试集。

       从上门的采样过程我们可以知道， $D$ 中有一部分样本会在 $D ’$ 中多次出现，而有一部分不会出现。样本在 $m$ 次采样中始终不被采到的概率为 $(1-\frac{1}{m})^m$ ，取极限可以得到
$\lim_{m\rightarrow \infty}(1-\frac{1}{m})^m=\frac{1}{e}\approx 0.368$

也就是通过自助采样， $D$ 中约有 36.8% 的样本未出现在 $D^{'}$ 中，这样实际评估的模型与期望评估的模型都使用 $m$ 个训练样本，而我们仍有数据总量约为 $\frac{1}{3}$ 的、没有在训练集中出现的样本用于测试。这样的测试结果也称为 “包外估计”（out-of-bag estimate）。

       自助法在数据集较小、难以有效划分训练/测试集时很有用，自助法也可以从初始数据集中产生多个不同的训练集，这对集成学习等方法有很大的好处。但是自助法产生的数据集改变了初始数据集的分布，这会引入估计偏差。所以在初始数据量足够时，前面两种方法更常用。
调参与最终模型

大多数学习算法都有些参数需要设定，参数配置不同，学得模型的性能回有显著差别。所以在进行模型评估与选择时，除了要对学习算法选择，还要对参数进行设定，这个过程称为 “参数调节” 或 “调参” （parameter tuning）。

机器学习中常涉及两类参数：
- 超参数：算法的参数，通常是由人工设定多个参数候选值后产生模型
- 模型参数：训练的模型的参数，数目可能很多，通常通过学习来产生多个候选模型
       一般情况下，调参和算法的选择没有本质区别：对每种参数配置都训练出模型，然后把对应最好的模型的参数作为结果。但是要注意的是，学习算法的很多参数是在实数范围内取值，因此对每种参数配置都训练出来模型是不可能的，通常的做法是对每个参数选定一个范围和变化步长，例如在 $[0, 0.2]$ 范围内以 0.05 为步长，则实际要评估的候选参数值只有五个，最终的值是从这五个取值中产生的。可能该参数值不是最佳的，但却是在计算开销和性能之间折中的结果。事实上，即便是进行了这种折中，还是会产生很多个模型需要考察。

       在模型评估与选择过程中，我们只是选择了一部分数据训练模型，在模型选择完成后，学习算法和参数配置都已选定，此时应该使用数据集 $D$ 重新训练模型，这个模型才是最终要提交给用户的模型。

       通常我们称在模型实际使用中的数据称为测试数据，为了加以区分，在模型评估与选择中用于测试的数据集常称为 “验证集”（validation set）。

3. 性能度量

对学习器的泛化性能进行评估，不仅需要实验估计方法，还需要由衡量模型泛化能力的评价标准，这就是性能度量（performance measure）。对模型好坏的衡量不仅仅取决于算法和数据，还决定于任务的需求，我们使用性能度量来反应任务的需求。

在预测任务中，给定样例集 $D=\{(\pmb{x}_1,y_1),(\pmb{x}_2,y_2), \cdots ,(\pmb{x}_m,y_m)\}$ ，其中 $y_i$ 是示例 $\pmb{x}_i$ 的真实标记。要评估学习器 $f$ 的性能，就要把学习器预测的结果 $f(\pmb{x})$ 与真实标记 $y$ 进行比较。

回归任务最常用的性能度量是 “均方误差”（mean squared error）
$D)=\frac{1}{m} \sum_{i=1}^{m}\left(f\left(\boldsymbol{x}_{i}\right)-y_{i}\right)^{2}$

下面主要介绍分类任务中常用的性能度量。

错误率与精度
错误率和精度是分类任务中最常用的两种性能度量，这两种方式即适用与二分类，也适用于多分类。错误率 是分类错误的样本数占样本总数的比例，精度是分类正确的样本数占样本总数的比例。对样例集 $D$ ，分类错误率定义为
$D)=\frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\left(f\left(\boldsymbol{x}_{i}\right) \neq y_{i}\right)$

精度则定义为
$\begin{aligned} \operatorname{acc}(f ; D) &=\frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\left(f\left(\boldsymbol{x}_{i}\right)=y_{i}\right) \\ &=1-E(f ; D) \end{aligned}$
查准率、查全率与 F1

       有时我们需要知道我们选出的数据有多少是正确的，以及所有数据中有多少正确的数据被检索出来了。这时我们需要使用其他的性能度量。

       以信息检索为例，检索出的信息中有多少比例是用户感兴趣的，该值称为 查准率 （precision），用户感兴趣的内容有多少被检测出来了，该值称为 查全率（recall）。

       对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为 真正例（true positive）、假正例（false positive）、真反例（true negative）、假反例（false negative）四种情况，令 TP、FP、TN、FN 分别表示其对应的样例数，我们可以定义分类结果的 “混淆矩阵” 如下：

通过上表的表示，我们可以将查准率 P 与查全率 R 分别定义为：

$P=\frac{TP}{TP+FP}$

$R=\frac{TP}{TP+FN}$

       查准率与查全率是一对矛盾的度量。一般来说，查准率高时，查全率往往偏低；而查全率高时，查准率往往偏低。

       很多情形下，我们可根据学习器的预测结果对样例进行排序，排在前面的是学习器认为 “最可能” 是正例的样本，排在后面的是学习器认为 “最不可能” 是正例的样本。我们按该顺序依次把每个样本作为正例和反例的分界点，可以计算出每次的查全率、查准率。然后以查准率为纵轴、查全率为横轴作图，就得到了查准率-查全率曲线，简称 “P-R 曲线” ，显示该曲线的图称为 “P-R 图” 。下面给出了一个示意图。

       P-R 图直观地显示出学习器在样本总体上的查全率、查准率。在进行比较时，若一个学习器的 P-R 曲线被另一个学习器的曲线完全 “包住” ，则可以断言后者的性能优于前者，上图中的学习器 A 的性能大于学习器 C ；如果两个学习器的 P-R 曲线发生了交叉，如上图的 A 和 B ，则难以一般性地断言两者的优劣，只能在具体的查准率或查全率条件下进行比较。在这种情况下，另外一个比较合理的判据是比较 P-R 曲线下面积的大小，它在一定程度上表征了学习器在查全率和查准率取得相对 “双高” 的比例，但这个值不太容易估计，因此人们设计了一些综合考虑查准率和查全率的性能度量。

       “平衡点”（Break-Even Point，BEP）是 “查准率=查全率” 时的取值。例如上图中 A 的 BEP 大于 B 的，所以可以认为学习器 A 优于 B。

       相比于平衡点，F1 度量更常用，其表示为：
$F1=\frac{2 \times P \times R}{P+R}=\frac{2 \times TP}{\text{样例总数}+TP-TN}$

       在一些应用中，对查重率和查全率的重视程度有所不同， $F 1$ 度量的一般形式—— $F_{\beta}$ ，能让我们表达出对查准率/查全率的不同偏好，它定义为：
$F_{\beta}=\frac{\left(1+\beta^{2}\right) \times P \times R}{\left(\beta^{2} \times P\right)+R}$

其中 $\beta > 0$ 度量了查全率对查准率的相对重要性。 $\beta=1$ 时表示标准的 $F 1$ ； $\beta >1$ 时查全率有更大影响； $\beta<1$ 时查准率有更大影响。
ROC 与 AUC

       很多机器学习器是为测试样本产生一个实值或概率预测，然后将这个预测值与一个分类阈值（threshold）进行比较，若大于阈值则分为正类，否则为反类。这样分类过程就相当于在这个排序中以某个 “截断点” 将样本分为两部分，前一部分作为正例，后一部分作为反例。

       在不同的任务中，我们可以根据任务需求来采取不同的截断点，例如若我们更重视 “查准率” ，则可以选择排序中靠前的位置进行截断；若更重视 “查全率” ，可以选择靠后的位置进行截断。因此，排序本身的质量好坏，体现了综合考虑学习器在不同任务下的 “期望泛化性能” 的好坏，ROC 曲线 就是从这个角度来 研究学习器泛化性能 的工具。

       我们根据学习器的预测结果对样例进行排序，按此顺序依次把每个样本作为正例反例的截断点，然后用下面的两个公式，计算出两个值，分别以它们作为横、纵坐标作图，就得到了 “ROC 曲线” ，这里纵轴是 “真正率”（True Positive Rate，TPR），横轴是 “假正例率”（False Positive Rate，FPR），分别定义为：
$\mathrm{TPR}=\frac{T P}{T P+F N}$

$\mathrm{FPR}=\frac{F P}{T N+F P}$

显示 ROC 曲线的图称为 “ROC 图” 。下面给出了一个示意图：

       与 P-R 图相似，若一个学习器的 ROC 曲线被另一个完全 “包住” ，则可以断言后者的性能优于前者；当两个学习器的 ROC 曲线发生交叉，一种较为合理的判据是比较 ROC 曲线下的面积，也就是 AUC（Area Under ROC Curve）。
代价敏感错误率

       在现实任务中常会遇到这种情况，不同类型的错误所造成的后果不同，为权衡不同类型错误所造成的不同损失，可以为错误赋予 “非均等代价”（unequal cost）。

       以二分类任务为例，我们可以根据任务的领域知识，设定一个 “代价矩阵”（cost matrix），如下表所示，其中 $cost_{ij}$ 表示将第 $i$ 类样本预测为第 $j$ 类样本的代价。

       因此，在非均等概率下，我们希望最小化的值变为了 “总体代价”（total cost）。若将上表中的第 0 类作为正类，第 1 类作为反类，令 $D^+$ 与 $D^-$ 分别代表样例集 $D$ 的正例子集和反例子集，则 “代价敏感”（cost-sensitive）错误率为
$\mathrm{cost})=\frac{1}{m} \left( \sum_{\boldsymbol{x}_{i} \in D^{+}} \mathbb{I}\left(f\left(\boldsymbol{x}_{i}\right) \neq y_{i}\right) \times \operatorname{cost}_{01} +\sum_{\boldsymbol{x}_{i} \in D^{-}} \mathbb{I}\left(f\left(\boldsymbol{x}_{i}\right) \neq y_{i}\right) \times \operatorname{cost}_{10} \right)$

       类似的，可以给出基于分布定义的代价敏感错误率，以及其他一些性能度量，如精度的代价敏感版本。若令 $cost_{ij}$ 中的 $i 、 j$ 取值不限于 0、1 ，则可以定义出多分类任务的代价敏感性能度量。

【包邮送书】你好！Python Mindtechnist 粉丝福利 python 网络开发语言机器学习
欢迎关注博主Mindtechnist或加入【智能科技社区】一起学习和分享Linux、C、C++、Python、Matlab，机器人运动控制、多机器人协作，智能优化算法，滤波估计、多传感器信息融合，机器学习，人工智能等相关领域的知识和技术。关注公粽号《机器和智能》回复关键词“python项目实战”即可获取美哆商城视频资源！博主介绍：CSDN博客专家，CSDN优质创作者，CSDN实力新星，CSDN内容
基于遗传算法的城市旅行问题（TSP）求解 NovakG_ 深度学习 python 算法深度学习神经网络
1.遗传算法背景介绍遗传算法是一种基于生物进化论中的自然选择和遗传机制的优化算法，模拟了生物进化过程以搜索最优解。通过仿真染色体的交叉、变异等操作，遗传算法将求解过程转换为类似生物进化的迭代运算。该算法在解决复杂的组合优化问题时，通常比常规优化算法更高效，且具有广泛应用，包括组合优化、机器学习、信号处理、自适应控制和人工生命等领域2.遗传算法基本解题思路遗传算法的设计思路主要受到大自然中生物体进化
【2025 ODA teigha .NET系列开发教程第五章】给CAD实体添加附属数据XDATA，包括源码三好学生～张旺 ODA Teigha .NET开发教程 .net
系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档2025ODAteigha.NET系列开发教程系列文章目录AutoCADXData扩展数据开发指南什么是XData？XData的两种存储方式1.全局字典存储(XRecord)2.实体附加存储步骤1：注册应
【数据挖掘实战】房价预测机器学习司猫白数据挖掘人工智能 python 机器学习
本次对kaggle中的入门级数据集，房价回归数据集进行数据挖掘，预测房屋价格。本人主页：机器学习司猫白机器学习专栏：机器学习实战PyTorch入门专栏：PyTorch入门深度学习实战：深度学习ok，话不多说，我们进入正题吧概述本次竞赛有79个解释变量（几乎）描述了爱荷华州艾姆斯住宅的各个方面，需要预测每套住宅的最终价格。数据集描述本次数据集已经上传，大家可以自行下载尝试文件说明train.csv-
【AI日志分析】基于机器学习的异常检测：告别传统规则的智能进阶网罗开发 AI 大模型人工智能机器学习
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Copilot 概述计算机萍萍学姐 copilot copilot 人工智能机器学习
Copilot是什么？它有什么用途？Copilot是由人工智能公司和GitHub合作开发的一个基于人工智能的代码提示工具，它可以利用机器学习技术和大量训练数据生成高质量的代码。Copilot的目标是在保持代码质量和可读性的前提下，提高开发者的编码效率，使得编码工作更为高效和便捷。Copilot的出现是解决编程过程中可能遇到的一些难点和瓶颈问题，特别是在快速迭代的敏捷开发场景中，提高编码效率和减少编
让旅游更智能：基于AR的旅游导览应用解析 Echo_Wish Python 笔记 Python算法旅游 ar restful
友友们好！我的新专栏《Python进阶》正式启动啦！这是一个专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发等。●实战案例：通过丰富的实战案例，带你一步步实现
【AI日志分析】基于机器学习的异常检测：告别传统规则的智能进阶人工智能机器学习深度学习
摘要随着系统规模的扩大和复杂性增加，传统基于规则的日志分析方法难以识别隐藏的复杂异常模式。本文将介绍基于机器学习的日志异常检测技术，包括模型选择、特征工程及实现步骤。通过具体的代码示例与图表，展示如何高效检测异常日志，并提供应用场景与优化策略。引言日志是系统运行状态的关键数据来源，但面对海量日志数据，传统规则式分析显得力不从心。机器学习能够根据日志的历史数据和行为模式，通过训练模型检测异常情况，不
【Python】已完美解决：ERROR: Could not find a version that satisfies the requirement re 屿小夏 python 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
下载马斯克Grok-1模型的实战代码 herosunly 大模型 grok-1 下载模型实战代码
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了下载马斯克Grok-1模型的实战代码，希望能对学习大模型的同学们有所帮助
吴恩达深度学习笔记（七）——机器学习策略子非鱼icon 深度学习自学笔记深度学习机器学习人工智能神经网络吴恩达
一、正交化通俗的理解就是：要能够诊断出系统性能瓶颈在哪里，以有策略刚好解决这个问题。一个“按钮”只负责解决一件事情。二、单一数字评估指标准确率（precision）：在分类器中标记为猫的例子中，有多少是真的猫召回率（recall）：对于所有的真猫图片，你的分类器正确识别了多少。但如果有两个评估指标，就很难去选择一个更好的分类器，如下图所示。所以有一个结合这两个指标的标准方法，也即F1分数，定义如下
数据挖掘：定义、挑战与应用黑色叉腰丶大魔王数据挖掘人工智能
一、数据挖掘的定义（一）概念阐述数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它融合了数据库技术、统计学、机器学习、人工智能等多学科的理论和方法，旨在通过对数据的深入分析和处理，发现有价值的模式、关联、趋势等，从而为决策提供支持。（二）与相关概念的区别与联系数据库管理：数据库管理侧重于数据的存储、组织、检索和维护
使用Google Vertex AI Search进行企业级高级搜索 hgSdaegva 人工智能 python
技术背景介绍GoogleVertexAISearch（前称为EnterpriseSearchonGenerativeAIAppBuilder）是GoogleCloud提供的VertexAI机器学习平台的一部分。VertexAISearch允许组织快速建立由生成式AI驱动的搜索引擎，为客户和员工提供服务。它基于各种GoogleSearch技术，包括语义搜索，通过使用自然语言处理和机器学习技术来推断内
在EverlyAI上运行LLM模型——以LLAMA为例 HGWAcsdgvs llama python
在EverlyAI上运行LLM模型——以LLAMA为例技术背景介绍EverlyAI是一个强大的云平台，允许你在云中大规模运行机器学习模型。它还提供了对多种大型语言模型（LLM）的API访问。在这篇文章中，我们将展示如何使用EverlyAI的API来调用LLAMA模型。通过这种方式，你可以在云端轻松地运行和测试你的语言模型。核心原理解析LLAMA模型是一个强大的变压器模型，它具有数十亿个参数，能够处
自动化评估：利用机器学习算法评估 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1评估的意义评估在各个领域都扮演着至关重要的角色，例如教育、人力资源、医疗保健等。传统评估方式通常依赖人工，费时费力且容易受到主观因素的影响。随着机器学习技术的不断发展，自动化评估逐渐成为一种趋势，它能够提高评估效率、降低成本并减少人为偏差。1.2机器学习在评估中的优势机器学习算法能够从大量数据中学习规律，并根据这些规律对新的数据进行预测或分类。在评估领域，机器学习可以用于：自动评
Level2逐笔成交逐笔委托毫秒记录：今日分享优质股票数据20250122 2401_89140926 python 金融数据库大数据
逐笔委托逐笔成交下载链接:https://pan.baidu.com/s/1WP6eGLip3gAbt7yFKg4XqA?pwd=7qtx提取码:7qtxLevel2逐笔成交逐笔委托数据分享下载通过Level2逐笔成交和逐笔委托这种每一笔的毫秒级别的数据可以分析出很多有用的点，包括主力意图，虚假动作，让任何操作无所遁形。适合交易大师来分析主力规律，也适合人工智能领域的机器学习，数据量大且精准。以下
机器学习-分类算法评估标准赛丽曼机器学习机器学习分类人工智能
一.准确率accuracy将预测结果和测试集的目标值比较，计算预测正确的百分比准确率越高说明模型效果越好fromsklearnimportdatasetsfromsklearn.model_selectionimporttrain_test_splitfromsklearn.neighborsimportKNeighborsClassifier#加载鸢尾花数据X,y=datasets.load_i
Jetbrains Ai Assistant插件越来越好用了 Ai 编码 Ai编码工具人工智能 android
在IntelliJIDEA中，JetBrainsAI是JetBrains集成的人工智能功能，旨在提高开发效率，辅助开发者更智能地编写、优化和理解代码。JetBrainsAI作为IntelliJIDEA的一部分，通过自然语言处理和机器学习技术，提供了许多智能代码建议和自动化功能。点击这里：获取JetbrainsAiAssistant插件以下是JetBrainsAI在IntelliJIDEA中的一
机器学习算法（八）：基于BP神经网络的乳腺癌的分类预测墨枣机器学习算法神经网络分类人工智能
机器学习算法（八）：基于BP神经网络的乳腺癌的分类预测本项目链接：https://www.heywhale.com/home/column/64141d6b1c8c8b518ba97dcc1.算法简介和应用1.1算法简介BP（BackPropagation）网络是1986年由Rumelhart和McCelland为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经
AI驱动电商搜索导购：技术创新与应用 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
文章标题《AI驱动电商搜索导购：技术创新与应用》关键词：人工智能，电商搜索导购，机器学习，深度学习，推荐系统，自然语言处理，个性化搜索，图像识别，应用案例，未来展望。摘要：本文旨在探讨人工智能（AI）在电商搜索导购领域的应用，分析其技术创新和实际应用案例，探讨AI驱动电商搜索导购的未来发展趋势。文章首先介绍了AI在电商搜索导购中的角色和优势，然后深入探讨了AI基础理论和搜索导购技术原理。接着，文章
【机器学习实战入门】使用OpenCV进行性别和年龄检测精通代码大仙数据挖掘深度学习 python 机器学习 python opencv 数据挖掘人工智能
GenderandAgeDetectionPython项目首先，向您介绍用于此高级Python项目的性别和年龄检测中的术语：什么是计算机视觉？计算机视觉是一门让计算机能够像人类一样观察和识别数字图像和视频的学科。它面临的挑战大多源于对生物视觉有限的了解。计算机视觉涉及获取、处理、分析和理解数字图像，旨在从现实世界中提取高维数据，从而生成可用来做决策的符号或数值信息。该过程通常包括物体识别、视频跟踪
机器学习笔记 - 机器学习/深度学习实战案例合集坐望云起深度学习从入门到精通机器学习深度学习人工智能案例应用神经网络
一、简述如何学习机器学习/深度学习，理论和实践都很重要，理论上的内容需要看课程、读教材。但是实践需要自己动手，实践之后自然会对理论有更深入的理解。怎么实践？借用欧阳修《卖油翁》的话”无他，但手熟尔“。就是多看多写多跑。下面创建这个github的目的是为了存放一些图像处理/计算机视觉/机器学习/深度学习的示例代码集合，不定期会添加新的示例，可供参考。GitHub-bashendixie/ml_too
Java 大视界 -- Java 与大数据分布式机器学习平台搭建（58）青云交大数据新视界 Java 大视界大数据分布式机器学习 Apache Spark Hadoop Apache Flink 平台搭建架构设计
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、欢迎加入【福利社群
AI 对程序员的冲击剖析程序员WANG 工具人工智能机器学习语言模型
摘要随着人工智能（AI）技术的飞速发展，其影响力已逐渐渗透到各个行业，程序员群体也面临着前所未有的冲击。本文深入探讨AI对程序员在编程工作模式、技能需求以及职业发展路径等方面带来的冲击，并分析程序员应对这些冲击的策略与方向，旨在为程序员在AI时代的职业发展提供参考。一、引言AI技术近年来取得了突破性进展，其在自然语言处理、机器学习、深度学习等领域的应用日益广泛。在软件开发领域，AI不再仅仅是辅助工
svm python 模型绘图_1SVM处理数据并绘图张炜大师傅 svm python 模型绘图
爬虫Python基础、数据分析扩展包Numpy、pandas、matplotlib，Python读取MySQL数据，Python爬虫及Scrapy框架，无监督机器学习算法聚类分析等，以及案例：互联网金融行业客户价值分析等。机器学习机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有
机器学习、基础算法、python常见面试题必知必答系列大全：（面试问题持续更新） promptllm人工智能
基础算法常见面试篇1.1过拟合和欠拟合常见面试篇一、过拟合和欠拟合是什么？二、过拟合/高方差（overfiting/highvariance）篇2.1过拟合是什么及检验方法？2.2导致过拟合的原因是什么？2.3过拟合的解决方法是什么？三、欠拟合/高偏差（underfiting/highbias）篇3.1欠拟合是什么及检验方法？3.2导致欠拟合的原因是什么？3.3过拟合的解决方法是什么？1.2Bat
从System Prompt来看GPT-3.5到GPT-4的进化 herosunly 大模型 system prompt gpt-3 chatgpt gpt4 gpt4o
大家好，我是herosunly。985院校硕士毕业，现担任算法t研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了从SystemPrompt来看GPT-3.5到GPT-4的进化之路，希
R语言机器学习算法实战系列（十九）特征选择之Monte Carlo算法（Monte Carlo Feature Selection）生信学习者1 R语言机器学习实战 r语言机器学习算法数据分析数据挖掘数据可视化人工智能
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍原理步骤下载数据加载R包导入数据数据预处理数据分割MCFS运行MCFS-ID过程混淆矩阵重要特征的RI最小阈值距离与共同部分收敛特征重要性排序选择重要特征构建特征依赖图提取重要特征基于重要特征构建随机森林模型混淆矩阵评估模型AUC曲线刻画模型在训练和测试数据集的表现总结系统信息介绍特征选择（FeatureSel
F#语言的图形用户界面沈霁晨包罗万象 golang 开发语言后端
F#语言的图形用户界面开发引言随着软件开发的日益复杂化，图形用户界面（GUI）在现代应用程序中的重要性不可忽视。它提供了一种直观的方式，使用户能够与应用程序进行交互。F#语言作为一种函数式编程语言，近年来在开发领域越来越受到关注，尤其是在数据分析和机器学习领域。但F#同样能够用于图形用户界面的开发，尤其是结合.NET平台及其丰富的库。本文将深入探讨F#语言在图形用户界面开发中的应用，包括常用的框架
【Springboot】——响应与分层解耦架构 Y小夜架构 spring boot 后端 java spring
博主现有专栏：C51单片机（STC89C516），c语言，c++，离散数学，算法设计与分析，数据结构，Python，Java基础，MySQL，linux，基于HTML5的网页设计及应用，Rust（官方文档重点总结），jQuery，前端vue.js，Javaweb开发，设计模式、Python机器学习、Springboot等主页链接：Y小夜-CSDN博客目录响应响应数据✨@ResponseBody✨G
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs