Houchaoqun_XMU

【Active Learning - 03】Adaptive Active Learning for Image Classification

主动学习系列博文：

【Active Learning - 00】主动学习重要资源总结、分享（提供源码的论文、一些AL相关的研究者）：https://blog.csdn.net/Houchaoqun_XMU/article/details/85245714

【Active Learning - 01】深入学习“主动学习”：如何显著地减少标注代价：https://blog.csdn.net/Houchaoqun_XMU/article/details/80146710

【Active Learning - 02】Fine-tuning Convolutional Neural Networks for Biomedical Image Analysis: Actively and Incrementally：https://blog.csdn.net/Houchaoqun_XMU/article/details/78874834

【Active Learning - 03】Adaptive Active Learning for Image Classification：https://blog.csdn.net/Houchaoqun_XMU/article/details/89553144

【Active Learning - 04】Generative Adversarial Active Learning：https://blog.csdn.net/Houchaoqun_XMU/article/details/89631986

【Active Learning - 05】Adversarial Sampling for Active Learning：https://blog.csdn.net/Houchaoqun_XMU/article/details/89736607

【Active Learning - 06】面向图像分类任务的主动学习系统（理论篇）：https://blog.csdn.net/Houchaoqun_XMU/article/details/89717028

【Active Learning - 07】面向图像分类任务的主动学习系统（实践篇 - 展示）：https://blog.csdn.net/Houchaoqun_XMU/article/details/89955561

【Active Learning - 08】主动学习（Active Learning）资料汇总与分享：https://blog.csdn.net/Houchaoqun_XMU/article/details/96210160

【Active Learning - 09】主动学习策略研究及其在图像分类中的应用：研究背景与研究意义：https://blog.csdn.net/Houchaoqun_XMU/article/details/100177750

【Active Learning - 10】图像分类技术和主动学习方法概述：https://blog.csdn.net/Houchaoqun_XMU/article/details/101126055

【Active Learning - 11】一种噪声鲁棒的半监督主动学习框架：https://blog.csdn.net/Houchaoqun_XMU/article/details/102417465

【Active Learning - 12】一种基于生成对抗网络的二阶段主动学习方法：https://blog.csdn.net/Houchaoqun_XMU/article/details/103093810

【Active Learning - 13】总结与展望 & 参考文献的整理与分享（The End…）：https://blog.csdn.net/Houchaoqun_XMU/article/details/103094113

【2013-CVPR】Adaptive Active Learning for Image Classification

阅读时间：

20181023：摘要
20181024：Related Work
20181025：Uncertainty Measure、Information Density Measure、A Combination Framework
20181026：all of the left…

衍生的参考资料：

http://image-net.org/download-attributes

一些需要进一步理解的关键字：

prior density：
information density：
dense region：
sparse region：
mutual information：is a quantity that measures the mutual dependence of two sets of variables
representativeness measure.
Gaussian Process Framework：A Gaussian Process is a joint distribution over a (possibly infinite) set of random variables, such that the marginal distribution over any finite subset of variables is multivariate Gaussian.
symmetric positive definite Kernel function：对称正定的核函数

论文（2013 - CVPR）：

【2013-CVPR】Adaptive Active Learning for Image Classification.pdf

摘要：

近期，主动学习在计算机视觉领域引起广泛的关注。因为主动学习旨在减少时间和花费成本，在此基础上为视觉数据分析提供高质量的标注样本。计算机视觉领域现有的大多数主动学习方法都是应用 Uncertainty 作为样本的筛选策略。虽然 Uncertainty 策略在很多场景下取得了有效的成果，但在"存在大量未标注样本"场景下，效果往往不佳（倾向于离群点）。本研究中，作者尝试提出一种新颖的自适应的主动学习方法，将“information density”和“most uncertainty”等两种策略进行组合，进而筛选出 critical instances 给专家标注，最后对分类模型进行训练。本研究的实验部分包括计算机视觉领域中2个基础的任务：1）object recognition、2）scene recognition，验证本文提出方法的有效性。

阅读感想（hcq）：

what the fk：主动学习相关的论文在2013年就登上 CVPR 了，提出了“information density + most uncertainty”的样本筛选策略。后续要仔细研究研究这篇论文的各种细节！【20181023 - 16:08:25】**

Introduction：摘要

图像分类在计算机视觉研究中是一个留存已久的问题，并且遗留了一个的主要挑战：由于“形状、颜色、尺寸、环境”等因素造成图像之间广泛的类间多样性。为了构建一个鲁棒的图像分类器，往往需要大量的标注样本进行训练。例如，文献[33]将10000个手写体数字的样本用于训练分类器。准备大量的标注样本需要巨大的时间和金钱开销。另一方面，在人类视觉系统中存在一个令人着迷的特征：我们仅仅使用少量的标注训练样本就能够达到较好的分类效果（意思是说，人类的视觉系统非常强大，你要对一些物体进行分类，只需要少部分标注样本进行学习即可）。那么，计算机通过可靠的机器学习算法是否也能够达到这种效果？这就是本研究的动机。作者旨在开发一种有效的主动学习方法，在有限的少数标注样本的情况下，训练一个较好的分类器。
在机器学习研究中，如何尽可能的减少样本标注代价并且训练一个较好的分类器是一项关键的挑战（critical challenge）。在很多情况下，随机选择未标注样本给专家标注往往比较低效，因为一些不具有信息量的样本以及一些冗余的样本很有可能被选中（浪费标注代价，因为这些样本基本上无法提高模型的性能，甚至有可能降低模型的性能）。主动学习方法被用于控制标注的过程，主要目的就是减少样本的标注代价。近期，主动学习在计算机视觉引起广泛的关注[3, 14, 13, 15, 16]，特别是基于未标注样本池的场景（pool-based setting）。然而，这些研究仅仅通过最不确定性指标（most uncertainty measures）计算样本的信息量。他们认为样本具有更高的不确定性就更应该优先被筛选出来标注。尽管通过最不确定性指标筛选最有信息的样本在很多场景下取得了有效的成果，但是他们仅仅是根据当前分类模型获取样本间的关系**（the relationship of the candidate instance；疑问：是样本之间的关系吗？不只是计算每个样本的不确定性吗？），而忽略了未标注样本之间的数据分布信息（引入半监督学习，是不是就可以利用未标注样本之间的信息？）。
仅仅利用最不确定性指标可能导致筛选出一些没用的样本。例如，未标注样本之间存在某些离群样本，这些样本对当前分类器而言不确定性往往很高（很容易被优先选择给专家标注），然而离群样本不仅对提升分类器性能没有帮助，反而可能降低性能。因此，在开发一个主动选择策略时，除了考虑基于分类器的最不确定性指标以外，也应该考虑其他有可能影响的指标。
本研究中，作者提出一种新颖的自适应主动选择策略，在样本选择时，同时利用了标注样本和未标注样本等信息。作者提出的筛选指标是一种自适应的组合方法，包括两种形式：1）基于当前分类器的最不确定性指标；2）一种信息密度形式，能够衡量候选样本和未标注样本之间的相互信息（感觉这就是文本的重点了：and
an information density term that measures the mutual information between the candidate instance and the remaining
unlabeled instances）**。作者通过设置权重的方式对这两种形式进行组合，并通过选择权重参数去最小化分类器在未标注样本之间的分类误差，从而达到一种自适应的权重调整。作者在一些图像分类数据集上进行实验，验证了本研究提出方法的有效性。

Related Work：相关工作

大量关于主动学习技术的被发表在各种文献中。大多数文献都是聚焦于研究如何在每次筛选出一个最具有信息量的未标注样本。大多数研究是基于较短浅的决策，仅仅基于当前状态的分类器使用最不确定性指标原则去筛选出最优先被标注的未标注样本。文献[16, 26]中，通过计算信息熵（entropy）表示最不确定的样本（the most uncertain instance is taken as the one that has the largest entropy on the conditional distribution over its labels）。SVM 选择离支持向量最近的样本的作为最不确定的样本[2, 25, 28]。基于委员会的筛选算法（Query-by-committee）通过训练一组分类器委员，然后以委员投票的方式决定筛选哪个样本作为最不确定的样本。
上述主动学习策略存在一个较明显的不足：他们仅仅基于当前分类器决定哪个样本是最不确定的，却忽略了大量未标注样本之间的信息。如上文分析的那样，上述的选择策略更倾向于（prone to）选择离群样本（如果这组数据存在很多离群样本的话，那么训练得到的分类器性能肯定会大大降低）。然而，主动学习的目标是产生一个具有泛化能力且分类精度较高的分类器，能够适用于目标领域中未经过模型训练的样本（unseen instance in the problem domain）。虽然不能直接得到domain的分布，但是能够通过大量未标注样本池获得相关的信息。
**已提出很多主动学习方法利用标注样本的信息去最小化分类器的泛化误差（minimize the generalization error）。在文献[24]中，根据样本的后验估计通过最大化未标注样本之间期望误差（expected error reduction），从而直接最小化分类器的泛化误差（有点不知道在讲啥，应该是文献24期望筛选的样本是那些能够最大化未标注样本的expected error reduction，从而达到最小化分类器的泛化误差，具体细节还得看原论文）。还有一类主动学习算法通过减少模型的方差间接的减少分类器的泛化误差，包括基于统计方法的文献[4]；此外，文献[35]也是类似的方法，基于 Fisher 信息筛选最优样本。以上关于减少泛化误差（generalization error minimization）**的方法都有一个共同的问题：计算代价昂贵。
**另一类主动学习方法使用大量的启发式指标去利用未标注样本的信息。**文献[19, 32]通过使用未标注样本的先验密度（prior density）p(x)作为不确定性指标的权重，从而达到利用未标注样本的目的。文献[26]提出一种相似的框架，使用cosine distance衡量信息密度（information density）。文献[6, 20]将聚类方法和主动学习方法进行结合，进而同时利用了标注样本和未标注样本的信息。在文献[10 ,17]中，优先选择的样本是为了最大化“基于Gaussian Process models被选中的样本和剩下的未被选中的样本”之间的信息增量。文献[23]通过利用未标注样本信息改进了 query-by-committee 方法。文献[11]尝试去筛选的最优样本使得选中的样本和剩下的未标注样本之间的相关信息最大化，含蓄地利用了未标注样本之间的聚类信息（这段翻译起来有点不不知道在讲啥，哈哈，后续有时间去看看原论文）。
在计算机视觉领域中，研究者将主动学习应用到图像/视频标注[16, 34, 31]，图像/视频检索[29, 12]和识别[30, 15, 13, 22, 14]。文献[29]将主动学习应用到目标检测中，旨在处理大量的在线爬虫图像。文献[14]将基于间隔（margin-based）的不确定性指标推广到多类案例中。文献[22]提出一种2维空间上的主动学习方法，筛选出一对样本而不仅仅是一个样本（不是很理解，值得好好看看）。文献[13]介绍一种基于变形KNN（a probabilistic variant of a KNN method）的主动学习方法。文献[15]在二分类问题上使用 Gaussian Process 作为概率预测模型去直接获取样本的不确定估计值。
虽然有很多不同的预测模型应用到这些方法中，但他们在筛选样本时都是使用简单的不确定性指标的主动选择策略。因此，这些方法都存在一个共同缺陷：忽略了大量未标注样本之间的分布信息。在本研究中，作者针对图像分类任务提出一种新的主动学习方法，解决了不确定性指标的内在限制（overcomes the inherent limitation of uncertainty sampling）。

Proposed Approach：本研究提出的方法

根据当前给定分类器进行鉴定哪个样本最应优先被筛选时，不同主动学习策略有不同的优势。本节中，作者展示一种新颖的主动学习方法，以自适应的方式结合了不同选择策略的优势。主要包括如下3个关键部分：1）一种不确定性指标；2）一种信息密度的衡量；3）一种自适应的组合框架。作者将逐一介绍这3个关键部分。此外，作者提出的方法是基于概率分类模型（在本研究的实验中使用逻辑回归模型）。
一些符号的说明：

Uncertainty Measure

Uncertainty Sampling 是最简单、最常用的一种主动学习策略，旨在选择最不确定的样本给专家标注。对于概率分类模型，Uncertainty Measure 被定义为样本类别Y的条件熵（conditional entropy）：给定一个样本x，对应类别 Y 的条件熵如下：

（emmm，这部分不是重点，而且有点重复，直接贴图了）

Information Density Measure

为了解决 uncertainty sampling 策略的缺陷，作者在筛选样本的时候也考虑了未标注样本的信息。本研究的动机是找到最富有信息的样本构成模型输入的分布，从而提升目标分类器的泛化性能。虽然输入的分布（input distribution）通常是未给定，但我们可以通过大量的未标注样本逼近输入空间（input space）。文献[5, 27]在半监督学习的相关工作中已经证明了未标注样本的分布对训练一个较好的分类器非常有帮助。（Intuitively）显然，我们更倾向于选择那些坐落于密集区域的未标注样本，因为这些样本比坐落于稀疏区域的样本更具有信息量（意思是说，可以通过密集/稀疏性去表示样本所具有的信息量）。因此，作者使用 information density 形式去表示剩下的未标注样本的信息量。值得注意的是，作者在本研究中通过 Gaussian Process framework 将“信息密度程度（information density measure）”定义为候选样本和剩下的未标注样本之间的相互信息。（感觉这句话很重要，但翻译得不够，原话：Specifically, in this work, we define the information density measure as the mutual information between the candidate instance and the remaining unlabeled instances within a Gaussian Process framework.）
Mutual information 是一个衡量两组变量之间的相互依赖性的值，比文献[19, 32, 27]中使用的 marginal density p(x) 更直观的代表性指标，同样也比文献[26]使用的 cosine distance 更 principled representativeness measure。作者将基于信息密度指标（information density measure）的相互信息量（multual information）定义为：

作者使用 Gaussian Process Framework 去计算公式（3）中的信息熵（entropy terms）。Gaussian Process 表示在一组（可能无穷大）随机变量的联合分布，因此。在本研究的问题中，作者将每个样本和一组随机变量联系起来（we associate a random variable X (x) with each instance x）。然后，使用一个对称正定核函数 K(·, ·) 去生成一个协方差矩阵，因此σ = K(xi, xi)，

（协方差矩阵其实就是一个定义在所有未标注样本上的核矩阵。一个较通用的核函数是高斯核）
根据多元高斯分布（multivariate Gaussian distribution）的性质，

A Combination Framework

分别定义好“uncertainty measure”和“information density”等两个衡量指标之后，作者的下一个目标是将两者的优势进行结合。最主要的想法就是筛选的样本既要满足“基于当前分类器是最不确定的”，又要满足“相对剩下的未标注样本是非常富有信息量的（very informative）”。因此，将这些样本给分类器进行训练后，相对其他未被筛选的未标注样本更能够提升预测精度。作者将上述的组合方式写成如下通用形式**（20181026-09:56，感觉公式（9）的值，越大表示该样本具有越多的信息量，more informative）：

其中，0<=β<=1 是两种衡量指标的权衡控制参数。如公式（9）所示，尽管f(x)是一种判别性的指标，而信息密度指标d(xi)1-β是根据输入空间进行计算，并且跟目标判别分类器模型没有直接的联系。使用类似这种启发式组合指标，作者最主要的目的是筛选出最具有信息量的样本去减少分类器模型的泛化误差，而且不用花费昂贵的计算代价（steps of retraining classification model for each candidate instance）。
（这部分主要介绍了作者提出的组合框架中，唯一需要较大计算量的部分是“计算矩阵的逆”。作者巧妙的引入文献[36]的方法缓解了计算量）上述的组合方式中，唯一需要较昂贵计算量的操作是计算计算公式（5）中的条件协方差（conditional covariance，σ）时，计算矩阵（Σ）的逆。对每个候选样本i∈U都计算一个矩阵的逆是非常低效的。作者采用了文献[36]中的一种快速算法，通过移除行/列去计算矩阵的逆（compute the inverse matrix with one row/column removed），从而缓解了计算的问题：对于任一候选样本i∈U，我们可以通过给定的Σ 和 Σ 直接计算矩阵的逆（Σ ），详情请参考文献[36]。因此，我们只需要在主动学习过程的开始阶段做一个矩阵求逆的操作即可。此外，还有一个能够为处理大量未标注样本较少计算代价的方法是使用二次抽样（subsampling）。换句话说，在主动学习的每次迭代过程中，首先可以对所有未标注样本进行随机采样产生一个子集，然后限制只能从这个子集中筛选候选样本。（是个值得借鉴的方法）
文献[26]已经提出了一种跟本研究的式（9）相似的组合策略，形如 [f(x)d(x)]。然而，文献[26]使用候选样本和所有未标注样本之间的平均 cosine 距离作为 information density measure。此外，文献[26]中的参数β式预训练的权重（应该是想说，它是个预训练好的定值）。作者将在下文介绍，在主动学习的每一轮迭代中，从一个事先定义好的范围中，自适应选择最优参数β。
（阅读感想：作者提出的组合策略其实并不是凭空而出的，也是参考了文献[26]提出的组合策略，形式大同小异。较大的亮点就是将组合权重β改装成自适应的方式。）**

Adaptive Combination

关于作者在上文提到的组合策略中，一个重要的问题就是选择一个合适的权重参数β（0<=β<=1）。β的值控制着两种衡量指标的重要程度（也就是本次主动学习迭代中，更侧重于应用哪个指标进行筛选样本）。当β>0.5时，uncertainty measure 被视为比 information density 更加重要，因为相对更大的权重置于 uncertainty measure 上。举个极端的例子，当 β=1 时，此时的组合策略就仅仅使用了 uncertainty measure。同样地，当 β < 0.5 时，更大的权重被置于 information density 上。然而，对于每个不同的数据集，很难去事先定义好这两种评价指标的重要程度（就是说，对于不同的数据集，β对应不同的最优解）。此外，根据主动学习过程的每个阶段以及不同的迭代，可以通过动态地修改β值进而找到权衡两种不同指标重要程度的最优解。为了在每次迭代中尽可能选择最佳样本，我们需要动态地评估两种评价指标的相对信息量，从而决定每次迭代筛选时 β 的值。不幸的是，这是一个非常难搞定的问题。（难题出现了，或许下文是个亮点）
在本研究中，作者提出了选择一个简单且非短视的步骤（a simple nonmyopic step）去自适应地从一组事先定义好的候选值中选择一个合适值作为β。更加明确来讲，在主动学习的每次迭代中，作者首先分别对每个候选样本 xi 计算 uncertainty measure f(x) 以及 information density measure d(x)。然后，作者依次从事先定义好的集合B中选出一个值作为β值，每个β值应用到对应不同的样本中（此时，有 b = length(B) 个样本，分别一个 β 值）。例如，事先给定集合 B = [0.1, 0.2, … , 0.9, 1.0]，此时就可以选择b=10个样本，每个样本对应集合B中的一个值，即beat值。然后，根据公式（9）对每个样本（此时，每个样本都对应一个β值）进行计算，筛选出最优的β值就相当于从b个样本中筛选出最具有信息量的样本。作者提出一种β的选择方式，通过在未标注的候选样本中最小化期望分类误差。对于来自候选样本集合S中的每一个候选样本x，作者使用P(y|x, θ) 方式得到样本x的标签概率值（理解：基于当前模型θL，给定样本x，就可以计算得到对应的概率值y，并作为样本的标签）。按照这种方式依次计算候选样本集合S中的每个候选样本，得到对应的“样本-标签 = ”小队，然后将这些带有标签的样本加入训练数据集中，重新训练（retrian）分类器模型。we can measure the prediction loss of the new classifier on all unlabeled instances（这是原论文的描述，字面意思是说，通过得到的新的分类器就可以在所有未标注样本中得到预测损失。这里的“all unlabeled instances”仅仅是指候选样本，还是 unlabeled pool 中的所有未标注样本，如是pool中的未标注样本，那这些没有标签的样本怎么得到 prediction loss？可以计算得到 prediction value，但是没有标签怎么计算loss？【20181026-12:22】读完全文后再来思考这个问题：这里指的是候选样本集合，并不是所有的未标注样本，可以参考论文中的算法1）The expected loss of the candidate instance x can be computed as a weighted sum of the prediction loss obtained using all possible labels y under the distribution P (y|x, θ). Specifically, we conduct instance selection from the set S using the following equation：

其中，θ表示原来的训练数据集中加入新的标注样本，经过重新训练后得到新的模型参数。（理解：首先，每次加入一个新的标注样本后，重新训练模型得到新的分类器；然后基于新的分类器，对每个未标注样本进行前向计算，得到预测概率值）
上述介绍的主动学习算法如下算法1所示。虽然分类器重新训练需要计算分类器的期望误差，但这个过程仅仅需要对非常少量的事先选择好的候选样本集S。计算代价能够控制在合理的范围内。

（-- start
Emmm，原文中没有对给出的算法1流程做解释。基于对论文的精读，理解如下：
算法1中用到的相关公式：
（1）uncertainty measure

（2）information density

（9）组合：uncertainty measure + information density

（10）求解最优样本：

输入：训练样本集L（标注样本集），未标注样本集U，事先定义好的集合B = [0.1, 0.2, … , 1]（β的候选值）
重复如下步骤，直到满足足够的样本量：

基于现有的标注样本集L，训练一个概率分类器；
for 循环，i ∈ U：
使用公式（1）计算 f(x)
使用公式（2）计算d(x)
使用公式（9），对于不同的β∈B，计算h(x)
令候选样本集合 S = 空集
for 循环，β ∈ B：
选出一个样本x，使其最大化：x = arg maxh(x)
将样本 x 加入候选集合 S 中：S = S ∪ x
使用公式（10）从候选集合S中筛选出最佳样本x*
将x*从未标注样本集从去除
专家标注：得到x对应的真实标签y，并将标注样本加入训练集L中。

– end…）

Experimental Results：实验结果

作者在3组分类数据集上验证了本研究提出方法的有效性，包括1组场景识别的数据集（13 Natural Scene Categories dataset [8]，a superset of MIT Urban and Natural Scene dataset [21]），2组目标识别的数据集。

实验设置 - 数据集：

场景分类数据集（总共 3859 张图像）- 13 Natural Scene Categories dataset：自然场景（coast, forest, mountain, etc.）、人造场景（kitchen, tall building, street, etc.）。
目标识别（8677 张图像）：
- **Caltech-101：**包括背景有102个类别。本研究并不是使用全部的数据集，而是从每个类别中随机取30张图像作为本实验的数据集（总共102*30=3060张图像，称之为 Caltech101数据集）
- **Pascal VOC 2007 datasets：**总共5011张图像（训练集+验证集）。因为本研究中没有涉及到多类标问题，因此只选择其中的单类标样本，因此最终只有2989张图像，20个物体类别。

实验设置 - 对比实验：

随机筛选：Random Sampling
最不确定性指标：Most Uncertainty
Near Optimal [10]
Fixed Combination [26]：cos distance 衡量 information density，使用参数 beta 进行组合 [f(x)d(x)β]

实验中的分类器模型：在上述所有对比实验中使用逻辑回归作为分类器模型，最终使用概率值表示分类的结果。

实验1：场景识别（Scene Recongnition）

首先，作者分析（conducted）了使用 GIST[21] 特征的 13 Natural Scene dataset。作者随机从整个数据集中选择了5个类别的2组子集，10个类别的3组子集。对于每一组子集，样本按照2%、68%、30%等比例分别被随机分配到标注样本集合中（训练集）、未标注样本集、测试集。每个主动学习算法先使用已有的2%训练集对模型进行训练，然后在每次迭代中依次根据不同的策略从未标注样本集中筛选最佳样本给专家标注（作者设置了最大迭代次数为100）。在本研究中，每次迭代都会产生一个带有真实标签的标注样本加入训练集，然后使用逻辑回归分类器在训练集中重新训练、在测试集中进行验证，并记录分类器的精度。
本次实验重复进行了10次并取平均值，如图下图1所示（坐标图展示的是30%的测试数据）：

(a) 本研究提出的自适应选择策略在少数几轮迭代中，分类器就取得了较好的性能。而且，每次迭代得到的分类器性能都比其他4种对比实验的效果更好。从而证明了本研究提出的选择策略帮助模型筛选出更有代表性的样本。其中，β ∈ {0.25, 0.5, 0.75, 1}。
(b) 本研究提出的选择策略的优势更加突出，与实验(a)的不同之处在于：
(f) 实验还尝试了在给定不同β候选集合的情况：如，β ∈ {0.25, 0.5, 0.75, 1} 的10分类任务上，仍是本文提出的方法取得最优解。表明了β取值的有效性和重要性。

实验2：目标试别（Object Recognition）

这部分的实验数据集包括：1）Pascal VOC 2007；2）Caletch101。作者使用了分别为两个数据集预先计算好的密度SIFT特征（precomputed dense SIFT features）。
Caletch101数据集中，作者制作了3个5分类的子集、2个10分类的子集，当然也是采用随机的放置方式。在如下子集的实验中，不同方法在不同的场景中有不同的优势，但仍是本研究提出的自适应组合策略取得最佳效果。

图2(d)(e) 在2个10分类的子集上使用相同的方式进行实验。
图2(f) 将自适应组合策略与非自适应性组合版本进行比较，设置了几个不同的 β 定值作为非自适应版本的实验（β=0.25、0.5、0.75、1.0）。实验结果又再次表明，自适应调整β值的重要性。

Pascal VOC 2007 数据集，作者分别随机制作了2组5分类的子集、1组10分类的子集。实验结果如下图3所示，仍是本研究提出的自适应组合策略取得最佳效果，自适应选择β值比定值的效果更佳。此外，作者在5分类的子集上统计了被选中样本的所属类的分布信息，如下图3(e)通过直方图进行展示，表明了来自不同类别的图像具有不一样的信息量。
综上：上述实验证实了本研究提出的自适应组合式的主动学习选择策略在三组数据集上的效果都优于本研究中的其他对比实验。

Conclusion：总结

在本研究中，作者提出一种新颖的自适应组合式的主动选择策略，包括1）uncertainty measure；2）information density，通过自适应调整2种衡量指标的权重在每次迭代中选择最佳样本给专家进行标注。自适应的特点使得能够在不同的阶段、不同场景下充分利用2种不同评价指标的优势。该方法能够有效的利用未标注样本的信息，从而提升 uncertainty sampling 的性能（uncertainty sampling 没有利用到未标注样本的信息）。本研究使用图像分类任务作为实验，本研究提出的选择策略相对其他已存在的选择策略中，能够在提升分类器性能的情况下，减少训练样本量。

精读后的总结：后续可用于大论文中的语句

总结：

这篇 CVPR-2013 的文章主要提出一种“自适应组合的主动学习策略”，通过自适应的方式在每次迭代筛选样本时，充分利用不确定性指标和信息密度（uncertainty measure and information density）等两种不同的选择策略。作者将提出的策略应用到3组图像分类（1组场景识别、2组目标识别）相关的数据集中，并与4种不同的主动选择策略进行实验对比，取得了所有实验的最佳结果。其中，值得一提的是，作者还验证了引入自适应选择的优势。

文章亮点：

Related Work：作者很详细的整理了截止2013年关于主动学习相关的研究。大多数主动学习相关的文章都仅仅使用样本的最不确定性指标，忽略了未标注样本的信息，带来了比较明显的缺陷就是容易选择离群样本。为了解决这个缺陷，也有一些文章开始关注未标注样本的信息（聚类方法、组合不同策略的方法）。
组合等两种不同的策略：文献[26]提出了一种形如 [f(x)d(x)] 的组合策略。其中，information density 是基于 cosine distance 来衡量，并且 β 是个定值。作者借鉴文献[26]的思路，将 uncertainty measure 和 information density 进行组合。其中，information density 是使用 Gaussian Process Framework 进行计算，形如公式（3）所示。
引入自适应权衡两种策略的特点：这是本研究中较大的亮点（作者在原文中也提到，如何衡量两种策略的重要程度是一个非常难的问题），也是相对文献[26]中最不一样的地方。作者通过自适应的方式去调整 β 的值，在每次迭代过程中充分利用两种不同策略的优势，筛选出最佳的样本。
在一定程度上缓解了计算代价：作者提出的自适应组合策略中唯一存在较大计算代价的是矩阵的逆运算，作者参考了文献[36]的方案，通过移除行/列去计算矩阵的逆（compute the inverse matrix with one row/column removed），从而缓解了计算的问题（详情参考原文献）。此外，作者还提出一个值得借鉴的方法：在主动学习的每次迭代过程中，首先可以对所有未标注样本进行随机采样产生一个子集，然后限制只能从这个子集中筛选候选样本。
实验结果一致验证了作者提出方法的有效性。

你可能感兴趣的:(【深度学习】,【机器学习】,【日积月累】)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
Google机器学习实践指南(模型预测偏差) AI_Auto 人工智能机器学习人工智能
Google机器学习（31）-模型预测偏差预测偏差：模型为何总是"猜不准"的真相揭秘你的模型预测准确率高达95%，却总是与实际情况差那么一点点？这可能是预测偏差在作祟！本文将带你深入探索这个被忽视的模型"隐形杀手"。一、什么是预测偏差？一个生活化案例想象一下，你网购了一个智能体重秤，连续一周称重显示都是60kg。但你去健身房用专业设备测量，实际是62kg。这种系统性的测量偏差，就是预测偏差在现实中
根茎式装配体（RA）作为下一代协同智能范式的理论、架构与应用由数入道人工智能思维框架软件工程智能体
一、引言——范式危机与新大陆的召唤1.1表征主义的黄昏：当前AI协同范式的认知天花板自艾伦·图灵在《计算机器与智能》中播下思想的种子以来，人工智能的漫长征途始终被一个强大而内隐的哲学范式所笼罩——我们称之为“表征主义”（Representationism）。这一范式，无论其外在形态如何演变，从早期的符号逻辑、专家系统，到如今风靡全球的深度学习神经网络，其核心信念从未动摇：智能的核心，在于构建一个关
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts