Alan and fish

论文阅读【16】Pretrained Generalized Autoregressive Model with Adaptive Probabilistic Label Clusters for E

论文十问十答：
Q1论文试图解决什么问题？
Q2这是否是一个新的问题？
Q3这篇文章要验证一个什么科学假设？
Q4有哪些相关研究？如何归类？谁是这一课题在领域内值得关注的研究员？
Q5论文中提到的解决方案之关键是什么？
Q6论文中的实验是如何设计的？
Q7用于定量评估的数据集是什么？代码有没有开源？
Q8论文中的实验及结果有没有很好地支持需要验证的科学假设？
Q9这篇论文到底有什么贡献？
Q10下一步呢？有什么工作可以继续深入？

论文相关

论文标题：基于自适应概率标签聚类的极端多标签文本分类的预训练广义自回归模型
发表时间：2020年
领域：自然语言处理
相关代码：https://github.com/huiyegit/APLC_XLNet.

摘要

极端多标签文本分类（XMTC）是一项任务，它是用来自超大标签集中的最相关的标签来标记给定的文本。我们提出了一种新的深度学习方法，称为APLC-XLNet。我们的方法对最近发布的广义自回归预训练模型（XLNet）进行了微调，以学习输入文本的密集表示。我们提出了自适应概率标签簇（APLC），利用不平衡的标签分布形成明确减少计算时间的簇，以近似交叉熵损失。我们在5个基准数据集上进行的实验表明，我们的方法在4个基准数据集上取得了新的最先进的结果。

1.引言

极端分类是指学习一个分类符来从一个非常大的标签集中用最相关的标签来注释每个实例的问题。极端分类发现应用程序在不同的领域，如估计的单词表示数百万的单词，标签的维基百科文章与最相关的标签，并提供一个产品描述或广告登陆页面在动态搜索广告。极端多标签文本分类（XMTC）是极端分类的一项基本任务，其中实例和标签都是以文本格式的。
XMTC的第一个挑战是如何获得有效的特性来表示文本。一种传统的方法就是使用词袋模型进行文本特征表示，其中，一个向量表示在一个预定义的词汇表中的一个单词的频率。然后，向机器学习算法输入由特征和标签组成的训练数据来训练分类模型。然而，传统的基于BOW或其变体的方法，忽略了单词的位置信息，不能捕获文本的上下文和语义信息。
另一方面，随着单词嵌入技术的发展，深度学习方法在从原始文本中学习文本表示方面取得了巨大的成功。这些有效的模型包括卷积神经网络（CNN），循环神经网络（RNN），CNN和RNN的结合（DPCNN），带有注意机制的CNN，具有注意机制和Transformer的RNN。
在过去两年中，几种迁移学习方法和架构被提出，并在广泛的自然语言处理（NLP）任务上取得了最先进的成果，包括智能问答、情感分析、文本分类和信息检索。迁移学习的基本机制是将一个预先训练过的模型的知识转移到一个新的下游任务中，模型通常在非常大的语料库上进行训练。广义自回归预训练方法（XLNet）代表了这一领域的最新发展。XLNet采用置换语言建模目标，在几个大型语料库上进行模型训练。然后，可以对预先训练好的模型进行微调，以处理各种NLP任务。
XMTC的另一个挑战是如何有效地处理极端输出。特别是，对于极端分类，标签的分布是臭名昭著的遵循Zipf定律。大部分的概率质量只被标签集的一小部分所覆盖。为了训练参数模型来使用非常大的词汇表进行语言建模，已经提出了许多有效地近似softmax的方法，包括分层软max（HSM），负采样，噪声对比度估计，自适应软最大值。然而，这些技术被提出用于处理多类分类，因此不能直接应用于XMTC。概率标签树（PLT）将HSM推广到处理多标签分类问题。
基于这些任务的特点，我们提出了一种新的深度学习方法，即具有自适应概率标签簇的预训练广义自回归模型（APLC-XLNet）。我们对广义自回归预训练模型（XLNet）进行了微调，以学习功能强大的文本表示，以实现较高的预测精度。据我们所知，XLNet是第一次成功地应用于XMTC问题。受自适应Softmax的启发，我们提出了自适应概率标签簇（APLC），利用不平衡的标签分布形成明确减少计算时间的簇来近似交叉熵损失。APLC可以足够灵活，通过调整其参数来实现预测精度和计算时间之间的理想平衡。此外，APLC可以足够通用，可以作为输出层有效地处理极端分类问题。在五个数据集上进行的实验表明，我们的方法已经在四个基准数据集上取得了新的最先进的结果。

2.相关工作

许多有效的方法已经被提出来解决XMTC的挑战。根据用于特征表示的方法，它们通常可以分为两种类型。一种传统的类型是使用BOW作为特性。它包含三种不同的方法：一对一的方法、基于嵌入的方法和基于树的方法。另一种类型是现代的深度学习方法。深度学习模型已经被提出来从原始文本中学习强大的文本表示，并在不同的NLP任务上取得了巨大的成功。

2.1 一对多的方法

一对一方法将每个标签作为一个二元分类问题，学习每个标签的分类器。一对一的方法已经被证明可以实现较高的精度，但当标签的数量非常大时，它们会面临昂贵的计算复杂度。PDSparse为每个标签学习一个单独的线性分类器。在训练过程中，对分类器进行优化，以区分每个训练样本的所有正标签和少数活跃的负标签。PPDSparse将PDSparse扩展为在大规模分布式设置中并行化。DiSMEC提出了一种分布式和并行的训练机制，它会尽可能的使用计算资源。此外，它还可以通过修剪伪权值来显式地诱导稀疏性，从而减少模型的大小。Slice（Jain et al.，2019）将每个标签的分类器训练在最令人困惑的负面标签上，而不是所有的负面标签。Slice将每个标签的分类器训练在最令人困惑的负标签上，而不是所有的负标签。这是通过一种新的负采样技术有效地实现的。

2.2 基于emberdding的方法

基于嵌入的方法通过利用标签相关性和稀疏性，将高维标签空间投影到低维标签空间中。由于压缩阶段的信息丢失，嵌入方法可能会在预测精度方面付出巨大的代价。SLEEC通过只保留最近的标签向量之间的成对距离，将高维标签空间投影到低维标签空间。回归变量可以在低维标签空间上学习。AnnexML通过使用一个近似的k-最近邻图作为弱监督来划分数据点。然后采用成对学习到秩的方法来学习低维标签空间。

2.3 基于树的方法

基于树的方法学习分层树结构，将实例或标签划分为不同的组，以便相似的组可以在同一个组中。整个集合，最初被分配给根节点，然后被划分为一个固定数的k个子集，对应于根节点的k个子节点。重复这个分区过程，直到在子集上满足一个停止条件为止。在预测阶段，输入实例向下传递到树中，直到它到达叶节点。
对于一个实例树，预测是由对叶实例进行训练的分类器给出的。对于标签树，对给定标签的预测是由被遍历的节点分类器从根节点到叶节点所确定的概率。

FastXML通过优化归一化的Discounted Cumulative Gain（nDCG），在特征空间上学习树状结构。为每个内部节点训练一个二值分类器。对给定实例的预测是在相应叶节点中的训练实例上计算出的标签分布。
基于FastXML，PfastreXML引入了倾向得分损失，优先预测少数相关标签而不是大量不相关标签，促进了不频繁但有益的尾部标签的预测。
Parabel学习了三种标签树的集合。标签树通过递归地将标签划分为两个平衡组来训练的。叶节点包含线性的一对一分类器，叶中的每个标签对应一个。
一对多分类器用于计算与测试点相关的相应标签的概率。
Cratyml引入了一种具有快速划分策略的基于随机森林的方法。首先，它将特征向量和标签向量随机投影到低维向量中。然后采用基于k-means的划分方法将实例从低维标签向量中分割为k个临时子集。内部节点中的多类分类器可以被训练为来自低维特征向量的相关子集。
Bonsai通过结合输入和输出表示，开发了一种广义的标签表示。然后通过k-means聚类构建了一个浅树体系结构。Bonsai已经展示了处理超大数据集的快速速度。
ET采用了与FastText相同的架构，但它使用概率标签树作为输出层来处理多标签分类，而不是层次的Softmax。ET具有模型尺寸小、预测时间长等优点。但是，由于FastText的体系结构不能捕获文本丰富的上下文信息，因此预测精度不太高。

2.4 深度学习的方式

与传统方法作为文本表示的BOW不同，深度学习模型已经有效地利用了原始文本来学习密集表示，从而可以捕获文本的上下文和语义信息。基于CNN-Kim，XML-CNN通过将文本通过卷积层传递来学习一些特征表示。在池化层和输出层之间增加了一个隐藏的瓶颈层，以提高预测精度，减小模型的规模。然而，由于XML-CNN的输出层是一个线性结构，所以当应用于有数百万个标签的情况时，它可能会是无效的。
受信息检索（IR）视角的启发，XBERT提出了一种分三个步骤组成的方法。首先，它通过将标签集划分为k个集群来构建标签索引系统。然后，它对来Transformers的双向编码器表示（BERT）模型进行微调，以匹配输入文本的标签集群。在最后一步中，训练线性分类器对相应聚类中的标签进行排序。X-BERT成功地微调了BERT模型，并在预测精度方面显示出了显著的提高。然而，X-BERT并不是一个完整的端到端深度学习模型，因此它为改进结果留下了潜在的空间。AttionXML通过双向长短期记忆（BiLSTM）模型和注意机制捕获文本的顺序信息。提出了一种浅而宽的概率标签树来处理大规模的标签。AttentionXML在准确性和效率方面都取得了出色的性能。然而，采用三种概率标签树的集成来提高预测精度，这在深度学习方法中是不常见的。

3. APLC-XLNet

在本节中，我们将详细说明针对XMTC问题的APLC-XLNet模型。我们的模型体系结构有三个组件：XLNet模块、隐藏层和APLC输出层（图1）。

3.1.XLNet模块

近年来，自然语言处理的迁移学习取得了许多重大进展，其中大多数是基于语言建模。语言建模是预测前一个单词中的下一个单词。XLNet是一种广义自回归的训练前语言模型，它通过最大化因子分解顺序的所有排列的期望似然来捕获双向上下文。其排列语言建模目标可表示为：

其中，θ为该模型的参数， $Z_T$ 是长度为T的序列的所有可能排列的集合， $z_t$ 是第t个元素，z $p_θ(x)$

3.2 隐藏层

APLC-XLNet在XLNet的池化层和APLC输出层之间有一个完全连接的层。我们选择将这一层的神经元数量设置为超参数dh。当输出标签的数量不大时，dh可以与池化层相同，以获得最佳的文本表示。另一方面，在处理极端标签的情况下，可以比池化层更小，从而大幅减小模型大小，提高计算效率。在这种情况下，这一层可以被称为瓶颈层，因为神经元的数量都小于池化层和输出层。

3.3 自适应概率标签簇

3.3.1 动机

在极端分类中，标签的分布是出了名地遵循Zipf定律。大部分的概率只被标签集的一小部分所覆盖。在一个基准数据集Wiki-500k中，频繁的标签占标签词汇表的20%，但它们覆盖了约75%的概率。如图2所示：

这句话的意思我是这么理解的，在标签中频繁出现的这几个标签只占有标签库中的20，但是在所有需要预测的文本中，预测为这些标签的文本占有75%。这就存在一个数据集不平衡问题，即一个伪标签问题。

图2：数据集Wiki-500k的标签分布遵循Zipf定律。标签id按在数据集中出现的次数按降序排序。
与分层的Softmax和自适应的Softmax类似，可以利用该属性来减少计算时间。

3.3.2 结构

我们将标签集划分为一个头部聚集和几个尾部聚集，其中头部聚集由最常见的标签组成，不常见的标签被分组为尾部聚集（如图3所示）。

图3：3个集群APLC的体系结构，h表示隐藏层。 $V_h$ 表示头部聚集， $V_1$ 和 $V_2$ 表示2个尾部聚集。叶节点的大小表示标签出现的频率。
包含少量标签的聚集对应于较少的计算时间，因此通过频繁访问它将大大提高计算效率。集群的结构可以通过两种不同的方式来发展。一种方法是生成一个级树，而另一种方法是保持头集群作为根节点中的一个短列表。根据经验，将所有的聚集放在叶子中会导致性能的下降。就像自适应softmax，我们选择将头集群放在根节点中。为了进一步减少计算时间，我们采用隐状态的降维数作为聚类的输入。对于分类器经常访问的头部聚类，一个大维数的隐藏状态可以保持较高的预测精度。对于尾部簇，由于分类器很少访问它们，我们通过除以因子q来降低维数（q>=1）.
这样，就可以显著减少集群的模型大小，但模型仍然可以保持良好的性能。

讲解一下这个部分的思想：首先将所有的标签按照频率进行排序，然后根据频率将其分成几个组，第一个组在文中称为头聚集，以此中间聚集、尾聚集，当然可以根据自己的需求设置几个聚集。然后分别为头聚集之后的聚集设置一个线性层，设置一个衰减因子，根据衰减因子创建一个线性层，以此衰减线性层的输出。如图所示：
h1和h2是2个线性层，是根据聚集的位置进行设计输出结果的。
其中的第一个关键：降幂分组
h0是所有的标签序列，当时所有的标签的序列都是按照出现的评率进行降幂排列的，然后将这些标签按照降幂进行分组，分为头聚集gh、中间聚集g1、尾部聚集g2
len（gh）>len(g1)>len(g2)
其中的第二个关键：根据评率设计线性层
设置了一个影响因子q，输出层的维度=输出层维度//q**2
h1(768,384)
h2(768,192)
然后XNLent输出结果依存通过这些线性层得到输出vh，v1，v2，然后通过一个分类器得到对应聚集的预测结果。

3.3.3 目标函数

我们假设标签集被划分为 $V=V_h∪V_1∪........∪V_k$ ,其中 $V_h$ 是头聚集， $V_i$ 是第尾部聚集， $V_h∩V_i=∅$ ,如果i≠j，K是尾聚集的数量，则 $V_i∩V_j=∅$ 。根据概率链规则，一个标签的概率可以表示为：

其中x是一个样本的特征， $y_j$ 是第j个标签， $V_t$ 是第t个尾聚集。
在训练过程中，我们访问头聚集，在那里我们计算每个训练样本的每个标签的概率。相比之下，我们访问尾聚集 $V_t$ ，其中只有当在 $V_t$ 中存在一个训练样本的正标签时，我们才计算每个标签的概率。设 $Y_i$ 是第i个实例的正标签集， $V_{yk}$ 是 $Y_i$ 中第k个标签的对应聚集，聚集 $S_i$ 相当于 $Y_i$ 被表达如下：

注意， $S_i$ 可以包含或不包含头聚集 $V_h$ ，但我们需要为每个训练样本访问 $V_h$ 。我们将 $V_h$ 添加到 $S_i$ 中， $Y_i$ 对应的聚集 $\hat{S}_i$ 可以表示如下：

设 $\hat{Y}_i$ 是对应于 $\hat{S}_i$ 的标签集，我们用 $L_i$ 来表示 $\hat{Y}_i$ 的基数，用 $I_i$ 来表示 $\hat{Y}_i$ 的标签索引集。APLC对多标签分类的客观损失函数可以表示为：

式中，N为样本数， $p（y_{ij}）$ 为公式2计算出的预测概率， $y_{ij}$ ∈{0,1}为真值，指数i和j分别表示第i个样本和第j个标签。

3.3.4 模型大小

让我们对APLC的模型大小进行分析。设d表示 $V_h$ 的隐藏状态的维数，q（q≥1）表示衰减因子， $l_h$ 和 $l_i$ 表示头聚集和第i个尾聚集的基数。APLC的参数 $N_{par}$ 数可以表示如下：

实际上，K << $l_h$ 和d << $l_i$ ，因此式6可以表示为：

其中 $l_0$ 表示 $l_h$ 。如式7所示，最后一个尾簇的系数最小。让我们考虑d和q是固定的情况；减少模型大小的策略是将很大比例的标签分配给尾部聚集。
让我们与原始的线性输出层进行一个比较。线性结构的模型尺寸可以表示为：

其中，L表示标签集的基数。结合公式7和公式8，我们有一个公式表达他们之间的概率:

3.3.5 计算的复杂度

预计的计算成本C可以描述如下：

其中， $C_h$ 和 $C_i$ 分别表示头聚集和第i个尾聚集的计算代价。我们让 $N_b$ 表示批大小， $p_i$ 表示一批样本中至少有一个正标签在尾聚集 $V_i$ 中，模型访问 $V_i$ 的概率。我们有以下表达式：

在实践中，K<< $l_h$ 和d<< $l_i$ ，因此计算成本C可以表示为：

让我们考虑以下情况，即我们将标签集划分为聚集，其中每个聚集的基数是固定的。在式12中，除了每个尾聚集的概率 $p_i$ 外，所有的值都是固定的。为了使 $p_i$ 取一个较小的值，我们应该将最频繁的标签分配到头部聚集中。另一方面，由于我们已经将隐藏状态的降维数分配给了尾聚集，所以我们应该通过将频率降低到尾簇来划分标签，以获得较高的预测精度。
让我们也与原始的线性输出层进行一个比较。线性结构的预期计算成本可以表示为：
结合式12和式13，两者之间的比值可表示如下：

4.训练APLC-XLNet的技术

4.1.歧视性微调

APLC-XLNet由三个模块组成，XLNet模块、隐藏层和APLC输出层。当处理具有数百万个标签的极端分类问题时，APLC输出层中的参数数量甚至可以大于XLNet模型。因此，训练如此大的模型是一个重大的挑战。我们采用判别微调方法对模型进行训练。由于预先训练好的XLNet模型已经捕获了下游任务的通用信息，所以我们应该将学习率 $η_x$ 分配给一个较小的值。我们为APLC输出层设置了一个更大的 $η_a$ 值，以激励模型快速学习。对中间隐藏层进行 $η_h$ 分级，我们在XLNet模型和APLC层之间赋值一个值。实际上，在我们的实验中，我们发现这种方法对于有效地训练模型是必要的。对整个模型用相同的学习率来训练模型是不可行的。

这是一个很新颖的训练方式，给每一层不同的学习率。

4.2.倾斜的三角形学习率

斜面三角形学习率是一种使用动态学习率来训练模型的方法。目的是激励模型在开始时快速收敛到合适的空间，然后细化参数。学习率首先呈线性增加，然后根据该策略逐渐衰减。学习率η可以表示为：

其中 $η_0$ 为原始学习率，t为当前训练步，超参数 $t_w$ 为热身步阈值， $t_a$ 为训练步总数。

5.实验

在本节中，我们将报告我们所提出的方法在标准数据集上的性能，并将其与最先进的基线方法进行比较。

5.1 数据集

我们在5个标准的基准数据集上进行了实验，包括3个中等规模的数据集。

EURLex-4k,
AmazonCat-13k
Wiki10-31k
Wiki-500k
Amazon-670k
表1显示了这些数据集的统计数据。这五个数据集的术语频率-逆文档频率（tf-idf）特征可以在极端分类存储库上公开获得。我们使用了来自极端分类存储库的3个数据集的原始文本，包括亚马逊catk-13k、Wiki10-31k和亚马逊-670k。我们从公共网站上获得了EURLex2和Wiki-500k3的原始文本。

表1：数据集的统计信息。 $N_{train}$ 是训练样本的数量， $N_{test}$ 是测试样本的数量，D是特征向量的维数，L是标签集的基数， $\overline{L}$ 是每个样本的平均标签数， $\hat{L}$ 是每个标签的平均样本， $W_{train}$ 是每个训练样本的平均单词数， $W_{test}$ 是每个测试样本的平均单词数。

5.2 实施细节

我们需要使用一个特定的标记器（tokenizer）来预处理原始文本，这是基于句子片段标记器（tokenizer）。在标记化过程中，句子中的每个单词都被分解成小的标记。然后我们选择句子长度 $L_{seq}$ ，填充和截断每个输入序列的相同长度。表2显示了APLC的实现细节。

表2：APLC的实施细节。 $d_h$ 是输入隐藏层的维度，q是尾部聚集隐藏状态维数减小的因素， $n_{cl}$ 是聚集的数量， $P_{num}$ 是每个集群帐户中的标签数量的比例。
对于中等规模的数据集，我们选择将标签集均匀地划分为两个集群。对于大规模数据集Wiki-500k和Amazon-670k，我们将标签集分别平均划分为3个和4个集群。为了进一步减小大规模数据集Amazon670k的模型大小，我们将隐藏状态dh的维数设置为512。所有五个数据集的衰减因子q都是2。
表3给出了训练模型的超参数。设置序列长度 $L_{seq}$ 有几个因素需要考虑。首先，一个长序列包含更多的上下文信息，这有利于模型学习更好的文本表示。其次，它与计算时间成线性比例。对于具有少量训练样本的数据集，我们将 $L_{seq}$ 设置为最大值512。对于具有大量训练样本的数据集，我们选择较小的 $L_{seq}$ 值。我们选择了AdamW优化器，并设置了不同的学习速率。XLNet模型的学习速率 $η_x$ 为1e-5级，APLC层的 $η_a$ 为1e-3级，中间隐藏层的 $η_h$ 在 $η_x$ 和 $η_a$ 之间。所有5个数据集的预热步骤tw均为0。

表3:训练模型的超参数。 $L_{seq}$ 是输入序列的长度。 $η_x$ 、 $η_h$ 、 $η_a$ 分别表示XLNet模型、隐藏层和APLC层的学习速率, $N_b$ 是批处理大小， $N_e$ 是训练期的数量。

由这篇论文可见在对比模型的时候，不一定要所有的超参数都要一样，那个超参数效果好就使用那个

5.3 评估函数

我们选择了广泛使用的P@k作为评价度量，它通过计算前k个标签的精度来表示预测精度。P@k的定义如下：

其中， $\hat{y}$ 为预测向量，i为 $\hat{y}$ 和y∈{0,1} L中第i个最高元素的指标。

5.4 基线模型

我们的方法与最先进的基线进行了比较，包括DisMEC中的一对一的比较,三种基于树的方法， PfastreXML、 Parabel、Bonsai，两种基于emberdding的方法,SLEEC和 AnnexML和两种深度学习方法， XML-CNN 和
AttentionXML。我们在本文中使用的5个数据集上运行 AttentionXML的源代码，它们与AttentionXML中的数据集不同。值得注意的是AttentionXML使用了三颗树的集合来提升性能。为了进行公平的比较，我们只选择了一棵树所产生的结果。我们已经在GitHub上公开发布了针对 AttentionXML的预处理数据集，以重现本文中的 AttentionXML的结果。

5.5 性能对比

表4显示了APLC-XLNet的实验结果和在五个数据集上的最先进的基线。根据之前对XMTC的工作，我们考虑了前k个预测精度，P@1、P@3和P@5。首先，我们将APLC-XLNet与两种基于嵌入的方法，SLEEC和AnnexML进行了比较。AnnexML在所有五个数据集上的性能都优于SLEEC。然而，APLC-XLNet在所有5个数据集上都优于AnnexML。在数据集EURLex-4k上是显著的，在P@1、P@3和P@5上分别增加了约8%、10%和10%。对于1-vs-all方法，DisMEC在数据集Wiki-500k上的所有方法中性能最好。APLC-XLNet在三个数据集上的性能都优于DisMEC，而在数据集Amazon-670k上的性能则略低于DisMEC，下降了1%。在三个基于树的方法中，Bonsai在四个数据集上的性能最好。在 AmazonCat-13k中 Parabel的性能优于Bonsai。我们的方法在三个数据集上的性能大大优于三种基于树的方法- EURLex-4k, AmazonCat-13k 和 Wiki10-31k.深度学习方法 AttentionXML在数据集Amazon-670k上的性能是所有方法中最好的。APLC-XLNet在两个数据集亚马逊amzoncat-13k和Wiki10-31k上的性能优于AttentionXML。请注意，这三种深度学习方法都以原始文本作为输入，并可以利用文本的上下文和语义信息。然而，它们使用不同的模型来学习文本表示。

图4：数据集EURLex和Wiki10上的精度P@1，作为集群数量的函数。

5.6 消融实验

我们基于EURLex和Wiki10这两个数据集进行了消融研究，以了解APLC的不同设计选择的影响。具体来说，我们考虑了两个因素：
(1)集群数量的影响。
(2)方法对划分标签集的影响。
为了回答第一个问题，我们假设当给出集群的数量时，标签集被均匀地划分到每个集群中。其他参数的设置与表2、表3的设置相同。我们绘制了图4，precision P@1作为集群 $N_{cls}$ 数量的函数。当 $N_{cls}$ 为2时，数据集EURLex的P@1=87.72.随着 $N_{cls}$ 值的增加，精度P@1逐渐降低。当 $N_{cls}$ 达到6时，精度P@1为85.72，下降了2%。对于数据集Wiki10，随着 $N_{cls}$ 值的增加，精度P@1略有下降。我们认为，大量的集群往往会损害模型的性能；然而，影响的程度取决于数据集的特征。

图5：数据集EURLex和Wiki10上不同分区的精度P@1。Id 1、2、3分别表示分区（0.7、0.2、0.1）、（0.33、0.33、0.34）和（0.1、0.2、0.7）。
为了回答第二个问题，我们假设集群 $N_{cls}$ 的数量是一个固定的值-3.设Vh、V1和V2表示头簇、第一尾簇和第二尾簇，Ph、P1、P2表示对应聚类账户中标签数量的比例。我们有三种不同的方法来划分标签集，对应的三种组合，（0.7、0.2、0.1）、（0.33,0.33,0.34）和（0.1、0.2、0.7）为（Ph、P1、P2）。其他参数的设置与表2和表3相同。我们绘制了图5，即数据集EURLex和Wiki10上不同分区的预测精度P@1。我们观察到，当更多的标签被划分到头部簇中时，两个数据集的精度P@1在两个数据集上都更高。这一趋势在数据集EURLex上更为重要，因为在第一个分区和第三个分区之间有大约3%的差异。然而，对数据集Wiki10的影响相对较小。

6.总结

在这篇论文中，我门提出了一种深度学习的方法解决极端多标签文本分类问题。用准确率做为评价指标，我们的模型在基准数据集上的性能表现是最好的，那表明经过XLNet预训练出来的模型更强大。因此，我们提出的APLC模型能有效的解决极端标签问题。我们在理论上分析了模型的大小以以及复杂程度。我们认为APLC能够应对普通的极端多标签问题，尤其是标签不平衡的分类问题。

我仔细阅读了这篇论文，发现这篇论文的工作主要在预测标签和计算损失这两个方面，我尝试使用这种方法去预测标签，但是效果并不是那么理想，我猜想主要发挥作用的是计算损失这个模块，因为作者给的模型中计算损失这个部分并没有与模型一一对应，所以对于我个人而言理解模型的损失计算模块还是有点困难。

你可能感兴趣的:(论文阅读笔记,论文阅读,机器学习,人工智能)

Python基础知识点总结豆芽819 tip python 开发语言
1Python简介Python特点：解释型语言：无需编译，逐行执行。动态类型：变量类型在运行时确定。简洁易读：语法接近自然语言，代码简洁。跨平台支持：Windows/Linux/macOS均可运行。应用领域：Web开发、数据分析、人工智能、自动化脚本等。开发环境：推荐使用IDLE、PyCharm、VSCode或JupyterNotebook。2Python数值运算基本运算符：算术：+,-,*,/,
人脸识别的一些代码饿了就干饭 CV相关人脸识别
1、cv2入门函数imread及其相关操作2、（详解）opencv里的cv2.resize改变图片大小Python3、机器学习之人脸识别face_recognition使用4、使用face_recognition进行人脸校准5、简单的人脸识别通用流程示意图（这个看着写的挺好的）6、face_recognition和图像处理中left、top、right、bottom解释7、使用pillow库对图片
人工智能和云计算带来的技术变革：工业自动化的新趋势 AI天才研究院 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能（AI）和云计算技术的发展，我们正面临着一场巨大的技术变革。这些技术正在改变我们的生活方式、工作方式和社会结构。在工业自动化领域，人工智能和云计算技术正在为我们提供新的可能性和挑战。本文将探讨这些技术如何影响工业自动化，以及未来的发展趋势和挑战。1.1人工智能的基本概念人工智能（ArtificialIntelligence，AI）是一种试图使计算机具有人类智能的技术。AI的
《南京日报》专题报道 | 耘瞳科技“工业之眼”加码“中国智造” 耘瞳科技科技
在江宁开发区，机器人已不再是科幻电影里的遥远想象，他们就像人类的“同事”，在工地上忙着贴砖、刷墙、搬运、检测；在体育训练场上帮助运动员矫正姿势；在医院里帮助医生发现帕金森早期征兆，在智慧工厂里与人类分工协作……作为南京市机器人产业“一核多翼”布局的“核”，江宁开发区当前聚集人工智能产业核心及上下游关联企业超百家。近日，《南京日报》走访了多家链条上的“明星企业”，耘瞳科技作为中国领先的智能检测与测量
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
双一流软件工程大二听闻 Java 前景堪忧，是否该转C++或人工智能或者读研？程序员yt java c++人工智能
今天给大家分享的是一位粉丝的提问，双一流软件工程大二听闻Java前景堪忧，是否该转C++或人工智能或者读研？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：yt老师好，我是双一流软件工程的大二学生，一直在学习java方向，目前掌握了数据库，spring框架等内容，大一暑假在老家一个小公司找了段实习，有蓝桥杯java组b组国一，专业排名前2（保研名
编程行业必备！12个热门AI工具帮你写代码~ DevSecOps选型指南人工智能软件供应链安全工具代码安全开发助手 SAST 安全
到今年，AI编程工具的发展已经非常成熟了，它们可以极大地提高开发效率，帮助程序员解决复杂问题，并优化代码质量。拒绝废话，今天给大家推荐12款AI编程工具！1悬镜安全灵脉AI开发安全卫士灵脉AI开发安全卫士是基于多模智能引擎的新一代静态代码安全扫描产品，通过自动化审查流程来定位潜在缺陷、提升审计效率和代码质量，并显著减少手动审查所需的时间和精力。该平台利用人工智能技术，提供逐行的代码反馈，建议改进和
探索Python中的集成方法：Stacking Echo_Wish Python 笔记 Python 算法 python 开发语言
在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。本文将深入介绍Stacking的原理、实现方式以及如何在Python中应用。什么是Stacking？Stacking，又称为堆叠泛化（StackedGeneralization），是一种模型集成方法，与Bagging和Boosting不同，它并不直
【Python】 Stacking: 强大的集成学习方法音乐学家方大刚 Python python 集成学习开发语言
我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki
Stacking算法：集成学习的终极武器 civilpy 算法集成学习机器学习
Stacking算法：集成学习的终极武器在机器学习的竞技场中，集成学习方法以其卓越的性能而闻名。其中，Stacking（堆叠泛化）作为一种高级集成技术，更是被誉为“集成学习的终极武器”。本文将带你深入了解Stacking算法的原理和实现，并提供一些实战技巧和最佳实践。1.Stacking算法原理探秘Stacking算法的核心思想是训练多个不同的基模型，并将它们的预测结果作为新模型的输入特征，以此来
集成学习（上）：Bagging集成方法万事可爱^ 机器学习修仙之旅 #监督学习集成学习机器学习人工智能 Bagging 随机森林
一、什么是集成学习？在机器学习的世界里，没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象"，单个模型往往只能捕捉到数据特征的某个侧面。但当我们把多个模型的智慧集合起来，就能像拼图一样还原出完整的真相，接下来我们就来介绍一种“拼图”算法——集成学习。集成学习是一种机器学习技术，它通过组合多个模型（通常称为“弱学习器”或“基础模型”）的预测结果，构建出更强、更准确的学习算法。这种方法的主要思想是
【集成学习】：Stacking原理以及Python代码实现 Geeksongs 机器学习 python 机器学习深度学习人工智能算法
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
windows使用ssh-copy-id命令的解决方案爱编程的喵喵 Windows实用技巧 windows ssh ssh-copy-id 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了windows使用ssh-copy-
关于AI OS那点事大囚长科普天地大模型人工智能
AIOS（人工智能操作系统）作为面向智能时代的操作系统，其功能定位和架构设计与传统操作系统（如Linux、Windows、iOS等）存在显著差异。一、AIOS需具备的核心功能智能体全生命周期管理智能体调度与并发：需支持多智能体任务的优先级排序、资源分配及并发执行，例如通过轮询调度或动态优先级算法优化LLM资源利用率。上下文感知与切换：通过上下文管理器实现智能体交互状态的快照保存与恢复，解决LLM生
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
HCIA-AI人工智能笔记3：数据预处理噗老师华为认证人工智能笔记 wpf 数据处理 AI 华为认证
统讲解数据预处理的核心技术体系，通过Python/Pandas与华为MindSpore双视角代码演示，结合特征工程优化实验，深入解析数据清洗、标准化、增强等关键环节。一、数据预处理技术全景图graphTDA[原始数据]-->B{数据清洗}B-->B1[缺失值处理]B-->B2[异常值检测]B-->B3[重复值删除]A-->C{特征工程}C-->C1[标准化/归一化]C-->C2[离散化分箱]C--
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
机器学习中的贝叶斯网络：如何构建高效的风险预测模型 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术文章目录机器学习中的贝叶斯网络：如何构建高效的风险预测模型1.背景介绍2.基本概念术语说明2.1马尔科夫随机场（MarkovRandomField）2.2条件随机场（ConditionalRandomField，CRF）2.3变量elimination算法2.4贝叶斯网络3.核心算法原理和具体操作步骤以及数学公式讲解3.1原理介绍1.贝叶斯网络基础2.贝叶斯网络构建风险
AI进化论：从图灵测试到智能革命的临界点 A达峰绮人工智能数据处理经验分享 AIGC AI人工智能
智能觉醒的起源密码（1943-2010）在曼彻斯特维多利亚大学的实验室里，1948年"Baby"计算机完成人类首个存储程序运行实验时，艾伦·图灵正在构思《计算机器与智能》。这篇划时代论文提出的"模仿游戏"测试，为人工智能奠定了哲学基础。1956年达特茅斯会议上，麦卡锡正式提出"人工智能"概念，当时学界乐观预测"二十年内机器将完成人类所有工作"。神经网络的发展轨迹充满戏剧性：1958年罗森布拉特发明
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
景联文科技入选中国信通院发布的“人工智能数据标注产业图谱” 景联文科技科技人工智能
近日，由中国信息通信研究院、中国人工智能产业发展联盟牵头，联合中国电信集团、沈阳市数据局、保定高新区等70多家单位编制完成并发布《人工智能数据标注产业图谱》。景联文科技作为人工智能产业关键环节的代表企业，入选图谱中技术服务板块。图谱按照国家数据局技术创新、行业赋能、生态培育、标准应用、人才就业、数据安全等六个方面任务展开，由上游资源提供方、中游数据标注核心服务方、下游配套支撑方三部分组成。其中上游
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
物理学不存在了？诺贝尔物理学奖颁给了人工智能资讯新鲜事人工智能
2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
今日行情明日机会——20250321 人大博士的交易之路人工智能区块链数学建模数据挖掘分类涨停回马枪大数据
后续投资机会分析结合2025年3月21日盘面数据（涨停56家，跌停31家），市场呈现结构性分化行情，海洋经济成为绝对主线，机器人概念局部活跃，人工智能表现较弱。以下是具体方向与策略建议：1.海洋经济（核心主线，政策+事件驱动）核心逻辑：板块23家涨停，梯队完整（七板至一板），神开股份（七板）打开高度，叠加海洋资源开发、碳中和政策（如海上风电、深海装备）催化，资金深度介入。大连重工（三板，海洋工程装
人工智能革命：技术演进图谱与人类文明重构路径 A达峰绮人工智能重构经验分享图形绘制数据处理 AI
当GPT-4在2023年3月通过注册会计师考试时，其财务分析模块展现的推理能力已超越85%的人类考生。这个标志性事件背后，折射出人工智能正在突破认知型工作的最后防线。我们正在见证的，不仅是技术迭代，更是人类文明范式的根本性转变。一、算力奇点降临：AI基础设施的指数级进化量子计算与神经形态芯片的融合正在重塑算力边界。IBM最新数据显示，其量子体积（QuantumVolume）从2020年的64跃升至
【论文阅读】PERSONALIZE SEGMENT ANYTHING MODEL WITH ONE SHOT s1ckrain 计算机视觉论文阅读计算机视觉人工智能
PERSONALIZESEGMENTANYTHINGMODELWITHONESHOT原文摘要研究背景与问题：SAM是一个基于大规模数据预训练的强大提示框架，推动了分割领域的发展。尽管SAM具有通用性，但在无需人工提示的情况下，针对特定视觉概念（如自动分割用户宠物狗）的定制化研究尚不充分。方法提出：提出了一种无需训练的SAM个性化方法，称为PerSAM。仅需单次数据（一张带参考掩码的图像），即可在新
PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
比较分析：Windsurf、Cody、Cline、Roo Cline、Copilot 和通义灵码张3蜂开源编程语言与开发技术选型与架构设计 copilot c#AI编程
随着人工智能技术的快速发展，开发者工具变得越来越智能化，特别是在代码生成、辅助编程等领域，市面上涌现了多种AI驱动的工具。本文将从开源性、集成能力、功能覆盖范围、支持的编程语言、生态兼容性、成本、学习曲线、响应速度、离线支持以及与.NETCore的适配性等十个维度对以下几种产品进行比较：Windsurf、Cody、Cline、RooCline、Copilot和通义灵码。1.开源性Windsurf:
使用Aim追踪LangChain执行 bavDHAUO langchain python
在现代人工智能应用中，调试和可视化自动化工作流变得越来越重要，Aim正是为此而生。通过Aim，你可以轻松地追踪LangChain中语言模型(LLM)和工具的输入输出，以及代理的动作，从而在执行过程中快速定位和解决问题。此外，Aim还支持并排比较多个执行流程，使之成为调试中的得力助手。Aim是一个完全开源的项目，你可以在GitHub上找到更多关于Aim的信息。在本文中，我们将展示如何启用和配置Aim
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(