Alan and fish

【论文阅读13】Hybrid embedding-based text representation for hierarchical multi-label text classification

论文十问十答：
Q1论文试图解决什么问题？
Q2这是否是一个新的问题？
Q3这篇文章要验证一个什么科学假设？
Q4有哪些相关研究？如何归类？谁是这一课题在领域内值得关注的研究员？
Q5论文中提到的解决方案之关键是什么？
Q6论文中的实验是如何设计的？
Q7用于定量评估的数据集是什么？代码有没有开源？
Q8论文中的实验及结果有没有很好地支持需要验证的科学假设？
Q9这篇论文到底有什么贡献？
Q10下一步呢？有什么工作可以继续深入？

论文相关

论文标题：基于嵌入的混合文本表示，用于分层的多标签文本分类
发表时间：2022年
领域：自然语言处理
发表期刊：Expert Systems With Applications，一区
代码地址：https://github.com/EiraZhang/LACO.

摘要

许多真实世界的文本分类任务通常处理大量以层次结构或分类法组织的密切相关的类别。当分层多标签文本分类（HMTC）需要处理大量密切相关的类别集时，它已经变得相当具有挑战性。整个层次结构中所有类别的结构特征及其类别标签的词语义非常有助于提高大群密切相关类别的文本分类精度，这在大多数现有的HMTC方法中都被忽略了。在本文中，我们提出了一种基于嵌入的混合文本表示HMTC。

首先，混合嵌入包括层次结构中类别的图嵌入和类别标签的词嵌入。利用基于结构深度网络嵌入的图嵌入模型，同时对给定类别的全局和局部结构特征进行编码，使该类别在结构上具有可判性。我们进一步使用词嵌入技术对层次结构中每个类别标签的词语义进行编码，使不同的类别在语义上具有可区分性。
其次，我们提出了一种基于双向门控循环单元网络模型的逐级HMTC方法，并将混合嵌入用于学习分层文本的表示。
最后但并非最不重要的，广泛的实验在五个大规模的真实数据集与先进的层次和平面多标签文本分类方法，实验结果表明，我们的方法非常有竞争力的先进方法的分类精度，特别是维护计算成本而实现优越的性能。

1.引言

关键字：
HC：Hierarchical classification层次分类器
HMC： multi-label classification多标签文本分类
随着文本文档数量的急剧增加，现实世界中许多重要的分类问题都由大量的类别组成。这些类别通常非常相似，并被进一步组织成一个层次结构或分类法。大型分层文本存储库的典型例子是web目录（例如，开放目录项目/DMOZ），医学分类方案（例如，医学主题标题），图书馆和专利分类方案，和维基百科的主题分类。当文本分类任务需要处理上述层次结构中的大量密切相关的类别集时，它对于提高分类精度无疑已经变得非常具有挑战性。
层次分类（HC）是一种更为复杂的分类任务，其中类别不是不相交的，而是组织成一个层次结构。在层次结构中，一个对象可以属于一个、多个类别，或者根本不属于任何类别，这通常被称为多标签分类。层次结构以树的形式形式化类别之间的关系，其中类别至少有一个父类别，或者是一个有向无环图，其中一个类别可能有多个父类别，可以进一步作为外部知识引入，以提高分类性能。与HC分类器相比，所谓的平面分类器经常忽略层次结构，将其“扁平”到叶节点的层次，进行多标签文本分类。来自层次结构的不同层次的所有类别都是相互独立的。典型的平面分类器是FastText和结构化自注意分类器。然而，在处理大量类别和属性的情况下，层次结构信息对于构建高效的层次多标签分类（HMC）算法无疑是至关重要的。HMC允许每个对象除了给定的父类别及其子类别之外，还可以进一步关联到类别层次结构或分类法的几个不同路径。如今，HMC已经被广泛应用于一些文本分类任务和生物信息学任务（例如，蛋白质功能预测）。在本文的其余部分，我们将工作局限于HMC的文本分类，即层次多标签文本分类（HMTC）。
大多数现有的HMTC方法可分为两大方面：全局HMTC和局部HMTC

全局方法为整个层次结构训练单个分类器，并可以同时将对象与层次结构中的相应类别关联起来。全局HMTC方法似乎比局部方法需要更少的训练参数，而且也很少出现错误传播问题。然而，全局方法的训练模型在逻辑上是复杂的，由于丢失了关于类别及其结构关系的先验信息，经常遭受缺乏拟合。
相比之下，局部HMTC方法试图以自上而下的方式发现类别层次结构中特定区域的特异性，然后结合之前的预测来提供最终的分类结果。一个特定的区域可能是任何节点或任何层次。全局HMTC方法需要相对较少的训练参数，因此比局部HMTC方法有更低的计算成本，但是，由全局方法构建的分类器不够灵活，无法满足类别结构的变化。对于具有大量通常非常相似的类别标签的大量文本数据的分层多标签分类尤其如此。此外，值得注意的是，一些实验观察表明，并不是所有的HMTC分类器总是比一些平面分类器有更好的精度。即使已经考虑了HMTC的层次结构，如HATC和HDLTex。该现象中所存在的问题值得本文进一步探讨。
然而，根据上面提到的内容，在设计一个有效的HMTC解决方案时，仍然存在许多具有挑战性的固有问题。首先，我们认为类别标签的词语义对于使不同类别的语义可区分性是非常有帮助的。在现实世界的分类系统中，层次结构中的每个类别都有自己的标签名称，具有明确和可区分的语义意义。不幸的是，几乎所有现有的HMTC方法都忽略了层次结构中类别标签的单词语义。其次，应同时考虑一个特定类别在整个层次结构中的全局和局部结构特征，以使其在结构上具有可区分性。关于HMTC的一个明显的事实是，要分类的文本通常与整个层次结构的几个不同路径中的多个类别相关联。对于整个层次结构中的一个类别，其局部结构特征可以通过其直接的父母和子女类别或该类别处于层次结构层次的位置来描述。它的全局结构特征可能是在与整个层次结构中的类别相关的不同路径中的多个类别。然而，现有的全局和局部HMTC方法不能同时捕获这两种结构特征。全局的HMTC可以为整个层次结构建立一个通用的分类。本地HMTC，包括HDLTex和HFT-CNN，只能捕获一些局部结构特征。第三但同样最不重要的是，HMTC应该采用高效的文本表示模型，以在保持较低计算成本的同时实现更好的性能。
为了解决上述问题，在本文中，我们提出了一种基于嵌入的混合文本表示，通过它，我们可以逐级地自动预测最相关的类别。具体来说，本文的贡献如下。
首先，提出了一种混合嵌入方法，包括类别的图嵌入和类别标签的词嵌入，采用基于结构深度网络嵌入（SDNE）的图嵌入模型同时对给定类别的全局和局部结构特征进行编码，使类别在结构上具有可判性。我们进一步使用词嵌入技术对层次结构中每个类别标签的词语义进行编码，使不同的类别在语义上具有可区分性。将基于图嵌入的向量和基于词嵌入的向量连接起来，以表示层次结构中一个类别的综合特征。
其次，我们提出了一种基于双向门控循环单元（BiGRU）网络模型的分层HMTC方法，以及用于学习逐级的文本表示的混合嵌入。BiGRU是双向长短期记忆（BiLSTM）模型的简化版本，其结构较简单，训练参数较少，收敛性较好。
最后但并非最不重要的是，我们在5个规模的真实世界数据集上进行了广泛的实验，并与最先进的层次和平面多标签文本分类方法进行了比较，实验结果表明，该方法在分类精度方面优于现有方法，特别是在保持计算成本的同时提高了计算性能。
据我们所知，这是第一次综合尝试同时使用基于类别结构的图嵌入和基于标签语义的词嵌入来解决层次多标签文本分类问题。

本文的组织结构如下:

第2节是相关的工作。
第3节中，我们给出了HE-HMTC方法的框架，讨论了如何为文本表示编码结构特征和标签语义，以及如何对文本进行分类。
第4节中，我们进行了广泛的实验，并讨论了结果。
第5节是结论

2.相关工作

在过去的几十年里，基于深度学习的分类器已经开发出来，用于自动文本分类。这说明了它们在处理大规模语料库方面的巨大潜力，以及它们在自动特征提取方面的鲁棒性。基于深度学习的文本分类将文本表示和分类器集成起来，用反向传播算法更新模型参数，自动选择特征，最终完成分类。文本词通常用单词嵌入来表示。预先训练好的单词嵌入是自然语言处理领域中每个深度学习模型的重要组成部分之一。广泛使用的单词嵌入方法包括word2vec、 Glove和Elmo。它们将文本中的单词映射到一个低维的密集向量上，并且具有相似语义的单词具有接近的向量。许多基于卷积神经网络（CNN）、递归神经网络（RNN）或其变体的深度学习模型已经被提出，例如：fastText，BiLSTM，structured self-attention model。基于神经网络的方法对传统的平面分类问题有显著的影响，并成功地说明了它们在文本分类任务中的潜力。近年来，层次多标签文本分类（HMTC）在需要处理在层次结构或分类法中组织的大量密切相关的类别集时，在提高文本分类精度方面受到了越来越多的关注。早期的分层文本分类工作是基于贝叶斯模型等一些模型和支持向量机（SVM），其中，多类文本分类经常被探索，而不是使用层次文本分类（HMTC）。HMTC通常大致可以分为两种方法：全局和局部的方法。
全局HMTC方法同时为整个层次结构/分类法中的所有类别建立一个单一的全局模型。使用单一的全局模型的好处是，它们缓解了模型参数的爆炸问题，而且所有类别的所有参数都远远低于局部方法。由于全局方法以平面模型为主干，因此它们通常很难捕获不同的类别层，而且训练过的分类器不够健壮，无法解释类别组成的变化。由于较低水平的每组训练样本数量要比较高水平的训练样本数量小得多，因此父类别的判别特征在子类别中可能无法区分。最先进的全局HMTC方法是基于层次神经注意的文本分类器（HATC）。HATC通过引入注意机制来处理上述全局方法的缺点，该注意机制可以编码类别的层次结构，以提高文本分类性能。它提出了一个端到端全局神经注意的模型，并在两个基准数据集上以较低的计算成本优于大多数现有的HMTC分类器。
与全局方法相比，目前关于局部方法的研究越来越多。局部方法通常会充分利用层次结构中的结构特征来训练多个分类器。局部方法可以采用自上而下的方法为层次结构中的每个节点或每个层次级别训练局部分类器，但根节点除外。针对每个节点或每个层次级别的文本分类任务通常分别基于二值分类器或多类分类器。在测试阶段使用局部层次分类器时，这种自上向下的局部方法基本上有一种策略来防止类级的矛盾。然而，局部方法通常比全局方法有更高的计算成本，因为来自许多局部分类器的巨大参数变量可能会导致参数爆炸。当自顶向下的文本分类深入到层次结构中的较低层次时，从较高级别的错误传播到较低级别的错误传播也可能会导致严重的性能下降。
最先进的局部HMTC方法的技术水平是HDLTex，HFT-CNN，用于分层微调CNN网络，和HARNN用于基于层次注意的递归神经网络。HDLTex是一种局部HMTC方法，它在每个节点上训练一个分类器，并比传统的具有自上而下结构的非神经基础模型表现出优越的性能，但是，由于子模型的数量随着子树的数量呈指数增长，它可能随着类别的数量而降低。HARNN是一种逐层次的HMTC方法，它开发了一个基于层次注意的层次循环层来捕获文本和层次结构之间的关联。HFT-CNN最初是专注于HMTC的短篇文本。它使用单词嵌入和卷积层作为参数来学习类别层次结构的下一层次。采用微调技术，使上层分类结果对下层分类有贡献。在本文中，我们对最先进的HMTC方法进行了简要的分析和比较，如表1所示。

在表中，HMTC Type是指定HMTC方法是全局的还是局部的。训练分类器是表示一个分类器是为整个层次结构、每个节点还是每个层次进行训练的。结构依赖信息是用来描述HMTC使用了哪些结构依赖信息。我们可以发现，所有列出的方法都利用了两个相邻层次之间对父母/孩子的直接依赖。标签语义是为了显示HMTC方法是否考虑了类别标签的词语义。分类器类型用于指定从二值分类器、多类分类器和多标签分类器中选择的训练后的分类器的类型。最后一列告诉我们，相应方法的源代码可以在网上找到。以HFT-CNN为例，HFT-CNN是一种局部HMTC方法，训练每个层次训练多类分类器；自顶向下的文本分类利用了两个相邻级别之间的父母/孩子的直接依赖关系；它不考虑类别标签的词语义，其源代码可以在网上找到和获得。重要的是，我们可以发现：

1)这些HMTC方法无法学习类别标签的单词语义。然而，我们认为类别标签的词语义对于使不同类别的语义可区分性是非常有帮助的。为了提高HMTC的性能，应考虑类别标签的Word语义。
2）所有这些方法都只考虑类别层次结构中的局部结构信息，如直接父母和子女类别之间的依赖关系。我们认为，应该考虑与整个层次中类别相关的不同路径上的全局结构信息，使不同类别在结构上具有可区分性。
现有的与我们的方法最相似的工作是HDLTex和HFT-CNN，在这些最先进的HMTC方法中提到上述。HDLTex和HFT-CNN两种方法都采用逐层次分类，设计多类分类器对每个层次的文本进行分类。因此，分层的多标签文本分类被简化为为从根到叶的每条路径中的文本找到一组标签。另一方面，我们的方法与HDLTex和HFT-CNN都有明显的区别。也就是说，我们采用了全局和局部的基于类别结构的图嵌入和基于类别标签语义的词嵌入来解决HMTC问题。

3.建议的方法

3.1方法框架

我们提出了一种基于嵌入的混合文本表示，缩短为HE-HMTC。它是一种逐层的局部HMTC方法，在分类层次结构或分类法的每个级别上以自上而下的方式训练分类模型。我们的HE-HMTC方法的框架如图1所示，它总体由四个主要部分组成。

图1 在层次结构的第1级上的文本分类的框架

1)基于BiGRU的文本表示。我们使用双向GRU模型（BiGRU）对文本信息进行编码，以获得第l级文本的向量表示，记为 $h_l$ 。我们使用BiGRU进行原始文本表示的原因是，BiGRU是广泛用于文本表示的BiLSTM的简化版本，而且它的网络结构相对较简单，与BiLSTM模型相比，训练少且参数具有更好的收敛性。
$h_l$ 是通过连接 $\vec{h_1}$ 和 $\vec{h_n}$ 来构造的，其中 $\vec{h_n}$ 和 $\vec{h_1}$ 分别表示通过向前和向后输入单词嵌入而获得的文本表示.
2)一个预先获得的图嵌入集，其中包括在层次结构中的每个类别标签的特征嵌入.类别嵌入同时考虑了类别标签的结构特征和词语义。类别中嵌入的特征包括类别在整个层次中的图形嵌入和类别标签中的单词嵌入。采用基于SDNE的图嵌入和word2vec词嵌入，分别捕获类别层次的结构特征和每个类别标签的语义特征。类别嵌入的向量是低维的、密集的，可以包含相应类别的全局和局部结构特征及其词语义.
3)基于l级分类器的混合嵌入式文本表示。将l-1级文本的分类类别记为 $p_{l−1}$ ，然后通过查找预先获得的类别嵌入集，可以得到与 $p_{l−1}$ 对应的类别嵌入。这里与 $p_{l−1}$ 对应的类别嵌入表示为 $c^i_{l−1}$ ，用于协助下一个较低的l级的分类。然后，我们将 $h_l$ 与 $c^i_{l−1}$ 连接起来，以获得一个新的文本表示 $d_l$ ，它将被用作当前级别l的分类器的输入。
4)采用全连接层（FC）加上softmax层来对第l级的文本进行分类。l级文本的分类类别 $p_l$ 被记录下来，并将进一步用于下一个较低的l + 1的分类，直到在叶节点级进行分类。然后，通过多个非线性变换对y进行解码操作，尝试恢复输入数据，解码结果为x。

3.2 混合类别嵌入

我们分别使用结构深度网络嵌入（SDNE）模型和word2vec方法进行图嵌入和单词嵌入，我们选择SDNE的原因是它可以同时学习和捕获层次结构的局部和全局结构特征。SDNE是一种设计用于在低维空间中表示图的图嵌入方法并且尽可能保留图形属性信息。

3.2.1.类别结构的图形嵌入

我们使用SDNE方法来学习类别层次结构中每个节点的结构特征。我们选择SDNE的原因是它可以同时学习和捕获层次结构的局部和全局结构特征。SDNE使用一个深度自动编码器来学习图的局部和全局结构特征。深度自动编码器是一种数据压缩算法。首先，通过多个非线性变换将输入数据x编码到一个低维表示空间中（例如，一个多层完全连接的神经网络），并得到了数据的低维表示y。然后，通过多个非线性变换对y进行解码操作，尝试恢复输入数据，解码结果为 $\hat{x}$ .深度自动编码器通过最小化x和 $\hat{x}$ 之间的差异，确保在低维表示y中保留了足够的原始数据信息.
在这里，我们给出了一个数学符号的统一表示，如下。我们使用x的粗体斜体小写字母表示向量，X的粗体大写字母表示矩阵，H的斜体大写字母表示一个集合，标量变量的形式x的斜体小写字母，拉丁字母形式的α，β，ϑ表示系数。
在本文中，一个类别层次可以记为H =（V，E），其中，V={v1，⋯，vn}表示节点集，E = {ei，j}n i，j=1表示边集。每个边 $e_{i，j}$ 都有一个权重 $weight_{i,j}=1$ 。如果在 $v_i$ 和 $v_j$ 之间没有边，那么 $s_{i，j}$ 就等于0。深度自编码器的损失函数定义为Eq.

其中，X是图的邻接矩阵, $\hat{X}$ 是重构的邻接矩阵。符号⊙表示阿达玛乘积。符号B是一个用于处理图过于稀疏的问题的矩阵。对于B中的任何元素 $b_{i，j}$ ,如果 $s_{i,j}=0$ ,这时的 $b_{i,j}=1$ ,否则， $b_{i，j}$ 被分配了一个超参数β。符号F表示矩阵的弗罗比尼乌斯范数。损失函数包含三个附加部分。

第一部分是减小X和 $\hat{X}$ 之间的差值，以确保具有相似邻居的节点具有相似的节点向量，因此，保留了图的全局结构特征. $y_i$ 和 $y_j$ 分别是第i个节点和第j个节点的向量表示.α是一个人为指定的系数.
第二部分旨在减少与一条边相关联的两个节点的向量表示之间的差异，以确保具有边连接的两个节点的向量表示是相似的.因此，该图的局部结构特征也被保留了下来。
在第三部分中， $L_{reg}$ 是一个防止过拟合的L2-范数正则化器，而ϑ是正则化系数。
对于具有m个层次的类别层次结构H， $v^i _l$ 表示H中第l级的第i个节点,其中1 ≤ l ≤ m,1 ≤ i ≤ $n_l$ ,而 $n_l$ 是指在层次结构H的第l级上的类别数.首先，H中的每个节点都可以用SDNE编码为一个低维致密向量，用Eq表示。

其中 $g^i _l$ 为节点 $v^i_l$ 的结构嵌入向量，H是类别层次结构，由SDNE算法生成的节点向量 $g^i_l$ 保留了层次结构中与节点 $v^i_l$ 对应的类别的全局和局部结构信息，它反映了类别在层次结构中的位置信息以及类别之间的结构关系。

3.2.2 Word嵌入的类别标签

Word嵌入技术作为类别嵌入的有用补充.它可以进一步区分兄弟节点中的一个节点和另一个节点，这是SDNE很难区分的。Word嵌入可以捕获类别标签的单词语义，这些标签描述了与类别关联的语言上下文。例如，由于相同的父节点，层次结构中的兄弟节点/类别往往具有相似的位置和结构信息，所以SDNE方法不能区分这些兄弟姐妹类别。在自然语言处理领域，单词嵌入保留了一个单词的语义信息，因此，我们利用类别名称的词嵌入来计算类别的语义信息向量。
对于类别节点 $v^i_l$ ，其标签名称由k个单词word1、word2、⋯、wordk组成.假设k个单词对应的单词嵌入为（w1、w2、⋯、wk）,然后我们可以计算出方程Eq中 $v^i_l$ 的语义信息向量.

对于只包含一个单词的类别标签,它的语义信息向量只是其标签名称的单词嵌入。

3.2.3 类别信息混合嵌入

一旦我们得到了图嵌入向量 $g^i_l$ 和单词嵌入 $s^i_l$ ，通过将向量 $g^i_l$ 与向量 $s^i _l$ 连接起来，我们可以得到节点 $v^i_l$ 的混合嵌入，这可以在Eq中定义.

其中，符号⊕表示两个向量的串联操作。

3.3 分类模型

假设有一个文本用n个单词进行分类(分别表示为word1、word2、⋯、wordn，它们对应的单词嵌入向量分别为（w1、w2、⋯、wn）.HE-HMTC方法将对文本进行逐级分类，以进行分层的多标签文本分类。第l级的分类模型如下。首先，使用双向GRU来学习第l级文本的表示，如方程式所示。

在第1级的文本的向量表示 $h_l$ 是通过连接 $\vec{h_1}$ 和 $\vec{h_n}$ 来构造的，也就是说， $\vec{h_l}=\vec{h_1}⊕\vec{h_n}$ , $\vec{h_1}$ 和 $\vec{h_n}$ 分别表示通过向前和向后输入单词嵌入而获得的文本表示。在HE-HMTC中，l级的分类器需要考虑之前的l-1级的分类结果 $p_{l−1}$ 。假设 $p_{l−1}$ 是与类别节点 $v^i_{l−1}$ 关联的类别,通过查找预先获得的类别嵌入集，我们可以在l-1级得到文本的类别嵌入 $c^i_{l-1}$ 。
然后，我们通过将旧的文本表示 $h_l$ 与 $c^i_{l−1}$ 连接起来，得到一个新的文本表示 $d_l$ ，即 $dl=c^i_{l−1}⊕h_l$ 。因此，新的文本表示 $d_l$ 现在包含了在l-1级的分类结果的信息。值得注意的是，在第一级中没有可用的类别嵌入。在本例中， $d_1$ = $h_1$ .
最后，我们使用一个全连接层（FC）和一个softmax层来对第l级的文本进行分类，如Eq所示。

其中，符号W1和W2分别是从输入层到隐藏层和从隐藏层到输出层的fc的权重矩阵。符号b1和b2是偏差。此外，我们还使用交叉熵函数来计算损失。softmax是在l级的所有类别上计算的，我们得到了分类结果pl也是l级的。
本文提出的方法逐层对层次结构中的每个层次进行上述分类操作，直到得到最后一层的分类结果为止。我们的方法的一个明显的优点是，我们可以利用上层的分类结果来协助下一级的分类。另一个优点是预先训练的混合类别嵌入，这将非常有助于提高分类精度。当然，作为硬币的另一边，我们的方法的缺点是它需要额外的计算成本来预训练混合类别嵌入。

4.实验

4.1 实验描述

在实验中，我们使用了5个真实的数据集，每个数据都有层次类别。这些实验的数据集如下：

WOS ：自科学网络，曾经在工作中使用过的数据。
Amazon：自于亚马逊的产品评论
BestBuy，WebService：来自于网络服务,数据集WebService是在本文中被采用和创建的，并进一步被上传到GitHub上.以及我们的HE-HMTC方法的源代码.
这五个数据集都适用于我们的方法，因为它们不仅具有用于基于结构的图嵌入的层次类别结构，而且层次结构中的每个类别标签都必须是具有特定语义的字符串，用于基于语义的单词嵌入.这五个数据集的统计如表2所示：

数据集下载地址：
https://data.mendeley.com/datasets/9rw3vkcfy4/2.
https://www.kaggle.com/kashnitsky/hierarchical-text-classification.
https://github.com/BestBuyAPIs/open-data-set.
https://www.programmableweb.com/category/all/apis.
http://wiki.dbpedia.org/.
https://github.com/lxf770824530/HE_HMC.
https://github.com/kk7nc/HDLTex.
https://github.com/ShimShim46/HFT-CNN.
https://github.com/649453932/Chinese-Text-Classification-Pytorch.
https://github.com/bojone/bert4keras.

4.2 基线算法

我们使用两种最先进的多标签分类器作为基线，以验证我们的HEHMTC方法的分类性能。它们分别是用于多标签文本分类的分层文本分类器和平面文本分类器。在本文中，我们将把我们的HE-HMTC方法与我们提到的更多数据集进行比较。
最先进的层次多标签文本分类器是HDLTex12和HFT-CNN13。与数据集OWS和DBpedia相比，这两种分层文本分类方法对许多现有的平面或分层文本分类器都具有更高的分类精度，它们的源代码也可以在线获得。
另一方面，最先进的平面分类器包括最大池的双向LSTM或平均池化多层感知器（MLP）,和 FastText。这三种方法都可以在网站上找到，另外一种最受欢迎的平面分类器就是Bert模型。表3是是所有基线模型、对比模型以及我们的模型。我们还给出了其中提出它们的相关文献。

这真的是一个良心的作者，他一次将所有的代码、数据集、相关对比模型的论文全部都告诉了别人。

4.3 实验配置

4.3.1 实验环境

1.系统环境
我们的实验是在Windows10操作系统上进行的，该操作系统是用Keras框架和Python3.6语言构建的。硬件包括GPU与NVIDIA RTX2080 SUPER，和内存8 GB。
2.数据预处理

首先提取文本和每个级别的类别标签。
第二步是清理数据，以删除文本中对分类任务无效的标点符号和停止单词。
第三步对文本和相应的标签进行打乱，将训练集和测试集除以80%到20%的比例。
最后，我们使用picke模块序列化数据并将其保存到磁盘以使用模型训练。

3.预训练

graph embedding(文本结构图嵌入)：
- 训练模型：SDNE
- 维度:300
word embedding：
- 训练模型：glove
- 维度：300

4.模型
并采用100个隐藏单元的双层双向GRU，将输入线性变换的单位的分数分别设为0.2。输出层的维度是根据当前级别上的类别数量来设置的。我们将数据集中的文本处理为标准长度。对于超过标准长度的文本，我们将删除文本末尾的单词。对于比标准长度短的文本，我们将其填充到标准长度。在训练过程中，零将被掩盖，不参与计算。对于所有的数据集，它们的标准长度分别被设置为500和300。批量大小设置为64。

5.优化

优化器-Adam优化器:
- 学习率为= 0.001
- beta 1 = 0.9
- beta 2 = 0.999
- epsilon=10−8

特别是在消融术的研究中，除完全连接的隐藏层中的神经元数量外，上述实验设置均相同。当没有嵌入的类别信息时，隐藏层神经元的数量设置为256.当嵌入类别标签或类别结构时，隐藏层神经元的数量被设置为500。混合嵌入的隐层神经元数为800个。

4.3.2 评价指标

层次化的文本分类方法通常需要在每个级别上验证分类性能。我们通过两个评价指标来评估我们的方法：准确性（ACC）和总体准确性（OA），这两个指标通常用于比较层次多标签文本分类.此外，我们使用度量的训练参数数（NTP）来比较基于深度神经网络的模型训练的计算复杂度。它们如下所示。

Overall accuracy (OA)总精确度：

当预测的父类别用于逐级分类时，总体精度指数用于评估总体分类性能。总体精度可以正式定义为 $=\frac {|C^p|}{ |S|}$ ,其中 $C^p$ 是在预先提供上层的预测的父类别时，在层次结构的最后一级被正确分类的实例集,S是所有测试实例的集合.

Accuracy (ACC)精确度：

对于层次分类，不同层次的分类器可能具有不同的精度.当提供真正的父类别时，准确性（ACC）指数可以用于评估分类器在层次结构的每个层次上的独立性能。在层次结构的第l级的精度 $ACC_l$ 可以正式定义为 $ACC_l =\frac {|C^t_l|} {|S|}$ ，其中， $C^t_l$ 是在预先提供真正的父类别时，在层次结构的第l个（l≥1）级别上正确分类的实例集，而S是所有测试实例的集合。此外，精度指数是解决平衡分类问题的合适指标。在层次结构中，根节点通常被认为是0级。
值得注意的是，平面分类器对于索引OA和ACC具有相同的性能值，因为平面分类器不考虑层次结构。

Number of training parameters (NTP)训练参数数量：

训练参数指标数（NTP）可用于评估模型训练的分类复杂度和计算成本。NTP是计算分类器在训练集上训练的训练参数的总数。这有一个常识：更多的训练参数通常意味着分类器将花费更多的时间进行文本分类。

总结一下,在写论文的时候，这个评价指标这块应该怎么写，我们应该结合我们自己的数据集，分析一下为什么要用这个评价指标，并且指出每个参数在我们实验中代表什么。

4.4 实验和结果分析

4.4.1统计检验和交叉验证

在机器学习任务中，常用的数据划分方法是保留验证和k倍交叉验证。对于具有大量数据的数据集，最好采用10倍交叉验证方法。相比之下，当面对具有少量或中等样本数据的数据集时，将数据分成10个相等的部分将使测试样本的数量相对小，这在一定程度上会导致模型训练的偶然性和偶然性。
在考虑实验中所涉及的数据集时，包括DBpedia, Amazon, Bestbuy, WebService, and WOS,它们都有少量或中等的样本数据。除DBpedia外，数据集中的样本数量低于50,000个，（特别是， Webservice只有10,184个样本）。如果在这些小数据集上使用10倍交叉验证方法，测试结果可能是偶然的。此外，在文本分类中使用保留交叉验证来评估模型，通常是将整个数据集分为80%的训练集和20%的测试集，这与5倍交叉验证方法获得的数据的比率相同。
因此，在本文中，我们进行了5倍交叉验证，来估计根据数据集的大小进行统计检验的指标值。当对我们的模型进行5倍交叉验证时，我们首先随机抽样数据分层，并将其分成5个相等的部分。对于每个验证，选择4个部分作为训练集，另一部分作为测试集。我们以这种方式重复模型训练5次，得到5个验证结果，最后以5个结果的平均值作为模型的最终测试结果。测试结果如图2所示，其中每个交叉验证的标准误差代表了与平均精度的差距。

在图2中，子图2(a)2(b)分别是基于三个层次的数据集DBpedia和Amazon的5倍交叉验证实验结果。其他的则有两个层次结构。实验结果表明，我们的5倍交叉验证在DBpedia、Amazon和WOS数据集上表现得非常好。不同层次的精度和总体精度在其精度值的分布上都是相对稳定的。每个交叉验证的标准误差也是稳定的，这是通过当前平均和平均精度之间的减法计算出来的。大多数的5倍交叉验证在数据集bestBuy和 Webservice集上表现得非常好,除了与数据bestBuy的其他折点相比，第五次交叉验证有一点总体变化.在WebService的第二倍交叉验证中，变化分别略高于和低于平均值。

在这里，通过计算指标值的平均值和标准差，显示了许多关于指标值的结果和分布的信息。根据这些实验结果，整个5点交叉验证的实验结果有合理的确定性。

k折交叉验证

就是把测试集和训练集合并起来，从中挑选出k个不同的验证集，然后依次在每个验证集上作实验，如果每次的实验结果都是趋于相近的水平，说明这个模型是稳定的，这个就称为k折交叉验证。

4.4.2 与平面分类器相比的准确性

在过去的几年里，一些平面分类器具有多标签文本分类的优异性能。有一些实验观察结果：并非所有的HMTC分类器都比一些平面分类器有更好的准确性。在本文中，我们的HE-HMTC方法使用混合嵌入文本表示，集成了类别结构的全局和局部图嵌入和类别标签的词语义。有必要与最先进的平面分类器进行比较，以验证我们的方法的性能。
我们首先将我们的方法与5个真实数据集中提到的4.1节中提到的最先进的平面分类器进行了比较。在这里，我们只考虑整体精度性能指数，因为平面分类器不考虑层次结构。实验结果见表4。

从表4中，我们可以发现，我们的HE-HMTC方法在所有适用的数据集上都优于所有的平面分类器。在表中，总体精度最大的实数值以粗体显示。真实的最小的整体精度使用下划线标出。不难发现，我们的方法在几乎所有的数据集DBpedia、亚马逊、百思买和WebSercice上，都有非常明显的分类性能改进。基于我们的方法的总体精度在数据集DBpedia上提高了至少1.18%（95.86%–%94.68），在亚马逊数据集上提高了19.20%（78.05%–58.85%），在BestBuy上提高了3.07%（96.36%–93.29%），在数据集网络服务上提高了9.50%（76.31%-66.81%）。另一个发现是，基于FastText的总体准确性是所有方法中最低的。其他三种方法，如BiLSTM/ Maxpool/MLP、BiLSTM/Meanpool/MLP和BERT/MLP，在总体精度方面都获得了中等的分类性能。

4.4.3 与层次分类器相比的准确性

在下面，我们将我们的HE-HMTC方法与最先进的HMTC方法HDLTex和HFT-CNN进行比较，就其分类性能而言。我们将在DBpedia, Amazon, Bestbuy, WebService, and WOS五个数据集上作实验，我们同时关注性能指标的准确性和整体准确性。我们使用总体精度指标来评估我们的HE-HMTC的整体分类性能，当预测的父类别被提供逐级分类时。另一方面，由于局部层次分类通常是以自顶向下的方式逐级进行的，因此在提供真父类别时，我们需要跟踪和验证分类器在层次结构各层次上的独立性能。实验结果如表5所示，其中 $ACC_i$ 是指在提供上一层文本的真父类别时，第i层的准确率值。OA仍然是指与预测的父类别一起提供的文本的最后一级标签的总体准确性。

从表5可以看出,一方面,在5个适当适用的数据集上,HE-HMTC方法的整体精度性能指标优于两种分层方法。与Amazon和WebService数据集相比，我们的方法有非常明显的分类性能提升，分别提高了至少17.58%(78.05% 60.47%)和10.28% (76.31% 66.03)。总体准确率也分别比其他三个数据集DBpedia、BestBuy和WOS至少提高3.76%(95.86% 92.10%)、2.42%(96.36% 93.94%)和1.93(78.51 76.58%)。结果表明，该方法具有较好的整体分类性能。
另一方面，对于精度性能指标，HEHMTC方法在所有适当适用的数据集上，与所有分层分类器HDLTex和HFT-CNN相比，具有非常有竞争力的分类精度。它在大多数级别上都优于这些数据集。这表明我们在每个层次的分类器都具有竞争力的分类性能。另一个发现是，基于HFT-CNN的总体精度在所有5个数据集的所有层次方法中都是最低的。HDLTex在精度和总体精度指标方面都具有中等的分类性能。

4.4.4 对HE-HMTC方法的消融研究

我们进行了消融研究，以检查和断言所提出的混合嵌入如何对实验结果的影响。消融实验目前已被广泛应用于研究不同“特征”的行为和影响，组成了一个复杂的深度神经网络模型和算法。消融研究通常指的是去除模型或算法的一些特征，并观察这是如何影响性能的。我们从以下四个特征中进行了实验和分析：

GE-WE-：禁用混合嵌入，包括图形的嵌入和词的嵌入
GE+：仅启用基于SDNE的类别结构的图嵌入
WE+：只启用类别标签的单词嵌入
GE+WE+：通过我们的HE-HTMC方法，实现了混合嵌入
对于每个特征/情况，我们希望观察整体精度的变化和各级精度的变化。实验结果如表6所示。

从表6中可以看出，在这四种情况下，它们在每个数据集上的第一级的准确性是相同的。此外，通过深入分析，还可以发现一些非常有趣的结果。
首先，如果我们禁用包括单词嵌入和图嵌入在内的类别嵌入（GE−WE−），那么我们所获得的精度和总体精度在5个数据集的四种情况中都是最低的。这也表明了我们的混合嵌入方法是值得探索的这也表明了我们的混合嵌入方法值得探索，同时也很有意义。
接下来，我们将分析这三个特征以进行进一步的消融研究，即GE+、WE+和GE+WE+（我们的HE-HMTC）。首先，不难发现，当GE+或WE+分别应用于对这5个数据集进行分类时，这两种方法在每个级别的分类性能和总体精度上都有显著的提高，这两种方法在每个级别的分类性能和总体精度上都有显著的提高。这显然表明，基于类别结构的图嵌入或基于标签语义的词嵌入确实有助于提高分类性能。
其次，我们比较了GE+和WE+这两个特征，并进一步验证了哪些特征更有助于提高分类性能。在几乎所有除Amazon ACC3之外的情况下，我们发现GE+WE−在提高分类准确率和整体准确性方面比GE−WE+具有更显著的优势。对于层次分类，这可能表明类别结构可能比类别标签的词语义对提高分类性能的影响更大。
第三，我们分别将我们的方法（GE+WE+）与GE+和WE+这两个特征进行了比较。在总体精度指数方面，我们的HEHMTC方法总体上比几乎所有的数据集都优于GE+和WE+。
虽然我们的方法对 BestBuy的总体准确性略低于GE+的0.1%（96.46%-96.36%），但它没有统计学意义。另一方面，值得注意的是GE+和我们的方法之间的每个级别的精度值。我们可以发现，在大多数数据集，如亚马逊、百思买、网络服务和WOS,GE+有时在某些程度上比我们的模型的准确性略高。但仔细看看，我们模型和BestBuy, WebService 和WOS之间的准确性差异分别被限制在0.03%（97.29%–97.26%）、0.4%（80.22%–79.92%）和0.38%（84.80%–84.42%），这也没有统计学意义。此外，通用电气+有时的情况精度略高于我们的方法经常发生w.r.t ACCi指的是精度值在i级时提供真正的父母类别文本的上层，也就是说，它不需要考虑错误传播从上层。
在这里，我们认为这并不意味着单词嵌入对我们的方法不是必要的或重要的。相反，如果我们注意到我们的方法在几乎所有数据集上的总体精度都高于GE+。我们知道，总体准确性指的是由预测的父类别提供的文本的最后一级标签的准确性。因此，我们相信，当我们将WE+纳入我们的方法时，WE+对提高整体分类性能非常有帮助，这可以减少分层文本分类过程中从上层开始的错误传播。深入研究发现，我们认为WE+辅助的HMTC比没有WE+特性的HMTC更有效地处理数据稀疏性问题。用于分类模型训练的训练样本数据往往会变得相对稀疏。训练次数随着层次的加深，每个类别的文本样本变得越来越小，因为每个上层的类别比层次中的下层类别少得多。简而言之，从上述分析来看，我们的HE-HMTC方法在所有五个数据集的分层文本分类性能上都非常具有竞争力。

4.4.5 分类过程的复杂性分析

下面，我们将我们的HE-HMTC方法与最先进的HMTC方法HDLTex和HFT-CNN进行了比较，关于它们的计算复杂性和成本。这些实验是在这五个数据集上进行的。我们关注的是训练参数的复杂性指数数量（NTP），而不是花费时间来执行包括学习和测试阶段在内的分类过程。NTP指数可以反映分类过程的学习和测试阶段的复杂性和计算成本。较少的训练参数通常意味着在学习和测试阶段有更少的复杂性和计算成本，反之亦然。在实验中，收集了训练参数的数量。实验结果见表7。

在表7中，我们将HE-HMTC方法与HDLTex和HFT-CNN进行了比较。考虑到HE-HMTC模型是一个逐级的局部HMTC模型，通过将每个层次分类模型的所有训练参数相加，得到参数的数量。在我们的实验中，每个层次的参数只包括参与模型训练的参数。很容易发现，HE-HMTC保持了较低的NTP值。它的NTP比HDLText要低得多，只是略高于HFT-CNN。原因可能是HDLTex为层次结构中的每个类别构建了一个分类器，因此具有非常大的训练参数。
简而言之，根据前面的实验部分，我们可以得出结论，我们的方法比最先进的平面和层次化方法具有优越的分类精度，特别是在保持较低的计算成本的同时，实现了优越的文本分类性能。

4.4.6 分类性能的综合统计分析

在本节中，我们希望对所有最先进的平面和层次化方法进行全面的统计分析，包括我们的HE-HMTC方法。赫尔林格-TOPSIS（H-TOPSIS）模型被提出用于排名算法并通过应用海林格-距离和TOPSIS来支持最佳算法的选择,它已被用于多视角文本分类的实证评价.在本文中，我们将使用H-TOPSIS模型对所有最先进的方法和我自己的模型方法进行全面的统计分析。我们首先对海林格距离和H-TOPSIS作出简要的解释如下：
设f和g为两个概率密度函数（FDF）。f和g之间的海灵格距离 $D_H（f，g）$ 由Eq给出。

设f1和f2分别为两个正态分布 $N（μ_1，σ^2_1）$ 和 $N（μ_2，σ^2_2)$ 上的两个PDFs，用f1进一步计算f1和f2之间的Hellinger距离 $D_H（f_1，f_2）$

其中， $μ_1$ 和 $μ_2$ 为平均值， $σ_1$ 和 $σ_2$ 为标准差。使用海林格距离来比较算法性能的H-TOPSIS可以在以下步骤中进行描述。
Step1：计算每个标准的positive ideal solutions $PIS）f ^+$ 和negative ideal solutions $NIS）f^−$ 。在本文中，我们主要关注分类算法的准确性。一个精度越高的算法就越好。假设我们有n个算法，每个算法都有m个准则。设 $μ_{ij}$ 表示第i个算法的第j个准则的平均值，因此每个准则的PIS和NIS都可以用Eq来总结.

式中，i∈{0、1、2、…，n}、j∈{0、1、2、…，m}、n和m分别为算法/方法和评价准则的数量。
step2:分别计算每个算法的PIS（+）和NIS（−）的分离度量 $di^+$ 和 $di^−$ ，如下式所示。

step3：通过等式计算每个算法相对于positive ideal solution的相对接近系数ξi.

**Step 4:**根据相对接近系数ξi对备选方案进行排序.最好的算法是那些ξi值较高的算法，因此应该选择它们，因为它们更接近正的理想解。

具体来说，我们分别做了两种排名。第一种就是将所有的平面分类器与我们的分类程序一起排序。另一种是关于所有的HMTC方法。在本文中，对于第一种排名，我们以总体精度（OA）和每个第i级的精度（ACCi）作为所有最先进的HMTC方法的标准。为了满足各算法统计变量的一致性，我们使用ACC1、ACC2和OA三个标准来评估算法，因为其中有些数据集只有类别标签的两级层次。首先，我们提取了HDLTex、HFT-CNN和HE-HMTC三种算法中关于ACC1、ACC2和OA的信息。分别在5个不同的数据集上计算各算法精度的平均μ和标准差σ，如表8所示。

然后，我们从表8中提取每个准则的PIS和NIS值，从而得到表9。

然后，我们从值 $PISf^+$ 和 $NISf^-$ 通过方程计算分离度量 $d^+_i$ 和 $d^−_i$ 。然后，我们将通过Eq得到每个算法的相对接近系数ξi.关于算法排序的最终排序结果如表10所示。

对于第二类排序，由于平面文本分类算法只有总体精度，所以我们只以总体精度作为对我们的HE-HTMC算法和所有平面算法进行排序的标准。与第一种排名类似的操作可以获得相关的表信息，如表11-13所示。

从表10和表13中我们可以发现，我们的HE-HMTC方法在所有层次和平面分类器中具有最高的相对接近系数排名，这总体上表明我们的方法比这些适用的数据集具有优越的分类性能。在平面分类器中，FastText被排在最后位置。
此外，考虑到表7，我们可以得出结论，与最先进的局部和分层文本分类方法相比，我们的HEHMTC方法具有优越的分类精度，特别是保持了较低的计算成本，同时实现了优越的性能。

5.结论

本文提出了一种基于嵌入的HMTC混合文本表示方法。我们的HE-HMTC方法充分利用了类别的结构及其标签的语义来丰富文本的表示，从而试图提高文本的分类性能。本文的新贡献是给出了一种基于嵌入的混合文本表示，该表示将基于BiGRU的文本表示与基于类别结构的图嵌入和基于类别标签的词嵌入相结合。我们做了广泛的实验，在5个适当适用的数据集上验证了我们的HEHMTC方法的性能。在相关的精度分析方面，我们发现我们的HE-HMTC方法在几乎所有适用的数据集上对所有的平面和层次分类器具有非常强的竞争力。消融实验从四个角度进行，通过它，我们发现我们的HE-HMTC方法通常可以在几乎所有具有最深层次的数据集上获得最高的总体精度。通过对所有最先进的平面和层次分类器进行基于H-TOPSIS的综合分析，我们的HE-HMTC方法在5个真实字数据集上排名最高。
我们必须注意到，关于HMTC的改进及其性能验证的问题仍然是一个有待解决的问题。在未来的工作，我们将探讨HMTC如何有效地应用于特定领域的文本分类任务，如基于文本的情绪分析、web服务发现。另一方面，我们认为，如果加入更多的验证方法，最好采取新的见解来研究HMTC的改进。
在未来的工作中，我们希望利用我们的HE-HMTC方法，将其应用于电力文本多标签分类，以进行故障类型识别和决策。此外，我们还将探讨如何有效地学习用于文本分类的语义丰富的类别标签嵌入。

你可能感兴趣的:(论文阅读笔记,论文阅读,深度学习,人工智能)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比