冰淇淋和慕斯蛋糕

【论文阅读】Merging Statistical Feature via Adaptive Gate for Improved Text Classification基于自适应门的统计特征合并改进

Merging Statistical Feature via Adaptive Gate for Improved Text Classification
来自期刊AAAI 2021年的
文章信息如下图所示（作者…)
和之前的论文阅读专栏一样，只对部分进行翻译、截取、笔记。

1. Introduction
2.Related Work
- 2.1 Text classification
- 2.2 Classifier with additional knowledge
3. Methodology
- 3.1 Global information
- - Definition 1
- 3.2 V-Net: Variational Encoding Network
- - - 小的总结：
- 3.3 S-Net: Semantic Representation Projection Network
- 3.4 Valve Component
- 3.5 Classifier
4 Experiment
- 4.1 Datasets
- 4.2 Baselines
- 4.3 Word embedding and parameter settings
- 4.4 Experiment Results
5 Discussion
- 5.1 Effect of valve
- 5.2 Effect of Statistical Information
- 5.3 Adversarial attacks on TCoL
- 5.4 VAE vs AE in the V-Net
- 5.5 Scalability of Implementation
6 Conclusion & Future work

1. Introduction

工作概括：
提出了一个AGN网络来用选择性的统计特征来加强语义代表。
【原文：In this paper, we propose an Adaptive Gate Network (AGN) to consolidate semantic representation with statistical features selectively.】

原因：
在文本分类中，深度学习忽略了词频、分布等基本的原有的特征。这些特征是语料库中固有的且易于检索的。

以前的不足：
TF-IDF作为经典的词频检索算法，存在无法利用位置信息和捕获细粒度语义(Ramos et al. 2003)的问题，这使得它与深度体系结构中的其他表示学习方法相比不那么有利。

本文的发现：
从我们的初步研究中，我们发现使用统计特征(如在3.1节中定义的标签的词数)作为一个附加特征，可以对各种基线产生实质性的改进，其中词频通过注意层适应术语的权重。
遗憾的是，早期的研究可能低估了语料库级统计特征在深度学习中的实际作用，需要新的融合机制来融合这些信息。特别是在设计融合机制时，我们必须考虑两个主要问题:

语义特征和统计特征在尺度和维度上不兼容;
新的信息可能不是所有语义特征都需要的。
（这里还不太理解为啥会出现这两个问题）
【原文：
1. The semantic feature and statistical feature are not compatible in scale and dimension;
2. The new information may not be necessary for all semantic features.】

模型的具体组成概括：
在本文中，我们提出了一个新的框架，自适应门网络(AGN)，通过门机制融合统计特征来增强神经（网络？）分类。（enhance neural classification）
更具体地说，AGN由三个部分组成，
一个变分编码网络 （a variational encoding network）称为V-Net，
一个语义表示投影网络（a semantic representation projection network）称为S-Net，
一个自适应门机制（an adaptive gate mechanism）称为阀（valve）。

V-Net利用无监督自动编码器来学习每个统计特征向量的全局表示。
S-Net通过使用一种最常用的提取器，即CNN、RNN、Transformer或Bert，从文本输入中提取潜在的语义表示。此外，S-Net通过sigmoid激活将语义特征投射到信息空间中，其中每个神经元的值表示相应语义特征在决策中的置信度。
【原文：部分：where the value of each neuron indicates the confidence of corresponding semantic feature in decision-making. Intuitively, a feature is high-confident and decisive if its value is either near 0 or 1 after activation, and a feature is low-confident if its activated value is around 0.5. 】
阀门组件对来自两个来源的信息进行校准，并适应信息流。为了解决上面列出的第一个问题，我们使用了一个非线性投影来将统计特征映射到共享的信息空间中，使两种潜在表示相互兼容。第二个问题在使用额外信息的方法上提出了新的角度。我们的观点是，并非所有的语义特征都需要增强，因为有些可能会引入噪声。因此，阀模块在不可信语义特征上增加辅助信息，而不改变高可信语义特征，而不是元素化操作。通过这样做，所提出的AGN模型可以在原始语义特征和附加特征之间实现更好的决策。
【原文：Therefore, instead of an element-wise operation, the valve module adds auxiliary information to the less-confident semantic features while the high-confident semantic features remain unchanged. 】

英文词语：
retrieval 检索
fusing statistical features 融合统计特征
textual input 文本输入
extractor 提取器
align 校准、排列
a nonlinear projection 一个非线性投影
character-level features 字符级特征

2.Related Work

2.1 Text classification

主要讲了其它工作都是提取特征上不断努力，包括卷积神经网络等，注意力机制，句子-词语的层次特征提取，但是我们提出的是融合了信息。
【原文：These works mainly focus on architecture design for feature extraction. In contrast, we propose to merge additional information through an adaptive fusion mechanism.】

2.2 Classifier with additional knowledge

讲了有不少别的领域的知识也对文本分类有作用，包括情感分类等，
【原文：Researchers have created and exploited many active features incorporating information from various domains, including but not limited to linguistics, psychology and knowledge base. 】

3. Methodology

3.1 Global information

Definition 1

给一个单词w和一系列类别标签集合c，对于单词w，单词标签的数量（TCoL）的向量为：
Given a word w and a set of labels of c classes, the term-count-of-labels (TCoL) vector of w is：

ζ_i是单词w在标签i上的统计，给一个句子s={w_i}_i=1^m,那么句子s的TCOL矩阵为：

大概是这样的一个矩形，橙色框框表示一个单词的标签统计表示，蓝色框框表示一个标签的单词统计表示，下标表示第几个标签，上标表示第几个单词。

用电脑画图画的，画的很好，下次不要再画了。

TCoL的概念是捕获标签的全局分布，作为单词的特征。这些特征是原始的，但对特征选择和信息检索来说信息量很大，通过确定词的相关性(Salton和Buckley 1988;Ramos et al. 2003)。
直观地说，如果单词w在所有标签上的频率很高或很低，那么可以假设w对分类任务的贡献有限。
相反，如果一个词在特定的标签类中出现得更频繁，我们假设这个词是有区别的。
注意，TCoL字典V仅从训练集获得。在第5.2节中对TCoL对模型性能的影响进行了广泛的讨论。

3.2 V-Net: Variational Encoding Network

V-Net(图1)的目标是将统计特征转化为有效的表示。就是下图这个部分。

TCoL由术语的整数计数组成，它最初在维度和尺度上都与语义特征不兼容。
【Q：针对上面那句话，TCoL矩阵是什么我们知道了，语义特征的尺度是什么呢?】

V-Net利用自动编码器将离散的TCoL向量映射到潜在的连续空间中，获得统计信息的全局表示。此外，与传统的自动编码器编码相比，通过用多元高斯分布包围潜在空间编码的表示可以对分类器产生实质性的改进。因此，在本研究中，我们采用了Variational Autoencoder (VAE) (Kingma and Welling 2014)对TCoL进行编码。

VAE：变分自编码器

我们对一个句子集中的所有句子产生TCoL，然后获得Z={ζ_(i)^s}_i=1^N
假设所有的这个TCoL向量都由一个随机过程产生：p_θ(ζ|z),这里面包含了一个隐藏变量z由先验分布p_θ(z)采样产生，我们没法直接学习参数θ，因此我们采用变分近似q_φ(z|ζ)来共同学习变分参数φ和θ。

【Q：不是，我不李姐，怎么就可以直接假设向量分布包含了一个隐藏变量z ，然后这个隐藏变量z还要由原本观测到的ζ来学习它的一个分布？】
【这里是先假设ζ有一个随机分布，包含了隐藏变量z，然后说z也有一个分布，超参数我们学习不到，所以用后验分布（？是这么个意思吧）的概率来把两个超参数都学习了。】

因此，我们可以通过最大化边际似然来优化模型，边际似然由个体ζ的边际似然之和组成:
由于KL散度项是非负的，我们可以推导出似然项L(θ，φ;ζ)，得到边际似然的变分下界，即:
【原文：Since the KL divergence term is non-negative, we can derive the likelihood term L(θ, φ; ζ) to obtain the variational lower bound on the marginal likelihood, i.e.,:】
其中KL项具有封闭解，期望项为重构误差。我们采用重新参数化的技巧来适应变分框架到一个自动编码器。我们使用两**个编码器分别生成两组µ和σ作为先验分布的均值和标准差。**由于我们的近似先验是多元高斯的，我们用对角协方差结构表示变分后验:
通过训练无监督VAE模型，我们可以通过概率编码器得到潜在变量ζ^z，这将是TCoL的全局表示。V-Net的训练是独立于主分类器的，ζ^z表示是在预处理阶段产生的，并将通过阀门组件进入分类器。
【原文：By training the unsupervised VAE model, we can obtain the latent variables ζ^z via the probabilistic encoder, which will be the global representation of TCoL. The training of V-Net is independent of the main classifier, and the representation ζ^z is generated during the preprocessing stage and will be fed into the classifier via the valve component.】

英语：
discrete 离散的
substantial 价值巨大的
Vanilla本意是香草，在这里基本等同于raw。比如Vanilla Neural Networks实际上就是BP神经网络，而Vanilla CNN实际上就是最原始的CNN。
一些术语-神经网络

小的总结：

这一部分的计算基本没咋看懂。
就知道这个网络用变分自编码器VAE把离散的TCoL向量（基于统计的单词-主题向量）训练处理了一下，得到了向量的全局表示ζ^z，然后处理后会通过阀门进入分类器。

计算过程是先获得句子集合中所有的向量，Z={ζ_(i)^s}_i=1^N
然后这里的N和S按照前面的解释是：s表示的是一个句子，里面有m个单词，ζ^s就是前面画的那个矩阵，然后N这里没有解释，就说是独立同分布，（iid），应该是有N个句子。
那怎么是写成这样的一个格式的？？

然后说，这样的一个向量矩阵应该是服从某个分布p_θ(ζ|z)的，这里包含了一个隐藏参数z,和一个超参数θ，然后z自己有一个先验分布p_θ(z)，为了计算出θ，我们用q_φ(z|ζ)来一起计算。好像后验分布的那个意思。

然后后面的似然分布似然项就看不懂了，总之最后训练出来了ζ^z。

3.3 S-Net: Semantic Representation Projection Network

S-Net(图1)的功能是从文本输入中提取语义特征，并将语义特征投影到信息空间中进行置信度评价。s - net的输入是固定长度m的句子s。
对于非bert模型，我们首先将每个单词映射到k维连续空间中，得到单词嵌入向量x_i∈R^k。然后我们将所有的单词向量连接起来形成一个k × m矩阵作为模型的输入:X = [x1, x2，…, xm]。我们填充句子以保持所有句子的长度一致。然后对嵌入矩阵应用语义特征提取器(即CNN、LSTM、Transformer)生成潜在语义特征图C:
对于Bert模型，我们提取特征图，通过在文本输入上的一个基于Bert的预训练。
然后我们通过dense层将语义特征图C映射到信息空间中:

对上面一个式子H^C通过一个sigmoid激活函数得到H’^C，结果被用来分析置信度。
【原文：The values in the sigmoid-activated representation, H’^C = σ(H^C ), where σ(·) is the sigmoid function, are exploited to evaluate the confidence of corresponding semantic features in the decision-making process.】

exploited 利用

3.4 Valve Component

在3.2中我们离线（ offline）得到了ζ^z，为了灵活的使用统计信息，我们应用了一个dense层，把ζ^z投影到一个语义特征共享的信息空间（目的）。
公式就是神经网络经典公式。

阀门组件融合H^C和H^ζ，通过AdaGate函数输出统计信息增强的语义特征图HO，
The valve component fuses H^C and H^ζ to output a statistical information-enhanced semantic feature map HO through the AdaGate function,
其中ReLU(·)为激活函数， ⊙（Hadamard乘积）表示元素层面上的乘积（an element-wise product）。H’^c的值为概率形式，Valve函数的设计是为了恢复与H^ζ元素匹配的可信项(概率接近0.5)。具体来说，对于每个单元a∈H’^c，

The values in H’^c are in probability form, and the Valve function is designed to restore les confident entries (with probability near 0.5) for matching with elements in Hζ . Concretely, for every unit a ∈ H0 C ,

其中有一个泄漏的超参数ε，用于调整置信阈值。具体来说，如果ε= 0，则丢掉所有统计信息;如果ε= 0.5，则接受所有统计信息。因此，基于元素的生产利用Valve(·，ε)作为过滤器，只提取必要的信息。
where ε is a leaky hyper-parameter tuning the threshold of confidence. Specifically, we dump all statistical information if ε= 0, and accept all statistical information if ε = 0.5. Therefore, the element-wise production exploits Valve(·, ε)
as a filter to extract necessary information only.

3.5 Classifier

使用注意力来结合合并的语义表示H^O和原始的特征图C：
如果ε= 0，丢掉所有的统计信息，则(12)将成为自我注意(Vaswani et al. 2017)，即H^O = C。
特征向量经过全连通层和softmax层后，映射到标签空间，进行标签预测和损耗计算。为了最大化正确标签YTrue的概率，我们部署了一个优化器来最小化交叉熵损失L，

4 Experiment

4.1 Datasets

使用了很多数据集，进行实验和报告了平均结果。
数据集包括：Subj、SST-1、SST-2、TREC、AG’s News、Yelp Review Full、Yelp Review Polarity

4.2 Baselines

我们的目标是证明合并后的语义表示更有利于分类，所以使用以下特征提取器来比较有和没有额外知识的模型:
特征提取器包括：TextCNN 、BiLSTM、Transformer 、Bert

我们采用的注意力机制提取语义特征表示，我们比较了我们提出的AGN模型和TextCNN+Self-Attn, BiLSTM+SelfAttn, Transformer+Self Attn, and Bert+Self-Attn,，然后注意力被应用在了通过公式6，7得到的潜在语义特征图C上。
Since we adopt attention mechanism over extracted semantic feature representation, we compare our proposed AGN model against TextCNN+Self-Attn, BiLSTM+SelfAttn, Transformer+Self Attn, and Bert+Self-Attn, where self-attention blocks are employed on the latent semantic feature map C obtained by Eqn. 6 and Eqn. 7.

英语词语：
state-of-the-art：最前进的

4.3 Word embedding and parameter settings

对词向量进行了初始化，具体怎么初始化的这一节没有讲。
然后描述了一些超参数：
基于CNN的模型的滤波器大小为[3,4,5]，每个滤波器100个，基于rnn的模型的隐藏维数为128。对于Transformer，使用一个带有8个头和3个块的编码器。Bert模型为Bert-base Uncased，包含12层，768个隐藏单元，110M参数。我们采用Adam优化器，非Bert的batch size为64个，Bert模型batch size为16个。dropout rate设置为0.5。
The CNN-based models have a filter size of [3, 4, 5] with 100 filters of each, and the RNN-based models have hidden dimension of 128. For the Transformer, we use an encoder with 8 heads and 3 blocks. The employed Bert model is the Bert-base Uncased, including 12 layers, 768 hidden units, and 110M parameters. We adopt Adam optimizer with a batch size of 64 for non-Bert models and 16 for Bert models. The dropout rate is set to 0.5.

4.4 Experiment Results

都有提高。

5 Discussion

对AGN的每个组成部分进行了深入的讨论，并进行了额外的实验。

5.1 Effect of valve

这一部分是在不同数据集上进行了实验，说明valve是有用的，对于结合来自不同来源的知识是相当有效的，附件的统计特征也是有用的，但并不是所有的统计特征都是有用的，因为有些特征可能会给分类器引入噪声。

5.2 Effect of Statistical Information

这一部分说明适当的衡量注意力权重，统计信息是有用的。
The visualization shows that statistical information is helpful to the decision making by properly adjusting the attention weights.

然后大数据集可以作为小数据集的先验知识（对于TCoL)向量。

5.3 Adversarial attacks on TCoL

这一节证明了模型的鲁棒性。
就是统计信息如果出错了结果没有特别差。

5.4 VAE vs AE in the V-Net

比较了变分和普通编码器，还是变分的好。

5.5 Scalability of Implementation

比较了一下说提出的补充模型不需要更多太多的计算时间。

6 Conclusion & Future work

没啥好说的，提升了性能还比较灵活有鲁棒性，夸了一下。

MCP 与 AI 任务分解：如何让 AI 高效执行复杂任务？ Echo_Wish Python 进阶人工智能
MCP与AI任务分解：如何让AI高效执行复杂任务？在人工智能应用中，任务分解（TaskDecomposition）是一个绕不开的话题。无论是自动驾驶、智能客服，还是代码生成，AI都需要将复杂问题拆解成可执行的小任务，逐步完成目标。而在AI领域，MCP（Multi-StepCognitiveProcessing，多步认知处理）是一种前沿技术，旨在提升AI的任务分解能力，使其能够更精准、高效地执行复杂
AIGC领域Prompt工程：原理、方法与行业应用 AI天才研究院 ChatGPT 计算 AI大模型应用入门实战与进阶 AIGC prompt ai
AIGC领域Prompt工程：原理、方法与行业应用关键词：Prompt工程、大语言模型（LLM）、提示设计、少样本学习、AIGC应用、思维链（CoT）、提示优化摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，大语言模型（如GPT-4、LLaMA、通义千问）的性能已达到前所未有的高度。然而，模型的强大能力能否被充分释放，很大程度上依赖于"提示（Prompt）"的设计质量。本文系统解析Prom
大语言模型中的思维链提示：解锁高效互动的秘密 t0_54program 大数据与人工智能语言模型人工智能自然语言处理个人开发
在当今的人工智能领域，大语言模型（LLMs）已然成为一颗耀眼的明星，它经过海量训练，能够理解并生成人类语言，在编程等诸多领域助力人们完成日常任务。然而，若想与这些模型实现高效沟通，掌握正确的请求方式至关重要，而思维链提示（Chainofthoughtprompting）便是与LLMs互动时最为高效的技术之一。什么是提示（Prompting）？LLMs基于海量数据集进行训练，以理解并生成类人文本。其
人工智能大模型原理与应用实战：大模型在金融风控中的应用 AI天才研究院 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
文章目录人工智能大模型原理与应用实战：大模型在金融风控中的应用01.背景介绍1.1金融风控的挑战1.2大模型的优势2.核心概念与联系2.1大模型在金融风控中的应用场景2.2大模型与传统风控技术的结合3.核心算法原理具体操作步骤3.1基于大模型的欺诈检测3.2基于大模型的信用评估4.数学模型和公式详细讲解举例说明4.1逻辑回归模型4.2XGBoost模型5.项目实践：代码实例和详细解释说明5.1基于
浅谈卷积神经网络(CNN) cyc&阿灿 cnn 人工智能神经网络
卷积神经网络(ConvolutionalNeuralNetworks,CNN)作为深度学习领域最具影响力的架构之一，已在计算机视觉、自然语言处理、医学影像分析等领域取得了革命性突破。本文将系统全面地剖析CNN的核心原理、关键组件、经典模型、数学基础、训练技巧以及最新进展，通过理论解析与代码实践相结合的方式，帮助读者深入掌握这一重要技术。一、CNN基础与核心思想1.1传统神经网络的局限性在处理图像等
AlphaStar 星际首秀，人工智能走向星辰大海谷歌开发者
文/王晶，资深工程师，GoogleBrain团队作者王晶，现为GoogleBrain团队的资深工程师，主要致力深度强化学习的研发，和DeepMind团队在强化学习的应用上有许多合作。北京时间1月25日凌晨2点，DeepMind直播了他们的AIAlphaStar和人类顶尖的职业电竞选手对战星际争霸2。根据DeepMind介绍，AlphaStar在2018年12月10日和19日先后以5：0全胜的战绩击
**双生“基尼”**：跨越世纪的术语撞车与学科分野
在学术的宇宙中，“基尼”（Gini）这个名字如同一个奇特的星标，闪耀在两个看似毫不相关的领域：衡量社会贫富差距的经济学与驱动人工智能的机器学习。然而，当人们在这两个领域都遇到“基尼指数”或“基尼系数”时，困惑油然而生——它们为何如此不同？又为何共享同一个名字？这不是某个“傻逼”的随意命名，而是一场跨越学科与世纪的“术语交通事故”，其背后是学术传承与概念抽象的交织。本文由「大千AI助手」原创发布，专
AI算力综述和资料整理木鱼时刻人工智能
目录总体介绍计算精度传输协议GPU池化资源调度CUDA技术GPU硬件参考链接总体介绍AI算力是人工智能系统的核心基础设施，涵盖了从计算精度、传输协议到硬件架构的完整技术栈。计算精度混合精度训练原生满血版DeepSeek671B是FP8精度。FP16在训练计算力占比有80-90%，FP32占比10%-20%。大模型训练中通常会用到FP16（半精度浮点数），但并不是只使用FP16，而是采用**混合精度
【PyTorch】2024保姆级安装教程-Python-（CPU+GPU详细完整版）金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 python pytorch 人工智能
【PyTorch】2024保姆级安装教程（CPU+GPU详细完整版）PyTorch是当前最受欢迎的深度学习框架之一。本文将详细讲解在Python环境中安装PyTorch，包括CPU和GPU版本的全方位指南。一、前置环境首先确保已安装Python环境，推荐使用Python3.8或以上版本。验证Python安装：python--versionpip--version推荐使用虚拟环境（如conda或ve
【学习】《算法图解》第七章学习笔记：树程序员
前言在前面的章节中，我们学习了数组、链表、散列表等基本数据结构，以及一些基础算法。本章将介绍一种非常重要的数据结构——树(Tree)，特别是二叉搜索树(BinarySearchTree)。树结构在计算机科学中应用广泛，从文件系统到数据库再到人工智能，都能看到树的身影。《算法图解》第七章深入浅出地介绍了树的基本概念、实现和应用，帮助读者理解这一关键数据结构。一、树的基本概念（一）什么是树树是一种分层
基于OpenCV图像分割与PyTorch的增强图像分类方案从零开始学习人工智能 opencv pytorch 分类
在图像分类任务中，背景噪声和复杂场景常常会对分类准确率产生负面影响。为了应对这一挑战，本文介绍了一种结合OpenCV图像分割与PyTorch深度学习框架的增强图像分类方案。通过先对图像进行分割提取感兴趣区域（RegionofInterest，ROI），再进行分类，可以有效减少背景干扰，突出关键特征，从而提高分类准确率。该方案在多种复杂场景下表现出色，尤其适用于图像背景复杂或包含多个对象的情况。一、
智能体综述和参考资料整理木鱼时刻大模型人工智能
目录总体介绍核心组件记忆系统工具系统计划与推理开发框架Single-AgentMulti-Agent智能体平台技术实现通信协议角色系统对话记忆MCP协议参考链接总体介绍智能体（AIAgents）是人工智能领域的重要发展方向，它们能够通过传感器感知环境并通过执行器对环境采取行动。根据罗素和诺维格在《人工智能：一种现代方法》（2016年）中的定义，AIAgent是任何可以通过传感器感知其环境并通过执行
主流AI代码编程工具分享 scuter_yu ai ai编程
在当今数字化时代，AI代码编程工具已成为提升开发效率、优化代码质量的重要助手。这些工具利用人工智能技术，为开发者提供从代码生成、补全到调试、优化等一系列功能，极大地简化了编程流程，让编程变得更加高效、便捷和智能。以下将介绍几款热门的AI代码编程工具。通义灵码产品介绍：通义灵码是阿里云出品的基于通义大模型的智能编程辅助工具，提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成
Deepoc大模型在半导体设计优化与自动化 Deepoch 自动化运维人工智能机器人单片机 ai 科技
大模型在半导体设计领域的应用已形成多维度技术渗透，其核心价值在于通过数据驱动的方式重构传统设计范式。以下从技术方向、实现路径及行业影响三个层面展开详细分析：参数化建模与动态调优基于物理的深度学习模型（如PINNs）将器件物理方程嵌入神经网络架构，实现工艺参数与电学性能的非线性映射建模。通过强化学习框架（如PPO算法）动态调整掺杂浓度、栅极长度等关键参数，在3nm节点下实现驱动电流提升18%的同时降
Deepoc大模型在半导体技术芯片性能应用协助突破物理极限 Deepoch 人工智能网络智能化 AI 科技数据分析硬件工程信息与通信
半导体垂直大模型在芯片设计中的应用与技术突破半导体垂直大模型（SemiconductorVerticalLLM）是专为芯片设计、制造与优化领域训练的大规模人工智能模型，其通过融合半导体物理、工艺知识、设计规则及行业经验，正在重构芯片开发全流程。以下从设计流程革新、性能优化、可靠性提升三大维度，结合具体技术路径与行业案例，解析其应用场景与价值。Deepoc模型在半导体技术应用中取得了巨大突破，可以协
[论文阅读] 软件工程 | 需求工程中领域知识研究：系统映射与创新突破张较瘦_ 前沿技术论文阅读软件工程
需求工程中领域知识研究：系统映射与创新突破论文信息DomainKnowledgeinRequirementsEngineering:ASystematicMappingStudyarXiv:2506.20754DomainKnowledgeinRequirementsEngineering:ASystematicMappingStudyMarinaAraújo,JúliaAraújo,RomeuO
分布式训练架构解析
一、分布式训练的问题根源与需求驱动在深度学习领域，模型与数据规模呈指数级增长趋势，传统单机训练模式已难以满足日益复杂的业务需求，分布式训练技术应运而生，其核心驱动力源于以下三大关键困境：1.1算力瓶颈与训练效率危机单GPU设备的计算能力存在物理上限。以NVIDIAA100为例，其单卡FP32算力约为19.5TFLOPS，面对GPT-4这样拥有1.8万亿参数的超大型模型，若采用单机单卡训练，仅完成一
卷积神经网络亿只小灿灿 Python 算法与数据结构人工智能 cnn 人工智能神经网络
一、引言在当今人工智能的浪潮中，卷积神经网络（ConvolutionalNeuralNetwork，CNN）无疑是一颗璀璨的明星。它在图像识别、语音处理、自然语言处理等众多领域取得了巨大的成功，极大地推动了人工智能技术的发展。那么，什么是卷积神经网络？它的算法原理是什么？本文将深入探讨这些问题，并通过Python代码实现一个简单的卷积神经网络，以帮助读者更好地理解和掌握这一强大的技术。二、卷积神经
Python pdfminer.six库【PDF解析库】全面使用指南老胖闲聊 Python库大全 python pdf 开发语言
想全面了解DeepSeek的看过来【包邮】DeepSeek全攻略人人需要的AI通识课零基础掌握DeepSeek的实用操作手册指南【限量作者亲笔签名版售完即止】玩转DeepSeek这本就够了【自营包邮】DeepSeek实战指南deepseek从入门到精通实用操作指南现代科技科普读物AI普及知识读物人工智能使用教程中小学读物京东超级618Python初学者的入门教程动手学深度学习PyTorch版李沐和
HCCDA – AI华为云人工智能开发者认证-60道单选题题库及答案_华为人工智能入门级开发者认证题库 2401_89172925 人工智能华为云华为
单选题及答案AI模型的评测指标主要分为精度指标和性能指标，以下哪一项不属于常用的性能指标？A.FPS(FramesPerSecond)B.FLOPs(Floating-pointOperationsPerSecond)C.aPs（QueryPerSecond）D．F1值Mask＿Detection技能模板提供了口罩检测技能，针对每个人，若没有检测到人脸，也没有检测到口罩，则会显示什么信息？A.No
理解不同层的表示（layer representations）科学禅道高维表示人工智能深度学习
在机器学习和深度学习领域，特别是在处理音频和自然语言处理（NLP）任务时，"层的表示"（layerrepresentations）通常是指神经网络不同层在处理输入数据时生成的特征或嵌入。这些表示捕获了输入数据的不同层次的信息。1.层的表示（layerrepresentations）为了更好地理解这一概念，我们可以从以下几个方面进行解释：1.深度神经网络结构深度神经网络（DNN）通常由多个层组成，每
Agent-to-Agent (A2A) 协议全面解析：定义、原理、应用与未来 C7211BA a2a llm mcp
Agent-to-Agent(A2A)协议全面解析：定义、原理、应用与未来在人工智能技术迅猛发展的今天，AI智能体(Agent)正从独立运作向协同工作演进，而Agent-to-Agent(A2A)协议作为这一转变的关键基础设施，正在重塑AI生态系统的协作方式。本文将从A2A协议的基本定义出发，深入剖析其设计原则、核心机制、技术实现、与MCP协议的对比关系、安全考量以及实际应用场景，帮助读者全面理解
人工智能中的知识图谱与向量数据库：选择与应用指南 AI Agent首席体验官人工智能知识图谱数据库
1.人工智能领域，知识图谱是什么？知识图谱是人工智能和语义网领域的一个重要概念，它是一种结构化的知识表示方法，用于存储实体之间的语义关系。知识图谱基本上是由节点（实体）和边（关系）组成的图结构：节点：代表现实世界中的实体或概念，如人物、地点、组织等边：代表实体间的语义关系，如"出生于"、“工作于”、"创立了"等知识图谱的主要特点和应用包括：语义网络表示：以三元组形式（主体-关系-客体）存储知识，如
【AI大模型】26、算力受限下的模型工程：从LoRA到弹性智能系统的优化实践无心水 AI大模型人工智能搜索引擎 LoRA 大语言模型微调模型压缩知识蒸馏量化技术
引言：算力瓶颈与模型工程的突围之路在人工智能领域，大语言模型的发展正呈现出参数规模爆炸式增长的趋势。从GPT-3的1750亿参数到PaLM的5400亿参数，模型能力的提升往往伴随着对算力资源的极度渴求。然而，对于大多数企业和研究者而言，动辄数百GB的显存需求、数十万块GPU的训练集群显然是难以企及的"算力鸿沟"。当面对"无米之炊"的困境时，模型工程技术成为突破算力瓶颈的核心路径——通过算法创新而非
Python编程：使用 YOLO 目标检测倔强老吕 python 开发语言
YOLO（YouOnlyLookOnce）是一种基于深度学习的实时目标检测算法，由JosephRedmon等人于2016年首次提出。与传统的两阶段目标检测方法（如R-CNN系列）不同，YOLO将目标检测任务视为一个单一的回归问题，直接在图像上进行一次推理即可预测边界框和类别概率。YOLO的核心思想单次前向传播（SingleShotDetection）：YOLO只需对输入图像进行一次神经网络推理，就
这份「零基础」机器学习实战课程，帮你彻底搞懂AI不再迷茫！——深度解析ML-For-Beginners wylee 人工智能机器学习
引言：告别迷茫，拥抱AI未来在当今科技浪潮之巅，人工智能（AI）无疑是最璀璨的明星。机器学习（MachineLearning），作为AI的核心驱动力，正以前所未有的速度渗透到我们生活的方方面面：从智能推荐系统到自动驾驶，从疾病诊断到金融风控，其应用场景几乎无处不在。然而，对于无数渴望投身AI领域的学习者而言，机器学习的门槛似乎一直高不可攀。你是否也曾有过这样的困惑：面对海量的在线课程和资料，眼花缭
【学习】《算法图解》第七章学习笔记：树自学也学好编程程序人生
前言在前面的章节中，我们学习了数组、链表、散列表等基本数据结构，以及一些基础算法。本章将介绍一种非常重要的数据结构——树(Tree)，特别是二叉搜索树(BinarySearchTree)。树结构在计算机科学中应用广泛，从文件系统到数据库再到人工智能，都能看到树的身影。《算法图解》第七章深入浅出地介绍了树的基本概念、实现和应用，帮助读者理解这一关键数据结构。一、树的基本概念（一）什么是树树是一种分层
【机器学习&深度学习】前馈神经网络（单隐藏层）一叶千舟深度学习【理论】机器学习深度学习神经网络
目录一、什么是前馈神经网络？二、数学表达式是什么？三、为什么需要“非线性函数”？四、NumPy实现前馈神经网络代码示例五、运行结果六、代码解析6.1初始化部分6.2前向传播6.3计算损失（Loss）6.4反向传播（手动）6.5更新参数（梯度下降）6.6循环训练七、训练过程可视化（思维图）八、关键问题答疑Q1：为什么需要隐藏层？Q2：ReLU是干嘛的？Q3：学习率怎么选？九、总结学习建议在机器学习中
微软人工智能证书AI-102 | 如何快速通过？全球认证考试中心人工智能微软
微软AI-102考试，全称“DesigningandImplementingaMicrosoftAzureAISolution”，是微软推出的用于验证考生在Azure平台上设计和实施AI解决方案核心能力的认证考试。以下是具体介绍：考试描述：考试主要衡量考生实施计划和管理Azure认知服务解决方案、计算机视觉解决方案、自然语言处理解决方案、知识挖掘解决方案、对话式AI解决方案的能力。考试题型通常包括
DAY 43 复习日 yizhimie37 python训练营打卡笔记深度学习
@浙大疏锦行https://blog.csdn.net/weixin_45655710第一步：寻找并准备图像数据集在Kaggle等平台上，你可以找到大量用于图像分类任务的数据集，例如英特尔图像分类数据集(IntelImageClassification)或手写数字识别数据集(DigitRecognizer)。对于初学者，一个更便捷的选择是使用像TensorFlow或PyTorch这样深度学习框架内
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。