云不见

经典文献翻译《Convolutional Neural Networks for Sentence Classification》——2014年

《Convolutional Neural Networks for Sentence Classification》——2014年

《基于CNN的句子级别的文本分类》

Abstract 摘要
1 Introduction 引言
2 Model 模型
- 2.1 Regularization 正则化
3 Datasets and Experimental Setup 数据集和实验设置
- 3.1 Hyperparameters and Training 超参数和训练
- 3.2 Pre-trained Word Vectors 预训练的词向量
- 3.3 Model Variations 模式变化
4 Results and Discussion 结果和讨论
- 4.1 多通道 vs. 单通道模型
- 4.2 静态与非静态表示
- 4.3 进一步观察
5 Conclusion 结论

Abstract 摘要

我们报告了一系列卷积神经网络(CNN)的实验，这些网络是在预先训练好的单词向量上训练的，用于句子的分类任务。我们证明了一个简单的CNN网络通过小的超参数调优和静态向量在多个基准测试中取得了很好的结果。通过微调来学习特定的任务的向量可以进一步提高性能。此外，我们还提出了一个简单的架构的修改，以允许使用特定的任务和静态向量。本文讨论的CNN模型在7个任务中的4个上改进了现有的技术，包括情感分析和问题分类。

1 Introduction 引言

近年来，深度学习模型在计算机视觉(Krizhevskyetal.，2012)和语音识别(Gravesetal.，2013)方面取得了显著的成果。在自然语言加工过程中，大部分深度学习方法的工作都涉及到通过神经语言模型学习词向量表示(Bengio等人，2003;Yih等人，2011;Mikolov等人，2013)和通过学习词向量进行分类(Collobert等人，2011)。词向量，其中的词是从稀疏的，1到v编码(这里的v是词汇量)，通过隐藏层投影到一个低维向量空间，本质上是特征提取器在他们的维度上对词的语义特征进行编码。在这种稠密表示中，语义相近的单词（在欧氏距离或余弦距离中）在低维向量空间中同样接近。

卷积神经网络(CNN)利用应用于局部特征的卷积滤波器层(LeCun等人，1998)。最初为计算机视觉而发明的，后来CNN模型被证明对NLP是有效的，并且在语义分析(Yihetal.，2014)、搜索查询检索(Shenetal.，2014)、句子建模(Kalch-brenneretal.，2014)和其他传统的NLP任务(bertcolloetal.，2011)中取得了优异的结果。

在目前的工作中，我们训练了一个简单的CNN，它是从一个无监督神经语言模型中得到的基于词向量的简单CNN，其中包含一层卷积。这些向量由Mikolov等人(2013年)用1000亿个Google新闻单词进行训练，并且是公开可用的[1]。最初，我们使单词向量保持静态，仅学习模型的其他参数。尽管很少调整超参数，这个简单的模型在多个基准上取得了优异的结果，这表明预先训练的向量是可以用于各种分类任务的“通用”特征提取器。通过微调结果进一步改进学习特定于任务的向量。最后，我们描述了对体系结构的简单修改，以允许通过具有多个通道使用预训练向量和特定于任务的向量。

我们的工作在哲学上与Razavian等人(2014年)的研究相似，后者表明，对于图像分类，从预先训练的深度学习模型中获得的特征提取器在一系列任务中表现良好，包括与特征提取器训练的原始任务有很大不同的任务。

2 Model 模型

如图1所示模型架构，是Collobert等人(2011)提出的CNN架构的轻微变体。

设 $\mathbf{x}_{i} \in \mathbb{R}^{k}$ 为句子中第i个单词对应的k维词向量。一个长度为n的句子（在必要时加上填充）表示为
$\mathbf{x}_{1: n}=\mathbf{x}_{1} \oplus \mathbf{x}_{2} \oplus \ldots \oplus \mathbf{x}_{n}$ ————(1)

其中 ⊕ 为串联运算符。通常， $\mathbf{x}_{i: i+j}$ 表示单词 $\mathbf{x}_{i}, \mathbf{x}_{i+1}, \ldots, \mathbf{x}_{i+j}$ 的串联。卷积运算涉及一个滤波器 $\mathbf{w} \in \mathbb{R}^{h k}$ ，该滤波器应用于h个词的窗口以产生新的特征。例如，特征值 $\mathbf{c}_{i}$ 是从单词 $\mathbf{x}_{i: i + h-1}$ 的窗口下生成的，公式如下：

$c_{i}=f\left(\mathbf{w} \cdot \mathbf{x}_{i: i+h-1}+b\right)$ ———— (2)

这里的 $\mathbf{b} \in \mathbb{R}$ 是偏置， $\mathbf{f}$ 是一个非线性函数，例如双曲正切函数。这个滤波器应用于每个可能的单词窗口，在句子 $\left\{\mathbf{x}_{1: h}, \mathbf{x}_{2: h+1}, \ldots, \mathbf{x}_{n-h+1: n}\right\}$ 中生成特征图
$\mathbf{c}=\left[c_{1}, c_{2}, \ldots, c_{n-h+1}\right]$ ————（3）

其中， $\mathbf{c} \in \mathbb{R}^{n-h+1}$ 。然后，我们对特征图c应用max-overtime池化(Collobert et al., 2011)操作，并取最大值 $\hat{c}=\max \{\mathbf{c}\}$ 。作为与该特定过滤器相对应的特征。这个想法是为每个特征图捕获最重要的特征（价值最高的一个特征）。这种池化方法自然可以处理可变的句子长度。

图1: 用于示例句子的具有两个通道的模型架构。其中
(1)用 n x k 表示句子的静态和非静态通道
(2)具有多个滤波器宽度和特征图的卷积层
(3)最大超时池
(4)带有Dropout和softmax激活函数输出的全连接层

我们描述了从一个滤波器中提取一个特征的过程。该模型使用多个滤波器(具有不同的窗口大小)来获得多个特征值。这些特性形成倒数第二层，并传递到一个全连接的Softmax层，其输出是标签上的概率分布。

在其中一个模型变体中，我们实验了两个词向量通道，其中一个在整个训练过程中保持不变（静态），另一个通过反向传播进行微调(3.2节)【2】。在图1所示的多通道架构中，每个滤波器都应用于这两个通道，并且将结果相加以计算公式（2）中的 $c_{i}$ 。该模型在其他方面等效于单通道体系结构。

2.1 Regularization 正则化

为了进行正则化，我们在倒数第二层采用了dropout，且权重向量采用L2范数约束(Hinton et al., 2012)。Dropout 通过随机删除（即设为零）在正向反向传播期间隐藏单元的比例 p 来防止共同适应性。也就是说，给定倒数第二层 $\mathbf{z}=\left[\hat{c}_{1}, \ldots, \hat{c}_{m}\right]$ （请注意，这里有 $m$ 个过滤器），而不是使用
$y=\mathbf{w} \cdot \mathbf{z}+b$ ————（4）

对于正向传播中的输出单元 $y$ ，dropout使用如下式子：
$y=\mathbf{w} \cdot(\mathbf{z} \circ \mathbf{r})+b$ ————（5）

其中 $\circ$ 是逐元素乘法运算符， $\mathbf{r} \in \mathbb{R}^{m}$ 是伯努利随机变量的“掩蔽”向量，概率 $p$ 为1。梯度仅通过未掩盖的单元反向传播。在测试训练时，学习的权重向量按 $p$ 缩放，比如
$\hat{w}=\max \{\mathbf{pw}\}$ ， $\hat{w}$ 用于给看不见的句子评分(不用dropout)。我们还通过在梯度下降步骤之后每当 $\|\mathbf{w}\|_{2}>s$ 时重新将w缩放为 $\|\mathbf{w}\|_{2}=s$ 来约束权重向量的L2-范数。

表一：标记化后数据集的摘要统计信息

$c$ ：目标类别的数量
$l$ ：句子的平均长度
$N$ ：数据集大小
$∣ V ∣$ ：词汇量
$V_{pre}|$ ：当前预训练词向量的词数
$T e s t$ ：测试集大小（在CV中表示没有标准的训练和测试集的区分，因此使用了10倍的CV）

3 Datasets and Experimental Setup 数据集和实验设置

我们在各种基准上测试我们的模型。数据集的摘要统计信息见表1。

MR：电影评论，每个电影评论为一句话。分类涉及检测正面/负面评论（Pang and Lee，2005）.【3】
SST-1：斯坦福情感树库ーーMR的扩展，但是提供了train/dev/test分隔和细粒度标签(非常积极、积极、中性、消极、非常消极)，由Socher等人(2013)重新标记。【4】
SST-2：与SST-1相同，但删除了中性的评论和二进制标签。（还是二分类标签？）
Subj：主观性数据集，任务是将句子分类为主观的或客观的(PangandLee，2004)。
TREC：TREC问题数据集——任务集合将问题分为6种问题类型(问题是否是关于人、位置、数字信息等)(LiandRoth，2002)
CR：顾客对各种产品(相机、mp3等)的评价。任务是预测正式/负面评论(HuandLiu，2004）【6】
MPQA：MPQA数据集的意见极性检测子任务（Wiebe et al。，2005）。【7】

3.1 Hyperparameters and Training 超参数和训练

对于所有我们使用的数据集：ReLU，滤波窗口(h)为3,4,5，每个有100个特征图，dropout§为0.5，L2范数约束(s)为3，最小批量mini-batch大小为50。这些值是通过在SST-2 开发集上的网格搜索选择的。

除了在开发集上提前停止之外，我们不执行任何特定数据集的调优。对于没有标准开发集的数据集，我们随机选择10%的训练数据作为开发集。训练是通过随机梯度下降后的小批量数据mini-batches按照Adadelta的更新规则进行的（Zeiler，2012年）。

3.2 Pre-trained Word Vectors 预训练的词向量

使用从无监督神经语言模型获得的词向量初始化是一种流行的方法，可以在没有大型监督训练集的情况下提高性能(Collobert等人，2011年;Socher等人，2011年;Iyyer等人，2014年)。我们使用公开可用的 $w o r d 2 v e c$ 向量，这些向量是用来自谷歌新闻的1000亿个单词训练的。向量的维数为300，并且使用连续的词包结构进行训练(Mikolov等人，2013年)。在预先训练的单词集中没有出现的单词是随机初始化的。

3.3 Model Variations 模式变化

我们对模型的几个变体进行了实验。

CNN-rand：我们的基线模型，其中所有的单词被随机初始化，然后在训练期间进行修改。
CNN-static：从 $w o r d 2 v e c$ 中预先训练向量的一个模型。所有的单词(包括已初始化的未知单词)都保持静态，仅学习模型的其他参数。
CNN-non-static：与上面相同，但是预先训练的向量对每个任务都进行了微调。
CNN-multichannel：一个有两组词向量的模型。每组向量都被视为一个“通道”，并且每个滤波器都应用于两个通道，但是梯度仅通过其中一个通道进行反向传播。因此，该模型能够微调一组向量，同时保持另一组静态。两个通道都使用 $w o r d 2 v e c$ 初始化。

为了消除上述变化与其他随机因素的影响，我们通过使它们在每个数据集中保持一致，消除了其他随机性来源，比如：CV折叠分配，未知词向量的初始化，CNN参数的初始化。

表2：我们的CNN模型针对其他方法的结果。

RAE：具有来自Wikipedia的预训练词向量的递归自动编码器 (Socher et al., 2011).
MV-RNN：具有解析树的矩阵向量递归神经网络 (Socher et al., 2012).
RNTN：具有基于张量的特征函数和解析树的递归神经张量网络(Socher et al., 2013).
DCNN：具有k-max池的动态卷积神经网络 (Kalchbrenner et al., 2014).
Paragraph-Vec：段落向量之上的逻辑回归 (Le and Mikolov, 2014).
CCAE：具有组合类别语法运算符的组合类别自动编码器(Hermann and Blunsom, 2013).
Sent-Parser：情绪分析专用解析器 (Dong et al., 2014).
NBSVM, MNB：朴素贝叶斯SVM和多项式朴素贝叶斯与Wang和Manning的单字母组合uni-bigrams (2012).
G-Dropout, F-Dropout：Wang 和Manning 的高斯Dropout 和快速Dropout (2013).
Tree-CRF: 具有条件随机字段的依赖树 (Nakagawa et al., 2010).
CRF-PR: 具有后验正则化的条件随机场 (Yang and Cardie, 2014).
SVMs：具有单字语法，wh词，标头词，POS，解析器，上位词和60条手工编码规则的SVM作为特征，来自Silva等人。 (2011)

4 Results and Discussion 结果和讨论

表2列出了针对其他方法的模型结果。我们的带有所有随机初始化的单词（CNN-rand）的基准模型不能很好地发挥自己的作用。尽管通过使用预训练的向量可以预期获得性能提升，但是我们对这种提升的幅度感到惊讶。即使是带有静态向量的简单模型（CNN-static）也会表现出色，与使用复杂池化方案的更复杂的深度学习模型（Kalchbrenner et al。，2014）或需要事先计算解析树的应用（Socher et al。等人，2013年）。这些结果表明，经过预训练的向量是很好的“通用”特征提取器，可以在数据集中使用。对每个任务的预训练向量进行微调会带来进一步的改进（CNN-non-static）。

4.1 多通道 vs. 单通道模型

我们最初希望多通道体系结构能够防止过拟合（通过确保学习的向量与原始值的偏差不会太远），从而比单通道模型更好地工作，尤其是在较小的数据集上。但是，结果参差不齐，因此有必要进一步进行正规化微调过程。例如，代替对非静态部分使用额外的通道，可以保留一个单通道，但采用允许在训练期间进行修改的额外维度。

表3、在训练后的SST-2数据集上,在多通道模型中，静态通道中（左）的向量的前4个相邻词（基于余弦相似度的）和在非静态通道中（右）的微调向量。

4.2 静态与非静态表示

与单通道非静态模型一样，多通道模型能够微调非静态通道，使其更适合手头的任务。例如，在 $w o r d 2 v e c$ 中，好与坏最相似，大概是因为它们在语法上几乎是等效的。但是对于在SST-2数据集上微调的非静态通道中的向量，情况就不再如此（表3）。类似地，对于表达情感而言，可以说善比接近好要好，这确实体现在学习的向量中。对于不在预先训练的向量集中的（随机初始化的）令牌，微调使它们能够学习更多有意义的表示形式：网络中可以了解到感叹号与冒犯性表达相关联并且逗号是一个连接用的（表3）。

4.3 进一步观察

我们报告了一些进一步的实验和观察：

Kalchbrenner等人（2014年）报道的CNN的架构与我们的单通道模型基本相同，但效果却差得多。例如，他们的带有随机初始化单词的Max-TDNN（时延神经网络）在SST-1数据集上获得37.4％，而在我们的模型中则为45.0％。 我们将这种差异归因于CNN具有更大的容量（多个滤镜宽度和特征图）。
事实证明，Dropout是一个很好的正则化器，使用大于必要网络的更大的网络是比较好的，只需让Dropout对它进行简单的正则化。dropout 持续增加2％–4％的相对性能。
当随机初始化的单词不在 $w o r d 2 v e c$ 中，通过对 $U [- a, a]$ 中的每个维度进行采样，我们获得了一些细微的改进，其中选择的 $a$ 可以使随机初始化的向量具有与预训练向量相同的方差。有趣的是，在初始化过程中采用更复杂的方法来镜像预训练向量的分布是否会带来进一步的改进。
我们简要地尝试了由Collobert等人（2011）训练的另一组在Wikipedia上【8】公开可用的单词向量，并且发现 $w o r d 2 v e c$ 的性能要好得多。尚不清楚这是否归因于Mikolov等人（2013）的架构或1000亿字的Google新闻数据集。
Adadelta（Zeiler，2012）得出的结果与Adagrad（Duchi et al。，2011）相似，但所需的时间更少。

5 Conclusion 结论

在目前的工作中，我们描述了一系列建立在 $w o r d 2 v e c$ 的CNN实验。尽管超参数的调整很小，一层简单的基于卷积的CNN表现的很出色。我们的结果更好地证明了无监督的词向量预训练是NLP深度学习中的重要成分。

— $E N D$ —

机器学习——分类、回归、聚类、LASSO回归、Ridge回归（自用）代码的建筑师模型学习模型训练机器学习机器学习分类回归正则化项 LASSO Ridge 朴素
纠正自己的误区：机器学习是一个大范围，并不是一个小的方向，比如：线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。机器学习最为关键的是要有数据，也就是数据集名词解释：数据集中的一行叫一条样本或者实例，列名称为特征或者属性。样本的数量称为数据量，特征的数量称为特征维度机器学习常用库：Numpy和sklearn朴素的意思是特征的各条件都是相互独立的机器学习（模型、策略、算法）损失函数
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set 开心星人论文阅读论文阅读
将神经网络表征为加权的无环图，直接根据模型的权重矩阵构造PD。计算相邻batch的权重矩阵PD之间的距离。比较同调收敛性与神经网络的验证精度变化趋势摘要机器学习从业者通常通过监控模型的某些指标来估计其泛化误差，并在训练数值收敛之前停止训练，以防止过拟合。通常，这种误差度量或任务相关的指标是通过一个验证集（holdoutset）来计算的。因为这些数据没有直接用于更新模型参数，通常假设模型在验证集上的
【论文阅读】实时全能分割模型万里守约论文阅读论文阅读图像分割图像处理计算机视觉
文章目录导言1、论文简介2、论文主要方法3、论文针对的问题4、论文创新点总结导言在最近的计算机视觉领域，针对实时多任务分割的需求日益增长，特别是在交互式分割、全景分割和视频实例分割等多种应用场景中。为了解决这些挑战，本文介绍了一种新方法——RMP-SAM（Real-TimeMulti-PurposeSegmentAnything），旨在实现实时的多功能分割。RMP-SAM结合了动态卷积与高效的模型
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
卷积神经网络 - 理解卷积核的尺寸 k×k×Cin 谦亨有终 AI学习笔记 cnn 人工智能神经网络深度学习机器学习
卷积神经网络中，每个卷积核的尺寸为k×k×Cin，这一设计的核心原因在于多通道输入的数据结构和跨通道特征整合的需求。以下是详细解释：1.输入数据的结构输入形状：假设输入数据为三维张量，形状为H×W×Cin，其中：H：高度（Height）W：宽度（Width）Cin：通道数（Channelsin）多通道的物理意义：对于RGB图像，Cin=3（红、绿、蓝三通道）。对于中间层的特征图，Cin可能为64、
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
【第1章＞第6节】CMAC小脑模型神经网络的理论学习与MATLAB仿真 fpga和matlab #第1章·神经网络学习 matlab CMAC 小脑模型神经网络人工智能
目录1.使用软件和版本2.CMAC小脑模型神经网络概述2.1CMAC网络结构2.2CMAC地址映射2.3学习过程3.CMAC网络的MATLAB编程实现4.分辨率，重叠度，学习率对CMAC网络的训练性能影响分析4.1分辨率4.2重叠度4.3学习率5.视频操作步骤演示欢迎订阅FPGA/MATLAB/Simulink系列教程《★教程1:matlab入门100例》《★教程2:fpga入门100例》《★教程
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
端到端的NLP框架（Haystack） deepdata_cn NLP 自然语言处理人工智能
Haystack是一个端到端的NLP框架，专门用于构建基于文档的问答系统，是实现RAG的理想选择。它提供了数据预处理、文档存储、检索和生成等一系列组件，支持多种语言模型和检索器。提供可视化界面，方便用户进行配置和调试；支持多模态数据，可处理文本、图像等多种类型的数据；具有可扩展性，可根据需求添加自定义组件。2020年在自然语言处理技术快速发展，对高效、易用且灵活的端到端NLP框架需求日益增长的背景
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
深度学习篇---对角矩阵&矩阵的秩&奇异矩阵 Ronin-Lotus 程序代码篇深度学习篇深度学习矩阵人工智能线性代数
文章目录前言一、对角矩阵（DiagonalMatrix）1.1定义1.2特性行列式运算简化1.3应用领域深度学习信号处理量子力学经济学二、矩阵的秩（RankofaMatrix）2.1定义2.2特性满秩降秩影响2.3应用领域深度学习图像压缩推荐系统控制理论三、奇异矩阵（SingularMatrix）3.1定义3.2特性秩不足行列式为零3.3应用领域深度学习正则化损失函数结构工程统计学数值计算四、跨领
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
介于YOLOv5的裂缝识别系统程序员～小强 YOLO
介于YOLOv5的裂缝识别系统在现代工业中，裂缝监测是的保障设施安全的重要环节。我们公司的新项目——基于YOLOv5的裂缝识别系统，将为您提供高效、精准的解决方案，助力各类工程项目的质量管理。系统优势我们的裂缝识别系统借助YOLOv5进行深度学习，经过精心训练，拥有强大的图像识别能力。只需简单的步骤，您就能将复杂的裂缝检测转化为轻松的操作，让分析变得更加简单、高效。核心功能图片上传与场景选择用户可
关于forward函数 oioz 深度学习
定义forward函数是模型的核心前向传播逻辑，定义了输入数据如何在模型中传递和计算。它将输入数据通过模型的各层（如卷积层、全连接层等），计算出模型的输出。作用负责模型的主要计算逻辑。在训练和验证过程中都会被调用。特点必须实现：在PyTorch中，forward函数是模型的核心部分，必须显式定义。灵活性高：可以根据模型需要，自由定义forward函数的内容，包括各种计算操作。示例（PyTorch）
卷积神经网络Batch Normalization的作用 arron8899 cnn batch 人工智能
BatchNormalization的作用（通俗版）1.像“稳定器”一样校准每层输入想象你在烤多层蛋糕，每层蛋糕的烘烤温度不同（相当于神经网络的每一层数据分布不同）。没有BN时，烤箱温度忽高忽低，导致有的层烤焦（梯度爆炸），有的层不熟（梯度消失）。BN的作用相当于给每一层装了一个自动温度调节器，实时将输入数据调整到标准温度（均值为0，方差为1），保证每层都能均匀受热，训练更稳定。2.让模型训练“少
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置