CityD

2020_ACM MM_MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis

MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis

论文地址：https://dl.acm.org/doi/abs/10.1145/3394171.3413678?casa_token=oI8VnZ8Eg10AAAAA:mVUbDA0AZiAXcDxiDmV9-ooRH4PxzlSMXkBCgm1OCopziDWz8U3ZU54VzJIfqCCsbRFAvk8_kJhzBQ

简介

解决多模态情感分析任务的一个主要方法是开发一个复杂的融合技术，在多模态情感分析任务中，尽管基于注意力的模型和基于张量融合等方法都取得了一些进展，但是这些融合技术会受到不同模态存在模态鸿沟的挑战。

为了能够学习互补的信息以尽量减少冗余(引入了模态不变空间)并纳入多样化的信息集(引入了模态特定的空间)，并学习捕获这些理想特性的潜在模态表征以帮助多模态的融合，本文提出了MISA模型，它能够通过学习有效地模态表征来辅助特征融合过程。该模型学习每个模态的分解子空间，以获得更好的模态表征用于融合的输入。MISA为每种模态学习了两种不同的表示空间：

第一个表示空间是模态不变的(Modality-Invariant)，学习不同模态表征之间的共性并减少模态差距。虽然多模态信号来自不同的模态，但是这些不同的模态有着共同的动机和说话者的目标。不变映射有助于捕获做这些潜在地共性和相关的特征，作为共享子空间上的对齐投影。
第二个表示空间是模态特定的(Modality-Specific)，该空间是每一种模态所特有的，并学习模态特有的特征。对于任何信息，每种模态都有自己独特的特征，包括说话者的表达风格信息，这种特异性的细节往往与其他模态不相关，被称为噪音。但是这种噪音在预测情感状态是非常有用的，例如说话者倾向于讽刺的表达方式，就偏重于极端情感的表达。

学习模态特定的特征和不变空间中捕获的共同潜在特征，可以提供一个全面的多模态语料表征，并使用这个完整的表征进行融合，然后用于分类任务。

为了学习模态不变和模态特定的两个子空间，需要结合各种损失：

分布相似性损失(distributional similarity loss)：用于不变特征。
正交损失(orthogonal loss)：针对特定特征。
重建损失(reconstruction loss)：针对具有代表性的模态特征。
任务预测损失(task prediction)：用于最终的分类预测任务。

MISA

MISA框架的整体结构主要包括两个阶段：模态表征学习和模态融合。

下图为MISA框架的完整结构，首先对文本、视频、音频三种信息进行特征提取，然后学习不同模态不同子空间下的模态表征，最后对这些模态表征进行融合并使用transformer对融合的信息进行处理，以用于最终的分类任务。

数据中的每个视频被分割成一个个小视频(语料)作为模型的输入。对于一个语句(可以理解为一段视频的长度，它包含文本，音频，视频信息) $U$ ，输入包括语言 $(l)$ 、视觉 $(v)$ 、音频 $(a)$ 三个低层次的特征序列。三个序列分别表示为 $U_l \in R^{T_l\times d_l},U_v \in R^{T_v\times d_v}$ 和 $U_a \in R^{T_a\times d_a}$ ，这里 $T_m$ 表示话语的长度(由多少个语料组成)， $d_m$ 表示每个模态各自的特征维度。

我们的任务是利用这些序列 $U_m\in \{l,v,a\}$ 来预测该语句 $U$ 所表达的情感取向。

1、特征提取

对于每个模态 $m\in {l,v,a}$ ，首先将使用堆叠的双向长短时记忆(LSTM)提取语料序列 $U_m \in R^{T_m\times d_m}$ 的特征，然后后面在加上全连接的密集层，将其映射到固定大小的向量

$u_m \in R^{d_h}$ ，其计算公式为：
$u_m=sLSTM(U_m;\theta^{lstm}_m)\tag{1}$

公式中只体现了堆叠的双向长短时记忆，其后面应该有线性层才能得到最终的固定大小的特征向量 $u_m$ (对于每个模态，特征向量的长度是相同的)。

其中对于音频和视频模态只是用sLSTM进行特征提取；而对于文本模态，可以使用sLSTM也可以使用BERT，由上图可知是使用的BERT(虽然公式中把文本写成与视频和音频使用的是一样的了)。在代码中也是可以选择的，当然使用BERT的效果肯定要好了哇。

下图为所使用的BERT和sLSTM的结构，并在后面添加了线性层使得每个模态的特征向量是一样大小的。对于不同数据集其模型中参数大小是不同的，但是结构是一样的，在此以MOSI数据集为例(后面所用到的的结构也以MOSI为例)。

2、模态表征-模态不变和模态特定表征(Modality-Invariant and -Specific Representations)

将每个模态的特征向量(这里应该是一句完整各模态的特征向量)投影到两个不同的表示空间中。

第一个是模态不变组件(空间)，它在具有相似性约束的公共子空间中学习共享表示。这种约束有助于最小化不同模态之间的异质性，有助于多模态融合。实际的操作就是就是使用具有相同权重的线性网络去处理不同的模态。

第二个是针对模态特定的部分，捕获每一个模态的独特特征。

在本文中，模态不变和模态特定的表征为有效的特征融合提供了完整的多模态表征。学习这些表征是本文的首要目标。

对于模态m的特征向量 $u_m$ ，使用编码函数学习隐藏的模态不变( $h_m^c \in R^{d_h}$ )和模态特定( $h_m^p \in R^{d_h}$ )表征：
$h_m^c=E_c(u_m;\theta^c),\;h_m^p=E_p(u_m;\theta^p_m) \tag{2}$
三个模态经过两个编码函数一共生成了六个隐藏向量。其中两个编码函数都是简单的线性神经网络： $E_c$ 在三种模态下共享同一个参数 $\theta^c$ (也就是说三个模态使用同一个神经网络来学习模态不变表征)，而 $E_p$ 为每种模态分配单独的参数 $\theta_m^p$ (三个模态使用三个不同的神经网络来学习模态特定表征)。下面为这两种(准确来说是四种)线性网络的结构。

可以看到其都是一层线性网络，对于模态表征共享同一组参数；对于模态特定标号只能使用不同的参数：

3、模态融合&预测

将每个模态投影到各自的表征中后，需要将它们融合进一个联合的向量中。本文的融合机制为，先对表征向量(每个模态两个，共六个)使用Transformer进行自我关注，然后对这六个经过transformer的模态向量进行拼接，用于最终的情感预测。

下面看看transformer是如何进行工作的:

Transformer使用了自注意力模块，该模态通过使用一个缩放的点积实现自注意力的计算：
$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_h}})V \tag{3}$
其中Q、K和分别为查询、键和值矩阵，它们是由同一个输入经过三个不同的权重矩阵得到的。在Transformer中，计算了多个这样的注意力(称为多头注意力)，其中第 $i$ 个头的计算方法为:
$head_i=Attention(QW^q_i,KW^k_i,VW^v_i) \tag{4}$
$W_i^{q/k/v}\in R^{d_h\times d_h}$ 是每个头特有的参数，在经过多头注意计算之后，会与输入进行残差连接并使用 $L a y e r N o r m$ 层处理得到多头注意力层的输出。然后再经过MLP层,同样使用了残差连接和 $L a y e r N o r m$ 层处理。就得到了最终的Transformer编码器的输出，本文只使用Transformer编码器对模态向量进行自注意力的计算。

然后我们再来看看是如何进行模态融合的：

将模态不变和模态特定的编码函数(公式2)的六个模态表征输出堆叠成一个矩阵 $M=[h_l^c,h_v^c,h_a^c,h_l^p,h_v^p,h_a^p]\in R^{6\times d_h}$ ，然后会用transformer对这些表征进行多头自注意力的计算，使每个向量都学习到其他向量的跨模态表征。这样可以使得每个表征从其他表征中诱导出潜在地信息，这些信息对整体的情感预测有协同作用。

对于输入矩阵 $M$ ，在经过Transformer计算之后，得到一个新的矩阵 $\overline M=[\overline h_l^c,\overline h_v^c,\overline h_a^c,\overline h_l^p,\overline h_v^p,\overline h_a^p]$ ，其计算过程为：
$\overline M=MultiHead(M;\theta^{att})=(head_1\oplus \cdots head_n)W^o \tag{5}$
其中 $\theta^{att}=\{W^q,W^k,W^v,W^o\}$ 为多头注意力计算的参数， $\oplus$ 代表连接。

这里应该还有残差连接、层归一化和多层感知机才能得到Transformer的最终输出，可能是因为多头注意力是Transformer的核心，所以只介绍了这一部分。

预测和推理

将Transformer得到的矩阵，将其展开拼接成一个向量 $h^{out}=[\overline h_l^c \oplus \cdots \overline h_a^p]$ ，然后使用函数 $\hat y=G(h^{out};\theta^{out})$ 对拼接后的向量进行处理得到最终的预测结果。其中函数 $\hat y=G(h^{out};\theta^{out})$ 是一个线性网络，它和transformer的拓扑结构如下图所示：

4、学习

在上面我们介绍了将每个模态分别投影到两个不同的子空间，分别学习其模态不变和模态特定的表征。那怎么进行学习呀？如果只使用预测时的损失函数是肯定做不到的哇，那么就需要使用其他的损失函数来学习到这些模态不变和模态特定的表征，下面就来看看这些损失函数吧。

在本文中，使用了四种损失函数，分别为Similarity Loss $\mathcal{L}_{sim}$ 、Difference Loss $\mathcal{L}_{diff}$ 、Reconstruction Loss $\mathcal{L}_{recon}$ 和task Loss $\mathcal{L}_{task}$ 。最终将这些损失函数进行组合作为整体的损失函数，通过最小化整体的损失函数来学习模型：
$\mathcal{L}=\mathcal{L}_{task}+\alpha\mathcal{L}_{sim}+\beta\mathcal{L}_{diff}+\gamma\mathcal{L}_{recon} \tag{6}$
其中 $\alpha,\beta,\gamma$ 是每个损失对总损失 $\mathcal{L}$ 的共享的权重值。

下面看看这些损失函数是如何实现将每个模态投影到预期的子空间并学习到模态不变和模态特定表征的。

$\mathcal{L}_{sim}$ -Similarity Loss

相似性损失用于学习每个模态的模态不变表征。最小化相似性损失可以减少每种模态的共享表征之间的差异。有助于共同的跨模态特征在共享子空间(模态不变空间)中对其。我感觉是为了学习每种模态中一些相同的特性。

本文使用中心距差异(CMD)作为相似性损失。CMD是一种先进的距离度量，它通过匹配两个表示的阶数钜差来衡量两个表示的分布之间的差异。直观上看，CMD距离会随着两个分布变得更加相似而减少。

设 $X$ 和 $Y$ 是有界的随机样本，在区间 $a,b]^N$ 上的概率分布为 $p$ 和 $q$ 。中心钜差异正则 $CMD_k$ 被定义为 $C M D$ 度量的经验估计，即：
$CMD_K(X,Y)=\frac{1}{|b-a|}||E(X)-E(Y)||_2+\sum_{k=2}^K\frac{1}{|b-a|^k}||C_k(X)-C_k(Y)||_2 \tag{7}$
其中， $E(X)=\frac{1}{|X|}\sum_{x\in X^x}$ 是样本 $X$ 的经验期望向量。 $C_k(X)=E((x-E(X))^k)$ 是所有 $k^{th}$ 阶样本的中心钜的向量，即 $X$ 的坐标。

在本文中，计算每对模态不变表示之间的CMD损失：
$\mathcal{L}_{sim}=\frac{1}{3}\sum_{(m_1,m_2)\in\{(l,a),(l,v),(a,v)\}}CMD_K(h^c_{m_1},h^c_{m_2}) \tag{8}$
在这里也可以选择其他损失函数，比如KL散度、MMD或对抗性损失，是因为CMD他足够简单并且效果足够好。

$\mathcal{L}_{diff}$ -Difference Loss.

该损失是为了确保模态不变和模态特定表征捕获输入的不同方面。这种非冗余性(不同特征)的学习主要通过在两个表征之间使用软正交约束来实现。设 $H_m^c$ 和 $H_m^p$ 为二维矩阵，它的每一行代表模态 $m$ 每个话语的特征向量 $h_m^c$ 和 $h_m^p$ ，分别来自不同的表示空间。该模态的正交性约束被计算为：
$||H_m^{c^{\top}}H_m^p||_F^2 \tag{9}$
其中 $_F^2$ 是Frobenius范数的平方。除了模态不变向量和模态特定向量之间的约束外，还增加了模态特定向量之间的正交性约束，因此为了获得更多不同方面的信息，所使用的损失函数为：
$\mathcal{L}_{diff}=\sum_{m\in \{l.v,a\}}||H_m^{c^T}H_m^p||_F^2+\sum_{(m_1,m_2)\in\{(l,a),(l,v),(a,v)\}}||H_{m_1}^{p^T}H_{m_2}^{p}||_F^2 \tag{10}$
损失函数是成对计算的，因此需要对六对表征向量计算正交性约束，六对损失的和即为最终的Difference Loss。

正交化的概念是指，你可以想出一个维度，这个维度你想做的是控制转向角，还有另一个维度来控制你的速度，那么你就需要一个旋钮尽量只控制转向角，另一个旋钮，只控制速度。如果有一个旋钮既可以控制转向角和速度，那么控制起来就很困难。

下面是我自己的理解。。。

这里提到的正交，就是不同模态去学习不同的特性。就比如模态A控制特性1，模态B控制特性2，假如特性1对于情感的预测比较好，那么就用模态A控制特性1表达的更强烈一点，就不需要模态B去控制特性1，即每种模态学习特定的性质就好了，那种共有的特性就不用在学习了。应该是这样吧。。。

$\mathcal{L}_{recon}$ -Reconstruction Loss.

由于Difference Loss的使用，模态特定的编码器 $E_p$ 可能会学习到一些比较琐碎(应该是不重要的吧)表征。如果编码器函数生成不同模态特征向量是正交的但是又不是很重要(对于情感预测不是很重要)的向量，那么学到的这种特征就比较平凡了(就是学到的特征太多了，学到了一些跟情感预测没啥关系的特征)。

为了避免上述的情况，添加了一个重构损失，确保学习到的隐藏的表征能够捕捉到他们各自模态的细节（我觉得是为了避免学习到一些乱七八糟的表征）。

具体的操作是：把每一个模态经过两个子空间(模态不变和模态特定)后的输出相加然后传入线性层就得到了每一个模态的重构模态即 $\hat{u}_m=D(h_m^c+h_m^p;\theta^d)$ ，而重构损失就是重构后的模态向量 $\hat{u}_m$ 与重构之前的模态向量 $u_m$ 之间的均方误差损失：
$\mathcal{L}_{recon}=\frac{1}{3}(\sum_{m\in \{l.v,a\}}\frac{||u_m-\hat{u}_m||_2^2}{d_h} )\tag{11}$
其中， $_2^2$ 是 $L_2$ 范数的平方。

个人理解：是为了避免各模态在经过线性操作后的特征向量与之前的特征向量差距过大，以学习到一些不重要的特征。

获得重构模态的编码器函数的结构如下图所示：

$\mathcal{L}_{task}$ -task Loss.

任务损失估计了训练期间预测的质量，就是评价预测和真实标签之间的差距，就是经常使用的一类损失函数。对于分类任务，使用交叉熵损失函数；对于回归任务，使用均方误差损失函数。对于一个批次，其计算方式为：
$\mathcal{L}_{task}=-\frac{1}{N_b}\sum_{i=0}^{N_b}y_i\cdot log\hat{y}_i\quad for\;classification \quad \\=\frac{1}{N_b}\sum_{i=0}^{N_b}||y_i-\hat{y}_i||_2^2 \quad for\;regression\quad \tag{12}$

感觉选择合适的损失函数对预测的结果还挺有帮助的。

特征提取

对于文本：使用BERT；对于视频：CMU-MOSI和CMU-MOSEI使用Facet提取面部表情特征，UR_FUNNY使用OpenFace，然后再使用LSTM；对于音频：使用COVAREP，然后使用LSTM。

数据集

说一下数据集，这里除了使用了常用的CMU-MOSI和CMU-MOSEI数据集，还用了UR_FUNNY数据集，它是一种多模态幽默检测数据集。与情感类似，产生和感知幽默也是通过多模态渠道进行的。数据集使用TED演讲中抽取的笑料，并提供了多模态语料，每个语料都被贴上了幽默/非幽默的二元标签。

三个数据集的大小由下表所示：

实验

MOSI数据集上：

MOSEI数据集上：

UR_FUNNY数据集上：

代码的流程：

卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
构建医学文献智能助手：基于 LangChain 的专业领域 RAG 系统实践
前言在当今医疗科技快速发展的时代，每天都有数以千计的医学研究成果在全球范围内发表。从临床试验报告到基础研究论文，从流行病学调查到药物研发数据，这些专业文献承载着推动医学进步的重要知识。然而，面对如此海量且专业性极强的文献资料，医疗从业者往往感到力不从心。如何在有限的时间内，准确把握文献核心价值，并将其转化为临床实践的指导？这个问题一直困扰着整个医疗行业。1.项目背景与业务价值1.1医学文献阅读的困
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
GPT-4o重磅升级！只需一条指令，教你秒出SCI级专业科研图！智写AI AI学术写作指南信息可视化人工智能
经过数月爆肝，七哥终于完成专业的学术AI使用教程，估计也有个80万字的详细操作指南。分为多个细分的专业写作场景，跟着一步一步操作，借助ChatGPT做学术、干科研、写论文、课题申报都变得超简单。欢迎加我交流（yida985），祝你一臂之力。七哥之前写过关于用AI生成流程图的教程，不过需要借助其他软件才能搞定完美的流程图。近期GPT-4o全新推出了“生图功能”，这个生图的过程就更加方便轻松了，全能G
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
【软考高级系统架构论文】论企业集成平台的理解与应用 _Richard_ 2025年软考系统架构师系统架构
论文真题请围绕“企业集成平台的理解与应用”论题，依次从以下三个方面进行论述。概要叙述你参与管理和开发的、采用企业集成平台进行企业信息集成的软件项目以及你在其中所承担的主要工作。请给出至少4种企业集成平台应具有的基本功能，并对这4种功能的内涵进行简要阐述。具体阐述你参与管理和开发的项目是如何使用企业集成平台进行企业信息集成的，并围绕上述4种功能，详细论述在集成过程中遇到了哪些实际问题，是如何解决的。
根包含文件——Luaconf.h (src)收藏 skyremember lua integer 编译器 alignment 数据结构 c
根包含文件——Luaconf.h(src)收藏新一篇:C1902|旧一篇:Lock-free论文集functionStorePage(){d=document;t=d.selection?(d.selection.type!='None'?d.selection.createRange().text:''):(d.getSelection?d.getSelection():'');void(key
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
软件架构师论文_论基于架构(ABSD)的软件设计方法及应用 June_Xiao 软件架构师架构
2022年的论文题目是基于CBSD的软件设计方法及应用，本人写了基于ABSD的软件设计方法及应用，论文离题拿了3x分，悲催，这是我的第一次考架构师，是最后一次手写版考试，是最有可能通过的一次。下面是我的论文。论基于架构的软件设计方法及应用摘要2020年5月，我司中标了某省联网收费的省站直传项目，该项目将建设一套全省收费站与省中心相互通信传输数据的平台，主要分为上传、下发、监控三个子系统。，包括收费
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
计算机毕业设计Springboot农副产品线上商场系统基于Spring Boot的农产品电商交易平台设计与实现 Spring Boot架构下的农产品线上商城系统开发路可程序设计课程设计 spring boot 后端
计算机毕业设计Springboot农副产品线上商场系统r7duh7er（配套有源码程序mysql数据库论文）本套源码可以先看具体功能演示视频领取，文末有联xi可分享随着互联网技术的飞速发展，电子商务已经成为人们生活中不可或缺的一部分。尤其是在农产品销售领域，传统的线下销售模式面临着诸多限制，如销售渠道狭窄、信息不对称、销售成本高等问题。为了打破这些限制，提升农产品的销售效率和市场覆盖范围，开发一个
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
Gen AI：重塑未来的创造力工具箱一杯酒zpy 人工智能
目录页一、GenAI工具箱助力大学生涯1.通用GenAI工具2.GenAI科研辅助1.文献阅读与论文写作2.数据分析与可视化3.AI翻译工具二、GenAI办公、学习助手1.PPT制作2.表格制作3.AI思维导图4.AI办公5.AI图像处理6.AI视频处理7.AI音频处理8.AI编程工具9.AI搜索引擎说明：网盘资源密码获取：关注微信公众号【土木岛】，后台回复文件框中提示的对应关键词自动发送。点击查
大模型量化需要重新演唱大模型量化
大模型量化是一种优化技术，旨在减少深度学习模型的内存占用和提高推理速度，同时尽量保持模型的精度。量化通过将模型中的浮点数权重和激活值转换为较低精度的表示形式来实现这一目标。以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT量化4.2GPT-
刚入门3DGS的新手小白能够做的工作一碗姜汤计算机视觉 3d 计算机视觉
作为刚入门3DGaussianSplatting（3DGS）的新手，你可以从以下几个方向入手，逐步掌握核心概念并参与实践：1.基础学习与工具熟悉(1)理解核心概念必读资料原论文：3DGaussianSplattingforReal-TimeRadianceFieldRendering（Kerbletal.,SIGGRAPH2023）。通俗解读：博客或视频教程（如YouTube解析）。关键点：高斯球
pytorch 要点之雅可比向量积 AI大模型教程 pytorch 人工智能 python facebook 深度学习机器学习 webpack
自动微分是PyTorch深度学习框架的核心。既然是核心，就需要敲黑板、划重点学习。同时，带来另外一个重要的数学概念：雅可比向量积。PyTorch中的自动微分与雅可比向量积自动微分（AutomaticDifferentiation，AD）是深度学习框架中的关键技术之一，它使得模型训练变得更加简单和高效。且已知：PyTorch是一个广泛使用的深度学习框架，它内置了强大的自动微分功能。在本文中，我们将深
学生成绩信息管理系统的设计与实现(论文+源码)_kaic 开心工作室计算机文章毕业设计 java 开发语言 spring boot perl 后端 batch swift
摘要近年来，随着国内的高考改革和教育信息化的发展，为了提高学生成绩管理效率和准确性，本文设计并实现了一种学生成绩管理系统，在研究中发现对于学校在管理学生成绩信息的效率上显著提升。现代教育管理中，学生成绩管理系统是必不可少的工具之一。首先，通过对相关文献的综合评估和需求分析，得出了一些适合用户的功能模块，这些模块被认为是最为合适的。采用面向对象的设计方法，选择了具备面向对象特性的Java语言，并使用
昇腾AI生态组件全解析：与英伟达生态的深度对比
随着人工智能技术的快速发展，国产AI芯片的崛起正在改变全球计算产业的格局。华为昇腾（Ascend）系列AI处理器凭借自主创新的达芬奇架构，构建了完整的软硬件生态体系。本文将从核心组件对比、显卡性能对标两个维度，深入剖析昇腾与英伟达（NVIDIA）生态的技术差异与适用场景。一、昇腾核心组件与英伟达对标分析1.推理引擎：MindIEvsTensorRT昇腾MindIE1.0.0基于昇腾芯片的深度学习推
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class