uuu_柚子

Multimodal emotion recognition with capsule graph convolutional based representation fusion

题目	Multimodal emotion recognition with capsule graph convolutional based representation fusion
译题	基于胶囊图卷积表示融合的多模态情感识别
时间	2021年
期刊/会议	ICASSP

Multimodal emotion recognition with capsule graph convolutional based representation fusion

摘要：音视频多模态情感识别由于具有比单模态更强的鲁棒性，受到了广泛的关注。表示融合算法的效率往往决定着聚合矩阵的性能。虽然有许多融合算法，但通常忽略了信息冗余和信息互补性。本文提出了一种新的表示融合方法——Capsule Graph Convolutional Network (CapsGCN)。首先，经过单模态表示学习，将提取的音频和视频表示分别用胶囊网络进行提炼，封装成多模态胶囊；多模态胶囊通过动态路由算法可以有效地减少数据冗余。其次，将多式联运胶囊及其相互关系和内部关系视为一个图结构。利用图卷积网络(GCN)对图结构进行学习，得到隐藏表示，是对信息互补性的良好补充。最后，将 CapsGCN 学习到的多模态胶囊和隐式关系表示馈送到多头自注意中，以平衡源表示和关系表示的贡献。为了验证所提出的 CapsGCN 的性能、表征的可视化、常用融合方法的结果和消融研究。我们提出的融合方法在 eNTERFACE05’ 上的准确率达到 80.83%，F1-score 达到 80.23%。

1 Introduction

情绪表达在人际交往中起着至关重要的作用[1]，成功地检测情绪状态对人工智能( AI )具有重要的现实意义。情感识别在社交机器人、医疗、教育质量评价等许多人机交互系统中具有相当大的应用前景[2]。特别是在当前新冠疫情的情况下，上述工作更有意义。

人类表达情绪的方式多种多样，如语音[3,4]、肢体动作[5]、面部表情[6]、文字[7]等。单峰信号不能完全传达真实意图。不同的情态描述了同一情感的不同方面。因此，多模态信号鲁棒性更强，更符合人类的表达习惯。在这项工作中，我们研究了音频和视频模式，这是人类最常见和最有效的方式。

多模态情感识别成功的关键是多模态信息的融合。信息融合方法主要分为两类[8]。一个是早期融合(特征级融合)。在早期阶段，将源信号或提取的表示连接为融合表示。Tripathi 等[9]使用双向长短期记忆( Bidirectional Long - Short Term Memory, BLSTM )提取特征，并将提取的表征直接合并。虽然早期的融合方法计算复杂度较低，但冗余的存在降低了信息的有效性。另一种类型的融合是晚期融合(决策级融合)[10,11]。提取的表示或单峰结果在后期进行融合。Zhang 等[12]在分类器之前引入了深度信念网络( Deep Belief Networks, DBN )来融合音频和视频表示。Atmaja 等[13]采用支持向量回归( support vector regression, SVR )将早期和晚期融合结果合并，是一种多步评分级融合。后期融合的缺点是两种模态之间缺乏代表性的互补性。一种混合融合方法被称为 模型级融合，它得益于强大的模型来提高性能。Huang 等[14]引入 Transformer 来融合音频和视频表示。然而，现有的融合方法往往忽略了不同模态之间信息的冗余性和互补性。

胶囊网络( Capsule network, CapsNet )由 Sabour 等人[15]提出，并迅速引入各个研究领域[16,17,18]。在保证信息不丢失的前提下，CapsNet 使用路由算法将信息提炼成“胶囊”。引入图卷积网络( Graph Convolutional Network, GCN )[19]对关系数据进行建模，在自然语言处理( Natural Language Processing, NLP )领域取得了良好的效果[20,21,22]。为了减少冗余和增强互补性，我们提出了一种新的融合方法，胶囊图卷积网络( CapsGCN )，如图 2 所示。首先，引入 CapsNet 将音频和视频表示分别封装到胶囊中。通过动态路由减少了胶囊中信息的冗余。其次，将提取的音视频胶囊及其相互关系和内部关系组成关系图。然后，引入 GCN 来学习音视频胶囊之间的隐藏表示。隐藏表示是对信息互补性的一种很好的补充。最后，将视听胶囊和习得的隐藏表示馈送给多头自注意[23]。

本文的主要工作总结如下：
1) 提出了一种考虑多模态信息冗余和信息互补性的 CapsGCN ；
2) 引入注意机制，平衡不同表示的贡献，进一步减少冗余。

2 基于 caps GCN 的多模态情感表示融合

2.1 多模态情感识别系统

所提出的系统如图 1 所示，主要由单模态表示学习和多模态表示融合两部分组成。通过系统的第一部分的两个流来学习表示 $R_a$ 和 $R_v$ 。多模态表示融合部分是我们提出的整合注意力的 CapsGCN ，具体如图 2 所示。学习到的融合表示 $\hat{R_f}$ 之后是 Flatten 层和 fully connected 层。

2.2 单模态表示学习

在这一部分中，我们使用两个流来学习单峰表示。我们将视频序列划分为音频数据和图像数据，帧数为 $N$ 。对于音频数据，语音信号被划分为重叠 $40 m s$ 的 $M$ 个片段。然后将语音信号转换为声谱图。我们引入了通用的 $2 D - CNN$ 来学习音频表示，并最终得到音频表示 $R_a$ （ $N * 60 * 1024$ ）。对于图像序列，我们使用 OpenCV 工具包来检测人脸并裁剪人脸图像，其样本如图 1 所示。由于数据缺乏考虑，在视频表示步骤中，我们引入了一个由 ImageNet 训练的预训练模型 VGG-16 [24]。在每个微调 epoch 中，随机选择 16 个人脸图像作为微调数据。这种训练策略是为了防止相邻人脸图像的冗余。最后，我们得到了视频表示 $R_v$ （ $N * 16 * 1024$ ）。在实验中验证了所学习的表示 $R_a$ 和 $R_v$ 的有效性。

2.3 基于表示融合的 CapsGCN

CapsNet 输出一个向量而不是单个标量值，这使得它能够学习更明显和复杂的信息。动态路由方法不仅减少了信息冗余，而且避免了有用的情感信息的丢失。

$c_{ij}$ 是由“路由 softmax ”确定的耦合系数，如等式（1）所示。
$c_{ij} = \dfrac{exp(d_{ij})} {\displaystyle\sum_{k} exp(d_{ik})} \kern10em(1)$
其中， $\kern1em d_{ij}$ 是胶囊 $i$ 耦合到胶囊 $j$ 的对数先验概率。
$\hat{u}_{j|i} = W_{ij} u_i \kern10em(2)\\ s_j = \displaystyle\sum_{i} c_{ij} \hat{u}_{j|i} \kern10em(3)$
在等式 4 中， $v_j$ 是第 $l$ 层中胶囊 $j$ 的矢量输出， $s_j$ 是其总输入。
$v_j = \dfrac { ||s_j||^2 } {1 + ||s_j||^2 } \dfrac{s_j} { ||s_j|| } \kern10em(4)$
我们使用 CapsNet 对表示 $R_a$ 和 $R_v$ 进行建模，并获得音频数字帽 $D_a$ 和 $D_v$ ：
$D_a = [v_0^a, v_1^a, ... , v_{k-1}^a, v_k^a ] \kern 10em \\ D_v = [v_0^v, v_1^v, ... , v_{k-1}^v, v_k^v ] \kern 10em (5)$
在等式（5）中，在考虑六种情绪类别的情况下，我们设置 $k = 6$ 来捕捉简单而明显的信息。GCN 的输入数据是多模态胶囊 $R_{av}$ ：
$R_{av} = [ v_0^a, v_1^a, ... , v_{k-1}^a, v_k^a, v_0^v, v_1^v, ... , v_{k-1}^v, v_k^v ] \kern2em v_i \in v \kern3em(6)$
在等式（6）中， $v_i$ 表示结点，有向图 $\epsilon )$ ，边为 $(v_i, r, v_j) \in \epsilon$ 。第 $t$ 层中的隐藏状态：
$h_i^{(t)} = \sigma \bigl ( \dfrac {G_i^T(h_i^{(t-1)} W+b) } {\displaystyle\sum G_i } \bigr ) \kern10em(7)$
$\sigma()$ 是一个元素激活函数，我们在本文中使用 $R e LU ()$ 。 $W$ 是权重矩阵， $b$ 是偏差。最后我们得到了隐藏表示 $R_h$ 。

2.4 注意力机制和情感识别

在多模态表示中，音频和视频模态的原始独立性也很重要。在提出 CapsGCN 之后，我们将 $R_{av}$ 和 $R_h$ 连接作为融合表示 $R_f$ 。融合表示 $R_f$ 之后是多头自注意。
$\bigl ( \dfrac{QK^T} {\sqrt{D_K} } \bigr) V \kern10em (8)$
在等式（8）中，输入矩阵由 $Q, K, V$ 组成，分别表示是 queries，keys， values，keys 的维度是 $D_K$ 。与其执行 Q、K、V 的单个计算，不如用不同的学习线性投影将查询、键和值线性投影 h 次。h 个结果被级联并一旦投影，产生最终输出 $M_h(Q, K, V)$ ，如等式（9）所示。
$M_h \bigl( Q, K, V \bigr) = W \bigl( Att_1 + ... +Att_h \bigr) \kern10em(9)$
在等式（9）中, $Q == K == V == R_f$ 。 $R_f$ 在没有共享参数的情况下计算 $h$ 次，并且 $h$ 个结果被映射到如等式（10）所示的 $\hat{R_f}$ 上。
$\hat{R_f} = M_h(R_f) \kern10em(10)$
这种注意力机制可以在源表示和隐藏表征之间找到平衡，防止个体情绪过于突出，进一步减少冗余。

3 实验

3.1 实验设计

3.1.1 数据集

本文中的所有实验都是在 eENTERFACE05’ [25]上进行的，这是一个英文视听数据库。该数据库包含六个原型情绪类别，即愤怒、厌恶、恐惧、幸福、悲伤和惊讶，由来自 14 个不同国家的 42 名受试者记录。每个受试者被要求连续听六个与情感有关的短篇故事。只有那些对每种情况都有口头和视频反应的受试者，根据两位专家的判断，他们的情绪是以明确的方式表达的，才会被纳入数据库。音频数据以 48kHz 的频率记录。视频数据使用720x576 AVI 格式进行处理，每秒 25 帧。

3.1.2 音频和视频数据预处理

音频数据被划分为重叠 40ms 的等长片段，每个片段被转换为 62×201 的频谱图。因为每个音频样本可以生成多个片段，这将放大训练数据。我们使用 OpenCV 工具包进行人脸检测和切割工作，并获得 224×224 个人脸序列。

3.1.3 音频和视频表示学习

我们使用常用的 2D-CNN [26]作为音频表示学习方法，并使用下面的均值池化层来获得每个话语的表示。对于视频表示学习，我们引入了由 ImageNet 训练的预训练 VGG-16 。我们还设置了两个层来遵循 VGG-16 模型。视频数据对 VGG 模型进行微调，并提取视频表示。所有实验都是在独立于说话者的方案下进行的。

3.2 实验结果与分析

为了验证提取的音频和视频表示以及所提出的融合方法的有效性，我们建立了两组实验来验证其有效性。建立第一组实验的目的是，一是验证预处理和表示学习的有效性，二是展示单峰信息的特征。第二组是展示所提出的融合方法的细节。

3.2.1 音频和视频表示的有效性

为了观察提取的音频和视频表示，引入了 $t$ 分布随机邻近嵌入（t-SNE）[27]来可视化六个情绪类别，如图3所示。

我们可以发现这两种分布中的内在关系是不同的。例如，在音频分布中，有很多点在中心混淆在一起，而在视频分布中，Fear（绿色点）非常接近 Suprise（紫色点）。

为了验证定量分类性能，我们引入了 DBN [12]和 BLSTM [9]作为最先进的比较实验。在这两个比较实验中，DBN 是以分数级融合的方式引入的，BLSTM 是以特征级融合的形式引入的。单模态和多模态实验的实验结果如表 1 所示：

图 3 和表 1 中的可视化和实验结果验证了我们通过 2D-CNN 和预训练的 VGG-16 提取的表示的有效性。此外，无论是分数级融合还是特征级融合，音频和视频表示的融合都可以带来改进。尽管表示已经被证明是有效的，但这两种最先进的融合方法并没有带来很好的改进。比较算法的性能比较算法由于忽略了信息冗余和信息互补的重要性而受到限制。

3.2.2 所提出的融合方法的验证

图 4 中的以下四个 t-SNE 可视化：（a）CapsNet、（b）GCN、（c）CapsGCN 和（d）CapsGCN_att 后的音频视频表示。

（c）CaspGCN 和（d）CapsGCN_att 中的分布更加清晰。为了定量分析所提出的融合方法，我们在表 2 中提供了消融研究的结果，评估标准为 F1-score 和准确率。同时，消融研究的四个混淆矩阵如图 5 所示。

观察表 2 和图 5 ，可以发现三种现象。第一个原因是 CapsNet 的性能优于 GCN 。这种现象反映了源音频和视频表示具有高冗余度。在不减少冗余的情况下，相互关系和内部关系的计算变得复杂。源音频和视频表示的互补性不能很好地表达。第二个现象是 CapsGCN 的准确率得到了很大的提高。这种情况充分反映了多模态胶囊的互补性得到了很好的释放。同时，对人际关系和内部关系的计算会影响对一些情绪的敏感性，例如恐惧。第三个现象是 CapsGCN_att 实现了最佳性能。引入的注意力机制缓解了某些因素对融合的过度影响，如恐惧和惊讶，这些因素被认为是最困难的。此外，由于注意力权重的增加，冗余度进一步被重新设置。

4 总结

在本文中，我们研究了信息冗余和信息互补在 MER 多模态融合方法中的重要性。所提出的融合方法 CapsGCN 的有效性已在 eNTERFACE05’ 的对比实验和消融研究中得到验证。与传统的融合方法相比，分类准确率达到 80.83% ，绝对增量分别超过 11.66% 和9.16% 。该方法对所有六种情绪都表现出很高的敏感性，尤其是对恐惧、幸福和至上。所提出的融合方法在学习和建模文本信息方面也显示出巨大的潜力。未来，我们计划研究所提出的模型在其他一些多模态数据集上的性能。

《Python数据分析与挖掘实战》Chapter8中医证型关联规则挖掘笔记茫茫大地真干净机器学习 Python 数据挖掘
最近在学习《Python数据分析与挖掘实战》中的案例，写写自己的心得。代码分为两大部分：1.读取数据并进行聚类分析2.应用Apriori关联规则挖掘规律1.聚类部分函数分析：defprogrammer_1():datafile="C:/Users/longming/Desktop/chapter8/data/data.xls"processedfile="C:/Users/longming/Des
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
小程序学习笔记：自定义组件创建、引用、应用场景及与页面的区别 you4580 小程序
在微信小程序开发中，自定义组件是一项极为实用的功能，它能有效提高代码的复用性，降低开发成本，提升开发效率。本文将深入剖析微信小程序自定义组件的各个关键方面，包括创建、引用、应用场景以及与页面的区别，并附上详细代码示例，帮助开发者全面掌握这一技术。一、自定义组件的创建创建自定义组件主要分为以下三个步骤：创建components文件夹：在项目根目录下，通过鼠标右键新建一个名为“components”的
TensorFlow Serving学习笔记3: 组件调用关系
一、整体架构TensorFlowServing采用模块化设计，核心组件包括：Servables：可服务对象（如模型、查找表）Managers：管理Servable生命周期（加载/卸载）Loaders：负责Servable的初始化状态管理Sources：提供新版本Servable的LoaderAspiredVersions：Servable的期望状态集合Core：连接所有组件的核心枢纽APIs：gR
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
【Html实现“心形日出”（附效果+源代码）】| JavaScript面试题：解释一下异步编程中的回调函数、Promise和Async/Await的概念。它们有什么区别？追光者♂ html5 css3 心形日出前端特效 JS面试题 Promise Async/Await
风会带走你曾经存在过的证明。——虞姬作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！
STM32学习笔记
实现按键控制LED灯前置知识：基本的GPIO输入模式：读取外部信号（如按键、传感器状态）。——主要用到上拉输入输出模式：向外部输出信号（如控制LED、继电器）。——主要用到推挽输出其他模式：模拟输入、复用功能（如USART、I2C）等。按键的知识与常识按键未按下：GPIO引脚通过上拉电阻连接到VCC，读取为高电平（1）。按键按下：按键将GPIO引脚直接接地，读取为低电平（0）。有关LED的代码部分
大模型笔记10：LoRA微调 errorwarn 笔记
LoRA微调的原理矩阵的秩矩阵的秩代表一个矩阵中所含信息的大小。行秩：矩阵中互相不重复、不依赖（即线性无关）的行的最大数目。列秩：矩阵中互相不重复、不依赖的列的最大数目。事实上，行秩和列秩总是相等的，因此我们通常直接称之为“矩阵的秩”。Transformer中微调哪些参数：LoRA的改进版本
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
地产销售：用业余时间做了一个楼盘SCRM小程序？
为了完成销售业绩和用户满意，做了个小程序。–六居地产朱同学1需求背景六居地产，一家无锡专业的房地产中介公司，主要提供二手房买卖交易信息、房屋出租等服务，在房产销售领域，团队成员一直还在传统的微信笔记分享方式传递房产资料。随着房地产销售业绩下滑，六居地产销售团队面临着如何更有效地分发房产资源和持续运营客户的挑战，急需能够丰富资源展示并获取客户联系方式的解决方案。2选型之路六居公司以业务为重，客户体量
数据库系统工程师简要概括笔记 Mint_Datazzh 数据库系统工程师数据库笔记数据库系统工程师
文章内容仅为粗略总结知识，便于个人复习思考原文链接:数据库系统工程师简要概括笔记–笔墨云烟数据库系统工程师—1.1计算机硬件基础知识数据库系统工程师—1.2计算机体系结构与存储系统数据库系统工程师—1.3安全性、可靠性与系统性能评测基础知识数据库系统工程师—2.程序语言基础知识数据库系统工程师—3.1~3.4线性结构、数组和矩阵、树和二叉树、图数据库系统工程师—3.5排序算法数据库系统工程师—3.
C++学习笔记（2）——高精度减法「已注销」 C++学习笔记（每周至少3篇）C++c++
上篇文章我们了解了高精度加法，今天我们来讲减法。和加法一样，减法也是模拟小学减法竖式：先用数组存下被减数和减数：①如果a[i]b,a[i+1]还可以向a[i+2]借位。借位后a[i+1]等于9，而b[i+1]最大为9。我们来看一下高精度减法的思路：①高精度数的读取存储：使用字符串方式读取，然后转成整型数组，为方便计算，进行逆向存储。②模拟竖式进行减法：相同位置进行相减，不够减时进行借位③去除前导0
小红书运营教程03（爆款属性基础规则）有点。自媒体运营新媒体运营
爆款属性基础规则。一、账号基础层级流量1.账号基础展示1000量：只要我们刚开始创建小红书的时候，只要发送笔记有一定的曝光量。（第一篇）2.基础曝光倍数（11%）也就是发放笔记之后，你有1000展示，你的小眼睛大概达到150左右，额外给你300的曝光量官方层面（有合作）才会升级到第六~第八。第1层级笔记浏览量0-200第2层级笔记浏览量200-500第3层级笔记浏览量500-2000第4层级笔记浏
青少年编程与数学 01-012 通用应用软件简介 15 人工智能助手明月看潮生编程与数学第01阶段青少年编程人工智能应用软件编程与数学
青少年编程与数学01-012通用应用软件简介15人工智能助手一、什么是人工智能助手二、人工智能助手的产生和发展（一）早期探索阶段（二）技术突破阶段（三）广泛应用阶段三、人工智能助手的主要功能（一）信息查询（二）日程管理（三）设备控制（四）知识问答四、人工智能助手的商业模式（一）广告收入（二）增值服务（三）数据服务（四）硬件销售五、DeepSeek（一）基本情况（二）技术水平（三）产品功能（四）市场
虚拟空间中的AI协作与任务 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 AI人工智能与大数据大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
虚拟空间与AI概述在当今信息化和数字化的时代，虚拟空间（VirtualSpace）已成为人们生活和工作的重要一部分。虚拟空间是一种通过计算机技术构建的虚拟环境，它能够模拟和增强现实世界中的各种交互和体验。而人工智能（AI）作为计算机科学的一个分支，通过模拟人类的认知能力来实现自动化和智能化的决策。虚拟空间与AI的结合，不仅为人类带来了全新的交互方式，也为各行业的发展注入了强大的动力。虚拟空间的定义
AI Agent: AI的下一个风口智能体在元宇宙里的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIAgent:AI的下一个风口智能体在元宇宙里的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AIAgent,元宇宙,虚拟角色,智能交互,人工智能,虚拟世界,智能体架构,交互式应用1.背景介绍1.1问题的由来随着虚拟现实(VR)、增强现实(AR)和区块链技术的不断发展，元宇宙(Metaverse)的概念逐渐兴起。元宇宙是一个由虚拟世界
攻击者利用热门AI发动黑帽SEO攻击，通过污染搜索结果传播窃密木马 FreeBuf- 人工智能
伪装成AI主题网站的恶意页面|图片来源：ZscalerZscaler威胁实验室研究人员发现一起精心策划的恶意软件攻击活动，攻击者利用ChatGPT和LumaAI等人工智能(AI)工具的热度，通过黑帽SEO（搜索引擎优化）技术劫持搜索引擎结果，诱导用户落入恶意软件陷阱。Zscaler警告称："这些攻击背后的威胁行为者正在利用ChatGPT和LumaAI等AI工具的热度。"这些欺诈活动至少从2025年
Python/Java/Php/C#/Go/C/C++这几个主力语言，谁到底真的不行 dotNET跨平台 java c#开发语言
1.前言阿里最近又进行了史诗级的大裁员，IT行业肉眼可见的持续性衰退与没落。当潮水退却，才能看出谁在裸泳。作为当今计算机编程界的几大主力语言，谁才真正的裸泳者呢？2.描述1.Python:Python作为一款解释性的动态语言，它很早就诞生了。它的第一个发行版1991年出世，比Java还要早四年。可惜命运不济，一直没有大的作为。到了2014年人工智能的风口悄然兴起，Python一路高歌猛进。到了20
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
End-To-End 之于推荐-kuaishou OneRec 笔记 ASKED_2019 RecSys 笔记
核心思想OneRec提出了一种统一的生成式推荐系统架构，打破了传统“召回-粗排-精排”级联式推荐流程，使用单一生成模型同时完成召回与排序任务。该系统由快手团队研发，并成功部署于短视频主场景。OnlineA/BTest表现：模型总观看时长平均观看时长OneRec-1B+IPA+1.68%+6.56%一Input处理Userpositiveactionsequence，将短视频的多模态表征，通过量化的
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
Unity热更新之 Lua 哈基咩咩 Unity 热更新 unity lua 游戏引擎
本文内容整合包括但不限于Unity唐老狮,菜鸟教程,Ai与其他网络资源本文仅作学习笔记交流，不做任何商业用途，侵权删gitee:https://gitee.com/hakiSheep/lua.git一.基础知识包含了如下内容--注释还算详细二.XLuaXLua是腾讯开源的框架，为Unity、.Net等C#环境赋予Lua脚本编程能力，支持C#与Lua高效互调核心特性含热补丁（热更新）、GC优化（无额
蔡高厅老师 - 高等数学-阅读笔记 - 01 - 前言、函数【视频第01、02、03、】 Franklin 数学线性代数
高等数学前言；196学时，每周6课主要内容：上册一元、多元函数数，微分学、积分学、矢量代数、空间解析几何无穷级数、微分方程，多元函数微分学和积分学目的：高等数学3基：1高等数学的基本知识2高度数学的基本理论3高等数学的基本计算方法提高数学素养培养：抽象思维、逻辑推理、辩证的思想方法、空间想象能力、分析问题、解决问题的能力为进一步学习打下必要的学习基础和初等数学不同，研究的不是常量而是变量，变量和变
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
Python学习打卡：day13 胜天半子祁厅 Python python 学习 java
day13笔记来源于：黑马程序员python教程，8天python从入门到精通，学python看这套就够了目录day1397、初识对象98、类的成员方法类的定义和使用成员变量和成员方法成员方法的定义语法99、类和对象在程序中通过类来描述基于类创建对象100、构造方法课后练习101、魔术方法\_\_str\_\_字符串方法\_\_lt\_\_小于符号比较方法\_\_le\_\_小于等于比较符号方法\
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交

Multimodal emotion recognition with capsule graph convolutional based representation fusion

Multimodal emotion recognition with capsule graph convolutional based representation fusion

1 Introduction

2 基于 caps GCN 的多模态情感表示融合

2.1 多模态情感识别系统

2.2 单模态表示学习

2.3 基于表示融合的 CapsGCN

2.4 注意力机制和情感识别

3 实验

3.1 实验设计

3.1.1 数据集

3.1.2 音频和视频数据预处理

3.1.3 音频和视频表示学习

3.2 实验结果与分析

3.2.1 音频和视频表示的有效性

3.2.2 所提出的融合方法的验证

4 总结

你可能感兴趣的:(研究性论文相关笔记,深度学习,人工智能,nlp)