Encounter84

An End-to-End Visual-Audio Attention Network for Emotion Recognition in User-Generated Videos阅读笔记

Abstract

用户生成视频中的情感识别在以人为本的计算中起着重要的作用。现有的方法主要采用传统的两层浅层管道，即提取视觉和/或音频特征和训练分类器。在本文中，我们提出了一种基于卷积神经网络（CNNs）的端到端识别视频情绪的方法。具体来说，我们开发了一个深度视觉音频注意网络（VAANet），这是一种新的架构，它将空间、通道级和时间注意整合到视觉3D CNN中，并将时间注意整合到音频2D CNN中。此外，我们设计了一种特殊的分类损失，即基于极性-情感层次约束的极性一致交叉熵损失来指导注意力的产生。在具有挑战性的 VideoEmotion-8 和 Ekman-6 数据集上进行的大量实验表明，所提出的 VAANet 优于最先进的视频情感识别方法。我们的源代码发布于：https://github.com/maysonma/VAANet。
移动设备和社交网络的便利使用户能够在日常生活中生成视频并上传到互联网，以分享他们的经验和表达个人意见。结果，正在创建爆炸式增长的视频量，这导致对这些视频的分析和管理的迫切需求。除了对象和动作等客观内容识别（Zhu et al. 2018; Choutas et al. 2018），了解视频的情感影响在以人为本的计算中起着重要作用。一方面，视频可以在很大程度上反映视频制作者的心理状态。我们可以预测生成者可能出现的极端行为，如抑郁、自杀等，并采取相应的预防措施。

Introduction

移动设备和社交网络的便利使用户能够在日常生活中生成视频并上传到互联网，以分享他们的经验和表达个人意见。结果正在创建爆炸式增长的视频量，这导致对这些视频的分析和管理的迫切需求。除了对象和动作等客观内容识别（Zhu et al. 2018; Choutas et al. 2018），了解视频的情感影响在以人为本的计算中起着重要作用。一方面，视频可以在很大程度上反映视频制作者的心理状态。我们可以预测生成者可能出现的极端行为，如抑郁、自杀等，并采取相应的预防措施。另一方面，能唤起强烈情感的视频更容易引起观众的共鸣，带来身临其境的观看体验。适当的情感共鸣对智能广告和视频推荐至关重要。用户生成的视频 (UGV)中的情感识别可以帮助企业分析客户如何评价其产品并协助政府管理互联网。
尽管随着深度学习的出现，在文本情感分类（Zhang, Wang, and Liu 2018）、图像情感分析（Zhao et al. 2018a; 2018b; Yang et al. 2018a）方面取得了显着进展 ) 和视频语义理解 (Zhu et al. 2018; Choutas et al. 2018)。由于以下挑战，UGV 中的情感识别仍然是一个未解决的问题。 (1) 类内变异大。在截然不同的场景中拍摄的视频可能会唤起类似的情绪。例如逛游乐园、参加体育比赛、玩电子游戏等，都可能让观众感到“兴奋”。这导致低级特征和高级情绪之间存在明显的“情感差距”。 (2) 结构一致性低。与电影（Wang 和 Cheong 2006）和 GIF（Jou、Bhat tacharya 和 Chang 2014；Yang、Zhang 和 Luo 2019）等专业和商业视频不同，UGV 通常采用不同的结构，例如各种分辨率和图像模糊噪声。 (3) 稀疏关键帧表达。
只有有限的关键帧直接传达和决定情绪，如图 1 所示，而其余的则用于介绍背景和上下文。 UGV 中大多数现有的情感识别方法都侧重于第一个挑战，即采用高级图像表示来弥合情感差距，例如 (1) 中级属性特征（Jiang、Xu 和 Xue 2014；Tu 等人 2019）像 ObjectBank (Li et al. 2010) 和 SentiBank (Borth et al. 2013)，(2) 高级语义特征 (Chen, Wu, and Jiang 2016) 如检测到的事件 (Jiang et al. 2017; Caba Heilbron 等人 2015）、对象（Deng 等人 2009）和场景（Zhou 等人 2014），以及 (3) 深度卷积神经网络 (CNN) 特征（Xu 等人 2018；Zhang 和徐 2018）。 Zhang 和 Xu (2018) 通过离散傅里叶变换将帧级空间特征转换为另一个核化特征空间，部分解决了第二个挑战。对于第三个挑战，视频要么被平均下采样到固定数量的帧（Zhang 和 Xu 2018），要么由来自一个片段的连续帧表示（Tu 等人 2019）。
上述方法对 UGV 情感识别的发展做出了贡献，但仍存在一些问题。 (1) 他们主要采用两阶段浅流水线，即提取视觉和/或音频特征和训练分类器。 (2) 单独提取每一帧的视觉CNN特征，忽略了相邻帧的时间相关性。 (3) 忽略了情绪可能由来自几个离散片段的关键帧决定的事实。 (4) 一些方法需要辅助数据，在实际应用中并不总是可用。例如，(Chen, Wu, and Jiang 2016) 中提取的事件、对象和场景特征在 FCVID (Jiang et al. 2017) 和 ActivityNet (Caba Heilbron et al. 2015)、Ima geNet ( Deng et al. 2009) 和 Places205 (Zhou et al. 2014) 数据集。 (5) 他们没有考虑不同情绪之间的相关性，例如极性-情绪层次约束，即属于同一极性的两种不同情绪的关系比来自相反极性的情绪更接近。
在本文中，我们提出了一种端到端的视觉-音频注意网络，称为 VAANet，以解决上述问题，用于识别 UGV 中的情绪，除了预训练数据外，不需要任何辅助数据。首先，我们将每个视频分成相等数量的片段。其次，对于每个片段，我们随机选择一些连续的帧并将它们送入 3D CNN（Hara、Kataoka 和 Satoh 2018），同时具有空间和通道方面的注意力以提取视觉特征。同时，我们将相应的音频波转换为频谱图，并将其输入 2D CNN (He et al. 2016) 以提取音频特征。最后，不同片段的视觉和音频特征通过时间注意力进行加权以获得整个视频的特征表示，然后是一个全连接层以获得情绪预测。考虑到极性-情感层次约束，我们设计了一种新的分类损失，即极性一致交叉熵（PCCE）损失，以指导注意力的产生。
总之，本文的贡献有三方面：1. 我们率先以端到端的方式研究了用户生成视频中的情感识别任务。 2. 我们开发了一种新颖的网络架构，即 VAANet，它将空间、通道和时间注意力集成到视觉 3D CNN 中，并将时间注意力集成到音频 2D CNN 中，用于视频情感识别。我们提出了一种新的 PCCE 损失，它使 VAANet 能够生成保留极性的注意力图。 3. 我们对 VideoEmotion-8 (Jiang, Xu, and Xue 2014) 和 Ekman-6 (Xu et al. 2018) 数据集进行了大量实验，结果证明了所提出的 VAANet 方法的优越性，与最先进的方法。

图 2：拟议的视觉和音频注意网络 (VAANet) 的框架。首先，来自音轨的 MFCC 描述符和视觉信息都被分成片段并分别输入 2D ResNet-18 和 3D ResNet-101 以提取音频和视觉表示。然后，视觉流的响应特征图被馈送到堆叠的空间注意、通道注意和时间注意子网络中，音频流的响应特征图被馈送到时间注意模块中。最后，将携带视觉和音频信息的参与语义向量连接起来。同时，优化了一种新颖的极性一致交叉熵损失来指导视频情感识别的注意力生成。

Visual-Audio Attention Network

我们提出了一种新颖的 CNN 架构，具有空间、通道和时间注意机制，用于用户生成视频中的情感识别。图 2 显示了所提出的 VAANet 的总体框架。具体来说，VAANet 有两个流，分别利用视觉和音频信息。视觉流由三个注意力模块组成，音频流包含一个时间注意力模块。视觉流中的空间注意力和通道注意力子网络旨在自动关注每个特征图中携带判别信息的区域和通道。视觉和音频流中的时间注意力子网络旨在为视频的不同片段分配权重。 VAANet 的训练是通过以端到端的方式最小化新设计的极性一致交叉熵损失来进行的。
关于提取 为了从长期视频中提取视觉表示，遵循 (Wang et al. 2016)，我们模型的视觉流处理从整个视频中稀疏采样的短片段。具体来说，我们将每个视频分成 t 个持续时间相等的片段，然后从每个片段中随机抽取 k 个连续帧的短片段。我们使用 3D ResNet-101（Hara、Kataoka 和 Satoh 2018）作为视觉流的主干。它以 t 个片段（每个片段有 k 个连续帧）作为输入，并独立地将它们处理到最后一个时空卷积层 conv5 成为一个超帧。假设给定N个训练样本{(xV l , yl)}N l=1，其中xV l是视频l的视觉信息，yl是对应的情感标签。对于样本xV l ，假设3D ResNet-101中conv5的feature map为FV l ∈ Rt×h×w×n（以下为简单起见省略l），其中h和w为空间大小（特征图的高度和宽度），n 是通道数，t 是片段数。我们将 FV 重塑为

通过展平原始 FV 的高度和宽度，其中 f V ij ∈ Rn 且 m = h × w。这里我们可以将 f V ij 视为第 i 个超帧中第 j 个位置的视觉特征。在下文中，为简单起见，我们省略了上标 V。
视觉空间注意力估计 我们采用空间注意模块来自动探索超帧中区域的不同贡献以预测情绪。按照 (Chen et al. 2017)，我们采用了一个双层神经网络，即一个 1 × 1 卷积层，然后是一个具有 softmax 函数的全连接层，以在所有超网络上生成空间注意力分布 -框架区域。也就是说，对于每个 Fi ∈ Rm×n(i = 1, 2, ··· , t)

（公式太多粘贴图片。。）
视觉通道注意估计假设 CNN 中特征图的每个通道都是相应卷积层的响应激活，通道注意力可以看作是选择语义属性的过程 (Chen et al. 2017)。为了产生通道注意，我们首先将 FV 转置到 G

视觉时间注意力估计对于一段视频，每一帧识别情绪的辨别力明显不同。只有一些关键帧包含判别信息，而其他关键帧仅提供背景和上下文信息 (Song et al. 2017)。基于这样的观察，我们设计了一个时间注意力子网络来自动关注包含关键帧的重要片段。为了产生时间注意力，我们首先将空间平均池应用于 GC 并将其重塑为 P

音频表示提取
特征是视觉特征的补充，因为它们包含另一种模态的信息。在我们的问题中，我们选择使用最著名的音频表示：梅尔频率倒谱系数 (MFCC)。假设我们给定 N 个音频训练样本 {(xA l , yl)}N l=1，其中 xA l 是来自视频 Vl 的整个 306 音轨的描述符，yl 是相应的情感标签。我们将 xA l 居中裁剪到固定长度 q 以获得 xA l ，并在必要时填充自身。与我们在提取视觉表示时采用的方法类似，我们将每个描述符分成 t 个片段，并使用 2D ResNet-18（He 等人，2016 年）作为独立处理描述符片段的模型音频流的主干。对于描述符 xA l ，假设 2D ResNet-18 中 conv5 的特征图为 FA l ∈ Rt×h ×w ×n（以下为了简单起见省略 l），其中 h 和 w 是特征图的高度和宽度，n是通道数，t是段数。我们将空间平均池化应用于 FA 并获得 FA ∈ Rt×n 。
音频时间注意力估计
出于将时间注意子网络集成到视觉流中的类似动机，我们引入时间注意子网络来探索不同片段中音频信息对识别情绪的影响

极性一致性交叉熵损失
我们连接 EV 和 EA 以获得聚合语义向量 E = [EV , EA] ，它可以被视为视频的最终表示，并被送入一个完全连接的层以预测情感标签。传统的交叉熵损失定义为

其中 C 是情感类的数量（本文中 VideoEmotion-8 的 C = 8 和 Ekman-6 的 C = 6），1[c=yi] 是二元指标，pi,c 是预测概率那个视频我属于c类。直接优化等式中的交叉熵损失。 (12) 会导致一些视频被错误地分类到极性相反的类别中。在本文中，我们设计了一种新颖的极性一致交叉熵 (PCCE) 损失来指导注意力的生成。也就是说，增加了与 ground truth 极性相反的预测的惩罚。 PCCE 损失定义为

其中λ是控制惩罚程度的惩罚系数。与指示函数类似，g(.,.)表示是否加入惩罚项，定义为

其中 polarity(.) 是将情绪类别映射到其极性（正面或负面）的函数。由于可以计算关于所有参数的导数，我们可以使用现成的优化器以端到端的方式有效地训练所提出的 VAANet，以最小化方程式中的损失函数。

《金文成〈中庸〉学习笔记399。2020-2-22》金吾生
《金文成〈中庸〉学习笔记399。2020-2-22》今天是庚子年戊寅月乙未日，正月廿九，2020年2月22日星期六。【唯天下至诚，为能尽其性；能尽其性，则能尽人之性；能尽人之性，则能尽物之性；能尽物之性，则可以赞天地之化育；可以赞天地之化育，则可以与天地参矣。】上一节，船山讲到诚与性的关系，诚是第二性的，性是第一性的，该怎么理解呢？船山说：“诚者性之撰也，性者诚之所丽也”，意思是说，不能简单地将诚
python笔记day1 w的狗子啊
01.Holleword1.pycharm快捷键ctrl+/----添加或者取消注释ctrl+s----保存ctrl+c----复制ctrl+v----粘贴ctrl+n----新建ctrl+f----搜索ctrl+r----替换ctrl+z----撤销ctrl+shift+z-----反撤销ctrl+a----全选2.注意事项在程序中涉及到的所有和语法相关的符号，都是在英文输入法下对应的符号。实际
从文本到语音：使用 ElevenLabs 和 FFmpeg 实现语音合成与播放曦紫沐语音模型 ffmpeg ElevenLabs 语音合成
摘要在当今的人工智能时代，语音合成技术正变得越来越普及。ElevenLabs是一个强大的语音合成平台，能够生成高质量的语音音频。本文将详细介绍如何结合Python、ElevenLabsAPI和FFmpeg工具集，实现从文本到语音的转换，并通过ffplay播放生成的音频文件。同时，我们将解决常见的问题，如ffplay未找到或音频无法播放等。1.引言随着人工智能技术的发展，语音合成（Text-to-S
DK遇见未来：机器人祖爸
人工智能、AI、机械设计、BigData……这些听起来就很高端的专业究竟是什么？这些前沿学科相遇又会碰撞出什么？机器人，将这些前沿领域结合在一起越来越多的融入到我们的工作与生活中可问题来了机器人究竟是什么呢？又该如何给孩子讲机器人呢？这本《DK遇见未来：机器人》完美解决您的烦恼最新数据、系统知识、精美插图可以说这是一本儿童机器人大百科让孩子在这里遇见未来在讲读版视频中与您共同思考未来社会中机器人与
怎样学习2.0（也就是怎样实现自己的梦想）？希望是终结版 gjf05_05 初学者综合 google 百度
2$*******************************************************************324.怎样学习？41.前期：整体规划与局部规划52.中期：提出问题与解决问题与同行交流！63.后期:笔记（总结）。7******************************8解释1.整体规划:了解怎样实现梦想?9(也就是实现梦想大致应该做些什么？也就是把梦
ORACLE 11g 使用ROWNUM完美解决ORA-00600 内部错误代码有点智慧
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！1，ORA-00600：内部错误代码Oracle从11.2.0.1升级到11.2.0.4，开发人员报告说一个job运行失败，调试有报错信息，ORA-00600:内部错误代码，参数：[rwoirw:checkret
Kimi-Audio：最佳音LLM, 如何免费使用 Kimi-Audio AI 模型？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 kimi
简介继DeepSeek之后，字节跳动（现名MoonShotAI，又名Kimi）也在生成式人工智能领域加速发展，并发布了自己的音频模型Kimi-Audio，据说是迄今为止最好的音频模型。推荐文章《NvidiaGPU入门教程之02ubuntu安装A100显卡驱动(含8步快速浓缩教程)》权重2，安装A100显卡驱动《本地大模型知识库OpenWebUI系列之如何解决知识库上传文件故障Extractedco
Python就业薪资好不好，学Python工作机会多吗？ Python小辰
Python就业薪资好不好？学Python工作机会多吗？人工智能时代的来临让Python崭露头角，各大企业纷纷加大对相关人才的招聘力度吸引了很多人入行学习Python。近年来Python开发发展迅猛，吸引了很多科技公司入驻，且看小编的分析。Python薪资好不好?数据是最有力的答案。职友集统计数据显示，全国Python工程师的平均月资达19160，其中20-30K的工程师数量超过了四成。来自智联招
数据库学习笔记——14组合查询 Love零O
本课学习如何利用UNION操作符将多条SELECT语句组合成一个结果集。1组合查询多数SQL查询只包含从一个或多个表中返回数据的单条SELECT语句。但是，SQL也允许执行多个查询（多条SELECT语句），并将结果作为一个查询结果集返回。这些组合查询通常称为并（UNION）或复合查询（compoundquery）。主要有两种情况需要使用组合查询：在一个查询中从不同的表返回结构数据；对一个表执行多个
反躬自省：用手中的笔让世界变得更美好的文学家——读《品格之路》笔记（2021年11月22日）敏于事而慎于言
今天阅读了本书第九章内容，主题为：反躬自省——用手中的笔让世界变得更美好的文学家。这一章的主人公是塞缪尔·约翰逊——英国作家、文学评论家和诗人，最让他得以扬名的是他用九年的时间编著而成的《英语大辞典》。婴儿期就由于感染淋巴结核导致一只眼睛永久失明，另一只眼睛弱视，一只耳朵失聪。后来，天花又使他变得丑陋无比。这就是作者开篇对塞缪尔.约翰逊的描写。用这幅形象来映衬他后期通过艰难成长而取得的了不起的成就
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
深度学习篇---矩阵 Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇深度学习矩阵人工智能
在机械臂解算、深度学习网络等硬件和软件领域中，矩阵运算作为核心数学工具，承担着数据表示、变换、映射和优化的关键作用。以下从具体领域出发，详细总结涉及的矩阵运算及对应的核心知识：一、机械臂解算领域机械臂解算（运动学、动力学分析）的核心是描述“关节空间”与“操作空间”的映射关系，矩阵运算用于精准刻画坐标系转换、运动传递和力/力矩分析。1.运动学解算（正/逆运动学）核心目标：通过矩阵描述关节角度与末端执
【乳腺超声、乳腺钼靶、宫颈癌、CT骨折】等项目数据调研，及相关参考内容整理汇总钱多多先森人工智能（AI）医学影像深度学习乳腺钼靶乳腺超声宫颈癌
文章目录一、乳腺超声内容整理1.1、数据集1.2、可以参考的论文1.3、可以参考的GitHub代码1.4、可以参考的博客1.5、简单任务需求二、宫颈癌风险智能诊断2.1、数据集2.2、KFB读取文件显示三、乳腺钼靶3.1、数据集3.2、拍摄方式：3.3、拍摄和观察视图3.4、DDSM标注文件解析四、CT骨折4.1、数据集五、总结本博客是一个笔记类的记录文档，主要是记录了在调研各个项目的过程中，遇到
5商学习笔记爱英思谭523
【Jocelyn1月25日习得小结:】1.知识划重点(R):快速学习：如何用20小时，快速学习？2.我的理解(I):润总这个快速学习，跟李笑来老师的最小必要知识很类似，都是通过快速掌握入门的知识，完成从0到1的跨越。时间越快，掌握大概知识越多进门就越快。3.我的相关经验或经历(A1):复述其实是帮助自己去理解概念的绝佳方式。自己带课这几年，对于教材中的概念从浅入深的学习和理解，跟我面对无数个不一样
2022-04-18团练笔记（第三次）花火喜珠
昨天上午团练摸打滚爬三小时，不觉得累，难道是我体能有增？今天左右臀部，后腰，大臂酸疼，看样子老师还是加了些量，不过还不够过瘾！因为，课后我又步行四十分钟回家了。挑战了一个一直以来很惧怕的动作，有一点点心得，还是比较怕。慢慢来吧。左右侧后翻需要做出分解慢动作。横线组合地面旋转一圈半，一直是摸鱼混过去的，需要多练练。改掉耸肩毛病，动作再舒展一些。呼吸带动动作，听着容易，看老师做的也容易，为啥自己做起来
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移人工智能正颠覆传统电路仿真方法，本文将深入解析AI在电路建模、优化与故障诊断中的前沿应用，揭示智能仿真如何提升10倍效率并突破物理限制。一、AI电路仿真的数学基础1.1图神经网络建模电路拓扑电路可抽象为图结构G=(V,E)G=(V,E)G=(V,E)：VVV：节点（电子元件）EEE：边（连接关系）图卷积网络(GCN)更新公式：H(l+1)=σ(
MCP协议技术解析：AI时代的通信基础设施革命
MCP协议技术解析：AI时代的通信基础设施革命在AI从工具演变为协作伙伴的进程中，MCP协议正在成为连接智能体与现实世界的“数字神经系统”。当前人工智能技术正经历从孤立模型向生态系统协作的关键转型，而通信协议作为AI能力的“连接器”，其设计直接决定了智能系统的边界与效率。MCP协议（ModelContextProtocol）作为新一代AI通信基础设施，正在开发者社区引发一场静默革命。本文将从技术原
2023-08-27 每天都微笑
20230827《会痛的不是爱》273笔记及摘抄笔记及摘抄1我们来到世间，就是为了做自己。经历体验，合作创造属于自己独特的生活与功课。尽管信任笃定，安心欢喜的做自己吧。因为这是我们来此，你我他终究要做的。不必比较评判，无需预设强求，我们都尽管做好自己。2一个人，不能控制另外一个人，也因此不能推动另外一个人。每个人都只能自己推动自己，所以应当给别人一些空间。3学习真实、自由、负责任地做自己，并通过同
GENERALIST REWARD MODELS: FOUND INSIDE LARGELANGUAGE MODELS 樱花的浪漫大模型与智能体对抗生成网络与动作识别强化学习语言模型人工智能自然语言处理深度学习机器学习计算机视觉
GeneralistRewardModels:FoundInsideLargeLanguageModelshttps://arxiv.org/pdf/2506.232351.概述将大型语言模型（LLMs）与复杂的人类价值观（如乐于助人和诚实）对齐，仍然是人工智能发展中的一个核心挑战。这项任务的主要范式是来自人类反馈的强化学习（RLHF）[Christianoetal.,2017;Baietal.,
这个冬天格外的冷，格外的长（第十一章）麦芒律师
看似平静地回到家，她躲到房间里，还是往外瞄了瞄，其实黑漆漆的，啥也看不到。小心翼翼地从包里慢慢抽出那个笔记本，凑近煤油灯，用手反复摩挲着光滑的封面，晃一晃，反射出晶莹剔透的光，太阳下肯定更漂亮。她谨慎地翻开封面，第一页有一行蓝色钢笔字，字体刚劲有力：好好学习，好好生活！她双手轻轻地抚摸着这几个字，眼泪不受控制地往外涌，她赶紧用袖口抹去，不然会落到本子上，可是为什么越抹越多呢？婆婆催着睡觉，她吹灭了
淘宝优惠券app排名前十(最受欢迎的10款省钱优惠劵app) 直返APP淘宝优惠券
随着网购的普及，越来越多的人开始寻找各种省钱的方法。其中，使用淘宝优惠券APP就是一种非常受欢迎的省钱方式。在这篇文章中，我们将为你介绍淘宝优惠券APP排名前十的app，帮助你省钱购物。月入十万必看！都在挣钱！推荐几个月入几千到几万的靠谱副业项目！（公众号：善士思维笔记）一、直返直返的口号是“返利就用直返”，它强调没有上级赚差价，直接为用户提供商家和消费者之间的综合优惠券返利平台。用户可以在直返上
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
初探机器学习与力学研究的交叉领域 faderbic 机器学习人工智能深度学习
目录关于如何踏入机器学习领域机器学习与力学研究的交叉方向1.使用机器学习加速有限元求解2.结合有限元计算和机器学习预测复杂材料结构与力学性能的关系3.结构健康检测4.疲劳寿命预测总结关于如何踏入机器学习领域因为我本科的专业是力学，所以当我开始关注机器学习领域时，首先考虑的是机器学习和力学的交叉领域。对于很多对人工智能感兴趣的朋友，想加入人工智能的潮流却不知道从何学起，我提供一个思路，我认为将自己学
2023-06-18 每天都微笑
20230618《会痛的不是爱》203笔记所有的自我破坏都隐藏了对更大牺牲的恐惧笔记1带着牺牲的付出，不是真的付出。这些牺牲里面，可能是我们的不配得感，讨好感，想要对方对自己有好的回应或是获得好的评价等等。这样的付出，其实是交换，是算计。而交换与算计，往往不是落空就是很难完全如愿，同时，很累很累。带着牺牲的付出，双方都无法真的受益。有的时候，有意识无意识的自我破坏，就是在暂停这样的局面，在表达，我
[NIPST AI]对抗性机器学习攻击和缓解的分类和术语 Anooyman 人工智能网络安全人工智能大语言模型网络安全安全
原文link：https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-2e2025.pdfIntroduction人工智能（AI）系统在过去几年中持续全球扩展。这些系统正在被众多国家开发并广泛部署于各自的经济体系中，人们在生活的许多领域都获得了更多使用AI系统的机会。本报告区分了两大类AI系统：预测型AI（PredictiveAI，PredAI）和生成型A
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO 深度学习计算机视觉人工智能
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）工业相机使用YoloV8模型实现打架检测工业相机通过YoloV8模型实现打架检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）工业相机使用YoloV8模型实现人脸的检测工业相机通过YoloV8模型实现人脸识别检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO c#人工智能计算机视觉开发语言
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）工业相机使用YoloV8模型实现人物识别工业相机实现YoloV8模型实现人物识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Valentino大衣怎么买便宜？Valentino华伦天奴2024秋季系列直返APP抖音优惠券
Valentino的这件大衣简直是时尚界的瑰宝！它完美地将经典与时尚融合在一起，剪裁精致，线条流畅，上身效果超赞。月入十万必看！都在挣钱！推荐几个月入几千到几万的靠谱副业项目！（公众号：善士思维笔记）通过直返APP买化妆用品（没有上级赚差价）购物，领券还能返佣！超级便宜~！分享赚钱，自用省钱！几款华伦天奴的大衣：VALENTINOCHAIN1967DOUBLECREPECOUTURE大衣：这款大衣
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

An End-to-End Visual-Audio Attention Network for Emotion Recognition in User-Generated Videos阅读笔记

Abstract

Introduction

Visual-Audio Attention Network

你可能感兴趣的:(笔记,人工智能,深度学习)