Yuezero_

Multimodal Video Pre-trainin

视频领域的多模态预训练工作近年来逐渐兴起。多模态模型通常融合了图像、视频、文本等多类特征，性能优于单模态模型。预训练模型通常以自监督的方式在大批量数据集上进行训练，而后服务于下游任务。本文梳理了近年来视频多模态预训练领域的相关工作，首先简单介绍各大多模态预训练数据集，而后阐述了近年来基于不同多模态预训练任务的工作成果并罗列了常见的下游任务，最后本文讨论了当前研究存在的问题，并对未来多模态预训练领域做出展望。

https://zhuanlan.zhihu.com/p/408111890

1.引言

当前主流的视频理解算法包含多个基础领域，例如动作识别、时序动作定位、视频问答、视频检索等。视频相对于纯文本和图像的特点在于其多模态性质，视频包含了大致同步的音频、文字、图像信息，为视频理解分析提供了丰富的信息来源。视觉和语言两种模态的信息可以互相作为指引，提高面向单一模态或跨模态任务的完成效果。

基于视觉语言的任务有很多，不过不同任务之间若分别使用专有数据训练，时间和经济成本较高。使用预训练与微调可以极大降低成本，近年来预训练被逐渐应用于视频理解领域，视频预训练模型首先在大规模通用数据集上做预训练，方式通常以自监督为主，习得通用表征，再在小型专有数据集做微调应用于特定任务。

目前视频多模态预训练依旧存在较大的挑战，难点之一在于数据集的缺乏，尤其是多模态数据集。手动注释麻烦且昂贵，这极大地限制了视频领域的发展，除此之外，目前视频领域数据集的噪声问题也对模型训练造成了困扰，典型的噪声来源中，最主要的一个是视频和语言之间的弱对齐，即当前视频帧与对应语言描述的低相关性。除了数据集之外，另一个难点在于如何对不同模态有效建模，高质量地建立起多模态之间的联系，提升下游任务性能。

对于数据集缺乏和噪声问题，当前的工作通常采取从互联网中获取大量相关叙述性视频、附带字幕的影视剧的方式制作数据集，并引入多实例学习和对比学习、噪声估计等方式降低训练噪声的影响。除此之外，人们还设计 VideoBERT、CBT、HERO、MERLOT 等模型用于预训练和多类下游任务。
本文梳理了近年来视频多模态预训练领域的相关工作，简要介绍当前多模态模型经常使用到的预训练数据集，从多类预训练方法出发论述了自 2019 年至今的主要模型架构，并罗列了常见的下游任务，最后做了对多模态预训练模型的总结与展望。

2. 预训练数据集

常用公开的视频文本数据集有 HowTo100M、YT-Temporal-180M、WebVid-2M、VQA 等。

3. 视频-文本多模态预训练模型

2018 年，自然语言推出 BERT 预训练模型，从此各领域预训练大模型研究工作逐渐受到重视，在视频领域近年来也出现了许多基于预训练与多模态的研究成果。下面分别以从多种不同的预训练方式出发介绍历年来的主要模型。

3.1掩蔽（MASK）方法

多模态预训练中常使用掩蔽某一模态或某几个模态部分信息的方式进行训练，常用的预训练方式包括掩蔽语言预测 MLM、掩蔽区域预测 MTM、掩蔽帧预测 MFM 等.

3.1.1 VideoBERT

VideoBERT [15] 由 Sun 等人于 2019.9 月提出，该模型首次将 Transformer 结构扩展到了视频语言多模态预训练中，其可以在无需明确监督的条件下学习到高级特征。VideoBERT受到自然语言模型 BERT 的启发，在其基础上学习了视频数据矢量量化和语音识别后输入的双向联合分布，该工作同时说明了大规模训练数据和跨模态信息对于模型性能的重要性。 VideoBERT 将自然语音处理得到的文本做类 BERT 处理提取文本特征，用 S3D 处理视频段然后做层级 k 聚类提取视频特征，然后将两种特征一起输入到 Transformer 中, 使用掩蔽语言预测 (MLM)、视频文本匹配 (VTM) 以及掩蔽视频预测 (VOM) 三种预训练任务做训练。

3.1.2 ActBERT

ActBERT [19] 引入了全局动作的概念，该模型对输入视频使用了两种编码方式，一种是将视频帧堆叠得到全局堆叠帧，另一种则是对每一帧图像用 Faster-RCNN 提取 RoI 特征。预训练过程中，除了使用已有的视频文本匹配、掩蔽语言预测、和掩蔽区域类别分类以外，该方法还提出了掩蔽动作分类 (mask action classification,MAC)，具体而言，是对输入的动作表示向量做随机掩蔽，用以让模型根据其余信息预测动作标签。

3.1.3 HERO

HERO [8] 模型使用了 ResNet 和 Slow-Fast 提取视频帧中的二维和三维视觉特征，而后利用全连接层将特征投影使得其文本编码同一维度，从而与文本编码一样处理，将该视频编码与位置编码相加后做 LN 得到最终帧编码。除此之外，HERO 还引入了时序 Transformer，使用每一帧周围的所有帧作为全局上下文。HERO 针对时序 Transformer 设计了新的预训练任务，即帧序列预测 (frame order modeling,FOM), 该任务意在学习利用视频的序列性，首先随机打乱部分输入帧的顺序，然后再预测每一帧对应的实际位置。

3.1.4 ClipBERT

ClipBERT [7]于 2021.2.11 提出，使用稀疏采样替代了密集采样提取视频帧的方式，减轻了前期模型的计算量。ClipBERT 认为视频中存在大量冗余信息，而整体信息的提取仅需要少量间断的图像，因而在训练过程中采用稀疏采用进行训练。ClipBERT 还将图像-文本预训练模型用作参数的初始化，并使用了 ResNet 结构作为视频编码网络。

3.1.5 UniVL

Luo 等人提出了 UniVL [10] 模型用于下游生成式任务，采用自回归解码器，输入为处理后的文本和视频帧，意在输出原始文本。该工作同时提出了逐阶段预训练和增强视频表示的方法，前者先对输入使用 NCE 做训练，再做所有目标训练；后者以 15% 的概率屏蔽全部文本输入。

3.1.6 MERLOT

Zellers 等人于（2021.6.4）训练了具有时间常识学习能力的模型 MERLOT（multimodal event representation learning over time）[18]，该模型使用了比以往提出的模型中用到的更为大量的数据集做训练，即作者团队与 MERLOT 同时发布的 YT-Temporal-180M 数据集。MER-LOT 使用了视觉、语音和链和编码器并使用三个预训练任务进行优化：Contrastive Frame- caption matching(标题帧匹配) 任务，MLM 任务以及 Temporal Reordering 任务。MERLOT模型能够将图像与时间对应的单词进行匹配，还能依据时间变化推理全局上下文事件。

3.1.7 MERLOT Reserve

MERLOT Reserve [16] 于 2022.5.13 提出，在 2021 年 MERLOT 的基础之上进一步融合了视频中的语音信息，对于每一个训练批次的输入，仅选择文本语音中的一个与视频帧一起作为输入，同时掩蔽文本或语音中的一部分。与此同时，作者们提出了对比区域匹配 (Contrastive Span Matching) 这一任务以在多个模态之间学习文本信息.

3.2 对比学习（Contrastive）方法

对比学习方法通过自动构造相似实例和不相似实例，要求习得一个表示学习模型，通过这个模型，使得相似的实例在投影空间中比较接近，而不相似的实例在投影空间中距离比较远。

3.2.1 CBT

由于 VideoBERT 在视频特征提取过程中采用了层级 k 聚类方法，致使丢失了细粒度视觉信息，Sun 等人进一步研究在同年提出了一种双流网络结构取代了 k 聚类方法的特征提取，该结构首先对语音识别的输入使用 BERT 网络做处理得到文本特征，同时将视频帧使用 S3D 提取特征后送入该工作提出的 CBT 模块（对比学习模块）（contrastive bidirectional transformer) [14] 得到视频特征。将文本特征和视频特征一起输入到 cross-modal transformer进行模态结合计算相似度，同时还使用到了噪声估计来学习视频文本对之间的关系。

3.2.2 MIL-NCE

针对当前数据集的视频文本不对齐现象产生的噪音，Miech 等人于 2019.9.27 提出了多实例学习 (multiple instance learning, MIL) 的方法。该方法假设在同一视频中的相邻帧图像语义相似，截取目标视频段的相邻视频文本对作为对比学习的候选正例。同时利用噪声估计优化了视频文本对特征的学习, 得到了 MIL-NCE [12] 方法.

3.2.3 VATT

Akbari 等人于 2021.4.22 提出的 VATT（video-audiotext transformer）[1] 模型探究了视频、文本、音频三个模态之间的对应关系，同时取消了所有特征提取的 backbone, 仅对每个模态做了线性映射，再将得到的三个模态的特征向量输入到 Transformer 编码器中，而后构造了视频文本对和视频语音对的负样本用来做多模态对比学习。

3.3 特征匹配（Matching）方法

3.3.1 MMT

Gabeur 等人提出了 Multi-modal Transformer [5] 模型，使用 transformer 将图像、语音和文字三种特征结合编码，成功在预训练中引入了更多模态信息 (图4)。

3.3.2 Frozen

Bain 等人于 2021.4.1 提出的 Frozen [3] 模型 (图5) 在预训练过程中使用图像与视频一起作为训练输入。视觉编码器的输入为一张图像或者一段由 M 帧图像组成的视频，文本编码器的输入则是传统的文字序列。模型参考 ViT 方法，图像或视频的输入都是 patch 级别，而后做线性变换，与时空位置编码一起输入到 Transformer 中得到视觉特征。

3.3.3 CLIP4CLIP

CLIP4Clip [11] 来源于视觉-文本领域的 CLIP 工作，作者验证了如何基于预训练好的图文 CLIP 模型，通过迁移学习和微调完成视频检索的任务.

3.3.4 M2HF

于 2022.8.16 发布的 M2HF 模型 (multi- multimodal Hybrid Fusion) [9], 通过建立语言对与从视频中提取的图像、音频、运动和文本之间的关系，设计了多层次的框架. 除此之外，作者还设计了一种后期多模态平衡融合方法，通过在各层次中选择最优排序结果进行融合来得到最终的排序结果。

3.4 其他方法

3.4.1 Multiple Choice Questions(MCQ)

模型结构上包含一个 VideoFormer 编码器用来提取视频特征，一个 TextFormer 文本编码器用来提取文本特征。MCQ [6] 通过抹去文本描述中的名词或动词短语从而构造名词或动词
问题。该工作利用对比学习训练 BridgeFormer 通过分析 VideoFormer 提取到的视频特征以从多个选项中选出正确答案，其中的多个选项由所有被抹去的名词和动词短语构成。

4. 预训练模型的常见下游任务

与视频相关的下游任务如今也发展得十分多样。具体而言，如今涉及到多模态的下游任务包括动作分割、视频描述生成、文本-视频检索、视频问答、视频摘要、视频故事讲述等。这里简单介绍几个常见方向。
动作分割，即对一段视频依据某一分割标准进行分段处理，并对每段分配一个预先定义好的动作标签。视频描述生成，即从视频中自动生成针对该视频的描述性文字。文本-视频检索：通过将视频与文字建立联系，给定查询文本，用相似度估计等方法从视频库中检索与该文本相关的视频段。视频问答，根据视频内容回答自然语言问题，是一项新兴的挑战任务。

5. 总结与展望

本文简单梳理了近年来多模态视频预训练领域的工作，对比了多模态预训练常用的数据集，对历年主要的多模态预训练架构做了介绍，并罗列了常见的下游任务。

目前的多模态预训练工作已取得了一定的成果，能够成功应用于多类下游任务，不过多模态预训练在未来仍有很大发展空间，具体而言：

多模态预训练任务仍需更为精细地挖掘不同模态数据间的相关信息，利用到不同模态的内在特点，比如建立名词与视频中物体对象之间的相关性。
视频信息较为冗余，未来预训练模型的视频帧采样可以更多地从密集采样逐渐向稀疏采样过渡，节省算力，同时如何弥补稀疏采样带来的信息上的损失以及如何提取细粒度的信息也是未来可以研究的方向。
目前多模态视频数据集的收集难度仍然较大，手工标注尤其昂贵，尤其是细粒度标注，所以也急需能解决数据集获取以及标注困难问题的方法。如何在短时间低成本提升数据集的质量也是重要课题之一。
预训练数据集和下游目标任务数据集之间可能存在领域之间的差异，数据域的差异会导致模型迁移到下游任务时性能下降，这就需要想办法提高数据集的差异性以及预训练模型的可泛化性。
虽然大模型往往意味着更高的性能，但参数量和数据量的增加也会导致计算量的急剧上升，极大地消耗了计算资源。因此当前领域也需要更少参数更优性能的研究。
现有视频预训练模型通常是利用少数几个下游任务数据集测试性能，而缺少一个能通用地评估预训练模型的评价指标，用以评估模型的效率和可迁移性。一个通用预训练评估指标
尚待被提出。
目前的视频多模态预训练语言多数以英语为主，而中文等其他语言数据集仍十分缺乏，就当今各大视频网站的实际需求而言，应用于中文视频的预训练模型是一个重要的需求也是未来多模态预训练可以发展的方向之一。

目标跟踪领域经典论文解析 ♢.＊目标跟踪人工智能计算机视觉
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！目标跟踪是计算机视觉领域的一个
SpringBoot生态全景图：从SpringCloud到云原生技术栈演进 fanxbl957 Web spring boot spring cloud 云原生
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot生态全景图：从S
燕大《Python机器学习》实验报告：探索机器学习的奥秘温冰礼
燕大《Python机器学习》实验报告：探索机器学习的奥秘【下载地址】燕大Python机器学习实验报告下载这份实验报告是燕山大学软件工程专业的学生在进行机器学习实验时所编写的，内容详实，结构清晰，可以直接下载使用。报告中的实验数据和代码均经过验证，确保下载后可以直接应用于实际项目或作为学习参考项目地址:https://gitcode.com/Open-source-documentation-tut
（转）优秀的 python 机器学习库 patrick75 python 机器学习 python 机器学习
优秀的python机器学习库IntroductionThereisnodoubtthatneuralnetworks,andmachinelearningingeneral,hasbeenoneofthehottesttopicsintechthepastfewyearsorso.It’seasytoseewhywithallofthereallyinterestinguse-casestheys
DAY 10 机器学习建模与评估心落薄荷糖 Python训练营机器学习人工智能
知识点：1.数据集的划分2.机器学习模型建模的三行代码3.机器学习模型分类问题的评估今日代码比较多，但是难度不大，仔细看看示例代码，好好理解下这几个评估指标。作业：尝试对心脏病数据集采用机器学习模型建模和评估#一、导入库importpandasaspdimportpandasaspd#用于数据处理和分析，可处理表格数据。importnumpyasnp#用于数值计算，提供了高效的数组操作。impor
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
Python机器学习元学习库higher 音程机器学习人工智能 python 机器学习
higher是一个用于元学习（Meta-Learning）和高阶导数（Higher-ordergradients）的Python库，专为PyTorch设计。它扩展了PyTorch的自动微分机制，使得在训练过程中可以动态地计算参数的梯度更新，并把这些更新过程纳入到更高阶的梯度计算中。一、主要用途higher主要用于以下场景：元学习（Meta-Learning）比如MAML（Model-Agnosti
基于迁移学习的ResNet50模型实现石榴病害数据集多分类图片预测深度学习乐园深度学习实战项目迁移学习分类人工智能
完整源码项目包获取→点击文章末尾名片！番石榴病害数据集背景描述番石榴（Psidiumguajava）是南亚的主要作物，尤其是在孟加拉国。它富含维生素C和纤维，支持区域经济和营养。不幸的是，番石榴生产受到降低产量的疾病的威胁。该数据集旨在帮助开发用于番石榴果实早期病害检测的机器学习模型，帮助保护收成并减少经济损失。数据说明该数据集包括473张番石榴果实的注释图像，分为三类。图像经过预处理步骤，例如钝
四个机器学习模型对比道路裂缝检测识别分类模型深度学习乐园深度学习实战项目机器学习分类人工智能
完整源码项目包获取→点击文章末尾名片！一、课题综述1.1.课题简介在机器学习的研究领域中，传统分类算法模型数量众多，适合的应用场景也各不相同。1.2.课题目标（示例）本课题使用的数据集来自于数据分析与数据挖掘竞赛Kaggle，该竞赛为数据科学领域著名的国际性赛事之一。课题使用的数据集为带标签的图像数据集，包含带有裂痕和不带有裂痕的桥梁、墙和人行道图片。课题的目标为对于目标数据集，搭建相应的传统机器
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
阿里云魔搭社区AIGC专区：中国AI创作的革命性平台 Liudef06小白阿里云 AIGC 人工智能
在生成式人工智能重塑全球数字创作版图的浪潮中，中国首个一站式AIGC开发平台——阿里云魔搭社区AIGC专区于2024年9月杭州云栖大会正式亮相。这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。一、魔搭社区：中国AI模型生态的奠基者魔搭社区（ModelScope）作为阿里云在2
探秘阿里云Tair KVCache：大模型推理的加速引擎云资源服务商阿里云云计算人工智能
一、引言近年来，人工智能领域发展迅猛，大语言模型（LLM）不断取得突破，其应用场景也日益广泛。从智能客服到内容生成，从智能写作到智能翻译，大语言模型正在深刻地改变着我们的生活和工作方式。随着模型规模的不断扩大和推理需求的日益增长，大模型推理过程中的显存瓶颈问题逐渐凸显，成为制约其发展和应用的关键因素。在大模型推理中，KVCache技术作为一种优化手段，通过缓存历史Token的Key/Value向量
AI正在偷偷取代这10种职业，你的工作安全吗？
近年来，人工智能（AI）的飞速发展正在悄然改变我们的工作方式。从自动化客服到AI生成内容，许多传统职业正面临被取代的风险。虽然AI带来了更高的效率和便利，但也让不少人开始担忧：我的工作会被AI抢走吗？今天，我们就来盘点10种最容易被AI取代的职业，并探讨如何在这个AI时代保持竞争力。1.客服代表取代指数：★★★★★AI驱动的聊天机器人（如ChatGPT、GoogleBard）已经能够处理大部分基础
直播预告！探讨生成模型中的极简概念擦除青稞社区. 青稞Talk 人工智能图像处理
主页：http://qingkeai.online/原文：https://mp.weixin.qq.com/s/yc4whKbnVY8ho1w7rgFVGg6月16日20:00，青稞Talk第55期，新加坡国立大学博士生张扬，将直播分享《生成模型中的极简概念擦除》。分享嘉宾张扬，慕尼黑工业大学计算机专业硕士，新加坡国立大学人工智能专业博士。曾于牛津大学进行学术访问，并在微软亚洲研究院及美国运通新加
机器学习5——非参数估计平和男人杨争争山东大学机器学习期末复习机器学习概率论算法
非参数估计在参数估计中我们已经提到，想要估计后验概率P(ωi∣x)=p(x∣ωi)p(ωi)p(x)P\left(\omega_i\midx\right)=\frac{p\left(x\mid\omega_i\right)p\left(\omega_i\right)}{p(x)}P(ωi∣x)=p(x)p(x∣ωi)p(ωi)，就需要估计类条件概率p(x∣ωi)p\left(x\mid\omega
机器学习4——参数估计之贝叶斯估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能
贝叶斯估计问题建模：后验概率公式：P(ωi∣x,D)=P(x∣ωi,Di)P(ωi)∑j=1cP(x∣ωj,Dj)P(ωj)P\left(\omega_i\mid\mathbf{x},\mathcal{D}\right)=\frac{P\left(\mathbf{x}\mid\omega_i,\mathcal{D}_i\right)P\left(\omega_i\right)}{\sum_{j=1
【DeepSeek实战】3、Ollama实战指南：LobeChat+多网关架构打造高可用大模型集群无心水 Ollama实战指南 LobeChat实战 DeepSeek实战 DeepSeek全栈应用开发 AI入门大模型 CSDN技术干货
一、企业级大模型集群架构全景解析在人工智能落地应用的过程中，大模型服务的高可用性、成本控制和灵活扩展能力成为企业关注的核心痛点。本方案通过LobeChat前端、AI网关层和Ollama模型集群的三层架构设计，实现了无需复杂运维即可部署的生产级大模型服务体系。该架构不仅支持负载均衡、故障转移和模型热切换等企业级特性。还通过量化技术将硬件成本降低60%以上，为中小企业提供了与商业云服务相当的性能体验。
生成式人工智能实战 | 深度卷积生成对抗网络（Deep Convolutional Generative Adversarial Network, DCGAN）盼小辉丶生成式人工智能实战150讲人工智能生成对抗网络神经网络
生成式人工智能实战|深度卷积生成对抗网络0.前言1.模型与数据集分析1.1模型分析1.2数据集介绍2.构建DCGAN生成人脸图像2.1数据处理2.2模型构建2.3模型训练0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetworks,DCGAN)是基于生成对抗网络(ConvolutionalGenerativeAdversarialNet
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
机器学习3——参数估计之极大似然估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能算法
参数估计问题背景：P(ωi∣x)=p(x∣ωi)P(ωi)p(x)p(x)=∑j=1cp(x∣ωj)P(ωj)\begin{aligned}&P\left(\omega_i\mid\mathbf{x}\right)=\frac{p\left(\mathbf{x}\mid\omega_i\right)P\left(\omega_i\right)}{p(\mathbf{x})}\\&p(\mathbf
2024年AI 智能助手（大模型）产品市场分析｜商派徐礼昭｜商派软件市场负责人人工智能
一、引言人工智能的浪潮不断向前推进，智能助手作为其中的重要应用，已经逐渐渗透到我们生活的各个方面。它们以其便捷性和个性化的特点，改变了我们与世界的互动方式。本报告将对AI智能助手进行全面的行业分析，包括行业概况、主要玩家、用户数据、发展要素以及未来趋势等方面，并通过具体案例分享，帮助读者深入了解这一领域的现状和未来发展潜力。二、行业概览（一）智能助手的定义和发展阶段智能助手是利用人工智能技术为用户
记一次移动端H5开发所遇到的问题与细节,以及ios兼容想要飞翔的小猪 H5移动端开发 vue html5 h5 移动端 ios兼容
第一次弄移动端H5项目开发，虽然是简单的页面展示，但也遇到了很多细节问题与兼容问题，尤其是h5视频标签video,一.移动端禁止缩放兼容主要属性是user-scalable=no"，width：视口的宽度，width=device-width：宽度是设备的宽度initial-scale：初始化缩放，-initial-scale=1.0：不缩放user-scalable：是否允许用户自行缩放，取值0
大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1 Gravity! 大模型笔记大模型 LLM 算法机器学习强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖
高通 QCS8550 大模型性能深度解析：从算力基准到场景实测的全维度 Benchmark 伊利丹~怒风 Qualcomm 人工智能 AI编程 python arm 自然语言处理
前言在人工智能技术狂飙突进的时代，大模型正以前所未有的速度重塑各行业生态，从智能客服到多模态交互，从边缘推理到端侧部署，其应用场景不断拓展。而这一切革新的背后，离不开底层硬件的强力支撑。高通QCS8550作为面向下一代智能设备的旗舰级计算平台，凭借高达48TOPS的AI算力与先进的第七代高通AI引擎，在大模型性能表现上极具竞争力。其异构多核架构不仅能高效处理复杂的神经网络计算，还通过软硬件协同优化
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数