u013250861

Cross-modal Pretraining in BERT（跨模态预训练）

BERT以及BERT后时代在NLP各项任务上都是强势刷榜，多模态领域也不遑多让…仅在2019 年就有8+篇的跨模态预训练的论文挂到了arxiv上…上图是多篇跨模态论文中比较稍迟的VL-BERT论文中的比较图，就按这个表格的分类（Architecture）整理这几篇论文吧。

预训练优势？

可以从无标注数据上更加通用的知识迁移到目标任务上，进而提升任务性能
学习到更好的参数初始点，使得模型在目标任务上只需少量数据就能达到不错的效果

多模态优势？

学到不同模态之间的语义对应关系。

预训练技术上首先是BERT的基础公式，不做赘述。所有的论文都是基于BERT做改装或者暴力组合的，如果按上图的Architecture可以分为one single和two single，one single会把text和visual融合到一个模型中，two single是分别处理text和visual（early fusion和late fusion）。

One Single
VideoBERT
VideoBERT: A Joint Model for Video and Language Representation Learning
主要思路是改进 BERT 模型。从视频数据的向量量化和现有的语音识别输出结果上分别导出视觉帧token和语言学词 token，然后在这些 token 的序列上BERT。

值得注意的模型细节：

为了将BERT扩展到视频（这其实是8+篇里面唯一一份做视频的paper），以便仍然可以利用预先训练的语言模型和可伸缩的实现进行推理和学习，作者首先将原始视觉数据（整个视频）成一个离散的图片帧 token序列，以得到“visual words”。
文本和视频的语义对齐存在困难，因为即使在教学视频中，演讲者也可能指的是视觉上不存在的东西。解决方案：1随机地将相邻的句子连接成一个长句子，以允许模型学习语义对应，即使两者在时间上没有很好地对齐。2即使是相同的动作，状态转换的速度也会有很大的变化，我们随机为视频令牌选择1到5步的次采样速率。这不仅有助于该模型对视频速度的变化具有更强的鲁棒性，而且还允许该模型捕获时间动态在更大的时间范围内学习更长的状态转换。
3种训练任务。 text-only， video-only,和video-text。对于单模态任务，用标准的BERT打上mask进行预测，对于跨模态任务，用语言-视觉对齐任务，即使用[CLS]的最终隐藏状态来预测语言句子是否在时间上与视觉句子对齐。

使用该预训练模型可以实现从video到text，也可以从text到video的各种任务。文章中主要验证了两个任务：zero-shot action classification和video captioning。

B2T2
Fusion of Detected Objects in Text for Visual Question Answering
应用领域是视觉问答中的检测到物体的文本融合，尝试通过BERT利用了在同一个统一架构中把单词指向图像中的一部分的参考信息。

值得注意的模型细节：

评估了两种主要的体系结构：“双编码器（Dual Encoder）”，一种late fusion的结构，其中图像和文本被单独编码，score被计算为内积（BERT结构的[CLS]输出端引入整个图像的特征，判断图文是否匹配），如左图。而右图是完整的B2T2模型，一种early fusion结构，其中视觉特征嵌入在与输入字标记相同的级别上，值得注意的是图像不是单独一边输入的，而是在“Mx”即masked的词位置输入改词的局部区域特征。
两个预训练任务： (1) impostor identification and (2) masked language model prediction.
只有一个下游任务就是它自己的应用领域VQA。

VisualBERT
VISUALBERT: A SIMPLE AND PERFORMANT BASELINE FOR VISION AND LANGUAGE.
改装BERT，以将输入一段文本中的元素（词）和一张相关的输入图像中的区域（局部）隐式地对齐起来。

值得注意的模型细节：

输出使的三种embedding信息的增加，分别是position，segment，token/image。position是目标检测得到的局部位置or 句子词的位置；segment表示是图像嵌入or 文本嵌入；词or视觉特征。
两种训练任务：（1）部分文本被屏蔽，模型学习根据剩余文本和视觉上下文预测屏蔽词；（2）确定所提供的文本是否匹配图像。
预训练任务：VQA，VCR，NLVR，和Entities。
设备：4 Tesla V100s each with 16GBs

Unicoder-VL
Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training
网络结构和训练策略与VideoBert大同小异，将视频片段帧特征换成了单图的局部区域。

值得注意的模型细节：

预训练阶段使用三个任务，包括masked语言建模(MLM)、masked对象标签预测(MOC)以及视觉-语言匹配(VLM)。前两个任务会让模型学习从基于语言和视觉内容输入的联合 token 学习到内容相关的表征（都是15%masked之后，利用相应的上下文进行预测重构，其中MOC预测的不是特征而是区域的label）；后一个任务尝试预测一张图像和一段文本描述之间是否相符。
预训练下游任务：image-text retrieval，zero-shot image-text retrival。
设备： 4 NVIDIA Tesla V100 GPU

VL-BERT
VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS
在VL-BERT中，视觉和语言的嵌入特征将同时作为输入，这些元素是在图像中的感兴趣区域(RoIs)上定义的特征以及输入句子中的子词。 RoIs可以是由对象检测器产生的包围框，也可以是某些任务中的注释框。如下图的结构，不管是句子还是图片都有visual feature，用于捕捉视觉线索。

值得注意的模型细节：

输入由四个部分构成，token embedding, visual feature embedding, segment embedding, and sequence position embedding。token和BERT一样，对于图像的输入给特殊的[IMG]token做标记；visual feature用于捕捉视觉线索，visual appearance feature用Faster-RNN抽取， visual geometry embedding是每个框的4-d位置信息然后做正弦余弦处理，最后用FC得到特征；segment标记是句子or图片，在不同任务中标记不同，如在VQA中A denotes Question, B denotes Answer, and C denotes Image，在caption中就只有A和C两种标记，position，标识输入序列中的顺序，由于image reginos不存在顺序，所以标记都是一样的（如图中的7）。
三个预训练任务为：带有视觉线索的masked文字建模、带有语言线索的感兴趣区域RoI分类、句子-图像关系预测。
设备：Pre-training is conducted on 16 Tesla V100 GPUs for 250k iterations by SGD。

UNITER
来自ECCV 2020的UNITER: UNiversal Image-TExt Representation Learning
文章的动机来源于：能否为所有V + L任务学习通用的图像文本表示形式？所以这篇文章最重要的贡献就是不再只单独mask某个模态，而是以一种混合学习的形式进行统一的表示学习。模型架构图如下，上半部分是UNITER的模型架构，会先对image和sentence用预训练模型抽特征然后再输入到Transformer中。下半部分则是作者提出的多个预训练模型。

值得注意的模型细节：

提前预训练的效果比不使用预训练的特征效果要更好。
四种预训练任务：以图像为条件的掩码语言建模（MLM），以文本为条件的掩码区域建模（MRM），图像文本匹配（ITM），字区域对齐（WRA）。前两种掩码训练中是只掩盖一个模态而保持另一个模态不变，而不是像其他预训练方法那样随机掩盖两个模态。后面两种任务解决跨模态对齐问题。
然后还有三种MRM变体：掩码区分类（MRC），掩码区域特征回归（MRFR），具有KL散度的掩码区域分类（MRC-kl）。MRM本来是为了在给定其余区域的情况下重建掩码区域和所有单词，但与以离散标签表示的文本标记不同，被掩掉的视觉标记特征是高维且连续的，因此无法通过类可能性进行监督，所以新增这三种变体能够更好的学习。

Pixel-BERT
Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers
其实这篇文章本质上与以上其他文章差距不是很多，之所以要叫pixel-BERT的原因是在得到图像特征的时候会多学一个 local feature patch，然后再拿这种pixel feature和semantic embedding相加一起作为图像的表示即可。

补充pixel feature好处是可以补充一些重要的视觉信息缺失，如物体的形状，空间关系等等，算是能够捕捉更细腻的信息吧。计算资源是64 张 V100 。

Oscar
也是来自ECCV20，Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks
这篇文章比较有意思的是，首次引入目标检测的tag作为锚点以降低对齐的难度，并且也搭上了对比学习的车对正负例（词，目标标签，图像区域）的学习进行优化。如下图展示了word-tag-region的三元组应该如何对齐，以及它主要可以解决的下游任务。

模型图如下，Transformer的输入也是三个部分，其中tag是和word共享dictionary的。

然后就是两个任务Masked Token Loss (MTL) 和Contrastive Loss了。

Two Single
ViLBERT
两个BERT流中分别预处理视觉和文本输入，并在 transformer 层中进行交互（co-Transformer…），具体如下图。

所谓co-Transformer如下，将原encoder的部分，变成co-Attention的形式，分别向对方Query然后优化特征。

值得注意的模型细节：

仍然是尝试masked图片局部和masked文字建模，与image-text pair。任务细节如下图，其中图片的区域的构造是5-d，多加入了局部区域覆盖比（fraction of image area covered），对于图像BERT也是给的IMG token。
下游任务：VQA，VCR，Grounding Referring Expressions，Caption-Based Image Retrieval，‘Zero-shot’ Caption-Based Image Retrieval。
We train on 8 TitanX GPUs with a total batch size of 512 for 10 epochs.

LXMERT
LXMERT: Learning Cross-Modality Encoder Representations from Transformers
三个编码器：一个对象关系编码器、一个语言编码器和一个跨模态编码器（是cross-Transformer）。图像经过目标检测模型得到区域块的特征序列，并经过Transformer进一步编码；文本侧通过BERT结构得到文本的特征序列，最后两者做cross-Transformer进行多任务的预训练。

值得注意的模型细节：

使用了 5 个不同的、有代表性的预训练任务：masked语言建模、masked对象预测（特征回归和标签检测）、跨模态对齐以及图像问答。
在vision output会做RoI-Feature Regression和Detected Label Classification，cross output会做Cross-Modality Matching & QA，language output会做Masked Cross-Modality LM。
The whole pre-training process takes 10 days on 4 Titan Xp。 Adam，le-4，256.

ERNIE-ViL
Knowledge enhanced vision-language representations through scene graph
架构上也是对于图像和文本分别使用单模编码器进行编码，然后使用跨模态Transformer实现两个模态的信息交融。比较不一样的就是视觉场景图它来了，尝试把场景图中的关系知识融入多模态预训练中，使得模型更能精准把握图像和文本之间细粒度的对齐信息。

值得注意的模型细节：

场景图预测（Scene Graph Prediction）预训练任务。即根据给定的一段文本解析出场景图结构，然后根据解析出的场景图设计三个子任务，分别是目标预测（object prediction）、属性预测（attribute prediction）、关系预测（relationship prediction），通过掩蔽图像和文本中场景图解析出来的目标、属性以及关系，使用模型进行预测，以让模型学习到跨模态之间的细粒度语义对齐信息。
其他预训练任务：Masked Cross-Modality LM、Detected-Label Classification，Cross-Modality Matching

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
补上一篇ICML2021的文章。
首先作者归纳了一下，目前有的4种不同类型的Vision-and-Language Pretraining(VLP)，如下图：

a。对图像和文本双流使用encoder，其中图像的更重，文本的更轻，然后使用简单的点积或者浅层attention层来表示两种模态特征的相似性。
b。每个模态单独使用比较重重的transformer encoder，然后使用池化后的图像特征点积计算特征相似性。
c。使用深层transformer进行交互作用，但是由于VE仍然使用重的卷积网络进行特征抽取，导致计算量依然很大。
d。这是作者自己提出的模型，目的是提出ViLT是首个将VE设计的如TE一样轻量的方法，该方法的主要计算量都集中在模态交互上。

如何实现这种轻量呢？如下图的模型图

主要是图像端VE使用预训练的ViT做patch projection。即直接将图像切块看成一个图像块序列，通过linear projection转化成visual embedding，然后和postion embedding进行相加，最后和modal-type embedding进行concate。然后做3个预训练任务：

ImageText Matching：随机以0.5的概率将文本对应的图片替换成不同的图片，然后判断图像文本是否匹配
Masked Language Modeling：随机以0.15的概率mask掉tokens，通过文本的上下文信息去预测masked的文本tokens
Whole Word Masking：将连续的子词tokens进行mask的技巧，而不使用图像信息

paper：https://arxiv.org/abs/2102.03334
code：https://github.com/dandelin/ViLT

UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning
继续补文ACL2021的文章，这篇文章的重点是“统一模态”，即跨模态多模态模型能否同时做单模和多模场景呢？即多模态模型不应该对模态的缺失而那么的敏感。具体的模型如上图，思路仍然是依靠大量的数据+预训练任务，由于想同时处理单模和多模，所以任务分为这两种：

视觉学习。mask掉区域，用剩下区域来还原该部分+用文本和剩下区域来还原该部分。
文本学习。mask掉词，和视觉类似操作。另外为了让模型能同时支持生成和理解两类目标，UNIMO设计了双向预测（Bidirectional prediction）和序列生成（Seq2Seq Generation）两种损失。
跨模态学习。文本改写（Text Rewriting），从句子级（利用回译扩增）、短语级和词汇级别（利用场景图替换object）三个粒度进行了改写。
跨模态学习。图文检索，分别对锚样本做图像检索和文本检索两个任务，得到loss为L C M C L ( V , W ) = − l o g p o s p + p o s I + p o s T ( n e g p + n e g I + n e g T ) + ( p o s p + p o s I + p o s T ) L_{CMCL}(V,W)=-log\frac{pos_p+pos_I+pos_T}{(neg_p+neg_I+neg_T)+(pos_p+pos_I+pos_T)}LCMCL(V,W)=−log(negp+negI+negT)+(posp+posI+posT)posp+posI+posT
按正负例样本对p o s p + p o s I + p o s T pos_p+pos_I+pos_Tposp+posI+posT别代表强正例集合，图像检索的弱相关集合，文本检索的弱相关集合。n e g p + n e g I + n e g T neg_p+neg_I+neg_Tnegp+negI+negT表示对应的负例集合。

paper：https://arxiv.org/pdf/2012.15409:
code：https://github.com/PaddlePaddle/Research/tree/master/NLP/UNIMO

M3P: Learning Universal Representations via Multitask Multilingual Multimodal Pre-training
继续补文CVPR2021，与前面的文章稍有不同的是，这篇文章主打的是多任务多语言多模态预训练的模型，即M3P模型。模型框架如上图，其实重要的部分主要是输入的那三块：多模态单语言，多模态混合语言，单模态多语言三个输入，然后做多个预训练任务，包括VLM，MRM，MLM，xMLM这些。其中混合语言通过code-switched来实现，即多语言相同词直接进行替换来提高丰富度。

paper：arXiv:2006.02635v4

总结：

单模型主要改进BERT的输入，双模型主要做co/cross的BERT。
全图片只能预测特征，masked的精髓在于图片的局部区域，可特征可label。
预训练任务的单模态以mask为主，视频可以打乱帧时序，细化可以到object关系。多模态以语义对齐为主，一直做到caption的细粒度对齐。
大规模，多任务的训练，多显卡高算力。可以看一下OpenAI发布的必看论文 CLIP，DALL-E，论文解读传送门。
下游任务丰富。
个人偏向于单流模型，参数较少较轻便且端到端，性能不差。

Cross-modal Pretraining in BERT（跨模态预训练）_上杉翔二的博客-CSDN博客_基于跨模态知识提取与融合的模型预训练方法

量子计算+AI：未来AI Agent的计算范式 AI天才研究院计算 ChatGPT DeepSeek RL 强化学习 agent agi 推理模型智能驾驶
量子计算+AI：未来AIAgent的计算范式关键词：量子计算，人工智能，AIAgent，量子算法，量子机器学习，量子优化，量子数据处理摘要：量子计算和人工智能（AI）的结合正在改变AIAgent的计算范式。通过量子计算的超强算力和独特性质，AIAgent在数据处理、算法优化和决策能力方面展现出巨大潜力。本文将详细探讨量子计算与AI结合的核心概念、算法原理、系统架构，并通过实际案例展示量子AIAge
AI人工智能深度学习算法：在量子计算中的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着科技的不断发展，人工智能和量子计算成为了当今世界的热门话题。人工智能的深度学习算法在处理大规模数据和复杂任务方面取得了显著的成果，而量子计算则具有强大的并行计算能力和高效的信息处理能力。将人工智能与量子计算相结合，为解决一些具有挑战性的问题提供了新的思路和方法。本文将探讨人工智能深度学习算法在量子计算中的应用，包括其背景、意义和应用场景。2.核心概念与联系在人工智能中，深度学习是一
【Java】ReadWriteLock浅谈风起云涌~ java 开发语言 jvm
一，概述在多读少写的场景下，可以使用读写锁优化性能。读锁本质是一种共享锁，即，如果ReadLock获取锁成功，只会阻塞WriteLock锁的获取，不会阻塞其它线程ReadLock锁的获取。而写锁就是正常的独占锁。二，简单实例一个简单demo，读者可体会。publicstaticvoidmain(String[]args){ReadWriteLocklock=newReentrantReadWrit
Android 面试（Java 篇）约翰先森不喝酒面试 java 面试 android
Android面试（Java篇）一Java的继承机制二进程跟线程，以及线程的创建三简述wait()和sleep()的区别四如何终止一个线程五Synchronized（内置锁，线程同步）六Synchronized修饰的静态和非静态方法时为什么可以异步执行？七线程同步除了Synchronized还有别的方法么，区别在哪里八死锁产生的原因以及预防措施九Synchronized和Lock的区别十Handl
《量子门与AI神经元：计算世界的奇妙碰撞》程序猿阿伟人工智能量子计算
在当今科技飞速发展的时代，量子计算和人工智能作为前沿领域，正不断颠覆我们对计算和智能的认知。量子门操作和AI中的神经元计算过程，分别作为这两大领域的核心机制，看似处于不同维度，却有着千丝万缕的联系，它们之间的区别与关联，犹如一把钥匙，为我们打开了通往更高级计算与智能世界的大门。量子门操作是量子计算的基础，它利用量子力学的奇妙特性，如叠加和纠缠，对量子比特进行操控。量子比特，作为量子信息的基本单元，
自建智能算力中心 vs 第三方算力租赁：AI企业的算力博弈与最优解
人工智能的爆发式增长正在重塑全球产业格局。从ChatGPT到DeepSeek，从自动驾驶到智能医疗，AI模型的训练和推理需求呈现指数级增长。在这场技术革命中，算力已成为企业竞争的“命脉”。然而，面对动辄数亿元的硬件投入和复杂的运维挑战，AI企业正面临一个关键抉择：自建智能算力中心，还是选择第三方算力租赁？本文将从成本、效率、风险及适用场景等维度展开深度分析，为企业提供决策参考。一、成本对比：重资产
LangChain使用Prompt02 科研小达人 langchain 前端
1.设置提示fromlangchain.promptsimportChatPromptTemplateprompt_template=ChatPromptTemplate.from_messages([("system","你是一位专业的翻译，能够将{input_language}翻译成{output_language}，并且输出文本会根据用户要求的任何语言风格进行调整。请只输出翻译后的文本，不要
Python中scatter()函数--转载 1361976860 python
原博地址：http://blog.csdn.net/anneqiqi/article/details/64125186最近开始学习Python编程，遇到scatter函数，感觉里面的参数不知道什么意思于是查资料,最后总结如下：1、scatter函数原型2、其中散点的形状参数marker如下：3、其中颜色参数c如下:4、基本的使用方法如下：[python]viewplaincopy#导入必要的模块i
还在为找图发愁？图生生AI以图生图，一键生成专属风格！图生生人工智能 ai AI作画图生生
你是否也遇到过这样的烦恼：想为文章配图，却找不到风格合适的图片？设计海报时，灵感枯竭，不知从何下手？看到喜欢的图片风格，却无法应用到自己的作品中？别担心，图生生AI生图来帮你！只需上传一张图片，AI就能自动生成相似风格的图片，让你轻松拥有专属图库！图生生AI生图是一款基于人工智能技术的图片生成工具，它能够深度学习和理解图片的风格、色彩、构图等元素，并以此为基础生成全新的图片。无论你是设计师、自媒体
本地运行chatglm3-6b 和 ChatPromptTemplate的结合使用 hehui0921 LangChain java 服务器前端
importgradiofromtransformersimportAutoTokenizer,AutoModelfromlangchain_core.promptsimportChatPromptTemplatefromlangchain_core.output_parsersimportStrOutputParserfromlangchain_community.llmsimportHuggi
langchain多人对话牛不才 000-大模型 langchain java 前端 AIGC chatgpt 人工智能 gpt
消息类型1.SystemMessage（系统消息）作用：设定AI的基础行为模式或对话背景，通常在对话开始时通过此消息定义角色。它对整个对话流程有指导性影响，但不会显式出现在对话历史中。特点：仅有一条生效（如多次发送会覆盖之前的设定）不参与多轮对话的内容传递2.HumanMessage（用户消息）作用：表示真实用户在对话中的输入内容，是用户与模型交互的直接信息。特点：必须按时间顺序排列内容直接影响模
分块查找算法 1haooo 算法 java 算法开发语言数据结构
分块的原则前一块的最大数据，小于后一窥啊中所有的数据（块内无序，块间有序）块数数量一般等于数字的个数开根号。比如：16个数字一般分为4块左右。publicclassblockSearch{publicstaticvoidmain(String[]args){int[]arr={16,5,9,12,21,18,32,23,37,26,45,34,50,48,61,52,73,66};//共18个元素
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
深度学习、模型架构、可拓展性、神经网络、机器学习1.背景介绍深度学习作为人工智能领域最前沿的技术之一，在图像识别、自然语言处理、语音识别等领域取得了突破性的进展。深度学习模型的成功离不开其强大的学习能力和可拓展性。本文将深入探讨深度学习算法的原理、模型架构设计以及可拓展性的关键要素，并通过代码实例和实际应用场景，帮助读者理解如何搭建可拓展的深度学习模型架构。2.核心概念与联系深度学习的核心概念是人
大模型工程师学习日记（五）：基于LangServe的AI服务架构深度解析 MMMMMMMay Love Code 学习架构语言模型深度学习人工智能 git
1.概述LangServe️帮助开发者将LangChain可运行和链部署为RESTAPI。该库集成了FastAPI并使用pydantic进行数据验证。Pydantic是一个在Python中用于数据验证和解析的第三方库，现在是Python中使用广泛的数据验证库。它利用声明式的方式定义数据模型和Python类型提示的强大功能来执行数据验证和序列化，使您的代码更可靠、更可读、更简洁且更易于调试。。它还可
yolo模型coco数据集详解工头阿乐深度学习 YOLO
深度学习文章目录深度学习前言前言instances_train2017.json和instances_val2017.json文件均分为五大部分，这五部分对应的关键字分别为info、licenses、images、annotations、categories。{"info":info,"licenses":[license1,license2,license3,...],"images":[ima
AI问答-供应链管理：看懂现金流量表、资产负债表、利润表、所有者权益变动表快雪时晴-初晴融雪供应链管理利润表资产负债表所有者权益变动表现金流量表供应链管理
一、现金流量表1.1、现金流量表的核心结构现金流量表分为3大板块，反映企业现金流入和流出的不同来源：经营活动现金流企业主业产生的现金，如销售商品、支付工资、税费等。关键指标：经营现金流入/流出、净流量（流入-流出）。投资活动现金流长期资产投资（如建厂、买设备）或处置资产（如卖子公司）产生的现金。关键指标：资本支出（购建固定资产等）、投资支付的现金。筹资活动现金流融资行为（如借款、还款、发行股票）或
Lec01-什么是安全？蛋蛋deべ忧桑安全
本文使用人工智能协助翻译，内容仅供参考，可能有错误或遗漏。如果你对内容或超链接有疑问，可以查看原文。参考资料地址：https://github.com/PKUFlyingPig/MIT6.16006.1600课程团队：HenryCorrigan-Gibbs,YaelKalai,BenKettle(TA),NickolaiZeldovich2022年秋季[!warning]免责声明本套笔记为正在进行
快速绘制数据库E-R图：教你一键绘制! ! ! ! 来自星星的坤数据库
引言在日常开发或设计数据库时，E-R图（实体-关系图）是必不可少的工具。然而，当面对十几个表的复杂数据库结构时，手工绘制E-R图不仅费时费力，还容易出错。今天，在时间紧迫的情况下，我意外发现了一个神器——MermaidLiveEditor，它可以通过代码的方式快速生成数据库E-R图，大幅提高效率。在这篇博客中，我将分享如何利用Mermaid语法来生成E-R图，并在MermaidLiveEditor
从零精通机器学习：线性回归入门吴师兄大模型 0基础实现机器学习入门到精通机器学习线性回归人工智能 python 算法回归开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
利用deepseek AI制作视频的小白教程银行金融科技银行信息系统架构详解机器学习人工智能 deepseek
以下是基于DeepSeekAI的完整视频制作教程，涵盖从剧本到成片的全流程操作（附关键技巧）：一、前期准备（1天）1.分镜优化根据之前的分镜脚本，用Notion或Excel整理出AI友好型分镜表（示例）：画面描述关键词时长动态水墨展开成卷轴水墨山水、花瓣特效、东晋风格15秒Q版人物在曲水流觞放纸船全息投影、透明茶具、童声配音45秒2.素材预生成文本转图像：bash#用DeepSeekCoder生成
[HelloCTF]PHPinclude-labs超详细WP-Level 2-data协议 Haicaji WP php 网络安全 web安全
源码分析重点关注这两行代码echoinclude("data://text/plain;base64,4pedKCrigbDilr/igbAqKeKXnEhlbGxvLUNURnd3");isset($_GET['wrappers'])?include("data://text/plain".$_GET['wrappers']):'';发现这里出现了data协议data://-数据流(RFC239
如何用deepseek快速生成思维导图和流程图？ ProcessOn官方账号流程图
一起来看看md格式和mermaid格式，与deepseek的碰撞会产生怎样的魔法吧！1、md格式+deepseek，快速生成思维导图Markdown是一种轻量级的标记语言，旨在以易读易写的纯文本格式编写文档，并能够轻松转换为结构化的HTML（超文本标记语言）或其他格式。它最初由JohnGruber和AaronSwartz于2004年创建，因其简洁性和可读性而广受欢迎。操作方法：Step1：给dee
AI学习第二天--监督学习半监督学习无监督学习 iisugar 机器学习支持向量机人工智能
目录1.监督学习（SupervisedLearning）比喻：技术细节：形象例子：2.无监督学习（UnsupervisedLearning）比喻：技术细节：形象例子：3.半监督学习（Semi-SupervisedLearning）比喻：技术细节：形象例子：4.三者的对比与选择表格总结：5.实际案例对比案例：电商平台用户分群6.关键逻辑总结1.监督学习（SupervisedLearning）比喻：老
关于修改 Ollama 及其模型默认路径、迁移已安装的 Ollama 程序和模型以及重启 Ollama 的操作指南星沉大海@T Ollama Ollama 迁移指南
以下是关于修改Ollama及其模型默认路径、迁移已安装的Ollama程序和模型以及重启Ollama的操作指南，以问答格式呈现，并将涉及命令操作的部分使用代码块按执行顺序和步骤形式展示：Q1：如何修改Ollama及其模型的默认路径？A1：Windows系统：创建新目录：在非C盘的磁盘中创建一个新目录，用于存放Ollama的模型文件，例如D:\AIModels。设置环境变量：右键点击“此电脑”或“计算
Java方法详解 NaclarbCSDN java 开发语言
Java方法详解方法基本概念 packagecom.arbedu.method; publicclassDemo01{ //main方法 publicstaticvoidmain(String[]args){ inta; intb; intsum=add(1,2);//实际参数，用来调用传递的参数 System.out.println(sum);
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
【华为OD-E卷 - 高频题目全览（关注、收藏）通过率100%以上题目可达95%（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享纯小白编程入门教程（新手必看）计算机相关操作技巧（新手必看）华为od c++c语言 java python js javascript
注意：如果发现代码有用例覆盖不到的情况，欢迎反馈！会在第一时间修正，更新。解题不易，如对您有帮助，欢迎点赞/收藏E卷题目全览一键跳转详情题目详情跳转01补种未成活胡杨点此跳转详情02最多提取子串数目点此跳转详情03ai面板识别点此跳转详情04流浪地球
JAVA中List数组与泛型 Yeauty java 泛型
去除ArrayList中重复字符串元素方式A:案例演示需求：ArrayList去除集合中字符串的重复值(字符串的内容相同)思路：创建新集合方式/***A:案例演示*需求：ArrayList去除集合中字符串的重复值(字符串的内容相同)*思路：创建新集合方式*/publicstaticvoidmain(String[]args){ArrayListlist=newArrayList();list.ad
python tcl,Python tcl没有正确安装邓永泉 python tcl
Ijustinstalledgraphics.pyforpython.Then,whenItriedtorunthefollowingcode:fromgraphicsimport*defmain():win=GraphWin("MyCircle",100,100)c=Circle(Point(50,50),10)c.draw(win)win.getMouse()#Pausetoviewresul
收入突破 5 万，从大专生到大模型开发-第一篇智码工坊 java AI编程程序人生
第一篇：从Java流水线到AI浪潮——我的转型契机2023年12月，被第七家公司劝退。蜷缩在杭州15平米的出租屋里，银行卡余额仅剩几个月的工资——这是我作为Java开发‘流水线工人’的第三年。但大半年后，我手握3个大模型Offer入职AI公司，薪资涨幅30%。今天想和你分享：普通人如何用AI破局，打破职场死局。大家好，我是明聪，98年逆袭的大模型研发工程师，前Java转型幸存者，湖北荆州人，毕业武
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

Cross-modal Pretraining in BERT（跨模态预训练）

你可能感兴趣的:(AI多模态,bert,人工智能,语音识别)