阿里技术

ICML 2022｜达摩院多模态模型OFA，实现模态、任务和架构三个统一

作者：霜清、钟煌、鸿侠

通用统一的预训练大模型逐渐成为AI研究的一大趋势，本文将介绍达摩院提出的多模态模型OFA，是如何实现架构、模态、任务的三个统一。

近年来，基于大规模无监督数据的预训练逐渐成为深度学习研究的热潮，大规模预训练模型也凭借其强大的模型表现和迁移能力逐渐在AI领域扮演着基础模型的角色。近期，包括DeepMind的“通用AI Agent”Gato、通用图文模型Flamingo，及Google Pathway的一系列进展披露，均表明大规模多模态预训练已经逐步成为了未来AI的基础设施，AI模型也逐渐变的更加通用、统一。通用统一的预训练大模型也逐渐成为当前AI研究的一大趋势。

达摩院深耕多模态预训练，并率先探索通用统一模型。此前，达摩院陆续发布了多个版本的M6模型，从大规模稠密模型到超大规模的混合专家模型的探索，逐步从百亿参数升级到十万亿参数规模，在大模型、绿色/低碳AI、服务化、亮点应用等多方面都取得了一定的突破。今年，达摩院重点突破统一范式（模态、任务和架构）的通用多模态预训练框架M6-OFA，希望降低模型在预训练、适配下游模态与任务、以及推理过程中的难度，以便更加便捷地提供预训练、下游任务微调、模型部署、应用发布的大模型全流程服务。目前M6-OFA已被第39届国际机器学习大会（International Conference on Machine Learning (ICML 2022)）录用，ICML是机器学习领域三大顶级会议之一。

多模态统一模型OFA的核心思想是将多模态任务表达为序列到序列生成的形式，结合任务特定的instruction在经典的transformer encoder-decoder架构中实现多任务预训练，从而实现以下三个统一。

架构统一：使用统一的transformer encoder decoder进行预训练和微调，不再需要针对不同任务设计特定的模型层，用户不再为模型设计和代码实现而烦恼。
模态统一：将NLP、CV和多模态任务统一到同一个框架和训练范式，即使你不是CV领域专家，也能轻松接入图像数据，玩转视觉、语言以及多模态AI模型。
任务统一：将任务统一表达成Seq2Seq的形式，预训练和微调均使用生成范式进行训练，模型可以同时学习多任务，让一个模型通过一次预训练即可获得多种能力，包括文本生成、图像生成、跨模态理解等。

目前，约10亿参数的OFA-huge模型在训练数据少一到两个数量级的情况下，不仅在图文描述、物体指代理解等多个任务中超越Deepmind Flamingo和Google CoCa，还同时具备高质量的图像生成能力。相关论文已被ICML 2022录用，对应代码、模型、交互式服务也已开源，论文及开源项目可至文末查看详情。

一、OFA任务效果

先来看看效果，OFA在一些任务效果表现上还是蛮神奇的，艺术创作和真实图像生成都不在话下。

而在开放领域的物体指代任务方面，在动漫场景同样能实现精准识别，杰尼龟、路飞，一个都不放过！

因为是基于instruction做多任务预训练，模型类似T0能够根据对任务指令的理解做一些没有学过的任务，比如下列新任务，即针对特定区域的VQA，模型只需要根据输入的问题以及给定的坐标离散化表示便能做出相应的正确回答：

不难看出，OFA已经在“多模态，多任务”这条路上迈出第一步，展现出预训练模型根据人类指令执行不同任务的能力，这也是当前谷歌的Pathways系统所追求的一大目标。

二、OFA基本原理

OFA的作者认为，通用AI模型设计需要具备模态、任务和模型大小等多个方面的可扩展性。为此，文章提出任务无关（TA）、模态无关（MA）、任务足够丰富（TC）等几个在算法设计上需要满足的性质，并指出现有模型没有同时满足这些性质的各类原因，包括Pretrain/Finetune任务表示不一致、额外的Finetune任务相关的结构设计、模态输入对某些任务的依赖。OFA通过一个简单的任务、模态、结构统一的seq2seq框架，在满足以上三个性质的前提下，获得了下游诸多图文跨模态任务的SOTA表现。

OFA的实现原理比较简单，核心模型架构就是最经典的transformer encoder-decoder。为了将预训练和微调都融入到这个架构中，OFA将各类涉及多模态和单模态（即NLP和CV）的各类任务均表达为Sequence-to-Sequence的形式，使用上述encoder-decoder模型进行训练，预训练和微调都无需增加任务特定的模型层，如BERT在分类任务finetune所使用到的分类层，以降低预训练和微调的discrepancy。在具体实现上，OFA做了一系列针对统一预训练的设计，包括如何实现不同分辨率的图像、文本、检测框等模态信息的输入，如何将不同多模态及单模态任务统一成序列到序列的形式，如下图所示：

OFA的整体目标是实现三大统一。首先是I/O统一，要解决的问题就是图像和文本在transformer模型中如何输入和输出。输入方面，文本的输入则是传统的BPE encoding将文本输入转化为embedding序列，图像的输入则相对复杂。首先图像需要同样转化成embedding序列的形式，方法的核心则参照ViT的分patch实现。参考了CoAtNet和SimVLM的实现，OFA将图像接入ResNet后转化为patch embedding后再与文本embedding进行拼接，而为了实现更好的效果OFA将ResNet部分加入到模型的训练中。但针对图像的输出，图像依然需要离散化的表达，因此OFA的实现和此前DALL-E、Beit等工作一致，将图像使用vector quantization模型转化成code作为模型的target并将code加入到词表中。此外，由于模型的预训练任务包括grounded captioning，visual grouding以及object detection，OFA还需要处理坐标信息的输入和输出。具体而言，参照Pix2Seq的实现，OFA将连续的坐标信息转化成离散化的表示，并将其加入到词典中，从而将文本、图像、坐标都融入到一个统一的词表中。

任务的统一实现便是建立在上述的I/O统一的基础上，类似Image captioning和VQA等任务本身便是Seq2Seq的形式，无需做额外的改变。而像visual grounding或者object detection这类任务，则需要将输出用序列的形式表达，具体而言每个object的坐标信息都可以表达为的形式，对应的是物体框的左上角和右下角，而如果需要增加物体类别标签，就在坐标后加入label词，label词同样用BPE encoding进行表达。而类似text-to-image generation或者image infilling任务，则将图像转化成VQGAN的code即可。而针对分类任务，OFA将分类标签全部看作文本序列。比较有意思的是，为了保证生成的文本不会跳脱出label空间，OFA使用了Trie树的方法将生成空间限定在label集合中，这样模型在inference的阶段可以自由使用beam search的方式生成类别标签而不需担心空间以外的输出。

完成上述两个目标，将单模态和多模态的不同任务都统一到同一个Transformer架构便是一个自然而然的事情。但针对效果的优化，OFA还增加了Normformer的方法增强训练稳定性，同时针对分类任务加入了Trie树实现帮助模型在分类任务上能够取得稳定的效果提升且不会输出集合外的标签。

预训练数据集

OFA的研究人员从各种公开数据集中收集了各种模态的数据，包括约2000万多模态数据、3500万无标注图片以及140GB大小的纯文本数据等。OFA所使用的数据集在规模上远小于其它的多模态预训练模型，例如ALIGN（18亿图文Pair）、CLIP（4亿图文Pair）、SimVLM（18亿图文Pair，800G文本）等，但M6-OFA仍然可以在多个下游任务上取得超越这些模型的效果。未来，OFA的研究人员表示将会收集更大规模的预训练数据集以进一步研究数据规模的增加对模型表现的影响。

三、OFA模型规模

近年来，许多关于预训练模型的研究都在提有关scaling law的观点，即随着数据规模和模型规模的增大，模型效果也会随之上升。而在本工作中，OFA的研究人员则重点研究模型规模对效果的影响，并在OFA工作中提出了5个规模的模型，模型参数大小从3.3千万到9.4亿不等，具体参数配置如下表所示：

实验效果也表明，模型规模的增加对于模型效果的提升具有非常显著的影响，其中最大规模的OFA模型也在多项多模态任务中取得了SOTA的表现。

四、OFA实验结果

OFA的实验结果还是比较惊艳的，在多项多模态任务都取得了SOTA的表现，尤其考虑到它还是个生成范式的模型。针对多模态理解能力的评估， OFA在视觉问答（VQA）和视觉推理两个任务的经典数据集VQA-v2和SNLI-VE上进行了测评。VQA要求算法根据给定的图片和问题，从3000余个候选答案中选出正确答案，而视觉推理，则要求判断给定的图像和文本之间的关系。在这两个具有挑战性的任务中，OFA均取得了显著优于此前提出的多模态预训练模型的优异表现：

通过OFA提供的视觉问答能力的展示，也可以看出模型能够对图像信息和人类提出的问题进行全面的理解并作答：

多模态生成的一大典型任务为Image Captioning（图像描述），要求算法根据给定的图片，输出相应的描述。在该任务的经典数据集MSCOCO上，OFA在多项评测指标均显著超出此前的模型，并且相比近日推出的预训练数据高出一到两个数量级并且参数规模更大的Deepmind Flamingo和Google Coca，OFA都具有明显的优势，同时OFA还在MSCOCO Image Captioning的官方榜单上位列第一名：

https://competitions.codalab.org/competitions/3221#results

而在图像描述的交互界面中，可以看到模型甚至能够根据图片表达出更多图像以外的信息，比如图中的披头士乐队等，也显示出预训练从大规模数据中学习到的知识所发挥的作用。

在另一跨模态任务物体指代中，模型需要根据用户的指令在图像上找出对应的物体。在此任务上，OFA同样取得了最优表现，并且具有较为明显的优势，其背后的一大原因便是统一的学习模式让模型能够借助其他任务，比如物体检测的能力，去提升自身在该任务的表现。

在应用的交互展示中，可以看到模型不仅能在日常的场景精准识别物体，甚至能够在复杂的交通场景中实现准确识别，也为未来OFA在多个场景的落地展现出无限的可能。

此外，OFA还在基于文本生成图像的任务上进行了评测，这也是首次统一预训练模型应用于该领域的工作。本任务要求算法模型根据给定的文本输入生成对应的图像，在保证语义一致的同时还需要保证图像生成的质量，是一项具有挑战的任务。在MSCOCO的评测中OFA同样取得了优异的表现，超出OpenAI的GLIDE和微软的NUWA等工作：

在实际的生成样例对比中，也可以看到，相比公开的GLIDE和Cogview模型，OFA针对真实的和反事实的query均取得了更好的生成效果：

而在单模态任务上，OFA在GLUE上能够取得匹敌RoBERTa、XLNET、DeBERTa等纯文本领域的SOTA预训练模型的效果，而在生成任务文本摘要的Gigaword上，则超越了ProphetNet等工作，取得了最优表现。而在CV方面，OFA在ImageNet图像分类任务上效果超越MoCo v3、DINO等baseline，并且取得了匹敌BEiT和MAE的表现。目前可以观察到，模态统一的OFA模型在单模态任务上也能取得顶尖水平的表现。

OFA同样针对零样本学习的场景来检验预训练模型模型的能力，并在GLUE和SNLI-VE等任务上进行测试。实验发现，OFA可以取得超出同期的Uni-Perceiver的效果：

同时OFA的研究人员还发现，在未知的任务和未知的领域数据中，统一范式的预训练帮助OFA取得了突出的效果。如下图所示，作者设计了一项名为Grounded QA的新任务，即算法模型需根据输入的图片和给定的物体位置，以及输入的问题，作出正确的回答。OFA模型则根据其对视觉问答以及视觉定位等多项任务的综合理解，实现了对新任务的零样本学习：

而对于预训练没有见过的领域数据，OFA同样能够对这部分数据作出良好的表现，这也显示了该模型的通用性，如下图所示：

OFA模型在面对动画图片以及科幻场景时，尽管在训练集中几乎没有见过此类型图像，但依然能够作出正确的回答。

作者针对加入不同任务对于预训练模型的影响，做了一系列消融实验的分析。实验表明，不同的预训练任务整体能为模型效果的提升带来增益，说明多任务学习一定程度上能实现任务效果间的相互促进。但依然存在一些例外，任务间也可能存在冲突。比如针对VQA任务，作者发现去掉图像还原的任务能够带来明显的效果提升，而对图片分类任务，则是去掉纯文本任务带来的增益最大。

现在多任务也逐渐成为一个研究的潮流，OFA的作者认为，任务之间如何分配权重、先后顺序，实现最优的调度达到帕累托平衡也可能是一个重要的研究问题。

五、总结

针对大一统模型的目标，达摩院提出了实现三大统一，即架构统一、模态统一、任务统一的多模态预训练模型OFA，在多项多模态任务上取得了SOTA，并且在单模态任务也取得了优异的表现。同时，还观察到模型能够在没有学习过的任务和领域数据上实现零样本学习，这也展现出大一统模型更大的潜能。

在未来，大量的应用模型可以基于强大的基础模型进行优化，实现更好的效果。基础模型强大的文本生成、图像生成甚至乃至视频生成的能力都将在大量的商业场景中发挥重要作用，包括数字人、AI设计、自动问答对话等。通用统一的基础大模型也会持续发展，将在AI领域扮演基础设施的角色。此外，通用统一模型能够实现任务间的相互协助，未来的AI模型将会根据多任务学习实现融会贯通，类似人类能够通过多任务的学习实现自身能力的全方位提升，并且具备快速学习新任务的能力，让AI不再依赖成本高昂的大规模标注数据。

参考及体验

论文标题：

Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

论文地址：

https://arxiv.org/pdf/2202.03052.pdf

开源地址：

https://github.com/OFA-Sys/OFA

交互式Demo地址：

https://huggingface.co/OFA-Sys

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟