智源社区

视觉与多模态大模型前沿进展 | 2023智源大会精彩回顾

导读

6 月 9 日下午，智源大会「视觉与多模态大模型」专题论坛如期举行。随着 stable diffusion、midjourney、SAM 等爆火应用相继问世，AIGC 和计算机视觉与大模型的结合成为了新的「风口」。本次研讨会由智源研究院访问首席科学家颜水成和马尔奖获得者曹越共同担任论坛主席，由北京交通大学教授魏云超主持。本论坛邀请了来自南洋理工大学、NVIDIA、智源研究院等国内外知名研究机构的顶尖学者共聚一堂，报告的内容涵盖生成模型、3D 视觉、通用视觉模型设计。以下是核心内容整理：

Drag Your GAN: Interactive Point-based Manipulation

on the Generative Image Manifold

潘新钢 | 南洋理工大学计算机科学与工程系助理教授

图像编辑(Image Manipulation)一直以来火热的研究方向，而且具有很广泛的应用场景。现有的图像编辑主要有以下四类：

（1）基于全监督学习的模型，如InterfaceGAN；

（2）基于语义分割图的模型，如SPADE；

（3）基于人体关键点的模型，如HumanGAN；

（4）基于文本引导的模型，如Imagic。然而现有的这些模型缺乏对空间属性编辑的灵活性，准确性，通用性。以皮影戏为例，通过控制皮影人物的关键点，可以做出各种各样的动作。

为了让模型在具有利用关键点能力的同时，并可以在编辑图像时推理出被遮挡的区域，潘新钢教授团队提出了一种基于生成对抗网络（Generative Adversarial Networks，GAN）的实时交互式图像编辑模型Drag Your GAN。用户在图像上确定抓取点（Handle Point）和目标点（Target Point），将图像与点信息一起输入到生成器中获取隐向量（Latent Code），该模型通过使用多步式迭代并在每一步迭代过程中使用动态监督损失函数，逐步优化隐向量，直至抓取点逐步移动到目标点。此外，用户可以选择修改区域，只编辑区域内的部分。通过在多个数据集上验证，展现了Drag Your GAN模型强大的图像编辑能力。

该报告介绍了通过交互式关键点拖拽的方式来编辑图像的生成式模型Drag Your GAN，改模型的核心为关键点动态监督和关键点跟踪。最后，潘新钢教授表示，通过文本引导和拖拽关键点相结合的方式将会引领图像编辑领域的未来。

将机器学习用于 3D 内容生成

高俊 | NVIDIA 研究科学家

人类生活在三维世界中，创作三维的虚拟数字世界，有助于人类更好地理解世界、解决现实生活中无法解决的问题。

生成的三维虚拟场景需要满足以下要求：

（1）物体数量足够多

（2）物体类型多样

（3）质量高，包含几何信息、纹理信息

工业界现有的依赖人工的三维世界创建方案要消耗大量人力物力，对操作者的能力要求较高，难以大规模扩展。Dreamfusion 等基于深度学习的三位视觉生成方法在几何和纹理细节生成方面仍有很大提升空间。

三维生成模型主要面临两点挑战：

（1）构建适用于机器学习的三维表征，易在下游任务中使用，具有灵活多样的拓扑结构、纹理、材质

（2）构建高效、高质量、可控的三维生成模型，能够广泛利用二维数据

「DMTet」提出了一种将神经场等隐函数与 mesh 网格表征相对应的方法，构建了可微的 iso surface，在利用 mesh 高精度、拓扑灵活、适合实时渲染等特性的同时，可以进行形状编辑，避免了离散化操作，利用深度学习生成方法得到了高质量 mesh 表征。

在 3D 生成模型方面，为了借鉴 2D GAN 的成功，「Get3D」实现了基于光栅化的可微渲染，构建了强大的判别器；通过 Tri-Plane 技术构建了高质量的 3D 表征；将 DMTet 与 Nvdiffrast 结合，实现了高效的训练。

「Magic3D」将文本 prompt 作为输入，构建了一个由粗到精的生成框架。粗生成阶段使用低分辨率扩散模型，通过 InstantNGP 生成初始化几何特征；精细生成阶段使用高分辨率扩散模型通过 DMTet 实现 Mesh 渲染。该模型利用预训练好的 2D 图像扩散模型的知识，将其评分函数用于引导图像生成，使用可微渲染构建了 3D 和 2D 之间的桥梁，实现了高效、高精度、局部可控的 3D 图像生成。

高俊博士指出，未来研究者们可以探究如何将单个类别的物体生成扩展到多类别、通用物体生成；从物体生成扩展到场景生成；从静态内容生成扩展到动态内容生成。

通用视觉模型初探

王鑫龙 | 智源研究院研究员

对通用视觉智能的探索可以分为两个部分：

（1）视觉表征。抽象出视觉信号，并学习通用表征。

（2）视觉通才模型。训练可以解决开放场景下各类任务（例如，分类、检测、分割）的视觉通才模型。

「EVA」模型是目前具有 billion 级别参数的最好的预训练模型，它将 CLIP 与 MIM 方法相结合，遮盖输入图像的一部分，并重建被遮盖部分的 CLIP 特征，通过 CLIP 特征提供高级别语义，通过掩码建模提供结构空间信息。

王鑫龙博士指出，扩展模型规模的目的在于使其具有以下三种能力：在经典任务（例如，ImageNet、ADE20k、COCO）上取得新的性能突破；解决以往难以解决的任务（例如，LVIS长尾识别）；带来新的能力（例如，帮助 CLIP 更好地训练）。

「EVA-CLIP」使用 EVA 预训练模型初始化图像编码器，通过 LAMB 优化器使模型训练收敛更快，并通过 FLIP 提升了训练效率。EVA-CLIP 5B 在 ImageNet-1K 上取得了 82% 的零样本分类精度，是当前最强的开源CLIP模型。

「Painter」旨在将分类、检测、分割、关键点检测、底层视觉等任务统一为输入图像输出图像的任务，在无需模型微调的情况下自动完成任务，并展现出新的能力，探索了一种通用的视觉任务借口，具备上下文视觉学习能力。该模型的架构为 ViT，通过回归损失监督训练。

「SegGPT」基于 Painter 实现了「分割一切」的能力，是对通用分割模型的探索。王鑫龙博士团队将语义分割、实例分割等各种分割数据汇聚起来，统一成小样本提示的上下文视觉训练样例。

王鑫龙博士指出，上述工作背后的思想是「统一的学习方法+可扩展的数据+大模型」。其中，最困难的是构建可扩展的数据。

「Emu」是一个能接收多模态输入、产生多模态输出的大模型，进行统一的多模态上下文学习。王鑫龙博士团队将图像、文本、交错图文、交错视频文本等数据统一成相同形式，进行多模态上下文学习，完成感知、推理、生成等任务。

Image, Video, and 3D Content Creation with Diffusion Models

Karsten Kreis | NVIDIA 高级研究科学家

Huan Ling | NVIDIA 研究科学家

扩散模型是一类基于评分的生成模型，近年来取得了令人瞩目的效果。目前，已有研究人员将扩散模型用于「文-图」、「文-3D」、「文-视频」生成，「3D 形状合成」、「3D 场景生成」等任务。

「eDiff-I」使用集成的专家去噪器实现「文-图」生成扩散模型，它利用 T5 和 CLIP 作为文本编码器、利用 CLIP 作为图像编码器，并且在基础扩散模型之上添加了 2 个超分辨率模型，包含 9.1B 的参数。该模型在不同的合成阶段使用专家去噪器。

「Magic3D」实现了高分辨率的「文-3D」内容生成。该模型使用Instant NGP 根据 2D 扩散模型实现了由粗到精的 3D 形状蒸馏。在第一个阶段，模型首先低分辨率先验优化神经场表征，从而得到粗模型。在第二阶段，模型进一步可微地根据强度和颜色场提取纹理 3D mesh，使用高分辨率潜扩散模型进行微调。

「LION」是一种层次化的基于点云的 3D 形状生成隐式点扩散模型。它首先通过扩散模型生成形状隐变量，再使用另一个以形状为条件的扩散模型生成隐式的点，进而将隐式点解码为点云，还可以通过将点构成形状重建平滑 mesh。

「NeuralDield-LDM」使用层次化的隐扩散模型生成场景，它训练了一个场景的自编码器，通过使用强度和特征 voxel 在神经场中考虑相机姿态、深度编码场景的 RGB 图像。该模型训练了一个层次化的隐自编器，可以将神经场的 voxel 表征压缩到更小的隐空间，在隐自编码器的隐空间中拟合了一个层次化的隐扩散模型。

「Align Your Latents」介绍了使用隐扩散模型生成高分辨率视频。在扩散模型中，去噪是一个随机过程。该工作通过视频微调在时序上对齐了图像 LDM，并降低了计算开销。在模型方面，该工作在空间层后加入了时序层。

圆桌论坛

魏云超 | 北京交通大学教授

王鑫龙 | 智源研究院研究员

潘新钢 | 南洋理工大学计算机科学与工程系助理教授

夏威 | 摩尔线程AI副总裁

高俊 | NVIDIA 研究科学家（连线）

魏云超：针对当前的生成模型，Diffusion Model和GAN哪个模型表现更好？

潘新钢教授认为，两个模型各有优劣，但是Diffusion Model的上限更高，随着算力，硬件性能的提高，Diffusion Model的重要性会越来越大。

两个模型主要有以下三点不同：

1. 在计算需求方面，Diffusion Model需要很大的计算量，GAN虽然在生成质量上可能不比Diffusion Model，但是不要特别大的计算量，可以在硬件部署上达到实时生成。

2. 在图像分布连续性方面，由于Diffusion Model的迭代式计算带来的高度非线性，所以在一些任务上，如视频编辑，会出现跳变和抖动。但是GAN是通过单步计算，生成的图像会表现得更加连续。

3. 在可编辑性方面，基于GAN所得到的隐空间表现出更具有上下文语义的特征。通过对该空间进行编辑，使得图像具有很强的可编辑性。但是Diffusion Model是从耦合了空间信息的随机噪声图生成图像，因此在可编辑性上相对不易控制。

高俊博士认为，GAN目前最大的局限是难以扩展到大数据训练，相比之下，Diffusion Model对大数据训练更加友好。另外，相比于Diffusion Model这种去噪的训练过程，GAN通过对抗学习的训练方式，可以更好地捕获单视角（2D）图像生成多视角（3D）图像中的空间关系。

夏威博士认为，GAN由于可以在特征隐空间进行操作，具有更好地可编辑性，但是限制了其更加通用的生成能力。是否能将GAN的对抗学习方式和特征空间的对齐特性用到Diffusion Model的训练过程中，提高其训练速度和可编辑性。

目前像ChatGPT等大语言模型已呈现出百花齐放的状态，在绘图方面Stable Diffusion也表现惊人。但是目前在计算机视觉任务，还没有看到类似ChatGPT这样现象级应用，视觉模型在未来有没有可预见的破圈的应用方式？

目前在视觉模型没有出现现象级应用，与会专家认为主要在以下几个原因：

（1）目前的视觉任务（如分割、检测、分类等）往往是一些实际应用（如机器人、自动驾驶等）的中间任务，普通人不太在意在这些视觉任务上模型性能的提升。

（2）从算法到应用落地还有很长的过程，要用应用层面去思考如何让视觉模型出圈。

（3）移动互联网火起来归功于智能手机的发展，而目前视觉模型缺乏像智能手机这样的硬件接入模式。

对于基于视觉模型破圈的应用，与会专家认为未来可能会在以下几个方向：

（1）修图软件，利用类似“Drag Your GAN”模型编辑照片；

（2）元宇宙，在元宇宙中人、场景、内容等几个要素之间的交互；

（3）3D内容的生成，如动画、电影、游戏等；

（4）与大语言模型结合，视觉语言交互。

我们目前似乎没有看到通用大模型的大量的涌现，大家觉得通用视觉模型现在发展的瓶颈在哪里？以及未来的突破方向可能在哪？

针对目前通用视觉模型的发展瓶颈，与会专家认为主要有以下几点：

（1）如何获取更有价值的数据，十分重要；

（2）现有的视觉模型评价指标需要更新，仅仅靠在基准数据集上刷点已不足以让模型获取新的能力；

（3）相较于语言数据，视觉数据的信息密度很低。在相同的训练数据量下，语言模型可能回更快地看到涌现的效果。

针对通用视觉模型未来的突破方向，与会专家认为会在以下几个方面：

（1）跟大语言模型进行结合，构建多模态大模型；

（2）探究不同的视觉任务（如分割、检测、分类等）之间的联系，构建任务间统一的范式；

（3）将视觉模型拓展到一个开放世界（Open World），构建起一个世界模型（World Model），每个个体小模型通过蒸馏的方式与世界模型进行交互学习；

（4）探究视觉模型在长尾分布问题上的解决方案。

模型在学习过程中不可避免地会遇到灾难性遗忘的问题，面向模型演化连续学习传统的连续学习任务一般会让模型0开始不断积累知识，但是在有了视觉或多模态大模型之后，模型本身已经囊括了互联网上非常非常多的知识，在这个背景下，以大模型为基础的模型演化有哪些值得研究的方向？

针对以大模型为基础的模型演化，与会专家认为有以下几个值得研究的方向：

（1）在模型参数量（模型容量）固定的情况下，如何让模型容纳更多的信息；

（2）探究使用较少的数据达到与使用全部数据训练相当的性能，即数据集蒸馏；

（3）在模型数据足够大的前提下，设计更好的路径选取方式已适用于特定任务。

（4）大模型的稀疏优化。

在当今计算资源消耗越来越大，未来几年在学术界，特别是针对大部分高校的老师和学生缺乏计算资源，他们研究重心应该是什么？

潘新钢教授认为，（1）方法在大部分情况下是通用的，可以在负担得起的计算资源上验证方法的有效性；（2）有些任务并不依赖大模型，而且并不是所有的问题都要从头开始训练模型；（3）在未来，校企合作可能会成为更广泛的研究方式。

夏威博士认为，（1）把一些优化算法（如分布式训练、节约显存操作等）集成到研究当中；（2）在模型设计中减少冗余计算。

高俊博士除了赞同目前还有很多任务不依赖大模型这一观点外，还认为可以把一个大的研究问题分解成多个易于解决的小问题，这些小问题可以用有限的计算资源去解决。另外一个方面要提升代码的高效性。

- 点击“查看原文” ，观看完整大会视频回放 -

具身智能与强化学习前沿进展丨2023智源大会精彩回顾

大模型与人类的未来丨基于认知神经科学的大模型论坛精彩回顾

Python3.13来了！编程爱好者必看 Python之栈人工智能 python 开发语言
Python3.13于近期发布，其中包含大量重要更新。Python作为机器学习、数据科学和人工智能领域使用最广泛的编程语言，一直在不断发展，以满足这些领域日益增长的需求。最新发布的Python3.13提供了多项具有影响力的改进，旨在提高性能和生产力，对于从事ML和AI项目的开发人员来说是一个重要的里程碑。Python在ML和AI领域的主导地位主要归功于它的简单性、广泛的库支持和庞大的社区。然而，随
卷积调制空间自注意力SPATIALatt模型详解及代码复现清风AI 深度学习人工智能 python 神经网络 conda
背景与意义SPATIALaTT模型的提出源于对自注意力机制和卷积神经网络（CNN）的深入研究。在计算机视觉领域，CNN长期占据主导地位，而自注意力机制的引入为视觉任务带来了新的思路。SPATIALaTT模型的意义在于融合了这两种强大的特征提取方法，充分发挥了它们的优势。这种融合不仅提高了模型的性能，还为设计更高效的视觉模型提供了新的思路，推动了计算机视觉技术的发展。通过结合自注意力机制和卷积神经网
基于YOLOv5、YOLOv8和YOLOv10的机场安检行李检测：深度学习应用与实现 2025年数学建模美赛 YOLO 深度学习人工智能目标跟踪目标检测
引言随着全球航空运输业的持续增长，机场的安全性变得越来越重要。机场安检作为航空安全的重要组成部分，主要负责对乘客和行李进行检查，防止危险物品进入机场或飞行器。传统的安检方式多依赖人工检查，效率低下且容易出错。因此，基于深度学习的自动化行李检测系统应运而生，通过计算机视觉技术，自动识别和分类行李中的物品，大大提高了安检的效率与准确性。YOLO（YouOnlyLookOnce）系列算法，由于其高效的目
人工智能之数学基础：一个小例子帮你快速搞懂极大线性无关向量组每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能线性代数机器学习极大线性无关向量组深度学习神经网络
本文重点在上一节课程中，我们学习了线性相关和线性无关。当线性相关的时候，那么说明这组向量至少存在一个向量可以被其它向量给表示，可以被表示就说明这个向量就是可有可无的，可以被替代的，这里就涉及到极大线性无关向量组的概念了，本文对此进行学习。极大无关向量组的定义与性质定义在线性空间中，如果存在一个向量组，它满足以下两个条件：一是它本身是线性无关的；二是向量空间中的任何包含它的向量组，如果仍然保持线性无
个人职业发展与AI赋能的前端开发前端
在瞬息万变的科技浪潮中，个人职业发展显得尤为重要。对于前端开发者而言，如何提升自身竞争力，适应日新月异的技术革新，是持续关注的核心问题。而近年来，人工智能（AI）技术的飞速发展，特别是AI代码生成器的兴起，正深刻地改变着前端开发的格局，为开发者们提供了前所未有的机遇。本文将以ScriptEcho为例，探讨AI技术如何赋能前端开发，助力个人职业发展。市场趋势与个人技能提升当前市场对前端开发人才的需求
代码重构的革命：AI代码生成器如何改变游戏规则前端
在软件开发的世界里，代码重构是一项既重要又艰巨的任务。繁琐的重复性工作、低下的效率以及难以避免的错误，常常让开发者们疲惫不堪。然而，随着人工智能技术的飞速发展，智能化代码重构的时代已经到来，而AI代码生成器正成为这场革命的核心驱动力。代码重构的挑战：一个开发者的心声传统的代码重构过程充满了挑战。想象一下，你需要将一个庞大的、混乱的代码库改造成模块化、易于维护的结构。这需要你花费大量的时间去理解现有
Python 3.13性能大提升：免费多线程时代来临敖行客 Allthinker python java 开发语言爬虫
在编程的世界里，Python一直以其简洁、易读和强大的功能而备受青睐。随着技术的不断进步，Python的每一个新版本都带来了新的惊喜和改进。而Python3.13无疑是其中的一颗璀璨明星。在一个数据驱动的世界里，Python已经成为了一种无处不在的编程语言，它的性能和功能的提升始终是开发者们关注的热点。随着大数据、人工智能、云计算等技术的飞速发展，对编程语言性能的要求也在不断提高。在这样的背景下，
深入理解GPT底层原理--从n-gram到RNN到LSTM/GRU到Transformer/GPT的进化网络安全研发随想 rnn gpt lstm
从简单的RNN到复杂的LSTM/GRU,再到引入注意力机制,研究者们一直在努力解决序列建模的核心问题。每一步的进展都为下一步的突破奠定了基础,最终孕育出了革命性的Transformer架构和GPT大模型。1.从n-gram到循环神经网络(RNN)的诞生1.1N-gram模型在深度学习兴起之前,处理序列数据主要依靠统计方法,如n-gram模型。N-gram是一种基于统计的语言模型,它的核心思想是:一
Transformer入门（1）transformer及其编码器-解码器通信仿真实验室 Google BERT 构建和训练NLP模型 bert transformer 人工智能 NLP 自然语言处理
文章目录1.Transformer简介2.Transformer的编码器-解码器架构3.transformer的编码器1.Transformer简介Transformer模型是一种用于自然语言处理的机器学习模型，它在2017年由Google的研究者提出，并在论文《AttentionisAllYouNeed》中详细描述。Transformer模型的核心创新在于其采用了自注意力（self-attent
深度学习理论基础（七）Transformer编码器和解码器小仇学长深度学习深度学习 transformer 人工智能编码器解码器
学习目录：深度学习理论基础（一）Python及Torch基础篇深度学习理论基础（二）深度神经网络DNN深度学习理论基础（三）封装数据集及手写数字识别深度学习理论基础（四）Parser命令行参数模块深度学习理论基础（五）卷积神经网络CNN深度学习理论基础（六）Transformer多头自注意力机制深度学习理论基础（七）Transformer编码器和解码器本文目录学习目录：前述：Transformer
Transformer架构原理详解：编码器（Encoder）和解码器（Decoder） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,编码器,解码器,自注意力机制,多头注意力,位置编码,序列到序列,自然语言处理1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展，其中Transformer架构扮演着至关重要的角色。自2017年谷歌发布了基于Transformer的机器翻译模型BERT以来，Transformer及其变体在各种NLP任务上取得了突破性的成果，例如文本分类、问答系统、文本摘要
【Python】深入探讨Python中的单例模式：元类与装饰器实现方式分析与代码示例蒙娜丽宁 Python杂谈 python 单例模式开发语言
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界单例模式（SingletonPattern）是一种常见的设计模式，它确保一个类只有一个实例，并提供一个全局访问点。在Python中，实现单例模式的方式多种多样，包括基于装饰器、元类和模块级别的单例实现。本文将详细探讨这些实现方式，并通过大量代码示例进行演
【人工智能 | 大数据】基于人工智能的大数据分析方法用心去追梦人工智能大数据数据分析
基于人工智能（AI）的大数据分析方法是指利用机器学习、深度学习和其他AI技术来分析和处理大规模数据集。这些方法能够自动识别模式、提取有用信息，并做出预测或决策，从而帮助企业和组织更好地理解市场趋势、客户行为以及其他关键因素。以下是几种主要的基于AI的大数据分析方法：机器学习模型：通过训练算法让计算机从历史数据中学习并做出预测或分类。常见的机器学习技术包括监督学习（如回归分析、支持向量机）、非监督学
深度学习中超参数 fengbingchun Deep Learning hyperparameter
深度学习中的超参数(hyperparameters)是决定网络结构的变量(例如隐藏层数量)和决定网络训练方式的变量(例如学习率)。超参数的选择会显著影响训练模型所需的时间，也会影响模型的性能。超参数是在训练开始之前设置的，而不是从数据中学习的参数。超参数是模型训练期间无法学习的参数，需要事先设置。在深度学习中，模型由模型参数(如神经网络的权重和偏置)定义或表示。然而，训练模型的过程涉及选择最佳超参
基于MATLAB机器学习、深度学习实践技术应用梦想的初衷~ 机器学习人工智能 matlab 机器学习深度学习
近年来，MATLAB在机器学习和深度学习领域的发展取得了显著成就。其强大的计算能力和灵活的编程环境使其成为科研人员和工程师的首选工具。在无人驾驶汽车、医学影像智能诊疗、ImageNet竞赛等热门领域，MATLAB提供了丰富的算法库和工具箱，极大地推动了人工智能技术的应用和创新。原文链接https://mp.weixin.qq.com/s?__biz=Mzg2NDYxNjMyNA==&mid=224
深度求索DeepSeek V2.5-1210发布：AI代码生成器迎来全新升级前端
深度学习技术日新月异，而强大的AI代码生成器也随之不断进化。今天，我们将聚焦于深度求索团队发布的DeepSeekV2.5-1210版本，这款标志着DeepSeekV2系列收官之作，为我们带来了令人惊喜的Post-Training能力提升和备受期待的联网搜索功能。这篇文章将深入探讨DeepSeekV2.5-1210的各项改进，以及其开源带来的深远影响。DeepSeekV2系列的研发历程与V2.5-1
ChatGPT搜索漏洞：AI代码生成器安全隐患及应对策略前端
近年来，随着人工智能技术的飞速发展，各种AI代码生成器层出不穷，为程序员带来了极大的便利。然而，技术进步的同时也伴随着安全风险的提升。最近，OpenAI的ChatGPT搜索工具曝出重大安全漏洞，引发了业界广泛关注。本文将深入探讨该漏洞的细节、影响以及应对措施，并展望未来AI工具安全发展趋势。ChatGPT作为一款强大的AI工具，其搜索功能本意是帮助用户快速获取信息。然而，英国卫报近期报道揭露了Ch
降维算法：主成分分析一个人在码代码的章鱼数学建模机器学习概率论
主成分分析一种常用的数据分析技术，主要用于数据降维，在众多领域如统计学、机器学习、信号处理等都有广泛应用。主成分分析是一种通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量（即主成分）的方法。这些主成分按照方差从大到小排列，方差越大，包含的原始数据信息越多。通常会选取前几个方差较大的主成分，以达到在尽量保留原始数据信息的前提下降低数据维度的目的。它通过将多个指标转换为少数几个主成分,
深度学习学习笔记（第30周） qq_51339898 深度学习人工智能
一、摘要本周报的目的在于汇报第30周的学习成果，本周主要聚焦于基于深度学习的图像分割领域的常用模型U-net。 U-net是最常用、最简单的一种分割模型，在2015年被提出。UNet网络是一种用于图像分割的卷积神经网络，其特点是采用了U型网络结构，因此称为UNet。UNet算法的关键创新是在解码器中引入了跳跃连接（SkipConnections），即将编码器中的特征图与解码器中对应的特征图进行连接
深入解析如何进行TensorFlow框架下的算子开发与适配插件开发：基于昇腾AI的完整流程快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能 tensorflow python
深入解析如何进行TensorFlow框架下的算子开发与适配插件开发：基于昇腾AI的完整流程在人工智能领域中，算子（Operator）作为深度学习模型的基础执行单元，决定了整个模型的计算性能和结果准确性。随着硬件平台的多样化，如何将第三方深度学习框架中的算子适配到特定的硬件平台变得至关重要。本文将深入探讨如何在TensorFlow框架下开发适配昇腾AI处理器的算子插件，通过解析算子属性映射、数据排布
深入解析框架适配开发：基于CANN平台的自定义算子开发与第三方框架适配全流程详解快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能
深入解析框架适配开发：基于CANN平台的自定义算子开发与第三方框架适配全流程详解随着深度学习的发展，不同的深度学习框架如TensorFlow、PyTorch、ONNX等在AI开发者社区中占据了重要地位。然而，针对某些硬件平台（如华为昇腾AI处理器），算子库中的算子并非都已经适配了所有主流框架。为了解决这一问题，框架适配开发应运而生，它允许开发者将已存在于算子库中的算子适配到其他未支持的第三方框架上
深入解析CANN算子开发：TBE与AI CPU算子类型及其开发方法全指南快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能
深入解析CANN算子开发：TBE与AICPU算子类型及其开发方法全指南在现代AI计算领域中，高效的算子开发对于优化深度学习模型的推理与训练至关重要。CANN（ComputeArchitectureforNeuralNetworks）作为华为AscendAI处理器的开发平台，提供了两种类型的算子开发支持：TBE算子和AICPU算子。每种算子类型针对不同的计算任务和硬件架构，开发者需要根据具体场景选择
深度学习-90-大型语言模型LLM之基于LM Studio本地化部署运行自己的大模型皮皮冰燃深度学习深度学习语言模型人工智能
文章目录1LMStudio1.1LMStudio的优点1.2LMStudio的安装1.3配置国内下载模型2LMStudio的应用2.1查找/下载模型2.2模型名称的含义2.3查看已经下载的模型2.4使用聊天3配置服务端3.1启动服务3.2支持的接口3.2.1列出当前加载的模型/v1/models3.2.2聊天补全/v1/chat/completions3.2.3文本补全/v1/completion
Python从0到100（八十三）：神经网络-使用残差网络RESNET识别手写数字是Dream呀 python 神经网络网络
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
解锁辅助驾驶新境界：基于昇腾 AI 异构计算架构 CANN 的应用探秘倔强的石头_ AIGC 人工智能架构
博客主页：倔强的石头的CSDN主页Gitee主页：倔强的石头的gitee主页⏩文章专栏：《AI大模型》期待您的关注目录一、引言二、CANN是什么1.异构计算与人工智能的关系2.CANN的定义和作用3.CANN的技术优势三、基于CANN的辅助驾驶AI应用原理1.目标检测算法2.智能检测流程3.算力平台支持四、基于CANN的辅助驾驶AI优势1.高效训练2.精准检测3.快速编程4.产业应用五、部署实操六
探秘IO分布式模块设计：让大数据处理更高效清水湾落车分布式
一、引言随着互联网的飞速发展，大数据、云计算、人工智能等技术逐渐成为时代的主流。在这个数据爆炸的时代，如何高效地处理海量数据成为企业面临的重大挑战。IO分布式模块设计作为一种有效的解决方案，越来越受到关注。本文将带您了解IO分布式模块设计的基本概念、原理及其在实际应用中的优势。二、什么是IO分布式模块设计？IO分布式模块设计，是指将数据存储、数据处理、数据传输等IO操作进行分布式处理的一种设计方法
【人工智能】Python实战：构建高效的多任务学习模型蒙娜丽宁 Python杂谈 AI 人工智能 python 学习
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界多任务学习（Multi-taskLearning,MTL）作为机器学习领域中的一种重要方法，通过在单一模型中同时学习多个相关任务，不仅能够提高模型的泛化能力，还能有效利用任务间的共享信息。本文深入探讨了多任务学习的基本概念、优势及其在实际应用中的重要性。
以Python构建ONE FACE管理界面：从基础至进阶的实战探索 Allen_LVyingbo python python pyqt
一、引言1.1研究背景与意义在人工智能技术蓬勃发展的当下，面部识别技术凭借其独特优势，于安防、金融、智能终端等众多领域广泛应用。在安防领域，可助力监控系统精准识别潜在威胁人员，提升公共安全保障水平；金融行业中，实现刷脸支付、远程开户等便捷服务，优化用户体验并强化交易安全。智能终端方面，为设备解锁、身份验证等功能提供支持，提升设备使用的便捷性与安全性。然而，现有面部识别系统在数据安全、检索效率及用户
明达云：赋能化工园区，智绘安全高效新蓝图明达技术物联网网络
在日新月异的科技浪潮中，数字化转型已成为各行各业转型升级的关键驱动力。尤其在化工这一关乎国家经济命脉与安全环保的重要领域，如何实现智能化管理、提升运营效率、确保生产安全，成为了摆在众多化工园区面前的重大课题。在此背景下，明达云平台以其卓越的技术实力与深厚的行业经验，正逐步成为化工园区智慧化升级的首选伙伴。智慧监管，安全先行化工生产，安全为先。明达云平台通过集成物联网、大数据、人工智能等先进技术，为
AI大模型：开启智能革命新纪元洋洋科创星球 AI项目管理赋能实战人工智能
1.AI大模型技术：智能革命的新引擎自2022年11月30日OpenAI推出ChatGPT以来，这一大型语言模型（LLM）迅速走红，标志着AI领域进入了一个新的发展阶段，即AI大模型时代。这一时代预示着AI正朝着通用人工智能（AGI）的方向发展。尽管业界对大模型的定义尚未统一，但通常指的是基于Transformer框架的大型语言模型，广义上也包括了多模态大模型，如涉及语言、声音、图像、视频等，技术
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

视觉与多模态大模型前沿进展 | 2023智源大会精彩回顾

你可能感兴趣的:(人工智能,计算机视觉,深度学习,机器学习,神经网络)