Adenialzz

CLIP 改进工作串讲（下）

本文为 CLIP 改进工作串讲（下）【论文精读】的学习笔记。

图像生成

最近一年图像生成领域扩散模型大火，尤其是文本生成图像，DALL-E、imagen 等工作层出不穷，有机会专门再写。这里就只介绍一篇 SIGGRAPH 2022 的最佳论文：CLIPasso。

CLIPasso

Paper：CLIPasso: Semantically-Aware Object Sketching

Code：https://clipasso.github.io/clipasso/

简介

CLIPasso 要做的事情如图 1 所示，要由一张语义清晰的图像生成其对应的抽象简笔画，要求用较少的比划勾勒出原图的轮廓，并且与原图具有相同的语义内容，即原图是头公牛，生成的抽象简笔画也要能看出来是头公牛。

图1. CLIPaaso由图像生成简笔画

方法

生成简笔画的方法肯定不是直接做图到图的生成，这里是使用图形学中的贝塞尔曲线来完成简笔绘画。贝塞尔曲线通过定义平面上的几个点来确定一条曲线，是图形学方向的内容，具体不做展开。

CLIPasso 的模型框架如图 2 所示，中间的 Rasterizer 是图形学方向根据参数绘制贝塞尔曲线的一种方法，本文方法的创新点主要在损失函数和初始化方法两个方面。

损失函数

简介中提到过，生成的简笔画有两个要求：一是要在语义上与输入图像一致，即马还是马、牛还是牛；二是生成的简笔画的几何轮廓也要与原图一致，不能虽然还是马，但是马头的朝向反了，或者是趴着的马。

在 CLIPasso 中，这两个要求分别由两个损失函数几何损失 $L_g$ 和语义损失 $L_s$ 来保证。

语义损失的思路与之前介绍过的 ViLD 的只是蒸馏的思想类似，要让模型提取到的图像特征和 CLIP 图像编码器提取的特征接近，从而在语义上保证原图和简笔画图都是马。这样做的依据是 CLIP 能做到对无论是自然图像、简笔画图等还是其他任何风格的图像，都能准确提取出语义特征，这种能力来自于 CLIP 400M 规模的训练数据。
几何损失类似于感知损失，是在约束模型前基层的的特征图。因为在模型的前几层，学习到的还是相对低层的几何纹理信息，而非高层语义信息，因此约束浅层特征可以保证原图和简笔画图的几何轮廓接近。

显著性 (saliency) 图用来对贝塞尔曲线参数进行初始化，作者发现，如果完全随机初始化贝塞尔曲线的参数，会使得模型训练很不稳定。因此他们使用显著性图来辅助贝塞尔曲线参数的初始化，从语义明确的区域采点进行初始化，改善了训练的稳定性。

图2. CLIPaaso模型框架

总结

实验部分就不一一列举了，有兴趣可以去原文查看。CLIPasso 简笔画方法的两个突出优势一是可以适应任意语义类别的输入图像。通过 CLIP 模型的帮助，简笔画的训练不再局限于数据集中固有的几个类别；二是 CLIPasso 可以指定最终出图的比划数。

视频理解

CLIP4clip

Paper：CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

Code：https://github.com/ArrowLuo/CLIP4Clip

简介

CLIP4clip 做的是视频文字检索，这是一篇实验性质的论文，旨在探索 CLIP 模型在视频领域的应用。

方法及实验结果

既然是实验性质的论文，那我们直接来看 CLIP4clip 用哪几种模型结构进行了实验（如图 3 所示）。视频相较于图像无非就是对了一维时间维度，在 CLIP 训练时图像文本对的图像特征和文本特征是一对一的，但是在视频中，图像特征有多个（分别对应不同帧），要与文本特征计算对比损失，需要将这些特征进行融合。这里融合的方式无非就还是视频领域 early/late fusion 那一套 (不熟悉的可参考: 深度学习时代的视频理解综述)，即图 3 (b) 中的三种融合方式：

直接平均池化（图中 parameter-free type）：最简单粗暴的方式就是直接对多帧视频特征直接进行平均池化，这样做的有点是简单直接，并且是无参的。缺点也很明显，直接取平均的方式消解了视频帧之间的时序信息，缺失掉时序信息会使得一组视频帧表达的意思改变甚至反转（~~正所谓 “倒放罢了”~~）。即使如此，直接平均池化的方式依旧是最常用的方式，它简单直接，甚至有时效果更好。
时序学习后融合（图中 sequential type）：要像考虑到平均池化不能建模的时序信息，一般的想法就是用 Transfomer/LSTM 这种时序建模网络。这是一种 late fusion 的方式，即先各自进行特征处理，再进行特征融合。
一起进行学习（图中 tight type）：也是用 Transformer 对时序进行建模，与上一种方法的区别是这里是直接将文本特征和图像帧特征一起送到 Transformer 中进行学习，即 early fusion。

图3. CLIP4clip框架

原文在五个视频文字检索数据集上都进行了实验，结果类似，这里只看一个 MSR-VTT 的结果。如图 4 所示，在训练数据量较小（左侧 7K）时，平均池化表现最好，当训练数据量增强（右侧 9K），对时序进行建模的方法超过了平均池化的结果。

图4. CLIP4clip在MSR-VTT上的定量实验结果

论文最后给出了共四点 insights：

图像特征可以很好地迁移到视频特征
要将图像的特征提取器迁移到视频领域，最后做一下 post-pretrain，即在图像数据上 pretrain 之后，再用视频数据 pretrain 一下，毕竟图像数据与视频数据还是有所区别
3D patch + late fusion 的方式在视频文字检索领域比较有前途
CLIP 模型用于视频文字检索对学习率极为敏感

ActionCLIP

Paper：ActionCLIP: A New Paradigm for Video Action Recognition

Code：https://github.com/sallymmx/actionclip

简介

视频领域另一个很重要的任务是动作识别，动作识别是给定一段视频，模型要预测出该段视频内的动作，本质上是一个分类任务。本文借助 CLIP 中对比学习的思想，构建了一个多模态的动作识别模型。本文方法与之前单一模态的动作识别方法的对比如图 5 所示。

在单一模态的动作识别方法中，整个流程与图像分类任务类似，都是先对数据抽取一个特征，然后通过线性层分类器得到预测结果，再与 one-hot 标签计算交叉熵损失即可，动作识别与图像分类流程上唯一的区别就是视频数据比图像数据多了一维时间维，需要对多帧视频特征进行融合。动作识别任务的一个难点是标签很难组织，对于分类来说，标签就是语义清晰的物体类别（如猫、狗、飞机）名词，而在动作分类中，标签动名词组合的短语，如开门（open the door），这时就很容易出现语义模糊性，比如 open 这个词还可以用于 open your mind 等完全不用语义的内容。因此动作识别可能存在的标签类别空间是接近无穷的，如果想要将这些类别一一标注出来几乎是不可能的，即使标注完成，在这么多类的情况下，softmax 可能就没有无法工作了。因此，如何实现文本监督的训练，使得模型能够通过理解文本语义来理解想要分类的动作，实现 zero-shot 的动作识别，是一个需要解决的问题。

针对这个问题，自然就能想到通过 CLIP 中图像文本对这种自监督对比学习的方式。本文的框架（图 5 下方）正是如此。本文的创新点主要有两个，一是如何提取视频特征并与文本特征计算相似度；二是视频与文本对比学习的损失函数。

图5. ActionCLIP与单模态动作识别方法的对比

方法

将图像文本对换成视频文本对进行对比学习，需要解决的问题有两个，一是如何提取视频的特征，二是如何计算视频文本对的对比损失。

先来看第二点，不同于 CLIP 中的图像文本对之间一对一的对比关系，视频文本对中可能出现多个一段文本与多段视频相关，这时在目标相似度矩阵中，就不止有对角线元素是正样本（如图 5 所示）。解决方法也很简单，只要将交叉熵损失换成 KL 散度，约束两个分布的相似度即可。

再来看第一点，如何提取视频特征，并与文本特征计算相似度。本文网络结构图如图 6 所示，乍看之下有些复杂，但实际上还是在 CLIP 多模态相似度计算的框架之下，结构创新主要集中在几个 prompt。prompt 是最近 NLP 领域大火的一个概念，可以理解为通过设计或生成模板来辅助预测，在 CLIP 原论文中，使用 “A photo of {category}.” 来进行 zero-shot 图像分类的方法就是一种 prompt。关于 NLP 中的 prompt 稍详细的简介推荐这篇博客：NLP新宠——浅谈Prompt的前世今生。

本文中，文本特征提取和视频特征提取都有 prompt 的设计，但实际上，只有文本编码器这边的 prompt 与现在常提到的 prompt 概念是一致的，图像编码器这边的 prompt 更多可以认为是一种 adapter 来调整特征尺寸或添加一些信息，或许是为了名称与文本 prompt 对齐，才叫做 prompt 这个名字。

文本prompt

本文中文本 prompt 的是手工设计的 prompt，如图6 (d) 所示，本文通过 prefix/cloze/suffix prompt 三种模板分别在句子前/句子中/句子添加动作类别信息，作为文本编码器的输入。

视觉prompt

本文图像编码器这边的三个 prompt 与 prompt 的原义关系不大，且认为是 ViT 中的几个网络结构即可。

pre-network prompt：图6 © 中展示的是 pre-network prompt，实际上就是将视频帧的时间和空间上的图像块加上位置编码，将时序信息和位置信息添加到输入中；
in-network prompt：图6 (d) 展示的是 in-network prompt，实际上是一种时序上的 shift 操作。shift 是一种常用的技术，它在特征图上做一些移动，在保持保持零额外开销的情况下增强模型的建模能力，在视频领域的 TSM、视觉 Transformer 中的 swin 都有相关的应用。
post-network prompt：图6 (e) 展示的是 post-network prompt，这一部分就与上面介绍的 CLIP4clip 一模一样了（连名字、简写都一样），就是三种将多帧图像特征融合为视频特征的三种方式。

图6. ActionCLIP的模型结构

消融实验

实验部分着重看几个消融实验。

如图 7 所示，该消融实验意图探究预训练对于动作分类任务是否有用。整体的结论肯定是有用的，无论是 NLP，还是 CV，预训练基本上已经是基本操作。这里想提的一个点是，观察表格结果发现，文本特征提取器的预训练初始化似乎没有那么重要，至少远没有图像的预训练初始化重要。这也印证了近年来多模态领域研究的一个趋势：大家都把研究的重心放在视觉这边的特征提取，视觉-语言联合模型的初始化也都是用 ViT 的预训练权重初始化。

图7. ActionCLIP关于是否需要进行预训练的消融实验

图 8 所示的消融实验意图验证本文网络结构部分的设计，即文本 prompt 和视觉 prompt 有没有用。可以看到，文本 prompt 提升十分有限。在视觉 prompt 中，in-network prompt 即 shift 模块，不仅没提升，甚至还降了接近三个点；而 post-network prompt 还是有比较明显的提升。与视频文本检索领域的 CLIP4clip 的观察有所不同的是，动作识别领域的 ActionCLIP 平均池化的融合方式与时序建模融合方式有了较大的差距。这是因为视频文本检索领域的数据集都太小，微调训练体现不出时序建模的作用，而在动作识别领域，当有了充分的数据来进行微调之后，时序建模还是很有用的。

图7. ActionCLIP关于prompt设计的消融实验

其他方向

多模态 CLIP-ViL

Paper：How Much Can CLIP Benefit Vision-and-Language Tasks?

Code：https://github.com/clip-vil/CLIP-ViL

本文也算是一篇实验性质的论文，作者将 CLIP 的预训练参数用来初始化 ViL 模型，然后再各种视觉-文本多模态任务上进行微调，测试结果。

语音 AudioCLIP

Paper：AudioCLIP: Extending CLIP to Image, Text and Audio

Code：https://github.com/AndreyGuzhov/AudioCLIP

视频数据本身就是一种丰富的多模态数据，其中既有图像帧，也有语音和文本标注。本文结构图如图 8 所示，将图像、文本、语音三种模态特征分别提取特征，然后两两进行跨模态的对比学习。

图8. AudioCLIP在图像、文本、语音三种模态间的对比学习

3D PointCLIP

Paper：PointCLIP: Point Cloud Understanding by CLIP

Code：https://github.com/ZrrSkywalker/PointCLIP

3D 想要利用 2D 图像数据训练 CLIP 模型，关键就是要将 2D 与 3D 联系起来。本文（流程图如图 9 所示）通过现将 3D 点云投射为多张 2D 的深度图实现了这种联系。

图9. PointCLIP的流程图

DepthCLIP

Paper：Can Language Understand Depth?

Code：https://github.com/Adonis-galaxy/DepthCLIP

本文试图探究 CLIP 模型能否理解图像的深度。在之前的一些应用和改进工作中，都是在利用 CLIP 出色的语义识别能力，由于是通过对比学习的方式在大量的图像文本对上进行训练，因此语义识别能力是 CLIP 模型最强的地方。而对于 “深度” 这种抽象的概念，对比学习的方式很难建模。

本文的流程图如图 10 所示，作者直接将深度估计这个回归问题通过指定深度区间转化为分类问题，然后构造 prompt，去预测每个像素的深度。这里就与 LSeg 有点像了，都是一个像素级的分类问题。

图10. DepthCLIP流程图

总结

CLIP 在目标任务相关工作按照改动程度由小到大来分大概有以下三种：

直接用 CLIP 模型的预训练特征，与目标任务的特征进行融合（点乘、拼接等），还是按照目标任务进行训练。只是借用 CLIP 提取的比较好的特征。
将 CLIP 作为教师模型来进行知识蒸馏（浅/深层特征蒸馏），协助训练目标任务。
借鉴 CLIP 多模态对比学习的思想，定义目标任务的正负样本对，从而实现 zero-shot 的推理。

Ref

NLP新宠——浅谈Prompt的前世今生

机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
机器学习：让计算机学会思考的艺术平凡而伟大. 机器学习机器学习人工智能
目录什么是机器学习？机器学习的基本步骤常见的机器学习算法机器学习的实际应用如何入门机器学习？结语在当今数字化时代，机器学习（MachineLearning,ML）已经成为一个炙手可热的话题。从推荐系统到自动驾驶汽车，再到语音助手，机器学习的应用无处不在。然而，对于许多人来说，机器学习仍然是一个神秘而复杂的领域。本文将用通俗易懂的语言，带你走进机器学习的世界，了解它的基本原理和应用。什么是机器学习？
机器学习中的 K-均值聚类算法及其优缺点平凡而伟大. 机器学习机器学习算法均值算法
K-均值聚类是一种常用的无监督学习算法，用于将数据集中的样本分成K个簇。其基本原理是将所有样本点划分到K个簇使得簇内样本点之间的距离尽可能接近，而不同簇之间的距离尽可能远。算法流程如下：随机选择K个样本点作为初始的聚类中心。将每个样本点分配到与其最近的聚类中心所在的簇。更新每个簇的聚类中心为该簇所有样本点的平均值。重复第2步和第3步，直到聚类中心不再变化或者达到最大迭代次数。优点：简单且易于实现。
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
机器学习knnlearn1 XW-ABAP 机器学习机器学习人工智能
importmatplotlib.pyplotaspltimportnumpyasnpimportoperator#定义一个函数用于创建数据集defcreateDataSet():#定义特征矩阵，每个元素是一个二维坐标点，代表不同策略数据点的坐标group=np.array([[20,3],[15,5],[18,1],[5,17],[2,15],[3,20]])#定义每个数据点对应的标签，用于区分
基于 MySQL 和 Spring Boot 的在线论坛管理系统设计与实现城南|阿洋-计算机从小白到大神 mysql spring boot 数据库
markdownCopy✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、pyhton、机器学习技术领域和毕业项目实战✌哈喽兄弟们，好久不见哦～最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的，想一想既然放在电脑里面也吃灰，那么还不如分享出去，没准还可以帮助到
零基础入门机器学习：用Scikit-learn实现鸢尾花分类藍海琴泉机器学习 scikit-learn 分类
适合人群：机器学习新手|数据分析爱好者|需快速展示案例的学生一、引言：为什么要学这个案例？目的：明确机器学习解决什么问题，建立学习信心。机器学习定义：让计算机从数据中自动学习规律（如分类鸢尾花品种）。为什么选鸢尾花数据集：数据量小、特征明确，适合教学演示。Scikit-learn优势：提供现成算法和工具，无需从头写数学公式。二、环境准备：5分钟快速上手目的：搭建可运行的代码环境，避免卡在工具安装环
机器学习--DBSCAN聚类算法详解 2201_75491841 机器学习算法聚类人工智能
目录引言1.什么是DBSCAN聚类？2.DBSCAN聚类算法的原理3.DBSCAN算法的核心概念3.1邻域（Neighborhood）3.2核心点（CorePoint）3.3直接密度可达（DirectlyDensity-Reachable）3.4密度可达（Density-Reachable）3.5密度相连（Density-Connected）4.DBSCAN算法的步骤5.DBSCAN算法的优缺点5
【机器学习】机器学习工程实战-第3章数据收集和准备腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第2章项目开始前文章目录3.1关于数据的问题3.1.1数据是否可获得3.1.2数据是否相当大3.1.3数据是否可用3.1.4数据是否可理解3.1.5数据是否可靠3.2数据的常见问题3.2.1高成本3.2.2质量差3.2.3噪声（noise）3.2.4偏差（bias）3.2.5预测能力低（lowpredictivepower）3.2.6过时的样本3.2.7离群值3.2.8数据泄露/目标泄漏3
机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
集成学习（随机森林） herry57 数学建模大数据随机森林集成学习
目录一、集成学习概念二、Bagging集成原理三、随机森林四、例子（商品分类）一、集成学习概念集成学习通过建⽴⼏个模型来解决单⼀预测问题。它的⼯作原理是⽣成多个分类器/模型，各⾃独⽴地学习和作出预测。这些预测最后结合成组合预测，因此优于任何⼀个单分类的做出预测。只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的二、Bagging集成原理分类圆形和长方形三、随机森林在机器学习中，随机森林是
【机器学习】朴素贝叶斯入门：从零到垃圾邮件过滤实战吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能朴素贝叶斯深度学习 pytorch sklearn 开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【机器学习】机器学习工程实战-第2章项目开始前腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第1章概述文章目录2.1机器学习项目的优先级排序2.1.1机器学习的影响2.1.2机器学习的成本2.2估计机器学习项目的复杂度2.2.1未知因素2.2.2简化问题2.2.3非线性进展2.3确定机器学习项目的目标2.3.1模型能做什么2.3.2成功模型的属性2.4构建机器学习团队2.4.1两种文化2.4.2机器学习团队的成员2.5机器学习项目为何失败2.5.1缺乏有经验的人才2.5.2缺乏领
机器学习怎么做特征工程全栈你个大西瓜人工智能机器学习人工智能特征工程数据预处理特征变换特征降维特征构造
一、特征工程通俗解释特征工程就像厨师做菜前的食材处理：原始数据是“生肉和蔬菜”，特征工程是“切块、腌制、调料搭配”，目的是让机器学习模型（食客）更容易消化吸收，做出更好预测（品尝美味）。二、为什么要做特征工程？数据质量差：原始数据常有缺失、噪声、不一致问题（如年龄列混入“未知”）。模型限制：算法无法直接理解原始数据（如文本、日期需要数值化）。提升效果：好特征能显著提升模型性能（准确率提升10%~5
When Large Language Models Meet Speech: A Survey on Integration Approaches UnknownBody LLM Daily Survey Paper 语言模型人工智能自然语言处理
主要内容研究背景：大语言模型（LLMs）在自然语言处理领域取得显著进展，其与语音的融合具有广泛应用前景，但缺乏相关集成方法的综述。文章将语音与LLMs集成方法分为基于文本、基于潜在表示和基于音频令牌三大类。集成方法基于文本的集成：通过级联集成、LLM重打分和LLM生成式错误纠正等方式，利用文本作为LLMs的输入和输出，处理语音相关任务，但存在信息损失和准确性与多样性平衡的问题。基于潜在表示的集成：
【机器学习】机器学习四大分类藓类少女机器学习机器学习分类人工智能
机器学习的方法主要可以分为四大类，根据学习方式和数据标注情况进行分类：1.监督学习（SupervisedLearning）特点：有标注数据（即训练数据有明确的输入(X)和输出(Y)）。学习目标是找到一个映射(f(X)\approxY)。适用于分类和回归问题。主要算法：分类（Classification）：逻辑回归（LogisticRegression）支持向量机（SVM）朴素贝叶斯（NaïveBa
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
机器学习——KNN超参数练习AI两年半机器学习人工智能深度学习
sklearn.model_selection.GridSearchCV是scikit-learn中用于超参数调优的核心工具，通过结合交叉验证和网格搜索实现模型参数的自动化优化。以下是详细介绍：一、功能概述GridSearchCV在指定参数网格上穷举所有可能的超参数组合，通过交叉验证评估每组参数的性能，最终选择最优参数组合。其核心价值在于：自动化调参：替代手动参数调试，提升效率3。交叉验证支持：通
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
重要重要！！fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵概率论线性代数 windows 微信机器学习
fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义Fisher信息矩阵（FisherInformationMatrix,FIM）用于衡量模型参数估计的不确定性，其计算和更新在统计学、机器学习和优化中具有重要作用。以下是其计算和更新的关键步骤：一、Fisher矩阵的计算定义Fisher矩阵的元素表示对数似然函数关于参数的二阶导数的期望值的负数，即：Fi,j=−
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

CLIP 改进工作串讲（下）

CLIP 改进工作串讲（下）

图像生成

CLIPasso

简介

方法

总结

视频理解

CLIP4clip

简介

方法及实验结果

ActionCLIP

简介

方法

消融实验

其他方向

多模态 CLIP-ViL

语音 AudioCLIP

3D PointCLIP

DepthCLIP

总结

Ref

你可能感兴趣的:(计算机视觉,自然语言处理,计算机视觉,深度学习,机器学习)