dream_home8407

Qwen-VL论文解读

Qwen-VL：用于理解、定位、文本阅读等的通用视觉-语言模型

摘要

在本文中，我们介绍了Qwen-VL系列，这是一组大规模的视觉-语言模型（LVLMs），旨在感知和理解文本和图像。从Qwen-LM开始，我们通过精心设计的（i）视觉受体，（ii）输入-输出接口，（iii）3阶段训练管道，以及（iv）多语言多模态清洗语料库，赋予其视觉能力。除了传统的图像描述和问答，我们还通过图像-标题-框元组的对齐实现了Qwen-VLs的定位和文本阅读能力。所生成的模型，包括Qwen-VL和Qwen-VL-Chat，在广泛的视觉中心基准测试上（例如图像描述、问答、视觉定位）以及在不同的设置（例如零样本、少样本）下，与类似规模的通用模型相比，取得了新的记录。此外，在现实世界的对话基准测试上，我们的指令微调Qwen-VL-Chat也展示了相对于现有视觉-语言聊天机器人的优越性。所有模型都是公开的，以促进未来的研究。

1 引言

最近，大型语言模型（LLMs）（Brown等人，2020；OpenAI，2023；Anil等人，2023；Gao等人，2023；Qwen，2023）因其强大的文本生成和理解能力而受到广泛关注。这些模型可以通过微调指令进一步与用户意图对齐，展示出强大的交互能力和作为智能助手提高生产力的潜力。然而，原生大型语言模型仅存在于纯文本世界中，缺乏处理其他常见模态（如图像、语音和视频）的能力，从而限制了它们的应用范围。受此启发，一组大型视觉-语言模型（LVLMs）（Alayrac等人，2022；Chen等人，2022；Li等人，2023c；Dai等人，2023；Huang等人，2023；Peng等人，2023；Zhu等人，2023；Liu等人，2023；Ye等人，2023b，a；Chen等人，2023a；Li等人，2023a；Zhang等人，2023；Sun等人，2023；OpenAI，2023）被开发出来，以增强大型语言模型的视觉信号感知和理解能力。这些大规模的视觉-语言模型在解决现实世界的视觉中心问题上显示出巨大的潜力。

尽管如此，尽管已经进行了大量工作来探索LVLMs的限制和潜力，当前的开放源代码LVLMs总是由于训练和优化不足而落后于专有模型（Chen等人，2022，2023b；OpenAI，2023），这阻碍了LVLMs在开源社区中的进一步探索和应用。更重要的是，由于现实世界的视觉场景相当复杂，精细的视觉理解对于LVLMs有效和精确地辅助人们至关重要。但只有少数尝试朝着这个方向进行（Peng等人，2023；Chen等人，2023a），大多数开放源代码的LVLMs仍然以粗糙的方式感知图像，并且缺乏执行精细感知（如对象定位或文本阅读）的能力。

在本文中，我们探索了一种出路，并介绍了开源Qwen家族的最新成员：Qwen-VL系列。Qwen-VLs是基于Qwen-7B（Qwen，2023）语言模型的一系列高性能和多功能的视觉-语言基础模型。我们通过引入一个新的视觉受体，包括一个语言对齐的视觉编码器和一个位置感知适配器，为LLM基础赋予视觉能力。整体模型架构以及输入-输出接口都非常简洁，我们详细设计了一个3阶段训练管道，以优化整个模型在一个庞大的图像-文本语料库上。

我们的预训练检查点，称为Qwen-VL，能够感知和理解视觉输入，根据给定的提示生成所需的响应，并完成各种视觉-语言任务，如图像描述、问答、面向文本的问答和视觉定位。Qwen-VL-Chat是基于Qwen-VL的指令微调视觉-语言聊天机器人。如图2所示，Qwen-VL-Chat能够与用户互动并感知用户的输入图像。

具体来说，Qwen-VL系列模型的特点包括：

领先的性能：Qwen-VLs在广泛的视觉中心理解基准测试上与同类模型相比取得了顶级的准确率。此外，Qwen-VL的惊人表现不仅涵盖了传统的基准测试（例如，描述、问答、定位），还包括一些最近引入的对话基准测试。
多语言：与Qwen-LM类似，Qwen-VLs是在多语言图像-文本数据上训练的，其中相当一部分语料库是英语和中文。通过这种方式，Qwen-VLs自然支持英语、中文和多语言指令。
多图像：在训练阶段，我们允许任意交错图像-文本数据作为Qwen-VL的输入。这一功能允许我们的Qwen-Chat-VL在多个图像给出时比较、理解和分析上下文。
精细的视觉理解：由于我们在训练中使用了更高分辨率的输入尺寸和精细的语料库，Qwen-VLs表现出高度竞争性的精细视觉理解能力。与现有的视觉-语言通用模型相比，我们的Qwen-VLs在定位、文本阅读、面向文本的问答和精细对话方面拥有更好的表现。

2 方法论

2.1 模型架构

Qwen-VL的整体网络架构由三个组件组成，模型参数的细节在表1中显示：

大型语言模型：Qwen-VL采用大型语言模型作为其基础组件。该模型使用Qwen-7B（Qwen，2023）的预训练权重进行初始化。
视觉编码器：Qwen-VL的视觉编码器使用Vision Transformer（ViT）（Dosovitskiy等人，2021）架构，使用Openclip的ViT-bigG（Ilharco等人，2021）的预训练权重进行初始化。在训练和推理期间，输入图像被调整到特定分辨率。视觉编码器通过将图像分割成步长为14的补丁来处理图像，生成一组图像特征。
位置感知的视觉-语言适配器：为了缓解由于长图像特征序列引起的效率问题，Qwen-VL引入了一个视觉-语言适配器来压缩图像特征。这个适配器包括一个单层交叉注意力模块，随机初始化。该模块使用一组可训练向量（Embeddings）作为查询向量，视觉编码器的图像特征作为键进行交叉注意力操作。这种机制将视觉特征序列压缩到固定长度256。关于查询数量的消融实验在附录E.2中显示。此外，考虑到位置信息对于精细图像理解的重要性，交叉注意力机制的查询-键对中加入了2D绝对位置编码，以减轻在压缩过程中可能丢失的位置细节。长度为256的压缩图像特征序列随后被输入到大型语言模型。

表1：Qwen-VL模型参数的细节。

视觉编码器	VL适配器	LLM	总计
1.9B	0.08B	7.7B	9.6B

2.2 输入和输出

图像输入：图像通过视觉编码器和适配器进行处理，产生固定长度的图像特征序列。为了区分图像特征输入和文本特征输入，两个特殊标记（和）分别添加到图像特征序列的开头和结尾，表示图像内容的开始和结束。
边界框输入和输出：为了增强模型在精细视觉理解和定位方面的能力，Qwen-VL的训练涉及区域描述、问题和检测的数据形式。与传统任务涉及的图像-文本描述或问题不同，这项任务需要模型准确地理解和生成指定格式的区域描述。对于任何给定的边界框，应用归一化过程（在[0, 1000)范围内）并将其转换为指定的字符串格式：“(X_{左上角},Y_{左上角}),(X_{右下角},Y_{右下角})”。该字符串被标记化为文本，不需要额外的位置词汇。为了区分检测字符串和常规文本字符串，两个特殊标记（和）添加到边界框字符串的开头和结尾。此外，为了适当地关联边界框与其对应的描述词或句子，另一组特殊标记（和）被引入，标记边界框所指的内容。

3 训练

如图3所示，Qwen-VL模型的训练过程分为三个阶段：两个阶段的预训练和一个阶段的指令微调训练。

3.1 预训练

在第一阶段的预训练中，我们主要利用大规模、弱标签的、网络爬取的图像-文本对集。我们的预训练数据集由几个公开可用的来源和一些内部数据组成。我们努力清理数据集中的某些模式。如表2总结，原始数据集包含总共50亿图像-文本对，清理后剩下14亿数据，其中77.3%是英语（文本）数据，22.7%是中文（文本）数据。

表2：Qwen-VL预训练数据的细节。LAION-en和LAION-zh是LAION-5B（Schuhmann等人，2022a）的英语和中文语言子集。LAION-COCO（Schuhmann等人，2022b）是从LAION-en生成的合成数据集。DataComp（Gadre等人，2023）和Coyo（Byeon等人，2022）是图像-文本对的集合。CC12M（Changpinyo等人，2021）、CC3M（Sharma等人，2018）、SBU（Ordonez等人，2011）和COCO Caption（Chen等人，2015）是学术描述数据集。

语言	数据集	原始	清理	剩余%
	LAION-en	2B	280M	14%
	LAION-COCO	600M	300M	50%
	DataComp	1.4B	300M	21%
英语	Coyo	700M	200M	28%
	CC12M	12M	8M	66%
	CC3M	3M	3M	100%
	SBU	1M	0.8M	80%
	COCO Caption	0.6M	0.6M	100%
中文	LAION-zh	108M	105M	97%
	内部数据	220M	220M	100%
总计		5B	1.4B	28%

我们冻结大型语言模型，只优化视觉编码器和VL适配器。输入图像被调整为224 x 224。训练目标是使文本标记的交叉熵最小化。最大学习率为2e-4，训练过程使用30720的批量大小进行图像-文本对，第一阶段的预训练持续50,000步，消耗大约15亿图像-文本样本。更多超参数在附录C中详细说明，该阶段的收敛曲线在图6中显示。

3.2 多任务预训练

在第二阶段的多任务预训练中，我们引入高质量和精细的VL注释数据，具有更大的输入分辨率和交错的图像-文本数据。如表3总结，我们在7个任务上同时训练Qwen-VL。对于文本生成，我们使用内部收集的语料库来保持LLM的能力。描述数据与表2相同，除了更少的样本和排除LAION-COCO。我们使用公开可用数据的混合体进行VQA任务，包括GQA（Hudson和Manning，2019）、VGQA（Krishna等人，2017）、VQAv2（Goyal等人，2017）、DVQA（Kafle等人，2018）、OCR-VQA（Mishra等人，2019）和DocVQA（Mathew等人，2021）。我们遵循Kosmos-2使用GRIT（Peng等人，2023）数据集进行定位任务，进行了一些修改。对于参考定位和基于定位的描述双重任务，我们从GRIT（Peng等人，2023）、Visual Genome（Krishna等人，2017）、RefCOCO（Kazemzadeh等人，2014）、RefCOCO+和RefCOCOg（Mao等人，2016）构建训练样本。为了改进面向文本的任务，我们从Common Crawl收集pdf和HTML格式的数据，并遵循（Kim等人，2022）生成英语和中文语言的自然风景背景下的合成OCR数据。最后，我们简单地通过将同一任务的数据打包成长度为2048的序列来构建交错的图像-文本数据。

表3：Qwen-VL多任务预训练数据的细节。

任务	# 样本	数据集
描述	19.7M	LAION-en & zh, DataComp, Coyo, CC12M & 3M, SBU, COCO, 内部数据
VQA	3.6M	GQA, VGQA, VQAv2, DVQA, OCR-VQA, DocVQA, TextVQA, ChartQA, AI2D
定位	3.5M	GRIT
参考定位	8.7M	GRIT, Visual Genome, RefCOCO, RefCOCO+, RefCOCOg
基于定位的描述	8.7M	GRIT, Visual Genome, RefCOCO, RefCOCO+, RefCOCOg
OCR	24.8M	SynthDoG-en & zh, Common Crawl pdf & HTML
纯文本自回归	7.8M	内部数据

我们将视觉编码器的输入分辨率从224 x 224增加到448 x 448，减少图像下采样造成的信息损失。此外，我们在附录E.3中消融窗口注意力和全局注意力，以适应更高分辨率的视觉Transformer。我们解锁大型语言模型并训练整个模型。训练目标与第一阶段预训练相同。

3.3 监督微调

在这一阶段，我们通过指令微调来微调Qwen-VL预训练模型，以增强其指令跟随和对话能力，从而得到交互式Qwen-VL-Chat模型。多模态指令微调数据主要来自通过LLM自我指令生成的描述数据或对话数据，通常只解决单图像对话和推理，并且仅限于图像内容理解。我们通过手动注释、模型生成和策略连接构建额外的对话数据集，以将定位和多图像理解能力纳入Qwen-VL模型。我们确认模型有效地将这些能力转移到更广泛的语言和问题类型。此外，我们在训练期间混合多模态和纯文本对话数据，以确保模型在对话能力上的普遍性。指令微调数据量为350k。在这一阶段，我们冻结视觉编码器并优化语言模型和适配器模块。我们在附录B.2中展示了这一阶段的数据格式。

4 评估

在这一节中，我们对各种多模态任务进行全面评估，以综合评估我们模型的视觉理解能力。以下，Qwen-VL表示多任务训练后的模型，Qwen-VL-Chat表示监督微调（SFT）阶段后的模型。

表9提供了使用的评估基准和相应指标的详细摘要。

4.1 图像描述和一般视觉问答

图像描述和一般视觉问答（VQA）是视觉-语言模型的两个传统任务。具体来说，图像描述要求模型为给定图像生成描述，而一般VQA要求模型为给定图像-问题对生成答案。

表4：图像描述和一般VQA的结果。

模型类型	模型	图像描述	图像描述	一般VQA	一般VQA	一般VQA	一般VQA
模型类型	模型	Nocaps (0-shot)	Flickr30K (0-shot)	VQAv2	OKVQA	GQA	SciQA-Img (0-shot)	VizWiz (0-shot)
通用模型	Flamingo-9B		61.5	51.8	44.7			28.8
通用模型	Flamingo-80B	100.0	67.2	56.3	50.6	-	-	31.6
通用模型	Unified-IO-XL			77.9	54.0
通用模型	Kosmos-1			51.0	-	-	-	29.2
通用模型	Kosmos-2		80.5	51.1
通用模型	BLIP-2(Vicuna-13B)	103.9	71.6	65.0	45.9	32.3	61.0	19.6
通用模型	InstructBLIP(Vicuna-13B)	121.9	82.8			49.5	63.1	33.4
通用模型	Shikra(Vicuna-13B)		73.9	77.36	47.16
通用模型	Qwen-VL(Qwen-7B)	121.4	85.8	79.5	58.6

微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练人工智能
LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练LayoutLMv3应用统一的文本-图像多模态Transformer来学习跨模态表示。Transformer具有多层架构，每层主要由多头自注意力机制和逐位置全连接前馈网络组成。Transformer的输入是文本嵌入$Y=y_{1:L}$和图像嵌入$X=x_{1:M}$序列的连接，其中$L$和$M$分别是文本和图像的序列长度。通过Tr
AI时代前端开发的创造力：解放还是束缚？前端
在人工智能（AI）快速发展的时代，AI技术的影响已经渗透到各个领域，从医疗保健到金融服务，再到创意产业。AI工具的出现，为前端开发带来了前所未有的效率提升，但也引发了人们对创造力的担忧：这些强大的AI写代码工具会解放前端工程师的创造力，还是会最终扼杀它？本文将以ScriptEcho为例，探讨AI辅助前端开发工具对前端工程师创造力的双面影响。AI辅助前端开发对创造力的潜在负面影响不可否认，AI辅助前
AI前端开发学习资源与途径：开启你的智能化前端之旅前端
随着人工智能技术的飞速发展，AI写代码工具已经不再是遥不可及的梦想，它正深刻地改变着前端开发的模式。AI赋能前端开发，不仅提高了开发效率，也降低了学习门槛，为更多开发者打开了通往智能化前端世界的大门。然而，学习AI前端开发也面临着诸多挑战，需要系统学习和持续实践。本文将为你详细介绍AI前端开发的学习途径、资源以及实践经验，助你开启这段精彩的旅程。AI前端开发的兴起及重要性近年来，人工智能技术在各个
AI前端开发：与新技术融合，重塑职业发展之路前端
近年来，人工智能(AI)技术飞速发展，深刻地改变着各个行业，前端开发领域也不例外。AI写代码工具的兴起，为前端开发者带来了前所未有的机遇和挑战。本文将探讨AI前端开发与其他技术的融合，分析其对职业发展的影响，并以ScriptEcho为例，解读AI如何赋能前端开发。AI前端开发与其他技术的融合：机遇与挑战并存AI前端开发并非孤立存在，它与低代码/无代码平台、区块链技术、Web3.0、元宇宙等新兴技术
AI时代的前端开发：拥抱变化，迎接挑战前端
近年来，人工智能（AI）技术的飞速发展深刻地改变着各个行业，前端开发领域也不例外。面对AI带来的冲击和挑战，开发者们需要积极拥抱变化，学习新技能，才能在竞争激烈的市场中立于不败之地。本文将探讨AI时代前端开发面临的新挑战，以及如何利用AI赋能前端开发，提高效率，应对技术更新迭代。关键词：AI写代码工具AI时代前端开发的新挑战AI技术的快速发展，为前端开发带来了前所未有的机遇，同时也带来了新的挑战。
自动驾驶技术的未来趋势与挑战分析智能计算研究中心其他
内容概要自动驾驶技术自诞生以来经历了多个发展阶段。最初的研究集中在感知和控制系统的基础构建，随后进入了数据处理和算法的优化阶段，如今，随着人工智能和机器学习技术的快速应用，自动驾驶行业正处于一个前所未有的迅猛发展期。当前，行业内涌现出多种解决方案，各大汽车制造商与科技公司纷纷加大投入，推动这一领域的技术进步。市场需求不断增加，为自动驾驶技术注入活力。城市交通拥堵、环境污染等问题促使人们寻求更加智能
DeepSeek预言未来5年升值最快的东西 ZhuBin365 其它人工智能机器人
Thinking好的，我现在需要思考未来5年哪些东西可能会升值最快。首先，我得考虑当前的经济趋势和技术发展的方向。通货膨胀可能继续，所以实物资产可能保值。然后是科技领域，比如人工智能、量子计算这些前沿技术相关的资产可能会有增长。接着，环保和可持续发展是热门话题，可再生能源相关的产业可能会增值。例如，太阳能、风能的公司股票或者相关技术专利。另外，电动汽车和电池技术也可能持续发展，锂、钴等稀有金属的需
LLM大模型产品经理学习指南【2025全新版】：极致详细，一篇搞定！大模型入门学习产品经理语言模型人工智能 DeepSeek 大模型学习 LLM
前言·随着人工智能技术的蓬勃发展，尤其是大模型（LargeModel）的强势兴起，越来越多的企业对这一领域愈发重视并加大投入。作为大模型产品经理，需具备一系列跨学科的知识与技能，方能有效地推动产品的开发、优化以及市场化进程。以下是一份详尽的大模型产品经理学习路线，旨在助力你构建所需的知识体系，实现从零基础到精通的蜕变。一、基础知识阶段（一）计算机科学基础数据结构与算法：深入理解基本的数据结构（如数
销售易、极兔、珍客CRM：产品功能特色与企业适用性分析程序员机器学习人工智能
销售易CRM产品功能移动化与社交化：销售易CRM支持iOS、Android等主流操作系统，销售人员可以随时随地访问客户信息、更新销售进度、创建任务等。同时，它还具备社交化功能，能够整合企业内部的社交网络，促进员工之间的协作与沟通。AI与大数据驱动：销售易CRM融合了人工智能和大数据技术，通过智能数据分析，帮助企业洞察客户行为和需求，预测销售趋势。例如，AI可以对客户数据进行深度挖掘，识别出高价值客
前瞻技术：塑造未来生活的新趋势火龙果wa 生活人工智能经验分享
人工智能在艺术创作中的应用越来越普遍。AI可以生成画作、音乐和文学作品。它通过分析大量数据，学习艺术风格，并能创造出独特的作品。AI创作的艺术作品有几个特点。首先，它可以快速完成创作，节省时间。第二，AI能够融合多种风格。这使得作品更加多样化，有了新的表现形式。此外，AI常常会产生一些意想不到的创意，这能激发人们的灵感。艺术家与AI的合作也在逐渐发展。很多艺术家开始尝试与AI共同创作。他们使用AI
4.Python教程--项目部署篇（全）花开如雨笔记
Python人工智能总目录人工智能总目录网页链接文章目录Python人工智能总目录13、Python运维Day0113.1运维1.运维概述2.运维工具3.Linux常用命令4.周期性计划任务5.awk的使用14、Python项目部署Day0114.1项目部署1.概念2.项目部署(nginx+uwsgi+django)3.部署在线商城项目13、Python运维Day0113.1运维1.运维概述1、运
DeepSeek深度探索：从新手到高手的蜕变之旅古龙飞扬 ai 人工智能
引言在当今数字化与智能化的浪潮中，人工智能（AI）技术正以前所未有的速度改变着我们的生活和工作方式。DeepSeek，作为一款由杭州深度求索人工智能基础技术研究有限公司开发的人工智能模型，凭借其强大的功能和灵活的应用场景，成为了众多企业和专业人士的得力助手。本文将带你深入了解DeepSeek，从新手入门到高手进阶，掌握其核心功能与使用技巧，实现个人能力的蜕变。一、初识DeepSeek：人工智能的“
AI前端开发的国际化发展机遇：ScriptEcho助力全球化布局 2401_89747417 人工智能前端
在全球化的今天，互联网应用已不再局限于单一市场。高效便捷的前端开发方案成为企业拓展国际市场的关键。得益于人工智能技术的飞速发展，AI代码生成器正在深刻改变前端开发模式，为国际化应用开发带来前所未有的机遇。然而，国际化开发也面临着诸多挑战，例如不同地区用户习惯、技术标准、语言差异等等。本文将探讨AI前端开发在国际化市场中的机遇与挑战，并以ScriptEcho为例，分析AI工具如何助力企业实现高效的全
中国人工智能的起步/发展，与这位数学家密切相关东锋1.3 人工智能人工智能
1979年在中国是一个重要的年份。这一年发生了诸多大事，也被视为中国在政治、经济、科技、文化等多个领域的一个重要转折点和中国近现代历史重要的时期断代点之一。相比1979年所开启的波澜壮阔的新时代，中国人工智能(ArtificialIntelligence，AI)研究在1979年的起步只能算历史大潮中的一朵不起眼的浪花，但在中国人工智能的历史里，这是开天辟地的大事件。人工智能最早的学派是符号主义学派
今日AI和商界事件(2025-02-07) LS_learner AI和商界事件人工智能
今日AI领域的相关事件包括但不限于以下几个方面：一、政策与监管美国众议员推动禁止政府设备使用中国AI应用DeepSeek：美国众议院两名来自两党的议员提议立法，禁止联邦政府设备使用中国人工智能应用DeepSeek，理由是中国政府可能利用该应用进行监视和散布虚假信息。这一事件反映了地缘政治紧张背景下，各国在关键技术领域对自主性和安全性的重视。二、行业动态与发展OpenAI推进“星际之门”项目：Ope
精通LangChain：如何使用Unstructured处理多种格式的图像文档 hshahtjtbh langchain python
#引言随着人工智能和深度学习的快速发展，文档图像分析(DocumentImageAnalysis,DIA)在许多领域中变得至关重要。然而，处理多种图像格式的文档仍然是一个挑战。本文将介绍如何使用Unstructured库，通过LangChain框架加载和处理多种格式的图像文档，帮助您在DIA任务中实现更高效的工作流程。#主要内容##安装Unstructured在开始之前，确保安装了Unstruct
《深入了解Unstructured包：在LangChain中使用Unstructured.IO提取干净文本》 cgsayuclv langchain python
引言在现代数据处理和人工智能应用中，解析和清洗文本数据是一个重要的环节。无论是PDF文件、Word文档还是CSV文件，能够高效地提取有用信息对下游任务至关重要。这篇文章将介绍如何使用Unstructured.IO的Unstructured包来从原始文档中提取干净文本，并在LangChain框架中使用它。本文将包含安装与设置指南、详细教程、代码示例、常见问题及解决方案，并提供进一步学习的资源。主要内
DeepSeek-V2模型版本更新：探索高效经济的多专家混合架构姜葵烽
DeepSeek-V2模型版本更新：探索高效经济的多专家混合架构DeepSeek-V2项目地址:https://gitcode.com/hf_mirrors/ai-gitcode/DeepSeek-V2在人工智能模型的发展进程中，每一次版本更新都是对前一次成果的深化与完善。今天，我们将详细介绍DeepSeek-V2模型的新版本特性，以及它如何通过创新的架构设计，实现了在性能和成本之间的最佳平衡。新
【人工智能】Python中的深度学习优化器：从SGD到Adam 蒙娜丽宁 Python杂谈人工智能人工智能 python 深度学习
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在深度学习模型的训练过程中，优化器起着至关重要的作用，它决定了模型的收敛速度以及最终的性能。本文将介绍深度学习中常用的优化器，从传统的随机梯度下降（SGD）到现代的自适应优化器（如Adam）。我们将深入探讨每种优化器的原理、优缺点，并通过Python实现
【人工智能】基于Python和OpenCV实现实时人脸识别系统：从基础到应用蒙娜丽宁 Python杂谈人工智能 python 开发语言
随着人工智能和计算机视觉的快速发展，人脸识别技术已广泛应用于监控、安全、社交媒体、金融和医疗等领域。本文将介绍如何利用Python和OpenCV库，结合dlib进行实时人脸识别的实现。通过构建一个基础的实时人脸识别系统，读者将深入了解人脸检测与识别的核心原理，掌握如何使用现有的计算机视觉工具快速开发一个有效的实时系统。本文将详细介绍如何通过OpenCV和dlib来实现人脸检测与识别，如何实时获取摄
机器学习面试笔试知识点-线性回归、逻辑回归(Logistics Regression)和支持向量机(SVM) qq742234984 机器学习线性回归逻辑回归
机器学习面试笔试知识点-线性回归、逻辑回归LogisticsRegression和支持向量机SVM微信公众号：数学建模与人工智能一、线性回归1.线性回归的假设函数2.线性回归的损失函数（LossFunction）两者区别3.简述岭回归与Lasso回归以及使用场景4.什么场景下用L1、L2正则化5.什么是ElasticNet回归6.ElasticNet回归的使用场景7.线性回归要求因变量服从正态分布
【AI】人工智能没那么神秘！仇辉攻防人工智能 ai 语言模型自然语言处理机器学习深度学习网络安全
AI是什么？人工智能（ArtificialIntelligence），英文缩写为AI。AI人工智能不是简单的应用程序，而是一类技术，包含机器学习、自然语言处理、计算机视觉等多个领域。AI系统通常由算法、数据、模型和代码组成，其中代码用于实现算法，数据用于训练模型，最终形成智能决策能力。AI可以嵌入到应用程序中，但其本身是一个复杂的技术体系。AI为什么这么聪明？AI之所以看起来很聪明，主要是因为它通
强化学习算法：蒙特卡洛树搜索 (Monte Carlo Tree Search) 原理与代码实例讲解杭州大厂Java程序媛 DeepSeek R1 &AI人工智能与大数据 java python javascript kotlin golang 架构人工智能
强化学习算法：蒙特卡洛树搜索(MonteCarloTreeSearch)原理与代码实例讲解关键词：蒙特卡洛树搜索,强化学习,决策树,搜索算法,博弈策略,应用场景,代码实现1.背景介绍1.1问题由来强化学习（ReinforcementLearning,RL）是人工智能领域的一个核心分支，专注于通过与环境交互，学习最优策略以实现特定目标。传统的强化学习算法，如Q-learning、SARSA等，通常依
大语言模型的分类及本地部署所需的硬件配置要求 Kelaru LLM 基础知识语言模型分类人工智能
1、大语言模型概念及作用大语言模型：（LargeLanguageModel,LLM）是一种基于深度学习的人工智能模型，它能够理解和生成自然语言[1]。简单来说，它就像一个“超级大脑”，能够处理各种语言任务，比如写文章、回答问题、翻译语言等；它通过训练大量的文本数据，学习语言的结构、语法、语义以及上下文关联，从而能够理解和生成与人类语言相似的文本。举个例子：如果你问它一个问题，比如：“为什么天空是蓝
超级人类模型：机遇与挑战并存 XianxinMao 人工智能算法机器学习
标题：超级人类模型：机遇与挑战并存文章信息摘要：超级人类模型的对齐问题是人工智能领域最紧迫的挑战之一，既可能带来医疗、科学和经济等领域的巨大进步，也可能因认知鸿沟、失控风险和不可逆性导致灾难性后果。尽管OpenAI提出的“弱到强泛化”方法在某些任务上取得了一定成功，但其效果仍有限，且存在能力损失和任务依赖性等挑战。解决对齐问题需要提前研究、跨学科合作和国际协调，以确保超级人类模型的发展始终与人类价
Flux如何工作？这款新图像生成AI可与Midjourney一较高下硅基创想家 AI-人工智能与大模型人工智能 midjourney Flux 大模型人工智能生成图片
Flux是什么？Flux是黑森林实验室（BlackForestLabs）开发的一款新型人工智能图像生成模型。它代表了人工智能生成艺术领域的重大进展，采用了一种“混合架构”，将transformer和diffusion技术相结合，参数规模达120亿。该模型在图像生成方面具备顶尖性能，在精准遵循提示词、视觉质量、图像细节和输出多样性等方面表现卓越。谁创造了Flux？该模型由黑森林实验室推出。这是一家新
如何从零构建具身智能AI系统？硅基创想家 AI-人工智能与大模型人工智能具身职能 AI智能体
通过这份循序渐进的指南，学习构建能够独立感知、推理和行动的自主AI系统。在人工智能领域，具身智能AI系统正在重新定义自动化和决策流程。这些系统旨在自主运行，模仿人类的推理和行动能力。从自动驾驶汽车到智能虚拟助手，具身智能AI系统正在变革各个行业。在本指南中，我们将详细拆解从零构建具身智能AI系统的过程，涵盖关键组件、工具以及逐步指导，助你开启这一旅程。一、理解具身智能AI系统具身智能AI系统是一种
2024年机器学习高薪认证科技评论AI 机器学习人工智能
在这个数字时代，各大公司都在优先考虑使用AI（人工智能）和ML（机器学习）来解决各种问题。机器学习已成为技术领域中最具活力和收益潜力的领域之一，其在组织中的日益整合导致对具有认证资格专业人士的需求增加。认证不仅有助于提高在这一领域的专业知识，而且还能增加他们的收入潜力。本文深入探讨了2024年最具高薪潜力的机器学习认证，以及它们的价格，以便为您提供详尽的展望并帮助您选择合适的认证。最高薪的机器学习
transformer 我爱派生深度学习 transformer 深度学习人工智能
导语：2017年，一篇名为《AttentionisAllYouNeed》的论文横空出世，提出了Transformer模型，彻底改变了自然语言处理（NLP）领域的格局。Transformer以其独特的结构和强大的性能，迅速成为NLP领域的霸主，并逐渐向其他人工智能领域渗透。本文将带你深入了解Transformer的原理、优势以及应用，探讨其对人工智能发展的深远影响。一、从RNN到Transforme
人工智能大模型原理与应用实战：自动文摘系统的设计与实现 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍随着互联网技术的快速发展，在线文章阅读成为了人们获取新知识和学习技巧的方式之一。而提高文章的质量和流畅度成为保证用户满意的一个重要因素。如何从海量文本中生成合格的、可读性强且精准的文章摘要成为一个关键问题。一般来说，自动摘要分为句子级摘要和段落级摘要两种类型。前者针对较短的文章进行摘要，后者针对较长的文章进行摘要。然而，文章摘要的效果始终受到文章所处的上下文
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23