夕小瑶

视觉分词器统一图文信息，快手提出基座模型 LaVIT 刷榜多模态任务

你是否想过，有朝一日能够仅输入寥寥数语或图片，就可以一键检索最为匹配的短视频内容。不是凭借视频标签、也不是依靠标题字幕，而是大模型真正理解了视频内容。近期，来自快手的新研究利用视觉分词器统一图文信息，LaVIT 让这个创想逐步变为现实。

近年来，研究人员对多模态大模型（MLLM）理解能力进行探索，旨在将强大的纯文本 LLM 扩展到处理多模态输入。如图 1(a) 所示，常规方法主要将由预训练视觉主干编码的视觉特征映射到 LLM 的语义空间。尽管在零样本多模态理解上初有成效，但仍存在设计缺陷：

▲图1 不同 MLLM 之间的比较

在训练中主要基于视觉内容预测文本描述，但仅将视觉部分视为提示，没有监督学习。
将视觉-语言对齐的任务完全交给了新添加的适配器，但由于适配器的可训练参数有限，未能充分利用 LLM 在学习跨模态交互时的卓越推理能力。

如图 1(b) 所示，虽然同时期工作提出了通过在预训练期间回归下一个视觉 embedding 来解锁文本预训练的 LLM，但由于图像和文本的不一致优化目标，并不有利于统一的多模态建模。

因此，在来自快手的这篇论文中，作者提出一种名为 LaVIT 的新型通用多模态基础模型，借鉴了 LLM 成功的学习方法，即以自回归方式预测下一个图像或文本 token。

它引入了一个设计良好的视觉 token 生成器，用于将非语言图像转换为离散 token 序列，就像 LLM 能够理解的外语一样。因此，LaVIT 能在统一的生成目标上同时处理图像和文本，如图 1（c) 所示。

论文题目:
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization

论文链接:
https://arxiv.org/abs/2309.04669

Github 地址:
https://github.com/jy0205/LaVIT

论文速览

在经过预训练后，LaVIT 可以充当多模态通用模型，执行多模态理解和生成任务，无需进一步的微调。具体而言，LaVIT 具有这些能力：

高质量文本到图像的生成：LaVIT 能够根据给定的图像提示合成高质量、多种纵横比和高美感的图像。其图像生成能力与最先进的图像生成器（如 Parti、SDXL 和 DALLE-3）相媲美。
通过多模态提示进行图像合成：由于在 LLM 中，图像和文本都统一表示为离散 token，因此 LaVIT 可以接受多种模态组合（例如文本、图像+文本、图像+图像）作为提示，生成相应的图像，而无需进行任何微调。
读取图像内容并回答问题：在给定输入图像的情况下，LaVIT 能够阅读图像内容并理解其语义。例如，模型可以为输入的图像提供说明文字并回答相应的问题。

模型方法

本文将文本和视觉两种模态以统一的形式表示，以便复刻 LLM 的学习方法——下一个 token 预测，模型如图 2 所示。

▲图2 给定一对图像和文本，图像被分词成离散 token，并与文本 token 连接形成多模态序列。然后，LaVIT 在统一的生成目标下进行优化

视觉分词器：将非语言图像转换为 LLM 可以理解的输入。视觉分词器接收预训练的视觉编码器的视觉特征，并输出一系列具有类似词汇高级语义的离散视觉 token。
通过精心设计的分词器，视觉输入可以与文本 token 集成，形成一个多模态序列，然后在统一的自回归训练目标下输入到 LLM 中。

阶段 1：动态视觉分词器

▲图3 (a)动态视觉 token 生成器 (b) token 合并器

动态视觉分词器包括 token 选择器和 token 合并器。如图 3(a) 所示，动态视觉 token 生成器使用 token 选择器来选择最具信息的图像区块，用 token 合并器将被舍弃的区块信息压缩到保留的区块上。整个 token 生成器通过最大限度地重构输入图像的语义进行训练。

token 选择器

token 选择器接收 N 个图像区块级的特征作为输入，其目标是评估每个图像区块的重要性并选择信息量最高的区块，以充分代表整个图像的语义。为实现这一目标，采用轻量级模块，由多个 MLP 层组成，用于预测分布 π。通过从分布 π 中采样，生成一个二进制决策 mask，用于指示是否保留相应的图像区块。

token 合并器

根据生成的决策掩码，将N个图像区块划分为保留和舍弃两组。

与直接丢弃不同，作者设计了 token 合并器，以最大限度地保留输入图像的详细语义。token 合并器通过 L 个堆叠的块组成，每个块包括因果自注意力层、交叉注意力层和前馈层。

因果自注意力层中，中的每个 token 关注其前面的 token，以确保与 LLM 中的文本 token 一致。与双向自注意相比，这种策略表现更好。
交叉注意力层将保留的 token 作为查询，并根据它们在嵌入空间中的相似性合并中的 token。

最终实现对被舍弃图像区块信息的渐进性压缩，以保持整体语义的完整性。

阶段 2：统一生成建模

这里通过视觉 token 生成器处理视觉和文本输入，将二者均视为离散 token。对于给定的图像和文本对，2D 图像被分词成有因果依赖性的 1D 序列，然后与文本 token 连接形成多模态序列。

为了区分两种模态，作者在图像 token 序列的开头和结尾插入了特殊 token [IMG] 和 [/IMG]。LaVIT 能够生成文本和图像，采用两种连接形式：[image, text] 和 [text; image]。

当图像用作条件生成文本时，使用 token 合并器的连续视觉特征而非量化的视觉嵌入作为 LLM 的输入，以减轻信息丢失的问题。

LaVIT 采用通用语言建模目标，以自回归方式直接最大化每个多模态序列的似然性。LaVIT 在表示空间和训练方式上实现了完全统一，有助于 LLM 更好地学习多模态交互和对齐。

在预训练完成后，LaVIT 具有感知图像的能力，可以像处理文本一样理解和生成图像。然而，大多数现有方法仅将图像作为引导文本生成的提示，没有监督，限制了其仅执行图像到文本的任务。

实验

零样本多模态理解

该实验评估了 LaVIT 在图像字幕生成（NoCaps、Flickr30k）和视觉问答（VQAv2、OKVQA、GQA、VizWiz）等零样本多模态理解任务上的性能。在视觉问答任务中，使用了简单的提示：“问题：{} 答案：{}”。

▲表1 多模态理解任务的零样本评估概述

表 1 展示了 LaVIT 出色的跨模态建模能力。而且，尽管同时期的方法 Emu 也利用 LLM 共同建模视觉和语言，但其对视觉输入采用直接特征回归目标，使其与文本输入不兼容。因此，尽管使用了更多训练数据和更大的 LLM 规模，但在所有评估基准上性能仍然不及 LaVIT。

零样本多模态生成

在这个实验中，由于所提出的视觉 token 生成器能够将图像表示为离散 token，LaVIT 具有通过自回归生成类似文本的视觉 token 来合成图像的能力。作者对模型进行了零样本文本条件下的图像合成性能的定量评估，比较结果如表 2 所示。

▲表2 不同模型的零样本文本到图像生成性能

从表中可以看出，LaVIT 的表现优于所有其他多模态语言模型。与 Emu 相比，LaVIT 在更小的 LLM 模型上取得了进一步改进，展现了出色的视觉-语言对齐能力。此外，LaVIT在使用更少的训练数据的情况下，实现了与最先进的文本到图像专家 Parti 可比的性能。

多模态提示生成

LaVIT 能够无缝地接受多种模态组合作为提示，生成相应的图像，而无需进行任何微调。

▲图4 多模态图像生成结果的示例

如图 4 所示，LaVIT 能生成高质量的图像，准确反映给定多模态提示的风格和语义。而且它可以通过输入的多模态提示修改原始输入图像。在没有额外微调的下游数据的情况下，传统的图像生成模型如 Stable Diffusion 无法达到这种能力。

消融实验

token 分类还是特征回归？

在联合训练视觉和语言时，选择适当的优化目标对于 2D 栅格顺序的视觉输入至关重要。在将连续的视觉 token 量化为离散形式时，使用交叉熵损失来监督下一个视觉 token 的预测，类似于对文本 token 的监督。

作者认为，这样的统一目标有助于在 LLM 中整合视觉和语言。为验证所提出的视觉量化的优越性，作者采用了类似于 Emu 的回归头，将视觉 token 的优化目标改为回归下一个视觉嵌入。

▲表3 不同训练目标的结果

从表 3(a) 中观察到，采用回归损失来预测下一个视觉 token 会严重降低模型的性能。

动态或固定 token 长度

在实验中，作者比较了两种不同的视觉 tokenization 策略：

将所有补丁嵌入 token 为固定长度的视觉 token （256），
采用动态视觉 tokenization 策略。

表 3(b) 表明，动态视觉 tokenizer 在平均每个输入图像上只需要约为固定 token 的 36%，并实现了更优越的性能。考虑到在 LLM 中，采用动态 tokenization 可以加速训练时间 40%，并降低推理中的计算成本。

定性分析

如图 5 所示，分词器可以根据图像内容动态选择最具信息量的图像块，学习到的代码本可以产生具有高层语义的视觉编码。

▲图5 动态视觉分词器（左）和学习到的代码本（右）的可视化

总结

当前，多模态研究领域蓬勃发展，不断涌现出新的工作。快手的这个算法团队，让 LaVIT 的出现为多模态任务的处理又提供了一种创新范式，通过动态视觉分词器，它成功地将视觉和语言信息整合到一个共同的生成目标中，为模型提供了强大的跨模态建模能力。

它超越了以前的适配器方法，通过使用动态视觉分词器将视觉和语言表示为统一的离散 token 表示，继承了 LLM 成功的自回归生成学习范式。通过在统一生成目标下进行优化，LaVIT 可以将图像视为一种外语，像文本一样理解和生成它们。

这一方法的成功为未来多模态研究的发展方向提供了新的启示，也期待着在这个充满活力的领域中，今后有更多前沿技术的涌现，为实现更智能、更全面的多模态理解和生成打开新的可能性~

你可能感兴趣的:(人工智能)

掌握编程：数字时代的必备技能 afsdfewasdf AI编程
编程在现代社会的必要性学习编程在当今数字化时代具有显著优势。随着科技发展，编程技能已成为许多行业的基础需求，从软件开发到数据分析，甚至传统行业也在逐步依赖技术解决方案。掌握编程能力可以提升个人竞争力，开拓职业机会。就业市场需求旺盛技术岗位如软件工程师、数据科学家、人工智能专家等持续增长。非技术岗位如市场营销、金融分析也要求基础编程知识处理自动化任务或数据分析。掌握编程技能能显著提高薪资水平和职业发
深度剖析AI人工智能在自动驾驶中的系统优化 AI云原生与云计算技术学院人工智能自动驾驶机器学习 ai
深度剖析AI人工智能在自动驾驶中的系统优化关键词：AI人工智能、自动驾驶、系统优化、传感器融合、决策算法摘要：本文深入探讨了AI人工智能在自动驾驶系统中的优化问题。从自动驾驶的背景入手，详细解释了相关核心概念，如传感器、决策算法等。阐述了这些核心概念之间的关系，介绍了核心算法原理和具体操作步骤，还通过数学模型和公式进行了理论支持。给出了项目实战案例，分析了实际应用场景，推荐了相关工具和资源，最后探
AI教父Hinton：别太相信科技领袖们的公开说辞，他们私下对AI的看法会让你不安 | 不摸鱼的独立开发者日报（第36期）不摸鱼_ 不摸鱼的独立开发者日报人工智能科技产品经理 microsoft 个人开发游戏
✍️说明日报相关信息：网站：https://daily.nomoyu.com/RSS：https://daily.nomoyu.com/rss/rss.xml欢迎一起沟通交流AI教父Hinton：别太相信科技领袖们的公开说辞，他们私下对AI的看法会让你不安“人工智能教父”GeoffreyHinton在访谈中表示，他对自己毕生的工作成果表示深切忧虑，并致力于警告世界AI带来的巨大风险，他的主要观点如
openai-go v1.6.0版本详解：新增功能与优化全面解析福大大架构师每日一题文心一言vschatgpt golang easyui 开发语言
一、前言openai-go作为OpenAI官方提供的Go语言客户端库，一直备受广大Go语言开发者关注和喜爱。随着人工智能技术的飞速发展，openai-go的迭代速度也在不断加快。最近，openai-go发布了v1.6.0版本，该版本带来了多项新功能和优化，进一步提升了API的灵活性和开发者体验。本文将基于官方发布的完整更新日志，深入解析v1.6.0版本的新增功能、改进细节及实际应用，帮助读者全面掌
Deepseek：多轮对话与上下文拼接 chilavert318 熬之滴水穿石 ai
今天的内容，应该很好理解。我们先从场景切入来理解。首先，你回想一下，有没有遇到过这样的情况：和朋友聊天时，聊了一会儿，突然朋友说起之前的某个话题，你却有点反应不过来，得努力回忆之前说了啥。人工智能之所以“智能”，因为它就不可能这么健忘。在和Deepseek聊天，在多轮对话中，Deepseek就像一个记忆力超强的小伙伴，能清楚记得你们聊过的每一个重要细节，让对话一直顺顺畅畅。这背后呀，藏着Deeps
MCP 与 AI 任务分解：如何让 AI 高效执行复杂任务？ Echo_Wish Python 进阶人工智能
MCP与AI任务分解：如何让AI高效执行复杂任务？在人工智能应用中，任务分解（TaskDecomposition）是一个绕不开的话题。无论是自动驾驶、智能客服，还是代码生成，AI都需要将复杂问题拆解成可执行的小任务，逐步完成目标。而在AI领域，MCP（Multi-StepCognitiveProcessing，多步认知处理）是一种前沿技术，旨在提升AI的任务分解能力，使其能够更精准、高效地执行复杂
AIGC领域Prompt工程：原理、方法与行业应用 AI天才研究院 ChatGPT 计算 AI大模型应用入门实战与进阶 AIGC prompt ai
AIGC领域Prompt工程：原理、方法与行业应用关键词：Prompt工程、大语言模型（LLM）、提示设计、少样本学习、AIGC应用、思维链（CoT）、提示优化摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，大语言模型（如GPT-4、LLaMA、通义千问）的性能已达到前所未有的高度。然而，模型的强大能力能否被充分释放，很大程度上依赖于"提示（Prompt）"的设计质量。本文系统解析Prom
大语言模型中的思维链提示：解锁高效互动的秘密 t0_54program 大数据与人工智能语言模型人工智能自然语言处理个人开发
在当今的人工智能领域，大语言模型（LLMs）已然成为一颗耀眼的明星，它经过海量训练，能够理解并生成人类语言，在编程等诸多领域助力人们完成日常任务。然而，若想与这些模型实现高效沟通，掌握正确的请求方式至关重要，而思维链提示（Chainofthoughtprompting）便是与LLMs互动时最为高效的技术之一。什么是提示（Prompting）？LLMs基于海量数据集进行训练，以理解并生成类人文本。其
人工智能大模型原理与应用实战：大模型在金融风控中的应用 AI天才研究院 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
文章目录人工智能大模型原理与应用实战：大模型在金融风控中的应用01.背景介绍1.1金融风控的挑战1.2大模型的优势2.核心概念与联系2.1大模型在金融风控中的应用场景2.2大模型与传统风控技术的结合3.核心算法原理具体操作步骤3.1基于大模型的欺诈检测3.2基于大模型的信用评估4.数学模型和公式详细讲解举例说明4.1逻辑回归模型4.2XGBoost模型5.项目实践：代码实例和详细解释说明5.1基于
AlphaStar 星际首秀，人工智能走向星辰大海谷歌开发者
文/王晶，资深工程师，GoogleBrain团队作者王晶，现为GoogleBrain团队的资深工程师，主要致力深度强化学习的研发，和DeepMind团队在强化学习的应用上有许多合作。北京时间1月25日凌晨2点，DeepMind直播了他们的AIAlphaStar和人类顶尖的职业电竞选手对战星际争霸2。根据DeepMind介绍，AlphaStar在2018年12月10日和19日先后以5：0全胜的战绩击
**双生“基尼”**：跨越世纪的术语撞车与学科分野
在学术的宇宙中，“基尼”（Gini）这个名字如同一个奇特的星标，闪耀在两个看似毫不相关的领域：衡量社会贫富差距的经济学与驱动人工智能的机器学习。然而，当人们在这两个领域都遇到“基尼指数”或“基尼系数”时，困惑油然而生——它们为何如此不同？又为何共享同一个名字？这不是某个“傻逼”的随意命名，而是一场跨越学科与世纪的“术语交通事故”，其背后是学术传承与概念抽象的交织。本文由「大千AI助手」原创发布，专
AI算力综述和资料整理木鱼时刻人工智能
目录总体介绍计算精度传输协议GPU池化资源调度CUDA技术GPU硬件参考链接总体介绍AI算力是人工智能系统的核心基础设施，涵盖了从计算精度、传输协议到硬件架构的完整技术栈。计算精度混合精度训练原生满血版DeepSeek671B是FP8精度。FP16在训练计算力占比有80-90%，FP32占比10%-20%。大模型训练中通常会用到FP16（半精度浮点数），但并不是只使用FP16，而是采用**混合精度
【学习】《算法图解》第七章学习笔记：树程序员
前言在前面的章节中，我们学习了数组、链表、散列表等基本数据结构，以及一些基础算法。本章将介绍一种非常重要的数据结构——树(Tree)，特别是二叉搜索树(BinarySearchTree)。树结构在计算机科学中应用广泛，从文件系统到数据库再到人工智能，都能看到树的身影。《算法图解》第七章深入浅出地介绍了树的基本概念、实现和应用，帮助读者理解这一关键数据结构。一、树的基本概念（一）什么是树树是一种分层
智能体综述和参考资料整理木鱼时刻大模型人工智能
目录总体介绍核心组件记忆系统工具系统计划与推理开发框架Single-AgentMulti-Agent智能体平台技术实现通信协议角色系统对话记忆MCP协议参考链接总体介绍智能体（AIAgents）是人工智能领域的重要发展方向，它们能够通过传感器感知环境并通过执行器对环境采取行动。根据罗素和诺维格在《人工智能：一种现代方法》（2016年）中的定义，AIAgent是任何可以通过传感器感知其环境并通过执行
主流AI代码编程工具分享 scuter_yu ai ai编程
在当今数字化时代，AI代码编程工具已成为提升开发效率、优化代码质量的重要助手。这些工具利用人工智能技术，为开发者提供从代码生成、补全到调试、优化等一系列功能，极大地简化了编程流程，让编程变得更加高效、便捷和智能。以下将介绍几款热门的AI代码编程工具。通义灵码产品介绍：通义灵码是阿里云出品的基于通义大模型的智能编程辅助工具，提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成
Deepoc大模型在半导体技术芯片性能应用协助突破物理极限 Deepoch 人工智能网络智能化 AI 科技数据分析硬件工程信息与通信
半导体垂直大模型在芯片设计中的应用与技术突破半导体垂直大模型（SemiconductorVerticalLLM）是专为芯片设计、制造与优化领域训练的大规模人工智能模型，其通过融合半导体物理、工艺知识、设计规则及行业经验，正在重构芯片开发全流程。以下从设计流程革新、性能优化、可靠性提升三大维度，结合具体技术路径与行业案例，解析其应用场景与价值。Deepoc模型在半导体技术应用中取得了巨大突破，可以协
卷积神经网络亿只小灿灿 Python 算法与数据结构人工智能 cnn 人工智能神经网络
一、引言在当今人工智能的浪潮中，卷积神经网络（ConvolutionalNeuralNetwork，CNN）无疑是一颗璀璨的明星。它在图像识别、语音处理、自然语言处理等众多领域取得了巨大的成功，极大地推动了人工智能技术的发展。那么，什么是卷积神经网络？它的算法原理是什么？本文将深入探讨这些问题，并通过Python代码实现一个简单的卷积神经网络，以帮助读者更好地理解和掌握这一强大的技术。二、卷积神经
Python pdfminer.six库【PDF解析库】全面使用指南老胖闲聊 Python库大全 python pdf 开发语言
想全面了解DeepSeek的看过来【包邮】DeepSeek全攻略人人需要的AI通识课零基础掌握DeepSeek的实用操作手册指南【限量作者亲笔签名版售完即止】玩转DeepSeek这本就够了【自营包邮】DeepSeek实战指南deepseek从入门到精通实用操作指南现代科技科普读物AI普及知识读物人工智能使用教程中小学读物京东超级618Python初学者的入门教程动手学深度学习PyTorch版李沐和
HCCDA – AI华为云人工智能开发者认证-60道单选题题库及答案_华为人工智能入门级开发者认证题库 2401_89172925 人工智能华为云华为
单选题及答案AI模型的评测指标主要分为精度指标和性能指标，以下哪一项不属于常用的性能指标？A.FPS(FramesPerSecond)B.FLOPs(Floating-pointOperationsPerSecond)C.aPs（QueryPerSecond）D．F1值Mask＿Detection技能模板提供了口罩检测技能，针对每个人，若没有检测到人脸，也没有检测到口罩，则会显示什么信息？A.No
Agent-to-Agent (A2A) 协议全面解析：定义、原理、应用与未来 C7211BA a2a llm mcp
Agent-to-Agent(A2A)协议全面解析：定义、原理、应用与未来在人工智能技术迅猛发展的今天，AI智能体(Agent)正从独立运作向协同工作演进，而Agent-to-Agent(A2A)协议作为这一转变的关键基础设施，正在重塑AI生态系统的协作方式。本文将从A2A协议的基本定义出发，深入剖析其设计原则、核心机制、技术实现、与MCP协议的对比关系、安全考量以及实际应用场景，帮助读者全面理解
人工智能中的知识图谱与向量数据库：选择与应用指南 AI Agent首席体验官人工智能知识图谱数据库
1.人工智能领域，知识图谱是什么？知识图谱是人工智能和语义网领域的一个重要概念，它是一种结构化的知识表示方法，用于存储实体之间的语义关系。知识图谱基本上是由节点（实体）和边（关系）组成的图结构：节点：代表现实世界中的实体或概念，如人物、地点、组织等边：代表实体间的语义关系，如"出生于"、“工作于”、"创立了"等知识图谱的主要特点和应用包括：语义网络表示：以三元组形式（主体-关系-客体）存储知识，如
【AI大模型】26、算力受限下的模型工程：从LoRA到弹性智能系统的优化实践无心水 AI大模型人工智能搜索引擎 LoRA 大语言模型微调模型压缩知识蒸馏量化技术
引言：算力瓶颈与模型工程的突围之路在人工智能领域，大语言模型的发展正呈现出参数规模爆炸式增长的趋势。从GPT-3的1750亿参数到PaLM的5400亿参数，模型能力的提升往往伴随着对算力资源的极度渴求。然而，对于大多数企业和研究者而言，动辄数百GB的显存需求、数十万块GPU的训练集群显然是难以企及的"算力鸿沟"。当面对"无米之炊"的困境时，模型工程技术成为突破算力瓶颈的核心路径——通过算法创新而非
这份「零基础」机器学习实战课程，帮你彻底搞懂AI不再迷茫！——深度解析ML-For-Beginners wylee 人工智能机器学习
引言：告别迷茫，拥抱AI未来在当今科技浪潮之巅，人工智能（AI）无疑是最璀璨的明星。机器学习（MachineLearning），作为AI的核心驱动力，正以前所未有的速度渗透到我们生活的方方面面：从智能推荐系统到自动驾驶，从疾病诊断到金融风控，其应用场景几乎无处不在。然而，对于无数渴望投身AI领域的学习者而言，机器学习的门槛似乎一直高不可攀。你是否也曾有过这样的困惑：面对海量的在线课程和资料，眼花缭
【学习】《算法图解》第七章学习笔记：树自学也学好编程程序人生
前言在前面的章节中，我们学习了数组、链表、散列表等基本数据结构，以及一些基础算法。本章将介绍一种非常重要的数据结构——树(Tree)，特别是二叉搜索树(BinarySearchTree)。树结构在计算机科学中应用广泛，从文件系统到数据库再到人工智能，都能看到树的身影。《算法图解》第七章深入浅出地介绍了树的基本概念、实现和应用，帮助读者理解这一关键数据结构。一、树的基本概念（一）什么是树树是一种分层
微软人工智能证书AI-102 | 如何快速通过？全球认证考试中心人工智能微软
微软AI-102考试，全称“DesigningandImplementingaMicrosoftAzureAISolution”，是微软推出的用于验证考生在Azure平台上设计和实施AI解决方案核心能力的认证考试。以下是具体介绍：考试描述：考试主要衡量考生实施计划和管理Azure认知服务解决方案、计算机视觉解决方案、自然语言处理解决方案、知识挖掘解决方案、对话式AI解决方案的能力。考试题型通常包括
Bagel: 开源协作式AI数据管理平台的使用指南 llzwxh888 人工智能 python
Bagel:开源协作式AI数据管理平台的使用指南引言在人工智能和机器学习领域，高质量的数据集对于模型训练和推理至关重要。Bagel作为一个开源的协作式AI数据管理平台，为开发者和研究人员提供了一个强大的工具，用于创建、共享和管理推理数据集。本文将深入探讨Bagel的特性、安装方法以及如何使用它来处理和管理向量数据。Bagel简介Bagel（OpenInferenceplatformforAI）可以
使用LangChain构建智能应用：从入门到实战 afTFODguAKBF langchain python
引言在当今的人工智能时代，构建智能应用程序已经成为越来越多开发者的目标。LangChain是一个强大的工具，可以帮助我们快速开发基于大型语言模型（LLM）的应用。本篇文章将带你了解如何从零开始使用LangChain，构建一个简单的LLM应用程序，并逐步探索更复杂的功能。主要内容构建简单的LLM应用使用LangChain，我们可以快速构建一个简单的LLM应用程序。接下来，我将带你一步步实现。什么是L
端侧开发详解初赛收官盛宴 | 2025高通边缘智能创新应用大赛第九场公开课来袭！阿加犀智能人工智能智能硬件
各位开发者、技术爱好者，2025高通边缘智能创新应用大赛即将迎来初赛阶段的最后一堂重磅公开课！诚邀大家于7月3日（星期四）晚8点，准时收看由瑞莎的嵌入式开发工程师张子烽（Morgan）带来的专题分享，共同探索端侧智能应用开发的创新技术路径。聚焦前沿平台掌握端侧智能开发流程本次课程将聚焦基于瑞莎DragonQ6A开发板的端侧人工智能应用开发。该开发板搭载高通跃龙™QCS6490平台（由阿加犀提供开发
SpringBoot生态全景图：从SpringCloud到云原生技术栈演进 fanxbl957 Web spring boot spring cloud 云原生
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot生态全景图：从S
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他