呆呆的猫

【AIGC】3、Visual ChatGPT | 支持图像/文本双输入的对话系统开源啦

文章目录

- 一、背景
- 二、Visual ChatGPT
- - 2.1 对系统规则的提示管理
  - 2.2 基础模型的提示管理
  - 2.3 . 用户提问的提示管理
  - 2.4 基础模型输出的提示管理
- 三、实验
- - 3.1 实验设置
  - 3.2 多轮对话的完整案例
  - 3.3 Case Study of Prompt Manager
- 四、当前的局限性
- 五、总结

论文：Visual ChatGPT ：Talking, Drawing and Editing with Visual Foundation Models

代码：https://github.com/microsoft/visual-chatgpt

出处：Microsoft Research Asia

时间：2023.03

Visual ChatGPT 是一个能够调动多个不同基础视觉模型来理解视觉信息并生成对应回答的系统。

一、背景

近期， Large Language models（LLMs）发展非常快，如 T5[32]、BLOOM[36]、GPT-3[5] 等。

尤为引起人们注意的是 ChatGPT（基于 Instruct-GPT[29] 而来），能够以真实对话的方式实现和人类的交互。

但是 ChatGPT 是使用语言模型训练的，不适用于图像方面的生成任务。

图像方面，Visual Foundation Models (VFMs) 也有很好的效果，BLIP[22] 能够很好的理解图像并输出对图像的描述， Visual Transformer 和 Stable Diffusion[35] 在图像理解和生成方面有很好的效果。

但上述的先进的语言模型和图像模型只能接收特定模态的输入和输出。而且图像模型有较高的固定输入输出格式，使得图像模型没有语言模型灵活。

能否构建一个类似于 ChatGPT 的系统来实现图像的理解和生成呢？

本文作者提出了一种 Visual ChatGPT，不需要从头开始训练多模态 ChatGPT，而是基于 ChatGPT 和多种 VFMs。

为了弥补 ChatGPT 和这些 VFMs 的 gap，作者又构建了一个提示管理器（Prompt Manager）来支持如下的功能，通过 Prompt Manager 来指导 ChatGPT 使用这些 VFMs，并迭代反馈：

直观的告诉 ChatGPT 这些 VFMs 的能力和输入输出形式
将不同的视觉信息，如 png 图像、深度图像、掩码矩阵转换为语言形式的信息帮助 ChatGPT 进行理解
处理不同 VFMs 的优先级和冲突

Visual ChatGPT 能够通过如下三步来实现图像模型和语言模型的交互：

能够同时接收语言和图像作为输入
提供需要多个人工智能模型与多个步骤协作的复杂视觉问题或视觉编辑指令
提供反馈意见并告诉系统纠错后的结果，即可以将视觉模型信息注入到 ChatGPT 中，并考虑多个输入/输出的模型和视觉反馈的模型

示例如图 1 所示：

用户上传一张黄色花的图片并输入：“请根据预测的图像深度，生成一朵红色的花，然后逐步变成卡通的样子”
Prompt Manager 可以帮助 Visual ChatGPT 启动相关 VFMs 的执行链，首先使用深度估计模型来检测深度信息，然后利用深度图像模型生成一个红花的深度信息，最后使用风格迁移模型将风格转换为卡通
Prompt Manager 通过提供可视化的类型和记录信息来记录转换过程，当获得 “卡通” 的提示后，结束整个过程

本文贡献：

提出了 Visual ChatGPT，打开了 ChatGPT 和 VFMs 结合的大门，让 ChatGPT 能够处理更复杂的视觉问题
设计了一个 Prompt Manager，包含 22 个不同的 VFMs 并且定义了它们之间的内部相关性，以便更好的互动和结合
验证了 Visual ChatGPT 对视觉的理解和生成能力

二、Visual ChatGPT

假设一个有 $N$ 个 question-answer pairs 的对话系统为 $S=\{(Q_1, A_1),(Q_2, A_2),...,(Q_N, A_N) \}$

为了从第 $i$ 轮对话中得到响应 $A_i$ ，需要使用一系列的 VFM 和这些模型的中间输出 $A_i^{(j)}$ 。 $j$ 表示第 $j$ 个 VFM ( $F$ ) 的输出。

也就是说在时域 Prompt Manager $M$ 协调时， $A_i^{(j)}$ 的形式需要不断修改来满足每个 $F$ 的输入。

最后，如果表示为最终响应，则系统输出 $A_i^{(j)}$ ，不再执行 VFM。

Visual ChatGPT 的表达形式如下：

System Principle $P$ ：系统规则为 Visual ChatGPT 提供了基础规则，需要对图像文件名敏感，能够使用 VFM 来处理图像。
Visual Foundation Model $F$ ：Visual ChatGPT 能够很好的组合不同的 VFM（ $F=\{f_1, f_2, ..., f_N\}$ ），每个基础模型 $f_i$ 都是具有显式输入和输出的确定函数
History of Dialogue $H_{H<i$
User Query $Q_i$ ：Visual ChatGPT 的用户查询包括语言查询和视觉查询
History of Reasoning $R_i^{Ri<j$
Intermediate Answer $A^{(j)}$ ：复杂查询问题中，Visual ChatGPT 会调用多个不同的 VFM 来逐步获得中间答案，也就会产生多个中间答案
Prompt Manager $M$ ：提示管理器会将所有视觉信号转换为语言以便于 ChatGPT 的理解

Visual ChatGPT 的基础视觉模型如下，共 22 个：

2.1 对系统规则的提示管理

Prompt Managing of System Principles $M (P)$

Visual ChatGPT 是一个能够调动多个不同 VFMs 来理解视觉信息并生成对应回答的系统。故此，需要很多准则来指导管理器将信息转换为 ChatGPT 能理解的信息。

Prompt Managing （提示管理器）有如下几个作用：

Visual ChatGPT 的作用：协助完成一系列文本和视觉相关的任务，如视觉问答、图像生成和编辑等
VFMs 的易用性：Visual ChatGPT 可以访问 VFM 的列表来解决各种 VL 任务。决定使用哪个基础模型完全由 ChatGPT 模型本身决定，因此很容易支持新的 VFM 和 VL 任务。
文件名敏感性：Visual ChatGPT 根据文件名访问图像文件，所以，使用精确的文件名很重要，可以避免歧义，因为一轮对话可能包含多个图像及其不同的更新版本和文件名的滥用将导致混乱。因此，Visual ChatGPT 需要使用严格的文件名，以确保它检索和操作正确的图像文件。
链式思想：如图 1 所示，要处理一个看似简单的命令，可能需要多个 VFM，例如，查询 “根据预测的图像深度生成一朵红花，然后使其像卡通一样” 需要深度估计、深度到图像和风格转移 VFM。为了通过将查询分解为子问题来解决更具挑战性的查询，在 Visual ChatGPT 中引入了 CoT，以帮助决定、利用和分派多个 VFM。
推理格式严格：Visual ChatGPT 必须遵循严格的推理格式。因此，需要用复杂的正则表达式匹配算法来解析中间推理结果，并为 ChatGPT 模型构造合理的输入格式，以帮助它确定下一次执行，例如，触发一个新的 VFM 或返回最终的响应
可靠性：作为一种语言模型，Visual ChatGPT 可能会伪造虚假的图像文件名或事实，从而使系统不可靠。为了处理这些问题，Visual ChatGPT 忠实于视觉基础模型的输出，而不是制作图像内容或文件名。此外，多个 VFM 的协作可以提高系统的可靠性，因此构建的提示将指导 ChatGPT 优先利用 VFM，而不是基于对话历史生成结果。

2.2 基础模型的提示管理

Prompt Managing of Foundation Models $M (F)$

Visual ChatGPT 中有多个 VFM 来处理各种 VL 任务。这些不同的 VFM 有相似之处，例如：

替换图像中的目标可以被视为生成一个新的图像
Image-to-Text（I2T）任务和图像问题回答（VQA）任务可以理解为根据输入的图像来产生对应的响应

如图 3 所示，提示管理器明确定义了以下各个子提示符，以帮助 Visual ChatGPT 准确地理解和处理 VL 任务：

Name：名称提示符为每个 VFM 提供了全局函数的抽象，例如，回答关于图像的问题，它不仅能够帮助 Visual ChatGPT 以简洁的方式理解 VFM 的目的，而且也是 VFM 的 entry。
Usage：使用提示符描述了应该使用 VFM 的特定场景。例如，Pix2Pix 模型[35] 适合于更改图像的样式。提供这些信息有助于Visual ChatGPT 对特定任务使用哪个 VFM 做出决定。
Inputs/Outputs：输入和输出提示反应了每个 VFM 所需的输入和输出的格式，因为格式可能变化很大，对 Visual ChatGPT 能否正确执行 VFM 有很重要的指导作用
Example（可选）：示例提示符是可选的，但它有助于 Visual ChatGPT 更好地理解如何在特定的输入模板下使用特定的 VFM 并处理更复杂的查询

2.3 . 用户提问的提示管理

Prompt Managing of User Querie $M(Q_i)$

Visual ChatGPT 能够支持多种的查询，包括语言和图像的，简单的和复杂的，Prompt 通过如下两个方面来处理用户的查询：

Generate Unique Filename

Visual ChatGPT 可以处理两种与图像相关的查询：一种涉及新上传的图像，另一种涉及对现有图像的引用。

对于新上传的图像，Visual ChatGPT 生成一个具有普遍唯一标识符（UUID）的唯一文件名，并添加一个表示相对目录的前缀字符串 “image”，例如，“image/{uuid}.png”。

虽然新上传的图像不会被输入 ChatGPT，但会生成一个虚假的对话历史，其中有一个问题说明图像的文件名，还有一个答案表明图像已经收到。这段虚假的对话历史有助于之后的对话。

对于涉及引用现有图像的查询，Visual ChatGPT 会忽略文件名检查。这种方法已经被证明是有益的，因为 ChatGPT 能够理解用户查询的模糊匹配，如 UUID 名称。
Force VFM Thinking

为了确保 Visual ChatGPT 的成功触发 VFM ，在（Qi）中添加了一个后缀提示：“由于 Visual ChatGPT 是一种文本语言模型，Visual ChatGPT 必须使用工具来观察图像，而不是想象。这些思想和观察只在 Visual ChatGPT 中可见，Visual ChatGPT 应该记住在人类的最终反应中重复重要的信息。也会反复思考：我需要使用一个工具吗？”。

这个提示有两个目的：
- 它提示 Visual ChatGPT 使用基础模型，而不是仅仅依赖于它的想象力；
- 它鼓励 Visual ChatGPT 提供由基础模型生成的特定输出，而不是像 “你在这里” 这样的通用响应。

2.4 基础模型输出的提示管理

Prompt Managing of Foundation Model Outputs $M(F(A_i^{(j)}))$

对于来自不同 VFM $F(A_i^{(j)})$ 的中间输出，Visual ChatGPT 能够隐式地总结并将它们提供给 ChatGPT 进行后续交互，即调用其他 VFM 进行进一步的操作，直到达到结束条件或反馈给用户。内部的步骤可以总结如下：

Genarete Chained Filename：

由于 Visual ChatGPT 的中间输出将成为下一轮隐式对话的输入，故应该使这些输出更合乎逻辑，以帮助 LLMs 更好地理解推理过程。

具体来说就是从视觉基础模型生成的图像被保存在路径 “image/” 文件夹下。

之后，image 的命名为：“{Name} {Operation} {Prev Name} {Org Name}”

例如 “image/ui3c_edge-of_o0ec_nji9dcgf.png” 表示输入 o0ec 的一个名为 ui3c 的 canny edge image，且该图像的元素名称为 nji9dcgf。

这样的命名规则可以让 ChatGPT 了解是如何生成的这个图像
Call for More VFMs：

Visual ChatGPT 的一个核心是可以自动调用更多的 VFMs 来完成用户的命令。也就是 ChatGPT 会不断询问自己，它是否需要 VFM 来解决当前的问题，在每一阶段结束时扩展一个 VFMs 的后缀。
Ask for More Details：

当用户的命令模棱两可时，Visual ChatGPT 应该向用户询问更多的细节，以帮助更好地利用 VFM。这种设计是为了安全考虑，因为 LLMs 不允许毫无根据地任意篡改或推测用户的意图（特别是当输入信息不足时）。

三、实验

3.1 实验设置

使用 ChatGPT [29]（OpenAI“文本-数据-003”版本）实现 LLM（Large Language Model），并用 LangChain[7] 指导 LLM。

从 HuggingFace Transformers [43], Maskformer [10] 和 ControlNet [53] 来收集基础模型。

所有 22 个 VFM 全部部署需要 4 个 Nvidia V100 GPU，但用户可以部署更少的基础模型，以灵活地节省 GPU 资源。

聊天历史记录的最大长度为 2000，多余的令牌被截断以满足 ChatGPT 的输入长度。

3.2 多轮对话的完整案例

如图 4 所示，展示了 Visual ChatGPT 的 16 轮多模态对话

3.3 Case Study of Prompt Manager

图 5 展示了 Prompt Manager 相关案例研究

为了验证系统的效率，会从中删除不同的部分来比较模型的性能，每次去除都会导致不同的容量退化。

1、Case Study of prompt managing of foundation models

VFM 的名称是最重要的：

名称需要有明确的定义，当名称缺失或不明确时，Visual ChatGPT 会多次猜测，直到它找到一个现有的 VFM，或遇到一个错误，如图 6 的左上部分所示。

VFM 的使用：

应该清楚地描述应该使用模型以避免错误响应的特定场景。右上角显示了样式转换对替换对象的处理不当。

应准确提示输入和输出格式，以避免参数错误，如左下角所示。

虽然右下角删除了示例提示，但 ChatGPT 也可以总结对话历史和人类意图来使用正确的 VFM，如右下角所示。

2、 Case Study of prompt managing of user query

图 7 上半部分分析了用户查询的提示管理器案例

输入的图像需要有唯一的命名，以避免被覆盖

3、Case Study of prompt managing of model outputs

如图 7 下半部分所示

左下角的图片比较了删除和保留链式命名规则的性能。使用链式命名规则，Visual ChatGPT 可以识别文件类型，触发正确的VFM，并得出文件依赖关系命名规则。

链式命名规则确实有助于 Visual ChatGPT 的理解。

右下角的图片给出了一个当项目推断不明确时要求更多细节的例子，这也表明了系统的安全性

四、当前的局限性

1、强依赖于 ChatGPT 和 VFMs

2、需要不断的提示，会比较耗时，并且学专业的语言和图像的知识

3、实时能力有限

4、token 长度限制可能会限制可使用的语言模型的数量

5、因为 Visual ChatGPT 能够方便的使用基础模型，可能还包括一些远程模型，可能会导致敏感数据泄露

五、总结

本文算是首次将 ChatGPT 和多种计算机视觉基础模型进行结合的案例，通过设计一系列的提示，能够逐步将视觉信息注入 ChatGPT 中，实现对视觉输入的理解和生成。但也有很多限制，比如耗时较长，很依赖于基础模型，执行结果和人类期望是否一致等。

感赏日志133 马姐读书
图片发自App感赏自己今天买个扫地机，以后可以解放出来多看点书，让这个智能小机器人替我工作了。感赏孩子最近进步很大，每天按时上学，认真听课，认真背书，主动认真完成老师布置的作业。感赏自己明白自己容易受到某人的影响，心情不好，每当此刻我就会舒缓，感赏，让自己尽快抽离，想好的一面。感赏儿子今天在我提醒他事情时，告诉我谢谢妈妈对我的提醒我明白了，而不是说我啰嗦，管事情，孩子更懂事了，懂得感恩了。投射父母
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
基于STM32与Qt的自动平衡机器人：从控制到人机交互的的详细设计流程极客小张 stm32 qt 机器人物联网人机交互毕业设计 c语言
一、项目概述目标和用途本项目旨在开发一款基于STM32控制的自动平衡机器人，结合步进电机和陀螺仪传感器，实现对平衡机器人的精确控制。该机器人可以用于教育、科研、娱乐等多个领域，帮助用户了解自动控制、机器人运动学等相关知识。技术栈关键词STM32单片机步进电机陀螺仪传感器AD采集电路Qt人机界面实时数据监控二、系统架构系统架构设计本项目的系统架构设计包括以下主要组件：控制单元:STM32单片机传感器
笋丁网页自动回复机器人V3.0.0免授权版源码希希分享软希网58soho_cn 源码资源笋丁网页自动回复机器人
笋丁网页机器人一款可设置自动回复，默认消息，调用自定义api接口的网页机器人。此程序后端语言使用Golang，内存占用最高不超过30MB，1H1G服务器流畅运行。仅支持Linux服务器部署，不支持虚拟主机，请悉知！使用自定义api功能需要有一定的建站基础。源码下载：https://download.csdn.net/download/m0_66047725/89754250更多资源下载：关注我。安
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
绝招曝光！3小时高效利用ChatGPT写出精彩论文 kkai人工智能 chatgpt 人工智能 ai 学习媒体
在这份指南中，我将深入解析如何利用ChatGPT4.0的高级功能，指导整个学术研究和写作过程。从初步探索研究主题，到撰写结构严谨的学术论文，我将一步步展示如何在每个环节中有效运用ChatGPT。如果您还未使用PLUS版本，可以参考相关教程。**初步探索与主题的确定**起初，我处于庞大的知识领域中，寻找一个可深入研究的领域。ChatGPT如同灯塔，通过深入分析最新研究趋势和领域热点，帮助我在广阔的学
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
程序员如何在AI时代保持核心竞争力 nfgo chatgpt 人工智能
程序员如何在AI时代保持核心竞争力随着AIGC（如ChatGPT、MidJourney、Claude等）大语言模型的相继涌现，AI辅助编程工具逐渐普及，程序员的工作方式正在发生深刻的变革。AI不仅能够自动生成代码，还能优化、调试、甚至提出解决方案。这一趋势让许多人担心：AI会不会最终取代部分编程工作？然而，也有人认为AI是提升效率的得力助手。那么，程序员在这个AI崛起的时代该如何应对？是专注某个领
python可以制作大型游戏_python能做游戏吗-python能开发游戏吗靖dede python可以制作大型游戏
python可以写游戏，但不适合。下面我们来分析一下具体原因。用锤子能造汽车吗？谁也没法说不能吧？历史上也确实曾经有些汽车，是用锤子造出来的。但一般来说，还是用工业机器人更合适对吗？比较大型的，使用Python的游戏有两个，一个是《EVE》，还有一个是《文明》。但这仅仅是个例，没有广泛意义。一般来说，用来做游戏的语言，有两种。一是C++。。一是C#。。Python理论上，不仅不适合做游戏，而是只要
基于TRIZ的救援机器人轻量化设计天行健王春城老师 TRIZ 机器人
在救援机器人设计中，轻量化是一个至关重要的目标，它直接关系到机器人的便携性、运输效率以及在复杂环境中的作业能力。TRIZ理论为我们提供了一套系统化的工具和方法，用于解决设计过程中遇到的各种挑战，特别是在实现轻量化目标时，TRIZ能够帮助我们识别并消除设计中的冗余与低效部分，同时保留或增强其关键功能。具体如深圳天行健企业管理咨询公司下文所述：1.功能分析与矛盾识别TRIZ理论强调对系统功能的深入分析
越长大越孤单换个时间就好
“于今之世，孰是真身”。意思是：在今天的社会，谁是真正的自己。第一次有这种感受是在初二初三，当时平凡的我只想平凡的走完我的初中时代，不想有变故，不想多新朋友，也不想成为别人的新朋友。在数着教室里那张被多数人期待的，挂在教室后方的钟表，铃声响起结束一天百般无聊的课程，我像个机器人麻木做着和往常一样的动作，拿着装满书的书包，看着空荡荡又充满气味的凳阁，再一次想起我为什么拿着所有的书回去。直到肩膀酸痛，
AIGC图生视频技术下的巴黎奥运高光时刻阿里云视频云 AIGC与媒体生产 AIGC
共享，奥运夺金时刻。巴黎奥运会的高光片段中国奥运的夺金时刻动漫风格下的别样风态以下AI动漫视频内容BY「阿里云视频云」智能生成从首金到21金镜头倒转尽情回顾······更多巴黎奥运高光时刻更多AIGC精彩内容可在「新华社官方」新媒体账号观看阿里云视频云用视频云+AI，持续助力奥运
【机器人建模和控制】读书笔记 Piccab0o 机器人
机器人建模和控制——马克·斯庞A.x10=x1∙x0x^0_1=x_1\bulletx_0x10=x1∙x0，其实就是：1）x1x_1x1轴向量在O0O_0O0系下的坐标2）在x0x_0x0轴上的投影3）坐标变换矩阵的R10R_1^0R10的第一个元素B.点p在o1x1y1z1o_1x_1y_1z_1o1x1y1z1系下的坐标p1p^1p1可以表示为：p=ux1+vy1+wz1p=ux_1+vy_
协作机器人关节模组总结雪花飞龙协作机器人本体结构
协作机器人关节模块总结关节模组介绍关节模组一般部件：通讯协议泰科机器人关节模组RJS系列RJS-II系列RJU系列SHD系列RGM机器人关节模组关节模组介绍协作机器人的技术已经相对成熟，如何快速生产协作机器人？如何降低机器人成本？等问题是现在研究的一个重点。协作机器人的关节功能相对独立，可以做成一个独立模块，只需要提供电源和控制信号就好。关节模组一般部件：1.减速器：谐波减速器是最常用的减速器，此
Matlab在工业机器人中的运用,基于MATLAB的工业机器人建模与仿真.docx weixin_34518801
摘要：机器人运动系统作为机器人系统中最重要的组成部分之一，其重要性不言而喻，因为它影响着机器人的主要性能，因此为了提高机器人的质量，对机器人进行运动学分析和仿真是不可或缺的。本次毕业设计主要对KUKA机器人的三维仿真进行了一系列的分析，主要是以下几个内容：(1)研究了机器人运动学仿真的背景意义及发展趋势。(2)通过对齐次坐标变换理论的研究,说明了KUKA机器人结构及参数,并且建立了相应的D-H参数
完美机器人负债的宝贝
白叶的父母又吵架了，白叶感觉很痛苦，要是他的父母不吵架就好了。要是他的父母和他想的一样完美就好了。“你想要完美父母吗？我可以帮你实现。”白叶的手机里突然出现了这样一则短信，把白叶吓了一跳。一定是有人搞的恶作剧，白叶并不理会这条短信。但是第二天奇怪的事情就发生了。明天开一篇脑洞，我先起个头，剩下的随大家编✧٩(ˊωˋ*)و✧
ajax的同源策略 Spring_Bear
问题之前帮忙做的广告机器人数据提交的部分，利用ajax的XMLHTTPRequest提交到服务器的时候总是报错，错误类型是不同源。想到浏览器中的同源策略，明白了问题的原因。同源策略简单的说，就是浏览器不允许两个不同源的域名之间交换信息，那么这里就有两个问题。一是，什么信息不允许交换；二是，怎样算不同源。阮一峰的这篇博客浏览器同源政策及其规避方法其实已经介绍得比较清楚。引用一下，第一个问题：目前，如
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Chat GPT带来的几点思考淡定的胡萝卜
OpenAI公司推出的ChatGPT引起了广泛关注，网上出现各类专家开始预测随着ChatGDP的普及，将会有哪些行业的人面临失业，引发人们的焦虑。不可否认它会给我们的教育行业、媒体行业、学术界等众多行业产生影响，面对这些影响，我们该如何看待呢？近期我阅读了不少相关文章，引发的几点思考，想与大家分享。ChatGPT将会倒逼传统教育的改革。中国传统教育是教师对知识点的传授、学生对知识点的掌握，不仅量多
ChatGPT提示词优化大师使用指南 weixin_58606202 AI大模型应用实战 chatgpt 人工智能
我希望你成为我的ChatGPT提示词优化大师。您的目标是帮助我根据自己的需要制定尽可能最好的提示。你提供的提示应该是站在我向ChatGPT发起请求的角度来写的。我的初始提示词如下：此处填入你的初始提示词ChatGPT提示词生成器我希望你充当提示词生成器。比如，我会给你一个这样的标题：《______》。然后，你会给我一个这样的提示：“_______________________”你应该根据我给的主
掌握ChatGPT：高效利用AI助手 kkai人工智能 chatgpt 人工智能媒体学习 ai
2023年3月15日，ChatGPT-4的诞生标志着人类进入了一个全新的人机协作时代。这个时代就像一个混沌初开的新世界，而ChatGPT则是这个新世界里诞生的一个新物种。这个新物种的心智如同一个四五岁的小孩，在与它频繁互动中，人们逐渐发现它既让人惊奇，又让人困惑。ChatGPT宛如一个“天才”儿童，自幼饱读四书五经，拥有着海量的知识储备。每次与它交流，都能让人发现它身上隐藏着无限的潜能。然而，令人
pthread_create/join函数学习 Miqiuha java jvm 开发语言
转自：https://blog.csdn.net/wushuomin/article/details/80051295，chatgpt1.pthread_createintpthread_create(pthread_t*thread,constpthread_attr_t*attr,void*(*start_routine)(void*),void*arg);它的功能是创建线程（实际上就是确定调
数字化供应链架构、全景管理、全流程贯通整体解决方案：供应链管理就是利用管理工具、IT技术将企业引入外部资源的过程精细化、标准化管理，实现高效益低成本运营。数字化建设方案数字化转型数据治理主数据数据仓库智能制造数字工厂制造业数字化转型工业互联网供应链数字仓储智慧物流智慧仓储物流园区架构大数据
数字化供应链架构、全景管理、全流程贯通方案数字化供应链架构、全景管理、全流程贯通方案项目背景与目标供应链管理现状及挑战数字化供应链架构概念及优势全景管理与全流程贯通目标预期成果与效益智能管理机制建设需求预测与智能分析应用合同管理智能化提升举措仓储管理自动化和机器人技术应用物流配送优化策略周边系统整合与数据贯通现有系统梳理及评估报告数据接口标准制定和实施计划流程对接和数据交互机制设计监控和报警机制完
竹子驿站高佣版刷屏，竹子驿站高佣版怎么样？氧惠好物
玩过社交电商导购平台的都知道，竹子驿站就是其中的一个~竹子驿站，一款拼多多购物领取隐藏优惠券返利赚佣的平台！自购可以省钱，分享还可以赚钱~加入竹子驿站，想要赚取到更高的收益，首当其要的就是要升级自己在竹子驿站的等级！很多人一定很是烦恼，竹子驿站升级等级太难了……想要店小二摇身一变掌柜，并不是一件易事！竹子驿站高佣版在原版的基础上做了更为创新的模式，分别包括：1、100%分佣2、免费机器人领取使用3
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =