youcans_

【ChatGPT 视觉模型】Visual ChatGPT 深度解析

【ChatGPT 视觉模型】Visual ChatGPT 深度解析与使用

- 1. 【Visual- ChatGPT】火热来袭
- 2. 【Visual-GPT】操作实例
- - 2.1 处理流程
  - 2.2 操作实例
- 3. 【Visual-GPT】技术原理分析
- - 3.1 技术原理
  - 3.2 系统架构
  - 3.3 模块说明
  - 3.4 Prompt Manager 功能与规则
  - 3.5 视觉基础模型（Visual Foundatin Model）
- 4. 【Visual-GPT】使用与运行
- - 4.1 clone the repo
  - 4.2 prepare the basic environments
  - 4.3 start local runing
- 5. 【Visual-GPT】论文简介
- - 5.1 论文获取
  - 5.2 主要贡献
  - 5.3 本文的启发
  - 5.4 模型复现
  - 5.5 常见错误
  - 5.6 代码解读
- 6. GPT4 来了

说明：
根据有关要求，本文将【Visual ChatGPT】模型简称为【Visual-GPT】。
本文为删节版，进行了大量删改，有些内容比较晦涩，读者可以略过，当然也可以仔细研读…完整版参见文末链接。
更新说明：文末链接已删除。

1. 【Visual- ChatGPT】火热来袭

3月9日，微软亚洲研究院发布了图文版 ChatGPT——Visual ChatGPT，并在 Github 开源了基础代码，短短一周已经获得了 19.7k 颗星。

2022年11月，OpenAI 推出的 ChatGPT，几个月来已经火爆全球，不仅需要候补注册，还要科学上网。ChatGPT 具有强大的会话能力的语言界面进行人机对话，能陪你聊天、编写代码、修改 bug、解答问题…，但是目前还不能处理或生成视觉图像。

Visual ChatGPT 把一系列 Visual Foundation 视觉模型接入 ChatGPT，使用户能够与 ChatGPT 以文本和图像的形式交互，还能提供复杂的视觉指令，让多个模型协同工作。Visual ChatGPT 可以理解和响应基于文本的输入和基于视觉的输入，减少进入文本到图像模型的障碍，增加各种 AI 工具的互操作性。

Visual Transformer 将 ChatGPT 作为逻辑处理中心，集成 Visual Foundation 视觉基础模型，从而实现：

提供视觉聊天系统，可以接收和发送文本和图像；
提供复杂的视觉问答和视觉编辑指令，可以解决复杂视觉任务；
可以提供反馈，总结答案，还可以主动对模糊的指令进行询问。

Visual-GPT 可以用自然语言简单地从模型中键入想要的内容，如题图所示的过程中进行了几轮对话：

用户要求生成一张猫的图像。Visual-GPT 生成了一幅正在看书的猫的图像。
用户要求将图像中的猫换成狗，并把书删除。Visual-GPT 将该图像中的猫换成了狗，并删除了图像中的书。
用户要求对图像进行 Canny 边缘检测。Visual-GPT 理解并执行了 Canny 边缘检测操作，生成了边缘图像。
用户要求基于指定的网络图像，生成一幅黄狗图像，Visual-GPT 也很好地完成了这个任务。

2. 【Visual-GPT】操作实例

2.1 处理流程

Visual-GPT 的基本处理流程如图所示。

如图所示，用户上传了一张黄色花朵的图像，并输入一条复杂的语言指令「请根据该图像生成的深度图在生成一朵红色花朵，然后逐步将其制作成卡通图片」。

Visual-GPT 中的 Prompt Manager 控制与 VFM 相关的处理流程。ChatGPT 利用这些 VFMs，并以迭代的方式接收其反馈，直到满足用户的要求或达到结束条件。

首先是深度估计模型，用来检测图像深度信息；
然后是深度图像模型，用来生成具有深度信息的红色花朵图像；
最后利用基于 Stable Diffusion 的风格迁移模型，将图像风格转换为卡通图像。

在上述 pipeline 中，Prompt Manager 作为 ChatGPT 的管理调度中心，提供可视化格式的类型并记录信息转换的过程，最后输出最终结果图像并显示。

2.2 操作实例

第一轮对话：
Q1：用户文本询问，问题与图像无关。
A1：模型文本回答，回答与图像无关。
Q2：用户要求画一个苹果。
A2：模型图文回答，绘制了一幅苹果图片。

第二轮对话：
Q3：用户输入图像，是一个苹果和杯子的草图。
A3：模型文本回答，询问用户的意图，并主动提示草图的文件名。
Q4：用户文本输入，要求按草图绘制苹果和杯子。
A5：模型图文回答，按照用户要求绘制了一幅苹果和杯子的图片。

第三轮对话： Q5：用户输入文本，要求把上图修改为水彩画风格。 A5：模型图文回答，按照用户要求把上图修改为一幅水彩画风格的图片。 Q6：用户文本输入，询问图片的背景颜色。 A6：模型文本回答，回答图片的背景颜色。

第四轮对话： Q7：用户文本输入，要求去除图片中的苹果。 A7：模型图文回答，按照用户要求从图片中去除苹果——但是没有去除苹果在桌面上的影子。 Q8：用户输入文本，指出上图中的影子还在桌面上，并要求把换一张黑色的桌子。 A8：模型图文回答，按照用户要求把图片中的桌子换成黑色桌子。

3. 【Visual-GPT】技术原理分析

3.1 技术原理

由于 ChatGPT 是用单一语言模态训练而成，处理视觉信息的能力非常有限。而视觉基础模型（VFM，Visual Foundation Models）在计算机视觉方面潜力巨大，因而能够理解和生成复杂的图像。例如，BLIP 模型是理解和提供图像描述的专家，Stable Diffusion 可以基于文本提示合成图像。然而由于 VFM 模型对输入输出格式的苛求和固定限制，但在人机交互上却不如对话语言模型灵活。

Visual ChatGPT 是在大量文本和图像数据集上训练的。该模型使用不同的视觉基础模型（如 VGG、ResNet和DenseNet）从图像中提取特征，然后将这些特征与基于文本的输入相结合以生成响应。使用有监督和无监督学习技术的组合进行训练，使其能够学习并适应新的场景。

当用户用图像输入问题或陈述时，它分析图像并提取相关特征。然后，它将这些特性与基于文本的输入相结合，以生成与用户查询相关的响应。例如，如果用户上传一辆汽车的图像并询问“这辆汽车的品牌和型号是什么？”，Visual-GPT 将分析图像并根据从图像中提取的视觉特征生成响应。

传统的聊天机器人只依赖基于文本的输入，这限制了它们的能力。Visual-GPT 通过结合计算机视觉扩展了聊天机器人的功能，使其能够基于视觉上下文理解并生成响应。Visual-GPT 的另一个特性是它能够生成创造性的响应。由于它是在GPT-3之上构建的，它可以访问大量文本数据集，这使它能够生成富有创意和多样性的响应。这使得与 Visual-GPT 的交互更具吸引力和人性化。

3.2 系统架构

Visual-GPT 的系统架构如下图所示，由用户查询模块（User Query）、交互管理模块（Prompt Manger）、视觉基础模型（Visual Foundation Models，VFM）、调用 ChatGpt API 系统和迭代交互模块（Iterative Reasoning）、用户输出模块（Outputs）构成。

上图左图是多轮对话的过程，中图是 Visual-GPT 如何迭代调用 VFMs 并提供答案的流程图，右图是模型针对第2个 Q/A 的详细运行过程。

分析系统架构图，该系统利用 ChatGPT 和一个Prompt Manager(M) 来做意图识别和语言理解，然后决定后续的操作和产出。

在这个对话的例子中：

第一轮对话：首先用户输入一张图片 User Query（Q1），模型回答收到（A1）。
第二轮对话：（1）用户提出”把沙发改为桌子“和”把风格改为水彩画“两个要求（Q2），模型判断需要使用VFM模型；（2）模型判断第一个要求是替换东西，因此调用 repalce object 模块，生成符合第一个要求的图片；（3）模型判断第二个要求是通过语言修改图片，因此调用 pix2pix 模块，生成符合第二个要求的图片；（4）模型判断完成用户提出的需求，输出第二幅图片（A2）。
第三轮对话：用户提出问题（Q3），模型判断不需要 VFM，调用 VQA 模块，回答问题得到答案（A3）。

将这个过程抽象出来，就是一系列系统规则组成的M§和功能模块组成的M(F) ：

对于由多个“问题-答案对”所构成的集合 $S={(Q_1,A_1), (Q_2,A_2),...,(Q_n,A_n)}$ ，要从第 $i$ 轮对话中得到答案 $A_i$ ，需要一系列的 VFM 和中间输出。

将第 $i$ 轮对话中第 $j$ 次的工具调用中间答案记为 $A_i^{j}$ ，就可以定义 Visual ChatGPT 的模型为：
$A_i^{j+1} = ChatGPT(M(P), M(F), M(H_{Aij+1=ChatGPT(M(P),M(F),M(H<i),M(Qi),M(Ri<j),M(F(Aij)))$

ChatGPT生成最终答案要经历一个不断迭代的过程，它会不断自我询问，自动调用更多VFM。而当用户指令不够清晰时，Visual ChatGPT会询问其能否提供更多细节，避免机器自行揣测甚至篡改人类意图。

3.3 模块说明

M§：

Visual-GPT 为了能让不同的VFM理解视觉信息并生成相应答案，需要设计一系列系统原则，并将其转化为 ChatGPT能够理解的提示。

通过生成这样的提示，Prompt Manager 能够帮助 Visual-GPT 完成生成文本、图像的任务，能够访问一系列VFM并自由选择使用哪个基础模型，提高对文件名的敏感度，进行链式思考和严格推理。

M(F)：

Prompt Manager 需要帮助 Visual-GPT 区分不同的VFM，以便准确地完成图像任务。

为此，Prompt Manager对各个基础模型的名称、应用场景、输入和输出提示以及实例给出了具体定义。

M(Q)：

Prompt Manager会对用户新上传的图像生成唯一文件名，并生成假的对话历史，其中提到该名称的图片已经收到，这样可以在涉及引用现有图像的查询时忽略文件名的检查。

Prompt Manager会在查询问题之后加上一个后缀提示，来确保成功触发VFM，强制 Visual-GPT 进行思考，给出言之有物的输出。

M(F(A))：

VFM给出的中间输出，Prompt Manager会为其生成链式文件名，作为下一轮内部对话的输入。

3.4 Prompt Manager 功能与规则

Visual-GPT 的核心是 Prompt Manager，具体功能如下：

首先明确告诉 ChatGPT 每个 VFM 的功能，并指定输入输出格式。
然后转换不同的视觉信息（如 png 图像、深度图像和 mask 矩阵）转换为语言格式。
最后处理不同 VFM 的历史、优先级和冲突。

通过 Prompt Manager 的帮助，ChatGPT 可以利用这些 VFM，并以迭代方式接收反馈，直到满足用户的需求或达到结束条件。

Visual-GPT 集成了不同 VFM 来理解视觉信息并生成相应答案的系统。因此，Visual-GPT 需要制定一些基本规则，并将其转化为 ChatGPT 可以理解的命令。

这些基本规则包括：

Visual-GPT 的任务需求：协助完成一系列与文本和视觉相关的任务，例如 VQA、图像生成和编辑。
VFM 的可访问性：Visual ChatGPT 可以访问 VFM 列表来解决各种 VL（ vision-language ）任务，使用哪种基础模型由 ChatGPT 模型本身决定。
文件名敏感度：在对话中可能包含多个图像及不同的更新版本，使用精确的文件名以避免歧义至关重要，滥用文件名会导致混淆图片。Visual-GPT 被设计为严格使用文件名，确保检索和操作图像文件的正确性。
Chain-of-Thought：一些看似简单的命令可能需要多个 VFM，例如生成卡通图片的过程涉及深度估计、深度到图像和风格转换的 VFM。Visual-GPT 引入了 CoT 以帮助决定、利用和调度多个 VFM，将用户的问题分解为多个子问题来解决更具挑战性需求。
推理格式的严谨性：Visual-GPT 必须遵循严格的推理格式。该研究使用精细的正则表达式匹配算法解析中间推理结果，为 ChatGPT 模型构建合理的输入格式，以帮助其确定下一次执行，例如触发新的 VFM 或返回最终响应。
可靠性：Visual-GPT 作为一种语言模型，可能会伪造假图像文件名或事实，这会使系统不可靠。为了处理此类问题，需要设计 prompt 使忠于视觉基础模型的输出，而不能伪造图像内容或文件名。此外，prompt 还将引导 ChatGPT 优先利用 VFM，而不是根据对话历史生成结果。

3.5 视觉基础模型（Visual Foundatin Model）

Visual-GPT 支持 22 种视觉基础模型（Visual Foundatin Model）：

从图像中删除对象（Remove Objects from Image）：image path, textual what to remove -> image path
替换图像中的对象（Replace Objects from Image）：image path, textual what to replace, textual what to add -> image path
按文本要求修改图像（Change Image by the Text）：image path, textual how to modify -> image path
图像问题解答（Image Question Answering）：image path, question -> answer
从图像生成描述文本（Image-to-Text）：image path -> natural language description
从描述文本生成图像（Text-to-Image）：textual description -> image path
对图像进行边缘检测（Image-to-Edge）：image path -> edge image path
从边缘检测图和文本描述生成新图像（Edge-to-Image）：edge image path, textual description -> image path
对图像进行直线检测（Image-to-Line）：image path -> line image path
从直接检测图和文本生成新图像（Line-to-Image）：line image path, textual description -> image path
对图像进行 HED 边缘检测（Image-to-Hed）：image path -> hed image path
从HED边缘检测和文本生成新图像（Hed-to-Image）：hed image path, textual description -> image path
生成分割图像（Image-to-Seg）：image path -> segment image path
从分割图像和文本生成新图像（Seg-to-Image）：segment image path, textual description ->image path
从图像生成深度图（Image-to-Depth）：image path -> depth image path
从深度图和文本生成新图像（Depth-to-Image）：depth image path, textual description -> image path
从图像生成法线图（Image-to-NormalMap）：image path -> norm image path
从法线图和文本生成新图像（NormalMap-to-Image）：norm image path, textual description -> image path
从图像生成草图（Image-to-Sketch）：image path -> sketch image path
从草图和文本生成新图像（Sketch-to-Image）：sketch image path, textual description -> image path
对图像进行姿态检测（Image-to-Pose）：image path -> pos image path
从姿态检测和文本生成新图像（Pose-to-Image）：pos image path, textual description -> image path

4. 【Visual-GPT】使用与运行

【本文为删节版，相关内容已删除。】

4.1 clone the repo

4.2 prepare the basic environments

4.3 start local runing

5. 【Visual-GPT】论文简介

5.1 论文获取

Title：Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
标题：Visual ChatGPT：使用 Visual Foundation 模型进行对话、绘图和编辑
作者：Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan
机构：Microsoft Researc Asia（微软亚洲研究院）
论文链接： https://arxiv.org/abs/2303.04671
开源代码： https://github.com/microsoft/visual-chatgpt

我已经将本文上传到 CSDN，读者也可以从 arxiv 自行下载。

第一作者：吴晨飞，高级研究员，2020 年加入微软亚洲研究院自然语言计算组，研究领域为多模型的预训练、理解和生成。

通讯作者：段楠，微软亚洲研究院首席研究员及自然语言计算组研究经理，中国科学技术大学兼职博导，天津大学兼职教授，研究领域为自然语言处理、代码智能、多模态智能和机器推理等。

5.2 主要贡献

（1）提出 Visual ChatGPT，打开了 ChatGPT 和 VFM 连接的大门，使 ChatGPT 能够处理复杂的视觉任务。

（2）设计了一个 Prompt Manager，其中涉及 22 个不同的 VFM，并定义了它们之间的内在关联，以便更好地交互和组合。

（3）进行了大量的零样本实验，并展示了大量的案例来验证 Visual ChatGPT 的理解和生成能力。

5.3 本文的启发

本文开启了 ChatGPT 处理视觉任务的大门。
NLP —> Natural Language PhotoShop，自然语言文本描述下的图片创作编辑和问答。
可以通过系统设计和工具包设计的 Prompt 实现无监督的工具调用，类似于 zero-shot 的 toolformer。
ChatGPT 本身对仿真场景的能力很强，也能接受图片路径和函数关系，可以很好地使用基础视觉模型。
Visual ChatGPT 本身是一个语言模型，所谓的两方多轮对话只是一个 Human AI 的多轮特殊形式。

5.4 模型复现

Visual-GPT 的运行步骤如下。

（1）创建 Python3.8 环境并激活新的环境：

# create a new environment
conda create -n visgpt python=3.8

# activate the new environment
conda activate visgpt

（2）安装所需的依赖（详见4.2）：

#  prepare the basic environments
pip install -r requirement.txt

（3）clone the repo：

【删除】

clone the repo 所建立的文件夹结构如下：

├── assets
│ ├── demo.gif
│ ├── demo_short.gif
│ └── figure.jpg
├── download.sh
├── LICENSE.md
├── README.md
├── requirement.txt
└── visual_chatgpt.py

（4）设置工作目录：

将工作目录设置为创建的 github repo 的 copy：

# clone the repo
%cd visual-chatgpt

（5）下载基本视觉模型 VFM：

# download the visual foundation models
bash download.sh

（6）输入 OpenAI_API_key：

要开始使用OpenAI API，请访问 platform.OpenAI.com 并使用 Google 或 Microsoft 邮箱注册帐户，获取 API 密钥，该密钥将允许您访问API。——科学上网，势不可挡！

%env OPENAI_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

# prepare your private OpenAI key (for Linux)
export OPENAI_API_KEY={Your_Private_Openai_Key}

# prepare your private OpenAI key (for Windows)
set OPENAI_API_KEY={Your_Private_Openai_Key}

（7）创建图像保存目录

!mkdir ./image

（8）运行 Visual GPT

!python3.8 ./visual_chatgpt.py

注意问题：

（1）可以通过 “–load” 指定 GPU/CPU 分配，该参数设置使用的 VFM 模型及加载位置。可用的 Visual Foundation 模型参见 3.6 节内容。

例如，将 ImageCaptiing 加载到 cpu，将 Text2Image 加载到 cuda:0，则设置为：

python visual_chatgpt.py --load ImageCaptioning_cpu, Text2Image_cuda:0

（2）VFM 模型所需的内存资源很大，推荐的设置选项为：

CPU 用户：只加载 ImageCaptioning_cpu, Text2Image_cpu
1 Tesla T4 15GB 用户：只加载 ImageCaptioning_cuda:0, Text2Image_cuda:0，可以加载 ImageEditing_cuda:0
4 Tesla V100 32GB 用户：加载如下

--load ImageCaptioning_cuda:0,ImageEditing_cuda:0,
    Text2Image_cuda:1,Image2Canny_cpu,CannyText2Image_cuda:1,
    Image2Depth_cpu,DepthText2Image_cuda:1,VisualQuestionAnswering_cuda:2,
    InstructPix2Pix_cuda:2,Image2Scribble_cpu,ScribbleText2Image_cuda:2,
    Image2Seg_cpu,SegText2Image_cuda:2,Image2Pose_cpu,PoseText2Image_cuda:2,
    Image2Hed_cpu,HedText2Image_cuda:3,Image2Normal_cpu,
    NormalText2Image_cuda:3,Image2Line_cpu,LineText2Image_cuda:3

（3）不同 VFM 模型所需内存的参考值。

Foundation Model	Memory Usage (MB)
ImageEditing	6.5
ImageCaption	1.7
T2I	6.5
canny2image	5.4
line2image	6.5
hed2image	6.5
scribble2image	6.5
pose2image	6.5
BLIPVQA	2.6
seg2image	5.4
depth2image	6.5
normal2image	3.9
InstructPix2Pix	2.7

5.5 常见错误

RuntimeError: CUDA error: invalid device ordinal
问题原因：GPU 的数量不够。
解决方案：将 visual_chatgpt.py 文件中的所有 cuda:\d 替换为 cuda:0。
OutOfMemoryError: CUDA out of memory
问题原因：没有足够的 GPU 内存来运行 VFM模型。
解决方案：忽略 download.sh 和 visual_chatgpt.py 文件中不需要的一些模型，只加载必要的模型。

5.6 代码解读

**说明：**本节内容来自外网，博主也在解读和测试。在此贴出相关内容，仅供参考，更多解读详见【Visua ChatGPT: Paper and Code Review】。

with gr.Column(scale=0.15, min_width=0): 
btn = gr.UploadButton(“Upload”, file_types=[“image”])
btn.upload(bot.run_image, [btn, state, txt], [chatbot, state, txt])

def run_image(self, image, state, txt):
image_filename = os.path.join('image', str(uuid.uuid4())[0:8] + ".png")
print("======>Auto Resize Image...")
img = Image.open(image.name)
width, height = img.size
ratio = min(512 / width, 512 / height)
width_new, height_new = (round(width * ratio), round(height * ratio))
img = img.resize((width_new, height_new))
img = img.convert('RGB')
img.save(image_filename, "PNG")
print(f"Resize image form {width}x{height} to {width_new}x{height_new}")
description = self.i2t.inference(image_filename)
Human_prompt = "nHuman: provide a figure named {}. The description is: {}. This information helps you to understand this image, but you should use tools to finish following tasks, " 
"rather than directly imagine from my description. If you understand, say "Received". n".format(image_filename, description)
AI_prompt = "Received.  "
self.agent.memory.buffer = self.agent.memory.buffer + Human_prompt + 'AI: ' + AI_prompt
print("======>Current memory:n %s" % self.agent.memory)
state = state + [(f"![](/file={image_filename})*{image_filename}*", AI_prompt)]
print("Outputs:", state)
return state, state, txt + ' ' + image_filename + ' '

如上所述，上传图像后，调用run_image函数。此函数通过uuid创建新的图像名称，对图像进行预处理，然后创建添加到缓存的人工旋转。

还可以看出，图像描述与文件名一起被包括作为初始输入。该描述由Blip图像字幕模型生成。

class ImageCaptioning:
def __init__(self, device):
print("Initializing ImageCaptioning to %s" % device)
self.device = device
self.processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
self.model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base").to(self.device)
self.i2t = ImageCaptioning(device="cuda:4")

从上面声明的Human_prompt变量中可以看出，短语“但在根据我的描述直接想象之前，您应该使用工具完成以下任务。设置ChatGPT使用VFM而不是任意提供响应的音调。

Human_prompt = "nHuman: provide a figure named {}. The description is: {}. This information helps you to understand this image, but you should use tools to finish following tasks, " 
"rather than directly imagine from my description. If you understand, say "Received". n".format(image_filename, description)

除了调用提交图像之外，每个调用还具有前缀和后缀，以进一步确保模型不会以特殊方式运行。前缀中列出的一些关键准则如下：

作为一种语言模型，VisualChatGPT不能直接读取图像，但它有一系列工具来完成各种视觉任务。每个图像都将创建一个文件名为“image/xxx.png”，VisualChatGPT可以调用各种工具来间接理解图像。
VisualChatGPT 对图像的文件名非常严格，不支持不存在的文件。
Visual ChatGPT可以按顺序使用这些工具，并且忠于工具观察结果的输出，而不是伪造图像内容和图像文件名。如果创建了新图像，它将记住上次观察工具时的文件名。
Visual ChatGPT可以访问以下工具：

这些声明使Visual ChatGPT能够使用可用的可视化工具，以及如何处理文件名以及如何与用户就VFM模型之一生成的图像进行通信。

代理有一个可以使用的所有工具的列表，在本例中是VFM。每个工具都有详细描述其功能，例如：

Tool(name="Generate Image From User Input Text", func=self.t2i.inference,
description="useful when you want to generate an image from a user input text and save 
it to a file. like: generate an image of an object or something, or 
generate an image that includes some objects. "
"The input to this tool should be a string, representing the text 
used to generate image. "),

所使用的工具之一是VFM，它可以将文本转换为图像，如图所示，为代理提供了有关工具名称的信息，该信息概括了模型的功能、要调用的函数以及详细描述工具和输入。以及仪器输出。

然后，代理使用工具的描述和过去的对话历史来决定下一步使用哪个工具。使用ReAct框架做出决策。

self.agent = initialize_agent(
self.tools,
self.llm,
agent="conversational-react-description",
verbose=True,
memory=self.memory,
return_intermediate_steps=True,
agent_kwargs={'prefix': VISUAL_CHATGPT_PREFIX, 
'format_instructions': VISUAL_CHATGPT_FORMAT_INSTRUCTIONS, 
'suffix': VISUAL_CHATGPT_SUFFIX},

ReAct可以被认为是推理链（CoT）推理范式的扩展。而CoT允许LM生成一系列推理来解决任务，从而减少产生幻觉的可能性。

为了确保ChatGPT以这种格式响应，ChatGPT提示符包含以下内容：

VISUAL_CHATGPT_FORMAT_INSTRUCTIONS = “””To use a tool, please use the following 
format:
"""
Thought: Do I need to use a tool? Yes
Action: the action to take, should be one of [{tool_names}]
Action Input: the input to the action
Observation: the result of the action
When you have a response to say to the Human, or if you do not need to 
use a tool, you MUST use the format:
Thought: Do I need to use a tool? No
"""
{ai_prefix}: [your response here]”””

需要注意的是，想法、行动和观察步骤的输出不会显示给最终用户。所有这些信息都是隐藏的，以确保最终用户不会被没有直接解决用户问题的所有中间答案淹没。

相反，当LM认为它已经得到了最终答案或想向用户提问时，只向用户 [此处为您的回答] 字段显示生成的文本的一部分。

ReAct范式的另一个好效果是，我们现在可以结合使用多种工具，因为在看到观察结果后，ChatGPT默认会考虑是否需要使用工具。本质上我必须使用工具吗？是添加到ChatGPT服务生成的每个查询和代理响应的后缀。

从ChatGPT响应格式上方的提示可以看出，对于ChatGPT从可用列表中选择一个工具，可以从前面看到的工具描述中获得工具的输入格式，最后可以从视图中解析VFM输出。

可以通过下面的LangChain库查看行动分析和行动条目：

def _extract_tool_and_input(self, llm_output: str) -> Optional[Tuple[str, str]]:
if f"{self.ai_prefix}:" in llm_output:
return self.ai_prefix, llm_output.split(f"{self.ai_prefix}:")[-1].strip()
regex = r"Action: (.*?)[n]*Action Input: (.*)"
match = re.search(regex, llm_output)
if not match:
raise ValueError(f"Could not parse LLM output: `{llm_output}`")
action = match.group(1)
action_input = match.group(2)
return action.strip(), action_input.strip(" ").strip('"')

在提取要使用的工具和要提供的输入时，进行调用以执行该工具。

每个模型的输出以以下格式保存为文件名：

{Name}_{Operation}_{Previous Name}_{Organization Name}.

title 是唯一的 uuid，操作对应于工具的名称，原名对应于用于创建新图像的输入图像的 uuid，组织的名称对应于用户提供的原始输入图像。按照这种命名约定，ChatGPT可以很容易地导出有关新生成的图像的信息。

def get_new_image_name(org_img_name, func_name="update"):
head_tail = os.path.split(org_img_name)
head = head_tail[0]
tail = head_tail[1]
name_split = tail.split('.')[0].split('_')
this_new_uuid = str(uuid.uuid4())[0:4]
if len(name_split) == 1:
most_org_file_name = name_split[0]
recent_prev_file_name = name_split[0]
new_file_name = '{}_{}_{}_{}.png'.format(this_new_uuid, func_name, recent_prev_file_name, most_org_file_name)
else:
assert len(name_split) == 4
most_org_file_name = name_split[3]
recent_prev_file_name = name_split[0]
new_file_name = '{}_{}_{}_{}.png'.format(this_new_uuid, func_name, recent_prev_file_name, most_org_file_name)
return os.path.join(head, new_file_name)

最后，将所有移动部件组合起来，与Visual ChatGPT进行对话，后者可以使用视觉信息。

这项工作是快速工程重要性的完美例证。提示允许代理使用文件名处理视觉信息，并创建思维链->动作链->观察反应链，帮助确定要使用哪些VFM并处理VFM模型的输出。

为了抽象解决方案的复杂性质，中介响应（包括思想、行动和观察话语）对用户是隐藏的，只有当ChatGPT相信时LM生成的最终响应才会显示给用户。不再需要使用VFM。

6. GPT4 来了

刚刚写完本文，就看到 GPT4 发布的资讯。而且，GPT-4 开始接受图像作为输入介质，也可以开始处理图像了。

下面是 OpenAI 提供的一个示例，GPT-4 针对图像输入回答的问题。

由于目前图像输入的权限尚未公开，还不清楚 GPT-4 图像处理的技术原理和能力。所以关于 GPT-4，我们后文再讨论吧。

但是，可以预期的是：世界潮流，浩浩荡荡。

版权声明：
欢迎转发，请注明原文链接：
【ChatGPT 视觉模型】Visual ChatGPT 深度解析 (https://youcans.blog.csdn.net/article/details/129546888）
Copyright 2023 youcans, XUPT
Crated：2023-03-15

你可能感兴趣的:(chatgpt,人工智能,Visual,ChatGPT,github)

如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
下载github patch到本地小米人er 我的博客 git patch
以下是几种从GitHub上下载以.patch结尾的补丁文件的方法：通过浏览器直接下载打开包含该.patch文件的GitHub仓库。在仓库的文件列表中找到对应的.patch文件。点击该文件，浏览器会显示文件的内容，在页面的右上角通常会有一个“Raw”按钮，点击它可以获取原始文件内容。然后在浏览器中使用快捷键（如Ctrl+S或者Command+S）将原始文件保存到本地，选择保存的文件名并确保后缀为.p
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
git - Webhook让部署自动化大猪大猪
我们现在有一个需求，将项目打包上传到gitlab或者github后，程序能自动部署，不用手动地去服务器中进行项目更新并运行，如何做到？这里我们可以使用gitlab与github的挂钩，挂钩的原理就是，每当我们有请求到gitlab与github服务器时，这时他俩会根据我们配置的挂钩地扯进行访问，webhook挂钩程序会一直监听着某个端口请求，一但收到他们发过来的请求，这时就知道用户有请求提交了，这时
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
windows下python opencv ffmpeg读取摄像头实现rtsp推流拉流图像处理大大大大大牛啊 opencv实战代码讲解视觉图像项目 windows python opencv
windows下pythonopencvffmpeg读取摄像头实现rtsp推流拉流整体流程1.下载所需文件1.1下载rtsp推流服务器1.2下载ffmpeg2.开启RTSP服务器3.opencv读取摄像头并调用ffmpeg进行推流4.opencv进行拉流5.opencv异步拉流整体流程1.下载所需文件1.1下载rtsp推流服务器下载RTSP服务器下载页面https://github.com/blu
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
绝招曝光！3小时高效利用ChatGPT写出精彩论文 kkai人工智能 chatgpt 人工智能 ai 学习媒体
在这份指南中，我将深入解析如何利用ChatGPT4.0的高级功能，指导整个学术研究和写作过程。从初步探索研究主题，到撰写结构严谨的学术论文，我将一步步展示如何在每个环节中有效运用ChatGPT。如果您还未使用PLUS版本，可以参考相关教程。**初步探索与主题的确定**起初，我处于庞大的知识领域中，寻找一个可深入研究的领域。ChatGPT如同灯塔，通过深入分析最新研究趋势和领域热点，帮助我在广阔的学
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
程序员如何在AI时代保持核心竞争力 nfgo chatgpt 人工智能
程序员如何在AI时代保持核心竞争力随着AIGC（如ChatGPT、MidJourney、Claude等）大语言模型的相继涌现，AI辅助编程工具逐渐普及，程序员的工作方式正在发生深刻的变革。AI不仅能够自动生成代码，还能优化、调试、甚至提出解决方案。这一趋势让许多人担心：AI会不会最终取代部分编程工作？然而，也有人认为AI是提升效率的得力助手。那么，程序员在这个AI崛起的时代该如何应对？是专注某个领
LeetCode github集合，附CMU大神整理笔记 Wesley@ LeetCode github
GithubLeetCode集合本人所有做过的题目都写在一个java项目中，同步到github中了，算是见证自己的进步。github目前同步的题目是2020-09-17日之后写的题。之前写过的题会陆续跟新到github中。目前大概400个题目Github项目链接：https://github.com/sunliancheng/leetcode_github附上一份优秀的教材整合：这是卡内基梅隆(C
[Swift]LeetCode943. 最短超级串 | Find the Shortest Superstring 黄小二哥 swift
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★➤微信公众号：山青咏芝（shanqingyongzhi）➤博客园地址：山青咏芝（https://www.cnblogs.com/strengthen/）➤GitHub地址：https://github.com/strengthen/LeetCode➤原文地址：https://www.cnblogs.com/streng
[Swift]LeetCode767. 重构字符串 | Reorganize String weixin_30591551 swift runtime
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★➤微信公众号：山青咏芝（shanqingyongzhi）➤博客园地址：山青咏芝（https://www.cnblogs.com/strengthen/）➤GitHub地址：https://github.com/strengthen/LeetCode➤原文地址：https://www.cnblogs.com/streng
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
VUE3 + xterm + nestjs实现web远程终端或连接开启SSH登录的路由器和交换机。焚木灵 node.js vue
可远程连接系统终端或开启SSH登录的路由器和交换机。相关资料：xtermjs/xterm.js:Aterminalfortheweb(github.com)后端实现(NestJS)：1、安装依赖：npminstallnode-ssh@nestjs/websockets@nestjs/platform-socket.io2、我们将创建一个名为RemoteControlModule的NestJS模块，
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
golang实现从服务器下载文件到本地指定目录余生逆风飞翔 golang 服务器开发语言
一、连接服务器，采用sftp连接模式packagemiddlewaresimport("fmt""time""github.com/pkg/sftp""golang.org/x/crypto/ssh")//建立服务器连接funcConnect(user,password,hoststring,portint)(*sftp.Client,error){var(auth[]ssh.AuthMethod
ArcGIS Pro SDK （十四）地图探索 5 时间与动画 WineMonk ArcGIS Pro SDK arcgis arcgis pro sdk gis c#
ArcGISProSDK（十四）地图探索5时间与动画文章目录ArcGISProSDK（十四）地图探索5时间与动画1时间1.1时间提前1个月1.2禁用地图中的时间。2动画2.1设置动画长度2.2缩放动画2.3相机关键帧2.4插值相机2.5插值时间2.6插值范围2.7创建摄像机关键帧2.8创建时间关键帧2.9创建范围关键帧2.10创建图层关键帧环境：VisualStudio2022+.NET6+Arc
Nginx之ngx_http_proxy_connect_module模块小米bb Nginx nginx http 运维
近期由于项目需要使用到https正向代理，而nginx官方模块仅支持做http正向代理，一番百度学习后发现了该模块，故今日记录下此笔记供大家一起学习交流ngx_http_proxy_connect_module模块主要用于隧道SSL请求的代理服务器GitHub地址：http://www.github.com/chobits/ngx_http_proxy_connect_modulenginx配置：
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理