一个处女座的程序猿

LLMs之ChatGLM3：ChatGLM3/ChatGLM3-6B的简介—“对话格式”功能介绍(推理系统如何解析参数/采用Python代码形式/编写工具调用的代码/Manual Mode)、推理演示

LLMs之ChatGLM3：ChatGLM3/ChatGLM3-6B的简介—“对话格式”功能介绍(推理系统如何解析参数/采用Python代码形式/编写工具调用的代码/Manual Mode)、推理演示(Chat/Tool/Code Interpreter)、微调(AdvertiseGen/ToolAlpaca)实现之图文教程攻略

LLMs之ChatGLM3：ChatGLM3/ChatGLM3-6B的简介(多阶段增强+多模态理解+AgentTuning技术)、安装、使用方法之详细攻略

ChatGLM3的“对话格式”功能的简介及其使用方法

1、“对话格式”功能的简介：对话能力、工具调用能力、代码解释器能力

(0)、对话格式中tokenization的简介

A1、实现“Tool工具调用”的功能

LLMs之ChatGLM3：分别从ChatGLM3的源代码和训练样本数据中，带你探究大模型是如何实现Tool(工具调用)这一炸天功能的

(1)、工具调用输出格式、反馈原理

(2)、推理系统如何解析参数

(3)、为何采用Python代码形式（而非 JSON ）

(4)、如何具体实现—编写工具调用的代码

(5)、Manual Mode(测试模型能否看懂你的话)：

A2、实现“Code Interpreter代码解释器”的功能：撰写算法编程功能、绘图功能

ChatGLM3的推理演示

第一步，基于Steamlit部署为网络应用

第二步，功能测试

A1、Chat功能测试

(1)、只用表情的格式回答

A2、Tool调用测试：

T1、单个Tool工具调用

(1)、查天气

(2)、查论文：利用arixiv查询Agent Tuning相关的工作

T2、多个Tool工具调用：arixiv+weather+calculator等

A3、Code Interpreter测试

ChatGLM3的微调

A1、对话微调

1.0、校验loss_mask是否有问题

1.1、基于公开数据集进行微调：AdvertiseGen、ToolAlpaca

T1、AdvertiseGen数据集：输入输出

T2、ToolAlpaca数据集：多轮对话

(1)、多轮对话的微调：比如Tool format格式变化的需求，将Tool 的额帕卡转为Tool的自然语言形式

微调之前

微调之后

1.2、代码实战

代码解读：如何把对话变成一系列的token

代码解读：启动服务

参考资料

LLMs之ChatGLM3：ChatGLM3/ChatGLM3-6B的简介(多阶段增强+多模态理解+AgentTuning技术)、安装、使用方法之详细攻略

LLMs之ChatGLM3：ChatGLM3/ChatGLM3-6B的简介(多阶段增强+多模态理解+AgentTuning技术)、安装、使用方法之详细攻略-CSDN博客

LLMs之ChatGLM3：ChatGLM3/ChatGLM3-6B的简介—“对话格式”功能介绍(推理系统如何解析参数/采用Python代码形式/编写工具调用的代码/Manual Mode)、推理演示(Chat/Tool/Code Interpreter)、微调(AdvertiseGen/ToolAlpaca)实现之图文教程攻略

https://yunyaniu.blog.csdn.net/article/details/134342685

ChatGLM3的“对话格式”功能的简介及其使用方法

1、“对话格式”功能的简介：对话能力、工具调用能力、代码解释器能力

简介	对话格式：方便用于多轮训练，每个token有着非常明确的意思，
模板	•角色 special token: –<\|system\|> #系统提示词，指明模型扮演的角色等信息。当然可以把他放在任何地方，但是期望用户把它放在第一个位置； –<\|user\|> #用户输入，用户的指令； –<\|assistant\|> #模型回复，模型要做的事情； –<\|observation\|> #工具调用、代码执行结果；本质是承接模型的工具调用，并开启模型调用结果进而影响模型下一步动作；
解释	•<\|assistant\|> {metadata} ： #每一行 –工具调用：{metadata}为调用的工具名。例如<\|assistant\|> test_tool 表示模型希望调用test_tool 工具； –Code Interpreter: 固定为<\|assistant\|>interpreter •分隔符：角色标签(包括 metadata) 后跟换行符，但标签前不跟；
案例	•示例：比如system告诉它，模型的角色是ChatGLM3，用户说hi，模型说hello。 –<\|system\|> –You are ChatGLM3. <\|user\|> –Hi <\|assistant\|> –Hello, how can I help you?

(0)、对话格式中tokenization的简介

tokenization

对话格式：tokenization

ChatGLM3 的 special token 是防注入的，因此，不能直接通过拼接字符串得到正确的模型输入；

>> T1、采用模型的chat(), stream_chat () 函数并传入历史、工具、角色等信息进行交互；

>> T2、采用tokenizer 的 build_chat_input () 函数手动构建模型输入；

•注意get_command函数函数的使用，直接找到角色对应的 special token

•用户即使输入了形如 <|user|> 的内容也不会被编码为special token

地址：https://huggingface.co/THUDM/chatglm3-6b/blob/main/tokenization_chatglm.py#L184

A1、实现“Tool工具调用”的功能

简介

模型大多数情况下是正常对话，那么模型什么时候要去调用API呢？推理系统除了通过观察metadata来判断以外，它还可以通过观察模型中的最后一个token来判断模型是去要做什么

>> 如果生成的是EOS或User，模型要表达的意思是让输入的话语权交给用户去完成;

>> 如果模型生成的是observation，我需要推理系统的帮助去执行工具，把执行工具后的结果插进来；

功能

工具调用：利用json的格式告诉模型你需要调用哪些工具

• 如果要利用一些工具，就把system固定为一句话，固定system prompt 以发挥最好效果。

• 工具定义：JSON 对象列表包含三个字段，即name(工具名)， description(描述)，parameters(参数定义)；

• 参数定义可选择如下所示的JSON Schema 格式(OpenAI的格式)；

Answer the following questions as best as you can. You have access to the following tools:

[

{

"name" : "track",

"description": "追踪指定股票的实时价格",

"parameters" : {

"type" : "object",

"properties": {

"symbol": {

"description" : "需要追踪的股票代码"

}

"required" : [ 'symbol' ]

}

]

LLMs之ChatGLM3：分别从ChatGLM3的源代码和训练样本数据中，带你探究大模型是如何实现Tool(工具调用)这一炸天功能的

https://yunyaniu.blog.csdn.net/article/details/134844140

(1)、工具调用输出格式、反馈原理

工具调用输出格式

工具调用输出格式：写一个python代码块(本质是函数调用)

• 除了正常使用 <|assistant|> 进行对话外，模型在感到需要调用工具时会生成 <|assistant|>{metadata} ，其中 metadata 为调用的工具名

• 对话内容为Python 代码块，最终调用tool_call 函数传参数

• 例如：(增加了额外换行以提升可读性）

<|user|>

Can you tell me how the weather is in Beijing now?

<|assistant|>

Sure! I can help with that by querying a weather API.

<|assistant|> get_weather

```python

tool_call(location='Beijing')

```

工具调用结果反馈

工具调用结果通过<|observation|> 返回给模型，observation是环境带来的插入的东西，推理系统再次给一个system token，而它看到system token后，就是知道环境的事情已经结束，直接该总结输出了；

例如：

<|user|>

Can you tell me how the weather is in Beijing now? <|assistant|>

Sure! I can help with that by querying a weather API.<|assistant|>get_weather

```python

tool_call (location='Beijing')

``` <|observation|>

{"weather": "cloudy", temperature": 15.6}<|assistant|>

It's cloudy now in Beijing and the temperature is 15.6 ºC.

模型调用工具时给出<|observation|> 作为结束 token

例如：

<|user|>

Can you tell me how the weather is in Beijing now?<|assistant|>

Sure! I can help with that by querying a weather API.<|assistant|>get_weather get_weather get_weather get_weatherget_weather get_weather

```python

tool_call (location='Beijing')

``` <|observation|>

因此，需要检查 <|user|> 与 <|observation|> 两种终止 token 并作不同处理

(2)、推理系统如何解析参数

解析参数

推理系统如何解析参数呢？

<|user|>

Can you tell me how the weather is in Beijing now?<|assistant|>

Sure! I can help with that by querying a weather API.<|assistant|>

```python

tool_call (location='Beijing')

```<|observation|>

1、如何提取参数：

T1、采用python内置的eval()函数可以简单了解但不适合实际部署：因为eval()函数虽然方便，但需要注意安全性问题，最好在隔离环境中运行。因为如果是危险的语句就不饿可以，比如eval('exec("import os ; os.system(\'sudosudo sudorm –rf / rf /\')")')

T2、手动解析AST：如果调用eval，它是符合python语法，所以可以采用python的库AST直接解析出来即可。抽象语法树中抽取出调用工具的参数即可；

T3、采用Transformers Agents:限制能够执行的代码：限制执行的代码只能调用工具和 print 函数，故它不会执行OS这种危险的行为，https://huggingface.co/docs/transformers/transformers_agents#code -execution

(3)、为何采用Python代码形式（而非 JSON ）

采用Python代码形式

为何使用Python 代码形式（而非 JSON ）？

众说周知的是，LangChain框架中希望模型给出的是json格式，但是本项目中采用的是python形式。原因有以下几点

>> 模型训练数据中的 Python远远强于JSON ，模型书写正确率高，而 Python 的表达能力(比如字符串、数字等)是 JSON 的真超集；

>> Python更为灵活(比Json形式调用的自由度更大，拓展性更强)，可以接入更多调用形式（目前尚未实现）。考虑模型在调用工具前可进行简单 Python 处理，考虑支持多工具连续调用等功能。

(4)、如何具体实现—编写工具调用的代码

通过YAML定义工具

# demo中的手动模式通过YAML定义工具

# tool_registry模式在tool_registry.py中定义工具:

@register_tool

def get_weather( city_name: Annotated[str,'The name of the city to be queried',True],) -> str :

"""

get the weather for `city_name ` in the following week

"""

pass

'''

Annotated的三个部，分分别为参数类型、描述与是否必需

docstring会被作为工具的描述

'''

(5)、Manual Mode(测试模型能否看懂你的话)：

背景

简介

Manual Mode可以测试模型能否看懂你的话。

不需要每次都要直接写python代码来完整的定义各个工具，把工具的描述直接写为一个Yaml的形式，然后会自动转为json的形式

A2、实现“Code Interpreter代码解释器”的功能：撰写算法编程功能、绘图功能

对话格式

同工具调用类似，需要固定system prompt 以发挥最好效果：

<|system|>

你是一位智能 AI 助手，你叫 ChatGLM ，你连接着一台电脑，但请注意不能联网。在使用 Python 解决任务时，你可以运行代码并得到结果，如果运行结果有错误，你需要尽可能对代码进行改进。你可以处理用户上传到电脑的文件，默认存储路径是 /mnt/data/。

撰写算法编程功能

除正常对话外，<|assistant|>interpreter 执行代码：

<|user|>

Calculate the 10th Fibonacci number<|assistant|>

The Fibonacci sequence is defined as each number equaling the sum of previous two numbers. Therefore, we can write a recursive function to calculate it. <|assistant|>interpreter

```python

def fibonacci (n):

if n == 0:

return 0

elif n == 1:

return 1

else:

return fibonacci (n -1)+ fibonacci (n-2)

fibonacci_10 = fibonacci_10 = fibonacci (9)+fibonacci (8)

fibonacci_10

``` <|observation|>

55 <|assistant|>

The 10th Fibonacci number is 55.

注意，可以实现多个用户并发执行，但是不同用户调用的编译器是同一个kernel(同时保存连续的变量)，所以，一个demo起了多个用户，那么不同用户可以看到彼此的局部变量。

绘图功能

对于图片，直接返回[Image] 占位符即可

•与工具调用类似，执行代码时模型给出 <|observation|> 作为终止 token；

•模型可能会在看到 <|observation|> 后继续对话和执行代码；

ChatGLM3的推理演示

第一步，基于Steamlit部署为网络应用

执行脚本

streamlit run web_demo2.py

streamlit run main.py --server.address=127.0.0.1

第二步，功能测试

A1、Chat功能测试

(1)、只用表情的格式回答

A2、Tool调用测试：

利用LangChain工具调用ChatGLM3：搜索工具

T1、单个Tool工具调用

(1)、查天气

(2)、查论文：利用arixiv查询Agent Tuning相关的工作

T2、多个Tool工具调用：arixiv+weather+calculator等

A3、Code Interpreter测试

ChatGLM3的微调

A1、对话微调

简介

(1)、与此前的做法不同，chatglm3-6b 推荐使用多轮对话格式进行微调

>> 即将多个不同角色的对话内容直接拼接进行 teacher -forcing

>> Special token 的加入使得多轮训练变得容易

>> 不再特殊区别 prompt 和 response

(2)、需正确配置 loss_mask ，即哪些 token的预测需要模型去学习的，哪些token不用模型去学习。判断原则，loss_mask 的配置依据是推理时的行为：

>> 如果推理的时候，模型自己生成的 token，就需要计算 loss(即需要学习)；

>> 如果token是推理系统插入的，则无需计算 loss；

loss_mask的假设

1、在对话微调时，对 loss_mask 做如下假设

(1)、 <|system|> <|user|> 和 <|observation|>，这三类角色(此三类token后续跟着的对话)所预测的 token不需要去学习，但这并不意味着这些 token 不需学习。

(2)、<|assistant|>，所预测的 token都是要学习的，但也不总是需要学习；如 few -shot prompt 中的 <|assistant|> 角色通常无需学习。

案例理解

第一行是推荐使用的system prompt，下述内容中浅绿色是由模型产生的，

1.0、校验loss_mask是否有问题

1.1、基于公开数据集进行微调：AdvertiseGen、ToolAlpaca

选择数据集

•示例数据

-AdvertiseGen & ToolAlpaca

经验总结

•提示

–微调后模型的分布发生变化，通用能力和泛化性可能会减弱，比如输入“你好”，模型就不会回答了；

–加入通用数据（如 ShareGPT ）进行混合训练可能缓解通用能力的衰减；

–若对 Base模型进行微调，可自行设计生成格式，无需遵循前述格式；

T1、AdvertiseGen数据集：输入输出

T2、ToolAlpaca数据集：多轮对话

(1)、多轮对话的微调：比如Tool format格式变化的需求，将Tool 的额帕卡转为Tool的自然语言形式

当前的base模型的回复不是很适应。可以采用P-Tuning的方式用400steps微调，就可以达到很好的效果。

微调之前

微调之后

1.2、代码实战

代码解读：如何把对话变成一系列的token

代码解读：启动服务

参考资料

PPT文件下载：百度网盘请输入提取码

提取码: na5c

你可能感兴趣的:(NLP/LLMs,人工智能,ChatGLM3)

使用Titan Takeoff进行高效的自然语言处理模型推理 scaFHIO 自然语言处理人工智能 python
在自然语言处理(NLP)领域，每一家企业都在寻求更高效的模型训练和推理解决方案。TitanML的平台通过训练、压缩和推理优化帮助企业构建和部署更佳、更小、更便宜、更快速的NLP模型。特别是其推理服务器TitanTakeoff，使得在本地硬件上轻松部署大语言模型(LLMs)成为可能。技术背景介绍TitanTakeoff是TitanML提供的一项服务，它允许用户在本地硬件上运行推理工作负载。支持大多数
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
When Large Language Models Meet Speech: A Survey on Integration Approaches UnknownBody LLM Daily Survey Paper 语言模型人工智能自然语言处理
主要内容研究背景：大语言模型（LLMs）在自然语言处理领域取得显著进展，其与语音的融合具有广泛应用前景，但缺乏相关集成方法的综述。文章将语音与LLMs集成方法分为基于文本、基于潜在表示和基于音频令牌三大类。集成方法基于文本的集成：通过级联集成、LLM重打分和LLM生成式错误纠正等方式，利用文本作为LLMs的输入和输出，处理语音相关任务，但存在信息损失和准确性与多样性平衡的问题。基于潜在表示的集成：
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
Agent、RAG、LangChain的概念及作用北极冰雨大模型人工智能
Agent：概念：在人工智能中，Agent通常指的是能够执行任务或做出决策的实体，可以是简单的程序，也可以是复杂的系统，如自动化客服助手、推荐系统等，甚至可以是软件代理、机器人或虚拟助手等各种形式。作用：它能利用内置的大语言模型来做出规划，决定执行哪些步骤，以及每个步骤需要调用哪些工具（如RAG），之后调用相应的工具，最终完成任务。例如，在客服问答场景中，Agent可以根据用户的问题，规划出需要查
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
英伟达常用GPU参数速查表，含B300..... Ai17316391579 深度学习服务器人工智能机器学习服务器电脑计算机视觉深度学习神经网络
英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域kyfwq001#5090##4090##英伟达“新核弹”B200发布##英伟达##英伟达B300##GPU##服务器##显卡##英伟达H800/A800芯片将禁售#
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
端到端的NLP框架（Haystack） deepdata_cn NLP 自然语言处理人工智能
Haystack是一个端到端的NLP框架，专门用于构建基于文档的问答系统，是实现RAG的理想选择。它提供了数据预处理、文档存储、检索和生成等一系列组件，支持多种语言模型和检索器。提供可视化界面，方便用户进行配置和调试；支持多模态数据，可处理文本、图像等多种类型的数据；具有可扩展性，可根据需求添加自定义组件。2020年在自然语言处理技术快速发展，对高效、易用且灵活的端到端NLP框架需求日益增长的背景
客服机器人怎么才能精准的回答用户问题？玩人工智能的辣条哥 AI面试机器人客服机器人
环境：客服机器人问题描述：客服机器人怎么才能精准的回答用户问题？解决方案：客服机器人要精准回答用户问题，需综合技术、数据和用户体验等多方面因素。以下是关键策略和步骤：1.精准理解用户意图自然语言处理（NLP）技术分词与实体识别：提取关键词（如“订单号”“退货”）和实体（如时间、地点）。意图分类：通过机器学习模型（如BERT、Transformer）将问题归类（如“售后”“支付”）。上下文理解记录对
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

LLMs之ChatGLM3：ChatGLM3/ChatGLM3-6B的简介—“对话格式”功能介绍(推理系统如何解析参数/采用Python代码形式/编写工具调用的代码/Manual Mode)、推理演示

相关文章

LLMs之ChatGLM3：ChatGLM3/ChatGLM3-6B的简介(多阶段增强+多模态理解+AgentTuning技术)、安装、使用方法之详细攻略

LLMs之ChatGLM3：ChatGLM3/ChatGLM3-6B的简介—“对话格式”功能介绍(推理系统如何解析参数/采用Python代码形式/编写工具调用的代码/Manual Mode)、推理演示(Chat/Tool/Code Interpreter)、微调(AdvertiseGen/ToolAlpaca)实现之图文教程攻略

ChatGLM3的“对话格式”功能的简介及其使用方法

1、“对话格式”功能的简介：对话能力、工具调用能力、代码解释器能力

(0)、对话格式中tokenization的简介

A1、实现“Tool工具调用”的功能

LLMs之C​​​​​​​hatGLM3：分别从ChatGLM3的源代码和训练样本数据中，带你探究大模型是如何实现Tool(工具调用)这一炸天功能的

(1)、工具调用输出格式、反馈原理

(2)、推理系统如何解析参数

(3)、为何采用Python代码形式（而非 JSON ）

(4)、如何具体实现—编写工具调用的代码

(5)、Manual Mode(测试模型能否看懂你的话)：

A2、实现“Code Interpreter代码解释器”的功能：撰写算法编程功能、绘图功能

ChatGLM3的推理演示

第一步，基于Steamlit部署为网络应用

第二步，功能测试

A1、Chat功能测试

(1)、只用表情的格式回答

A2、Tool调用测试：

T1、单个Tool工具调用

(1)、查天气

(2)、查论文：利用arixiv查询Agent Tuning相关的工作

T2、多个Tool工具调用：arixiv+weather+calculator等

A3、Code Interpreter测试

ChatGLM3的微调

A1、对话微调

1.0、校验loss_mask是否有问题

1.1、基于公开数据集进行微调：AdvertiseGen、ToolAlpaca

T1、AdvertiseGen数据集：输入输出

T2、ToolAlpaca数据集：多轮对话

(1)、多轮对话的微调：比如Tool format格式变化的需求，将Tool 的额帕卡转为Tool的自然语言形式

微调之前

微调之后

1.2、代码实战

代码解读：如何把对话变成一系列的token

代码解读：启动服务

参考资料

你可能感兴趣的:(NLP/LLMs,人工智能,ChatGLM3)

LLMs之ChatGLM3：分别从ChatGLM3的源代码和训练样本数据中，带你探究大模型是如何实现Tool(工具调用)这一炸天功能的