神洛华

Zephyr-7B论文解析及全量训练、Lora训练

文章目录

- 一、Zephyr：Direct Distillation of LM Alignment
- - 1.1 开发经过
  - - 1.1.1 Zephyr-7B-alpha
    - 1.1.2 Zephyr-7B-beta
  - 1.2 摘要
  - 1.3 相关工作
  - 1.4 算法
  - - 1.4.1 蒸馏监督微调（dSFT）
    - 1.4.2 基于偏好的AI反馈 (AIF）
    - 1.4.3 直接蒸馏偏好优化（dDPO）
    - 1.4.4 训练细节
  - 1.5 实验
- 二、alignment-handbook：低成本训练Zephyr
- - 2.1 项目简介
  - 2.2 全量训练
  - - 2.2.1 环境配置
    - 2.2.2 SFT训练
    - 2.2.3 DPO训练
  - 2.3 Lora训练
  - 2.4 测试

一、Zephyr：Direct Distillation of LM Alignment

1.1 开发经过

全文参参考：《Thomas Wolf: Mistral + OpenBMB + HuggingFace 跨越三大洲的大模型开源合作故事》、《最好7B模型再易主！打败700亿LLaMA2，苹果电脑就能跑，还开源免费》

资源：UltraFeedback HuggingFace、UltraFeedback Github 地址、UltraChat HuggingFace、UltraChat Github 地址

推荐：OpenBMB官网、OpenBMB GitHub、清华NLP GitHub、HuggingFaceH4

1.1.1 Zephyr-7B-alpha

几个月前，巴黎的一个新团队发布了他们首个模型：Mistral 7B，这个模型体积小巧但性能强劲，在基准测试中的表现超过了所有同类模型，并且还是一个开源项目。

Hugging Face H4 团队的两名成员在一次小聚中，讨论了用斯坦福大学新发表的 DPO 方法对 Mistral 7B 这个模型进行微调的可能性。随后，他们在 HF hub 上找到了一些公开的数据集，包括由面壁智能和清华大学 NLP 共同支持的 OpenBMB 开源的两个大规模、高质量的微调数据集：UltraFeedback 和 UltraChat。

UltraFeedback：一个大规模、多样化、细粒度的偏好数据集，构建过程如下：
- 从UltraChat、ShareGPT、Evol-Instruct、TruthfulQA、FalseQA 和 FLAN等多个资源收集了约64k提示
- 为了防止奖励模型过度拟合某些文本样式或捕获文本样式和奖励之间的虚假相关性，我们选择具有不同大小、架构和训练数据的各个级别的17个基础模型构建一个模型池，包括LLaMA、Falcon、StarChat、MPT、GPT 和 Bard等。
- 定义了Helpfulness, Truthfulness, Honesty, Verbalized Calibration , Harmless5项原则，以从不同方面调整模型行为
- 每条指令，随机采样 4 个模型来完成，并对每个完成的指示,我们随机采样一个原则并将其添加到系统提示中，以调整模型的行为。
- 最终数据集包括 64k指令、256k 条对话数据以及相应的偏好标注数据、308k高质量反馈，在非社区标注的偏好数据集中，这一数据规模排在首位。对话数据中每条偏好标注均包含 instruction-following, truthfulness, honesty and helpfulness四个方面的细粒度得分与 GPT-4 的注释说明。整个数据集详细技术原理可参考其论文。

基于 UltraFeedback，面壁团队还训练了奖励模型UltraRM和批评模型UltraCM来进一步辅助模型评测和模型反馈学习，更多介绍，详见《面壁智能对齐技术UltraFeedback如何让7B模型打败70B LLaMA2》

UltraChat：高质量的对话数据集，包含了 150 余万条多轮指令数据。调用多个 ChatGPT API 相互对话，从而生成多轮对话数据。

经过几轮实验证明，使用 OpenBMB 两个数据集训练出来的新模型非常强大，是 H4 团队在伯克利和斯坦福的基准测试中见过的最强模型，并在之后被名名为 Zephyr模型。Zephyr-7B-alpha 的MT-Bench平均得分7.09 ，超越Llama2-70B-Chat。

一个基于高质量数据集的 7B 模型就打败了参数十倍之大的 LLaMA2-70B-Chat，这说明底层的数据工作才是最稀缺的和有时间价值的，这或许是各家各派大模型在百模大战中的突破口之一。

另外，Zephyr的效果优于 LLaMA2-70B-Chat，另外一个主要原因是使用了斯坦福大学和CZ Biohub不久前合作提出DPO方法。与传统的PPO强化学习方法不同，DPO方法舍弃了强化学习，要比PPO稳定得多。

DPO简单解释：要想使模型的输出更加符合人类偏好，一直以来传统方法是用一个奖励模型来微调目标模型。输出得好给奖励，输出不好不给奖励。而DPO的方法绕过了建模奖励函数，相当于直接在偏好数据上优化模型，它解决了人类反馈的强化学习训练难、训练成本高的问题。

1.1.2 Zephyr-7B-beta

开发二代模型时，他们思考了大模型所用的蒸馏监督微调（dSFT），但用这种方法模型是不对齐的，不能很好地生成符合用户意图的输出。

所以团队尝试使用来自AI反馈（AI Feedback，AIF）的偏好数据，用一个“教师模型”对输出进行排名，形成一个数据集，然后应用蒸馏直接偏好优化（dDPO）来训练一个与用户意图对齐的模型，且在微调期间不需要任何额外的抽样。研究人员还测试了不用SFT的效果，结果性能大大降低，说明dSFT步骤至关重要。

二代Zephyr-7B-beta，探索了从GPT-4、Claude 2中提取对齐性，然后将其注入小模型中的想法，开发出了将蒸馏直接偏好优化（dDPO）用于小模型的方法，MT-Bench平均得分升高至7.34。

在AlpacaEval上，Zephyr胜率为90.6%，优于ChatGPT（3.5）：

1.2 摘要

DPO论文《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》

Zephyr论文《Zephyr: Direct Distillation of LM Alignment》

本文旨在创建一个较小的语言模型，该模型能够更好地对用户意图进行对齐。

先前的研究表明，对较大模型进行蒸馏监督微调（dSFT）可以显著提高任务准确性。然而，这些模型在自然提示下的响应不够理想。为了改善这一性质，研究者尝试使用来自AI Feedback（AIF）的偏好数据，通过使用由教师模型排名的输出数据集，应用蒸馏直接偏好优化（dDPO）来学习一个具有显著改进的意图对齐的聊天模型。

这种方法只需要几个小时的训练，而且在微调过程中无需进行额外的采样。最终得到的Zephyr-7B在7B参数模型的聊天基准（ chat benchmarks）上取得了新的最先进水平，并且无需人工标注。MT-Bench结果显示，Zephyr-7B超过了LLaMA2-70B-Chat。该系统的代码、模型、数据和教程可在alignment-handbook上找到。

1.3 相关工作

近年来开源的大规模语言模型不断涌现，如ChatGPT之后出现的LLaMA、RedPajama-INCITE、Falcon、Llama 2、Mistral等模型，为研究社区提供了研究和应用的基础模型。随着开源模型的发展，研究人员研究从大模型中迁移知识来提升小模型性能的方法，这一趋势开始于self-instruct和Alpaca，蒸馏策略如SFT和偏好优化是其中的研究重点。

为了跟上生成式AI的创新步伐，基准测试和评估LLM的工具也取得了长足发展，比如：

使用强大的LLM（GPT-4、Claude）作为评估器，对模型输出打分或成对排名回复来判断模型的响应。
LMSYS chatbot arena：使用众包的方式，通过匿名随机对战来基准测试LLM。模型根据排行榜上的Elo评分进行排名。
AlpacaEval：类似LMSYS这种排行榜的方式，成对比较模型，但使用GPT-4和Claude等更大的LLM来替代人类进行评估
MTBench：使用GPT-4对不同任务类别的多轮对话进行评分（1-10分），任务类别包括推理、角色扮演、数学、编码、写作、人文、STEM和信息提取等。
其它评测工具：HuggingFace Open LLM leaderbaord、Chain-of-Thought Hub、ChatEval、 FastEval等。

本文最终通过在MTBench、AlpacaEval和HuggingFace OpenLLM排行榜上的评测结果来展示Zephyr模型的效果。

Model performance on MT-Bench

1.4 算法

参考：《Zephyr-7B: Fine-Tuning and Inference with W&B》、《HuggingFace 新作：70亿打败700亿Llama 2,开源模型Zephyr-7B！MAC可跑》

论文旨在使开源大型语言模型与用户意图保持一致，如下图所示整个训练过程分为三步：

1.4.1 蒸馏监督微调（dSFT）

dSFT（Distilled Supervised Fine-Tuning）通过高质量的指令-响应数据集来教会我们的模型对指令和提示进行响应。Zephyr没有采用传统的在指令-响应数据集上进行监督微调(SFT)，而是利用教师模型来生成这些高质量的响应，从而“蒸馏”教师模型的某些能力到我们的模型中，你也可以将其看作一种伪标签法。

假设你有一个种子提示集合 ${x_1, ..., x_j\}$ ，对于每个种子提示 $x_i$ ，使用教师模型(GPT-4)对指令做出响应得到 $y_i$ ，同时基于其响应进一步提炼这个指令得到 $\hat{x}_i$ ，最终得到数据集： $\{(\hat{x}_i, y_i), ..., (\hat{x}_j, y_j)\}$

然后对模型进行指令调优，以优化以下方程：

$\pi_{dSFT} = \underset{\pi}{max} ~ \underset{(x, y) \sim C}{\mathbb{E}} log \pi(y|x)$

$\pi$ ：要优化的参数，即学生模型
C：教师模型生成的训练数据集，包含提炼后的提示 $\hat{x}_i$ 和响应 $y_i$
$\underset{(x, y) \sim C}{\mathbb{E}}$ ：表示从数据集C中采样 $x$ 和 $y$

这个方程的目标是最大化学生模型生成教师模型响应的对数似然概率，即通过使学生模型模仿教师模型的响应，实现知识迁移。

1.4.2 基于偏好的AI反馈 (AIF）

人类反馈（HF，Human feedback）可以为对齐大语言模型(LLM)提供额外的指导信号，是调整LLM的常见方法。本文使用了蒸馏，所以改为使用教师模型对其他模型生成的输出给出指导，即基于偏好的AI反馈(AIF，AI Feedback through Preferences )。说白了就是用AI反馈（教师模型）代替人类反馈。

具体来说，参考UltraFeedback中的方法，对于每个提示 $x_1, ..., x_j$ ，使用4个模型（Claude、LLaMA、Falcon等）生成响应 $(y^1_i, y^2_i, y^3_i, y^4_i)$ ，然后使用GPT-4作为教师模型对其给出分数 $s^{\{1, 2, 3, 4\}} = \pi_{T}(\cdot|x_i, y_i^{\{1, 2, 3, 4\}})$ ，4 个响应中的最高分的响应称为 $y_w$ ，随机一个较低分数的响应称为 $y_l$ 。这样，我们就从提示列表 ${x_1, ..., x_j\}$ 中派生出AI反馈数据集 $D = \{(x_1, y_1^w, y_1^l), ..., (x_j, y_j^w, y_j^l)\}$ ，这是一个具有较强响应和较弱响应的三元组。

1.4.3 直接蒸馏偏好优化（dDPO）

直接蒸馏偏好优化 (dDPO，Distilled direct preference optimization)的目标，是通过最大化偏好模型中响应 $y_w$ 对响应 $y_l$ 的优先排列概率，来优化经过dSFT的模型πdSFT。奖励函数由学生语言模型确定

过去使用人工智能反馈（AI feedback）的工作主要集中在使用强化学习（RL）的方法，比如PPO（Proximal Policy Optimization），通过先训练奖励函数然后从当前策略中抽样来计算更新以优化 $θ$ 。而在DPO中，偏好模型是由奖励函数 $r_θ(x, y)$ 确定的，该函数利用了学生语言模型 $π_θ$ 。

DPO的关键观察是用最优语言模型策略π和原始语言模型策略πdSFT，来导出最优的奖励函数。在适当选择偏好模型的情况下，他们证明对于常数β和配分函数Z，有：
$r^*(x,y) = \beta \frac{\pi_{\text{*}}(y | x)} {\pi_{\text{dSFT}}(y | x)} + \beta\log Z(x)$

将奖励函数插入偏好模型中，得到的目标函数如下：
$\pi_\theta = \underset{\pi}{max} \underset{(x, y_w, y_l)\sim D}{\mathbb{E}} log \sigma (\beta log \frac{\pi(y_w|x)}{\pi_{dSFT} (y_w|x)} - \beta log \frac{\pi(y_l|x)}{\pi_{dSFT} (y_l|x)})$

与 RLHF 相比，DPO直接从静态偏好数据优化模型，而不需要经过训练的奖励模型。据作者称，DPO 是轻量级的并且更稳定。文中使用的方法称为 dDPO，因为数据集是从早期步骤中提取（distilled）的，利用 AI 提供的偏好标签。

总结整个训练过程：

对LLM进行dSFT指令调整，得到模型 $\pi_{dSFT}$
参考UltraFeedback中的方法，从提示列表 ${x_1, ..., x_j\}$ 中构建AI反馈数据集 $D = \{(x_1, y_1^w, y_1^l), ..., (x_j, y_j^w, y_j^l)\}$
遍历每个AIF三元组 $x_i, y_i^w, y_i^l)\}$ ，以实现模型的优化。
- 计算dSFT 模型的 $x, y_w)$ 和 $x, y_l)$ 概率（仅进行前向计算）。
- 计算dDPO模型的 $x, y_w)$ 和 $x, y_l)$ 的概率
- 根据目标函数计算损失，反向传播以更新参数，然后重复此过程。

1.4.4 训练细节

$\pi_{dSFT}$ 模型训练蚕食为：cosine LR scheduler，最大学习率为2e-5， warmup steps=10%，epoch=1，sequence length=2048，batch size =512。
DPO 模型训练蚕食为：linear LR scheduler，最大学习率为5e-7， warmup steps=10%。batch size =32，β=0.1，epoch=3。

最终的Zephyr-7B模型是在SFT模型（训练1个epcoh）上进行权重初始化，然后进行3个epoch的DPO训练。

1.5 实验

dDPO提升了在对话数据集MT-Bench 和 AlpacaEval 上的效果
dDPO提升了在传统任务（Academic Task）上的效果
偏好优化是否必要？
在表格3中，我们通过以四种不同方式对 Mistral 7B 进行微调，来考察对齐过程中不同步骤的影响：
- dDPO - dSFT：直接在base model上进行1个epoch的DPO训练，数据集为UltraFeedback。可以看到没有第一步SFT训练，模型无法从反馈中学习，表现糟糕。
- dSFT1：在base model上进行1个epoch的SFT训练，数据集为UltraChat，这一步显著提高模型在两个聊天基准上的得分。
- dSFT2：先进行dSFT1，然后在UltraFeedback数据集上接着进行1个epoch的SFT训练，模型过拟合
- dDPO+dSFT：本文的训练策略，dSFT1之后在接着在ltraFeedback数据集上接着进行1个epoch的DPO训练，两个基准上均有显著提升。
过拟合是否会损失在下游任务上的性能
- 一轮 DPO 训练后，模型会出现强烈的过拟合，如下图中训练集准确率的完美表现所示。但这并没有损害在 MT-Bench 和 AlpacaEval 上的下游性能。随着训练时间增加，过拟合后，效果居然更好了。研究人员认为这类似于SFT中的过拟合。
- 如果 SFT 训练超过1 epoch，那么DPO 步骤会引起性能的退化。
- 最佳模型经过了一轮 SFT训练，三轮DPO 的训练。

二、alignment-handbook：低成本训练Zephyr

参考：《如何低成本训练一个可以超越 70B Llama2 的模型 Zephyr-7B》、项目地址《alignment-handbook》

整个Zephyr的完整训练过程，发布在《alignment-handbook》，环境安装见项目首页。下面对训练过程进行简单介绍。

2.1 项目简介

整个训练过程分两步：

SFT训练：使用 UltraChat 数据集对 Mistral 7B 模型进行SFT训练。
对于 SFT 训练，我们使用了 UltraChat 数据集，它包含了约 1.6M个由 GPT3.5 生成的对话。我们最初是在所有数据上进行训练的，但后来发现训练出来的模型性格有点让人讨厌。因此，我们筛选出了大约 200K 个更有帮助的例子进行训练，筛选后的数据集为ultrachat_200k。
DPO微调：使用UltraFeedback 数据集的预处理版本，对SFT模型进行DPO（直接偏好优化）微调，将其与AI反馈（AI feedback）对齐。
UltraFeedback 数据集涵盖了各种模型范围。每个回答都由 GPT-4 根据有益性等标准进行了评分，以此来推导 AI 的偏好。一个有趣的发现是，在用DPO的方法时，随着训练时间增加，过拟合后，效果居然更好了。研究人员认为这类似于SFT中的过拟合。

另外，在所有实验中都使用了 TRL 和 DeepSpeed ZeRO-3：SFTTrainer、DPOTrainer，总计算成本：$500 或在16 x A100 上运行 8 小时，体验demo：zephyr-chat。

评估方法：我们使用了 LMSYS 提供的优秀工具 MT Bench。这个多轮的基准测试可以评估聊天机器人在创意写作、编码和数学等各个领域的能力。相比其他排行榜，它能提供更准确的关于聊天机器人性能的信息。

最终，项目提供了两种训练方式：

Zephyr-7B完整训练：因为是全量训练，所以开启了deepspeed ZERO stage3，环境配置见recipes/accelerate_configs/deepspeed_zero3.yaml。

# Step 1 - SFT
ACCELERATE_LOG_LEVEL=info accelerate launch --config_file recipes/accelerate_configs/deepspeed_zero3.yaml scripts/run_sft.py recipes/zephyr-7b-beta/sft/config_full.yaml

# Step 2 - DPO
ACCELERATE_LOG_LEVEL=info accelerate launch --config_file recipes/accelerate_configs/deepspeed_zero3.yaml scripts/run_dpo.py recipes/zephyr-7b-beta/dpo/config_full.yaml

Zephyr-7B LoRA训练：微调不需要开启deepspeed，环境配置见recipes/accelerate_configs/multi_gpu.yaml。

# Step 1 - SFT
ACCELERATE_LOG_LEVEL=info accelerate launch --config_file recipes/accelerate_configs/multi_gpu.yaml --num_processes=1 scripts/run_sft.py recipes/zephyr-7b-beta/sft/config_lora.yaml

# Step 2 - DPO
ACCELERATE_LOG_LEVEL=info accelerate launch --config_file recipes/accelerate_configs/multi_gpu.yaml --num_processes=1 scripts/run_dpo.py recipes/zephyr-7b-beta/dpo/config_lora.yaml

下面给出训练代码，今天写笔记太累了，还没有跑，有空再补吧。

2.2 全量训练

2.2.1 环境配置

配置文件为recipes/accelerate_configs/deepspeed_zero3.yaml：

compute_environment: LOCAL_MACHINE
debug: false
deepspeed_config:
  deepspeed_multinode_launcher: standard
  offload_optimizer_device: none
  offload_param_device: none
  zero3_init_flag: true
  zero3_save_16bit_model: true
  zero_stage: 3
distributed_type: DEEPSPEED
downcast_bf16: 'no'
machine_rank: 0
main_training_function: main
mixed_precision: bf16
num_machines: 1
num_processes: 8
rdzv_backend: static
same_network: true
tpu_env: []
tpu_use_cluster: false
tpu_use_sudo: false
use_cpu: false

2.2.2 SFT训练

模型配置文件为 recipes/zephyr-7b-beta/sft/config_full.yaml

# Model arguments
model_name_or_path: mistralai/Mistral-7B-v0.1
model_revision: main
torch_dtype: bfloat16
use_flash_attention_2: true

# Data training arguments
dataset_mixer:
  HuggingFaceH4/ultrachat_200k: 1.0
dataset_splits:
- train_sft
- test_sft
preprocessing_num_workers: 12

# SFT trainer config
bf16: true
do_eval: true
evaluation_strategy: epoch
gradient_accumulation_steps: 2
gradient_checkpointing: true
hub_model_id: zephyr-7b-sft-full
hub_strategy: every_save
learning_rate: 2.0e-05
log_level: info
logging_steps: 5  
logging_strategy: steps
lr_scheduler_type: cosine
max_seq_length: 2048
max_steps: -1
num_train_epochs: 1
output_dir: data/zephyr-7b-sft-full
overwrite_output_dir: true
per_device_eval_batch_size: 16
per_device_train_batch_size: 32
push_to_hub: true
remove_unused_columns: true
report_to:
- tensorboard
save_strategy: "no"
save_total_limit: null
seed: 42
tf32: true

SFT训练代码见scripts/run_sft.py

#!/usr/bin/env python
# coding=utf-8
# Copyright 2023 The HuggingFace Inc. team. All rights reserved.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
"""
Supervised fine-tuning script for decoder language models.
"""

import logging
import random
import sys

import datasets
import torch
import transformers
from transformers import set_seed

from accelerate import Accelerator
from alignment import (
    DataArguments,
    H4ArgumentParser,
    ModelArguments,
    SFTConfig,
    apply_chat_template,
    get_datasets,
    get_kbit_device_map,
    get_peft_config,
    get_quantization_config,
    get_tokenizer,
)
from trl import SFTTrainer


logger = logging.getLogger(__name__)


def main():
    parser = H4ArgumentParser((ModelArguments, DataArguments, SFTConfig))
    model_args, data_args, training_args = parser.parse()

    # Set seed for reproducibility
    set_seed(training_args.seed)

    accelerator = Accelerator()

    ###############
    # Setup logging
    ###############
    logging.basicConfig(
        format="%(asctime)s - %(levelname)s - %(name)s - %(message)s",
        datefmt="%Y-%m-%d %H:%M:%S",
        handlers=[logging.StreamHandler(sys.stdout)],
    )
    log_level = training_args.get_process_log_level()
    logger.setLevel(log_level)
    datasets.utils.logging.set_verbosity(log_level)
    transformers.utils.logging.set_verbosity(log_level)
    transformers.utils.logging.enable_default_handler()
    transformers.utils.logging.enable_explicit_format()

    # Log on each process a small summary
    logger.warning(
        f"Process rank: {training_args.local_rank}, device: {training_args.device}, n_gpu: {training_args.n_gpu}"
        + f" distributed training: {bool(training_args.local_rank != -1)}, 16-bits training: {training_args.fp16}"
    )
    logger.info(f"Model parameters {model_args}")
    logger.info(f"Data parameters {data_args}")
    logger.info(f"Training/evaluation parameters {training_args}")

    ###############
    # Load datasets
    ###############
    raw_datasets = get_datasets(data_args, splits=data_args.dataset_splits)
    logger.info(
        f"Training on the following datasets and their proportions: {[split + ' : ' + str(dset.num_rows) for split, dset in raw_datasets.items()]}"
    )

    ################
    # Load tokenizer
    ################
    tokenizer = get_tokenizer(model_args, data_args)

    #####################
    # Apply chat template
    #####################
    raw_datasets = raw_datasets.map(apply_chat_template, fn_kwargs={"tokenizer": tokenizer, "task": "sft"})
    train_dataset = raw_datasets["train"]
    eval_dataset = raw_datasets["test"]

    with training_args.main_process_first(desc="Log a few random samples from the processed training set"):
        for index in random.sample(range(len(raw_datasets["train"])), 3):
            logger.info(f"Sample {index} of the processed training set:\n\n{raw_datasets['train'][index]['text']}")

    #######################
    # Load pretrained model
    #######################
    logger.info("*** Load pretrained model ***")
    torch_dtype = (
        model_args.torch_dtype if model_args.torch_dtype in ["auto", None] else getattr(torch, model_args.torch_dtype)
    )

    model_kwargs = dict(
        revision=model_args.model_revision,
        trust_remote_code=model_args.trust_remote_code,
        use_flash_attention_2=model_args.use_flash_attention_2,
        torch_dtype=torch_dtype,
        use_cache=False if training_args.gradient_checkpointing else True,
        device_map=get_kbit_device_map(),
        quantization_config=get_quantization_config(model_args),
    )
    logger.info("*** Model loaded! ***")

    ########################
    # Initialize the Trainer
    ########################
    trainer = SFTTrainer(
        model=model_args.model_name_or_path,
        model_init_kwargs=model_kwargs,
        args=training_args,
        train_dataset=train_dataset,
        eval_dataset=eval_dataset,
        dataset_text_field="text",
        max_seq_length=training_args.max_seq_length,
        tokenizer=tokenizer,
        packing=True,
        peft_config=get_peft_config(model_args),
    )

    ###############
    # Training loop
    ###############
    logger.info("*** Train ***")
    train_result = trainer.train()
    metrics = train_result.metrics
    max_train_samples = data_args.max_train_samples if data_args.max_train_samples is not None else len(train_dataset)
    metrics["train_samples"] = min(max_train_samples, len(train_dataset))
    trainer.log_metrics("train", metrics)
    trainer.save_metrics("train", metrics)
    trainer.save_state()

    ##########
    # Evaluate
    ##########
    if training_args.do_eval:
        logger.info("*** Evaluate ***")
        metrics = trainer.evaluate()
        max_eval_samples = data_args.max_eval_samples if data_args.max_eval_samples is not None else len(eval_dataset)
        metrics["eval_samples"] = min(max_eval_samples, len(eval_dataset))
        trainer.log_metrics("eval", metrics)
        trainer.save_metrics("eval", metrics)

    ##################################
    # Save model and create model card
    ##################################
    logger.info("*** Save model ***")
    trainer.save_model(training_args.output_dir)
    logger.info(f"Model saved to {training_args.output_dir}")

    # Save everything else on main process
    if accelerator.is_main_process:
        kwargs = {
            "finetuned_from": model_args.model_name_or_path,
            "dataset": list(data_args.dataset_mixer.keys()),
            "dataset_tags": list(data_args.dataset_mixer.keys()),
            "tags": ["alignment-handbook"],
        }
        trainer.create_model_card(**kwargs)
        # Restore k,v cache for fast inference
        trainer.model.config.use_cache = True
        trainer.model.config.save_pretrained(training_args.output_dir)

        if training_args.push_to_hub is True:
            logger.info("Pushing to hub...")
            trainer.push_to_hub()

    accelerator.wait_for_everyone()


if __name__ == "__main__":
    main()

2.2.3 DPO训练

环境配置文件相同
模型配置文件见recipes/zephyr-7b-beta/dpo/config_full.yaml：

# Model arguments
model_name_or_path: alignment-handbook/zephyr-7b-sft-full

# Data training arguments
# For definitions, see: src/h4/training/config.py
dataset_mixer:
  HuggingFaceH4/ultrafeedback_binarized: 1.0
dataset_splits:
- train_prefs
- test_prefs
preprocessing_num_workers: 12

# DPOTrainer arguments
bf16: true
beta: 0.1
do_eval: true
evaluation_strategy: steps
eval_steps: 100
gradient_accumulation_steps: 1
gradient_checkpointing: true
hub_model_id: zephyr-7b-dpo-full
learning_rate: 5.0e-7
log_level: info
logging_steps: 10
lr_scheduler_type: linear
max_length: 1024
max_prompt_length: 512
num_train_epochs: 3
optim: rmsprop
output_dir: data/zephyr-7b-dpo-full
per_device_train_batch_size: 8
per_device_eval_batch_size: 4
push_to_hub: true
save_strategy: "no"
save_total_limit: null
seed: 42
warmup_ratio: 0.1

DPO训练代码见scripts/run_dpo.py：

#!/usr/bin/env python
# coding=utf-8
# Copyright 2023 The HuggingFace Inc. team. All rights reserved.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
import logging
import sys

import torch
import transformers
from transformers import AutoModelForCausalLM, set_seed

from accelerate import Accelerator
from alignment import (
    DataArguments,
    DPOConfig,
    H4ArgumentParser,
    ModelArguments,
    apply_chat_template,
    get_datasets,
    get_kbit_device_map,
    get_peft_config,
    get_quantization_config,
    get_tokenizer,
    is_adapter_model,
)
from peft import PeftConfig, PeftModel
from trl import DPOTrainer


logger = logging.getLogger(__name__)


def main():
    parser = H4ArgumentParser((ModelArguments, DataArguments, DPOConfig))
    model_args, data_args, training_args = parser.parse()

    #######
    # Setup
    #######
    logging.basicConfig(
        format="%(asctime)s - %(levelname)s - %(name)s - %(message)s",
        datefmt="%Y-%m-%d %H:%M:%S",
        handlers=[logging.StreamHandler(sys.stdout)],
    )
    log_level = training_args.get_process_log_level()
    logger.setLevel(log_level)
    transformers.utils.logging.set_verbosity(log_level)
    transformers.utils.logging.enable_default_handler()
    transformers.utils.logging.enable_explicit_format()

    # Log on each process the small summary:
    logger.info(f"Model parameters {model_args}")
    logger.info(f"Data parameters {data_args}")
    logger.info(f"Training/evaluation parameters {training_args}")

    # Set seed for reproducibility
    set_seed(training_args.seed)

    # Increase distributed timeout to 3h to enable push to Hub to complete
    accelerator = Accelerator()

    ###############
    # Load datasets
    ###############
    raw_datasets = get_datasets(data_args, splits=data_args.dataset_splits)
    logger.info(
        f"Training on the following splits: {[split + ' : ' + str(dset.num_rows) for split, dset in raw_datasets.items()]}"
    )
    column_names = list(raw_datasets["train"].features)

    #####################################
    # Load tokenizer and process datasets
    #####################################
    data_args.truncation_side = "left"  # Truncate from left to ensure we don't lose labels in final turn
    tokenizer = get_tokenizer(model_args, data_args)

    #####################
    # Apply chat template
    #####################
    raw_datasets = raw_datasets.map(
        apply_chat_template,
        fn_kwargs={"tokenizer": tokenizer, "task": "dpo"},
        num_proc=data_args.preprocessing_num_workers,
        remove_columns=column_names,
        desc="Formatting comparisons with prompt template",
    )

    # Replace column names with what TRL needs, text_chosen -> chosen and text_rejected -> rejected
    for split in ["train", "test"]:
        raw_datasets[split] = raw_datasets[split].rename_columns(
            {"text_prompt": "prompt", "text_chosen": "chosen", "text_rejected": "rejected"}
        )

    torch_dtype = (
        model_args.torch_dtype if model_args.torch_dtype in ["auto", None] else getattr(torch, model_args.torch_dtype)
    )
    model_kwargs = dict(
        revision=model_args.model_revision,
        trust_remote_code=model_args.trust_remote_code,
        use_flash_attention_2=model_args.use_flash_attention_2,
        torch_dtype=torch_dtype,
        use_cache=False if training_args.gradient_checkpointing else True,
        device_map=get_kbit_device_map(),
        quantization_config=get_quantization_config(model_args),
    )

    model = model_args.model_name_or_path
    if is_adapter_model(model, model_args.model_revision):
        # load the model, merge the adapter weights and unload the adapter
        # Note: to run QLora, you will need to merge the based model separately as the merged model in 16bit
        logger.info(f"Merging peft adapters for {model_args.model_name_or_path=}")

        peft_config = PeftConfig.from_pretrained(model_args.model_name_or_path, revision=model_args.model_revision)

        model_kwargs = dict(
            revision=model_args.base_model_revision,
            trust_remote_code=model_args.trust_remote_code,
            use_flash_attention_2=model_args.use_flash_attention_2,
            torch_dtype=torch_dtype,
            use_cache=False if training_args.gradient_checkpointing else True,
        )
        base_model = AutoModelForCausalLM.from_pretrained(
            peft_config.base_model_name_or_path,
            **model_kwargs,
        )
        model = PeftModel.from_pretrained(
            base_model, model_args.model_name_or_path, revision=model_args.model_revision
        )
        model.eval()
        model = model.merge_and_unload()
        model_kwargs = None

    ref_model = model
    ref_model_kwargs = model_kwargs

    if model_args.use_peft is True:
        ref_model = None
        ref_model_kwargs = None

    #########################
    # Instantiate DPO trainer
    #########################
    dpo_trainer = DPOTrainer(
        model,
        ref_model,
        model_init_kwargs=model_kwargs,
        ref_model_init_kwargs=ref_model_kwargs,
        args=training_args,
        beta=training_args.beta,
        train_dataset=raw_datasets["train"],
        eval_dataset=raw_datasets["test"],
        tokenizer=tokenizer,
        max_length=training_args.max_length,
        max_prompt_length=training_args.max_prompt_length,
        peft_config=get_peft_config(model_args),
    )

    ###############
    # Training loop
    ###############
    train_result = dpo_trainer.train()
    metrics = train_result.metrics
    max_train_samples = (
        data_args.max_train_samples if data_args.max_train_samples is not None else len(raw_datasets["train"])
    )
    metrics["train_samples"] = min(max_train_samples, len(raw_datasets["train"]))
    dpo_trainer.log_metrics("train", metrics)
    dpo_trainer.save_metrics("train", metrics)
    dpo_trainer.save_state()

    logger.info("*** Training complete ***")

    ##########
    # Evaluate
    ##########
    if training_args.do_eval:
        logger.info("*** Evaluate ***")
        metrics = dpo_trainer.evaluate()
        max_eval_samples = (
            data_args.max_eval_samples if data_args.max_eval_samples is not None else len(raw_datasets["test"])
        )
        metrics["eval_samples"] = min(max_eval_samples, len(raw_datasets["test"]))
        dpo_trainer.log_metrics("eval", metrics)
        dpo_trainer.save_metrics("eval", metrics)

    ##################################
    # Save model and create model card
    ##################################
    dpo_trainer.save_model(training_args.output_dir)
    # Save everything else on main process
    if accelerator.is_main_process:
        kwargs = {
            "finetuned_from": model_args.model_name_or_path,
            "dataset": list(data_args.dataset_mixer.keys()),
            "dataset_tags": list(data_args.dataset_mixer.keys()),
            "tags": ["alignment-handbook"],
        }
        dpo_trainer.create_model_card(**kwargs)
        # Restore k,v cache for fast inference
        dpo_trainer.model.config.use_cache = True
        dpo_trainer.model.config.save_pretrained(training_args.output_dir)
        if training_args.push_to_hub is True:
            dpo_trainer.push_to_hub()

    # Ensure we don't timeout on model save / push to Hub
    logger.info("*** Waiting for all processes to finish ***")
    accelerator.wait_for_everyone()

    logger.info("*** Run complete! ***")


if __name__ == "__main__":
    main()

2.3 Lora训练

Lora训练时的训练代码和模型配置文件与全量训练时完全相同，只是环境配置不一样。因为只是微调，不需要开启ZERO stage3，所以环境配置为recipes/accelerate_configs/multi_gpu.yaml：

compute_environment: LOCAL_MACHINE
debug: false
distributed_type: MULTI_GPU
downcast_bf16: 'no'
gpu_ids: all
machine_rank: 0
main_training_function: main
mixed_precision: bf16
num_machines: 1
num_processes: 8
rdzv_backend: static
same_network: true
tpu_env: []
tpu_use_cluster: false
tpu_use_sudo: false
use_cpu: false

2.4 测试

测试部分见alignment-handbook项目下的test文件夹，作者还没有上传相关说明文件，大家可以继续跟踪相关进度。

你可能感兴趣的:(LLMs,llm,nlp)

论文阅读：2025 arxiv Qwen3 Technical Report
https://arxiv.org/pdf/2505.09388https://www.doubao.com/chat/9918384373236738文章目录论文翻译Qwen3技术报告摘要1引言论文翻译Qwen3技术报告Qwen团队摘要在这项工作中，我们介绍了Qwen模型家族的最新版本Qwen3。Qwen3包含一系列大型语言模型（LLM），旨在提升性能、效率和多语言能力。Qwen3系列包括密集型
干货！大模型时代一定要收藏的 20 个LLM 中文数据集 OpenBayes 资源上新人工智能语言模型数据库机器学习
自ChatGPT重磅推出以来，大语言模型(largelanguageModel,LLM)以其卓越的学习能力在各个领域引起轰动。大模型的训练和调优离不开优质庞大的数据支撑，精心构建的数据集不仅为大模型提供了充分的燃料，还为大模型在垂直领域的应用和性能提升提供了可能。本文整理了一些适用于大模型训练调优的热门中文公开数据集（按照首字母A-Z顺序排列），以供大家了解和使用。温馨提示：本文列举的所有数据集，
探秘阿里云Tair KVCache：大模型推理的加速引擎云资源服务商阿里云云计算人工智能
一、引言近年来，人工智能领域发展迅猛，大语言模型（LLM）不断取得突破，其应用场景也日益广泛。从智能客服到内容生成，从智能写作到智能翻译，大语言模型正在深刻地改变着我们的生活和工作方式。随着模型规模的不断扩大和推理需求的日益增长，大模型推理过程中的显存瓶颈问题逐渐凸显，成为制约其发展和应用的关键因素。在大模型推理中，KVCache技术作为一种优化手段，通过缓存历史Token的Key/Value向量
NL2SQL进阶系列(1)：DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解汀、人工智能 LLM工业级落地实践人工智能 LLM 自然语言处理 NL2SQL 大模型应用 Text2SQL gpt
NL2SQL进阶系列(1)：DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理1.MindSQL(库)MindSQL是一
【LlamaIndex核心组件指南 | 模型篇】一文通晓 LlamaIndex 模型层：LLM、Embedding 及多模态应用全景解析
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
Prompt Engineering for Large Language Models 三月七꧁ ꧂ 论文合集llm+prompt prompt 语言模型人工智能自然语言处理 pdf javascript 前端
题目大型语言模型的快速工程简介随着OpenAI的ChatGPT和Google的Bard等软件的普及，大语言模型（LLM）已经渗透到生活和工作的许多方面。例如，ChatGPT可用于提供定制食谱，建议替换缺失的成分。它可用于起草研究提案、用多种编程语言编写工作代码、在语言之间翻译文本、协助政策制定等等（Gao2023）。用户通过“提示”或自然语言指令与大型语言模型进行交互。精心设计的提示可以带
RAG应用的评估（一） AI老炮 AIGC ai 机器学习人工智能语言模型
前言上篇文档主要是对Advanced-RAG的定义、策略和适用场景做了一个细致的分析，那么当我们准备将一个基于大模型的RAG应用投入生产时，如何去判断这个RAG是否合理呢？下面有一些问题是需要提前考并应付的：LLM输出的不确定性会带来一定的不可预知性。一个RAG应用在投入生产之前需要科学的测试以衡量这种不可预知性。在LLM应用上线后的持续维护中,需要科学、快速、可复用的手段来衡量其改进效果,比如回
【RAG面试题】LLMs已经具备了较强能力,存在哪些不足点? 一叶千舟 AI面试题【RAG】RAG
目录LLMs核心不足点1、知识过时与静态性（LackofReal-Time&DynamicKnowledge）：2、幻觉与事实性错误（Hallucinations&FactualInaccuracies）：3、领域专业知识深度不足（LimitedDomain-SpecificExpertise）：4、缺乏透明度和可追溯性（LackofTransparency&Traceability）：5、上下文
MCP-Proxy：开发多LLM & 多MCP 支持并安全访问MCP Server的秘密 IT古董技术杂谈安全 MCP MCP-Proxy
在构建多模型、多协议、可控可信的大模型接入平台时，MCP-Proxy扮演着关键中枢。它不仅要支持多个LLM接入，还要保障对后端MCPServer的安全访问、请求审计、能力切换与资源隔离。什么是MCP/MCP-Proxy？MCP（ModelCapabilityProtocol）是新一代模型能力调用协议，类似于OpenAI的API，但可支持：多厂商大模型（OpenAI、DeepSeek、Yi、Chat
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
LLMs基础学习（八）强化学习专题（7）汤姆和佩琦 NLP 学习 Actor-Critic 算法
LLMs基础学习（八）强化学习专题（7）文章目录LLMs基础学习（八）强化学习专题（7）Actor-Critic算法基础原理算法流程细节算法优缺点分析算法核心总结视频链接：https://www.bilibili.com/video/BV1MQo4YGEmq/?spm_id_from=333.1387.upload.video_card.click&vd_source=57e4865932ea6c
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
大语言模型(LLM)量化基础知识(一) -派神- RAG NLP ChatGPT 语言模型人工智能自然语言处理
承接各类AI相关应用开发项目(包括但不限于大模型微调、RAG、AI智能体、NLP、机器学习算法、运筹优化算法、数据分析EDA等)!!!有意愿请私信!!!随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer模型（0.05B参数）2018年：GPT（0
配置不当的MCP服务器使AI代理系统面临入侵风险 FreeBuf- 服务器人工智能运维
风险概述：默认配置暴露命令执行漏洞数百台用于连接大语言模型（LLM）与第三方服务、数据源及工具的模型上下文协议（ModelContextProtocol，MCP）服务器存在默认配置缺陷，可能导致用户面临未授权的操作系统命令执行等风险。随着代理型AI（AgenticAI）的兴起，MCP服务器正迅速成为增强AI模型推理上下文的关键工具。但安全研究人员警告，大量公开共享的MCP服务器存在不安全配置，攻击
从实验到生产：DeepSeek大模型工程化部署的关键步骤与风险控制一ge科研小菜菜人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注一、引言：大模型部署迈入“工程化时代”随着DeepSeek等开源大语言模型（LLM）的发展，大模型不再是AI实验室的专属工具，越来越多的企业正尝试将其纳入业务生产系统，应用于客服问答、合同审查、数据分析、自动写作等场景。但模型的能力≠可用的系统。从模型下载到模型上线，中间隔着“部署的鸿沟”：资源配置、服务稳定性、响应效率、安全控制、上线合规……一
【人工智能】微调的秘密武器：释放大模型的无限潜能蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在人工智能迅猛发展的今天，大规模语言模型（LLMs）以其强大的通用能力席卷各行各业。然而，如何让这些通用模型在特定领域或任务中发挥最大潜力？答案是微调（Fine-tuning）。本文深入探讨微调的理论基础、技术细节与实践方法，揭示其作为解锁大模型隐藏潜力
LLM推理入门实践：基于 Hugging Face Transformers 和 vLLM ctrl A_ctrl C_ctrl V #大模型llm python 自然语言处理人工智能
文章目录1.HuggingFace模型下载2.HuggingFaceTransformers库模型推理3.关于prompt的组成：system、user、assistant4.vLLM模型推理vLLM的多卡推理踩坑1.HuggingFace模型下载模型在HuggingFace下载，如果下载速度太慢，可以在HuggingFace镜像网站或ModelScope进行下载。使用HuggingFace的下载
vLLM（Virtual Large Language Model）框架：一个开源的高性能推理和服务的框架彬彬侠大模型 vLLM 高性能推理 PagedAttention python 大模型
vLLM（VirtualLargeLanguageModel）是一个开源的高性能推理和服务的框架，专为大语言模型（LLM）设计，旨在优化推理速度、内存效率和吞吐量。它通过创新的内存管理和调度技术（如PagedAttention）解决了传统LLM推理中的内存瓶颈和性能问题，广泛应用于对话系统、文本生成、实时翻译等场景。以下是对vLLM框架的详细介绍，包括其核心特性、工作原理、架构、优势、局限性以及使
对话云蝠智能：大模型如何让企业呼叫系统从 “成本中心” 变身 “价值枢纽”？ MARS_AI_ 人工智能自然语言处理信息与通信交互
在人工智能重塑企业服务的浪潮中，云蝠智能（南京星蝠科技有限公司旗下品牌）以深厚的技术积累和行业实践，逐步成长为国内智能外呼领域的标杆企业。其发展路径揭示了技术自主创新与场景深度结合的必然性。一、技术架构：全栈自研奠定领先基础云蝠智能的核心竞争力源于其全链路自研技术体系。该架构覆盖语音识别（ASR）、自然语言处理（NLP）、语音合成（TTS）及软交换六大层级，实现从基础设施到操作层的闭环设计。这一分
Jenkins JNLP与SSH节点连接方式对比及连接断开问题解决方案 tianyuanwo devops jenkins ssh 运维
一、JNLPvsSSH连接方式优缺点对比对比维度JNLP（JavaWebStart）SSH（SecureShell）核心原理代理节点主动连接Jenkins主节点，通过加密通道通信，支持动态资源分配。Jenkins通过SSH协议远程登录代理节点执行命令，需预先配置SSH服务。适用场景容器化环境（如Kubernetes）、需要跨平台或动态扩缩容的场景。传统物理机/虚拟机、静态节点或简单命令执行场景。安
OpenAI O3 大模型深度解析：功能、API Key 获取、Python 代码开发教程 (附代码) 技术程序猿华锋 AIGC资讯 python 开发语言 ChatGPT ai
引言：OpenAIo3大模型：新一代推理引擎的崛起人工智能领域正经历着前所未有的飞速发展，其中大型语言模型(LLM)的能力边界不断被拓宽。OpenAI作为该领域的领军者之一，继其广受关注的o1模型之后，推出了新一代的o3大模型系列。这一系列模型的问世，不仅代表了技术的又一次重要迭代，更预示着人工智能在复杂推理和自主能力方面迈向了新的台阶。o3模型的诞生背景与意义OpenAIo3是作为OpenAIo
如何解析JSON输出: 尝试使用JsonOutputParser tt_jishu json python 人工智能
在当今AI驱动的世界中，能够获得结构化的输出是利用大型语言模型（LLM）的关键。尽管一些模型提供商支持内置方式来返回结构化输出，但并不是所有的模型都有这种能力。因此，使用输出解析器（OutputParser）来帮助用户通过提示指定任意JSON模式，并查询符合该模式的模型输出，最后将该模式解析为JSON，是一种常见而有效的方法。技术背景介绍输出解析器是使语言模型生成结构化数据的工具。这在许多应用场景
增强版 Kimi：AI 驱动的智能创作平台，实现一站式内容生成（图片、PPT、PDF）！每天译点晓知识 AI人工智能专栏人工智能 PPT PDF一键生成 AI 图片生成
前言基于扣子Coze零代码平台，我们从零到一轻松实现了专属Bot机器人的搭建。AI大模型（LLM）、智能体（Agent）、知识库、向量数据库、知识图谱，RAG，AGI的不同形态愈发显现，如何将其动态组合，凸显其强大爆发力！！！接下来，我们介绍通过Kimi进行功能增强？使得我们的Bot具备一键生成图片、PPT编写、PDF制作......模型配置Kimi月之暗面旗下国产大模型，以独特的长文本处理能力，
【云原生】Docker 部署 Elasticsearch 9 操作详解逆风飞翔的小叔运维 Docker 部署es9 Docker部署es Docker搭建es9 Elasticsearch9 Docker搭建es
目录一、前言二、Elasticsearch9新特性介绍2.1基于Lucene10重大升级2.2BetterBinaryQuantization（BBQ）2.3ElasticDistributionsofOpenTelemetry（EDOT）2.4LLM可观测性2.5攻击发现与自动导入2.6ES|QL增强2.7语义检索三、基于Docker部署Elasticsearch93.1Elasticsearc
PNAS顶刊：使用 GPT-4 揭示概念的语义
GaëlLeMens、BalázsKovács、MichaelT.HannanandGuillemPros合作的题为“UncoveringthesemanticsofconceptsusingGPT-4”的文章，发表于ProceedingsoftheNationalAcademyofSciences。摘要最近的大型语言模型（LLM），如GPT-3.5和GPT-4生成类似人类的文本的能力表明，社会科
开源浪潮之巅：当前最热门的开源项目全景图万能小贤哥开源
开源世界活力澎湃，无数项目推动着技术边界。以下精选当前最受关注、社区活跃的热门开源项目，涵盖人工智能、开发工具、基础设施等关键领域：一、人工智能与机器学习：引领创新前沿Llama系列(MetaAI):核心价值：Meta开源的大语言模型家族(Llama2,Llama3)，性能媲美顶尖闭源模型。提供多种规模版本，支持商用，极大降低了企业和研究者使用先进LLM的门槛。热度体现：GitHub星标飞速增长，
大模型——Dify：知识库与外部知识库不二人生大模型人工智能大模型 dify
Dify：知识库与外部知识库相比于AI大模型内置的静态预训练数据，知识库中的内容能够实时更新，确保LLM可以访问到最新的信息，避免因信息过时或遗漏而产生的问题。知识库与文档开发者可以通过此方式确保LLM不仅仅依赖于训练数据中的知识，还能够处理来自实时文档和数据库的动态数据，从而提高回答的准确性和相关性。https://docs.dify.ai/zh-hans/guides/knowledge-ba
LangChain大语言模型接口层源码与调用机制深度解析(68) Android 小码蜂 LangChain框架入门 langchain 语言模型网络人工智能深度学习
LangChain大语言模型接口层源码与调用机制深度解析I.接口层概述1.1接口层在LangChain中的定位LangChain大语言模型接口层是连接外部大语言模型（LLM）与上层应用逻辑的核心枢纽。它通过标准化的接口封装不同厂商的LLM服务，如OpenAI、Anthropic、HuggingFace等，使开发者能够以统一方式调用各类模型，而无需关注底层API细节。这种设计极大提升了框架的扩展性和
LnagChain思维链提示技术解析：原理、架构与源码实现(13) Android 小码蜂 LangChain框架入门架构人工智能 langchain
LANGCHAIN思维链提示技术解析：原理、架构与源码实现一、LangChain思维链提示概述1.1思维链提示的基本概念思维链提示（ChainofThought,CoT）是一种通过引导大型语言模型（LLM）生成中间推理步骤来提高复杂问题解决能力的技术。与传统的直接提问相比，思维链提示要求模型在给出最终答案之前，先展示其思考过程。这种方法最早由Wei等人在2022年的论文中提出，实验表明，思维链提示
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag