FF-Studio

【DeepSeek】复现DeepSeek R1？快来看这个Open R1项目实践指南~

Open R1 项目基于 DeepSeek-R1 的技术报告和方法论，公开并复现 R1 的训练管线，并且希望所有开发者都能在这个基础上搭建自己的研究或应用。

笔者研读了大量资料，对 Open R1 的愿景、原理及在实践层面的具体操作，产生了许多想法。因此，这篇博客会从最初的概念入手，带领大家了解 Open R1 的原理与技术细节，并侧重讲解其中最为关键的强化学习训练方法之一 —— GRPO(群组相对策略优化, Group Relative Policy Optimization)。

第一章：Open R1 项目的由来与核心思想

从 Open R1 项目主页（https://github.com/huggingface/open-r1）的介绍可以了解到，该项目想要做到的是“基于 DeepSeek-R1 的技术报告，构建一个完全可复现、可开源、可二次开发的 R1 训练管线”，以此实现与官方 R1 模型不相上下的性能。笔者在阅读官方资料时，发现其思路大致包括以下几个主要阶段：

数据蒸馏 (Distillation)
他们会先从 DeepSeek-R1 本体或 R1-Zero 之类的高性能模型中，通过一定的 prompts （提示），生成适合下游训练的数据，使得“较小规模”的模型也能部分吸收 R1 的推理和知识能力。这种做法类似于经典的知识蒸馏 (Knowledge Distillation) 或 Instruct 数据蒸馏，只不过这一次是面向 LLM 之间的蒸馏。
这个阶段产生了 R1-Distill 小模型。
强化学习策略优化
这个阶段很可能是最关键也最复杂的部分，DeepSeek 本身采用了大量 RL、CoT (Chain of Thought) 数据来强化数学推理与复杂多步推理能力。Open R1 的目标就是复现当初官方做法，整合相似或同源数据，并以 GRPO 等方法做纯强化学习训练（即无需再做额外 SFT，人类反馈或奖励模型会引导更新）。
多阶段训练
在深度对齐的背景下，一般不会只做单一轮次的训练，而是会分多个阶段。例如：
- 阶段 A：先做冷启动的 SFT，保证模型具备初步的思考和多轮对话能力。
- 阶段 B：利用高质量大规模的数据及奖励模型进行强化学习，提升模型的推理和对人类指令的理解能力。
- 阶段 C：将拒绝采样 (Rejection Sampling) 等再结合监督微调 (SFT)，修正模型的表达风格，提升回答的连贯度、准确度和安全性等。
- 阶段 D：使用更加泛化的强化学习策略，在更广泛的场景下对齐人类偏好。

Open R1 在 GitHub 提供了多份脚本，包括一些 Makefile 中便于“make”一键调用的指令，大家可以根据需求直接 clone 项目后看他们的脚本实现。至于本篇文章，笔者想从核心训练思路与具体代码解析出发，让大家看到 Open R1 如何在实践层面实现 R1 的复制与扩展。

第二章：Open R1 环境搭建与项目结构概述

虽然我们重点要谈 GRPO 和相关训练，但在那之前，还是得对 Open R1 项目的基本结构和运行方式做一个大致了解。项目内多处文件都提示，若想顺利运行，需要提前满足一些环境依赖。

2.1 Python环境与依赖安装

官方推荐使用 Conda 或 venv 来创建独立的 Python 环境，这样能确保不会与系统其它库产生版本冲突。假设你选择 Conda（以下引用了项目 README 中的示例）：

conda create -n openr1 python=3.11 && conda activate openr1

然后安装 vLLM（这是一个高效的推理引擎）以及特定版本的 PyTorch 等。需要注意的是，Open R1 明确要求 PyTorch 版本需要匹配 vLLM 的编译环境。例如示例命令：

pip install vllm==0.6.6.post1

# 如果你的GPU驱动是CUDA 12.1
pip install vllm==0.6.6.post1 --extra-index-url https://download.pytorch.org/whl/cu121

剩余依赖在 setup.py 中可以看到，也可以直接用

pip install -e ".[dev]"

来安装开发版本依赖。这包含了加速工具加 wandb、huggingface_hub、bitsandbytes、deepspeed 等等。安装完后记得登录你的 Hugging Face 账户和 wandb 账户。如果要上载或加载较大的模型文件，还要安装 git-lfs。

笔者提示：有时候 Accelerate、Deepspeed 等版本兼容性较为敏感，出现错误时应第一时间检查版本依赖。另外，项目内可能也提供一些用于 Slurm 分布式训练的脚本，需要注意硬件配置（如 GPU 数量、GPU 显存等）。

2.2 项目文件结构

在根目录下，你会看到一个 src/open_r1 目录，其中包含以下关键脚本：

sft.py：用来做 SFT (Supervised Fine-Tuning) 的脚本，输入可以是某个数据集名称或本地文件，以微调模型。
grpo.py：GRPO 训练脚本的核心所在，用于纯强化学习或混合强化学习方式训练模型。
evaluate.py：对模型在特定基准任务上做评测的脚本，比如在 MATH、一系列推理任务上进行测试，依赖 lighteval 等库。
generate.py：从已有模型大批量地生成合成数据（Distilabel），用来进行半自动蒸馏或后续微调的用途。

另外还有一些辅助配置文件如 configs/zero2.yaml、configs/zero3.yaml 等，加速配置文件 accelerate_config.yaml，Makefile 等。这些都能让你快速上手多 GPU 甚至多节点的训练或推理命令。

在下文里，我们会多次引用 sft.py、grpo.py 以及 evaluate.py 等文件中的部分片段，然后给出中文注释，帮助理解其中的实现逻辑。

第三章：从简单到复杂，理解 SFT 与 GRPO 的衔接

在正式剖析 GRPO 的实现之前，笔者想先带各位浏览下 SFT（Supervised Fine-Tuning）在 Open R1 项目中的用法与代码结构。因为很多情况下，我们会先做一轮 SFT，把模型从一个基础点“拉到”初步可用的对话或推理水平，然后再进入 GRPO 强化学习阶段。
这样的一种训练管线往往能减少 RL 的收敛难度，也是 DeepSeek-R1 中多阶段训练的一个真实案例。

3.1 SFT 脚本 `sft.py` 解析

src/open_r1/sft.py 的逻辑核心是：

载入模型
载入数据集
用指定的超参数对数据集进行训练
（可选）评估与推送到 Hugging Face Hub

让我们先把这段脚本做个简要梳理（以下部分代码来自原项目并加了中文注释），以便了解它是如何将数据与模型拼装起来做微调的。

# sft.py部分内容
from datasets import load_dataset
from transformers import AutoTokenizer
from trl import (
    ModelConfig,
    ScriptArguments,
    SFTConfig,
    SFTTrainer,
    TrlParser,
    get_kbit_device_map,
    get_peft_config,
    get_quantization_config,
)

def main(script_args, training_args, model_args):
    # 1. 配置量化选项
    quantization_config = get_quantization_config(model_args)
    model_kwargs = dict(
        revision=model_args.model_revision,
        trust_remote_code=model_args.trust_remote_code,
        attn_implementation=model_args.attn_implementation,
        torch_dtype=model_args.torch_dtype,
        use_cache=False if training_args.gradient_checkpointing else True,
        device_map=get_kbit_device_map() if quantization_config is not None else None,
        quantization_config=quantization_config,
    )
    training_args.model_init_kwargs = model_kwargs
    
    # 2. 加载分词器
    tokenizer = AutoTokenizer.from_pretrained(
        model_args.model_name_or_path, 
        trust_remote_code=model_args.trust_remote_code, 
        use_fast=True
    )
    tokenizer.pad_token = tokenizer.eos_token

    # 3. 加载数据集
    dataset = load_dataset(script_args.dataset_name, name=script_args.dataset_config)

    # 4. 初始化SFTTrainer
    trainer = SFTTrainer(
        model=model_args.model_name_or_path,
        args=training_args,
        train_dataset=dataset[script_args.dataset_train_split],
        eval_dataset=dataset[script_args.dataset_test_split] if training_args.eval_strategy != "no" else None,
        processing_class=tokenizer,
        peft_config=get_peft_config(model_args),
    )

    # 5. 正式训练
    trainer.train()

    # 6. 保存模型到本地output_dir，或推送到HF Hub
    trainer.save_model(training_args.output_dir)
    if training_args.push_to_hub:
        trainer.push_to_hub(dataset_name=script_args.dataset_name)

if __name__ == "__main__":
    parser = TrlParser((ScriptArguments, SFTConfig, ModelConfig))
    script_args, training_args, model_args = parser.parse_args_and_config()
    main(script_args, training_args, model_args)

从中我们可以见到几个关键信息：

SFTTrainer：这是来自 trl 库的一个 Trainer 子类，可以对语言模型做简单的监督微调。
peft_config：可选，如果你想使用 PEFT (Parameter-Efficient Fine-Tuning) 技术，比如 LoRA、QP 量化等，就可以在此注入，从而降低大模型微调时的显存占用和算力需求。
dataset[...]: SFT 只需要一个已经对齐好格式（比如对话格式或标准格式）的数据集即可，脚本会将其拆分成 train、test、validation 等部分。

如果你想运行 SFT，你可以用 Accelerate 命令或者直接 python 运行脚本。例如：

accelerate launch --config_file=configs/zero3.yaml src/open_r1/sft.py \
    --model_name_or_path Qwen/Qwen2.5-1.5B-Instruct \
    --dataset_name HuggingFaceH4/Bespoke-Stratos-17k \
    --learning_rate 2.0e-5 \
    --num_train_epochs 1 \
    --packing \
    --max_seq_length 4096 \
    --per_device_train_batch_size 4 \
    --per_device_eval_batch_size 4 \
    --gradient_accumulation_steps 4 \
    --gradient_checkpointing \
    --bf16 \
    --logging_steps 5 \
    --eval_strategy steps \
    --eval_steps 100 \
    --output_dir data/Qwen2.5-1.5B-Open-R1-Distill

上面示例就是把 Qwen/Qwen2.5-1.5B-Instruct 这个模型作为初始点，用 Bespoke-Stratos-17k 数据集进行一轮 SFT。注意 --packing 选项可以将不同样本拼接在同一序列里，这在大序列长模型训练中能提升 GPU 利用率。
当你完成这一阶段，得到的模型就可以算是一个“预热”过的模型，可能在上下文理解、多轮对话等方面会比原始基础模型更好，准备好下一步走向 GRPO 或其他强化学习方法。

第四章：进军强化学习之路——GRPO 原理和代码解读

这一章，笔者将把重点放在 Open R1 中非常核心、也极具代表性的强化学习脚本——grpo.py。在 DeepSeek-R1 以及不少研究中，GRPO(群组相对策略优化) 都被拿来与 PPO 做比较，并展现出内存占用更低、对大模型更友好的优点。让我们先从原理概念开始，再对项目中 grpo.py 里的代码细节做分析。

4.1 GRPO 原理的回顾

既然要讲解实现，先快速回顾下 GRPO 的动机和公式。GRPO 的全称 Group Relative Policy Optimization，它是类似于 PPO 的一种策略梯度方法，但不依赖一个庞大的价值网络来估计优势函数（advantage）。相反，它在同一个问题上生成多条候选输出，然后用奖励模型给这些候选打分，并对分数做组内归一化，形成相对的优势。这样就避免了构建和训练价值网络，从而大幅节省资源。

简化地说，如果 PPO 需要 Actor + Critic 两大块（且 Critic 不可或缺），GRPO 则只需要 Actor + 奖励模型，就能完成强化学习训练。具体的数学形式，在 GRPO 论文或一些参考博客中都有介绍，这里仅用一条公式简要概括其要点：

对同一批（batch）中的每个问题 $q$ ，采样 $G$ 个输出 $\{o_1, o_2, \ldots, o_G\}$ 。
用奖励模型或规则得到分数 $\{r_1, r_2, \ldots, r_G\}$ 。
做分组内标准化：
$\tilde{r}_i = \frac{r_i - \text{mean}(r)}{\text{std}(r)}$
训练时将每个 $\tilde{r}_i$ 视为该输出内所有 token 的优势估计，然后再与策略分布 $\pi_\theta$ 的对数几率进行加权，形成一个类似 PPO ratio 的目标函数。

与 PPO 相比，GRPO 更适合应用在“多候选、多对比”的场景，并且节约了一大笔内存。

4.2 `grpo.py` 源码结构

Open R1 的 grpo.py 文件包含三大部分：

脚本参数定义（用 @dataclass 或 TrlParser 进行解析）：
这里会引入 GRPOScriptArguments, GRPOConfig, ModelConfig 等配置项，指定训练的超参数、模型路径、奖励函数等。
自定义的奖励函数（reward functions）：
其中包括示例的准确度奖励 accuracy_reward、格式奖励 format_reward 等。也提供了一个 reward_funcs_registry 来把字符串映射到对应函数。
训练主函数 main：
其中先加载数据集并做一些映射处理，然后实例化 GRPOTrainer 并进行 train()。

让我们先看部分关键代码，做段落式的解析（结合原项目注释）：

# grpo.py部分内容
from datasets import load_dataset
from trl import GRPOConfig, GRPOTrainer, ModelConfig, ScriptArguments, TrlParser, get_peft_config

@dataclass
class GRPOScriptArguments(ScriptArguments):
    """
    Script arguments for the GRPO training script.
    Args:
        reward_funcs (list[str]): List of reward functions. e.g. ['accuracy', 'format'].
    """
    reward_funcs: list[str] = field(
        default_factory=lambda: ["accuracy", "format"],
        metadata={"help": "List of reward functions. Possible values: 'accuracy', 'format'"},
    )

def accuracy_reward(completions, solution, **kwargs):
    """
    一个示例奖励函数，检查生成内容与真值解（solution）是否匹配。
    """
    contents = [completion[0]["content"] for completion in completions]
    rewards = []
    for content, sol in zip(contents, solution):
        # 这里用 parse/verify 工具做latex解析对比
        # 如果匹配就给1.0，不匹配就给0
        # ...
        reward = float(verify(answer_parsed, gold_parsed))
        rewards.append(reward)
    return rewards

def format_reward(completions, **kwargs):
    """
    一个示例奖励函数，检查补全是否包含特定格式，比如  。
    """
    pattern = r"^.*?.*?$"
    completion_contents = [c[0]["content"] for c in completions]
    matches = [re.match(pattern, content) for content in completion_contents]
    return [1.0 if match else 0.0 for match in matches]

reward_funcs_registry = {
    "accuracy": accuracy_reward,
    "format": format_reward,
}

SYSTEM_PROMPT = (
    "A conversation between User and Assistant. The user asks a question, ... <省略> ..."
)

def main(script_args, training_args, model_args):
    # 1. 根据reward_funcs的字符串，从registry拿到函数列表
    reward_funcs = [reward_funcs_registry[func] for func in script_args.reward_funcs]

    # 2. 加载数据集
    dataset = load_dataset(script_args.dataset_name, name=script_args.dataset_config)

    # 3. 对数据进行简单处理（比如把"problem"包装成对话格式）
    # ...
    dataset = dataset.map(make_conversation)

    # 4. 初始化GRPOTrainer
    trainer = GRPOTrainer(
        model=model_args.model_name_or_path,
        reward_funcs=reward_funcs,
        args=training_args,
        train_dataset=dataset[script_args.dataset_train_split],
        eval_dataset=dataset[script_args.dataset_test_split] if training_args.eval_strategy != "no" else None,
        peft_config=get_peft_config(model_args),
    )

    # 5. 训练
    trainer.train()

    # 6. 保存和推送
    trainer.save_model(training_args.output_dir)
    if training_args.push_to_hub:
        trainer.push_to_hub(dataset_name=script_args.dataset_name)

if __name__ == "__main__":
    parser = TrlParser((GRPOScriptArguments, GRPOConfig, ModelConfig))
    script_args, training_args, model_args = parser.parse_args_and_config()
    main(script_args, training_args, model_args)

4.2.1 自定义奖励函数

从以上可以看到，Open R1 给出了两个“示例奖励函数”——accuracy_reward 和 format_reward。

accuracy_reward：对比回答与 gold solution 是否一致，用 parser 做一些 LaTeX 公式提取，然后判断是否相符。
format_reward：纯粹检查字符串是否匹配某种模板，比如 ... ... 。
在实际项目中，我们可能换成别的，比如针对对话安全性、对话流畅性或其他指标的打分模型，也可能是RM(Reward Model)。只要能返回 [float, float, ...] 形式就行。

4.2.2 GRPOTrainer

大多数“魔法”其实都在 trl 库提供的 GRPOTrainer 类中完成的。它负责在训练时执行下列逻辑：

对同一个“prompt”生成 G 条补全（G = group_size，一般由 config 中指定）
用用户传入的“奖励函数”进行打分
做组内归一化形成优势
根据策略梯度公式和 KL 正则等，更新策略
重复若干次迭代

在 Open R1 中就是：trainer = GRPOTrainer(...) 后 trainer.train() 就可以了。
由于 GRPOTrainer 内部的代码量也不小，这里就不展开全部，主要思路与 PPOTrainer 或 RLTrainer 类似，只是去除了对 Critic 的依赖，改成了 group relative 方式的 Advantage 计算。

第五章：运行 GRPO 的完整示例及代码注释

笔者从 Open R1 或类似项目脚本中整理了一个可行的“运行 GRPO”示例，展示如何在命令行上进行调用，以及如何在脚本中整合不同的配置项。假设我们已经完成了前述的 SFT 并有了一个初步可用的模型 my-sft-model，以及一个“有正确答案标注”的数据集 my-math-dataset：

运行指令（简化示例）：

accelerate launch --config_file configs/zero3.yaml src/open_r1/grpo.py \
    --output_dir my-output-dir \
    --model_name_or_path my-sft-model \
    --dataset_name my-math-dataset \
    --reward_funcs accuracy format \
    --per_device_train_batch_size 1 \
    --gradient_accumulation_steps 16 \
    --logging_steps 10 \
    --bf16

在这个命令里，几个关键点：

--model_name_or_path my-sft-model：即我们用于做 RL 训练的初始策略模型，可以是 Hugging Face Hub 上的一个 repo ID，也可以是本地路径。
--reward_funcs accuracy format：表示我们希望在训练时，使用 registry 中的 accuracy_reward 和 format_reward 两个函数来生成奖励。最后的奖励会是这两个函数输出的加总或拼接后处理（参见 GRPOTrainer 的文档）。
--per_device_train_batch_size 1：针对大模型，often 我们必须把 batch_size 调得很小，然后通过梯度累积来提高等效 batch size。
--config_file configs/zero3.yaml：加速配置，会启用 DeepSpeed Zero-3、bfloat16 算法等，以在多 GPU 机器上进行分布式训练。

主要训练循环就发生在 trainer.train() 中。每当采样到一个 batch 的 prompts，GRPO 就会:

生成多条回答 (G 条，每条回答 length up to some max tokens)
reward_funcs 进行打分
计算 group 内的 $\hat{r}_i$ 并当作优势
做策略梯度更新
记录 KL、loss、reward 等指标

由于在大模型中进行 RL 会消耗巨量 GPU 时间，所以要选择合理的小组大小 G、合适的 max_token，并且调参过程也非常重要。例如 lr, weight decay, kl_coef, clip_range 等都是影响结果的重要因素。

第六章：如何结合示例代码进行灵活运用

有了对 SFT 与 GRPO 的理解后，笔者想结合实际代码片段，向大家演示一下如何在自己项目中复用或扩展这些脚本与方法。

6.1 批量生成数据：`generate.py` + Distilabel

在 Open R1 项目中，generate.py 脚本用来从一个预训练或微调模型里批量生成数据，常与 distilabel 工具配合使用。它可能有如下用途：

蒸馏：用大模型/教师模型生成的对话、解题记录，来训练小模型或下一阶段的 SFT。
评测：批量产出候选回答，用来做打分或对比。
RL offline 数据：先生成大量回答，再结合人工标签或半自动标签器，对比好坏，为离线的 RL 或 RFT 做准备。

例如在 generate.py 中，你可以看到类似如下的代码（已加中文注释）：

# generate.py
import argparse
from datasets import load_dataset
from distilabel.llms import OpenAILLM
from distilabel.pipeline import Pipeline
from distilabel.steps.tasks import TextGeneration

def build_distilabel_pipeline(
    model: str,
    base_url: str = "http://localhost:8000/v1",
    prompt_column: Optional[str] = None,
    temperature: Optional[float] = None,
    # ... 省略若干
):
    generation_kwargs = {"max_new_tokens": max_new_tokens}
    if temperature is not None:
        generation_kwargs["temperature"] = temperature
    # ...
    with Pipeline().ray() as pipeline:
        TextGeneration(
            llm=OpenAILLM(...),  # 这里是对OpenAI API风格或本地vLLM接口的封装
            # ...
            num_generations=num_generations,
            resources=StepResources(replicas=client_replicas),
        )
    return pipeline

if __name__ == "__main__":
    parser = argparse.ArgumentParser(...)
    # 解析传入的命令行参数：--hf-dataset, --model, --vllm-server-url 等
    args = parser.parse_args()

    dataset = load_dataset(args.hf_dataset, split=args.hf_dataset_split)
    
    pipeline = build_distilabel_pipeline(
        model=args.model,
        base_url=args.vllm_server_url,
        # ...
    )
    # 运行pipeline
    distiset = pipeline.run(dataset=dataset)
    
    # 可选：推送到HF Hub
    if args.hf_output_dataset:
        distiset.push_to_hub(args.hf_output_dataset, private=args.private)

通过上述脚本，你可以一次性针对某个数据集里的 N 条问题（例如 1 万道数学题）生成多条回答。然后对这些回答做存储或发布，从而完成蒸馏数据构建或评测数据收集。
由于 Distilabel 还支持对生成的过程附加一些解析或过滤逻辑，这就可以让你对不合格回答做自动截断，也可以对回答做一些包装，如这样的格式等。

6.2 评测与对比：`evaluate.py` + lighteval

Open R1 也提供了一个 evaluate.py 脚本，用来在特定基准上评估模型的表现。例如 MATH-500, AIME24, 其他自定义评测集等。其内部使用 lighteval 工具，以在本地或多 GPU 下并行评测大量样本。原理上，这个脚本会加载模型，依次对评测数据集做推理，然后将输出结果与参考答案进行对比（常见是用提取 $\boxed{...}$ 中答案、用表达式或 LaTeX 做匹配），最后算出准确率等指标。

# evaluate.py
from lighteval.metrics.dynamic_metrics import ( 
    ExprExtractionConfig,
    LatexExtractionConfig,
    multilingual_extractive_match_metric,
)
from lighteval.tasks.lighteval_task import LightevalTaskConfig
from lighteval.tasks.requests import Doc
# ...
def aime_prompt_fn(line, task_name: str = None):
    return Doc(
        task_name=task_name,
        query=line["problem"],
        choices=[line["answer"]],
        gold_index=0,
    )

aime24 = LightevalTaskConfig(
    name="aime24",
    # ...
    metric=[expr_gold_metric],
    version=1,
)

# main
if __name__ == "__main__":
    # ...
    # python evaluate.py  --model deepseek-ai/R1-distill  ...

关键是 lighteval 能够自动化地把输入数据（多道题）分发到多块 GPU 上进行推理，并行大大提升评测效率，然后把结果收集起来做准确率或 BLEU/ROUGE/F1 等指标计算。
在大型模型迭代中，快速自动评测也是非常重要的一环。你可以根据需要添加自己的自定义任务和对应的对比函数。

第七章：GRPO 与其他相关方法的对比与扩展

在了解了 Open R1 对 GRPO 的具体实现后，笔者想花点篇幅来谈谈 GRPO 与常见一些强化学习或对齐方法之间的异同，以及我们如何将其扩展到其他项目中。

7.1 PPO 与 GRPO 的区别

价值网络：PPO 通常要维护一个与 Actor 大小相仿的价值网络，以评估每个 token 或状态的价值；GRPO 则不需要，通过分组比较来获得优势函数。
内存需求：由于不需要价值网络，GRPO 大幅降低了内存消耗，对大模型尤其有利。
多候选生成：GRPO 需要在同一个 prompt 上一次性生成多条回答，然后做组内对比，这是其核心；PPO 则可以只用单条回答配合价值网络也能工作。
训练稳定性：两个算法都可以使用类似的 ratio clipping、KL 惩罚等技巧。
应用场景：如果你的场景天然会生成多条候选并进行比较（比如数学题答题），GRPO 会很自然且效率更高；如果你只关心对每次回答打个单点分数而不想做分组，也许 PPO 更直接。

7.2 DPO, RFT, RRHF 等其他对齐方法

除了 PPO、GRPO，近年也出现了更多对齐算法，如 DPO（Direct Preference Optimization）、RFT（Rejection Sampling Fine-tuning）、RRHF（Ranked Reward Fine-tuning）等等。简单对比：

DPO：需要成对 (o+, o-) 的比较，通过直接优化 $\log(\pi(o^+|q)) - \log(\pi(o^-|q))$ 。不需要大的RL循环，但需要大量成对偏好数据。
RFT：从同一个 prompt 生成多个回答，过滤出最优回答做 supervision，每条都当作正样本；未被选中的扔掉。实现起来更简单，但对“次优回答”无法利用。
RRHF：对一组回答按质量排序，然后给出 1、0、-1 等稀疏标签，加到损失里做差分。
GRPO：可以视为针对“多候选+奖励函数”的RL方法，既不依赖价值网络，也能更灵活地利用多个回答间的相对得分。

实际上，各方法各有优缺点，没有一个是一刀切的完美解法。有些研究者也会把这些方法组合使用，比如先做 RFT 做一个 baseline，再用 PPO 或 GRPO 进一步 fine-tune 等。

7.3 在其他项目中的迁移

如果你不是在做 R1，而是在做自己的对话模型、代码生成模型或知识图谱问答模型，你同样可以把“GRPO”思路整合进去，只要能实现以下几点：

能为同一个输入 prompt 生成多条输出（batch 里的每个 prompt 可能生成 G 条输出）。
能对这些输出打分（可能是人工、自动奖励模型或规则）。
能将这些分数在组内做对比（例如减平均除标准差）。
把分组相对奖励当作优势函数，更新策略（可以用 trl 库的 GRPOTrainer，或自己实现也不难）。

这样，你就可以在不引入价值网络的情况下完成一个 RL 训练闭环。当然，大前提是你得有个行之有效的奖励函数。没有好用的奖励，强化学习就难以收敛或可能走向错误方向。

第八章：GRPO 训练中的注意事项与实践经验

笔者在查阅资料及与一些社区开发者交流时，收集了一些在使用 GRPO（以及类似方法）时可能需要关注的要点，整理如下，供读者参考：

Group Size (G)
过小的 G（如 G=2）可能导致组内对比信号太弱，难以稳定收敛；过大的 G（如 G=16 甚至 32）则会大幅增加推理生成开销。实践中常见在 4~8 之间先试验，根据具体任务难度做调整。
KL Coefficient 或 Clipping
为了让新策略不要背离原策略过远，需要一个 KL 正则项，或者用 ratio clipping。过高的 KL 惩罚会导致训练停滞，更新幅度微弱；过低则会冒险跑偏。要根据日志中的 KL 值进行监控，一般不会让 KL 在一个 batch 内飙升太猛。
max token 的设置
生成回答时要限制一定的 token 长度（比如 256 或 512），否则开销会爆炸式增长；同时，对于多步推理问题，也不能太短，否则回答不完整。
奖励函数的准确性与鲁棒性
如果奖励函数（或奖励模型）对小的字符串差异很敏感，会导致训练出现奇怪的偏差。有必要在上线前对奖励函数做充分测试和验证。
Mixed Precision / BF16 / FP16
在大模型训练中，使用混合精度可以大幅减少显存，但要注意某些操作可能不支持 bf16/fp16，需要相应地设置 ensure FP32 layers 等。
学习率及优化器
一般需要比预训练或 SFT 阶段略小的学习率，还要结合 warmup 步骤或者自适应调度器。若不仔细调参，容易出现发散或学习停滞的情况。
日志监控
要密切关注 reward_mean、reward_std、kl、loss、completion_length 等指标。若看到 kl 不断飙升或 reward_mean 升到很高再剧烈波动，可能就需要调参。

第九章：更进一步：大规模多阶段训练

回到 DeepSeek-R1 / Open R1 的宏观视角，GRPO 只是其中一个重要模块，要想真正复现他们的高性能大模型，往往要经历多轮多阶段训练，例如：

阶段1：SFT 冷启动
准备一批有推理痕迹或对话格式的数据，比如 1 万或 10 万条优质示例，让模型先学会基本的解题方法、对话风格。
阶段2：纯RL训练
在大规模数学、编程、推理数据上做 GRPO / PPO / DPO / RFT 等多候选强化学习，引导模型深度打磨推理能力。这一阶段的挑战在于需要训练时间长、硬件要求高，以及奖励模型评估是否准确。
阶段3：拒绝采样 + 监督微调
用拒绝采样保留优质回答，再进行一次 SFT，把模型回答风格拉回更贴近人类喜欢的形式，减少胡言乱语或过度啰嗦。
阶段4：通用场景RL
为了让模型能适应更广泛领域，需要更多不同任务的数据，可能包括自然对话、情感分析、编程调试、写作等等，再一次强化训练，对齐全方位的需求。

在这个过程中，每个阶段可能会轮番使用 SFT 或 GRPO，或搭配分布式训练、数据扩充，以及不时地更新奖励模型 RM 等复杂操作。Open R1 就希望把 DeepSeek-R1 在内部做的所有步骤公开化和可复现化，让全世界开发者都能把它当成一个范本或基线，进而改进属于自己的“R1”。

第十章：结语与展望

从原理到实践，从 SFT 到 GRPO，从 Open R1 的项目结构到更深层的多阶段训练思路，笔者在本文中做了非常系统、详尽的阐述。尤其是对 GRPO 训练方法的详细讲解，目的是让读者能够真正理解其相对于 PPO 的改进之处，以及如何在实际项目中落地实施。

Open R1 并非一蹴而就；它的野心是让任何人都能在高质量开源管线上进行大模型的二次开发，不再被大厂闭源系统所限制。如果大家在实践中遇到各种问题，如训练不收敛、奖励模型失效、部署卡住等，也不要气馁，因为大模型强化学习确实还处于一个相对前沿但不够成熟的阶段，需要大量的调试和迭代。

笔者相信，随着社区对 GRPO 等方法的不断使用与优化，我们将看到更加轻量高效的 RL 对齐方式，也会看到更多类似“Open R1”的大型开源再现项目。或许未来我们会在各种垂直领域（医疗、金融、编程等）见到带有强大推理能力和人类对齐特性的专用模型——而这些模型，很可能就依赖本文所提及的思路来实现训练：蒸馏、SFT、强化学习，再结合多候选相对比较等手段，最终迭代收敛。

最后，希望此文能够给大家提供一个较完整而连贯的思路，从理解理论到落地实践，从原理公式到具体代码。如果你也计划在自己的项目中试用 GRPO，不妨先参考 Open R1 提供的脚本和案例，尝试跑通小规模 Demo，随后再逐步拓展到大规模环境。让我们一起期待更多开源大模型项目在未来继续成长与革新吧！

你可能感兴趣的:(DeepSeek,R1,语言模型,自然语言处理,深度学习,人工智能)

GenAI 平台，3 分钟即可构建基于 Claude、DeepSeek 的 AI Agent DO_Community 人工智能
DigitalOcean云服务在前不久发布了GenAI平台——一个让任何团队都能在几分钟内构建和部署AI代理的平台。DigitalOcean的GenAI平台持续扩展，让人工智能驱动的开发变得更加易用、灵活且强大。近日，Digitalocean宣布将Anthropic的Claude模型和DeepSeekR1引入Digitalocean的生态系统，为你提供更多构建和部署AI应用的选择。通过Anthro
智享AI直播三代系统，马斯克旗下AI人工智能直播工具,媲美DeepSeek！ V__17671155793 人工智能
智享AI直播三代系统，马斯克旗下AI人工智能直播工具,媲美DeepSeek！在科技飞速发展的当下，人工智能正以前所未有的态势重塑着各个行业的格局。直播领域，作为信息传播与商业交互的前沿阵地，也在AI技术的赋能下迎来了颠覆性的变革。其中，马斯克旗下的智享AI直播三代系统宛如一颗璀璨的新星，横空出世，以其卓越的性能和创新的理念，迅速在竞争激烈的直播市场中崭露头角，甚至被业界誉为可媲美DeepSeek的
基于python深度学习遥感影像地物分类与目标识别、分割实践技术应用 xiao5kou4chang6kai4 深度学习遥感勘测 python 深度学习分类
专题一：深度学习发展与机器学习深度学习的历史发展过程机器学习，深度学习等任务的基本处理流程梯度下降算法讲解不同初始化，学习率对梯度下降算法的实例分析从机器学习到深度学习算法专题二深度卷积网络、卷积神经网络、卷积运算的基本原理池化操作，全连接层，以及分类器的作用BP反向传播算法的理解一个简单CNN模型代码理解特征图，卷积核可视化分析专题三TensorFlow与keras介绍与入门TensorFlow
在项目中调用本地Deepseek（接入本地Deepseek） mr_cmx AI ai 前端 DeepSeek AI
前言之前发表的文章已经讲了如何本地部署Deepseek模型，并且如何给Deepseek模型投喂数据、搭建本地知识库，但大部分人不知道怎么应用，让自己的项目接入AI模型。文末有彩蛋哦！！！要接入本地部署的deepseek，我就要利用到我们之前部署时安装的ollama服务，并调用其API本地API接口1、生成文本（GenerateText）url:POST/api/generate功能：向模型发送提示
DeepSeek与ChatGPT：会取代搜索引擎和人工客服的人工智能革命云边有个稻草人热门文章 chatgpt 搜索引擎人工智能 DeepSeek
云边有个稻草人-CSDN博客在众多创新技术中，DeepSeek和ChatGPT无疑是最为引人注目的。它们通过强大的搜索和对话生成能力，能够改变我们与计算机交互的方式，帮助我们高效地获取信息，增强智能服务。本文将深入探讨这两项技术如何结合使用，为用户提供更精准、更流畅的对话和搜索体验。目录一、介绍1.1什么是DeepSeek？1.2什么是ChatGPT？1.3DeepSeek与ChatGPT的结合：
LLM与知识图谱融合:智能运维知识库构建 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着信息技术的飞速发展，IT运维管理面临着越来越大的挑战。海量的设备、复杂的网络环境、日益增长的数据量，使得传统的运维方式难以满足需求。为了提高运维效率和质量，智能运维应运而生。智能运维的核心是将人工智能技术应用于运维领域，通过机器学习、深度学习等算法，实现自动化、智能化的运维管理。其中，大语言模型（LLM）和知识图谱是两个重要的技术方向。LLM能够理解和生成自然语言，可以用于构建智能
中国光伏储能产业2025 - 2030：现状、挑战与前景展望 CodeJourney. 数据库人工智能算法架构 python
在全球积极应对气候变化、大力推动能源转型的大背景下，中国光伏储能产业作为新能源领域的关键力量，正处于快速发展的关键时期。2025-2030年，这一产业面临着诸多机遇与挑战，其发展态势不仅关乎中国能源结构的优化和可持续发展目标的实现，也对全球清洁能源转型产生着深远影响。本文将依据Deepseek的预测，深入剖析这一时期中国光伏储能产业的现状、核心驱动力、挑战与风险以及前景展望。一、2025年：产业蓬
知识图谱的作用及其更新方式甜瓜瓜哥面试人工智能知识图谱人工智能
知识图谱的作用及其更新方式简介作用1.语义理解和推理2.信息检索3.推荐系统4.自然语言处理5.智能对话系统更新知识图谱的过程1.数据收集2.数据清洗和处理3.知识抽取4.知识融合5.验证和评估6.部署和应用总结简介知识图谱是一种以图形结构表示知识的方法，它包含了实体（如人物、地点、事物）以及它们之间的关系。知识图谱可以用于帮助计算机理解和处理自然语言，进行信息检索，进行推荐系统等多种应用。作用1
《DeepSeek-R1 vs ChatGPT-4：AI大模型“王座争夺战”的终极拆解报告》 Athena-H LLM 人工智能 gpt chatgpt ai
引言：大模型时代的双雄博弈在生成式AI爆发式迭代的今天，DeepSeek-R1与ChatGPT-4分别以“中国智造新锐”与“全球标杆王者”的身份，掀起技术路线与应用生态的激烈碰撞。本文从架构设计、场景适配、性能极限三大维度，揭示两大模型的真实战力图谱。一、核心技术架构：差异化路线对决对比维度DeepSeek-R1ChatGPT-4模型架构多模态混合专家模型（MoE+Transformer）纯Dec
机器学习·文本数据读写处理 AAA顶置摸鱼 python 深度学习机器学习人工智能数据处理
前言在自然语言处理的第一步，需要面对的是各种各样以不同形式表现的文本数据，比如，txt、Excel中的表格数据，还有无法直接打开的pkl文件等。针对这些不同类型的数据，可以基于Python中的基本功能函数或者调用某些库进行读写以及作一些基本的处理。一、文本数据读写方法1.读写TXT文件读取方法：read()：读取整个文件，返回字符串。readline()：逐行读取，返回字符串。readlines(
Python中LLM的知识图谱构建：动态更新与推理二进制独立开发 GenAI与Python 非纯粹GenAI python 知识图谱开发语言自然语言处理人工智能分布式机器学习
文章目录引言1.知识图谱的基本概念1.1知识图谱的定义1.2知识图谱的构建流程2.利用LLM进行知识抽取2.1实体识别2.2关系抽取2.3属性抽取3.知识融合3.1实体对齐3.2冲突消解4.知识存储5.知识推理5.1规则推理5.2基于LLM的推理6.动态更新6.1增量更新6.2实时更新7.结论引言随着人工智能技术的飞速发展，知识图谱（KnowledgeGraph,KG）作为一种结构化的知识表示方法
AI编剧系统深度解析：从算法架构到影视工业化应用实战 Coderabo DeepSeek R1模型企业级应用人工智能算法
媒体娱乐行业革命：AI编剧创意辅助系统架构解析与实战应用一、行业背景与技术架构在流媒体内容需求激增的当下，传统编剧模式面临产能瓶颈。AI编剧创意辅助系统通过自然语言处理（NLP）、生成对抗网络（GAN）和知识图谱技术，构建了包含剧本生成、情节优化、角色塑造等模块的智能创作平台。核心架构分为：知识图谱层：整合影视剧本数据库（IMSDb）、维基百科等结构化数据NLP处理层：基于Transformer的
无需配置！深脑云一键启用DeepSeek全系AI模型小深ai硬件分享人工智能深度学习服务器
解锁无限算力潜能，开启DeepSeek镜像云算力新征程！在人工智能风起云涌的时代，算力就是驱动创新的引擎，而优质的模型镜像则是引领变革的密钥。我们向您介绍一下我们的深脑云算力平台，这里汇聚了DeepSeek的各大版本镜像，为您的科研、开发与创新之路注入强大动力！强大的DeepSeek模型家族DeepSeek，作为AI领域的璀璨明星，以其卓越的性能和先进的技术架构闻名遐迩。我们的平台精心整合了Dee
AI服务器散热黑科技：让芯片“冷静”提速小深ai硬件分享人工智能深度学习服务器
AI服务器为何需要散热黑科技在人工智能飞速发展的当下，AI服务器作为核心支撑，作用重大。从互联网智能推荐，到医疗疾病诊断辅助，从金融风险预测，到教育个性化学习，AI服务器广泛应用，为各类复杂人工智能应用提供强大算力。然而，AI服务器在运行时面临着严峻的散热挑战。随着人工智能技术的不断发展，对AI服务器的计算能力要求越来越高，这使得服务器的功率密度急剧增加。以GPT-4的训练为例，它需要大量的GPU
深度应用场景：DeepSeek —— 探索AI赋能的智慧未来人工智能专属驿站人工智能
深度应用场景：DeepSeek——探索AI赋能的智慧未来随着人工智能的迅猛发展，数据的价值已不再局限于简单的存储与处理，它们正变得更加智能与高效。DeepSeek，这一创新的AI技术平台，正以其独特的深度学习能力，开启了各行各业的智能化变革。让我们走进一个由DeepSeek打造的深度应用场景，探索它如何推动未来的发展。1.智能医疗：精准诊断，拯救生命想象一下，医生们不再是唯一的诊断专家，而是与AI
卷积神经网络之AlexNet经典神经网络，实现手写数字0~9识别知识鱼丸深度学习神经网络 cnn 人工智能深度学习 AlexNet 经典神经网络
深度学习中较为常见的神经网络模型AlexNet，AlexNet是一个采用GPU训练的深层CNN，本质是种LeNet变体。由特征提取层的5个卷积层两个下采样层和分类器中的三个全连接层构成。先看原理：AlexNet网络特点采用ReLU激活函数，使训练速度提升6倍采用dropout层，防止模型过拟合通过平移和翻转的方式对数据进行增强采用LRN局部响应归一化，限制数据大小，防止梯度消失和爆炸。但后续证明批
在 DeepSeek 驱动的编程变革中抓住机遇并脱颖而出智想天开 AI技术人工智能 deep learning
公众号地址:在DeepSeek驱动的编程变革中抓住机遇并脱颖而出更多内容请关注公众号：智想天开前言在DeepSeek引领的新一轮AI技术革新中，程序员们正面临着前所未有的挑战。随着DeepSeek等人工智能工具的迅猛发展，编程领域正在发生深刻变革。这些先进的工具不仅能够自动化完成繁重的代码生成和调试任务，还能够根据大量数据提供优化建议，改变了传统编程的工作流程。虽然这些技术为提高工作效率和解放开发
项目管理新趋势！2024年，Jira与Codes你更倾向谁？ Codes_AndyLiu jira teambition redmine 项目管理软件项目管理工具项目管理 jira 国产平替
一、项目管理软件新趋势概述2024年，项目管理软件呈现出诸多新趋势，这些趋势对于项目管理的重要性日益凸显。在数字化转型方面，项目管理软件成为企业实现数字化转型的关键工具。让老板感知数据，让中层管理者感受先进，让基层员工感到舒心.人工智能与自动化在项目管理软件中的应用也越来越广泛。项目管理软件正朝着智能化、自动化的方向迈进，利用AI技术提供个性化和场景化解决方案。例如，工作周报AI化，自动化测试，代
DeepSeek掀起推理服务器新风暴，AI应用迎来变革转折点？小深ai硬件分享人工智能大数据
AI浪潮下，推理服务器崭露头角在科技飞速发展的当下，AI是耀眼明星，席卷各行业，深刻改变生活与工作模式，从语音助手到医疗诊断、金融风险预测，AI无处不在。其发展分数据收集整理、模型训练、推理应用三个阶段，过去重模型训练，如今大量预训练模型出现，如何高效应用成新挑战，推理服务器应运而生。推理服务器是运行AI模型、对输入数据实时分析预测的硬件设备，堪称AI应用“幕后英雄”。在自动驾驶、智能安防、电商推
《运维工程师如何利用DeepSeek实现智能运维：分级实战指南》进击的雷神武林绝学：技术杂谈剑影流转运维
目录智能运维革命：DeepSeek带来的范式转变DeepSeek核心运维能力全景解析分级实战场景与解决方案3.1初级工程师：自动化运维入门3.2中级工程师：复杂系统诊断与优化3.3高级工程师：架构级智能运维典型项目案例深度剖析4.1金融系统全链路监控体系构建4.2电商大促资源弹性调度实战4.3混合云环境下的安全加固分级能力提升路径效能提升数据验证挑战与演进方向构建智能运维体系行动指南1.智能运维革
【人工智能】提升编程效率的6种GPT实用应用技巧！保姆级讲解！ ChatGPT-千鑫人工智能 AI领域人工智能 gpt AI编程
文章目录实用教程：六大AI编程技巧解锁效率提升技巧1：快速实现需求demo操作步骤技巧2：代码审查——AI帮你提升代码质量操作步骤技巧3：错误排查——AI助你快速定位问题操作步骤技巧4：代码注释——AI帮你理解复杂逻辑操作步骤技巧5：数据整理——AI帮你高效准备测试数据操作步骤技巧6：学习未知代码库——AI助你快速掌握新工具操作步骤使用教程：全面掌握CodeMoss的高效编程工具（1）VSCode
利用人工智能增强可读性：自动为文本添加标点符号姚家湾 AI 标点符号
在数字通信时代，文本的清晰度和可读性至关重要。无论是转录口语、处理原始文本数据还是改进用户生成的内容，标点符号在传达预期信息方面都起着至关重要的作用。但是，手动编辑文本以添加标点符号可能非常耗时且容易出错。这就是人工智能(AI)发挥作用的地方，它提供了一种强大的解决方案，可以自动将标点符号插入句子中。目前，利用大模型的能力，完全可以胜任添加标点符号的工作，不需要其它特别的处理程序。参考代码from
用 TensorFlow 搭建简单的手写数字识别模型 lozhyf 工作面试学习 tensorflow 人工智能 python
一、引言手写数字识别是机器学习领域中一个经典且基础的问题，它在很多实际场景中都有广泛的应用，比如邮政系统中的邮件分拣、银行支票金额识别等。TensorFlow是一个强大的开源机器学习框架，由Google开发并维护，它提供了丰富的工具和接口，能帮助我们快速搭建和训练深度学习模型。在这篇博客中，我们将使用TensorFlow构建一个简单的神经网络模型，用于识别手写数字。二、环境准备在开始之前，你需要安
DeepSeek 爆火：初级程序员的饭碗要丢？别慌，这是进阶的号角！清水白石008 人工智能职业生涯提升学习人工智能深度学习自然语言处理
DeepSeek爆火：初级程序员的饭碗要丢？别慌，这是进阶的号角！前言最近，一款名为DeepSeek的AI编程工具火遍了程序员圈。其强大的代码生成能力、智能的代码理解，让不少初级程序员感到一丝焦虑：AI都这么厉害了，我们这些写基础代码的，饭碗还能保得住吗？作为一名在程序软件领域摸爬滚打多年的老兵，我深知技术变革带来的冲击，也理解初级程序员们心中的担忧。但我想说的是，DeepSeek的爆火，非但不是
深度学习在医疗影像分析中的革命性应用 Echo_Wish 人工智能前沿技术深度学习人工智能
深度学习在医疗影像分析中的革命性应用引言医疗影像分析是现代医学中不可或缺的一部分，特别是在疾病诊断和治疗过程中发挥了至关重要的作用。随着深度学习技术的发展，医疗影像分析的效率和准确性得到了显著提升。本文将探讨如何利用深度学习技术，特别是Python编程语言，来优化医疗影像分析，展示具体的代码实例，并举例说明其实际应用效果。深度学习与医疗影像分析深度学习（DeepLearning）是一种基于人工神经
DeepSeek使用中的问题及解决方案（部分） WeiLai1112 DeepSeek 人工智能
1.模型部署与配置问题问题1：环境依赖冲突现象：安装模型依赖库时出现版本不兼容（如Python、PyTorch版本冲突）。解决方案：使用虚拟环境（如conda或venv）隔离依赖。严格按照官方文档的版本要求安装依赖，例如：condacreate-ndeepseekpython=3.9condaactivatedeepseekpipinstalltorch==2.0.1transformers==4
yolov8人脸识别与脸部关键点检测（代码+原理） QQ_1309399183 计算机视觉实战项目集锦 YOLO 人工智能人脸识别 yolo人脸检测
YOLOv8脸部识别是一个基于YOLOv8算法的人脸检测项目，旨在实现快速、准确地检测图像和视频中的人脸。该项目是对YOLOv8算法的扩展和优化，专门用于人脸检测任务。YOLOv8是一种基于深度学习的目标检测算法，通过将目标检测问题转化为一个回归问题，可以实现实时的目标检测。YOLOv8Face项目在YOLOv8的基础上进行了改进，使其更加适用于人脸检测。以下是YOLOv8Face项目的一些特点和
deepseek_各个版本django特性终是蝶衣梦晓楼 django 数据库 python
以下是Django2.0至5.0的主要区别总结，按版本特性分类说明：1.Django2.0的主要变化Python支持仅支持Python3.4+，不再兼容Python2.x。路由系统弃用url()，引入path()和re_path()替代，path()默认不支持正则表达式，但提供内置转换器（如）进行参数类型匹配。支持更简洁的URL配置语法（例如path('articles//',views.year
基于Python的搜索引擎的设计与实现 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
搜索引擎,Python,爬虫,自然语言处理,信息检索,索引,算法,数据库1.背景介绍在信息爆炸的时代，海量数据无处不在，高效地获取所需信息变得至关重要。搜索引擎作为信息获取的桥梁，扮演着不可或缺的角色。传统的搜索引擎往往依赖于庞大的服务器集群和复杂的算法，对资源消耗较大，且难以满足个性化搜索需求。基于Python的搜索引擎设计，则凭借Python语言的易学易用、丰富的第三方库和强大的社区支持，为开
DeepSeek 助力 Vue 开发：打造丝滑的导航栏（Navbar）宝码香车 #DeepSeek vue.js 前端 javascript ecmascript DeepSeek
前言：哈喽，大家好，今天给大家分享一篇文章！并提供具体代码帮助大家深入理解，彻底掌握！创作不易，如果能帮助到大家或者给大家一些灵感和启发，欢迎收藏+关注哦目录DeepSeek助力Vue开发：打造丝滑的导航栏（Navbar）前言页面效果指令输入属性定义1.导航栏样式相关2.导航项相关3.响应式相关4.对齐方式相关事件定义1.导航项点击事件2.菜单折叠切换事件其他建议1.可访问性2.动画效果3.图标支
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><