仙人掌_lz

X-R1 项目代码文件的详细剖析并精读rewards、grpo、x_grpo_trainer（src/x_r1）

这个项目名为[X-R1](https://github.com/dhcode-cpp/X-R1)，是一个基于强化学习的训练框架，旨在构建一个易于使用、低成本的训练框架，以加速Scaling Post-Training的开发。以下是对该项目的详细解释：

项目结构

项目的主要目录结构如下：

X-R1/
├── .gitignore
├── LICENSE
├── Makefile
├── README.md
├── requirements.txt
├── setup.cfg
├── setup.py
├── src/
│   └── x_r1/
├── README.assets/
│   ├── X-R1-0.5B-acc-result.png
│   ├── X-R1-log.png
│   └── aha_moment_0.5B.png
└── recipes/
    ├── README.md
    ├── X_R1_test_env_single.yaml
    ├── X_R1_zero_0dot5B_config.yaml
    ├── X_R1_zero_1dot5B_config.yaml
    ├── X_R1_zero_7B_config.yaml
    ├── zero1.yaml
    ├── zero2.yaml
    └── zero3.yaml

.gitignore：指定了Git需要忽略的文件和目录。
LICENSE：项目的许可证文件。
Makefile：包含了一些常用的构建和运行命令。
README.md：项目的说明文档，包含项目的介绍、功能、安装方法等信息。
requirements.txt：项目的依赖库列表，使用pip install -r requirements.txt可以安装所有依赖。
setup.cfg 和 setup.py：用于打包和分发项目的配置文件。
src/x_r1/：项目的源代码目录。
README.assets/：存放项目说明文档中使用的图片等资产文件。
recipes/：包含了不同的训练配置文件，如X_R1_test_env_single.yaml、X_R1_zero_0dot5B_config.yaml等。

主要功能和特性

低成本训练
- 4x3090/4090 GPUs训练1小时，成本小于10美元，10分钟37步即可输出“Aha Moment”。
- 支持0.5B规模的模型进行强化学习训练，并且可以支持更大规模的模型，如1.5B/7B/32B等。
数据集支持
- 提供了0.75k/1.5k/7.5k的数据集，用于快速训练循环。
日志记录
- 记录GRPO在线采样数据到日志文件。

配置文件

项目中的配置文件（如X_R1_zero_0dot5B_config.yaml等）主要包含以下几部分的配置：

模型参数：如model_name_or_path、model_revision、torch_dtype等，指定了模型的名称、版本和数据类型。
数据训练参数：如dataset_name、dataset_configs、num_processes等，指定了训练使用的数据集和进程数。
GRPO训练器配置：如use_vllm、output_dir、gradient_accumulation_steps等，配置了训练器的相关参数。

安装和运行

安装依赖
- 首先需要安装CUDA版本大于12.4。
- 创建并激活一个名为xr1的Python 3.11虚拟环境：

conda create -n xr1 python=3.11
conda activate xr1

- 安装项目所需的依赖库：

pip install -r requirements.txt

- 创建输出目录：

mkdir output

运行示例
- 单GPU运行：

ACCELERATE_LOG_LEVEL=info \
accelerate launch \
--config_file recipes/zero1.yaml \
--num_processes=1 \
src/x_r1/grpo.py \
--config recipes/X_R1_test_env_single.yaml \
> ./output/x_r1_test_sampling.log 2>&1

- **多GPU运行**：

ACCELERATE_LOG_LEVEL=info \
accelerate launch \
--config_file recipes/accelerate_configs/zero3.yaml \
--num_processes=1 \
src/x_r1/grpo.py \
--config recipes/x_r1_test_sampling.yaml \
> ./output/test.log 2>&1

代码文件

register_lighteval_task函数：位于X-R1/src/x_r1/utils/evaluation.py文件中，用于注册LightEval任务配置。
push_to_hub_revision函数：位于X-R1/src/x_r1/utils/hub.py文件中，用于将模型推送到Hub仓库的指定分支。

代码解读：

`x_grpo_trainer.py`剖析

1. 模块导入

import os
import textwrap
import warnings
from collections import defaultdict
from typing import Any, Callable, Optional, Union
from unittest.mock import patch

import torch
import torch.utils.data
import transformers
from accelerate.utils import broadcast_object_list, gather_object
from transformers import (
    PreTrainedModel,
    Trainer,
)
from trl.trainer import GRPOTrainer
from trl.data_utils import apply_chat_template, is_conversational, maybe_apply_chat_template
from trl.models import unwrap_model_for_generation
from trl.trainer.grpo_config import GRPOConfig
from trl.trainer.utils import  pad

导入了一系列必要的模块，包括os、torch、transformers等，这些模块用于文件操作、深度学习计算、数据处理等。
从trl库中导入了GRPOTrainer、GRPOConfig等相关类和函数，表明该文件可能是在trl库的基础上进行扩展。

2. 奖励函数类型定义

# What we call a reward function is a callable that takes a list of prompts and completions and returns a list of
# rewards. When it's a string, it's a model ID, so it's loaded as a pretrained model.
RewardFunc = Union[str, PreTrainedModel, Callable[[list, list], list[float]]]

定义了一个RewardFunc类型别名，它可以是字符串（模型ID）、预训练模型或一个可调用对象（接受提示和完成列表并返回奖励列表）。

3. `XGRPOTrainer`类定义

class XGRPOTrainer(GRPOTrainer):
    # base trl GRPO_trainer
    def compute_loss(self, model, inputs, return_outputs=False, num_items_in_batch=None):
        if return_outputs:
            raise ValueError("The GRPOTrainer does not support returning outputs")

XGRPOTrainer类继承自GRPOTrainer，并重写了compute_loss方法。
如果return_outputs为True，会抛出ValueError，表明该训练器不支持返回输出。

4. 数据处理和生成

        device = self.accelerator.device
        prompts = [x["prompt"] for x in inputs]
        prompts_text = [maybe_apply_chat_template(example, self.processing_class)["prompt"] for example in inputs]
        prompt_inputs = self.processing_class(
            prompts_text, return_tensors="pt", padding=True, padding_side="left", add_special_tokens=False
        )
        prompt_inputs = super()._prepare_inputs(prompt_inputs)

        if self.max_prompt_length is not None:
            prompt_inputs["input_ids"] = prompt_inputs["input_ids"][:, -self.max_prompt_length :]
            prompt_inputs["attention_mask"] = prompt_inputs["attention_mask"][:, -self.max_prompt_length :]

获取设备信息。
从输入中提取提示信息，并应用聊天模板（如果需要）。
使用processing_class对提示进行处理，生成输入张量。
如果设置了max_prompt_length，则对输入进行截断。

5. 生成完成信息

        # Generate completions using either vLLM or regular generation
        if self.args.use_vllm:
            # First, have main process load weights if needed
            if self.state.global_step != self._last_loaded_step:
                with unwrap_model_for_generation(model, self.accelerator) as unwrapped_model:
                    state_dict = unwrapped_model.state_dict()
                if self.accelerator.is_main_process:
                    llm_model = self.llm.llm_engine.model_executor.driver_worker.model_runner.model
                    llm_model.load_weights(state_dict.items())
                self._last_loaded_step = self.state.global_step

            # Generate completions using vLLM: gather all prompts and use them in a single call in the main process
            all_prompts_text = gather_object(prompts_text)
            if self.accelerator.is_main_process:
                outputs = self.llm.generate(all_prompts_text, sampling_params=self.sampling_params, use_tqdm=False)
                completion_ids = [out.token_ids for completions in outputs for out in completions.outputs]
                for output in outputs:
                    print('-'*100)
                    print('\n\n\n')
                    prompt = output.prompt
                    for output_t in  output.outputs:
                        # print(completion_ids)
                        print('='*100)
                        generated_text = output_t.text
                        print("【USER】: ", prompt )
                        print("\n【ASSISTANT】:", generated_text)
            else:
                completion_ids = [None] * len(all_prompts_text) * self.num_generations

            # Broadcast the completions from the main process to all processes, ensuring each process receives its
            # corresponding slice.
            completion_ids = broadcast_object_list(completion_ids, from_process=0)
            process_slice = slice(
                self.accelerator.process_index * len(prompts) * self.num_generations,
                (self.accelerator.process_index + 1) * len(prompts) * self.num_generations,
            )
            completion_ids = completion_ids[process_slice]

            # Pad the completions, and concatenate them with the prompts
            completion_ids = [torch.tensor(ids, device=device) for ids in completion_ids]
            completion_ids = pad(completion_ids, padding_value=self.processing_class.pad_token_id)
            prompt_inputs_repeated = torch.repeat_interleave(prompt_inputs["input_ids"], self.num_generations, dim=0).to(device)
            prompt_completion_ids = torch.cat([prompt_inputs_repeated, completion_ids], dim=1)
        else:
            # Regular generation path
            with unwrap_model_for_generation(model, self.accelerator) as unwrapped_model:
                prompt_inputs['input_ids'].to(device)
                prompt_inputs['attention_mask'].to(device)

                prompt_completion_ids = unwrapped_model.generate(
                    **prompt_inputs, generation_config=self.generation_config
                )

根据self.args.use_vllm的值，选择使用vLLM或常规生成方法生成完成信息。
如果使用vLLM，需要在主进程中加载权重，并在主进程中生成完成信息，然后将结果广播到所有进程。
对生成的完成信息进行填充和拼接。

6. 计算损失

        prompt_length = prompt_inputs["input_ids"].size(1)
        completion_ids = prompt_completion_ids[:, prompt_length:]

        # Get the per-token log probabilities for the completions for the model and the reference model
        def get_per_token_logps(model, input_ids, num_logits_to_keep):
            # We add 1 to `num_logits_to_keep` because the last logits of the sequence is later excluded
            logits = model(input_ids, num_logits_to_keep=num_logits_to_keep + 1).logits  # (B, L, V)
            logits = logits[:, :-1, :]  # (B, L-1, V), exclude the last logit: it corresponds to the next token pred

            # Compute the log probabilities for the input tokens. Use a loop to reduce memory peak.
            per_token_logps = []
            for logits_row, input_ids_row in zip(logits, input_ids[:, -num_logits_to_keep:]):
                log_probs = logits_row.log_softmax(dim=-1)
                token_log_prob = torch.gather(log_probs, dim=1, index=input_ids_row.unsqueeze(1)).squeeze(1)
                per_token_logps.append(token_log_prob)
            return torch.stack(per_token_logps)

        num_logits_to_keep = completion_ids.size(1)  # we only need to compute the logits for the completion tokens
        per_token_logps = get_per_token_logps(model, prompt_completion_ids, num_logits_to_keep)

        with torch.inference_mode():
            if self.ref_model is not None:
                ref_per_token_logps = get_per_token_logps(self.ref_model, prompt_completion_ids, num_logits_to_keep)
            else:
                with self.accelerator.unwrap_model(model).disable_adapter():
                    ref_per_token_logps = get_per_token_logps(model, prompt_completion_ids, num_logits_to_keep)

        # Compute the KL divergence between the model and the reference model
        per_token_kl = torch.exp(ref_per_token_logps - per_token_logps) - (ref_per_token_logps - per_token_logps) - 1

计算提示的长度和完成信息的ID。
定义get_per_token_logps函数，用于计算每个令牌的对数概率。
计算模型和参考模型的每个令牌的对数概率。
计算模型和参考模型之间的KL散度。

7. 计算奖励

        # Compute the rewards
        prompts = [prompt for prompt in prompts for _ in range(self.num_generations)]

        rewards_per_func = torch.zeros(len(prompts), len(self.reward_funcs), device=device)
        for i, (reward_func, reward_processing_class) in enumerate(
            zip(self.reward_funcs, self.reward_processing_classes)
        ):
            if isinstance(reward_func, PreTrainedModel):
                if is_conversational(inputs[0]):
                    messages = [{"messages": p + c} for p, c in zip(prompts, completions)]
                    texts = [apply_chat_template(x, reward_processing_class)["text"] for x in messages]
                else:
                    texts = [p + c for p, c in zip(prompts, completions)]
                reward_inputs = reward_processing_class(
                    texts, return_tensors="pt", padding=True, padding_side="right", add_special_tokens=False
                )
                reward_inputs = super()._prepare_inputs(reward_inputs)
                with torch.inference_mode():
                    rewards_per_func[:, i] = reward_func(**reward_inputs).logits[:, 0]  # Shape (B*G,)
            else:
                # Repeat all input columns (but "prompt" and "completion") to match the number of generations
                reward_kwargs = {key: [] for key in inputs[0].keys() if key not in ["prompt", "completion"]}
                for key in reward_kwargs:
                    for example in inputs:
                        # Repeat each value in the column for `num_generations` times
                        reward_kwargs[key].extend([example[key]] * self.num_generations)
                output_reward_func = reward_func(prompts=prompts, completions=completions, **reward_kwargs)
                rewards_per_func[:, i] = torch.tensor(output_reward_func, dtype=torch.float32, device=device)

        # Sum the rewards from all reward functions
        rewards = rewards_per_func.sum(dim=1)

重复提示信息以匹配生成次数。
遍历每个奖励函数，根据奖励函数的类型（预训练模型或可调用对象）计算奖励。
将所有奖励函数的奖励相加。

8. 计算优势和损失

        # Compute grouped-wise rewards
        mean_grouped_rewards = rewards.view(-1, self.num_generations).mean(dim=1)
        std_grouped_rewards = rewards.view(-1, self.num_generations).std(dim=1)

        # Normalize the rewards to compute the advantages
        mean_grouped_rewards = mean_grouped_rewards.repeat_interleave(self.num_generations, dim=0)
        std_grouped_rewards = std_grouped_rewards.repeat_interleave(self.num_generations, dim=0)
        advantages = (rewards - mean_grouped_rewards) / (std_grouped_rewards + 1e-4)

        # x - x.detach() allows for preserving gradients from x
        per_token_loss = torch.exp(per_token_logps - per_token_logps.detach()) * advantages.unsqueeze(1)
        per_token_loss = -(per_token_loss - self.beta * per_token_kl)
        loss = ((per_token_loss * completion_mask).sum(dim=1) / completion_mask.sum(dim=1)).mean()

计算分组奖励的均值和标准差。
归一化奖励以计算优势。
计算每个令牌的损失，并最终计算总损失。

9. 记录指标

        # Log the metrics
        completion_length = self.accelerator.gather_for_metrics(completion_mask.sum(1)).float().mean().item()
        self._metrics["completion_length"].append(completion_length)

        reward_per_func = self.accelerator.gather_for_metrics(rewards_per_func).mean(0)
        for i, reward_func in enumerate(self.reward_funcs):
            if isinstance(reward_func, PreTrainedModel):
                reward_func_name = reward_func.config._name_or_path.split("/")[-1]
            else:
                reward_func_name = reward_func.__name__
            self._metrics[f"rewards/{reward_func_name}"].append(reward_per_func[i].item())

        self._metrics["reward"].append(self.accelerator.gather_for_metrics(rewards).mean().item())

        self._metrics["reward_std"].append(self.accelerator.gather_for_metrics(std_grouped_rewards).mean().item())

        mean_kl = ((per_token_kl * completion_mask).sum(dim=1) / completion_mask.sum(dim=1)).mean()
        self._metrics["kl"].append(self.accelerator.gather_for_metrics(mean_kl).mean().item())

        return loss

计算完成长度、每个奖励函数的奖励、总奖励、奖励标准差和KL散度等指标，并记录到self._metrics中。
最后返回计算得到的损失。

`grpo.py` 文件解读

@dataclass
class GRPOScriptArguments(ScriptArguments):
    reward_funcs: list[str] = field(
        default_factory=lambda: ["accuracy", "format"],
        # default_factory=lambda: ["accuracy", ],
        metadata={
            "help": f"List of reward functions. Possible values: {', '.join(REWARD_FUNCS_REGISTRY.keys())}"
        },
    )

定义了一个数据类 GRPOScriptArguments，继承自 ScriptArguments。
- reward_funcs 是一个字符串列表类型的字段，默认值为 ["accuracy", "format"]。
- metadata 中提供了该字段的帮助信息，列出了可能的奖励函数名称。

SYSTEM_PROMPT = (
    "A conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant "
    "first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning "
    "process and answer are enclosed within   and   tags, respectively, i.e., "
    " reasoning process here  answer here "
)

定义了一个系统提示信息 SYSTEM_PROMPT，用于描述用户和助手之间的对话模式。

def main(script_args, training_args, model_args):
    # Set seed for reproducibility
    set_seed(training_args.seed)

定义了主函数 main，接受 script_args、training_args 和 model_args 作为参数。
- 使用 set_seed 函数设置随机种子，以确保实验的可重复性。

    ###############
    # Setup logging
    ###############
    logging.basicConfig(
        format="%(asctime)s - %(levelname)s - %(name)s - %(message)s",
        datefmt="%Y-%m-%d %H:%M:%S",
        handlers=[logging.StreamHandler(sys.stdout)],
    )
    log_level = training_args.get_process_log_level()
    logger.setLevel(log_level)
    datasets.utils.logging.set_verbosity(log_level)
    transformers.utils.logging.set_verbosity(log_level)
    transformers.utils.logging.enable_default_handler()
    transformers.utils.logging.enable_explicit_format()

配置日志记录：
- 使用 logging.basicConfig 设置日志的格式和日期格式，并将日志输出到标准输出流。
- 获取训练参数中的日志级别，并设置日志记录器的级别。
- 设置 datasets 和 transformers 库的日志级别，并启用默认处理程序和显式格式。

    # Log on each process a small summary
    logger.warning(
        f"Process rank: {training_args.local_rank}, device: {training_args.device}, n_gpu: {training_args.n_gpu}"
        + f" distributed training: {bool(training_args.local_rank != -1)}, 16-bits training: {training_args.fp16}"
    )
    logger.info(f"Model parameters {model_args}")
    logger.info(f"Script parameters {script_args}")
    logger.info(f"Data parameters {training_args}")

记录一些关于进程、设备、GPU数量、分布式训练和16位训练的信息，以及模型参数、脚本参数和数据参数。

    # Check for last checkpoint
    last_checkpoint = None
    if os.path.isdir(training_args.output_dir):
        last_checkpoint = get_last_checkpoint(training_args.output_dir)
    if last_checkpoint is not None and training_args.resume_from_checkpoint is None:
        logger.info(f"Checkpoint detected, resuming training at {last_checkpoint=}.")

检查是否有上一次的检查点：
- 如果输出目录存在，则尝试获取最后一个检查点。
- 如果找到检查点且没有指定从特定检查点恢复训练，则记录信息并准备从该检查点恢复训练。

    # Load the dataset
    dataset = load_dataset(script_args.dataset_name, name=script_args.dataset_config)

使用 load_dataset 函数加载数据集，数据集的名称和配置由脚本参数指定。

    # Get reward functions
    reward_funcs = [REWARD_FUNCS_REGISTRY[func] for func in script_args.reward_funcs]

根据脚本参数中的奖励函数名称，从奖励函数注册表 REWARD_FUNCS_REGISTRY 中获取相应的奖励函数。

    # Format into conversation
    def make_conversation(example):
        return {
            "prompt": [
                {"role": "system", "content": SYSTEM_PROMPT},
                {"role": "user", "content": example["problem"]},
            ],
        }

    dataset = dataset.map(make_conversation)
    for split in dataset:
        if "messages" in dataset[split].column_names:
            dataset[split] = dataset[split].remove_columns("messages")

定义了一个函数 make_conversation，用于将数据集中的每个示例格式化为对话形式。
- 使用 dataset.map 函数将该格式化函数应用到整个数据集。
- 遍历数据集的每个分割，如果存在 messages 列，则将其移除。

    logger.info("*** Initializing model kwargs ***")
    torch_dtype = (
        model_args.torch_dtype if model_args.torch_dtype in ["auto", None] else getattr(torch, model_args.torch_dtype)
    )

    training_args.gradient_checkpointing = True
    model_kwargs = dict(
        revision=model_args.model_revision,
        trust_remote_code=model_args.trust_remote_code,
        attn_implementation=model_args.attn_implementation,
        torch_dtype=torch_dtype,
        use_cache=False if training_args.gradient_checkpointing else True,
    )

初始化模型的关键字参数：
- 根据模型参数中的 torch_dtype 确定 torch_dtype 的值。
- 启用梯度检查点，构建模型关键字参数字典。

    model = AutoModelForCausalLM.from_pretrained( model_args.model_name_or_path, load_in_4bit=False, **model_kwargs)

    print(model_args.model_name_or_path,)

使用 AutoModelForCausalLM.from_pretrained 函数从预训练模型中加载模型，不使用4位量化加载。
- 打印模型的名称或路径。

    #############################
    # Initialize the XGRPO trainer
    #############################
    trainer = XGRPOTrainer(
        # model=model_args.model_name_or_path,
        model = model,
        reward_funcs=reward_funcs,
        args=training_args,
        train_dataset=dataset[script_args.dataset_train_split],
        eval_dataset=dataset[script_args.dataset_test_split] if training_args.eval_strategy != "no" else None,
        callbacks=get_callbacks(training_args, model_args),
    )

初始化 XGRPOTrainer 训练器，传入模型、奖励函数、训练参数、训练数据集、评估数据集（如果评估策略不是 no）和回调函数。

    ###############
    # Training loop
    ###############
    logger.info("*** Train ***")
    checkpoint = None
    if training_args.resume_from_checkpoint is not None:
        checkpoint = training_args.resume_from_checkpoint
    elif last_checkpoint is not None:
        checkpoint = last_checkpoint
    train_result = trainer.train(resume_from_checkpoint=checkpoint)
    metrics = train_result.metrics
    metrics["train_samples"] = len(dataset[script_args.dataset_train_split])
    trainer.log_metrics("train", metrics)
    trainer.save_metrics("train", metrics)
    trainer.save_state()

开始训练循环：
- 记录训练开始信息。
- 确定是否从检查点恢复训练。
- 调用训练器的 train 方法进行训练，获取训练结果。
- 记录训练指标，保存指标和训练状态。

    ##################################
    # Save model and create model card
    ##################################
    logger.info("*** Save model ***")
    trainer.save_model(training_args.output_dir)
    logger.info(f"Model saved to {training_args.output_dir}")

    # Save everything else on main process
    kwargs = {
        "dataset_name": script_args.dataset_name,
        "tags": ["X-R1"],
    }
    if trainer.accelerator.is_main_process:
        trainer.create_model_card(**kwargs)
        # Restore k,v cache for fast inference
        trainer.model.config.use_cache = True
        trainer.model.config.save_pretrained(training_args.output_dir)

保存模型和创建模型卡片：
- 记录保存模型信息，调用训练器的 save_model 方法保存模型。
- 在主进程中创建模型卡片，恢复模型的缓存并保存模型配置。

if __name__ == "__main__":
    parser = TrlParser((GRPOScriptArguments, GRPOConfig, ModelConfig))
    script_args, training_args, model_args = parser.parse_args_and_config()
    main(script_args, training_args, model_args)

如果脚本作为主程序运行，则创建 TrlParser 解析器，解析命令行参数和配置，然后调用 main 函数开始执行。

`rewards.py` 文件解读

"""Reward functions for GRPO training."""
"""Reward functions for GRPO training."""

import re

from latex2sympy2_extended import NormalizationConfig
from math_verify import LatexExtractionConfig, parse, verify

文件开头的注释表明该文件包含用于GRPO训练的奖励函数。
- 导入 re 模块用于正则表达式操作。
- 从 latex2sympy2_extended 导入 NormalizationConfig，从 math_verify 导入 LatexExtractionConfig、parse 和 verify 函数。

def accuracy_reward(completions, solution, **kwargs):
    """Reward function that checks if the completion is the same as the ground truth."""
    contents = [completion[0]["content"] for completion in completions]
    rewards = []
    for content, sol in zip(contents, solution):
        gold_parsed = parse(
            sol,
            extraction_mode="first_match",
            extraction_config=[LatexExtractionConfig()],
        )
        if len(gold_parsed) != 0:
            # print('latex gold parsed')
            # We require the answer to be provided in correct latex (no malformed operators)
            answer_parsed = parse(
                content,
                extraction_config=[
                    LatexExtractionConfig(
                        normalization_config=NormalizationConfig(
                            nits=False,
                            malformed_operators=False,
                            basic_latex=True,
                            equations=True,
                            boxed="all",
                            units=True,
                        ),
                        # Ensures that boxed is tried first
                        boxed_match_priority=0,
                        try_extract_without_anchor=False,
                    )
                ],
                extraction_mode="first_match",
            )
            # Reward 1 if the content is the same as the ground truth, 0 otherwise
            reward = float(verify(answer_parsed, gold_parsed))
            # print('\nprompt:', prompt)
            print('-'*100)
            print('\nanswer_parsed:', answer_parsed, '\ngold_parsed:', gold_parsed, '\nreward:', reward)
        else:
            reward = 1.0
            print("Failed to parse gold solution: ", sol)
        rewards.append(reward)

    print('\naccuracy rewards:', rewards)

    return rewards

定义了一个名为 accuracy_reward 的奖励函数，用于检查生成的答案是否与真实答案相同。
- 提取每个完成结果的内容。
- 遍历每个内容和对应的真实答案，尝试解析真实答案和生成的答案。
- 如果解析成功，则使用 verify 函数验证两者是否相同，相同则奖励为1，否则为0。
- 如果解析失败，则奖励为1，并打印错误信息。
- 最后返回奖励列表。

def format_reward(completions, **kwargs):
    """Reward function that checks if the completion has a specific format."""
    pattern = r"^.*?.*?$"
    completion_contents = [completion[0]["content"] for completion in completions]
    matches = [re.match(pattern, content) for content in completion_contents]

    rewards = [1.0 if match else 0.0 for match in matches]
    print('-'*100)
    print('\nformat rewards:', rewards)
    return rewards

定义了一个名为 format_reward 的奖励函数，用于检查生成的答案是否符合特定格式。
- 定义了一个正则表达式模式，用于匹配 ... ... 格式。
- 提取每个完成结果的内容，使用正则表达式进行匹配。
- 根据匹配结果给出奖励，匹配成功为1，失败为0。
- 打印奖励列表并返回。

def reasoning_steps_reward(completions, **kwargs):
    """Reward function that checks for clear step-by-step reasoning.
    Regex pattern:
        Step \d+: - matches "Step 1:", "Step 2:", etc.
        ^\d+\. - matches numbered lists like "1.", "2.", etc. at start of line
        \n- - matches bullet points with hyphens
        \n\* - matches bullet points with asterisks
        First,|Second,|Next,|Finally, - matches transition words
    """
    pattern = r"(Step \d+:|^\d+\.|\n-|\n\*|First,|Second,|Next,|Finally,)"
    completion_contents = [completion[0]["content"] for completion in completions]
    matches = [len(re.findall(pattern, content)) for content in completion_contents]

    # Magic nubmer 3 to encourage 3 steps and more, otherwise partial reward
    return [min(1.0, count / 3) for count in matches]

定义了一个名为 reasoning_steps_reward 的奖励函数，用于检查生成的答案是否包含清晰的推理步骤。
- 定义了一个正则表达式模式，用于匹配步骤编号、列表项和过渡词。
- 提取每个完成结果的内容，统计匹配到的模式数量。
- 根据匹配数量计算奖励，鼓励至少有3个步骤，奖励最大为1。

REWARD_FUNCS_REGISTRY = {
    "accuracy": accuracy_reward,
    "format": format_reward,
    "reasoning_steps": reasoning_steps_reward,
}

定义了一个奖励函数注册表 REWARD_FUNCS_REGISTRY，将奖励函数名称映射到对应的函数。

你可能感兴趣的:(人工智能,人工智能,深度学习,学习)

Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
20180722【剽悍行动营8】DAY1 嘉宾分享——赵周《碎片化时代你最缺的知识管理五招》英娟儿
补课五、自己学习后的五个收获：1.区分两类知识管理：追求知识本身；追求致用与成长。2.便签学习法的三个维度：A用自己的语言重述信息（理解）A1描述自己相关经验（内化）A2规划自己的目标与行动3.一切不改变行动的知识管理都是浪费。也就是说，不管是何种知识管理，都要以行动为目的。4.信息和知识的区别，又一次听到这两个概念的区别。5.构建知识体系是知识管理的最高境界。三、自己需要改善的（三个方面）:1.
【职场小技巧】技术管理者的困惑@稀土永磁Amy@20210104@上海稀土永磁Amy
技术出身的管理者会沉迷于技术细节，把大量的时间花在学习新技术或者解决技术难题上。“告诉你怎么干，还不如我自己干更容易”是技术专家型管理者常说的一句话，尤其是他们看到团队成员中，有人的工作令人不满意，而这项工作又恰恰是自己老本行时，更是如此。因为对结果不满意，就亲自动手来做，第1次我来，第2次我来，很快就把猴子背到自己的背上。这些管理者必须明白，判断管理工作是否有效的标准是团队的绩效，而不是自己做的
复习博客：JVM hdzw20 java八股文复习 jvm java intellij-idea spring 后端
复习博客：JVM今日复习内容今天学习Java虚拟机（JVM），它是Java程序运行的基石。理解JVM的工作原理对于优化Java应用性能和排查问题至关重要。主要复习了以下内容：JVM内存模型JVM内存模型（也称为运行时数据区域）主要分为以下几个部分：程序计数器(ProgramCounterRegister)：一块较小的内存空间，是当前线程所执行的字节码的行号指示器。每个线程都有一个独立的程序计数器，
Matlab学习笔记：矩阵基础
MATLAB学习笔记：矩阵基础作为MATLAB的核心，矩阵是处理数据的基础工具。矩阵本质上是一个二维数组，由行和列组成，用于存储和操作数值数据。在本节中，我将详细讲解矩阵的所有知识点，包括创建、索引、运算、函数等，确保内容通俗易懂。我会在关键地方添加MATLAB代码示例，帮助你直观理解。最后，我会总结本课重点，并引出下一节“逻辑基础”的内容。一、什么是矩阵？在MATLAB中，矩阵是一个二维数组，元
ROS个人笔记
写在前面：由于个人原因距离上次学习ROS已经过去了2周时间，本以为时间不算长，但还是忘记了好多。因此写下这篇笔记，主要是记录学习过程中的概念性问题，程序代码可能会写，但是不是主要。1.ROS是什么：是一个生态系统，首先他是一个操作系统。统筹各种资源如通信，开发等。2.在以往开发时一旦工程庞大起来往往会对数据流通的耦合十分苦恼，因此ROS提供的通信方式为松耦合式的：节点Node。另外大工程时的另外一
乐惠国际怎么去学习操作技巧？该怎么分辨是否安全？御老师
微交易市场形式千变万化，稍有不慎就会导致亏损，为了把握盈利机会，最大限度降低风险，对基本面进行分析是必做功课。微交易中的基本面，指的是各种重大新闻、财政热点，这些动态资讯与市场行情走势息息相关，需要重点关注。那么，分析消息面时要注意哪些事项?搜索【庞老师微信：wtz677】一起学习盈利技巧一、注意资讯的时效性时效性是新闻的生命，直接关系到新闻信息的价值。在互联网时代，投资人可以突破地域限制，快速获
假如我有一个亿，我要怎么花？雯雯➕26号➕Ｄ2预热雯彩飞扬007
假如我有一个亿我将从三个时点来安排。你：200万元。给我爱的人一个安定的家和适合的保险。让他们从艰辛的体力劳动中抽离出来，安享晚年我：用500万做稳定的存款，1000万做理财，1000万用作天使投资。1000万用来做个人投资发展资金，学习西班牙语，出国留学，留出时间定期旅行✈️。用100万元买下2套门面房保证稳定的持续收入。他：1000万元在我所在的城市办一座概念图书馆，包含阅读和社交的功能，以公
2023-05-27 花开生两面
投射我儿读书明理，修身做人，每天阳光快乐，情绪平和稳定，越来越会调节自己的情绪和压力。投射我儿对家人、他人、社会都常怀一颗感恩之心，是一个暖心的男子汉。投射我儿对自己未来人生规划清晰，建立学习中短期目标，并为此不断努力。投射我儿生活、学习自律，扎实打好各学科基础，大二下学期的期末总绩点能进入本专业年级前15名，拿到保研资格。投射我儿大学期间交到一两位充满正能量的知心好友。投射我儿和3位新舍友能互帮
DL00478-涡轮叶片缺陷检测数据集yolo格式1300张左右
涡轮叶片缺陷检测数据集yolo格式1300张左右涡轮叶片缺陷检测数据集YOLO格式解析：提升研究与论文写作的关键要点在研究涡轮叶片缺陷检测的过程中，数据集的选择和格式处理是一个至关重要的环节。特别是当你打算通过卷积神经网络（CNN）等深度学习模型进行缺陷检测时，数据集的标注和格式化直接影响到模型的训练效果和论文的质量。本文将重点探讨涡轮叶片缺陷检测数据集的YOLO格式，并分析如何利用这一格式为研究
家长也是小学生之《家庭教育口传书》124 井蛙读书
在我们高度关注如何进行家庭教育的时候，似乎忽略了一个问题——作为家庭教育关键环节的家长一环够不够强。家长的格局决定孩子的未来，可如何提升家长的格局又不是一时三刻的事。每一个家长都是从第一次开始的，成为家长的那一刻，家长与孩子是一样的，对未来的一切都是现学现用的。要想在家长这个身份上做的够好够强，就要不停地学习，以小学生的心态终身学习，陪孩子一起成长。今天继续分享《家庭教育口传书》——一本我被序言吸
2019-06-06 906bbbe1730f
尊敬的李老师，智慧的教授，亲爱的跃友们，大家晚上好！我是来自临沂永林木业的姜秀萍，今天是我日精进分享的第180天，给大家分享我今天的进步，每天进步一点点，距离成功便不远。比学习好好学好数学，计算，口算，培养孩子的同时，也锻炼了自己，会给自己的工作带来帮助。比改变我变了，世界就变了，虚心学习，从内而外，提高自身素养，和专业技能。比付出承担才会成长，付出才会杰出，只要努力付出，定会在将来的某一天收获成
单片机C语言程序设计实训100例--Proteus仿真实战
本文还有配套的精品资源，点击获取简介：《单片机C语言程序设计实训100例--Proteus仿真实战》是一本面向初学者和进阶者的实践指南，通过100个实例帮助读者掌握8051单片机的C语言编程技能。涵盖了I/O端口控制、定时器/计数器、中断系统、串行通信等关键知识点，并结合Proteus仿真，使得学习过程更为直观和高效。本课程设计项目经过测试，旨在帮助学生掌握单片机C语言编程的实际应用，为进入更复杂
中原焦点团队焦点初级32期孙晓娟2022年️3月10日坚持分享第️30天 85b9745cfed8
一个连父母都不放在眼里的孩子，长大后也必然是一位斤斤计较、眼界狭窄、礼仪欠缺的人。父母就是孩子最初成长的学习对象，严格要求自我，把控好自己的一言一行。孩子才能从父母这里，学会包容与爱，学会理解与尊重。我们尊重孩子，也赢得孩子的尊敬.如此才能让良好的教育理念滋养孩子的心田，幻化成孩子前行的动力，陪他走过漫长的人生岁月。
Java学习-----Bean 典孝赢麻崩乐急 java 学习 rpc
在Spring框架中，Bean是核心概念之一，它贯穿了整个Spring应用的生命周期，是实现依赖注入（DI）和控制反转（IoC）的基础。理解Bean的原理、作用及使用特点，对于掌握Spring框架至关重要。SpringBean的本质是由SpringIoC容器管理的对象，它的创建、初始化、依赖注入及销毁等过程均由容器控制，而非通过传统的new关键字手动创建。其核心原理可概括为以下两点：1.控制反转（
Java学习----NIO模型典孝赢麻崩乐急 java 学习 nio
在Java的I/O模型中，NIO（Non-BlockingI/O，非阻塞I/O）是对BIO的重要改进。它为高并发场景提供了更高效的处理方式，在众多Java应用中发挥着关键作用。NIO模型的核心在于非阻塞和多路复用，其采用“一个线程处理多个连接”的模式，主要依靠通道（Channel）、缓冲区（Buffer）和选择器（Selector）这三个核心组件协同工作，每个核心组件的功能原理和功能如下：（1）通
Java学习————————ThreadLocal 典孝赢麻崩乐急 java 学习开发语言
ThreadLocal是Java中一个非常重要的线程级别的变量隔离机制，它提供了线程局部变量，使得每个线程都可以拥有自己独立的变量副本，从而避免了多线程环境下的共享变量竞争问题。ThreadLocal的实现原理主要依赖于：（1）ThreadLocalMap：每个Thread对象内部都有一个ThreadLocalMap实例（2）弱引用键：ThreadLocalMap使用ThreadLocal对象作为
【第17章】亿级电商订单系统架构设计-概要设计 cherry5230 亿级流量架构设计与落地系统架构架构分布式中间件
1-1本章导学课程概述核心内容：从粗到精细化系统架构设计项目案例：年交易额200亿的B2B电商平台订单系统学习路径1.高层架构设计细化阶段分为两个核心部分：概要设计（本章重点）详细设计2.本章学习目标(1)概要设计方法论理解设计阶段的核心任务掌握具体实施方法建立设计思想指导体系(2)项目实践应用项目工程架构搭建环境配置规范组件关系梳理客户端->网关层->业务层->数据层(3)基础框架构建工程结构初
熬夜之后吃什么养生食物来补身体？2022-12-29 ffd7b3b7d90f
熬夜之后吃什么养生食物来补身体?因为工作，学习等方面的原因，现如今的年轻人越来越多地开始经常熬夜。都提倡早睡早起，很明显地说明熬夜晚睡对身体有害。有时候年轻人因为年轻身体好，不觉得熬几天夜有什么。但其实熬夜的危害特别大，如果你熬了夜，第二天一定要补回来的。一、需要的营养素1、补水。水是生命之源，熬夜的你，生物钟被打乱，代谢加快，体内的水循环出现异常。所以必须要补充足够的水分来滋养你的身体。2、维生
京东零售重磅开源 | OxyGent：像搭乐高一样组装AI团队，实现群体智能京东零售技术零售开源人工智能
京东零售Oxygen团队正式开源发布多智能体协作框架——OxyGent。这一创新框架致力于帮助开发者高效组装多智能体协作系统，实现智能体间的无缝协作、弹性扩展与全链路可追溯。推动人工智能从“单点突破”迈向“群体智能”时代。OxyGent已在开源社区正式上线。开源地址：https://github.com/jd-opensource/OxyGent官网地址：https://oxygent.jd.co
具身智能的视觉-语言导航综述
24年2月来自曲阜师范、华东师大和哈工大的论文“Vision-LanguageNavigationwithEmbodiedIntelligence:ASurvey”。作为人工智能领域的长期愿景，具身智能的核心目标是提升智体与环境的感知、理解和交互能力。视觉-语言导航（VLN）作为实现具身智能的重要研究路径，致力于探索智体如何利用自然语言与人进行有效沟通，接收并理解指令，并最终依靠视觉信息实现精准导
20181207 旅一30王思宁
1.在文章中我学到的重要概念:讲故事不要平铺直叙2.这篇中我学到的怦然心动词汇:facialrecognition刷脸smogfog雾霾3.本篇文章中我最喜欢的句子:Forgetthememories,continuetobelife,miss,justpassby.4.本周学习中我遇到的困难:东西太多，不知道从哪开始复习5.语伴给我的建议:好好复习吧，别挂科6.我的一些其他感受和收获:游戏的坑真
2022暑假总结 yanpinghappy
这个假期，娃都是按照每天的学习计划做事（10天日照旅游期间除外），大概是因为之前两三个寒暑假都是如此规律，所以娃也适应了这种按部就班的节奏。学习时间表，几乎都是我俩商量的结果，中间遇到时间紧张或者无法执行的情况，我们会再做调整。美中不足的是，复盘这一项我俩做得极少，这一点下次寒假时一定要加强起来。暑假第一个月，报了两个课程奥数和《水浒传》，时间排得满满的，把头一年报的游泳课挤出去了，到了第二个月才
具身智能：从理论到实践的跨越
具身智能（EmbodiedAI）的概念起源与发展是一个跨越半个多世纪的学术探索历程，其核心思想在不同学科的交叉碰撞中逐渐成型。以下从理论源头、技术奠基、术语演进三个维度展开解析，揭示这一概念的学术脉络与产业价值：一、理论源头：从图灵的哲学构想到认知科学的具身化转向1.图灵的"感官机器"设想（1950年）在人工智能奠基性论文《计算机器与智能》中，图灵提出了两种智能发展路径：抽象计算路径：如国际象棋等
2020-5-7晨间日记邓芬芳
今天是什么日子起床：五点三十五就寝：十一点之前天气：阴天有雨心情：焦虑纪念日：高品质的生活需要适度的焦虑任务清单昨日完成的任务，最重要的三件事：打扫卫生、听课、准备复学第一课团体训练活动改进：团体训练活动准备的不理想习惯养成：科学、合理安排时间，提高效率，知行合一周目标·完成进度积极主动高效快速完成领导安排的任务学习·信息·阅读继续阅读《自卑与超越》《权宜之计》等书籍继续学习微笑主义——整合心理学
2023-07-22 付宇杰
在我看来，王老师对整个课堂节奏把控的很好，从开始王老师从现实生活入手，将数学与实际相结合，通过现实生活中的数学问题引导学生进入课堂，接着就是王老师准备的六个例题，诱导引入，变式深入，带领学生逐步深入，了解学习排列问题的本质，王老师用准确、清晰、易懂、生动的语言，呈现知识，践行“以学生为主体“的课堂模式，选择适合该龄段的教学方法，从而激发学生的学习兴趣，促进学生的思维活动,能注意因材施教、因人施教,
《第十五次网课收获》宛如初夏
伊川王利珍坚持原创分享第386天今天晚上是网络中级第15次课程。再有一次就要结束了，还真的有点恋恋不舍呢！刘老师已经开始提前给我们预告了，以期降低我们的分离焦虑！四个月的学习历程。我们彼此由陌生到熟悉。现在经常在一块约练的几个学员已经是老朋友的感觉。虽然从未谋面，但心灵相通，互相扶持，互相帮助。电波相连的情谊也是一种别样的美好！首先通过顾老师展示的案例，大家各抒己见，加上刘老师的讲解。又收获了很多
【HCIA】DHCP配置实验
DHCP（DynamicHostConfigurationProtocol）配置实验通常用于网络课程或网络管理工作中，目的是让学习者或网络管理员理解并掌握如何配置和管理DHCP服务器，以便自动分配IP地址给网络中的设备。一、导言DHCP（DynamicHostConfigurationProtocol）是一种网络协议，用于自动分配IP地址给网络中的设备。DHCP通过以下三种主要机制来分配IP地址：
学习与财富同行：大学生校园内的多元赚钱之路高省飞智导师
随着经济的发展和社会的进步，越来越多的人开始关注学校里的赚钱项目。这些项目不仅能为学校带来收益，同时也能为创业者提供很多商机。那么，学校里究竟有哪些赚钱项目呢？下面就为大家详细介绍一下。一、校园快递代领服务随着网购的普及，校园快递业务也日益繁忙。学生们常常因为上课、兼职等原因无法及时领取包裹，这时候校园快递代领服务应运而生。这个项目需要有一定的组织和协调能力，以及对校园环境的熟悉程度。通过与快递公
自我感动式的努力，真的有用吗？星辰同学
你曾经有过这种感受吗？我今天有努力学习哎，我看书看了两个个小时，我觉得自己很刻苦；我今天有努力跑步哎，跑了两公里，觉得自己很自律；我今天有努力工作哎；晚上10点才回去…其实，你看书两小时，手机不停看了一个多小时，你努力跑步，也只是坚持了两天而已，努力工作，也是因为工作拖拉，没办法加班…最后，你没有取得成就，却怀疑人生，我明明努力了呀？可是一无所获。这种属于努力吗？应该算是自我感动式的努力吧！其实，
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts