愚昧之山绝望之谷开悟之坡

LLM-2-ChatGLM2

1 训练

1.1 训练参数配置理解

训练的输入长度=source的长度+target的长度

–pre_seq_len：pre_seq_len的取值范围一般是1到512，它表示自然语言指令的长度，即输入序列中的前pre_seq_len个token，具体的值需要根据自然语言指令的长度和复杂度来确定。一般来说，指令越长越复杂，pre_seq_len就需要越大，以便模型能够充分理解指令的含义。但是，pre_seq_len也不能太大，否则会占用过多的输入序列长度，导致生成内容过于单一或重复。因此，pre_seq_len的取值需要在保证指令完整性和生成多样性之间进行权衡。一种可能的方法是，根据不同的指令类型设置不同的pre_seq_len值，例如，对于简单的指令，如“生成一个笑话”，可以设置pre_seq_len为4；对于复杂的指令，如“生成一个关于环保主题的故事”，可以设置pre_seq_len为16。当然，这些值也需要根据实际的效果进行调整和优化。

–pre_seq_len和max_source_length的含义是差不多的，或者取值是可以参照的？不完全是的，pre_seq_len和max_source_length的含义是不同的，但是它们之间有一定的关系。pre_seq_len是指自然语言指令的长度，而max_source_length是指整个输入序列的最大长度。一般来说，pre_seq_len应该小于或等于max_source_length，因为输入序列除了包含指令之外，还可能包含其他内容，例如上下文信息或对话历史。如果pre_seq_len大于max_source_length，那么模型就无法接收到完整的指令，也就无法正确地生成输出内容。因此，pre_seq_len和max_source_length的取值需要协调一致，以保证模型能够有效地利用输入信息。

P-Tuning的时候的 soft prompt的长度，越大可微调的参数越多

PRE_SEQ_LEN=128
LR=2e-2
NUM_GPUS=2

torchrun --standalone --nnodes=1 --nproc-per-node=$NUM_GPUS main.py \
    --do_train \
    --train_file AdvertiseGen/train.json \
    --validation_file AdvertiseGen/dev.json \
    --preprocessing_num_workers 10 \
    --prompt_column content \
    --response_column summary \
    --overwrite_cache \
    --model_name_or_path /usr/local/serving/models/chatglm/chatglm2-6b \
    --output_dir output/adgen-chatglm2-6b-pt-$PRE_SEQ_LEN-$LR \
    --overwrite_output_dir \
    --max_source_length 64 \
    --max_target_length 128 \
    --per_device_train_batch_size 1 \
    --per_device_eval_batch_size 1 \
    --gradient_accumulation_steps 16 \
    --predict_with_generate \
    --max_steps 3000 \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate $LR \
    --pre_seq_len $PRE_SEQ_LEN \
    --quantization_bit 4

这段代码使用了 `torchrun` 命令来以分布式训练的方式运行 `main.py` 文件。具体来说，代码参数解释如下：

- `--standalone` 表示以独立模式启动分布式训练（即在同一台机器上的多个 GPU 上运行）。如果在多个机器上运行，则需要设置其他参数，例如 `--nnodes` 和 `--nproc-per-node` 等。

- `--nnodes` 指定节点数。在这个例子中，只有一个节点，所以设置为 1。

- `--nproc-per-node` 指定每个节点上的进程数。在这个例子中，只使用一个 GPU，所以设置为 1。

- `--do_train` 表示执行训练任务。

- `--train_file` 指定训练数据文件路径。

- `--validation_file` 指定验证数据文件路径。

- `--preprocessing_num_workers` 指定数据预处理时的工人数。

- `--prompt_column` 指定输入数据中输入文本所在的列。

- `--response_column` 指定输出数据中输出文本所在的列。

- `--overwrite_cache` 表示覆盖缓存文件。

- `--model_name_or_path` 指定使用的预训练模型的名称或路径。

- `--output_dir` 指定输出目录，即训练结果和模型保存目录。

- `--overwrite_output_dir` 表示覆盖输出目录。

- `--max_source_length` 指定输入文本的最大长度。

- `--max_target_length` 指定输出文本的最大长度。

- `--per_device_train_batch_size` 指定每个 GPU 上每次训练时的批量大小。

- `--per_device_eval_batch_size` 指定每个 GPU 上每次验证时的批量大小。

- `--gradient_accumulation_steps` 指定累积多少个梯度之后再进行一次反向传播。

- `--predict_with_generate` 表示在预测时使用生成模式。

- `--max_steps` 指定最大训练步数。

- `--logging_steps` 指定多少步记录一次日志。

- `--save_steps` 指定多少步保存一次模型。

- `--learning_rate` 指定初始学习率。

- `--pre_seq_len` 指定预处理时选取的序列长度。

- `--quantization_bit` 指定量化位数。

该命令将会在 PyTorch 1.7 或更高版本上运行。在此之前的版本中，可能需要单独设置分布式环境，享用多 GPU 训练所带来的好处。

1.2 多级多卡运行配置

好的，请容许我再详细解释一下多级多卡运行的调整步骤：

假设我们有两台机器 m1 和 m2，每台机器上有两块 GPU，我们希望在这两台机器上使用 PyTorch 的分布式训练模式运行代码：

1. 安装 PyTorch

首先在 m1 和 m2 上安装 PyTorch，并确保安装相同版本的 PyTorch。

2. 设置环境变量

在每台机器上设置相同的环境变量，以指定 PyTorch 使用分布式训练模式：

export WORLD_SIZE=
export RANK=
export MASTER_ADDR=
export MASTER_PORT=


其中，`number_of_processes` 是进程数，假设使用四个 GPU，所以 `number_of_processes` 是 4 。`rank_of_current_process` 是当前进程的排名，假设在 m1 中的排名为 0 和 1，m2 中的排名为 2 和 3。`address_of_master_machine` 是主节点的 IP 地址或主机名，假设主节点为 m1。`port_of_master_machine` 是主节点的端口号，假设主节点端口号为 1234。

3. 同步时间

确保所有机器的系统时间是同步的，可以使用如下命令同步时间：

sudo ntpdate cn.pool.ntp.org


4. 配置 SSH 免密登录

在每台机器上都需要通过 SSH 连接到其他机器。为此，需要在每台机器上配置 SSH 免密登录，以便不需要密码就可以登录到其他机器。可以使用如下命令生成公私钥对：

ssh-keygen -t rsa -P “”


然后将生成的公钥复制到其他机器的 `authorized_hosts` 文件中。

5. 编写工作节点程序

在工作节点上，需要自己定义需要运行的 Python 脚本代码。例如，我们编写了 worker.py 文件：

```python
# worker.py
import torch

# 定义需要执行的 PyTorch 代码
def run():
    rank = torch.distributed.get_rank()
    print(f"Rank {rank} is running on {torch.cuda.device_count()} GPUs.")

if __name__ == '__main__':
    # 设置分布式环境
    torch.distributed.init_process_group(backend='nccl')
    
    # 执行 PyTorch 代码
    run()

可以发现，这段程序中主要定义了需要运行的 PyTorch 代码。在 main.py/dataload.py/… 中，您可以根据自己的需要修改和编写相应的代码，例如模型定义、数据加载等等。

启动多进程

在 m1 的启动终端中运行以下命令：

# 启动第一个进程
python -m torch.distributed.launch --nproc_per_node=2 --use_env --master_port=1234 --node_rank=0 worker.py &

# 启动第二个进程
python -m torch.distributed.launch --nproc_per_node=2 --use_env --master_port=1234 --node_rank=1 worker.py &

在 m2 的启动终端中运行以下命令：

# 启动第三个进程
python -m torch.distributed.launch --nproc_per_node=2 --use_env --master_addr=<m1-ip> --master_port=1234 --node_rank=2 worker.py &

# 启动第四个进程
python -m torch.distributed.launch --nproc_per_node=2 --use_env --master_addr=<m1-ip> --master_port=1234 --node_rank=3 worker.py &

注意：

--use_env 参数，以便子进程能够继承主节点的环境变量。
--nproc_per_node 参数指定每台机器上的 GPU 数量。
对于每个进程指定不同的 --node_rank 参数，对应上面步骤 2 中设置的当前进程的排名。
对于主节点，可以选择启动 main.py 文件作为第一个进程。

启动后，各个进程就会分别运行 worker.py 文件中定义的函数，并借助分布式环境来执行其任务。

1.3 @dataclass 装饰器

@dataclass 是 Python 3.7 及更高版本中提供的一个装饰器。它能够自动为类生成一些常用的方法和属性，例如 `__init__` 方法、`__repr__` 方法以及属性的 getter 和 setter 方法。

在上面的代码中，@dataclass 被用于定义了两个类：ModelArguments 和 DataTrainingArguments。

这样使用 @dataclass 装饰器的类可以省略一些常见的代码，例如不再需要手动定义 init 方法、repr 方法和 getter/setter 方法。取而代之的是，使用 @dataclass 装饰器后， Python 会自动根据类的字段生成这些方法。

此外，通过给字段添加 field() 函数的调用，还可以为字段提供额外的元数据，例如字段的默认值和帮助文档。field()函数通常用于指定字段的元数据，例如默认值和帮助文档。

总之，@dataclass 能够简化类的定义过程，减少重复的代码，提高代码的可读性和可维护性。在上述代码中， @dataclass 装饰器和 field 函数的使用可以使 ModelArguments 和 DataTrainingArguments 类拥有自动生成的初始化方法、表示方法和 getter/setter 方法，并且提供了一些元数据，方便后续使用这些类的对象。

1.4 系统参数，模型参数配置，HF已经内置默认参数

Seq2SeqTrainingArguments(
_n_gpu=0,
adafactor=False,
adam_beta1=0.9,
adam_beta2=0.999,
adam_epsilon=1e-08,
auto_find_batch_size=False,
bf16=False,
bf16_full_eval=False,
data_seed=None,
dataloader_drop_last=False,
dataloader_num_workers=0,
dataloader_pin_memory=True,
ddp_backend=None,
ddp_bucket_cap_mb=None,
ddp_find_unused_parameters=None,
ddp_timeout=1800,
debug=[],
deepspeed=None,
disable_tqdm=False,
do_eval=False,
do_predict=False,
do_train=True,
eval_accumulation_steps=None,
eval_delay=0,
eval_steps=None,
evaluation_strategy=no,
fp16=False,
fp16_backend=auto,
fp16_full_eval=False,
fp16_opt_level=O1,
fsdp=[],
fsdp_config={'fsdp_min_num_params': 0, 'xla': False, 'xla_fsdp_grad_ckpt': False},
fsdp_min_num_params=0,
fsdp_transformer_layer_cls_to_wrap=None,
full_determinism=False,
generation_config=None,
generation_max_length=None,
generation_num_beams=None,
gradient_accumulation_steps=16,
gradient_checkpointing=False,
greater_is_better=None,
group_by_length=False,
half_precision_backend=auto,
hub_model_id=None,
hub_private_repo=False,
hub_strategy=every_save,
hub_token=<HUB_TOKEN>,
ignore_data_skip=False,
include_inputs_for_metrics=False,
jit_mode_eval=False,
label_names=None,
label_smoothing_factor=0.0,
learning_rate=0.02,
length_column_name=length,
load_best_model_at_end=False,
local_rank=0,
log_level=passive,
log_level_replica=warning,
log_on_each_node=True,
logging_dir=output/adgen-chatglm-6b-pt-$PRE_SEQ_LEN-$LR\runs\Jul25_14-10-13_Jett,
logging_first_step=False,
logging_nan_inf_filter=True,
logging_steps=10,
logging_strategy=steps,
lr_scheduler_type=linear,
max_grad_norm=1.0,
max_steps=3000,
metric_for_best_model=None,
mp_parameters=,
no_cuda=False,
num_train_epochs=3.0,
optim=adamw_hf,
optim_args=None,
output_dir=output/adgen-chatglm-6b-pt-$PRE_SEQ_LEN-$LR,
overwrite_output_dir=True,
past_index=-1,
per_device_eval_batch_size=1,
per_device_train_batch_size=1,
predict_with_generate=True,
prediction_loss_only=False,
push_to_hub=False,
push_to_hub_model_id=None,
push_to_hub_organization=None,
push_to_hub_token=<PUSH_TO_HUB_TOKEN>,
ray_scope=last,
remove_unused_columns=True,
report_to=[],
resume_from_checkpoint=None,
run_name=output/adgen-chatglm-6b-pt-$PRE_SEQ_LEN-$LR,
save_on_each_node=False,
save_safetensors=False,
save_steps=1000,
save_strategy=steps,
save_total_limit=None,
seed=42,
sharded_ddp=[],
skip_memory_metrics=True,
sortish_sampler=False,
tf32=None,
torch_compile=False,
torch_compile_backend=None,
torch_compile_mode=None,
torchdynamo=None,
tpu_metrics_debug=False,
tpu_num_cores=None,
use_ipex=False,
use_legacy_prediction_loop=False,
use_mps_device=False,
warmup_ratio=0.0,
warmup_steps=0,
weight_decay=0.0,
xpu_backend=None,
)

1.5 单个轮次需要的步数，跟数据并行的卡NUM_GPUS、样本量、单批次batch_size有关

1.5.1 默认

1.5.2 避免额外计算，可以指配置迭代轮次，去掉步数限制，根据数据量自己决定步数

1.5.3 最新训练参数配置

PRE_SEQ_LEN=128
LR=2e-2
NUM_GPUS=2

torchrun --standalone --nnodes=1 --nproc-per-node=$NUM_GPUS main.py \
    --do_train \
    --train_file AdvertiseGen/train.json \
    --validation_file AdvertiseGen/dev.json \
    --preprocessing_num_workers 10 \
    --prompt_column content \
    --response_column summary \
    --overwrite_cache \
    --model_name_or_path /usr/local/serving/models/chatglm/chatglm2-6b \
    --output_dir output/adgen-chatglm2-6b-pt-$PRE_SEQ_LEN-$LR \
    --overwrite_output_dir \
    --max_source_length 64 \
    --max_target_length 128 \
    --per_device_train_batch_size 128 \
    --per_device_eval_batch_size 128 \
    --gradient_accumulation_steps 1 \
    --predict_with_generate \
    --logging_steps 10 \
    --learning_rate $LR \
    --pre_seq_len $PRE_SEQ_LEN \
    --quantization_bit 4 \
    --num_train_epochs 3 \
    --evaluation_strategy epoch \
    --save_strategy epoch

1.6 Ptuning训练记录，多卡数据并行

1.6.1 训练报错nable to create tensor, you should probably activate truncation and/or padding with ‘padding=True’ ‘truncation=True’ to have batched tensors with the same length. Perhaps your features (input_ids in this case) have excessive nesting (inputs type list where type int is expected).

1.6.1.1 解决方法

label_pad_token_id = -100 if data_args.ignore_pad_token_for_loss else tokenizer.pad_token_id
data_collator = DataCollatorForSeq2Seq(
tokenizer,
model=model,
label_pad_token_id=label_pad_token_id,
pad_to_multiple_of=None,
padding=False
)

在main.py中找到这几行程序，然后修改padding=True，即可，问题得以解决

1.6.2 16个样本，训练集作为验证集，在56个epoch的时候，达到完全收敛

1.7 推理部署，注意超参数、模型量化选择，训练和推理，保持一致，答案才可控

1.8 mdtex2html.convert函数的理解

Markdown中的LaTeX公式转换为带有MathML的HTML的功能，是将LaTeX格式的数学公式转换为网页上可以渲染的MathML格式，从而使数学公式在网页上能够以高质量的方式呈现。

以下是一个示例，将一些常用的LaTeX公式转换为带有MathML的HTML代码：

行内公式

LaTeX格式： $E = mc^2$

转换为MathML格式：

<math xmlns="http://www.w3.org/1998/Math/MathML">
  <mi>Emi>
  <mo>=mo>
  <mi>mmi>
  <msup>
    <mi>cmi>
    <mn>2mn>
  msup>
math>

行间公式

LaTeX格式：

$$
\int_{-\infty}^{\infty} e^{-x^2} dx = \sqrt{\pi}
$$

转换为MathML格式：

<math xmlns="http://www.w3.org/1998/Math/MathML">
  <mrow>
    <mo>∫mo>
    <msubsup>
      <mi>xmi>
      <mo>−mo>
      <mi>∞mi>
      <mi>∞mi>
    msubsup>
    <msup><mi>emi><mrow><mo>-mo><msup><mi>xmi><mn>2mn>msup>mrow>msup>
    <mi>dxmi>
    <mo>=mo>
    <msqrt><mi>πmi>msqrt>
  mrow>
math>

这些MathML代码可以嵌入网页中并进行渲染，以呈现高质量的数学公式。

1.9 parse_text(text)函数的理解

这段代码是一个用于解析文本的函数，它的作用是将带有特殊标记的文本（使用了类似Markdown的语法）转换为可以在网页上正确显示的HTML代码。

函数的具体解释如下：

1. 首先，函数接受一个文本参数 `text`。
2. 函数将文本按换行符进行分割，得到一个行列表 `lines`。
3. 然后，函数通过列表解析的方式，过滤掉空行，将结果重新赋值给 `lines`。
4. 函数定义了一个变量 `count`，用于记录出现特殊标记的次数。
5. 函数遍历 `lines` 列表，通过使用 `enumerate` 函数同时获取行的索引和内容。
6. 如果当前行包含 "```"，则表示遇到了代码块的标记，执行以下操作：
   - `count` 加1，用于判断代码块是开启还是关闭。
   - 将行按 "`" 进行分割，获取最后一个元素（表示代码块的语言类型）。
   - 如果 `count` 为奇数，将当前行修改为代码块的开启标记 `<pre><code class="language-语言类型">`。
   - 否则，将当前行修改为代码块的关闭标记 `<br></code></pre>`。
7. 如果当前行不包含代码块标记：
   - 如果当前行的索引大于0，表示不是第一行，执行以下操作：
     - 如果 `count` 为奇数，替换特殊字符，将特殊字符转换为对应的 HTML 实体。
     - 将当前行添加 `<br>` 标签，并更新 `lines` 列表中对应的元素。
8. 最后，将经过处理的 `lines` 列表通过空字符串连接起来，得到最终的转换结果，并返回。

总体来说，这段代码可以将特殊标记的文本转换为适用于在网页上显示的HTML代码。具体转换过程包括处理代码块标记以及替换特殊字符为对应的HTML实体。

好的，让我通过一个具体的例子来说明这段代码的作用。

假设我们有以下的 Markdown 格式文本，其中包含了代码块：

Hello World

这是一段普通文本。

下面是一个代码块：

print("Hello World")

这是另一段普通文本。


我们可以调用 `parse_text` 函数对这段文本进行解析，得到以下的 HTML 代码：

```html
Hello World
这是一段普通文本。

print("Hello World")


这是另一段普通文本。

我们可以看到，代码块被转换为了

 标签包裹起来，并且代码块中的特殊字符（比如引号和尖括号）被替换为对应的 HTML 实体。其他的文本也被正确地转换为了段落标签  并添加了 
 标签进行换行。 
  这样，在网页上就可以正确地显示这段文本和代码块了。 
  
```clike
``、``、`
` 和 `` 都是HTML标签，用于在网页上呈现不同类型的内容。以下是它们的具体解释：

- `` 标签用于表示网页中的一级标题，通常用于网页的头部和主要内容的标题。在本例中，`` 标签用于表示 Markdown 中的一级标题 `# Hello World`。
- `` 标签用于表示段落，通常用于呈现网页中的普通文本内容。在本例中，`
` 标签用于表示 Markdown 中的常规文本段落。
- `
` 标签用于在文本中添加一个换行符，通常用于在一段文本中进行手动换行。在本例中，`
` 标签用于表示 Markdown 文本中的手动换行符。
- `` 标签用于表示**预格式化的文本**，可以用于呈现文本中的代码块和其他特殊格式的文本。在本例中，`` 标签用于将 Markdown 中的代码块进行呈现。

这些标签都是HTML最基本的构建模块，它们通过不同的属性和样式可以呈现出各种丰富多彩的网页内容。
 
  1.10 gradio函数的理解 
      chatbot = gr.Chatbot()
    with gr.Row():
        with gr.Column(scale=4):
            with gr.Column(scale=12):
                user_input = gr.Textbox(show_label=False, placeholder="Input...", lines=10).style(
                    container=False)
            with gr.Column(min_width=32, scale=1):
                submitBtn = gr.Button("Submit", variant="primary")
        with gr.Column(scale=1):
            emptyBtn = gr.Button("Clear History")
            max_length = gr.Slider(0, 32768, value=2049, step=1.0, label="Maximum length", interactive=True)
            top_p = gr.Slider(0, 1, value=0.7, step=0.01, label="Top P", interactive=True)
            temperature = gr.Slider(0, 1, value=0.95, step=0.01, label="Temperature", interactive=True)
 
  with gr.Row():代表下面的组件是在同一行
 with gr.Column(scale=1)：代表下面的组件是在同一列 
  click函数的输出列表指定了在点击按钮后需要更新的变量或状态。在这段代码中，使用了gr模块的click函数来绑定按钮的点击事件。该函数的第三个参数是一个列表，包含需要更新的变量或状态。

在这段代码中，有三个click函数绑定了按钮的点击事件，它们分别是：

1. `submitBtn.click(predict, [user_input, chatbot, max_length, top_p, temperature, history, past_key_values], [chatbot, history, past_key_values], show_progress=True)`：
   - predict函数被绑定到submitBtn按钮的点击事件上。
   - 参数列表包括user_input, chatbot, max_length, top_p, temperature, history和past_key_values，它们将作为predict函数的参数传递进去。
   - 输出列表包括chatbot, history和past_key_values，表示在点击按钮后需要更新这些变量的值。
   - show_progress参数被设置为True，表示在点击按钮后显示进度。

2. `submitBtn.click(reset_user_input, [], [user_input])`：
   - reset_user_input函数被绑定到submitBtn按钮的点击事件上。
   - 参数列表为空，不传递任何参数给reset_user_input函数。
   - 输出列表包括user_input，表示在点击按钮后需要更新这个变量的值。

3. `emptyBtn.click(reset_state, outputs=[chatbot, history, past_key_values], show_progress=True)`：
   - reset_state函数被绑定到emptyBtn按钮的点击事件上。
   - 参数列表为空，不传递任何参数给reset_state函数。
   - 输出列表包括chatbot, history和past_key_values，表示在点击按钮后需要更新这些变量的值。
   - show_progress参数被设置为True，表示在点击按钮后显示进度。

通过指定输出列表，可以在按钮点击后更新指定的变量或状态，并且可以选择在更新完成后显示进度条。
 
  输入和输出的自动映射，输入和输出都是gradio对应的对象，按钮触发函数事件，输入的按钮给到函数输入，函数输出映射到显示框 
  text_button.click(flip_text, inputs=text_input, outputs=text_output)
 
  import gradio as gr
import os

# save your HF API token from https:/hf.co/settings/tokens as an env variable to avoid rate limiting
auth_token = os.getenv("auth_token")

# load a model from https://hf.co/models as an interface, then use it as an api 
# you can remove the api_key parameter if you don't care about rate limiting. 
api = gr.load("huggingface/gpt2-xl", hf_token=auth_token)

def complete_with_gpt(text):
    return text[:-50] + api(text[-50:])

with gr.Blocks() as demo:
    textbox = gr.Textbox(placeholder="Type here...", lines=4)
    btn = gr.Button("Autocomplete")
    
    # define what will run when the button is clicked, here the textbox is used as both an input and an output
    btn.click(fn=complete_with_gpt, inputs=textbox, outputs=textbox, queue=False)

demo.launch()
 
  gr.state函数，保存同一个demo的状态值变量 
  Special hidden component that stores session state across runs of the demo by the same user. The value of the State variable is cleared when the user refreshes the page.
 
  语言模型输出的内容固定 
  配置，do_sample=False 
      for response, history, past_key_values in model.stream_chat(tokenizer, input, history,
                                                                past_key_values=past_key_values,
                                                                return_past_key_values=True,
                                                                max_length=max_length, top_p=top_p,
                                                                temperature=temperature,
                                                                do_sample=False):
 
  2 Deepspeed多机多卡训练 
  2.1 参考 
  https://hub.yzuu.cf/THUDM/ChatGLM2-6B/issues/226
 https://hub.yzuu.cf/THUDM/ChatGLM-6B/issues/843 
  因为Adam optimizer的特点，全参数微调需要的显存大小是 fp16参数大小 + fp32参数大小* 3，应该已经超过了 80GB 显存。你可以在 deepspeed.json 里的 zero_optimization 部分增加

"offload_optimizer": {
            "device": "cpu",
        }
 
  5 报错 
  5.1 显存不够报OOM 
  因为Adam optimizer的特点，全参数微调需要的显存大小是 fp16参数大小 + fp32参数大小* 3，应该已经超过了 80GB 显存。你可以在 deepspeed.json 里的 zero_optimization 部分增加 
  “offload_optimizer”: {
 “device”: “cpu”,
 } 
  5.2 Deepspeed多卡训练报错exits with return code = -9 
  参考：https://hub.yzuu.cf/microsoft/DeepSpeed/issues/3160 
  And from the above snippet of your log, the failure seems to occur during optimizer state initialization in CPU memory. The last log line shows that prior to this, CPU memory consumed was 28GB which is 22.6%. This suggests a total CPU memory of ~80GB. However, the Adam optimizer requires 12 bytes per param (excluding gradients), and so for a 6.7B model means ~80.4GB. 
  So can you (1) confirm your CPU memory size, and (2) increase it assuming it matches my estimation. 
  @heroes999
 heroes999 commented on Jul 17
 @tjruwase Very helpful, thanks. I encountered the same problems as the PC station only has 32GB ram. When I expanded it to 128GB, the issue was gone. 
  解决方案 
  增大CPU容量，或者取消pin_memory字段
  
  5.3 exits with return code = -7 
  解决方案 
  docker run 官方质量：https://docs.docker.com/engine/reference/commandline/run/ 
  ``https://hub.yzuu.cf/microsoft/DeepSpeed/issues/4002 
  https://github.com/microsoft/DeepSpeed/issues/2897 
  Setting the shm-size to a large number instead of default 64MB when creating docker container solves the problem in my case. It appears that multi-gpu training relies on the shared memory. 
  I ran with this aks cluster yaml
 https://stackoverflow.com/questions/43373463/how-to-increase-shm-size-of-a-kubernetes-container-shm-size-equivalent-of-doc
 or docker command docker run --rm --runtime=nvidia --gpus all --shm-size 3gb imagename
 it worked 
  Also talking with @jomayeri a bit offline it sounds like increasing docker shared memory might help with this as well. One way to bump that up is by passing something like --shm-size=“2gb” to your docker run command. The default is pretty small and can sometimes cause issues like this. 
  Thank you for your advice. I check the default docker shm and find it’s only 64M. When I change it up to 64g the script goes well. And I also try “deepspeed all_reduce_bench_v2.py”, it exits successfully. Appreciate it for your answer.

十大排序算法 myprogramc 排序算法算法数据结构
排序算法插入排序冒泡排序选择排序希尔排序计数排序快速排序1经典Lomuto分区法2经典Lomuto分区法3随机快排堆排序归并排序桶排序基数排序插入排序从i=1开始，判断nums[i-1]和nums[i]的大小，一直到nums[i]插入到自己的位置。模拟抓扑克牌的过程：将元素插入到已排序的部分，使其有序voidinsertionSort(vector&nums){for(inti=1;i=0&&nu
Java 运行时常量池笔记（详细版小猫猫猫◍˃ᵕ˂◍ java 笔记 python
Java运行时常量池笔记（详细版）Java的运行时常量池（RuntimeConstantPool）是JVM方法区的一部分，用于存储编译期生成的字面量和符号引用。它是Java类文件常量池的运行时表示，具有动态性和共享性。运行时常量池的核心概念1.什么是运行时常量池？运行时常量池是JVM方法区的一部分，存储类文件中常量池的内容。它包含：字面量：如字符串、整数、浮点数等。符号引用：如类名、方法名、字段名
侯捷 C++ 课程学习笔记：C++ 面向对象开发的艺术孤寂大仙v c++c++学习笔记
在侯捷老师的C++系列课程中，《C++面向对象开发》这门课程让我对面向对象编程有了更深入的理解。面向对象编程（OOP）是现代软件开发中最重要的编程范式之一，而C++作为支持OOP的语言，提供了强大的工具和特性。侯捷老师通过系统的讲解和实战案例，帮助我掌握了如何在C++中高效地使用面向对象技术。以下是我对这门课程的学习笔记和心得体会。一、课程核心内容：C++面向对象开发的关键特性![侯捷老师的课程详
使用Python和OpenCV实现图像像素压缩与解压东方佑量子变法 python opencv 开发语言
在本文中，我们将探讨如何使用Python和OpenCV库来实现一种简单的图像像素压缩算法。我们将详细讨论代码的工作原理，并提供一个具体的示例来演示该过程。1.引言随着数字媒体的普及，图像处理成为了一个重要的领域。无论是为了减少存储空间还是加快网络传输速度，图像压缩技术都扮演着至关重要的角色。这里，我们提出了一种基于像素重复模式的简单压缩算法，它适用于具有大量连续相同像素值的图像。2.技术栈介绍2.
DeepSeek如何重塑我的编程学习：计算机新生的AI实践 EnigmaCoder DeepSeek 学习人工智能
目录前言邂逅DeepSeek：从困惑到惊喜初学编程的困境DeepSeek的优势️DeepSeek在编程学习中的运用注释算法逐步分析调试帮助跨语言迁移学习AI时代学习方法论革新知识获取方式转变新型学习能力培养反思与展望反思展望总结前言大家好！我是EnigmaCoder，本文我将介绍我的AI编程学习之旅。春节期间，DeepSeek横空出世，迅速登顶热榜。它功能强大，精准答疑、高效创作，瞬间点燃大众热情
鸢尾花分类项目 GUI 编织幻境的妖分类数据挖掘人工智能
1.机器学习的定义机器学习是一门人工智能的分支，专注于开发算法和统计模型，使计算机能够在没有明确编程的情况下从数据中自动学习和改进。通过识别数据中的模式和规律，机器学习系统可以做出预测或决策。常见的应用包括图像识别、语音识别、推荐系统等。2.为什么使用鸢尾花数据集（Irisdataset）鸢尾花数据集是一个经典的多类分类问题数据集，由英国统计学家和遗传学家RonaldFisher在1936年引入。
改进YOLO系列 | YOLOv5/v7 引入 Dynamic Snake Convolution | 动态蛇形卷积 wei子 YOLO 目标跟踪人工智能
改进YOLO系列：动态蛇形卷积（DynamicSnakeConvolution，DSC）简介YOLO系列目标检测算法以其速度和精度著称，但对于细长目标例如血管、道路等，其性能仍有提升空间。动态蛇形卷积（DSC）是YOLOv5/v7中引入的一种改进，旨在更好地处理细长目标。DSC原理DSC的核心思想是使用类似蛇形运动的卷积核来提取细长目标的特征。具体来说，DSC卷积核沿着一系列控制点移动，并根据每个
十大经典排序算法的C++实现与解析金外飞176 算法算法数据结构 c++
经典排序算法的C++实现与解析在计算机科学中，排序算法是数据处理和算法设计的基础。无论是处理大规模数据还是优化小规模数据的性能，排序算法都扮演着重要角色。本文将介绍10种经典排序算法，并提供它们的C++实现代码。这些算法包括冒泡排序、选择排序、插入排序、希尔排序、归并排序、快速排序、堆排序、计数排序、基数排序和桶排序。1.冒泡排序（BubbleSort）原理冒泡排序是最简单的排序算法之一。它通过重
毕业论文如何降低AIGC率？ kexiaoya2013 AIGC 论文笔记论文阅读
在Deepseek爆火的当下，AI生成内容已经渗透到各个领域，包括论文写作。如果你的论文使用了AI工具辅助写作，那么，如何降低AIGC率呢？一、控制使用比例将AI工具用于辅助性任务，如文献检索、语法检查、词汇替换等，而非核心内容的生成。论文的研究方法、数据分析、结论等核心部分应尽量手动完成。完全依赖AI生成论文会导致AI率过高，而将AI用于辅助性任务则能有效降低AI率。二、采用不同模型不同AI模型
《神经网络与深度学习》(邱锡鹏) 内容概要【不含数学推导】 code_stream #机器学习神经网络
第1章绪论基本概念：介绍了人工智能的发展历程及不同阶段的特点，如符号主义、连接主义、行为主义等。还阐述了深度学习在人工智能领域的重要地位和发展现状，以及其在图像、语音、自然语言处理等多个领域的成功应用。术语解释人工智能：旨在让机器模拟人类智能的技术和科学。深度学习：一种基于对数据进行表征学习的方法，通过构建具有很多层的神经网络模型，自动从大量数据中学习复杂的模式和特征。第2章机器学习概述基本概念：
BP 神经网络在考古数据分析中的应用 fanxbl957 人工智能理论与实践神经网络数据分析人工智能
BP神经网络在考古数据分析中的应用摘要：本文深入探讨了BP神经网络在考古数据分析领域的应用。首先阐述了考古数据分析的重要性以及传统分析方法的局限性。随后详细介绍了BP神经网络的结构、原理与训练算法。通过丰富的代码示例展示了如何运用BP神经网络进行考古文物的分类鉴定、年代预测以及遗址空间分布分析等任务，涵盖数据预处理、网络构建、模型训练与评估等关键环节。分析了该应用的优势与局限性，并对其在考古数据分
图像识别与应用狂踹瘸子那条好脚 python
图像识别作为人工智能领域的重要分支，近年来取得了显著进展，其中卷积神经网络（CNN）功不可没。CNN凭借其强大的特征提取能力，在图像分类、目标检测、人脸识别等任务中表现出色，成为图像识别领域的核心技术。一、卷积神经网络：图像识别的利器CNN是一种专门处理网格状数据的深度学习模型，其结构设计灵感来源于生物视觉系统。与全连接神经网络不同，CNN通过卷积层、池化层等结构，能够有效提取图像的局部特征，并逐
大模型如何改变教育？典型应用场景的探究与展望！ AGI大模型学习大模型应用人工智能 AI产品经理 llama 大模型 AI 大模型教程
目前，大模型在教育领域的应用主要体现在个性化学习助手、智能问答系统、内容生成与创作辅助、智能写作评估、跨语言学习支持、数学解题辅助等几个方面。大模型技术在教育领域凭借卓越的数据处理能力和深度学习技术，极大推动了教育质量的提升与教育公平的实现。分级分类的教育数据助力大模型发展在构建与优化大模型的过程中，教育数据能够帮助我们更精准地理解教育现象，更有质量地辅助教学。教育数据涵盖广泛，包括但不限于学生的
使用 Docker 基本命令创建并发布带有新功能的镜像到阿里云 2021级计算机网络技术2班梁嘉敏 docker 阿里云容器
1.关于Docker镜像1.基础假定您在开发一个网上商城，您使用的是一台笔记本电脑而且您的开发环境具有特定的配置。其他开发人员身处的环境配置也各有不同。您正在开发的应用依赖于您当前的配置且还要依赖于某些配置文件。此外，您的企业还拥有标准化的测试和生产环境，且具有自身的配置和一系列支持文件。您希望尽可能多在本地模拟这些环境而不产生重新创建服务器环境的开销。请问？您要如何确保应用能够在这些环境中运行和
DeepSeek原理介绍以及对网络安全行业的影响 AI拉呱 Deepseek 人工智能
大家好，我是AI拉呱，一个专注于人工智领域与网络安全方面的博主，现任资深算法研究员一职，兼职硕士研究生导师；热爱机器学习和深度学习算法应用，深耕大语言模型微调、量化、私域部署。曾获多次获得AI竞赛大奖，拥有多项发明专利和学术论文。对于AI算法有自己独特见解和经验。曾辅导十几位非计算机学生转行到算法岗位就业。关注评审分享一起学习更多知识。1.DeepSeek公司介绍1.1DeepSeek是什么：wh
【学习笔记】Elasticsearch之环境搭建聪明马的博客 elasticsearch 学习笔记 elasticsearch
Elasticsearch官网本文是自己在学习Elasticsearch的过程中，记下的觉得非常有用的笔记，希望对大家认识Elasticsearch有一点点帮助。1.什么是Elasticsearch官网上是这么介绍的：Elasticsearchisadistributeddocumentstore.Insteadofstoringinformationasrowsofcolumnardata,El
知识图谱构建概念、工具、实例调研熟悉的黑曼巴知识图谱人工智能
一、知识图谱的概念知识图谱（Knowledgegraph）知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法。知识图谱由节点和边组成。节点可以是实体，如一个人、一本书等，或是抽象的概念，如人工智能、知识图谱等。边可以是实体的属性，如姓名、书名或是实体之间的关系，如朋友、配偶。知识图谱的早期理念来自SemanticWeb（语义网络），其最初理想是把基于文本链接的万维网落转化为基于
auto-gptq安装以及不适配软硬件环境可能出现的问题及解决方式 IT修炼家大模型部署大模型 auto-gptq cuda
目录1、auto-gptq是什么？2、auto-gptq安装3、auto-gptq不正确安装可能会出现的问题（1）爆出：`CUDAextensionnotinstalled.`（2）没有报错但是推理速度超级慢1、auto-gptq是什么？Auto-GPTQ是一种专注于量化深度学习模型的工具库。它的主要目标是通过量化技术（Quantization）将大型语言模型（LLM）等深度学习模型的大小和计算复
【deepseek与chatGPT辩论】辩论题： “人工智能是否应当具备自主决策能力？” 海宁不掉头发软件工程人工智能人工智能 chatgpt deepseek
探讨辩论题这个提案涉及创建一个精确的辩论题目，旨在测试deepseek的应答能力。创建辩论题目提议设计一个辩论题目以测试deepseek的应答能力。希望这个题目具有挑战性并能够测量其回应质量。好的，来一道适合深度学习的辩论题：辩论题：“人工智能是否应当具备自主决策能力？”这个话题涉及到人工智能的发展、伦理以及未来应用，可以从以下几个方面展开辩论：支持方：认为人工智能的自主决策能力能够加速科技进步，
React学习笔记（组件通信）_千峰教育 react m0_54846402 程序员 react.js 学习笔记
reduxprinciple-+//定义一个dispatch的方法，接收到动作之后，自动调用constdispatch=(action)=>{changeState(action)renderCount(countState)}```创建createStore方法Reduxprinciple02reduxprinciple-+//定义一个方法，用于集中管理state和dispatchconstcr
拯救者机型背光键盘无法开启 famous_pengfei 计算机外设笔记本电脑
如果你是联想拯救者系列笔记本电脑的用户，想必对背光键盘这一酷炫功能十分喜爱。然而，当背光键盘突然无法开启时，这无疑会让人感到困惑和沮丧。别担心，联想官方知识库已经为你准备好了详细的解决方案。文章中提到，Windows10系统下，用户可以通过开始菜单进入LenovoSettings来开启背光键盘。这个方法简单易懂，即使是电脑小白也能轻松上手。此外，文章还提供了详细的图文说明，帮助用户更直观地理解操作
GenAI 平台，3 分钟即可构建基于 Claude、DeepSeek 的 AI Agent DO_Community 人工智能
DigitalOcean云服务在前不久发布了GenAI平台——一个让任何团队都能在几分钟内构建和部署AI代理的平台。DigitalOcean的GenAI平台持续扩展，让人工智能驱动的开发变得更加易用、灵活且强大。近日，Digitalocean宣布将Anthropic的Claude模型和DeepSeekR1引入Digitalocean的生态系统，为你提供更多构建和部署AI应用的选择。通过Anthro
智享AI直播三代系统，马斯克旗下AI人工智能直播工具,媲美DeepSeek！ V__17671155793 人工智能
智享AI直播三代系统，马斯克旗下AI人工智能直播工具,媲美DeepSeek！在科技飞速发展的当下，人工智能正以前所未有的态势重塑着各个行业的格局。直播领域，作为信息传播与商业交互的前沿阵地，也在AI技术的赋能下迎来了颠覆性的变革。其中，马斯克旗下的智享AI直播三代系统宛如一颗璀璨的新星，横空出世，以其卓越的性能和创新的理念，迅速在竞争激烈的直播市场中崭露头角，甚至被业界誉为可媲美DeepSeek的
蓝队基础：企业网络安全架构与防御策略重生之物联网转网安网络安全安全
声明学习视频来自B站up主**泷羽sec**有兴趣的师傅可以关注一下，如涉及侵权马上删除文章，笔记只是方便各位师傅的学习和探讨，此文章为对视频内容稍加整理发布，文章所提到的网站以及内容，只做学习交流，其他均与本人以及泷羽sec团队无关，切勿触碰法律底线，否则后果自负！！！！有兴趣的小伙伴可以点击下面连接进入b站主页[B站泷羽sec](https://space.bilibili.com/35032
基于python深度学习遥感影像地物分类与目标识别、分割实践技术应用 xiao5kou4chang6kai4 深度学习遥感勘测 python 深度学习分类
专题一：深度学习发展与机器学习深度学习的历史发展过程机器学习，深度学习等任务的基本处理流程梯度下降算法讲解不同初始化，学习率对梯度下降算法的实例分析从机器学习到深度学习算法专题二深度卷积网络、卷积神经网络、卷积运算的基本原理池化操作，全连接层，以及分类器的作用BP反向传播算法的理解一个简单CNN模型代码理解特征图，卷积核可视化分析专题三TensorFlow与keras介绍与入门TensorFlow
DeepSeek与ChatGPT：会取代搜索引擎和人工客服的人工智能革命云边有个稻草人热门文章 chatgpt 搜索引擎人工智能 DeepSeek
云边有个稻草人-CSDN博客在众多创新技术中，DeepSeek和ChatGPT无疑是最为引人注目的。它们通过强大的搜索和对话生成能力，能够改变我们与计算机交互的方式，帮助我们高效地获取信息，增强智能服务。本文将深入探讨这两项技术如何结合使用，为用户提供更精准、更流畅的对话和搜索体验。目录一、介绍1.1什么是DeepSeek？1.2什么是ChatGPT？1.3DeepSeek与ChatGPT的结合：
flutter pigeon gomobile 插件中使用go工具类 yujunlong3919 flutter golang swift kotlin
文章目录为什么flutter要用go写工具类1.下载pigeon插件模版2.编写go代码3.生成greeting.aar，Greeting.xcframework4.ios5.android6.dart中使用为什么flutter要用go写工具类在Flutter应用中，有些场景涉及到大量的计算，比如复杂的加密算法、数据压缩/解压缩或者图形处理中的数学计算等1.下载pigeon插件模版base_plu
Python入门笔记「已注销」计算机
文章目录第0周课程导学第1周Python基本语法元素保留字数据类型语句与函数输入函数第2周Python基本图形绘制turtle库绝对坐标海龟坐标turtle角度坐标体系RGB色彩体系画笔控制函数运动控制函数方向控制函数循环语句第3周基本数据类型整型浮点数科学计数法复数类型数值运算操作符二元操作符有对应的增强赋值操作符数值运算函数字符串类型的表示字符串切片字符串类型及操作字符串类型格式化time库时
muzero 算法原理战神哥
Muzero算法是一种通用的强化学习算法，它可以在没有预先设定策略的情况下进行学习。它通过模拟整个游戏进程来自我学习，并通过回报函数来评估每一步的决策。Muzero算法的核心部分是一个叫做模型的神经网络，它会对游戏的状态进行预测，预测未来的游戏状态。另一部分是策略网络，它会根据当前状态预测每一步的最优决策。Muzero算法通过不断地训练模型和策略网络，来提高它们的准确性，从而使得机器学到了如何玩游
LLM与知识图谱融合:智能运维知识库构建 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着信息技术的飞速发展，IT运维管理面临着越来越大的挑战。海量的设备、复杂的网络环境、日益增长的数据量，使得传统的运维方式难以满足需求。为了提高运维效率和质量，智能运维应运而生。智能运维的核心是将人工智能技术应用于运维领域，通过机器学习、深度学习等算法，实现自动化、智能化的运维管理。其中，大语言模型（LLM）和知识图谱是两个重要的技术方向。LLM能够理解和生成自然语言，可以用于构建智能
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。

LLM-2-ChatGLM2

1 训练

1.1 训练参数配置理解

1.2 多级多卡运行配置

1.3 @dataclass 装饰器

1.4 系统参数，模型参数配置，HF已经内置默认参数

1.5 单个轮次需要的步数，跟数据并行的卡NUM_GPUS、样本量、单批次batch_size有关

1.5.1 默认

1.5.2 避免额外计算，可以指配置迭代轮次，去掉步数限制，根据数据量自己决定步数

1.5.3 最新训练参数配置

1.6 Ptuning训练记录，多卡数据并行

1.6.1.1 解决方法

1.6.2 16个样本，训练集作为验证集，在56个epoch的时候，达到完全收敛

1.7 推理部署，注意超参数、模型量化选择，训练和推理，保持一致，答案才可控

1.8 mdtex2html.convert函数的理解

1.9 parse_text(text)函数的理解

Hello World

Hello World

`、``、`` 和 `

` 标签用于表示网页中的一级标题，通常用于网页的头部和主要内容的标题。在本例中，`

1.10 gradio函数的理解

输入和输出的自动映射，输入和输出都是gradio对应的对象，按钮触发函数事件，输入的按钮给到函数输入，函数输出映射到显示框

gr.state函数，保存同一个demo的状态值变量

语言模型输出的内容固定

2 Deepspeed多机多卡训练

2.1 参考

5 报错

5.1 显存不够报OOM

5.2 Deepspeed多卡训练报错exits with return code = -9

解决方案

5.3 exits with return code = -7

解决方案

你可能感兴趣的:(AIGC,人工智能,笔记,人工智能,深度学习,算法)