神洛华

Kaggle - LLM Science Exam（四）：Platypus2-70B with Wikipedia RAG

文章目录

- 一、赛事概述
- - 1.1 OpenBookQA Dataset
  - 1.2 比赛背景
  - 1.3 评估方法和代码要求
  - 1.4 比赛数据集
  - 1.5 优秀notebook
  - 1.6 RAG
- 二、Platypus2-70B with Wikipedia RAG（Version8）
- - 2.1 离线安装依赖
  - 2.2 导入库并设置常量
  - 2.3设置辅助功能
  - 2.4 SentenceTransformer Class
  - 2.5 处理测试模式的context
  - 2.6 创建从Kaggle数据集到缓存模型的符号链接
  - 2.7 自定义ShardedLlama类（语言模型）
  - 2.8 在多GPUs上运行模型
  - 2.9 版本改进
  - - 2.9.1 Version12：加入WeightsLoader
    - 2.9.2 Version14：NUM_TITLES = 3
    - 2.9.3 Version15：NUM_TITLES = 5，改进`get_tokens`函数
    - 2.9.4 Version16
    - 2.9.5 Version17：MAX_CONTEXT = 1200

Kaggle - LLM Science Exam（四）：Platypus2-70B with Wikipedia RAG_第1张图片

一、赛事概述

1.1 OpenBookQA Dataset

OpenBookQA Dataset是由美国艾伦人工智能研究院（Allen Institute for AI）发布的一个问答技术评测集，其主要目的是通过选择题考试的方式来测试和评估人工智能系统的问题回答能力，以下是更详细的介绍。

发布背景
许多之前的阅读理解数据集都是基于抽取式的方法,只需要从给定的上下文中抽取答案,而没必要进行更深层次的推理。OpenBookQA要求模型需要利用基础知识来回答问题,进行更复杂的推理。
数据集构成
OpenBookQA包含5957个四选一的科学常识问题(4,957 train, 500 dev, 500 test)。这些问题需要根据包含1326个科学事实的小“书本”来回答。问题采样自维基百科页面。
模型表现
回答OpenBookQA的问题不仅需要给定知识库中的科学常识，还需要额外的广泛常识知识。这些问题既不能通过检索算法回答正确，也不能通过词语共现算法回答正确。Strong neural baselines在OpenBookQA上只能达到约50%的准确率，与人类92%的准确率存在明显差距。
附加数据
该数据集还提供了5167个群众贡献的常识知识,以及扩展的训练集、开发集、测试集，每个问题对应其所考察的核心科学事实、人类准确率、清晰度评分等信息。
数据集意义
OpenBookQA推动了机器阅读理解从抽取式到推理式的发展，评估了模型在开放域知识下的深层理解和推理能力。

1.2 比赛背景

赛事地址：Kaggle - LLM Science Exam

LLM的能力：随着大型语言模型的能力不断扩展，研究领域中出现了使用LLMs来表征自身的趋势。因为许多现有的自然语言处理基准测试已经被最先进的模型轻松解决，所以有趣的工作是利用LLMs创建更具挑战性的任务，以测试更强大的模型。
数据生成：比赛使用了gpt3.5模型，该模型基于从维基百科中提取的各种科学主题的文本片段，要求它编写一个多项选择问题（附带已知答案），然后过滤掉简单的问题。
资源受限：本次比赛是一场代码比赛，GPU和时间都受到限制。
挑战性：虽然量化和知识蒸馏等技术可以有效地缩小语言模型以便在更少的硬件资源上运行，但这场比赛仍旧充满挑战。目前，目前在 Kaggle 上运行的最大模型有大约 100 亿个参数，而 gpt3.5 有 1750 亿个参数。如果一个问答模型能够轻松通过一个比其规模大10倍以上的模型编写的问答测试，这将是一个真正有趣的结果。另一方面，如果更大的模型能够有效地难住较小的模型，这对LLMs自我评估和测试的能力具有引人注目的影响。
竞赛旨在探讨比gpt3.5小10倍以上的问答模型能否有效回答gpt3.5编写的问题。结果将揭示LLM的基准测试和自我测试能力。

1.3 评估方法和代码要求

提交根据平均精度 @ 3 （MAP@3）进行评估：

其中，为测试集中的问题数量，() 为截断值为时的精确度，为每个问题的预测数量，() 为指示函数，如果排名为的项目是相关的（正确的）标签，则等于1，否则为0。

另外，某个问题正确预测后，后续将跳过该标签的其他预测，以防止刷准确度。举例来说，假设有一个测试集，里面有3个问题的正确答案都是A，如果有一个模型对这3个问题给出以下答案，那么以下情况都会得到平均精确度1.0的分数：

[A, B, C, D, E] # 问题1预测
[A, A, A, A, A] # 问题2预测
[A, B, A, C, A] # 问题3预测

这意味着一旦找到正确答案（A），之后的预测不再影响平均精确度分数。

本次比赛必须以notebook提交，且CPU和GPU运行时间少于9小时。禁用互联网，但是允许使用公开的外部数据，包括预先训练的模型。另外提交文件必须命名为 submission.csv。

1.4 比赛数据集

本次比赛是回答由gpt3.5模型生成的4000道多选题组成的测试集。测试集是隐藏的，当提交notebook后，才会有实际的测试数据进行评测。

train.csv ： 200个样本，问题+答案，以显示数据格式，并大致了解测试集中的问题类型。
test.csv ：测试集，只包含题目，答案省略。
sample_submission.csv ：提交格式示例

具体的训练集格式如下：

# Let's import the public training set and take a look
import pandas as pd

train_df = pd.read_csv('/kaggle/input/kaggle-llm-science-exam/train.csv')
train_df.head()

对于测试集中的每个 id 标签，您最多可以预测 3 个标签。submission.csv文件应包含header并具有以下格式：

id,prediction
0,	A B C
1,	B C A
2,	C A B
etc.

1.5 优秀notebook

《Starter Notebook: Ranked Predictions with BERT》：Bert Baseline，使用bert-base-cased和比赛提供的200个训练集样本进行训练，Public Score=0.545。
《[EDA, Data gathering] LLM-SE ~ Wiki STEM | 1k DS》（制作训练数据）：比赛提供的200个样本太少了，作者LEONID KULYK先分析了比赛数据集，然后同样使用 gpt3.5 制作了1000个Wikipedia样本，数据集上传在Wikipedia STEM 1k。
《LLM-SE ~ deberta-v3-large -i | 1k Wiki》:LEONID KULYK将自己收集的1000个Wikipedia样本和比赛训练集合并，一起训练，模型是deberta-v3-large。notebook中有最终模型权重，可直接推理，LB= 0.709。
《New dataset + DEBERTA v3 large training!》：0.723→0.759
- Radek 基于方法3，使用自己生成的500个额外数据训练DEBERTA v3 large，Public Score=0.723。
- Radek后来又生成了6000条数据，跟之前的500条融合为6.5K数据集，并在此基础上进行三次训练，得到了三个模型权重，上传在Science Exam Trained Model Weights中。然后通过下面两种方法，进行推理：
  - 《Inference using 3 trained Deberta v3 models》：三个模型分别预测之后概率取平均，Public Score=0.737。
  - An introduction to Voting Ensemble：作者在这个notebook中详细介绍了Voting Ensemble以及使用方法，Public Score=0.759。
- 作者最后上传了15k high-quality train examples。
《Open Book LLM Science Exam》：jjinho首次提出了Open Book方法，演示了如何在训练集中，使用faiss 执行相似性搜索，从作者构建的《Wikipedia Plaintext (2023-07-01)》数据集中找到与问答数据最相似的Wikipedia文档作为上下文，以增强问答效果。
《Open Book LLM Science Exam - Reduced RAM usage》：quangbk改进了方法5中的内存效率。
《OpenBook DeBERTaV3-Large Baseline (Single Model》)： Anil将方法4和方法6结合起来。他将先测试集数据按照方法6搜索出context，然后将其与prompt合并，得到新的测试集。然后加载方法4训练的模型进行推理，Public Score=0.771。
```
test_df["prompt"] = test_df["context"] + " #### " +  test_df["prompt"]
```
《Sharing my trained-with-context model》：Mgoksu同样使用了方法7，只是使用了自己制作的数据集进行离线训练，得到一个更好的模型llm-science-run-context-2，然后进行推理，top public LB=0.807。
《How To Train Open Book Model - Part 1》、《How To Train Open Book Model - Part 2》：
- CHRIS DEOTTE在part1中，参照方法8在自己制作的60k数据集进行训练，得到模型model_v2；然后在part2中使用方法8中的模型llm-science-run-context-2以及model_v2分别进行推理，得到的两个概率取平均，得到最终结果（Public Score=0.819）。
- 在part1中，作者使用了竞赛指标MAP@3 来评估模型，并讨论了一些训练技巧，例如使用 PEFT或冻结model embeddings&model layers来减少训练参数、增加 LR 并减少 epochs来减少计算量、使用gradient_checkpointing（这使用磁盘来节省RAM）、使用gradient_accumlation_steps模拟更大的批次等等。
《LLM Science Exam Optimise Ensemble Weights》：作者首先使用了方法9训练的模型权重；另外为了增加多样性，还融合了其它几个没有使用Open Book的deberta-v3-large模型，最终Public Score=0.837。作者还写了以下notebook：
- 《Incorporate MAP@k metrics into HF Trainer》：在Trainer中加入MAP@k指标
- 《Introducing Adversarial Weight Perturbation (AWP)》、《Adversarial Weight Perturbation (AWP) Inference》：介绍对抗性权重扰动AWP，以及推理方法。
- 《Using DeepSpeed with HF Trainer》，希望可以节约内存，以便训练更大的模型。
《LLM-SciEx Optimise Ensemble Weights(better models)》：类似方法10，通过模型融合，Public Score=0.846。
《with only 270K articles》：作者自己制作了270K Wikipedia数据集（后续比赛基本都使用这个更好的数据集做RAG，效果提升很大），使用TF-IDF进行相似文本检索，推理使用LongFormer 模型而不是deberta-v3-large，Public Score=0.862。
《Platypus2-70B with Wikipedia RAG》：使用Platypus2-70B进行推理，一共18个版本，Public Score从0.832到0.909。
- Version 1：参考方法7，使用《Wikipedia Plaintext (2023-07-01)》数据集来做RAG，LB=0.8369，LC=0.8326。
- Version 2： LB=0.3752，LC=0.3569
- Version 8：参考方法12，使用《270K Wikipedia STEM articles》数据集来做RAG，但使用faiss来做相似度检索。LB=0.8728，LC=0.8867。ALI在《Explained Platypus2-70B + Wikipedia RAG》中对这个版本的代码做了详细的注解。
- Version 12：加入了Weight-loader，LB=0.8335，LC=0.8512。《Patypus2-70b | Wiki retrieval + Weight-loader》也使用了类似方法，提交耗时16到20小时。
- Version 14：NUM_TITLES从5改为3，LB=0.8639，LC=0.8786
- Version 15：NUM_TITLES 改回5，改进get_tokens函数，LB=0.8726，LC=0.8880
- Version 16：LB=0.9057，LC=0.9124。作者在《Platypus2-70B without Wikipedia RAG》中试验了没有RAG，得分LB=0.8532，LC=0.8587。
- Version 17：MAX_CONTEXT从800改为1200，LB=0.9093，LC=0.9140
《Fork of Fork of [86.2] with only 270K articles!》在方法12的基础上改进了预处理函数，并使用方法8 的模型，Public Score=0.905
《RAPIDS TF-IDF - [LB 0.904] - Single Model》：在方法12的基础上，使用RAPIDS TF-IDF加速检索过程，使用双GPU（2xT4 GPU）和双线程来加速推理过程，并微调了部分参数（prepare_answering_input2），最终LB=0.904。作者说自己参照方法11，融合了另外6个模型，最终得分0.916，代码未公开。

1.6 RAG

Retrieval Augmented Generation（RAG，检索增强生成）是一种大型语言模型技术，通过检索知识库来提取任务相关的上下文，以提高LLM生成的文本的质量和相关性，在对话系统、问答系统等领域有很大应用前景。整个pipeline.可以表示为：

为知识库构建索引
- 获取知识源（knowledge base），使用一个加载器（loader）将其转化为单独的文档（Document）
- 使用分割器（splitters ）将其分成易于处理的小块或片段（document snippets）。
- 将这些片段传递给嵌入式机器（embedding machine），将其转化为可用于语义搜索的向量。
- 将这些片段的embedding保存在我们的矢量数据库中（vector database），同时保留它们的文本片段。
检索
将问题/任务输入相同的嵌入式机器得到其嵌入表示，并传递到我们的矢量数据库。然后通过检索得到最匹配的片段，这些片段就是问题最相关的上下文（context），可用于增强LLM生成的回答或响应。
加强型的答案生成（augmented answer generation）.。
将获取的相关知识片段，与自定义系统提示和问题进行合并，然后一起格式化，并最终得到基于相关上下文的问题答案。

RAG中常用的文本检索方法有faiss、TF-IDF、bm25等。有关此部分详细内容请参考我上一篇帖子《Kaggle - LLM Science Exam(二）：Open Book QA&debertav3-large详解》

二、Platypus2-70B with Wikipedia RAG（Version8）

参考《Platypus2-70B with Wikipedia RAG（Version8）》

2.1 离线安装依赖

在此单元中，您将从本地文件安装两个特定的 Python 包。

!pip install 命令用于安装Python包。
-U 标志用于升级软件包（如果已安装）。
--no-deps 标志用于跳过安装依赖项，因为您是从本地文件安装。
.whl 文件的路径在 --no-deps 之后提供，以指定包的位置。

!pip install -U --no-deps /kaggle/input/faiss-gpu-173-python310/faiss_gpu-1.7.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
!pip install -U --no-deps /kaggle/input/datasets-214/datasets-2.14.5-py3-none-any.whl

2.2 导入库并设置常量

import gc
import logging
from time import time
from pathlib import Path
from concurrent.futures import ThreadPoolExecutor
import ctypes
from functools import partial

import torch
import numpy as np
import pandas as pd
from tqdm.auto import tqdm

# For RAG
import faiss
import torch.nn.functional as F
from torch.utils.data import DataLoader
from datasets import load_from_disk, Dataset

NUM_TITLES = 5
MAX_SEQ_LEN = 512
MODEL_PATH = "/kaggle/input/bge-small-faiss/"

# For LLM
from transformers import AutoConfig, AutoModelForCausalLM, AutoTokenizer, AutoModel
from accelerate import init_empty_weights
from accelerate.utils.modeling import set_module_tensor_to_device
from safetensors.torch import load_file

# With NUM_TITLES = 5, the median lenght of a context if 1100 tokens (Q1: 900, Q3: 1400)
N_BATCHES = 5 
MAX_CONTEXT = 1200
MAX_LENGTH = 4096

2.3设置辅助功能

此单元定义了一个函数 clean_memory() ，用于垃圾收集、清理内存和显存
IS_TEST_SET 变量控制笔记本是在完整数据集还是较小的子集上运行（for test），主要作用是save version的时候，不用跑全部代码，花费太多时间
可以取消注释代码块以加载训练集并相应地调整 IS_TEST_SET 和 N_BATCHES

# Function to clean RAM & vRAM
def clean_memory():
    gc.collect()
    ctypes.CDLL("libc.so.6").malloc_trim(0)
    torch.cuda.empty_cache()

# 加载测试集
df = pd.read_csv("/kaggle/input/kaggle-llm-science-exam/test.csv", index_col="id")

# 调试时测试集只有200个样本，IS_TEST_SET为False，提交比赛时才为True
IS_TEST_SET = len(df) != 200

# 取消注释以查看在训练集上的结果。
# df = pd.read_csv("/kaggle/input/kaggle-llm-science-exam/train.csv", index_col="id")
# IS_TEST_SET = True
# N_BATCHES = 1

2.4 SentenceTransformer Class

下面设置一个自定义的 SentenceTransformer 类，用于将句子编码为embeddings。

__init__ 方法：根据指定的checkpoint加载预训练的模型和分词器。
transform 方法：使用分词器对句子进行分词和预处理。
get_dataloader 方法：将句子列表装入 DataLoader。
encode 方法：将句子编码为embeddings。

class SentenceTransformer:
    def __init__(self, checkpoint, device="cuda:0"):
        self.device = device
        self.checkpoint = checkpoint
        self.model = AutoModel.from_pretrained(checkpoint).to(self.device).half()
        self.tokenizer = AutoTokenizer.from_pretrained(checkpoint)

    def transform(self, batch):
        tokens = self.tokenizer(batch["text"], truncation=True, padding=True, return_tensors="pt", max_length=MAX_SEQ_LEN)
        return tokens.to(self.device)  

    def get_dataloader(self, sentences, batch_size=32):
   		 # 为每个句子添加特定前缀：“为此句搜索相关段落”
        sentences = ["Represent this sentence for searching relevant passages: " + x for x in sentences]
        # 使用datasets模块创建数据集，包含"text"字段
        dataset = Dataset.from_dict({"text": sentences})
        dataset.set_transform(self.transform)
        dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=False)
        return dataloader

	# 对输入的句子进行编码，生成文本嵌入
    def encode(self, sentences, show_progress_bar=False, batch_size=32):    	
        dataloader = self.get_dataloader(sentences, batch_size=batch_size)
        pbar = tqdm(dataloader) if show_progress_bar else dataloader		# 显示进度条

        embeddings = []
        for batch in pbar:												    # 遍历每个批次
            with torch.no_grad():
                e = self.model(**batch).pooler_output
                e = F.normalize(e, p=2, dim=1)
                embeddings.append(e.detach().cpu().numpy())				    # 将 e 转换为NumPy数组，并将其从GPU移到CPU上，以便后续处理。
        embeddings = np.concatenate(embeddings, axis=0)
        return embeddings

np.concatenate(embeddings, axis=0)：在处理完所有批次后，将 embeddings 列表中的嵌入连接在一起，得到一个大的嵌入数组。
F.normalize 是PyTorch中的函数，用于将向量标准化，这有助于确保嵌入在计算相似度或进行其他文本处理任务时具有一致的尺度。
- p：指定归一化的范数，p=2 表示使用L2范数，也就是欧几里德范数，计算向量的模。对于文本嵌入，这通常是一种常见的归一化方式，用于将向量的模（长度）归一化为1。
- dim：执行归一化的维度。dim=1 表示在第1维度（通常是对应于向量中的元素）上执行归一化，即对每个向量进行归一化。

假设有一个二维张量 tensor，其中包含两个向量，然后使用L2范数对每个向量执行归一化：

tensor = torch.tensor([[1.0, 2.0], [3.0, 4.0]])
F.normalize(tensor, p=2, dim=1)

# 0.4472^2+0.8944^2=1,0.6^2+0.8^2=1
tensor([[0.4472, 0.8944],
        [0.6, 0.8]])

对结果进行归一化的主要目的是确保嵌入向量具有一致的尺度，从而使它们在计算相似性或进行其他文本处理任务时更具可比性。比如余弦相似度度量了两个向量之间的夹角，而不受它们的模长影响。归一化嵌入使余弦相似度的值范围在-1到1之间，更容易理解。

2.5 处理测试模式的context

如果 IS_TEST_SET = True ，则此单元处理并提取测试集的上下文。

加载上面自定义的SentenceTransformer模型，并初始化一个计时器start
使用 lambda 函数将prompts 与 answer合并，得到用于嵌入的 inputs。
载入 Faiss 索引以执行文本匹配的高效最近邻搜索。
使用 Faiss 进行文本搜索，以查找与提示嵌入最接近的句子。
从预加载的数据集中提取上下文，然后更新 df 中的每个条目以包含提取的上下文。
释放内存，包括重置 Faiss 索引、删除变量和运行 clean_memory() 函数。
打印整个过程的经过时间。

if IS_TEST_SET:
    # 加载嵌入模型
    start = time()
    print(f"开始处理提示嵌入，耗时：{time() - start :.1f}秒")
    model = SentenceTransformer(MODEL_PATH, device="cuda:0")

    # 获取 prompts embeddings
    f = lambda row : " ".join([row["prompt"], row["A"], row["B"], row["C"], row["D"], row["E"]])
    inputs = df.apply(f, axis=1).values 		# 比仅使用提示得到更好的结果
    prompt_embeddings = model.encode(inputs, show_progress_bar=False)

    # 在维基百科索引中搜索最接近的句子
    print(f"加载 faiss index，耗时：{time() - start :.1f}秒")
    faiss_index = faiss.read_index(MODEL_PATH + '/faiss.index')

    print(f"开始文本搜索，耗时：{time() - start :.1f}秒")
    search_index = faiss_index.search(np.float32(prompt_embeddings), NUM_TITLES)[1]

    print(f"开始上下文提取，耗时：{time() - start :.1f}秒")
    dataset = load_from_disk("/kaggle/input/all-paraphs-parsed-expanded")
    for i in range(len(df)):
        df.loc[i, "context"] = "-" + "\n-".join([dataset[int(j)]["text"] for j in search_index[i]])

    # 释放内存
    faiss_index.reset()
    del faiss_index, prompt_embeddings, model, dataset
    clean_memory()
    print(f"context已添加，耗时：{time() - start :.1f}秒")

faiss_index.search(np.float32(prompt_embeddings), NUM_TITLES) ：使用 faiss_index 来检索出与prompt_embeddings最相似的NUM_TITLES个向量。它返回一个包含两个元素的元组（search_score, search_index），所以 [1] 返回相似向量索引。
df.loc[i, "context"] = ...：根据上一步的search_index提取出相似文档，并使用换行符和破折号分隔它们，然后将整个文本添加到数据框 df 的 “context” 列中。

2.6 创建从Kaggle数据集到缓存模型的符号链接

# 创建符号链接从Kaggle数据集到虚拟的缓存模型

# 定义缓存模型的路径
checkpoint_path = Path("/root/.cache/")
checkpoint_path.mkdir(exist_ok=True, parents=True)  # 如果目录不存在，就创建它

# 循环处理两个part，source_dir是包含数据集文件的目录。
for part in [1, 2]:
    # 定义数据集文件所在的源目录
    source_dir = Path(f"/kaggle/input/platypus2-70b-instruct-part{part}")
    
    # 遍历源目录中的所有文件
    for path in source_dir.glob("*"):
        try:
            # 在 checkpoint_path 目录中创建一个同名的符号链接，指向 source_dir 中的原始文件。
            (checkpoint_path / path.name).symlink_to(path)
        except:
            pass

上述代码将模型文件创建为符号链接，以便它们可以被模拟的缓存模型目录访问。如果符号链接创建失败，任何异常都会被捕获并忽略。这通常用于设置数据集文件的快速访问，以减少重复下载数据的需求。

2.7 自定义ShardedLlama类（语言模型）

自定义ShardedLlama 类，将LLM模型分成几层，并且每层都按顺序加载以优化内存使用。 __call__ 方法获取一批输入并通过模型对其进行处理，提供结果以供进一步分析。

# 创建 Sharded llama 类
class ShardedLlama:
    def __init__(self, checkpoint_path, device="cuda:0", dtype=torch.float16):
        """
        创建 ShardedLlama 类的实例，该类是 LlamaForCausalLM 的Sharded 版本：模型被分成layer shards以减少 GPU 内存使用。
        在前向传播过程中，输入逐层处理，每层后都释放 GPU 内存。
        为了避免多次加载层，可以将所有中间激活保存在 RAM 中，但是由于 Kaggle 加速器的 GPU 内存比 CPU 多，我们只需将输入分批次处理并保留在 GPU 上。

        参数
        ----------
        checkpoint_path : str 或 Path
            检查点路径
        device : str, 可选
            设备，默认为 "cuda:0"
        dtype : torch.dtype, 可选
            数据类型，默认为 torch.float16
        """
        
        # 保存参数
        self.checkpoint_path = Path(checkpoint_path)
        self.device = device 
        self.dtype = dtype

        # 创建模型
        self.config = AutoConfig.from_pretrained(self.checkpoint_path)	# 从指定的检查点路径加载配置
        # 对于Turing architecture支持的flash attention：https://github.com/Dao-AILab/flash-attention/issues/542
        # self.config.auto_map = {"AutoModelForCausalLM" : "togethercomputer/LLaMA-2-7B-32K--modeling_flash_llama.LlamaForCausalLM"} 
        
        self.tokenizer = AutoTokenizer.from_pretrained(checkpoint_path) # 从指定的检查点路径加载分词器
        self.tokenizer.pad_token = self.tokenizer.eos_token
        self.tokenizer.padding_side = "right"
        self.init_model()
        self.layer_names = ["model.embed_tokens"] + [f"model.layers.{i}" for i in range(len(self.model.model.layers))] + ["model.norm", "lm_head"]

    def init_model(self):
    
        # 加载元模型（不使用内存）
        with init_empty_weights():
            self.model = AutoModelForCausalLM.from_config(self.config, trust_remote_code=True)
            # 绑定模型不同部分的权重，以确保它们共享相同的权重矩阵，这可以节省内存，提高模型的效率。
            self.model.tie_weights() 
         # 将model.layers存储在self.layers中
        self.layers = [self.model.model.embed_tokens] + list(self.model.model.layers) + [self.model.model.norm, self.model.lm_head]
            
        # 将缓冲区移动到 device（GPU 内存使用不多）
        for buffer_name, buffer in self.model.named_buffers():
            set_module_tensor_to_device(self.model, buffer_name, self.device, value=buffer, dtype=self.dtype)
            
	# 定义加载模型特定层的方法
    def load_layer(self, layer_name):
    	# 根据 layer_name 和device从文件中加载模型状态字典（state_dict ）
        state_dict = load_file(self.checkpoint_path / (layer_name + ".safetensors"), device=self.device)
        # 迭代状态字典中的参数并将它们移动到指定的设备
        for param_name, param in state_dict.items():
            assert param.dtype != torch.int8, "int8 不受支持（需要添加 fp16_statistics）"
            set_module_tensor_to_device(self.model, param_name, self.device, value=param, dtype=self.dtype)

    def __call__(self, inputs, output_token):
        # inputs = [(prefix, suffix), ...]，其中 prefix.shape[0] = 1，suffix.shape[0] = 5
        
        # 重新初始化模型，确保缓冲区已加载并内存已清空
        del self.model
        clean_memory()
        self.init_model()
        
       # 将批次发送到设备
        batch = [(prefix.to(self.device), suffix.to(self.device)) for prefix, suffix in inputs]
        n_suffixes = len(batch[0][1])
        suffix_eos = [(suffix != self.tokenizer.pad_token_id).sum(1) - 1 for _, suffix in inputs]

        # 为largest input创建注意力掩码，以及用于 KV 缓存的位置 ID
        attention_mask = torch.finfo(self.dtype).min * torch.ones(MAX_LENGTH, MAX_LENGTH)
        attention_mask = attention_mask.triu(diagonal=1)[None, None, ...]
        attention_mask = attention_mask.to(self.device)
        position_ids = torch.arange(MAX_LENGTH, dtype=torch.long, device=self.device)[None, :]
        
		#使用 ThreadPoolExecutor 并行加载模型层
        with ThreadPoolExecutor() as executor, torch.inference_mode():

            # 加载第一层
            #future = executor.submit(self.load_layer, "model.embed_tokens")
            self.load_layer("model.embed_tokens")

            for i, (layer_name, layer) in tqdm(enumerate(zip(self.layer_names, self.layers)), desc=self.device, total=len(self.layers)):

                # 等待前一层加载完成并加载下一层
                #future.result()
                if (i + 1) < len(self.layer_names):
                    #future = executor.submit(self.load_layer, self.layer_names[i + 1])
                    self.load_layer(self.layer_names[i + 1])

                # 运行层
                for j, (prefix, suffix) in enumerate(batch):
                    if layer_name == "model.embed_tokens":
                        batch[j] = (layer(prefix), layer(suffix))
                    elif layer_name == "model.norm":
                        # 此时只保留最后一个标记
                        batch[j] = (None, layer(suffix[torch.arange(n_suffixes), suffix_eos[j]][:, None]))
                    elif layer_name == "lm_head":
                        batch[j] = layer(suffix)[:, 0, output_token].detach().cpu().numpy()
                    else:
                        # 运行前缀
                        len_p, len_s = prefix.shape[1], suffix.shape[1]
                        new_prefix, (k_cache, v_cache) = layer(prefix, use_cache=True, attention_mask=attention_mask[:, :, -len_p:, -len_p:])
                        
                        # 运行后缀
                        pos = position_ids[:, len_p:len_p + len_s].repeat(n_suffixes, 1)
                        attn = attention_mask[:, :, -len_s:, -len_p - len_s:].repeat(n_suffixes, 1, 1, 1)
                        kv_cache = (k_cache.repeat(n_suffixes, 1, 1, 1), v_cache.repeat(n_suffixes, 1, 1, 1))
                        new_suffix = layer(suffix, past_key_value=kv_cache, position_ids=pos, attention_mask=attn)[0]
                        batch[j] = (new_prefix, new_suffix)

                # 从内存中删除前一层（包括缓冲区）
                layer.to("meta")
                clean_memory() # 由 CPMP 提出的建议

        # 获取分数
        return batch

__call__方法：
- 重新启动模型以确保加载缓冲区且memory is clean。
- 输入批次被发送到指定设备。
- n_suffixes 是批次中后缀的数量， suffix_eos 计算每个后缀中序列结束标记的位置
- 对于每一层，加载当前层并等待上一层加载。
- 对于批次中的每个输入：
  - 如果是model.embed_tokens层，则前缀和后缀将通过该层传递。
  - 如果是model.norm层，则仅保留每个后缀中的最后一个标记。
  - 如果它是lm_head层，则会针对指定的输出标记进行预测。
  - 对于其他层，前缀和后缀都被处理，并存储中间结果。
- 处理完每一层后，前一层将从内存中删除。

2.8 在多GPUs上运行模型

定义 get_tokens 函数

# Define a function to get tokens for the model input
def get_tokens(row, tokenizer):
    system_prefix = "Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Input:\n{input_prefix}"
    instruction = "Your task is to analyze the question and answer below. If the answer is correct, respond yes, if it is not correct respond no. As a potential aid to your answer, background context from Wikipedia articles is at your disposal, even if they might not always be relevant."
    input_prefix = f"Context: {row['context'][:MAX_CONTEXT]}\nQuestion: {row['prompt']}\nProposed answer: "
    prompt_prefix = system_prefix.format(instruction=instruction, input_prefix=input_prefix)
    prefix = tokenizer(prompt_prefix, return_tensors="pt", return_attention_mask=False, truncation=True, max_length=MAX_LENGTH)["input_ids"]
    prompt_suffix = [f"{row[letter]}\n\n### Response:\n" for letter in "ABCDE"]
    suffix = tokenizer(prompt_suffix, return_tensors="pt", return_attention_mask=False, truncation=True, max_length=MAX_LENGTH, padding=True)["input_ids"][:, 1:]
    return prefix, suffix

system_prefix ：system前缀模板，该前缀是一个文本块，描述了任务和输入背景。
instruction ：包含任务说明的字符串。
input_prefix ：由输入数据的context和prompt信息组成。
prompt_prefix ：使用 system_prefix 模板，将 instruction 和 input_prefix 结合在一起。
prefix ：使用 tokenizer 对 prompt_prefix 进行标记化处理（转换为 PyTorch 张量），获取其中的"input_ids"字段。
prompt_suffix ：为每个答案选项 A、B、C、D 和 E 生成的字符串列表。
suffix ：对prompt_suffix进行标记化处理

# Define a function to run the model on a device
def run_model(device, df):
    model = ShardedLlama(checkpoint_path, device=f"cuda:{device}")
    f = partial(get_tokens, tokenizer=model.tokenizer)
    inputs = df.apply(f, axis=1).values
    batches = np.array_split(inputs, N_BATCHES)
    outputs = []
    for i, batch in enumerate(batches):
        # Token #4874 is yes.
        outputs += model(batch, output_token=4874)
    return outputs

利用 get_tokens 函数和模型的分词器，创建了一个偏函数 f。这个偏函数将用于处理输入数据。
模型的输入数据是通过将 f 函数应用于 DataFrame df 的每一行而生成的。
利用 np.array_split，将输入数据分成批次。
该函数初始化了一个名为 outputs 的空列表，用于收集模型的输出结果。
然后，它遍历各个批次，对每个批次运行模型，并将结果附加到 outputs 列表中。

# Run model
if IS_TEST_SET: 
    with ThreadPoolExecutor() as executor:
        outputs = list(executor.map(run_model, [0, 1], np.array_split(df, 2)))
        outputs = sum(outputs, [])
        
    # Save results
    n = len(df)
    for i, scores in enumerate(outputs):
        top3 = np.argsort(scores)[::-1]
        df.loc[i, "prediction"] = " ".join(["ABCDE"[j] for j in top3])
    
    # Display performances if train set is used (in this case use IS_TEST_SET=True !)
    if "answer" in df.columns:
        for i in range(n):
            df.loc[i, "top_1"] = df.loc[i, "prediction"][0]
            df.loc[i, "top_2"] = df.loc[i, "prediction"][2]
            df.loc[i, "top_3"] = df.loc[i, "prediction"][4]

        top_i = [(df[f"top_{i}"] == df["answer"]).sum() for i in [1, 2, 3]]
        print(f"top1 : {top_i[0]}/{n}, top2 : {top_i[1]}/{n}, top3 : {top_i[2]}/{n} (total={sum(top_i)} / {n})")
        print(f"Accuracy: {100*top_i[0]/n:.1f}%, map3: {100*(top_i[0] + top_i[1]*1/2 + top_i[2]*1/3).sum()/n:.1f}%")
else:
    df["prediction"] = "A B C"

df[["prediction"]].to_csv("submission.csv")

代码的这一部分根据 IS_TEST_SET 的值进行条件处理。如果它为 True，则在测试集上运行模型。
使用 ThreadPoolExecutor 来同时在两个GPU上运行 run_model 函数。
从模型中收集输出并将其合并成一个单一的列表。
结果被保存回 DataFrame df，对于每一行，确定并存储前三个预测结果。
如果DataFrame包含一个 “answer” 列，将计算和打印性能指标，如准确度和平均平均精度（map3）。
如果 IS_TEST_SET 为 False，则会为DataFrame中的每一行分配默认预测 “A B C”。
最后，DataFrame 的 “prediction” 列被保存到名为 “submission.csv” 的CSV文件中。

2.9 版本改进

参考《Platypus2-70B without Wikipedia RAG》（version12）

2.9.1 Version12：加入WeightsLoader

以下是相对于Version8的区别：

!pip install -U --no-deps /kaggle/input/optimum-113/optimum-1.13.2-py3-none-any.whl

from threading import Condition # 在WeightsLoader中用到
from optimum.bettertransformer import BetterTransformer
N_BATCHES = 5
MAX_LENGTH = 4096
MAX_CONTEXT = 1400   # 之前是2750
# MAX_CONTEXT now in tokens instead of characters (1 token ~ 4.3 characters)
# With NUM_TITLES = 5, the median lenght of a context if 1100 tokens (Q1: 900, Q3: 1400)

class WeightsLoader:
    """
    Thread-safe class to load the weights of the model.
    The weights are loaded in the background and can be accessed with get_state_dict().
    All devices must call set_state_dict() before the weights are loaded.
    """
    
    def __init__(self, checkpoint_path, devices):
        self.checkpoint_path = Path(checkpoint_path)
        self.states = {device: None for device in devices}
        self.state_dict = None
        self.condition = Condition()
        
    def get_state_dict(self, device):
        with self.condition:
            while self.states[device] is not None:
                self.condition.wait()
            
            result = self.state_dict
            self.states[device] = None
            
            if not any(self.states.values()):
                self.condition.notify_all()

        return result

    def set_state_dict(self, layer_name, device):
        with self.condition:
            self.states[device] = layer_name
            if all(self.states.values()):
                assert len(set(self.states.values())) == 1, "All devices should load the same layer"
                self.state_dict = load_file(self.checkpoint_path / (layer_name + ".safetensors"), device="cpu")
                for d in self.states:
                    self.states[d] = None
                self.condition.notify_all()

因为加入WeightsLoader，整个ShardedLlama也对应的做调整，这里就不列出所有代码了。

def init_model(self):
	...
	self.model = BetterTransformer.transform(self.model) # enable flash attention

get_tokens函数做了一些改动：

def get_tokens(row, tokenizer): 
        system_prefix = "Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Input:\nContext:\n{context}"
        instruction = "Your task is to analyze the question and answer below. If the answer is correct, respond yes, if it is not correct respond no. As a potential aid to your answer, background context from Wikipedia articles is at your disposal, even if they might not always be relevant."
        prompt_context = system_prefix.format(instruction=instruction, context=row["context"])
        context = tokenizer(prompt_context, return_tensors="pt", return_attention_mask=False, truncation=True, max_length=MAX_LENGTH)["input_ids"]
        prompt_question = f"\nQuestion: {row['prompt']}\nProposed answer: "
        question = tokenizer(prompt_question, return_tensors="pt", return_attention_mask=False, truncation=True, max_length=MAX_LENGTH)["input_ids"][:, 1:]
        prompt_suffix = [f"{row[letter]}\n\n### Response:\n" for letter in "ABCDE"]
        suffix = tokenizer(prompt_suffix, return_tensors="pt", return_attention_mask=False, truncation=True, max_length=MAX_LENGTH, padding=True)["input_ids"][:, 1:]
        context = context[:, :MAX_LENGTH - question.shape[1] - suffix.shape[1]]
        prefix = torch.cat([context, question], dim=1)[:, :MAX_CONTEXT]
        return prefix, suffix

另外因为加入WeightsLoader，run_model函数和with ThreadPoolExecutor() as executor:前都加了一段。

2.9.2 Version14：NUM_TITLES = 3

NUM_TITLES = 5改为NUM_TITLES = 3，其它不变
得分LB=0.8335,LC=0.8512→LB=0.8639,LC=0.8786

2.9.3 Version15：NUM_TITLES = 5，改进`get_tokens`函数

NUM_TITLES = 3又改为NUM_TITLES = 5
get_tokens更改
得分LB=0.8639,LC=0.8786→LB=0.8726,LC=0.8880

def get_tokens(row, tokenizer): 
        system_prefix = "Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.\n\n### Instruction:\n{instruction}\n\n### Input:\nContext:\n{context}"
        instruction = "Your task is to analyze the question and answer below. If the answer is correct, respond yes, if it is not correct respond no. As a potential aid to your answer, background context from Wikipedia articles is at your disposal, even if they might not always be relevant."

        # max length : MAX_LENGTH
        prompt_suffix = [f"{row[letter]}\n\n### Response:\n" for letter in "ABCDE"]
        suffix = tokenizer(prompt_suffix, return_tensors="pt", return_attention_mask=False, truncation=True, max_length=MAX_LENGTH, padding=True)["input_ids"][:, 1:]

        # max length : max(0, MAX_LENGTH - len(suffix))
        prompt_question = f"\nQuestion: {row['prompt']}\nProposed answer: "
        question = tokenizer(prompt_question, return_tensors="pt", return_attention_mask=False, truncation=True, max_length=max(0, MAX_LENGTH - suffix.shape[1]))["input_ids"][:, 1:]

        # max length : min(MAX_CONTEXT, max(0, MAX_LENGTH - len(suffix) - len(question)))
        prompt_context = system_prefix.format(instruction=instruction, context=row["context"])
        max_length = min(MAX_CONTEXT, max(0, MAX_LENGTH - question.shape[1] - suffix.shape[1]))
        context = tokenizer(prompt_context, return_tensors="pt", return_attention_mask=False, truncation=True, max_length=max_length)["input_ids"]

        prefix = torch.cat([context, question], dim=1)
        return prefix, suffix

2.9.4 Version16

安装transformers-4.32.1

!pip install -U --no-deps /kaggle/input/transformers-432/transformers-4.32.1-py3-none-any.whl

MAX_CONTEXT = 800（之前是1400）
模型分成三部分

checkpoint_path = Path("/root/.cache/")
checkpoint_path.mkdir(exist_ok=True, parents=True)

# 之前是for part in [1, 2]:
for part in [1, 2, 3]:
    source_dir = Path(f'/kaggle/input/platypus2-chuhac2-part{part}')
    for path in source_dir.glob("*"):
        (checkpoint_path / path.name).symlink_to(path)

ShardedLlama改进：
得分LB=0.8726,LC=0.8880→LB=0.9057，LC=0.9124

2.9.5 Version17：MAX_CONTEXT = 1200

MAX_CONTEXT = 800→MAX_CONTEXT = 1200
LB=0.9057，LC=0.9124→LB=0.9093，LC=0.9140

你可能感兴趣的:(LLMs,NLP,1024程序员节,LLM,NLP)

[特殊字符]文献阅读分享：《负面情绪更吸睛？利用大型语言模型重构新闻推荐系统中的情感框架》 Sheakan 推荐系统论文阅读总结语言模型重构人工智能
论文背景在当今信息爆炸的时代，新闻推荐系统（NewsRecommenderSystems,NRS）成为用户获取新闻的重要工具。然而，新闻内容的呈现方式（即新闻框架）对用户的参与度和付费意愿有着深远的影响。随着人工智能技术的发展，大型语言模型（LLMs）逐渐被引入新闻生产过程，为新闻框架的重构提供了新的可能性。本文通过实验研究，探讨了基于LLM的情感框架重构对用户情感、参与度和付费意愿的影响。相关工
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法） FF-Studio DeepSeek R1 算法语言模型人工智能自然语言处理机器学习
——关于使用Unsloth库、LoRa微调及GRPOTrainer自定义奖励函数实现“只输出10个英语单词”的探索为什么要进行“只输出10个英文单词”的极端尝试？在大模型的训练或微调当中，大多数场景我们都希望它能“自由发挥”，给出越丰富越好的答案。但，为了更好的理解强化学习在LLM训练过程中发挥的意义，也为了学习GPRO这个强化学习算法，笔者出此题目，方便大家学习理解。GRPO（GroupRela
github最强Chatbox AI 模型桌面，支持 ChatGPT、Claude等主流模型，适用于 Win、Linux等，总结文档图片并互动，智能编程，AI实时联网搜索与查询，图片生成，科研写作等 struggle2025 人工智能深度学习语音识别计算机视觉语言模型图像处理数据分析
一、软件介绍（文末提供下载）Chatbox是一个AI模型桌面客户端，支持ChatGPT、Claude、GoogleGemini、Ollama等主流模型，适用于Windows、Mac、Linux、Web、Android和iOS全平台。github地址：GitHub-Bin-Huang/chatbox:User-friendlyDesktopClientAppforAIModels/LLMs(GPT,
vLLM源码之分离式架构 Bj陈默架构
一、vLLM分离式架构概述1.基本概念vLLM是一个用于高效地服务大语言模型（LLM）推理的库。其分离式架构是一种创新的设计理念，旨在优化LLM的运行效率。这种架构将模型执行的不同阶段进行分离处理，主要包括请求处理、模型执行和结果输出等关键环节。2.设计目的提升吞吐量。通过分离式架构，可以并行处理多个请求，避免不同请求在处理过程中的相互干扰，充分利用硬件资源，特别是在处理高并发请求时能显著提高系统
OpenAI 函数调用功能入门 AI火箭 chatgpt openai
Javascript版Langchain入门作者：AI小火箭的HB我是AI小火箭的HB，我探索和写作人工智能和语言交叉点的所有事物，范围从LLM，聊天机器人，语音机器人，开发框架，以数据为中心的潜在空间等。介绍LangChain是一个开源Python库，用于构建由大型语言模型（LLM）支持的应用程序。它提供了一个框架，将LLM与其他数据源（如互联网或个人文件）连接起来，允许开发人员将多个命令链接在
DeepSeek：LLM在MoE训练中的无损平衡大模型任我行大模型-模型训练人工智能自然语言处理语言模型论文笔记
标题：AUXILIARY-LOSS-FREELOADBALANCINGSTRAT-EGYFORMIXTURE-OF-EXPERTS来源：arXiv,2408.15664摘要对于混合专家（MoE）模型，不平衡的专家负载将导致路由崩溃或计算开销增加。现有方法通常采用辅助损耗来促进负载平衡，但较大的辅助损耗会在训练中引入不可忽略的干扰梯度，从而损害模型性能。为了在训练过程中控制负载平衡，同时不产生不希望
词表设计：特殊Token区域与共享去区域的深入探讨东方佑开发语言
在自然语言处理（NLP）中，Tokenizer的设计对于模型性能有着至关重要的影响。Tokenizer不仅决定了文本如何被分割成更小的单位（即token），还决定了这些token如何被映射到模型可以理解的形式。本文将详细探讨一种特殊的Tokenizer设计方法——特殊Token区域与共享去区域的设计理念，并介绍其应用场景和实现方式。特殊Token区域概述特殊Token区域通常包括一些特定的标识符，
Deepseek技术浅析（一）爱研究的小牛 AIGC—概述大模型 AIGC 人工智能深度学习自然语言处理
DeepSeek是北京深度求索人工智能基础技术研究有限公司推出的人工智能技术品牌，专注于大语言模型（LLM）的研发与应用。其技术涵盖了从模型架构、训练方法到应用部署的多个层面，展现出强大的创新能力和应用潜力。以下将详细介绍DeepSeek的核心技术、工作原理以及具体实现方式。一、核心技术1.大语言模型（LLM）DeepSeek的核心产品是自研的大语言模型，其主要特点包括：(1)基于Transfor
Synthesia技术浅析（四）：自然语言处理爱研究的小牛 AIGC—视频 AIGC—虚拟现实 AIGC—自然语言处理自然语言处理人工智能 AIGC
Synthesia的自然语言处理（NLP）模块是其核心技术之一，涵盖了文本转语音（TTS）、情感分析以及多语言支持等多个方面。一、文本转语音（TTS）1.关键组件Synthesia的TTS系统主要依赖于Tacotron2和WaveGlow模型。这些模型共同作用，将文本转换为高质量的语音。2.过程模型详解2.1文本预处理文本预处理是TTS的第一步，包括分词、标点符号处理、数字和日期格式转换等。分词（
【llm对话系统】大模型源码分析之llama模型的long context更长上下文支持 kakaZhui llama 深度学习 pytorch AIGC chatgpt
1.引言Llama模型的一个重要特性是支持长上下文处理。本文将深入分析Llama源码中实现长上下文的关键技术点，包括位置编码(positionembedding)的外推方法、注意力机制的优化等。我们将通过详细的代码解析来理解其实现原理。2.位置编码的外推实现2.1旋转位置编码(RoPE)基础Llama采用旋转位置编码(RoPE,RotaryPositionEmbedding)来编码token的位置
LLM系列(0)：行业大模型落地服务在全业务场景的应用与探索【大模型智能问答、NL2SQL、文档智能分析智能生成、AI智能体决策等】汀、人工智能 LLM工业级落地实践人工智能自然语言处理 prompt NL2DSL NL2SQL 大模型智能问答
行业大模型落地服务：在全业务场景的应用与探索1.行业大模型落地挑战及应对1.1.挑战一：有限的算力资源在政企客户场景中落地行业大模型方案，可能首先面临的一个挑战是客户的算力资源有限。算力资源作为大模型落地的前提条件，是很多客户关注的重点，也是业务团队前期与客户沟通交流的一个重点。行业大模型场景落地是否一定需要大量的GPU算力，以及需要多少的算力才能满足落地需求？GPU算力主要消耗在两个地方，一是大
【llm对话系统】大模型 RAG 之回答生成：融合检索信息，生成精准答案 kakaZhui 人工智能 AIGC chatgpt llama
今天，我们将深入RAG流程的最后一步，也是至关重要的一步：回答生成(AnswerGeneration)。在这一步，LLM将融合用户问题和检索到的文档片段，生成最终的答案。这个过程不仅仅是简单的文本拼接，更需要LLM对检索结果进行理解、推理和整合，才能输出准确、流畅且符合用户需求的答案。一、回答生成的目标RAG中回答生成的目标主要包括：准确性(Accuracy):生成的答案需要准确回答用户的问题，并
大模型问答机器人的智能化程度 AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
大模型、问答机器人、智能化程度、自然语言处理、深度学习、Transformer模型、知识图谱、推理能力、对话系统1.背景介绍近年来，人工智能技术取得了飞速发展，特别是深度学习的兴起，为自然语言处理（NLP）领域带来了革命性的变革。其中，大模型问答机器人作为一种新型的智能交互系统，凭借其强大的语言理解和生成能力，在客服、教育、娱乐等领域展现出广阔的应用前景。问答机器人是指能够理解用户自然语言问题并给
ollama如何保持模型加载在内存（显存）中或立即卸载点动生态云 python llama 语言模型
一、ollama如何保持模型加载在内存中或立即卸载？默认情况下，模型在生成响应后会在内存中保留5分钟。这允许在您多次请求LLM时获得更快的响应时间。然而，您可能希望在5分钟内释放内存，或者希望模型无限期地保留在内存中。使用keep_alive参数与/api/generate或/api/chatAPI端点，可以控制模型在内存中保留的时间。keep_alive参数可以设置为：一个持续时间字符串（例如“
AI学习指南Ollama篇-Ollama的多模态应用探索俞兆鹏 AI学习指南 ai
AI学习指南应用篇-Ollama的多模态应用探索一、引言（一）背景介绍随着大语言模型（LLM）的发展，多模态应用（结合文本、图像、语音等）成为新的趋势。多模态模型能够处理多种类型的数据，如文本、图像和语音，从而提供更丰富、更智能的交互体验。Ollama作为本地部署工具，支持多模态模型的运行，为开发者提供了强大的功能。（二）文章目标本文将探讨Ollama在多模态应用中的可能性，并通过实际案例展示如何
大语言模型原理与工程实践：残差连接与层归一化 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着自然语言处理（NLP）的发展，深度学习在过去几年中取得了令人瞩目的成果。其中，循环神经网络（RNN）和卷积神经网络（CNN）在图像和文本分类、语义角色标注、机器翻译等领域表现出色。然而，这些网络在训练过程中经常遭遇梯度消失和梯度爆炸的问题。为了解决这些问题，我们引入了残差连接（ResidualConnections）和层归一化（BatchNormalization）来改善模型性能。
模型架构选择：从传统NLP到Transformer AI天才研究院 AI大模型应用入门实战与进阶大数据AI人工智能计算大数据人工智能语言模型 AI 大模型 LLM Java Python 架构设计 Agent RPA
模型架构选择：从传统NLP到Transformer关键词：自然语言处理(NLP),模型架构,传统NLP,Transformer,RNN,CNN,预训练模型文章目录模型架构选择：从传统NLP到Transformer1.背景介绍1.1问题的由来1.2研究现状1.3研究意义1.4本文结构2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.1.1传统NLP模型3.1.2RNN模型3.1.
Llama 3：开源大模型的里程碑式突破 XianxinMao llama 开源
标题：Llama3：开源大模型的里程碑式突破文章信息摘要：Meta通过Llama3展现了开源LLM的重大突破：采用超大规模训练数据和多阶段训练方法（SFT、rejectionsampling、PPO和DPO），突破了传统的Chinchilla最优比例法则。在产品策略上，针对8B和70B两种规模采用不同的训练数据截止日期，实现差异化定位。即将发布的400B模型有望达到GPT-4级别性能，但同时也凸显
Transformer架构的GPU并行和之前的NLP算法并行有什么不同？ AI大模型学习不迷路 transformer 自然语言处理大模型深度学习 NLP LLM 大语言模型
1.什么是GPU并行计算？GPU并行计算是一种利用图形处理单元（GPU）进行大规模并行数据处理的技术。与传统的中央处理单元（CPU）相比，GPU拥有更多的核心，能够同时处理数千个线程，这使得GPU在处理高度并行的任务时表现出色。在深度学习中，GPU并行计算被广泛应用于训练神经网络，加速模型训练过程。在2017年之前，自然语言处理（NLP）领域的研究者们通常会从头开始训练模型，那时能够利用GPU进行
大型语言模型构建指南：从头开始构建大语言模型《Build a Large Language Model (From Scratch)》免费PDF AGI大模型学习语言模型 pdf 人工智能大模型大模型学习大模型教程大模型书籍
通过从头开始构建一个大型语言模型，了解如何创建、训练和调整大型语言模型（LLMs）！一、构建大型语言模型（从头开始）在《构建大型语言模型（从头开始）》中，你将了解如何LLMs从内到外工作。在这本富有洞察力的书中，畅销书作家塞巴斯蒂安·拉施卡（SebastianRaschka）将指导你逐步创建自己的LLM，用清晰的文字、图表和示例解释每个阶段。你将从最初的设计和创建到通用语料库的预训练，一直到特定任
书籍推荐：《从零构建大型语言模型》附免费PDF下载大模型入门学习语言模型 pdf 人工智能产品经理大模型学习大模型教程大模型入门
通过从头开始构建一个大型语言模型，了解如何创建、训练和调整大型语言模型（LLMs）！一、构建大型语言模型（从头开始）在《构建大型语言模型（从头开始）》中，你将了解如何LLMs从内到外工作。在这本富有洞察力的书中，畅销书作家塞巴斯蒂安·拉施卡（SebastianRaschka）将指导你逐步创建自己的LLM，用清晰的文字、图表和示例解释每个阶段。你将从最初的设计和创建到通用语料库的预训练，一直到特定任
LLM based Single Agent System AGI大模型与大数据研究院大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM-BasedSingleAgentSystem:ANewEraofIntelligentAutomation关键词：大语言模型，单智能体系统，强化学习，自然语言处理，智能自动化1.背景介绍近年来，随着深度学习技术的快速发展，大语言模型(LLM)在自然语言处理(NLP)领域取得了突破性进展。LLM凭借其强大的语言理解和生成能力，正在改变着人们与信息交互的方式。同时，人工智能领域的另一个重要研究
【书生·浦语大模型实战营】学习笔记（五）：LMDeploy 量化部署 GoAI 深入浅出LLM 深入浅出AI 大模型 LLM 部署人工智能 LMDeploy
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI1；；爱好者学习，性价比非常高！加入星球➡️点击链接
为什么多模态大模型中使用Q-Former的工作变少了？附Q-Former结构简介同屿Firmirin 多模态大模型深度学习人工智能面试
面试中遇到的问题，自己在实践中注意到了却没有深究原因，没有回答好，特此记录和探讨这个问题。多模态大模型中需要一个输入投影模块，将视觉特征投射到LLM能理解的语言特征维度，这里就可以选择各种不同的模块。LLaVA最初用了简单的线性投射，然而作者提到这么做是为了做实验更快一点，使用复杂的模块可能会有更好的效果。后来就有用MLP的，代表工作有LLaVA后续系列、Intern-VL。还有用Q-Former
DeepSeek 模型：架构创新与实际应用详解汪子熙人工智能架构语言模型人工智能
DeepSeek模型是近年来在自然语言处理（NLP）领域备受瞩目的开源大规模语言模型系列。其最新版本DeepSeek-V3采用了混合专家（Mixture-of-Experts，MoE）架构，拥有6710亿个参数，每个词元（token）激活370亿个参数。该模型在多项基准测试中表现出色，性能媲美GPT-4和Claude等领先的闭源模型。以下将详细介绍DeepSeek模型的架构、用途，并通过具体案例和
初学者指南：借助 LangChain 构建 LLM 驱动的应用程序！
初学者指南：借助LangChain构建LLM驱动的应用程序！原文链接：ABeginner’sGuidetoBuildingLLM-PoweredApplicationswithLangChain!作者：PavanBelagatti译者：倔强青铜三前言大家好，我是倔强青铜三。作为一名对技术充满热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新。欢迎关注我，微信公
【llm对话系统】大模型源码分析之 LLaMA 位置编码 RoPE kakaZhui llama 深度学习人工智能 AIGC chatgpt
在自然语言处理（NLP）领域，Transformer模型已经成为主流。然而，Transformer本身并不具备处理序列顺序的能力。为了让模型理解文本中词语的相对位置，我们需要引入位置编码（PositionalEncoding）。本文将深入探讨LLaMA模型中使用的RotaryEmbedding（旋转式嵌入）位置编码方法，并对比传统的Transformer位置编码方案，分析其设计与实现的优势。1.传
Mooncake：面向大语言模型服务的以 KVCache 为中心的架构步子哥 AGI通用人工智能语言模型架构人工智能
摘要Mooncake是Kimi的服务平台，Kimi是由MoonshotAI提供的领先的LLM服务。它采用以KVCache为中心的分解架构，将预填充和解码集群分离。它还利用GPU集群未充分利用的CPU、DRAM和SSD资源来实现KVCache的分解缓存。Mooncake的核心是其以KVCache为中心的调度器，它在满足延迟相关的服务水平目标(SLO)的同时，平衡了最大化整体有效吞吐量。与假设所有请求
Deepseek爆火背后的多Token技术预测明哲AI AIGC 人工智能大模型 RAG 多token预测 deepseek
近年来，大语言模型（LLMs）的发展如火如荼，它们在聊天机器人、文档生成、代码编写等领域大放异彩。然而，随着模型规模的增加，生成效率也成为了一大瓶颈。传统的自回归语言模型需要逐字生成（token-by-token），这种方式不仅耗时，还限制了模型在实时场景中的表现。那么，有没有一种方法可以加快生成速度，同时保持文本质量？答案是：多Token预测（Multi-TokenPrediction,MTP）
进阶之路：从传统编程到AI大模型与Prompt驱动的爬虫技术大模型老炮人工智能 prompt 爬虫语言模型大模型学习 AI大模型
前言爬虫相信很多人都对此有所了解，它主要依靠编写代码实现对网页结构的解析，通过模拟浏览器行为获取目标数据！随着人工智能技术的发展，LLM大模型的出现为爬虫技术带来了新的思路。与传统的编程模式不同，使用AI大模型+prompt可以显著提高程序员的编程效率。通过结合人工智能和自然语言处理技术，开发者可以更加高效地编写爬虫代码，并实现对网页内容的智能解析和提取。前置内容下面我将通过爬取豆瓣电影top25
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL