惜鸟

微调Llama2自我认知

一、概述

最近在学习了解大模型微调相关的内容，在学习的过程中也遇到了很多问题，所以将自己的学习过程记录下来，希望对大模型微调感兴趣的小伙伴提供一点帮助，本文主要介绍一下如何通过SFT微调Llama2的自我认知，先看一下微调前后的效果比对：

微调前：

微调后：

通过本文的学习，你将了解如下内容：

如何使用SFT微调Llama2
如何导出微调后的大模型
如何使用FastChat实现 OpenAI 兼容的 RESTful API 接口

二、环境与模型选择

环境配置

使用 nvidia-smi 命令查看 GPU 的配置，微调的GPU配置如下：

$nvidia-smi     
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.161.03   Driver Version: 470.161.03   CUDA Version: 11.7     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA A800-SXM...  Off  | 00000000:8E:00.0 Off |                    0 |
| N/A   30C    P0    69W / 400W |  17320MiB / 81251MiB |      0%      Default |
|                               |                      |             Disabled |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
+-----------------------------------------------------------------------------+

微调 Llama2 需要 1 个GPU，24G 内存，较低的内存会导致加载模型较慢。

开源框架和模型

微调的模型： Chinese-Llama-2-7b

微调框架： LLaMA-Efficient-Tuning
提供openai兼容的RESTful API框架： FastChat
本地知识库问答应用框架： LangChain-Chatchat

由于Llama2本身的中文对齐较弱，这里没有直接使用 meta-llama/Llama-2-7b而是使用 LinkSoul/Chinese-Llama-2-7b进行微调，微调方法是类似的，感兴趣的可以基于 meta-llama/Llama-2-7b 进行微调。下面详细介绍一下微调的步骤。

三、SFT微调

1、下载预训练模型

在 huggingface上面搜索模型名称，可以看到下载模型的方式如下：

新建一个 models 文件夹用来存放下载的大模型，使用下面的命令下载预训练模型：

# 在当前目录新建一个 models 文件夹用来存放大模型
mkdir models
# 使用下面的命令下载模型，模型比较大，下载过程较缓慢，
git lfs install
git clone https://huggingface.co/LinkSoul/Chinese-Llama-2-7b

# 设置下面的环境变量，则不会下载大文件，只会下载小文件
GIT_LFS_SKIP_SMUDGE=1

2、下载微调框架

使用如下命令，在当前目录下载微调框架 LLaMA-Efficient-Tuning ：

git clone https://github.com/hiyouga/LLaMA-Efficient-Tuning.git

进入 LLaMA-Efficient-Tuning 目录：

cd LLaMA-Efficient-Tuning

3、准备微调数据

进入微调框架LLaMA-Efficient-Tuning目录后，找到存放微调数据的data目录，如下所示：

我们可以查看一下 self_cognition.json自我认知文件内容如下：

可以看到和是占位符，我们只需要复制一份文件，将对应的占位符替换为需要的名称即可，复制一份文件是为了自我认知的模版文件可复用，我替换后的文件内容如下，你可以改成自己的名字：

微调数据准备好了后，需要在 dataset_info.json 中配置如下：

{
    "self_cognition": {
    "file_name": "self_cognition.json",
    "file_sha1": "6287a730ada924fc5d9eadc6d8f865e01b7a6f67"
  }
}

dataset_info.json文件会被转换为 python 的字典，self_cognition就是字典的 key，在微调的时候需要指定的数据集名称就是该 key，file_sha1 文件的摘要可以不填，file_name就是微调文件的名称，如果该微调文件在data目录中，则直接指定名称即可，如果在data目录的子目录中，则需要指定子目录的名字，举例如下：

4、开始SFT微调

微调数据准备好后就可以开始执行微调了，使用如下命令进行微调：

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage sft \
    --do_train \
    --dataset self_cognition \
    --model_name_or_path /ossfs/workspace/models/Chinese-Llama-2-7b \
    --output_dir /ossfs/workspace/llama2-sft/checkpoint-01 \
    --template default \
    --finetuning_type lora \
    --lora_target q_proj,v_proj \
    --overwrite_cache \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 2000 \
    --learning_rate 1e-3 \
    --num_train_epochs 10.0 \
    --plot_loss \
    --fp16

下面是对这个大模型训练命令中各个参数的详细解释：


--stage sft: 训练阶段。这里指定为sft，表示进行模型的微调（self-supervised fine-tuning）阶段。

--do_train: 是否进行训练，设置为True表示进行训练。还可以设置为（--do_eval：表示评估，--do_predict：表示预测）

--dataset self_cognition: 数据集名称。这里指定为self_cognition，表示使用自我认知数据集。

--model_name_or_path /ossfs/workspace/models/Chinese-Llama-2-7b: 预训练模型的名称或路径。这里指定为/ossfs/workspace/models/Chinese-Llama-2-7b，表示加载路径下的预训练模型。

--output_dir /ossfs/workspace/llama2-sft/checkpoint-01: 训练输出目录。训练过程中生成的模型和日志将保存在该目录下。

--template default: 模板名称。这里指定为default，表示使用默认模板。

--finetuning_type lora: 微调类型。这里指定为lora，表示使用LoRA（Language Representation with Additive Transformation）微调方法。

--lora_target q_proj,v_proj: LoRA微调的目标层。这里指定为q_proj,v_proj，表示只对q_proj和v_proj两个层进行微调。

--overwrite_cache: 是否覆盖缓存。设置为True表示覆盖缓存。

--per_device_train_batch_size 4: 每个设备的训练批次大小。这里指定为4，表示每个设备上的训练批次大小为4。

--gradient_accumulation_steps 4: 梯度累积步数。这里指定为4，表示每4个步骤累积一次梯度。

--lr_scheduler_type cosine: 学习率调度器类型。这里指定为cosine，表示使用余弦学习率调度器。

--logging_steps 10: 日志记录步数。每训练多少步记录一次训练日志。

--save_steps 2000: 模型保存步数。每训练多少步保存一次模型。

--learning_rate 1e-3: 学习率。这里指定为1e-3，表示初始学习率为0.001。

--num_train_epochs 10.0: 训练轮数。这里指定为10.0，表示进行10轮训练。

--plot_loss: 是否绘制损失曲线。设置为True表示绘制损失曲线。

--fp16: 是否使用混合精度（half-precision）训练。设置为True表示使用混合精度训练。

以上是对该大模型训练命令中各个参数的解释。根据需求，可以根据实际情况进行相应参数的修改。不同的参数设置会对训练过程和结果产生影响，需要根据具体任务和数据集进行调整。

微调过程比较耗时，需要耐心等待

启动微调命令后，输出日志如下，需要用户输入是否需要 wandb (一个深度学习轻量级可视化工具)将训练结果可视化，我这里选择不可视化训练结果。

微调命令结束后可以看到如下日志输出，从日志中可以看到微调后的模型 checkpoint 的位置、损失曲线的信息以及训练的汇总信息：

查看损失曲线：

损失曲线图像解读：

在大模型训练过程中，train loss 图像是指每个训练批次的损失值随训练轮次的变化情况。这个图像可以用来解读训练过程中模型的收敛情况和学习进展。

train loss 图像的纵轴表示损失值，横轴表示训练轮次或训练批次。通常，初始阶段的损失值较高，随着训练的进行，损失值会逐渐下降。如果损失值趋向于稳定，说明模型已经收敛，训练效果良好。如果损失值下降很慢，可能需要更多的训练轮次或调整模型超参数。如果损失值波动较大，可能存在过拟合或其他问题，需要进一步调整模型或数据。

解读train loss 图像时，可以观察以下几个方面：

初始阶段的损失值高低，较高的初始损失值可能表明模型初始化不合适，需要调整初始化方法。
损失值下降的速率，较快的下降速率可能表明模型对数据的学习能力较强，但也可能存在过拟合的风险。
损失值的稳定性，稳定的损失值说明模型已经收敛，训练效果较好。如果损失值在一定范围内波动，可以考虑增加训练轮次或使用正则化等方法进一步优化模型。
训练过程中的异常情况，如损失值突然上升或跳跃，可能表明出现了问题，需要检查模型或数据是否存在异常。

总之，train loss 图像可以提供对模型训练过程的直观理解，帮助调整模型和优化训练策略，以达到更好的训练效果。

train loss 的值下降到什么范围表示模型的训练效果较好？

train loss 的值下降到一个较低的范围可以表示模型的训练效果较好。具体的判断标准可以根据具体的任务和数据集来确定，没有一个统一的阈值。

一种常见的做法是观察 train loss 图像的趋势，如果随着训练的进行，train loss 不断下降并趋于稳定，说明模型对训练数据的拟合效果较好，训练效果较好。

此外，可以根据验证集的表现来评估模型的训练效果。如果验证集的损失值也在下降并趋于稳定，且与训练集的损失值相近，说明模型在训练集和验证集上都能取得较好的效果，训练效果较好。

需要注意的是，train loss 仅仅是一个指标，不能完全代表模型的训练效果。还需要综合考虑模型在其他指标上的表现，如准确率、精确率、召回率等，以及在实际应用场景中的效果。

5、测试微调后的模型

微调框架 LLaMA-Efficient-Tuning中提供了三种测试使用微调模型的方式，如下所示：

api_demo.py：使用api的方式调用微调模型
cli_demo.py：在命令行中调用微调模型
web_demo.py：在web页面中调用微调模型

由于我这里的服务器没有外网访问的地址，所以使用 cli_demo.py命令行的方式手动测试微调后的模型，启动命令如下：

CUDA_VISIBLE_DEVICES=0 python src/cli_demo.py \
    --model_name_or_path /ossfs/workspace/models/Chinese-Llama-2-7b \
    --checkpoint_dir /ossfs/workspace/llama2-sft/checkpoint-01\
    --template llama2

查看 cli_demo.py 源码，调用了 ChatModel.stream_chat(query, history)，ChatModel的构造方法中调用了 get_infer_args(args)，如下所示：

get_infer_args(args)如下所示，可以看到只有 LoRA 的微调支持指定多个 checkpoint：

在模型参数中可以看到指定 checkpoint_dir 时可以使用 ，分隔多个 checkpoint：

所以如果你使用 LoRA 进行微调，那么当有多个微调任务，生成多个 checkpoint 时，多个 checkpoint 可以使用 ，分隔，假设你微调了两个checkpoint：/ossfs/workspace/llama2-sft/checkpoint-01和 /ossfs/workspace/llama2-sft/checkpoint-02，那么你可以使用下面的命令测试两个微调后的模型，如下所示：

CUDA_VISIBLE_DEVICES=0 python src/cli_demo.py \
    --model_name_or_path /ossfs/workspace/models/Chinese-Llama-2-7b \
    --checkpoint_dir /ossfs/workspace/llama2-sft/checkpoint-01,/ossfs/workspace/llama2-sft/checkpoint-02\
    --template default

因为我这里只微调了自我认知，并且将在微调的时候指定 --output_dir /ossfs/workspace/llama2-sft/checkpoint-01，所以使用下面的命令来测试微调后的模型即可：

CUDA_VISIBLE_DEVICES=0 python src/cli_demo.py \
    --model_name_or_path /ossfs/workspace/models/Chinese-Llama-2-7b \
    --checkpoint_dir /ossfs/workspace/llama2-sft/checkpoint-01\
    --template default

运行测试命令需要再次加载模型，比较耗时，需要耐心等待，运行成功后可以看到如下输出：

接下来就可以问一些自我认知的问题进行验证了，如下所示：

6、导出微调后的模型

经过前面的微调，如果微调后的模型通过了测试就可以将微调后的模型导出，使用如下命令即可：

CUDA_VISIBLE_DEVICES=0 python src/export_model.py \
    --model_name_or_path /ossfs/workspace/models/Chinese-Llama-2-7b \
    --checkpoint_dir /ossfs/workspace/llama2-sft/checkpoint-01\
    --output_dir /ossfs/workspace/sft-models/my-llama5 \
    --template default

我这里使用 --output_dir 将模型导出到 /ossfs/workspace/sft-models/my-llama5目录中，可以看到目录中包括如下内容：

7、微调模型提供RESTful API接口

经过前面的步骤，我们已经将自己微调后的模型导出了，现在我们可以使用 FastChat 将模型发布为 openai 兼容的RESTful API以便外部服务使用。

FastChat 为其支持的模型提供与 OpenAI 兼容的 API，因此您可以使用 FastChat 作为 OpenAI API 的本地直接替代品。FastChat 服务器与openai-python库和 cURL 命令兼容。

支持以下 OpenAI API：

Chat Completions
Completions
Embeddings

RESTful API 服务器

首先，启动控制器

python3 -m fastchat.serve.controller

运行命令输出内容如下：

然后，启动模型，通过 --model-path 指定模型的路径，这里我们指定前面微调后的模型路径 /ossfs/workspace/sft-models/my-llama5

python3 -m fastchat.serve.model_worker --model-path /ossfs/workspace/sft-models/my-llama5

运行命令输出内容如下：

最后，启动 RESTful API 服务器

python3 -m fastchat.serve.openai_api_server --host localhost --port 8000

运行命令输出内容如下：

现在，让我们测试 API 服务器。

OpenAI官方SDK

目标openai_api_server.py是实现一个完全兼容 OpenAI 的 API 服务器，因此模型可以直接与openai-python库一起使用。

首先，安装openai-python：

pip install --upgrade openai

然后使用下面的代码与模型进行测试：

import openai
# to get proper authentication, make sure to use a valid key that's listed in
# the --api-keys flag. if no flag value is provided, the `api_key` will be ignored.
openai.api_key = "EMPTY"
openai.api_base = "http://localhost:8000/v1"

# 这里指定微调的模型名字，也就是保存模型文件的文件夹名称
model = "my-llama5"

# create a chat completion
completion = openai.ChatCompletion.create(
  model=model,
  messages=[{"role": "user", "content": "你是谁"}]
)
# print the completion
print(completion.choices[0].message.content)

在jupyterlab中运行上面的代码，输出结果如下：

8、微调模型和本地知识库整合

因为后面打算学习了解一下将大模型和知识库整合，所以我这里先使用本地知识库问答应用框架： LangChain-Chatchat ****和微调后的模型整合。下面我先简单介绍一下整合的步骤，后面会再写一篇文章详细介绍一下大模型和本地知识库相关的内容。

首先下载 Langchain-Chatchat，使用如下命令：

git clone https://github.com/chatchat-space/Langchain-Chatchat.git

进入 Langchain-Chatchat，使用下面的命令安装 python 依赖库：

cd Langchain-Chatchat

pip install -r requirements.txt

pip install -r requirements_api.txt

使用下面的命令复制一份配置文件：

cp configs/model_config.py.example configs/model_config.py

如下所示：

在 model_config.py 配置文件需要修改如下内容，在llm_model_dict指定模型的地址，并且设置LLM_MODEL的名称和 llm_model_dict的 key 对应，如下所示：

llm_model_dict = {
    "llama2": {
        "local_model_path": "/ossfs/workspace/sft-models/my-llama5",
        "api_base_url": "http://localhost:8888/v1",  # 修改为fastchat服务中的"api_base_url"
        "api_key": "EMPTY"
    }
}

# LLM 名称
LLM_MODEL = "llama2"

接下来就可以使用下面的命令启动 llm_api.py：

python server/llm_api.py

启动成功后可以使用下面的代码在 jupyterlab 中进行验证：

# 服务启动后接口调用示例：
import openai
openai.api_key = "EMPTY" # Not support yet
openai.api_base = "http://localhost:8888/v1"

model = "llama2"

def get_answer(content):
    # create a chat completion
    completion = openai.ChatCompletion.create(
      model=model,
      messages=[{"role": "user", "content": content}]
    )
    print('用户:', content)
    # print the completion
    print('模型:',completion.choices[0].message.content)

get_answer('你是谁')
get_answer('你叫什么名字')

验证输出结果如下：

参考文档

https://github.com/hiyouga/LLaMA-Efficient-Tuning

https://github.com/chatchat-space/Langchain-Chatchat

https://github.com/lm-sys/FastChat/blob/main/docs/openai_api.md

https://huggingface.co/LinkSoul/Chinese-Llama-2-7b

你可能感兴趣的:(人工智能)

2025生成式AI革命：从技术原理到商业应用，一文读懂未来十年的颠覆力量硅基打工人 AI 人工智能开源语言模型经验分享
引言：生成式AI为何成为2025年最火爆的技术话题？2025年，生成式AI（GenerativeAI）已从实验室走向千家万户。无论是刷屏的AI绘画、爆火的虚拟主播，还是医疗领域的蛋白质结构预测，生成式AI正以惊人的速度重塑行业格局。据《2025年人工智能发展报告》显示，全球生成式AI市场规模已突破800亿美元，年增长率达45%。与此同时，OpenAI的GPT-5、谷歌的GeminiUltra等大模
LLM探索的时代新加坡内哥谈技术人工智能
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/当前的大语言模型，是过去三十年人类在互联网上自由发布海量文本内容的意外副产品。IlyaS
2025 年使用大模型进行软件工程：现实检验新加坡内哥谈技术软件工程人工智能
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/以工程经理与资深工程师的视角，探讨大厂与初创公司的挑战,以及与Anthropic、Cur
“猫攻击”揭示推理模型脆弱性，凸显上下文工程的重要性新加坡内哥谈技术人工智能
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/一项研究显示，即便是像“猫一生中大多数时间都在睡觉”这样简单的语句，也可能显著干扰高级推
Google AI 刚刚开源 MCP 数据库工具箱，让 AI 代理安全高效地查询数据库新加坡内哥谈技术人工智能
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/https://github.com/googleapis/genai-toolboxG
AIGC领域AI作画：在数字雕塑中的应用实践 AI原生应用开发 AI 原生应用开发 AIGC AI作画 ai
AIGC领域AI作画：在数字雕塑中的应用实践关键词：AIGC、AI作画、数字雕塑、生成对抗网络、3D建模、艺术创作、深度学习摘要：本文深入探讨了AIGC(人工智能生成内容)技术在数字雕塑领域的创新应用。我们将从技术原理、算法实现到实际案例，全面解析AI如何赋能传统数字雕塑创作流程。文章首先介绍AIGC在艺术创作中的背景和发展现状，然后详细讲解核心算法原理和数学模型，接着通过实际项目案例展示AI作画
阿里也出手了！十分钟接入Spring Cloud Alibaba AI 体验JAVA微服务AI人工智能，可接通义千问等模型， Java斌十分钟学会Java AI 人工智能 java 微服务
什么是SpringAISpringAI是从著名的Python项目LangChain和LlamaIndex中汲取灵感，它不是这些项目的直接移植，它的成立信念是，「下一波生成式人工智能应用程序将不仅适用于Python开发人员，而且将在许多编程语言中无处不在」。我们可以从SpringAI的官网描述中，总结出SpringAI的几个核心的关键词：提供抽象能力简化AI应用的开发模型与向量支持AI集成与自动配置
【AI与数据管理】基于AI大模型的企业元数据管理方案暴躁小师兄数据学院人工智能 ai 语言模型
基于AI大模型的元数据关键解决方案元数据（metadata）是描述数据的数据，例如数据的来源、结构、类型和质量信息。它在数据管理、分析和应用中至关重要。随着人工智能（AI）大模型（如基于Transformer的模型）的发展，这些模型凭借其强大的自然语言处理、模式识别和生成能力，为元数据处理提供了高效、自动化的解决方案。下面，我将逐步解释基于AI大模型的元数据关键解决方案，帮助您理解核心方法、挑战和
【人工智能之大模型】思维链（Chain of Thought，CoT）在大模型中是如何引导模型逐步推理的？ 985小水博一枚呀人工智能 pytorch 语言模型大模型
【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？文章目录【人工智能之大模型】思维链（ChainofThought，CoT）在大模型中是如何引导模型逐步推理的？前言思维链（CoT）在大模型中的应用示例示例任务：应用思维链提示：模型输出：分析：思维
什么是智能体（Agent）？用什么都重名大模型相关人工智能 Agent 大模型
目录前言一、大语言模型1.什么是大语言模型？2.应用领域二、什么是Agent三、Agent核心特点1.感知能力2.规划能力3.行动能力4.记忆能力总结前言目前智能体市场正处于快速发展阶段，呈现出市场规模增长迅猛、应用领域广泛、竞争格局多元化等特点。基于此，让我们一起来学习一下何为智能体。一、大语言模型1.什么是大语言模型？大语言模型是一种采用大量数据进行训练的人工智能模型，主要用于理解和生成自然语
Python深度学习实践：建立端到端的自动驾驶系统 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：建立端到端的自动驾驶系统1.背景介绍自动驾驶系统是当今科技领域最具挑战性和前景的应用之一。它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。Python作为一种高效、易学且开源的编程语言,在这一领域扮演着重要角色。本文将探讨如何利用Pyth
AIGC空间智能在服装设计领域的颠覆性变革 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶 AIGC ai
AIGC空间智能在服装设计领域的颠覆性变革关键词：AIGC、空间智能、服装设计、数字孪生、生成式AI、3D人体建模、智能设计系统摘要：本文深入探讨AIGC（人工智能生成内容）与空间智能技术在服装设计领域的融合创新，揭示其如何通过三维人体建模、场景模拟、智能生成算法重构传统设计流程。从技术原理层解析空间智能的核心模块，结合生成对抗网络（GAN）、Transformer模型等前沿算法，展示从创意生成到
编程效率的飞跃、创新驱动的测试与行业应用的新篇章
###引言在人工智能技术飞速发展的今天，AI工具、大模型及行业应用正在深刻改变着开发者的工作模式与各领域的发展格局。从智能编码助手到自动化测试平台，从大模型落地实践到垂直行业解决方案，AI正成为提升效率、驱动创新的核心引擎。本文将围绕“AI技术如何重塑你的工作与行业”这一主题，探讨AI工具、AI编程、AI测试以及AI行业应用和大模型落地等方面的影响。 ###一、AI工具重塑开发工作 #
中电金信：十问高质量数据集：金融大模型价值重塑有“据”可循
2025年，随着大模型在金融领域的深度应用，高质量数据集已逐渐成为决定模型性能的“基石”。面对数据要素价值释放的关键机遇期，国家政策不断深入推进：2月，国务院国资委启动“AI+”专项行动，着力攻克数据难题；5月，数字中国峰会发布了首批30项央企AI高质量数据集成果；6月，在央国企金融领域人工智能高质量数据集工作推进会上，14家企业共同签署了“央国企金融数据产业共同体倡议书”，旨在推动人工智能与数据
毕业论文 | 人工智能侵权责任法律问题研究——以无人驾驶汽车为例北斗猿毕业论文设计人工智能无人驾驶法律侵权责任法民法典
===========================================github：https://github.com/MichaelBeechanCSDN：https://blog.csdn.net/u011344545===========================================人工智能侵权责任法律问题研究——以无人驾驶汽车为例目录摘要一、绪论(一)课
人工智能发展简史——未来是属于AI人工智能的。 AI天才研究院 ChatGPT AI人工智能与大数据人工智能
目录人工智能发展简史第一章：起步期-20世纪50年代及以前1.1计算机象棋博弈（Programmingacomputerforplayingchess）1.2图灵测试（TuringTest）1.3达特茅斯学院人工智能夏季研讨会（DartmouthSummerResearchConferenceonArtificialIntelligence）1.4感知机（Perceptrons）第二章：第一次浪潮
算法化资本——智能投顾技术重构金融生态的深度解析田园Coder 人工智能科普人工智能科普
金融市场的数字化进程正经历着本质性跃迁。当传统交易大厅的开放式喊价被服务器集群的低频嗡鸣取代，当投资决策从人类直觉转向概率矩阵计算，一场由人工智能驱动的资本范式革命已悄然降临。智能投顾作为这场变革的核心载体，其技术架构不仅重塑财富管理的运作逻辑，更在认知层面挑战着金融市场的存在根基。理解这场变革的深度与广度，需要穿透技术表象，审视算法与资本结合引发的复杂生态嬗变。智能投顾系统的技术支柱建立于三重认
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
生成式人工智能认证（GAI认证）含金量怎么样？技能咖 GAI认证生成式人工智能认证人工智能
当生成式人工智能（GenerativeAI）的浪潮以摧枯拉朽之势重塑职业版图时，一个尖锐的问题正悬在无数人的心头：在技术迭代比眨眼更快的时代，如何证明自己具备驾驭AI的核心能力？这场认知革命的背后，一张认证证书的价值早已超越了纸面——它既是个人能力的“信用背书”，也是企业筛选人才的“技术密码”。而生成式人工智能认证（GAI认证）的诞生，恰似一把打开未来之门的密钥，其含金量究竟几何？答案藏在三个维度
SpringBoot多数据源动态切换方案：AbstractRoutingDataSource详解 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot多数据源动态切换
深入解读MaaS技术架构：从模型服务到智能部署的全流程分析 Cc不爱吃洋葱架构人工智能大语言模型大模型智能部署 MaaS技术架构 LLM
随着人工智能（AI）的迅速发展，MaaS（ModelasaService，模型即服务）技术架构应运而生。它通过将复杂的AI模型封装为标准化服务，降低了模型的开发和部署门槛，帮助企业快速实现业务场景的智能化升级。本文将深入解析MaaS技术架构，详细阐述其各个组成部分以及如何在实际应用中高效发挥其功能。一、使用方层：从应用接入到业务赋能MaaS技术架构的顶层是使用方层，它主要面向第三方应用，是企业与M
人工智能LLM | 基础配置 | 通过环境变量配置API-KEY 一文通教程 H-大叔人工智能大模型实战与教程人工智能
在实战开发大语言模型的过程中，经常会遇到各种API-KEY的配置问题，例如GPTOpenAIKEY的配置，而且目前大部分都要求将其配置在环境变量中，下面将会讲解如何在Linux、macOS、Windows中配置，本文一文通教程。您可以使用配置环境变量的方法，避免在调用各种SDK时显式地配置API-KEY，从而降低泄漏风险。环境变量是操作系统中用于存储有关系统环境的信息的变量。您可以通过环境变量来配
【人工智能】ChatGPT、DeepSeek-R1、DeepSeek-V3 辨析 G皮T #大语言模型人工智能 LLM 大语言模型 chatgpt deepseek DeepSeek-R1 DeepSeek-V3
ChatGPT、DeepSeek-R1、DeepSeek-V3辨析1.ChatGPT对比DeepSeek1.1技术相似点1.2主要差异1.3关键区别1.4如何选择1.5总结2.DeepSeek-R1对比DeepSeek-V32.1DeepSeek-R12.2DeepSeek-V32.3核心区别总结2.4如何选择3.R1和V3有什么含义3.1DeepSeekR1的"R"3.2DeepSeekV3的"
在学校研究学习的偏算法，秋招投递开发岗位还有希望吗程序员
前言Thelasttime,Ihavelearned这是星球同学，在周五晚上答疑聊天的时候对我的提问：如果简历上的项目偏算法，但是自学了一些操作系统和计网的知识，秋招的时候投递偏开发的岗位有希望吗？简历上是否也要加上相关项目？估计也是很多朋友的疑问，毕竟很多同学读研，有些老师疯狂push，要成果，发论文。要想尽快发论文，那只能“研究”人工智能、算法的一些东西了。但是众所周知，算法要求很高，不仅要求
【AI论文】基于图像思维的多模态推理：理论基础、方法及未来前沿东临碣石82 人工智能
摘要：近期，文本思维链（Chain-of-Thought，CoT）显著推动了多模态推理的进展。在这一范式下，模型在语言层面进行推理。然而，这种以文本为中心的方法将视觉信息视为静态的初始语境，从而在丰富的感知数据与离散的符号思维之间造成了根本性的“语义鸿沟”。人类认知往往超越语言的局限，将视觉作为动态的心理草图板加以利用。如今，人工智能领域也正经历着类似的演变，标志着从仅能对图像进行思考的模型向真正
DeepSeek 帮助自己的工作
引言简述人工智能助手在职场中的普及趋势DeepSeek作为智能创作助手的核心功能概述DeepSeek的核心能力信息检索与整合：基于用户意图精准搜索并生成答案多场景应用：技术文档撰写、数据分析、代码生成等交互优化：遵循用户指定的格式与内容规范职场应用场景与实操案例技术文档撰写自动生成API文档框架根据需求补充技术细节示例代码块与公式的规范化输出数据分析支持快速检索行业数据并生成可视化建议数学建模中的
人工智能-基础篇-23-智能体Agent到底是什么？怎么理解？（智能体=看+想+做） weisian151 人工智能人工智能
1、智能体是什么？想象你有一个超级聪明的小助手，它能：自己看环境（比如看到天气、听到声音、读到数据）；自己做决定（比如下雨了要关窗，电量低要去充电）；自己动手干活（比如帮你订外卖、打扫房间、开车）；越用越聪明（比如记住你的习惯，下次不用你提醒）。这个“小助手”就是智能体（Agent）——它是一个能自主感知、思考、行动并学习的系统，可以是软件（比如手机里的AI助手）、硬件（比如机器人），或者软硬结合
多角色AI Agent：基于LLM的虚拟角色扮演系统 AI天才研究院 AI人工智能与大数据人工智能 ai
多角色AIAgent：基于LLM的虚拟角色扮演系统关键词多角色AIAgentLargeLanguageModel(LLM)虚拟角色扮演系统人工智能自然语言处理程序设计摘要本文旨在探讨多角色AIAgent的基础知识以及其如何在虚拟角色扮演系统中发挥作用。我们将首先介绍多角色AIAgent的概念、历史背景和基本原理。随后，我们将深入探讨LLM（大语言模型）在虚拟角色扮演系统中的应用，包括其工作原理、核
【算法】解数独：C++ 实现与策略探讨 master_chenchengg 算法提升算法 java 开发语言
【算法】解数独：C++实现与策略探讨一、引言：C++算法技术的魔力与解数独的智慧二、技术概述：数独求解的艺术定义与技术框架核心特性和优势代码示例：基础回溯解法三、技术细节：解数独的逻辑与挑战原理解析难点分析四、实战应用：从游戏到人工智能应用场景解决方案展示五、优化与改进潜在问题改进建议六、常见问题与解决方案七、总结与展望一、引言：C++算法技术的魔力与解数独的智慧在算法领域，C++凭借其高效、灵活
FastMCP：用于构建MCP服务器的开源Python框架 NetX行者 AI编程服务器开源 python
在人工智能领域，模型上下文协议（ModelContextProtocol，简称MCP）作为一种标准化的协议，为大型语言模型（LLM）提供了丰富的上下文和工具支持。而FastMCP作为构建MCP服务器和客户端的Python框架，以其简洁的API设计、高效的开发体验以及强大的扩展能力，正逐渐成为开发者们的首选工具。一、FastMCP简介FastMCP是一个用于构建MCP服务器和客户端的Python框架
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，