JasonLiu1919

LLM系列 | 22 : Code Llama实战(下篇)：本地部署、量化及GPT-4对比

引言
模型简介
依赖安装
模型inference
- 代码补全
- 4-bit版模型
- 代码填充
- 指令编码
Code Llama vs ChatGPT vs GPT4
小结

引言

青山隐隐水迢迢，秋尽江南草未凋。

小伙伴们好，我是《小窗幽记机器学习》的小编：卖热干面的小女孩。紧接前文：

今天这篇小作文作为代码大语言模型Code Llama的下篇，主要介绍如何在本地部署Code Llama，同时介绍如何对Code Llama做模型量化。最后，对比Code Llama、ChatGPT和GTP4这三者的代码生成效果。

模型简介

官方发布了3类Code Llama模型，每类都有三种模型尺寸：

Code Llama：Base模型(即常说的基座模型)，为通用的代码生成和理解而设计。
Code Llama - Python：专门为Python而设计。
Code Llama - Instruct：遵循指令，更加安全，可以作为代码助手。

三者关系如下：

依赖安装

pip3 install git+https://github.com/huggingface/transformers.git@main accelerate -i https://mirrors.cloud.tencent.com/pypi/simple

transformers版本:Version: 4.33.0.dev0。

本文以下实验代码的获取，请前往《小窗幽记机器学习》找小编获取。

模型inference

代码补全

测试代码补齐功能的代码如下：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2023/9/4 20:07
# @Author  : 卖秋裤的小女孩
# @File    : inference_code_llama_hf.py
# @联系方式  : 微信公众号<小窗幽记机器学习>

from transformers import AutoTokenizer
import transformers
import torch
"""
测试代码补全能力
"""
model_path = "/home/model_zoo/LLM/llama2/CodeLlama-34b-Python-hf/"
tokenizer = AutoTokenizer.from_pretrained(model_path)
pipeline = transformers.pipeline(
    "text-generation",
    model=model_path,
    torch_dtype=torch.float16,
    device_map="auto",
)

sequences = pipeline(
    'def fibonacci(',
    do_sample=True,
    temperature=0.2,
    top_p=0.9,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
    max_length=512,
)
for seq in sequences:
    print(f"Result: {seq['generated_text']}")

以上使用34B的模型做代码补齐能力测试，如果将模型置于一张A100(40G)上做inference，显存基本打满：

经过「漫长」的等待，终于「输出结果：」

Result: def fibonacci(n):
    if n == 0:
        return 0
    elif n == 1:
        return 1
    else:
        return fibonacci(n-1) + fibonacci(n-2)


def fibonacci_iterative(n):
    if n == 0:
        return 0
    elif n == 1:
        return 1
    else:
        a = 0
        b = 1
        for i in range(2, n+1):
            c = a + b
            a = b
            b = c
        return b


def fibonacci_iterative_2(n):
    if n == 0:
        return 0
    elif n == 1:
        return 1
    else:
        a = 0
        b = 1
        for i in range(2, n+1):
            c = a + b
            a = b
            b = c
        return c


def fibonacci_iterative_3(n):
    if n == 0:
        return 0
    elif n == 1:
        return 1
    else:
        a = 0
        b = 1
        for i in range(2, n+1):
            c = a + b
            a = b
            b = c
        return a


def fibonacci_iterative_4(n):
    if n == 0:
        return 0
    elif n == 1:
        return 1
    else:
        a = 0
        b = 1
        for i in range(2, n+1):
            c = a + b
            a = b
            b = c
        return a


def fibonacci_iterative_5(n):
    if n == 0:
        return 0
    elif n == 1:
        return 1
    else:
        a = 0
        b = 1
        for i in range(2, n+1):
            c = a + b
            a = b
            b = c
        return a

如果用2张A100(40G)加载模型做inference，能够相对较快返回结果。所以，对于34B版模型，建议先做量化，再用多块A100的做inference。

4-bit版模型

Transformers中已集成Code Llama，因此可以直接使用Transformers加载4-bit模型。这使得在消费级的nvidia 3090卡上运行大型的32B参数模型变得可能！以下演示如何在4-bit模式下进行推理的方法：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2023/9/4 21:01
# @Author  : 卖秋裤的小女孩
# @联系方式  : 微信公众号<小窗幽记机器学习>
# @File    : inference_code_llama_34B_4bit.py

from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
import torch

model_id = "/home/model_zoo/LLM/llama2/CodeLlama-34b-Python-hf/"
# model_id = "codellama/CodeLlama-34b-hf"
quantization_config = BitsAndBytesConfig(
   load_in_4bit=True,
   bnb_4bit_compute_dtype=torch.float16
)

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=quantization_config,
    device_map="auto",
)

prompt = 'def remove_non_ascii(s: str) -> str:\n    """ '
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

output = model.generate(
    inputs["input_ids"],
    max_new_tokens=512,
    do_sample=True,
    top_p=0.9,
    temperature=0.1,
)
output = output[0].to("cpu")
print(tokenizer.decode(output))

inference期间显卡占用情况：

「输出结果如下：」

 def remove_non_ascii(s: str) -> str:
    """
    Remove non-ascii characters from a string
    """
    return "".join(c for c in s if ord(c) < 128)


def clean_string(s: str) -> str:
    """
    Clean a string by removing non-ascii characters and then removing
    any extra whitespace
    """
    s = remove_non_ascii(s)
    s = s.strip()
    return s

鉴于inference速度问题，后续试验选用7B大小的模型。

代码填充

这是一个针对代码模型的特殊任务。在该任务下，模型为现有前缀和后缀的代码（包括注释）生成最佳匹配的代码。这是代码助手通常使用的策略：根据出现在光标前后的内容，填充当前的光标位置的内容。这个任务只能在「7B和13B模型的基座模型和指令微调模型」中使用。代码填充任务「不适用于34B版模型或Python版模型」。如果想要使用代码填充功能，需要注意训练模型的格式，因为它使用特殊的分隔符来识别提示的不同部分。可以直接使用transformers的CodeLlamaTokenizer。在底层，tokenizer会自动通过进行分割，以创建一个符合原始训练模式的格式化输入字符串。具体代码如下：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2023/9/4 19:25
# @Author  : 卖秋裤的小女孩
# @联系方式  : 微信公众号<小窗幽记机器学习>
# @File    : inference_code_infilling_hf.py

from transformers import AutoTokenizer, AutoModelForCausalLM, AutoConfig
import torch

# model_id = "/home/model_zoo/LLM/llama2/CodeLlama-7b-Python-hf"  # 代码填充任务不适用于Python版模型
model_id = "/home/model_zoo/LLM/llama2/CodeLlama-7b-Instruct-hf"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model_config = AutoConfig.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    config=model_config,
    torch_dtype=torch.float16
).to("cuda")

prompt = '''def remove_non_ascii(s: str) -> str:
    """ 
    return result
'''

input_ids = tokenizer(prompt, return_tensors="pt")["input_ids"].to("cuda")
output = model.generate(
    input_ids,
    max_new_tokens=512,
)
output = output[0].to("cpu")

filling = tokenizer.decode(output[input_ids.shape[1]:], skip_special_tokens=True)
print(prompt.replace("", filling))

输出结果如下：

def remove_non_ascii(s: str) -> str:  """ Remove non-ASCII characters from a string.  Args:    s (str): The string to remove non-ASCII characters from.  Returns:    str: The string with non-ASCII characters removed.  """  result = ""  for c in s:    if ord(c) < 128:      result += c  return resultdef remove_non_ascii_and_spaces(s: str) -> str:  """ Remove non-ASCII and space characters from a string.  Args:    s (str): The string to remove non-ASCII and space characters from.  Returns:    str: The string with non-ASCII and space characters removed.  """  result = ""  for c in s:    if ord(c) < 128 and c != " ":      result += c  return resultdef remove_non_ascii_and_spaces_and_newlines(s: str) -> str:  """ Remove non-ASCII, space, and newline characters from a string.  Args:    s (str): The string to remove non-ASCII, space, and newline characters from.  Returns:    str: The string with non-ASCII, space, and newline characters removed.  """  result = ""  for c in s:    if ord(c) < 128 and c not in ["\n", "\r", "\t", " "]:      result += c  return resultdef remove_non_ascii_and_spaces_and_newlines_and_punctuation(s: str) -> str:  """ Remove non-ASCII, space, newline, and punctuation characters from a string.  Args:    s (str): The string to remove non-ASCII, space, newline, and punctuation characters from.  Returns:    str: The string with non-ASCII, space, newline, and punctuation characters removed.  """  result = ""  for c in s:    if ord(c) < 128 and c not in ["\  return result

如果在上述代码中强行使用CodeLlama-7b-Python-hf模型做代码填充任务，模型inference的时候可能报错：

RuntimeError: CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling `cublasCreate(handle)`

指令编码

如前面所述基座模型可以用于代码补全和填充，Code Llama还发布了一个经过指令微调的模型，可用于对话式编程。针对这个任务，需要使用llama2中的提示模板，具体可以参考之前的文章：Llama 2实战(上篇):本地部署(附代码) ：

[INST] <>
{{ system_prompt }}
<>

{{ user_msg_1 }} [/INST] {{ model_answer_1 }} [INST] {{ user_msg_2 }} [/INST]

注意，系统提示是可选的，在没有它的情况下模型可以正常工作，但我们可以使用系统提示system_prompt来进一步配置模型的行为或风格。例如，总是希望得到JavaScript的代码答案，可以在这里指定。在系统提示之后，需要提供历史对话：用户询问的问题和模型的回答。与代码填充案例一样，需要注意使用分隔符。输入的最后一个组成必须始终是一个新的用户指令，这是模型提供答案的信号。以下代码片段演示了在实践中模板的工作方式。

没有system prompt的用户query

user = 'I have a pandas DataFrame df['text'], how can I directly add a list of data test_list to df['text'] to increase the number of rows?' prompt = f"[INST] {user.strip()} [/INST]" inputs = tokenizer(prompt, return_tensors="pt", add_special_tokens=False).to("cuda")

「完整示例代码：」

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time    : 2023/9/5 20:49 # @Author  : 卖猪脚饭的小女孩 # @联系方式  : 微信公众号<小窗幽记机器学习> # @File    : inference_code_instructions_hf_v2.py """ 测试  instruction 版模型 CUDA_VISIBLE_DEVICES=2 python3 inference_code_instructions_hf_v2.py """ from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig model_id = "/home/model_zoo/LLM/llama2/CodeLlama-7b-Instruct-hf/" # model_id = "codellama/CodeLlama-34b-hf" # device_map="auto", tokenizer = AutoTokenizer.from_pretrained(model_id) model = AutoModelForCausalLM.from_pretrained(     model_id, ).to("cuda") user_query = "I have a pandas DataFrame df['text'], how can I directly add a list of data test_list to df['text'] to increase the number of rows?" prompt = f"[INST] {user_query.strip()} [/INST]" inputs = tokenizer(prompt, return_tensors="pt").to("cuda") output = model.generate(     inputs["input_ids"],     max_new_tokens=512,     do_sample=True,     top_p=0.9,     temperature=0.1, ) output = output[0].to("cpu") print(tokenizer.decode(output))

输出结果如下：

[INST] I have a pandas DataFrame df['text'], how can I directly add a list of data test_list to df['text'] to increase the number of rows? [/INST] You can use the `append` method to add a list of data to a pandas DataFrame. Here's an example:```import pandas as pd# create a sample DataFramedf = pd.DataFrame({'text': ['hello', 'world']})# create a list of data to addtest_list = ['foo', 'bar', 'baz']# add the list to the DataFramedf['text'] = df['text'].append(test_list)print(df)```This will output:``` text0 hello1 world2 foo3 bar4 baz```Note that the `append` method returns a new DataFrame with the added data, so you need to assign the result back to the original DataFrame.Alternatively, you can use the `concat` function to concatenate the DataFrame with the list of data:```import pandas as pd# create a sample DataFramedf = pd.DataFrame({'text': ['hello', 'world']})# create a list of data to addtest_list = ['foo', 'bar', 'baz']# concatenate the DataFrame with the list of datadf = pd.concat([df, pd.DataFrame({'text': test_list})])print(df)```This will output the same result as the previous example.

可以看出，输出了2种代码。第一种：

import pandas as pd # create a sample DataFrame df = pd.DataFrame({'text': ['hello', 'world']}) # create a list of data to add test_list = ['foo', 'bar', 'baz'] # add the list to the DataFrame df['text'] = df['text'].append(test_list) print(df)

第一种代码写法无法正常运行。

第二种：

import pandas as pd # create a sample DataFrame df = pd.DataFrame({'text': ['hello', 'world']}) # create a list of data to add test_list = ['foo', 'bar', 'baz'] # concatenate the DataFrame with the list of data df = pd.concat([df, pd.DataFrame({'text': test_list})]) print(df)

经过测试，第二种写法可以正常运行，且结果符合预期。

所以，简单的代码需求，CodeLlama-7b-Instruct-hf表现一般，可能存在一些比较明显的坑。

进一步尝试使用34B版模型：CodeLlama-34b-Instruct-hf，生成代码如下：

import pandas as pd # create a sample DataFrame with a 'text' column df = pd.DataFrame({'text': ['hello', 'world', 'this', 'is', 'a', 'test']}) # create a list of data to add to the 'text' column test_list = ['new', 'data', 'to', 'add'] # concatenate the 'text' column with the test_list df['text'] = pd.concat([df['text'], test_list]) print(df)

上述代码直接运行会报错：

TypeError: cannot concatenate object of type ''; only Series and DataFrame objs are valid

带system prompt的用户query

system = "Provide answers in C++" user = "Write a function that computes the set of sums of all contiguous sublists of a given list." prompt = f"<>\\n{system}\\n<>\\n\\n{user}" inputs = tokenizer(prompt, return_tensors="pt", add_special_tokens=False).to("cuda")

带历史对话的持续对话

system = "System prompt" user_1 = "user_prompt_1" answer_1 = "answer_1" user_2 = "user_prompt_2" answer_2 = "answer_2" user_3 = "user_prompt_3" prompt  = f"<>\\n{system}\\n<>\\n\\n{user_1}" prompt  = f"[INST] {prompt.strip()} [/INST] {answer_1.strip()} " prompt += f"[INST] {user_2.strip()} [/INST] {answer_2.strip()} " prompt += f"[INST] {user_3.strip()} [/INST]" inputs = tokenizer(prompt, return_tensors="pt", add_special_tokens=False).to("cuda")

ChatGPT vs GPT4

延续上述指令编程中的panda行方向数据扩增这一代码需求，在ChatGPT和GPT4上对比测试。由于ChatGPT和GPT4都支持中文输入，所以直接使用中文Promp输入：

我有一个pandas数据 df['text']，如何将一个list数据test_list直接添加到df['text']中，使得行数变多

「ChatGPT生成结果如下：」

import pandas as pd # 原始数据 df = pd.DataFrame({'text': ['hello', 'world']}) # 要添加的数据 test_list = ['foo', 'bar'] # 将test_list作为一个新的DataFrame对象添加到原始DataFrame对象中 new_df = df.append(pd.DataFrame({'text': test_list}), ignore_index=True) # 打印结果 print(new_df)

ChatGPT生成代码运行结果如下：

   text 0  hello 1  world 2    foo 3    bar

「GPT4生成结果如下：」

# 假设这是你的原始DataFrame import pandas as pd df = pd.DataFrame({'text': ['hello', 'world']}) # 这是你要添加的list test_list = ['foo', 'bar'] # 将list转换为DataFrame new_df = pd.DataFrame({'text': test_list}) # 使用append方法将新的DataFrame添加到原来的DataFrame中 df = df.append(new_df, ignore_index=True) print(df)

GPT4生成代码运行结果如下：

    text 0  hello 1  world 2    foo 3    bar

可以看出，对于简单的代码需求，ChatGPT和GPT4都cover住。

功能任务是否正常运行结果是否符合预期总体评估

代码补全(34B版) 求斐波那契数列 yes yes

代码补全(34B-4bit版) 去除非ascii字符 yes yes

代码填充(7B-Instruct版) 去除非ascii字符 yes yes

指令编程(7B-Instruct版) pandas指定列增加行数据 yes & no yes & no

指令编程(34B-Instruct版) pandas指定列增加行数据 no no

ChatGPT pandas指定列增加行数据 yes yes

GPT-4 pandas指定列增加行数据 yes yes

小结

在普通代码需求上，现阶段的Code Llama模型仍然有一些明显的瑕疵，实战效果仍不如ChatGPT和GPT4。相信Code Llama后续的发展及其成长可以进一步趋近当下的ChatGPT和GPT4。

功能	任务	是否正常运行	结果是否符合预期
代码补全(34B版)	求斐波那契数列	yes	yes
代码补全(34B-4bit版)	去除非ascii字符	yes	yes
代码填充(7B-Instruct版)	去除非ascii字符	yes	yes
指令编程(7B-Instruct版)	pandas指定列增加行数据	yes & no	yes & no
指令编程(34B-Instruct版)	pandas指定列增加行数据	no	no
ChatGPT	pandas指定列增加行数据	yes	yes
GPT-4	pandas指定列增加行数据	yes	yes

LLM-Agent方法评估与效果分析 agent人工智能ai开发
1.引言近年来，随着大型语言模型（LLM）的快速发展，基于强化学习（RL）对LLM进行微调以使其具备代理（Agent）能力成为研究热点。从基础的单智能体强化学习算法（如PPO）到多智能体协作、语料重组以及在线自学习等新技术不断涌现，研究人员致力于探索如何提高LLM在实际应用中的决策能力、推理能力和任务执行效率。本文主要聚焦于当前LLM-Agent方法的检索与评估，旨在全面探讨各类方法的技术实现、实
LLM 大模型技术知识最佳学习路径图发布！ AGI-杠哥学习人工智能语言模型 agi 自然语言处理
近日，经常有小伙伴私信我，大模型知识太多了，有点懵啊，我该如何学习LLM大模型？今天我们就来剖析下LLM大模型技术知识的学习路径。如果你是一个LLM大模型的“技术小白”，我们建议的学习路径如下：技术交流群前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~我们建了大模型技术与面试交流群
MiniMind：完全从 0 训练自己的大模型三花AI 三花AI 人工智能 LLM大模型
是B站UP主近在远方的远开源的一个微型语言模型，改进自DeepSeek-V2、Llama3结构，项目包含整个数据处理、pretrain、sft、dpo的全部阶段，包含混合专家(MoE)模型。其目标是把上手LLM的门槛无限降低，直接从0开始训练一个极其轻量的语言模型，最低仅需2G显卡即可推理训练！
llama源码学习·model.py[3]ROPE旋转位置编码(2)旋转角度生成代码小杜不吃糖 llama
一、源码注释defprecompute_freqs_cis(dim:int,end:int,theta:float=1000.0):'''预先计算频率和复数的cosine和sine值，用于后续的PositionalEncodingdim:维度end:一个序列的最大长度或位置的最大值theta:用于计算频率的超参数，默认值为1000.0'''#生成一个等比数列，即频率（frequencies），这种
minimind2学习：（1）训练溯源006 minimind学习学习深度学习生成模型
1、数据下载参考：https://github.com/jingyaogong/minimind/tree/master2、预训练训练6个epochspythontrain_pretrain.py--epochs6训练过程：LLM总参数量：25.830百万Epoch:[1/6](0/11040)loss:8.940lr:0.000550000000epoch_Time:106.0min:Epoch
llama-factory 微调 Qwen2.5-3B-Instruct coco_1998_2 llama factory fine tune
0、资源链接官方readme:https://github.com/hiyouga/LLaMA-Factory/blob/v0.9.1/README_zh.md官方文档:https://llamafactory.readthedocs.io/zh-cn/latest/官方推荐的知乎教程：https://zhuanlan.zhihu.com/p/6952876071、安装LLaMAFactorygi
关于AI OS那点事大囚长科普天地大模型人工智能
AIOS（人工智能操作系统）作为面向智能时代的操作系统，其功能定位和架构设计与传统操作系统（如Linux、Windows、iOS等）存在显著差异。一、AIOS需具备的核心功能智能体全生命周期管理智能体调度与并发：需支持多智能体任务的优先级排序、资源分配及并发执行，例如通过轮询调度或动态优先级算法优化LLM资源利用率。上下文感知与切换：通过上下文管理器实现智能体交互状态的快照保存与恢复，解决LLM生
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
Deepseek-R1-Distill-Llama-8B + Unsloth 中文医疗数据微调实战 LuckyAnJo LLM相关 llama python 自然语言处理人工智能
内容参考至博客与Bin_Nong1.环境搭建主要依赖的库(我的版本)：torch==2.5.1unsloth==2025.2.15trl==0.15.2transformers==4.49.0datasets=3.3.1wandb==0.19.62.数据准备-medical_o1_sft_Chinese经过gpt-o1的包含cot(思考过程)的中文医疗问答数据，格式与内容如下:"Question"
微软Data Formulator：用AI重塑数据可视化的未来几道之旅人工智能智能体及数字员工人工智能信息可视化
在数据驱动的时代，如何快速将复杂数据转化为直观的图表是每个分析师面临的挑战。微软研究院推出的开源工具DataFormulator，通过结合AI与交互式界面，重新定义了数据可视化的工作流。本文将深入解析这一工具的核心功能、安装方法及使用技巧，助你轻松驾驭数据之美。一、DataFormulator是什么？DataFormulator是一款基于大语言模型（LLM）的AI工具，旨在帮助用户通过自然语言和界
使用LangSmith追踪LLM令牌使用情况的指南 dgay_hua java 服务器前端 python
在将应用程序投入生产时，追踪令牌使用情况以计算成本是一个重要的步骤。本文将深入探讨如何从LangChain模型调用中获取这些信息。技术背景介绍在大语言模型（LLM）的应用中，令牌使用计数是估算模型调用成本的基础。LangSmith提供了一种有效的方式来帮助跟踪应用程序中的令牌使用。此外，使用回调机制可以在不同的API调用中进行监控，这对于复杂的应用程序尤其重要。核心原理解析通过在API调用中使用回
大模型最新面试题系列：微调篇之微调基础知识人肉推土机大模型最新面试题集锦大全面试人工智能 AI编程大模型微调 LLM
一、全参数微调（Full-Finetune）vs参数高效微调（PEFT）对比1.显存使用差异全参数微调：需存储所有参数的梯度（如GPT-3175B模型全量微调需约2.3TB显存）PEFT：以LoRA为例，仅需存储低秩矩阵参数（7B模型使用r=16的LoRA时显存占用减少98%）实战经验：在A10080GB显存下，全量微调LLaMA-7B需DeepSpeedZero3优化，而LoRA可直接单卡运行2
一步到位！7大模型部署框架深度测评：从理论到DeepSeek R1:7B落地实战人肉推土机人工智能 python
本文在掘金同步发布：文章地址更多优质文章，请关注本人掘金账号：人肉推土机的掘金账号随着大语言模型（LLM）的广泛应用，如何高效部署和推理模型成为开发者关注的核心问题。本文深入解析主流模型部署框架（Transformers、ModelScope、vLLM、LMDeploy、Ollama、SGLang、DeepSpeed），结合其技术原理、优缺点及适用场景，并提供DeepSeekR1:7B的详细部署实
MCP协议 zhurui_xiaozhuzaizai 入口集锦人工智能自然语言处理
1什么是MCP？MCP（ModelContextProtocol，模型上下文协议）是由Anthropic推出的一种开放标准，旨在统一大型语言模型（LLM）与外部数据源和工具之间的通信协议。MCP的主要目的在于解决当前AI模型因数据孤岛限制而无法充分发挥潜力的难题，MCP使得AI应用能够安全地访问和操作本地及远程数据，为AI应用提供了连接万物的接口。1.1MCP与functioncallMCP是在O
使用Aim追踪LangChain执行 bavDHAUO langchain python
在现代人工智能应用中，调试和可视化自动化工作流变得越来越重要，Aim正是为此而生。通过Aim，你可以轻松地追踪LangChain中语言模型(LLM)和工具的输入输出，以及代理的动作，从而在执行过程中快速定位和解决问题。此外，Aim还支持并排比较多个执行流程，使之成为调试中的得力助手。Aim是一个完全开源的项目，你可以在GitHub上找到更多关于Aim的信息。在本文中，我们将展示如何启用和配置Aim
使用DeepEval进行LLM的单元测试 VYSAHF 单元测试 log4j python
在构建大语言模型（LLM）时，测试是确保模型行为和性能的关键步骤。ConfidentAI推出的DeepEval提供了一套完整的工具包，帮助开发者进行LLM的单元测试和集成测试。结合这些功能，你可以快速迭代，创建更健壮的语言模型。技术背景介绍DeepEval是ConfidentAI开发的一个包，用于语言模型的单元测试和集成测试。它的目标是让开发者能够通过合成数据创建、测试和优化模型，从而实现更高效的
AI-智能体修炼十万年的狗尾巴草人工智能大数据
什么是AI智能体？「AI智能体」这个术语并没有真正被定义，对智能体究竟是什么也存在很多的争议。AI智能体可以定义为「一个被赋予行动能力的LLM（通常在RAG环境中进行函数调用），以便在环境中对如何执行任务做出高层次的决策。」当前，构建AI智能体主要有以下两种架构方法：**单一智能体：**一个大型模型处理整个任务，并基于其全面的上下文理解做出所有决策和行动。这种方法利用了大型模型的涌现能力，避免了将
【AI 天才研究院】从 MoE 架构到 AGI：DeepSeek 将给未来带来哪些影响？ AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型人工智能架构 agi DeepSeek
关键技术创新DeepSeek的成本优势主要源于以下几个方面的技术创新：混合专家（MoE）架构：通过选择性激活特定专家网络，大幅降低了计算成本。具体而言，DeepSeekMoE架构实现了：仅用大约40%的计算量，便达到了与LLaMA2-7B差不多的效果。这种选择性激活的方式大大提高了模型的参数效率，从而在保持高性能的同时，也能在计算资源的使用上保持高效。FP8低精度训练：DeepSeek采用了FP8
nextjs 实现rag知识库检索增强的ai问答app *goliter * web开发学习人工智能
AI-Chat-一个基于LLM大语言模型的知识库问答系统项目源码：https://github.com/goliter/ai-chat项目简介AI-Chat是一个基于Next.js和React开发的现代化大语言模型的知识库问答系统。该平台提供了简易的对话界面，支持上传文件进行知识库的构建，让用户在与大语言模型进行问答时给与大模型知识库内的相关内容。主要功能上传文件构建属于自己的知识库支持doc,t
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【NLP】 API在大语言模型中的应用 Nerous_ 深度学习自然语言处理语言模型人工智能
大语言模型（LargeLanguageModels,LLMs）通过API（应用程序接口）为开发者提供了便捷的调用方式，使其能够快速集成自然语言处理能力到各类应用中。以下是API在LLM中的核心应用场景及技术实现细节：一、核心应用场景自然语言理解与生成应用示例：智能客服：解析用户问题并生成回复（如ChatGPTAPI）。内容创作：自动生成文章、广告文案或代码（如OpenAI的GPT-4）。技术实现：
谷歌：对比学习将LLM转为嵌入模型大模型任我行大模型-成熟基座人工智能自然语言处理语言模型论文笔记
标题：GeminiEmbedding:GeneralizableEmbeddingsfromGemini来源：arXiv,2503.07891摘要在本报告中，我们介绍了Gemini嵌入，这是一种最先进的嵌入模型，它利用了Gemini、Google最有能力的大型语言模型的力量。利用Gemini固有的多语言和代码理解能力，GeminiEmbedding为跨越多种语言和文本模式的文本生成高度可概括的嵌入
如何用大模型评估大模型——PAI-Judge裁判员大语言模型的实现简介人工智能机器学习大模型llm
背景：为什么需要一个「裁判员大语言模型」？随着大模型（LLM）技术的爆发式应用，如何快速、客观评估模型回复质量成为行业痛点。对于回答客观问题的LLM，目前业内已经有比较成熟的数据集进行效果评测与模型打榜。但是如何对一个开放式生成LLM进行效果评估，尤其在知识问答、客服对话、内容合规、RAG（检索增强生成）等场景中，目前主流的评测方式仍存在一定的局限性：人工标注：成本高昂、效率低下；传统的自动化评估
AI编程系列之Claude 3.5 Sonnet：编码的未来已无限改变！ Claude 3.5 Sonnet 即将改变一切！知识大胖 NVIDIA GPU和大语言模型开发教程 AI编程信息可视化 claude
简介“编程并不是让你成为一个成功人士的必要条件。”Nvidia首席执行官黄仁勋。正如JensenHuang所说，LLM的最新特点让我们意识到了解编码可能并不像我们想象的那么重要。你知道吗，你可以在2分钟内创建一款贪吃蛇或俄罗斯方块游戏？在本文中，我们将探索Claude3.5Sonnet，你将明白为什么最近每个人都在谈论它。推荐文章《AnythingLLM教程系列之05AnythingLLM允许您创
AnythingLLM - 任何文档资源内容转换为任何LLM 小众AI AI开源人工智能 AI编程
更多AI开源软件：AI开源-小众AIhttps://www.aiinn.cn/sources一个全栈应用程序，使您能够将任何文档、资源或内容转换为任何LLM都可以在聊天期间用作参考的上下文。此应用程序允许您选择要使用的LLM或矢量数据库，并支持多用户管理和权限。AnythingLLM是一个全栈应用程序，您可以在其中使用商用现成的LLM或流行的开源LLM和vectorDB解决方案来构建一个不折不扣的
智见未来：多大模型协同的数据分析新范式一ge科研小菜菜人工智能大数据人工智能大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着大语言模型（LLM）的快速发展，ChatGPT、DeepSeek、Grok等AI模型在数据分析和洞察生成方面展现出巨大潜力。利用多个LLM的协同能力，可以增强数据分析的多角度解读、减少单一模型的偏差，并优化洞察生成的深度和精准度。本文探讨如何结合多个LLM，在数据分析领域实现更可靠的洞察生成，并提供具体的策略、方法和应用场景。2.主要
无矩阵乘法LLM：效率与性能双突破 XianxinMao 人工智能矩阵人工智能线性代数
标题：无矩阵乘法LLM：效率与性能双突破文章信息摘要：无矩阵乘法的LLMs通过创新技术替代传统矩阵乘法操作，显著降低了计算成本，减少了对GPU的依赖。这种模型在内存使用和延迟方面表现优异，尤其在大规模模型上效率显著提升。例如，13B参数的模型仅需4.19GBGPU内存，延迟低至695.48ms，远优于传统模型。此外，基于FPGA的硬件优化进一步提升了性能，1.3B参数模型功耗仅为13W，达到人类阅
Adam-mini：深度学习内存效率新突破 XianxinMao 人工智能深度学习人工智能
标题：Adam-mini：深度学习内存效率新突破文章信息摘要：Adam-mini优化器在深度学习领域展现出突破性潜力，尤其在内存效率和计算性能上表现卓越。相比AdamW，Adam-mini将内存效率提升了一倍，并通过减少学习率数量显著降低了内存消耗，同时保持了与AdamW相当甚至更好的性能。在训练十亿参数级别的大语言模型（LLM）时，Adam-mini实现了49.6%的吞吐量提升，并减少了33%的
使用提示词进行信息抽取的实用方法 scaFHIO windows python
在大规模语言模型（LLM）中进行信息抽取时，我们不一定需要工具调用功能。通过精心设计的提示词（prompt）可以指导模型输出特定格式的信息，然后对其进行解析以生成结构化数据。这种方法依赖于创建良好的提示词，并将LLM的输出解析为所需的Python对象。技术背景介绍大规模语言模型可以根据提示词生成特定格式的文本。例如，我们可以要求模型以JSON格式输出所需的信息。在信息抽取的场景中，设计良好的提示词
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&