机器学习社区

大模型推理部署：LLM 七种推理服务框架总结

自从ChatGPT发布以来，国内外的开源大模型如雨后春笋般成长，但是对于很多企业和个人从头训练预训练模型不太现实，即使微调开源大模型也捉襟见肘，那么直接部署这些开源大模型服务于企业业务将会有很大的前景。

本文将介绍七中主流的LLM推理和服务开源库。下面首先来总结一下这些框架的特点，如下表所示：

LLM推理有很多框架，各有其特点，下面分别介绍一下表中七个框架的关键点：

vLLM[1]：适用于大批量Prompt输入，并对推理速度要求高的场景；
Text generation inference[2]：依赖HuggingFace模型，并且不需要为核心模型增加多个adapter的场景；
CTranslate2[3]：可在CPU上进行推理；
OpenLLM[4]：为核心模型添加adapter并使用HuggingFace Agents，尤其是不完全依赖PyTorch；
Ray Serve[5]：稳定的Pipeline和灵活的部署，它最适合更成熟的项目；
MLC LLM[6]：可在客户端（边缘计算）（例如，在Android或iPhone平台上）本地部署LLM；
DeepSpeed-MII[7]：使用DeepSpeed库来部署LLM；

技术交流群&本文源码

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

建了技术交流群&星球！想要本文源码、进交流群的同学，可以直接加微信号：mlc2060。加的时候备注一下：研究方向 +学校/公司，即可。然后就可以拉你进群了。

方式①、添加微信号：mlc2060，备注：技术交流
方式②、微信搜索公众号：机器学习社区，后台回复：技术交流

下面我们在内存容量为40GB的A100 GPU上，并且使用LLaMA-1 13b模型（因为列表中的所有库都支持它）进行七个部署框架的对比。

一、vLLM

vLLM的吞吐量比HuggingFace Transformers（HF）高14x-24倍，比HuggingFace Text Generation Inference（TGI）高2.2x-2.5倍。

离线批量推理

# pip install vllm
from vllm import LLM, SamplingParams


prompts = [
    "Funniest joke ever:",
    "The capital of France is",
    "The future of AI is",
]
sampling_params = SamplingParams(temperature=0.95, top_p=0.95, max_tokens=200)
llm = LLM(model="huggyllama/llama-13b")
outputs = llm.generate(prompts, sampling_params)

for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

API Server

# Start the server:
python -m vllm.entrypoints.api_server --env MODEL_NAME=huggyllama/llama-13b

# Query the model in shell:
curl http://localhost:8000/generate \
    -d '{
        "prompt": "Funniest joke ever:",
        "n": 1,
        "temperature": 0.95,
        "max_tokens": 200
    }'

功能：

Continuous batching[9]：有iteration-level的调度机制，每次迭代batch大小都有所变化，因此vLLM在大量查询下仍可以很好的工作。
PagedAttention[10]：受操作系统中虚拟内存和分页的经典思想启发的注意力算法，这就是模型加速的秘诀。

优点：

文本生成的速度： 实验多次，发现vLLM的推理速度是最快的；
高吞吐量服务： 支持各种解码算法，比如parallel sampling, beam search等；
与OpenAI API 兼容：如果使用OpenAI API，只需要替换端点的URL即可；

缺点：

添加自定义模型：虽然可以合并自己的模型，但如果模型没有使用与vLLM中现有模型类似的架构，则过程会变得更加复杂。例如，增加Falcon的支持，这似乎很有挑战性；
缺乏对适配器（LoRA、QLoRA等）的支持：当针对特定任务进行微调时，开源LLM具有重要价值。然而，在当前的实现中，没有单独使用模型和适配器权重的选项，这限制了有效利用此类模型的灵活性。
缺少权重量化：有时，LLM可能不需要使用GPU内存，这对于减少GPU内存消耗至关重要。

这是LLM推理最快的库。得益于其内部优化，它显著优于竞争对手。尽管如此，它在支持有限范围的模型方面确实存在弱点。

使用vLLM的开发路线可以参考：https://github.com/vllm-project/vllm/issues/244

二、Text generation inference

Text generation inference是用于文本生成推断的Rust、Python和gRPC服务器，在HuggingFace中已有LLM 推理API使用。

使用docker运行web server

mkdir data
docker run --gpus all --shm-size 1g -p 8080:80 \
-v data:/data ghcr.io/huggingface/text-generation-inference:0.9 \
  --model-id huggyllama/llama-13b \
  --num-shard 1

查询实例

# pip install text-generation
from text_generation import Client

client = Client("http://127.0.0.1:8080")
prompt = "Funniest joke ever:"
print(client.generate(prompt, max_new_tokens=17 temperature=0.95).generated_text)

功能：

内置服务评估： 可以监控服务器负载并深入了解其性能；
使用flash attention（和v2）和Paged attention优化transformer推理代码： 并非所有模型都内置了对这些优化的支持，该技术可以对未使用该技术的模型可以进行优化；

优点：

所有的依赖项都安装在Docker中： 会得到一个现成的环境；
支持HuggingFace模型： 轻松运行自己的模型或使用任何HuggingFace模型中心；
对模型推理的控制：该框架提供了一系列管理模型推理的选项，包括精度调整、量化、张量并行性、重复惩罚等；

缺点：

缺乏对适配器的支持： 需要注意的是，尽管可以使用适配器部署LLM（可以参考https://www.youtube.com/watch?v=HI3cYN0c9ZU），但目前还没有官方支持或文档；
从源代码（Rust+CUDA内核）编译： 对于不熟悉Rust的人，将客户化代码纳入库中变得很有挑战性；
文档不完整：所有信息都可以在项目的自述文件中找到。尽管它涵盖了基础知识，但必须在问题或源代码中搜索更多细节；

使用Text generation inference的开发路线可以参考：https://github.com/huggingface/text-generation-inference/issues/232

三、CTranslate2

CTranslate2是一个C++和Python库，用于使用Transformer模型进行高效推理。

转换模型

pip install -qqq transformers ctranslate2

# The model should be first converted into the CTranslate2 model format:
ct2-transformers-converter --model huggyllama/llama-13b --output_dir llama-13b-ct2 --force

查询实例

import ctranslate2
import transformers

generator = ctranslate2.Generator("llama-13b-ct2", device="cuda", compute_type="float16")
tokenizer = transformers.AutoTokenizer.from_pretrained("huggyllama/llama-13b")

prompt = "Funniest joke ever:"
tokens = tokenizer.convert_ids_to_tokens(tokenizer.encode(prompt))
results = generator.generate_batch(
    [tokens], 
    sampling_topk=1, 
    max_length=200, 
)
tokens = results[0].sequences_ids[0]
output = tokenizer.decode(tokens)
print(output)

功能：

在CPU和GPU上快速高效地执行： 得益于内置的一系列优化：层融合、填充去除、批量重新排序、原位操作、缓存机制等。推理LLM更快，所需内存更少；
动态内存使用率： 由于CPU和GPU上都有缓存分配器，内存使用率根据请求大小动态变化，同时仍能满足性能要求；
支持多种CPU体系结构： 该项目支持x86–64和AArch64/ARM64处理器，并集成了针对这些平台优化的多个后端：英特尔MKL、oneDNN、OpenBLAS、Ruy和Apple Accelerate；

优点：

并行和异步执行–可以使用多个GPU或CPU核心并行和异步处理多个批处理；
Prompt缓存——在静态提示下运行一次模型，缓存模型状态，并在将来使用相同的静态提示进行调用时重用；
磁盘上的轻量级–量化可以使模型在磁盘上缩小4倍，而精度损失最小；

缺点：

没有内置的REST服务器——尽管仍然可以运行REST服务器，但没有具有日志记录和监控功能的现成服务
缺乏对适配器（LoRA、QLoRA等）的支持

四、DeepSpeed-MII

在DeepSpeed支持下，DeepSpeed-MII可以进行低延迟和高通量推理。

运行web服务

# DON'T INSTALL USING pip install deepspeed-mii
# git clone https://github.com/microsoft/DeepSpeed-MII.git
# git reset --hard 60a85dc3da5bac3bcefa8824175f8646a0f12203
# cd DeepSpeed-MII && pip install .
# pip3 install -U deepspeed

# ... and make sure that you have same CUDA versions:
# python -c "import torch;print(torch.version.cuda)" == nvcc --version
import mii

mii_configs = {
    "dtype": "fp16",
    'max_tokens': 200,
    'tensor_parallel': 1,
    "enable_load_balancing": False
}
mii.deploy(task="text-generation",
           model="huggyllama/llama-13b",
           deployment_name="llama_13b_deployment",
           mii_config=mii_configs)

查询实例

import mii

generator = mii.mii_query_handle("llama_13b_deployment")
result = generator.query(  
  {"query": ["Funniest joke ever:"]}, 
  do_sample=True,
  max_new_tokens=200
)
print(result)

功能：

多个副本上的负载平衡： 这是一个非常有用的工具，可用于处理大量用户。负载均衡器在各种副本之间高效地分配传入请求，从而缩短了应用程序的响应时间。
非持久部署： 目标环境的部署不是永久的，需要经常更新的，这在资源效率、安全性、一致性和易管理性至关重要的情况下，这是非常重要的。

优点：

支持不同的模型库： 支持多个开源模型库，如Hugging Face、FairSeq、EluetherAI等；
量化延迟和降低成本： 可以显著降低非常昂贵的语言模型的推理成本；
Native和Azure集成： 微软开发的MII框架提供了与云系统的出色集成；

缺点：

支持模型的数量有限： 不支持Falcon、LLaMA2和其他语言模型；
缺乏对适配器（LoRA、QLoRA等）的支持；

五、OpenLLM

OpenLLM是一个用于在生产中操作大型语言模型（LLM）的开放平台。

运行web服务

pip install openllm scipy
openllm start llama --model-id huggyllama/llama-13b \
  --max-new-tokens 200 \
  --temperature 0.95 \
  --api-workers 1 \
  --workers-per-resource 1

查询实例

import openllm

client = openllm.client.HTTPClient('http://localhost:3000')
print(client.query("Funniest joke ever:"))

功能：

适配器支持： 可以将要部署的LLM连接多个适配器，这样可以只使用一个模型来执行几个特定的任务；
支持不同的运行框架： 比如Pytorch（pt）、Tensorflow（tf）或Flax（亚麻）；
HuggingFace Agents[11]： 连接HuggingFace上不同的模型，并使用LLM和自然语言进行管理；

优点：

良好的社区支持： 不断开发和添加新功能；
集成新模型： 可以添加用户自定义模型；
量化： OpenLLM支持使用bitsandbytes[12]和GPTQ[13]进行量化；
LangChain集成： 可以使用LangChian与远程OpenLLM服务器进行交互；

缺点：

缺乏批处理支持： 对于大量查询，这很可能会成为应用程序性能的瓶颈；
缺乏内置的分布式推理——如果你想在多个GPU设备上运行大型模型，你需要额外安装OpenLLM的服务组件Yatai[14]；

六、Ray Serve

Ray Serve是一个可扩展的模型服务库，用于构建在线推理API。Serve与框架无关，因此可以使用一个工具包来为深度学习模型的所有内容提供服务。

运行web服务

# pip install ray[serve] accelerate>=0.16.0 transformers>=4.26.0 torch starlette pandas
# ray_serve.py
import pandas as pd

import ray
from ray import serve
from starlette.requests import Request

@serve.deployment(ray_actor_options={"num_gpus": 1})
class PredictDeployment:
    def __init__(self, model_id: str):
        from transformers import AutoModelForCausalLM, AutoTokenizer
        import torch

        self.model = AutoModelForCausalLM.from_pretrained(
            model_id,
            torch_dtype=torch.float16,
            device_map="auto",
        )
        self.tokenizer = AutoTokenizer.from_pretrained(model_id)

    def generate(self, text: str) -> pd.DataFrame:
        input_ids = self.tokenizer(text, return_tensors="pt").input_ids.to(
            self.model.device
        )
        gen_tokens = self.model.generate(
            input_ids,
            temperature=0.9,
            max_length=200,
        )
        return pd.DataFrame(
            self.tokenizer.batch_decode(gen_tokens), columns=["responses"]
        )

    async def __call__(self, http_request: Request) -> str:
        json_request: str = await http_request.json()
        return self.generate(prompt["text"])

deployment = PredictDeployment.bind(model_id="huggyllama/llama-13b")


# then run from CLI command:
# serve run ray_serve:deployment

查询实例

import requests

sample_input = {"text": "Funniest joke ever:"}
output = requests.post("http://localhost:8000/", json=[sample_input]).json()
print(output)

功能：

监控仪表板和Prometheus度量： 可以使用Ray仪表板来获得Ray集群和Ray Serve应用程序状态；
跨多个副本自动缩放： Ray通过观察队列大小并做出添加或删除副本的缩放决策来调整流量峰值；
动态请求批处理： 当模型使用成本很高，为最大限度地利用硬件，可以采用该策略；

优点：

文档支持： 开发人员几乎为每个用例撰写了许多示例；
支持生产环境部署： 这是本列表中所有框架中最成熟的；
本地LangChain集成： 您可以使用LangChian与远程Ray Server进行交互；

缺点：

缺乏内置的模型优化： Ray Serve不专注于LLM，它是一个用于部署任何ML模型的更广泛的框架，必须自己进行优化；
入门门槛高： 该库功能多，提高了初学者进入的门槛；

如果需要最适合生产的解决方案，而不仅仅是深度学习，Ray Serve是一个不错的选择。它最适合于可用性、可扩展性和可观察性非常重要的企业。此外，还可以使用其庞大的生态系统进行数据处理、模型训练、微调和服务。最后，从OpenAI到Shopify和Instacart等公司都在使用它。

七、MLC LLM

LLM的机器学习编译（MLC LLM）是一种通用的部署解决方案，它使LLM能够利用本机硬件加速在消费者设备上高效运行。

运行web服务

# 1. Make sure that you have python >= 3.9
# 2. You have to run it using conda:
conda create -n mlc-chat-venv -c mlc-ai -c conda-forge mlc-chat-nightly
conda activate mlc-chat-venv

# 3. Then install package:
pip install --pre --force-reinstall mlc-ai-nightly-cu118 \
  mlc-chat-nightly-cu118 \
  -f https://mlc.ai/wheels

# 4. Download the model weights from HuggingFace and binary libraries:
git lfs install && mkdir -p dist/prebuilt && \
  git clone https://github.com/mlc-ai/binary-mlc-llm-libs.git dist/prebuilt/lib && \
  cd dist/prebuilt && \  
  git clone https://huggingface.co/huggyllama/llama-13b dist/ && \
  cd ../..
  
  
# 5. Run server:
python -m mlc_chat.rest --device-name cuda --artifact-path dist

查询实例

import requests

payload = {
   "model": "lama-30b",
   "messages": [{"role": "user", "content": "Funniest joke ever:"}],
   "stream": False
}
r = requests.post("http://127.0.0.1:8000/v1/chat/completions", json=payload)
print(r.json()['choices'][0]['message']['content'])

功能：

平台本机运行时： 可以部署在用户设备的本机环境上，这些设备可能没有现成的Python或其他必要的依赖项。应用程序开发人员只需要将MLC编译的LLM集成到他们的项目中即可；
内存优化： 可以使用不同的技术编译、压缩和优化模型，从而可以部署在不同的设备上；

优点：

所有设置均可在JSON配置中完成： 在单个配置文件中定义每个编译模型的运行时配置；
预置应用程序： 可以为不同的平台编译模型，比如C++用于命令行，JavaScript用于web，Swift用于iOS，Java/Kotlin用于Android；

缺点：

使用LLM模型的功能有限：不支持适配器，无法更改精度等，该库主要用于编译不同设备的模型；
只支持分组量化[15]： 这种方法表现良好，但是在社区中更受欢迎的其他量化方法（bitsandbytes和GPTQ）不支持；
复杂的安装： 安装需要花几个小时，不太适合初学者开发人员；

如果需要在iOS或Android设备上部署应用程序，这个库正是你所需要的。它将允许您快速地以本机方式编译模型并将其部署到设备上。但是，如果需要一个高负载的服务器，不建议选择这个框架。

参考文献：

[1] https://github.com/vllm-project/vllm

[2] https://github.com/huggingface/text-generation-inference

[3] https://github.com/OpenNMT/CTranslate2

[4] https://github.com/bentoml/OpenLLM

[5] https://docs.ray.io/en/latest/serve/index.html

[6] https://github.com/mlc-ai/mlc-llm

[7] https://github.com/microsoft/DeepSpeed-MII

[8] https://github.com/microsoft/DeepSpeed

[9] https://www.anyscale.com/blog/continuous-batching-llm-inference

[10] https://vllm.ai/

[11] https://huggingface.co/docs/transformers/main_classes/agent

[12] https://github.com/TimDettmers/bitsandbytes

[13] https://arxiv.org/abs/2210.17323

[14] https://github.com/bentoml/Yatai

[15] https://arxiv.org/abs/2212.09720

你可能感兴趣的:(大模型,自然语言,CV,大模型,算法工程师,模型部署,LLM)

三相PWM整流器有限集模型预测电流控制Simulink仿真模型科研_G.E.M. matlab
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述2运行结果2.1模型2.2直流侧电压输出波形2.3交流侧电压、电流2.4脉冲信号3参考文献4Simulink仿真实现1概述三相PWM整流器有限集模型预测电流控制Simulink仿真模型.在这个模型中，我们将使用Simulink来建立一个三相PWM整流器的仿真模型
C++，vector：动态数组的原理、使用与极致优化智驾 C/C++c++开发语言 STL
文章目录引言一、vector的核心原理1.底层数据结构1.1内存布局的三指针模型1.2内存布局示意图2.动态扩容机制2.1动态扩容过程示例3.关键结论4.代码验证内存布局5.总结二、vector的使用方法1.基本操作2.迭代器与范围遍历三、vector的注意事项1.迭代器失效2.性能陷阱3.特殊类型处理四、vector的性能优化技巧1.预分配内存（reserve）2.使用emplace_back替
深度学习-笔记1 深度学习神经网络
刚开始接触深度学习相关内容，在这儿做一个笔记：网址：https://gitee.com/paddlepaddle/PaddleNLPpaddle-nlp是一个自然语言处理NLP方面的工具包(代码库)ERNIEERNIE是百度基于BERT改进的预训练大模型，结合了Transformer架构和知识增强机制。整体上可以分为预训练模型层和任务适配层，预训练模型层负责学习通用的语言知识和语义表示，任务适配层
深度学习模型在汽车自动驾驶领域的应用 eso1983 深度学习汽车自动驾驶
汽车自动驾驶是一个高度复杂的系统，深度学习和计算技术在其中扮演核心角色。今天简单介绍一下自动驾驶领域常用的深度学习模型及其计算原理的解析。1.深度学习模型分类及应用场景1.1视觉感知模型CNN（卷积神经网络）应用：图像分类、物体检测（车辆、行人、交通标志）、语义分割（道路、车道线）。典型模型：YOLO：实时目标检测，低延迟特性适合自动驾驶。MaskR-CNN：结合检测与像素级分割，用于精确场景理解
DeepSeek的成本优势与行业影响：绿色算力如何重塑AI竞争格局浅学多思人工智能大数据创业创新笔记算力新能源
DeepSeek的成本优势与行业影响：绿色算力如何重塑AI竞争格局在AI大模型与绿色数据中心深度融合的背景下，DeepSeek（深度求索）作为中国AI领域的代表性企业，凭借其显著的成本优势迅速崛起。其低成本策略不仅源于技术端的创新，更与新能源算力革命下的战略布局密切相关。本文将从技术路径、能源结构与商业模式三方面解析DeepSeek的成本密码，并探讨其对AI行业的深远影响。一、DeepSeek的成
javaweb调用pyhton face_recognition传参和参数的返回（包含第三方库） mrhao61 python
fromPILimportImageimportface_recognitionimportcv2importmatplotlib.pyplotaspltfilename="3.jpg"#将jpg文件加载到numpy数组中image=face_recognition.load_image_file(filename)#使用CNN模型#face_locations=face_recognition.
基于Pyhton的人脸识别（Python 3.12+face_recognition库） F2022697486 python 人工智能开发语言
使用Python进行人脸编码和比较简介在这个教程中，我们将学习如何使用Python和face_recognition库来加载图像、提取人脸编码，并比较两个人脸是否相似。face_recognition库是一个强大的工具，它基于dlib的深度学习模型，可以轻松实现人脸检测和识别功能。本教程适合初学者，我们将通过一个简单的项目来了解这个库的基本用法和环境配置。代码示例importface_recogn
Oracle vs MySQL 窗口函数大对决：7个关键差异你了解几个？墨瑾轩数据库学习 oracle mysql 数据库
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣嘿，小伙伴们！今天咱们要来一场精彩的对决——Oracle与MySQL的窗口函数较量。你知道吗？这两个数据库巨头在处理复杂查询时都引入了窗口函数这一强大的工具。那么问题来了，它们之间到底有哪些不同之处呢？别急，让我们一步步揭开谜底，保证你看完这篇文章就能轻松掌握
必须得会的汽车ECU研发基础—软件开发流程6 SOA开发者单元测试
为了保证软件（应用层和底层）开发的质量和效率，当前成熟的ECU软件开发都会采用V流程形式。1V流程是什么V流程来源于软件开发过程中一个称为快速应用开发的模型，由于该模型的构图形似字母V，所以俗称V模型。V模型是软件开发、测试中最重要的一种模型，其大体可划分为几个不同的阶段步骤，即功能需求、功能开发、软件开发、软件集成测试、功能集成测试、整车标定，如上图所示。左边为需求分析和设计开发的过程，右边则为
自然语言处理-词嵌入 (Word Embeddings) 纠结哥_Shrek 自然语言处理人工智能
词嵌入（WordEmbedding）是一种将单词或短语映射到高维向量空间的技术，使其能够以数学方式表示单词之间的关系。词嵌入能够捕捉语义信息，使得相似的词在向量空间中具有相近的表示。常见词嵌入方法基于矩阵分解的方法LatentSemanticAnalysis(LSA)LatentDirichletAllocation(LDA)非负矩阵分解(NMF)基于神经网络的方法Word2Vec（Google提
AI 计算的未来：去中心化浪潮与全球竞争格局重塑智识微光Intelligence 人工智能机器学习大数据
引言人工智能（AI）正以前所未有的速度发展，尤其是大模型训练和推理效率的提升，使得AI计算成本迅速下降，呈现出向去中心化演进的趋势。最新的DeepSeekr1模型，以仅600万美元的训练成本，达到了OpenAIo1级别的性能，表明AI技术正迈向更具普惠性的阶段。这一趋势不仅对AI产业格局产生深远影响，还将改变计算基础设施、全球科技竞争力分布，甚至可能影响人工超级智能（ASI）的未来发展。因此，AI
聊聊AI中的“蒸馏”技术自由鬼行业发展 IT应用探讨产品分析对比人工智能深度学习机器学习
一、什么是“蒸馏”技术“蒸馏”技术实际上是指知识蒸馏（KnowledgeDistillation），这是一种用于压缩和优化大模型的机器学习方法。其核心思想类似于传统蒸馏：大模型（教师模型）包含丰富的知识，而小模型（学生模型）通过学习大模型的输出，从而在保持高性能的同时降低计算成本。1.知识蒸馏的过程教师模型（TeacherModel）训练先训练一个大规模基础模型，这个模型能力很强，但计算开销大。生
使用scikit-learn中的线性回归包对自定义数据集进行拟合 Luzem0319 scikit-learn 线性回归 python
1.导入必要的库首先，需要导入所需的库，包括pandas用于数据处理，numpy用于数值计算，以及scikit-learn中的线性回归模型。importpandasaspdimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.linear_modelimportLinearRegressionfrom
AIGC时代的Vue或React前端开发 GISer_Jinger Javascript React Vue AIGC vue.js react.js
在AIGC（人工智能生成内容）时代，Vue开发正经历着深刻的变革。以下是对AIGC时代Vue开发的详细分析：一、AIGC技术对Vue开发的影响代码生成与自动化AIGC技术使得开发者能够借助智能工具快速生成和优化Vue代码。例如，通过自然语言处理模型（如ChatGPT），开发者可以描述组件的功能和样式需求，然后自动生成包含模板、脚本和样式的完整组件代码。这不仅大大提高了开发效率，还减少了人为错误的可
什么是知识蒸馏技术？ deepdata_cn 垂域模型机器学习人工智能知识蒸馏
知识蒸馏（KnowledgeDistillation）是一种模型压缩和加速技术，旨在将大型模型（通常称为教师模型）所学到的知识迁移到小型模型（通常称为学生模型）中，从而让小型模型在减少计算资源消耗和推理时间的同时，尽可能达到接近大型模型的性能。具有很好的成本效益，在实际应用中有助于降低计算资源需求和部署成本。一、基本原理1.模仿学习：知识蒸馏的核心思想是让学生模型模仿教师模型的行为。教师模型通常是
在亚马逊云科技上通过LangChain ReAct Agent开发金融多模态数据AI分析中台佛州小李哥 AWS技术科技 langchain 人工智能云计算亚马逊云科技 aws 数据分析
项目简介：小李哥将继续每天介绍一个基于亚马逊云科技AWS云计算平台的全球前沿AI技术解决方案，帮助大家快速了解国际上最热门的云计算平台亚马逊云科技AWSAI最佳实践，并应用到自己的日常工作里。本次介绍的是如何在亚马逊云科技机器学习托管服务AmazonSageMaker上搭建一个多模态LangChainAgent，通过ReAct逻辑让Agent通过AmazonBedrockAI模型托管服务上的大模型
MVC 模型：架构与原理 froginwe11 开发语言
MVC模型：架构与原理MVC（Model-View-Controller）模型是一种广泛应用于软件工程的架构模式，主要用于分离应用程序的逻辑层，以提高其可维护性和可扩展性。MVC模型将应用程序分为三个核心组件：模型（Model）、视图（View）和控制器（Controller）。本文将深入探讨MVC模型的概念、工作原理及其在软件开发中的应用。1.模型（Model）模型是MVC架构中的核心组件，负责
大模型蒸馏与大模型微调技术有啥差别? kcarly 大模型知识乱炖杂谈大模型蒸馏大模型微调大模型 AI
大模型蒸馏与大模型微调是当前人工智能领域中两种重要的技术手段，它们在模型优化、性能提升和资源利用方面各有特点。以下将从定义、技术原理、应用场景及优缺点等方面对这两种技术进行深入对比。一、定义与基本概念大模型蒸馏（KnowledgeDistillation）蒸馏是一种将大型复杂模型（教师模型）的知识迁移到小型模型（学生模型）的技术。通过训练学生模型模仿教师模型的行为，实现模型压缩和性能保留的目标。蒸
DeepSeek大模型技术深度解析：揭开Transformer架构的神秘面纱不一样的信息安全网络杂烩 AI DeepSeek
摘要DeepSeek大模型由北京深度求索人工智能基础技术研究有限公司开发，基于Transformer架构，具备卓越的自然语言理解和生成能力。该模型能够高效处理智能对话、文本生成和语义理解等复杂任务，标志着人工智能在自然语言处理领域的重大进展。关键词DeepSeek模型,Transformer架构,自然语言,智能对话,文本生成,语义理解一、DeepSeek大模型的架构解析1.1DeepSeek大模型
大模型情况 Stestack python
一、从百模大战到十模共生，再到价格战总体来看，迄今为止大模型行业的发展经历了以下3个阶段：第一个阶段，百模大战；当初OpenAI横空出世，很多企业竞相涌入大模型赛道，出现了蔚为壮观的“百模大战”的景象.有数据统计，高峰时期，国内完成备案并上线的AI大模型数量接近200个之多。第二阶段，十模共生；随着市场的筛选和对实力考验的加剧，“百模”中的很多“模”，开始掉队。有实力继续坐在牌桌上的成了少数，整个
从 0 到 1，DEEPseek 大模型瞬间 “霸榜” AI 赛道的秘密羑悻的小杀马特. 人工智能 deepseek AI大模型
大家都知道，科技发展特别快，AI更是突飞猛进。DeepSeek大模型，就像一匹黑马，在AI领域迅速冒尖。它和我们常用的搜索引擎、聊天机器人都有联系，到底有多大能耐？让我们一起揭开它的神秘面纱。deepseek官网传送门：DeepSeek下面就对本文标题来剖析一下：目录一·本篇背景：二.技术实力：突破创新的基石:2.1强大的模型能力:2.1.1高效的训练方法:2.2.2优化的推理速度:三·市场策略：
LLM主要类别架构大模型微调实战人工智能 langchain 自然语言处理神经网络深度学习
LLM主要类别架构介绍LLM主要类别LLM本身基于transformer架构。自2017年，attentionisallyouneed诞生起，transformer模型为不同领域的模型提供了灵感和启发。基于原始的Transformer框架，衍生出了一系列模型，一些模型仅仅使用encoder或decoder，有些模型同时使encoder+decoder。LLM分类一般分为三种：自编码模型（encod
手把手教你搭建 Android MVI架构 MVI + kotlin + Flow m0_74825466 android 架构 kotlin
一、什么是MVIAndroidMVI是一种用于构建Android应用程序的架构模式，其核心思想在于实现单向数据流和唯一可信数据源。在MVI架构中，应用程序的状态管理得到简化，并且用户界面与业务逻辑之间的交互更加清晰和规范。二、MVI组成MVI由Model、View和Intent三个核心组件组成：Model：代表数据模型，负责存储应用程序的状态。它是唯一可信的数据源，意味着应用程序的所有状态都集中在
Spring MVC 框架：构建高效 Java Web 应用的利器来恩1003 Java 从入门到精通 java spring mvc
Java学习资料Java学习资料Java学习资料一、引言在JavaWeb开发领域，SpringMVC框架是一颗耀眼的明星。它作为Spring框架家族的重要成员，为开发者提供了一套强大而灵活的解决方案，用于构建Web应用程序。SpringMVC遵循模型-视图-控制器（MVC）设计模式，将业务逻辑、数据展示和用户交互进行了有效的分离，使得代码结构清晰、易于维护和扩展。二、MVC设计模式概述2.1基本概
《DeepSeek-R1 问世，智能搜索领域迎来新变革》黑金IT 智能搜索
DeepSeek-R1是由DeepSeek公司开发的一款创新型人工智能模型，自2024年5月7日发布以来，迅速在AI领域引起广泛关注。该模型凭借其卓越的语言理解能力、高效的数据处理能力、自适应学习能力、高安全性与可靠性以及广泛的应用场景与拓展性，在众多人工智能模型中脱颖而出。DeepSeek-R1的核心特点强大的语言理解能力：DeepSeek-R1采用先进的深度学习算法，能够精准解析复杂的语义结构
AI绘画关键词（咒语）分析与热点研究集eee AI作画 midjourney chatgpt 人工智能 prompt text2img stable diffusion
语义文本图像生成技术关键词分析与热点研究一、研究背景与研究意义随着深度学习的发展，语义文本到图像的生成技术已经取得长足进步，AI绘画也因此快速崛起。只需输入关键词，AI系统就能自动生成符合语义描述的图像，这一技术的出现,使绘画的创作方式发生革命性变化。目前主流的AI绘画模型有Midjourney、Stablediffusion和文心一格等，其使用方式多为输入一段含有图片描述的“prompt（指令）
【Pydantic】Python 数据验证入门山河不见老 python 数据处理 python 运维开发
Pydantic1.什么是Pydantic?2.安装3.基础使用3.1创建基础模型3.2数据验证3.3嵌套模型4.常用验证规则4.1基础验证规则4.2列表验证4.3自定义验证器4.4条件验证4.5常用验证类型5.实际应用示例5.1API请求验证5.2配置管理6.小技巧6.1.数据转换:6.2错误处理:1.什么是Pydantic?Pydantic是一个功能强大的Python数据验证库，它通过Pyth
Python实现链接MinIO，并将文件数据从MinIO批量下载并保存到本地写python的鑫哥 Python课堂 python MinIO 文件下载数据存储存储桶 Buckets 文件夹下载
前言本文是该专栏的第43篇，后面会持续分享python的各种干货知识，值得关注。MinIO是一个高性能的对象存储服务，它兼容亚马逊S3云存储服务接口，非常适合于存储大容量非结构化的数据，比如说“图片、视频、日志文件、备份数据和容器/虚拟机镜像”等。MinIO原生支持Kubernetes，可以用于构建云存储服务。MinIO可以在标准硬件上运行，非常适合私有云和边缘计算场景。MinIO提供了存储桶级粒
Haskell语言的安全开发慕璃嫣包罗万象 golang 开发语言后端
Haskell语言的安全开发引言在现代软件开发中，安全性已经成为一个不可忽视的重要方面。一方面，随着信息技术的发展，各类网络攻击和安全漏洞层出不穷；另一方面，越来越多的项目要求遵循高安全标准，以保护用户的隐私和数据。在众多编程语言中，Haskell凭借其强大的类型系统和函数式编程模型，提供了许多内置特性来帮助开发者编写安全的代码。本文将深入探讨Haskell语言的安全开发方法，包含其特性、最佳实践
【leetcode 26】28.找出字符串中第一个匹配项的下标 | 实现 strStr()==❗不会❗== 椰椰荔枝糖刷题 leetcode 算法职场和发展 java
在一个串中查找是否出现过另一个串，这是KMP的看家本领。//方法一classSolution{publicvoidgetNext(int[]next,Strings){intj=-1;next[0]=j;for(inti=1;i=0&&s.charAt(i)!=s.charAt(j+1)){j=next[j];}if(s.charAt(i)==s.charAt(j+1)){j++;}next[i]
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持