Python算法实战

大模型推理框架概述

从 ChatGPT 面世以来，引领了大模型时代的变革，除了大模型遍地开花以外，承载大模型进行推理的框架也是层出不穷，大有百家争鸣的态势。本文主要针对业界知名度较高的一些大模型推理框架进行相应的概述。

简介

vLLM是一个开源的大模型推理加速框架，通过PagedAttention高效地管理attention中缓存的张量，实现了比HuggingFace Transformers高14-24倍的吞吐量。

PagedAttention 是 vLLM 的核心技术，它解决了LLM服务中内存的瓶颈问题。传统的注意力算法在自回归解码过程中，需要将所有输入Token的注意力键和值张量存储在GPU内存中，以生成下一个Token。这些缓存的键和值张量通常被称为KV缓存。

技术交流

技术要学会分享、交流，不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。

相关资料、数据、技术交流提升，均可加我们的交流群获取，群友已超过2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友。

方式①、添加微信号：mlc2060，备注：来自CSDN + 技术交流
方式②、微信搜索公众号：机器学习社区，后台回复：加群

主要特性

通过PagedAttention对 KV Cache 的有效管理
传入请求的continus batching，而不是static batching
支持张量并行推理
支持流式输出
兼容 OpenAI 的接口服务
与 HuggingFace 模型无缝集成

与其他框架（HF、TGI）的性能对比

vLLM 的吞吐量比 HF 高 14 - 24 倍，比 TGI 高 2.2 - 2.5 倍。

image.png

存在的问题

同样的模型、参数和prompt条件下，vLLM推理和Huggingface推理结果不一致。具体请参考：https://zhuanlan.zhihu.com/p/658780653

业界案例

vLLM 已经被用于 Chatbot Arena 和 Vicuna 大模型的服务后端。

HuggingFace TGI

GitHub: https://github.com/huggingface/text-generation-inference

简介

Text Generation Inference（TGI）是 HuggingFace 推出的一个项目，作为支持 HuggingFace Inference API 和 Hugging Chat 上的LLM 推理的工具，旨在支持大型语言模型的优化推理。

image.png

主要特性

支持张量并行推理
支持传入请求 Continuous batching 以提高总吞吐量
使用 flash-attention 和 Paged Attention 在主流的模型架构上优化用于推理的 transformers 代码。注意：并非所有模型都内置了对这些优化的支持。
使用bitsandbytes(LLM.int8())和GPT-Q进行量化
内置服务评估，可以监控服务器负载并深入了解其性能
轻松运行自己的模型或使用任何 HuggingFace 仓库的模型
自定义提示生成：通过提供自定义提示来指导模型的输出，轻松生成文本
使用 Open Telemetry，Prometheus 指标进行分布式跟踪

支持的模型

BLOOM
FLAN-T5
Galactica
GPT-Neox
Llama
OPT
SantaCoder
Starcoder
Falcon 7B
Falcon 40B
MPT
Llama V2
Code Llama

适用场景

依赖 HuggingFace 模型，并且不需要为核心模型增加多个adapter的场景。

FasterTransformer

GitHub: https://github.com/NVIDIA/FasterTransformer

简介

NVIDIA FasterTransformer (FT) 是一个用于实现基于Transformer的神经网络推理的加速引擎。它包含Transformer块的高度优化版本的实现，其中包含编码器和解码器部分。使用此模块，您可以运行编码器-解码器架构模型（如：T5）、仅编码器架构模型（如：BERT）和仅解码器架构模型（如：GPT）的推理。

FT框架是用C++/CUDA编写的，依赖于高度优化的 cuBLAS、cuBLASLt 和 cuSPARSELt 库，这使您可以在 GPU 上进行快速的 Transformer 推理。

与 NVIDIA TensorRT 等其他编译器相比，FT 的最大特点是它支持以分布式方式进行 Transformer 大模型推理。

下图显示了如何使用张量并行 (TP) 和流水线并行 (PP) 技术将基于Transformer架构的神经网络拆分到多个 GPU 和节点上。

当每个张量被分成多个块时，就会发生张量并行，并且张量的每个块都可以放置在单独的 GPU 上。在计算过程中，每个块在不同的 GPU 上单独并行处理；最后，可以通过组合来自多个 GPU 的结果来计算最终张量。
当模型被深度拆分，并将不同的完整层放置到不同的 GPU/节点上时，就会发生流水线并行。

image.png

在底层，节点间或节点内通信依赖于 MPI 、 NVIDIA NCCL、Gloo等。因此，使用FasterTransformer，您可以在多个 GPU 上以张量并行运行大型Transformer，以减少计算延迟。同时，TP 和 PP 可以结合在一起，在多 GPU 节点环境中运行具有数十亿、数万亿个参数的大型 Transformer 模型。

除了使用 C ++ 作为后端部署，FasterTransformer 还集成了 TensorFlow（使用 TensorFlow op）、PyTorch （使用 Pytorch op）和 Triton 作为后端框架进行部署。当前，TensorFlow op 仅支持单 GPU，而 PyTorch op 和 Triton 后端都支持多 GPU 和多节点。

FasterTransformer 中的优化技术

与深度学习训练的通用框架相比，FT 使您能够获得更快的推理流水线以及基于 Transformer 的神经网络具有更低的延迟和更高的吞吐量。FT 对 GPT-3 和其他大型 Transformer 模型进行的一些优化技术包括：

层融合（Layer fusion）

这是预处理阶段的一组技术，将多层神经网络组合成一个单一的神经网络，将使用一个单一的核（kernel）进行计算。这种技术减少了数据传输并增加了数学密度，从而加速了推理阶段的计算。例如， multi-head attention 块中的所有操作都可以合并到一个核（kernel）中。

自回归模型的推理优化(激活缓存)

为了防止通过Transformer重新计算每个新 token 生成器的先前的key和value，FT 分配了一个缓冲区来在每一步存储它们。

虽然需要一些额外的内存使用，但 FT 可以节省重新计算的成本。该过程如下图所示，相同的缓存机制用于 NN 的多个部分。

image.png

内存优化

与 BERT 等传统模型不同，大型 Transformer 模型具有多达数万亿个参数，占用数百 GB 存储空间。即使我们以半精度存储模型，GPT-3 175b 也需要 350 GB。因此有必要减少其他部分的内存使用。

例如，在 FasterTransformer 中，我们在不同的解码器层重用了激活/输出的内存缓冲（buffer）。由于 GPT-3 中的层数为 96，因此我们只需要 1/96 的内存量用于激活。

使用 MPI 和 NCCL 实现节点间/节点内通信并支持模型并行

FasterTransormer 同时提供张量并行和流水线并行。对于张量并行，FasterTransformer 遵循了 Megatron 的思想。对于自注意力块和前馈网络块，FT 按行拆分第一个矩阵的权重，并按列拆分第二个矩阵的权重。通过优化，FT 可以将每个 Transformer 块的归约（reduction）操作减少到两次。

对于流水线并行，FasterTransformer 将整批请求拆分为多个微批，隐藏了通信的空泡（bubble）。FasterTransformer 会针对不同情况自动调整微批量大小。

MatMul 核自动调整（GEMM 自动调整）

矩阵乘法是基于 Transformer 的神经网络中最主要和繁重的操作。FT 使用来自 CuBLAS 和 CuTLASS 库的功能来执行这些类型的操作。重要的是要知道 MatMul 操作可以在“硬件”级别使用不同的底层（low-level）算法以数十种不同的方式执行。

GemmBatchedEx 函数实现了 MatMul 操作，并以cublasGemmAlgo_t作为输入参数。使用此参数，您可以选择不同的底层算法进行操作。

FasterTransformer 库使用此参数对所有底层算法进行实时基准测试，并为模型的参数和您的输入数据（注意层的大小、注意头的数量、隐藏层的大小）选择最佳的一个。此外，FT 对网络的某些部分使用硬件加速的底层函数，例如：__expf、__shfl_xor_sync。

低精度推理

FT 的核（kernels）支持使用 fp16 和 int8 等低精度输入数据进行推理。由于较少的数据传输量和所需的内存，这两种机制都会加速。同时，int8 和 fp16 计算可以在特殊硬件上执行，例如：Tensor Core（适用于从 Volta 开始的所有 GPU 架构）。

除此之外还有快速的 C++ BeamSearch 实现、当模型的权重部分分配到八个 GPU 之间时，针对 TensorParallelism 8 模式优化的 all-reduce。

支持的模型

目前，FT 支持了 Megatron-LM GPT-3、GPT-J、BERT、ViT、Swin Transformer、Longformer、T5 和 XLNet 等模型。您可以在 GitHub 上的 FasterTransformer库中查看最新的支持矩阵。

与其他框架（PyTorch）的性能对比

FT 适用于计算能力 >= 7.0 的 GPU，例如: V100、A10、A100 等。

下图展示了 GPT-J 6B 参数的模型推断加速比较：

image.png

存在的问题

英伟达新推出了TensorRT-LLM，相对来说更加易用，后续FasterTransformer将不再为维护了。

DeepSpeed-MII

GitHub: https://github.com/microsoft/DeepSpeed-MII

简介

DeepSpeed-MII 是 DeepSpeed 的一个新的开源 Python 库，旨在使模型不仅低延迟和低成本推理，而且还易于访问。

MII 提供了对数千种广泛使用的深度学习模型的高度优化实现。
与原始PyTorch实现相比，MII 支持的模型可显著降低延迟和成本。
为了实现低延迟/低成本推理，MII 利用 DeepSpeed-Inference 的一系列广泛优化，例如：transformers 的深度融合、用于多 GPU 推理的自动张量切片、使用 ZeroQuant 进行动态量化等。
MII 只需几行代码即可通过 AML 在本地和 Azure 上低成本部署这些模型。

MII 工作流程

下图显示了 MII 如何使用 DS-Inference 自动优化 OSS 模型；然后，使用 GRPC 在本地部署，或使用 AML Inference 在 Microsoft Azure 上部署。

image.png

MII 的底层由 DeepSpeed-Inference 提供支持。根据模型类型、模型大小、批量大小和可用硬件资源，MII 自动应用 DeepSpeed-Inference 中的一组适当的系统优化，以最大限度地减少延迟并最大限度地提高吞吐量。它通过使用许多预先指定的模型注入策略之一来实现这一点，该策略允许 MII 和 DeepSpeed-Inference 识别底层 PyTorch 模型架构并用优化的实现替换它。在此过程中，MII 使 DeepSpeed-Inference 中一系列的优化自动可用于其支持的数千种流行模型。

支持的模型和任务

MII 目前支持超过 50,000 个模型，涵盖文本生成、问答、文本分类等一系列任务。MII 加速的模型可通过 Hugging Face、FairSeq、EluetherAI 等多个开源模型存储库获取。我们支持基于 Bert、Roberta 或 GPT 架构的稠密模型，参数范围从几亿参数到数百亿参数。除此之外，MII将继续扩展该列表，支持即将推出的大规模千亿级以上参数稠密和稀疏模型。

目前 MII 支持以下 HuggingFace Transformers 模型系列：

model family	size range	~model count
llama	7B - 65B	1,500
bloom	0.3B - 176B	480
stable-diffusion	1.1B	3,700
opt	0.1B - 66B	460
gpt_neox	1.3B - 20B	850
gptj	1.4B - 6B	420
gpt_neo	0.1B - 2.7B	700
gpt2	0.3B - 1.5B	11,900
xlm-roberta	0.1B - 0.3B	4,100
roberta	0.1B - 0.3B	8,700
distilbert	0.1B - 0.3B	4,700
bert	0.1B - 0.3B	23,600

与其他框架（PyTorch）的性能对比

MII 将 Big-Science Bloom 176B 模型的延迟降低了 5.7 倍，同时将成本降低了 40 倍以上。同样,它将部署 Stable Diffusion 的延迟和成本降低了 1.9 倍。

image.png

FlexFlow Server

GitHub: https://github.com/flexflow/FlexFlow/tree/inference

简介

FlexFlow Serve 是一个开源编译器和分布式系统，用于低延迟、高性能 LLM 服务。

主要特征

投机（Speculative）推理

使 FlexFlow Serve 能够加速 LLM 服务的一项关键技术是Speculative推理，它结合了各种集体boost-tuned的小型投机模型 (SSM) 来共同预测 LLM 的输出；

预测被组织为token树，每个节点代表一个候选 token 序列。使用一种新颖的基于树的并行解码机制，根据 LLM 的输出并行验证由 token 树表示的所有候选 token 序列的正确性。

FlexFlow Serve 使用 LLM 作为 token 树验证器而不是增量解码器，这大大减少了服务生成 LLM 的端到端推理延迟和计算要求，同时，可证明保持模型质量。

image.png

CPU Offloading

FlexFlow Serve 还提供基于Offloading的推理，用于在单个 GPU 上运行大型模型（例如：llama-7B）。

CPU Offloading是将张量保存在CPU内存中，并且在计算时仅将张量复制到GPU。

注意：

现在我们有选择地offload最大的权重张量（线性、注意力中的权重张量）。此外，由于小模型占用的空间要少得多，如果不构成GPU内存瓶颈，offload会带来更多的运行空间和计算成本，因此，我们只对大模型进行offload。可以通过启用 -offload 和 -offload-reserve-space-size 标志来运行offloading。

支持量化

FlexFlow Serve 支持 int4 和 int8 量化。压缩后的张量存储在CPU端，一旦复制到 GPU，这些张量就会进行解压缩并转换回其原始精度。

支持的 LLMs 和 SSMs

FlexFlow Serve 当前支持以下模型架构的所有Hugingface模型：

LlamaForCausalLM / LLaMAForCausalLM (例如：LLaMA/LLaMA-2, Guanaco, Vicuna, Alpaca, …)
OPTForCausalLM (OPT家族模型)
RWForCausalLM (Falcon家族模型)
GPTBigCodeForCausalLM (Starcoder家族模型)

以下是我们已经测试过并且可以使用 SSM 的模型列表：

模型	在 HuggingFace 中的模型 id	Boost-tuned SSMs
LLaMA-7B	decapoda-research/llama-7b-hf	LLaMA-68M , LLaMA-160M
LLaMA-13B	decapoda-research/llama-13b-hf	LLaMA-68M , LLaMA-160M
LLaMA-30B	decapoda-research/llama-30b-hf	LLaMA-68M , LLaMA-160M
LLaMA-65B	decapoda-research/llama-65b-hf	LLaMA-68M , LLaMA-160M
LLaMA-2-7B	meta-llama/Llama-2-7b-hf	LLaMA-68M , LLaMA-160M
LLaMA-2-13B	meta-llama/Llama-2-13b-hf	LLaMA-68M , LLaMA-160M
LLaMA-2-70B	meta-llama/Llama-2-70b-hf	LLaMA-68M , LLaMA-160M
OPT-6.7B	facebook/opt-6.7b	OPT-125M
OPT-13B	facebook/opt-13b	OPT-125M
OPT-30B	facebook/opt-30b	OPT-125M
OPT-66B	facebook/opt-66b	OPT-125M
Falcon-7B	tiiuae/falcon-7b

Falcon-40B	tiiuae/falcon-40b

StarCoder-15.5B	bigcode/starcoder

与其他框架（vLLM、TGI、FasterTransformer）的性能对比

FlexFlow Serve 在单节点多 GPU 推理方面比现有系统高 1.3-2.0 倍，在多节点多 GPU 推理方面比现有系统高 1.4-2.4 倍。

image.png

提示数据集

FlexFlow 提供了五个用于评估 FlexFlow Serve 的提示数据集：

Chatbot 指令提示：https://specinfer.s3.us-east-2.amazonaws.com/prompts/chatbot.json
ChatGPT 提示：https://specinfer.s3.us-east-2.amazonaws.com/prompts/chatgpt.json
WebQA：https://specinfer.s3.us-east-2.amazonaws.com/prompts/webqa.json
Alpaca：https://specinfer.s3.us-east-2.amazonaws.com/prompts/alpaca.json
PIQA：https://specinfer.s3.us-east-2.amazonaws.com/prompts/piqa.json

未来的规划

FlexFlow Serve 正在积极开发中，主要专注于以下任务：

AMD 基准测试。目前正在积极致力于在 AMD GPU 上对 FlexFlow Serve 进行基准测试，并将其与 NVIDIA GPU 上的性能进行比较。
Chatbot prompt 模板和多轮对话
支持 FastAPI
与LangChain集成进行文档问答

LMDeploy

GitHub: https://github.com/InternLM/lmdeploy

简介

LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发，是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。这个强大的工具箱提供以下核心功能：

高效推理引擎 TurboMind：基于 FasterTransformer推理引擎，实现了高效推理引擎 TurboMind，支持 InternLM、LLaMA、vicuna等模型在 NVIDIA GPU 上的推理。
交互推理方式：通过缓存多轮对话过程中 attention 的 k/v，记住对话历史，从而避免重复处理历史会话。
多 GPU 部署和量化：提供了全面的模型部署和量化（支持使用AWQ算法对模型权重进行 INT4 量化，支持 KV Cache INT8 量化）支持，已在不同规模上完成验证。
persistent batch 推理：进一步优化模型执行效率。
支持张量并行推理（注意：量化部署时不支持进行张量并行）

image.png

支持的模型

LMDeploy 支持 TurboMind 和 Pytorch 两种推理后端。

TurboMind

注意：
W4A16 推理需要 Ampere 及以上架构的 Nvidia GPU

模型	模型并行	FP16	KV INT8	W4A16	W8A8
Llama	Yes	Yes	Yes	Yes	No
Llama2	Yes	Yes	Yes	Yes	No
InternLM-7B	Yes	Yes	Yes	Yes	No
InternLM-20B	Yes	Yes	Yes	Yes	No
QWen-7B	Yes	Yes	Yes	No	No
Baichuan-7B	Yes	Yes	Yes	Yes	No
Baichuan2-7B	Yes	Yes	No	No	No
Code Llama	Yes	Yes	No	No	No

Pytorch

模型	模型并行	FP16	KV INT8	W4A16	W8A8
Llama	Yes	Yes	No	No	No
Llama2	Yes	Yes	No	No	No
InternLM-7B	Yes	Yes	No	No	No

与其他框架（HF、DeepSpeed、vLLM）的性能对比

场景一: 固定的输入、输出token数（1,2048），测试 output token throughput

场景二: 使用真实数据，测试 request throughput

测试配置：LLaMA-7B, NVIDIA A100(80G)

TurboMind 的 output token throughput 超过 2000 token/s, 整体比 DeepSpeed 提升约 5% - 15%，比 huggingface transformers 提升 2.3 倍在 request throughput 指标上，TurboMind 的效率比 vLLM 高 30%。

image.png

结语

总而言之，大模型推理框架的核心目标都是为了降低延迟；同时，尽可能地提升吞吐量；从上面的框架中可以看到，每个框架各有优缺点，但是目前来看，还没有一个LLM推理框架有一统天下的态势，大家都在加速迭代。

2022-06-02 你的常识，是别人的知识 Sarah写着玩
你的常识，是别人的知识Day87S解读论语之Day71【原文】7.34子曰：“若圣与仁，则吾岂敢！抑为之不厌，诲人不倦，则可谓云尔已矣。''公西华曰：“正唯弟子不能学也。”【翻译】孔子说：“如果说到圣和仁，那我怎么敢当！不过是朝着圣与仁的方向去努力做而不厌倦，教导别人不知疲倦，那是可以这样说的。”公西华说：“这正是我们弟子学不到的。”【解读】1，有时，你的追求只是别人的起点。孔子并没有刻意追求所谓
Redis 深度解析：从核心原理到生产实践 Pasregret 缓存 redis 数据库缓存
Redis深度解析：从核心原理到生产实践一、Redis核心定位与数据结构1.核心能力矩阵深度解析Redis作为高性能内存数据库，核心能力覆盖缓存、数据存储、消息中间件等场景，其设计哲学围绕速度优先、内存高效、功能丰富展开：内存存储特性纯内存操作：基于内存寻址的O(1)复杂度数据操作，单节点QPS可达10万+持久化方案：RDB（快照）与AOF（日志）双模式，支持数据持久化与故障恢复单线程模型：基于事
Python函数参数`*args`和`**kwargs`详解：区别与使用指南北辰alk python python 服务器数据库
文章目录一、基本概念与区别概述1.1`*args`（非关键字参数收集）1.2`**kwargs`（关键字参数收集）1.3主要区别对比表二、深入理解`*args`2.1基本用法2.2工作原理2.3与其他参数配合使用2.4解包序列作为参数三、深入理解`**kwargs`3.1基本用法3.2工作原理3.3与其他参数配合使用3.4解包字典作为参数四、组合使用`*args`和`**kwargs`4.1完整参
java多线程-锁的介绍
多线程中常用锁一、锁的概念二、锁的类型2.1互斥锁（也称排它锁）2.1.1Synchronized和Lock2.1.2ReentrantLock（可重入锁）2.1.3公平锁2.1.4非公平锁2.1.5中断锁2.2共享锁2.3读写锁三、悲观锁和乐观锁3.1悲观锁3.2乐观锁3.3CAS算法四、锁竞争一、锁的概念在多线程中，有乐观锁、悲观锁等很多锁的概念，在了解锁的概念之前我们需要先知道线程和进程以及
STM32 HAL库详解：跨系列兼容、CubeMX自动生成与回调机制全解析景彡先生 STM32 stm32 嵌入式硬件单片机
前言：为什么HAL库成为STM32开发的主流？如果你接触过STM32开发，一定听说过“库”的概念。早期开发者需要直接操作寄存器，一行行写配置代码（如RCC->CR|=RCC_CR_HSEON），不仅效率低，还容易出错。后来ST推出了标准外设库（SPL），封装了寄存器操作，但存在一个致命问题：不跨系列——STM32F1的代码无法直接在STM32F4上运行，换芯片意味着重写大量代码。2014年，ST推
vLLM快速入门：开启高效推理与部署之旅
在如今这个人工智能飞速发展的时代，语言模型的应用已经深入到我们生活的方方面面，从智能聊天机器人到文本生成工具，都离不开强大的语言模型技术支持。而vLLM作为一个专注于高效推理和部署的开源项目，正在为研究人员和开发人员提供一种全新的解决方案，让语言模型的使用变得更加便捷、高效。初识vLLM：背景与意义vLLM（VeryLargeLanguageModelInference）是一个专注于大型语言模型推
深入解析 vLLM 分布式推理与部署策略
在当今人工智能快速发展的时代，大型语言模型（LLM）的推理和部署面临着诸多挑战，尤其是当模型规模日益庞大时，如何高效地利用硬件资源成为关键问题。vLLM作为一种强大的工具，为分布式推理和部署提供了多种策略，本文将详细探讨其相关技术和应用场景，希望能对您提供有价值的参考。分布式推理策略的选择在开始分布式推理和部署之前，明确何时采用分布式推理以及可选的策略至关重要。1.单GPU推理：如果模型能够在单个
第13届宇宙公民高效阅读蜕变营作业打卡6.20 辛梓宜春家电
一、感恩我们常常会在获得的时候才会感恩，其实不然我们要先于收获就感恩，内心才丰盛，每天践行感恩，主动去给予喜悦与微笑，制造惊喜创造幸福。生活需要仪式感，每一个日子用心了都可以是惊喜，充实而幸福的。我们常说的谢谢或许只是礼貌性的一句言语，真正要懂得感恩应该从心出发，对身边所有的人和事都应感恩，感恩爱我们的人为我们付出，感恩自己的努力向上，我们在慢慢变好的同时周边所有的环境也会跟着变好，生活也会发生改
很精彩的人生格言句子染七
1.盆景秀木正因为被人溺爱，才破灭了成为栋梁之材的梦。2.志在峰巅的攀登者，不会陶醉在沿途的某个脚印之中。3.海浪为劈风斩浪的航船饯行，为随波逐流的轻舟送葬。4.山路不象坦途那样匍匐在人们足下。5.如果圆规的两只脚都动，永远也画不出一个圆。6.伟人之所以伟大，是因为他与别人共处逆境时，别人失去了信心，他却下决心实现自己的目标。7.很多事先天注定，那是“命”；但你可以决定怎么面对，那是“运”！8.障
2021-07-17 读书卡片NO.72《婚姻：挑战》第二章两性之间的战争人生由我1314
全书思维导图阅读打卡第199天作者：【美】鲁道夫.德雷克斯页码：47-73我见：1、夫妻不和在程度和频率上的加剧，与两性社会关系的显著变化有很大的正相关。2、如今，女人的社会地位正在发生改变。女人不再像以前那样依赖男人。3、我们的生活模式由社会习俗和传统决定。4、过去一百年发生了巨变，“男性至上”正在消失。女人的地位在漫漫地持续的提升，女人的政治权利已经接近男人的政治权利。女人开始拥有新的社会和经
IntelliJ IDEA高效开发指南：技巧、插件与快捷键懒羊羊敲代码丫 ide
IntelliJIDEA作为Java开发者首选的集成开发环境，其强大的功能和灵活的扩展性能够显著提升编码效率。本文将从常用技巧、必备插件和快捷键大全三部分展开，助你解锁IDEA的“神器”属性。一、IDEA高效开发技巧138快捷键为王导航类：Ctrl+N：快速查找类；Ctrl+Shift+N：查找文件311。Ctrl+B：跳转到声明；Ctrl+Alt+B：跳转到实现3。编辑类：Ctrl+D：复制当前
IntelliJ IDEA 使用技巧与插件推荐：提升开发效率的终极指南海豹工匠 ide jetbrain JAVA 编程工具
在现代软件开发中，IntelliJIDEA作为一款功能强大的集成开发环境（IDE），深受开发者的喜爱。它不仅支持多种编程语言和框架，还提供了丰富的功能和插件，帮助开发者提高工作效率和代码质量。本文将深入探讨IntelliJIDEA的使用技巧和插件推荐，助您充分利用这款优秀的开发工具。目录IntelliJIDEA简介高效使用IntelliJIDEA的技巧快捷键大全代码导航与搜索高级重构实时错误检查与
你为什么要讨厌你自己 eutopia_1502
图片发自App我身边有很多朋友，总是筹划着要做很多事情，他们的想法极富有创造力，他们也确实为他们想要做的事情做了充分的准备，可是却始终没有迈出关键性的一步。很多事情，一些藏在心中的想法，那些与梦想和自我实现有关的一切，可能会永远埋藏在心底，来不及苏醒就要匆匆谢幕。很多人，包括我自己，都时常陷入自我批评的漩涡里——内心时常会有个声音提醒自己：你还没有做好充分的准备。试想是不是这样，当你想要向一家杂志
算法训练DAY28 |力扣93.复原IP地址&&力扣78.子集&&力扣90.子集Ⅱ Syhaun 算法
93.复原IP地址原题链接：力扣93.复原IP地址题目描述有效IP地址正好由四个整数（每个整数位于0到255之间组成，且不能含有前导0），整数之间用'.'分隔。例如："0.1.2.201"和"192.168.1.1"是有效IP地址，但是"0.011.255.245"、"192.168.1.312"和"[email protected]"是无效IP地址。给定一个只包含数字的字符串s，用以表示一个IP地址，返回所
【Leetcode】3201. 找出有效子序列的最大长度 I 想要AC的dly 练习题(记录做题想法)leetcode 算法职场和发展
文章目录题目题目描述示例提示思路分析核心观察有效子序列的四种模式算法思路代码实现Java版本C++版本Python版本优化版本复杂度分析时间复杂度空间复杂度示例验证总结题目题目链接题目描述给你一个整数数组nums。nums的子序列sub的长度为x，如果其满足以下条件，则称其为有效子序列：(sub[0]+sub[1])%2==(sub[1]+sub[2])%2==...==(sub[x-2]+sub
网络请求的基本概念、原理及生活化解析程序小武 python爬虫入门网络
一、引言：你每天用的网络请求，原来这么复杂！每天清晨，你打开手机点个外卖，点了杯咖啡。这个简单的动作，背后其实有一连串复杂的网络请求发生。就像你和咖啡师说“来一杯美式加奶”，在数字世界里，手机和咖啡店系统之间也在“对话”。这些对话遵循一套规则，今天就用一些生活中的比喻来跟你解说这些规则是怎么运作的。二、核心概念：生活化理解网络请求1.客户端与服务器：数字世界的“顾客”与“商家”客户端：就是你手中的
网络爬虫：技术原理、应用场景与合法使用全攻略程序小武 python爬虫入门爬虫网络
爬虫是什么？网络爬虫（WebScraping或WebCrawling）是一种通过自动化方式从网站上抓取公开数据的程序。它通过模拟用户在浏览器中浏览网页的过程，访问网页、提取信息，并将数据保存到本地系统中。爬虫技术广泛应用于搜索引擎、数据收集、市场分析、信息聚合等多个领域。爬虫能做什么？数据收集爬虫可以高效地从互联网上的大量网站收集信息。比如，抓取新闻网站上的文章内容、商品电商平台的价格与库存数据、
周记 giao岩
我盼望已久的中秋节就要到啦！中秋节是团圆节，更重要的是有月饼吃，我最喜欢吃月饼。当然了我最喜欢吃的就是豆沙馅的月饼我觉得这个馅的是最好吃的。第二天是中秋节。晚上我们一家人团圆在一起，我们一边赏月，一边吃月饼。当然了家里的亲戚也来的非常多什么七大姑八大姨的。总之非常的热闹氛围十分好。我拿起一个豆沙馅的月饼咬了一大口感觉好极了一大口感觉十分满足，妈妈自己也做了冰皮月饼非常好吃薄薄的皮厚厚的紫薯非常好吃
硬笔手抄：《小窗幽记》传世警句——人心好胜，我以胜应必败；人情好谦，我以谦处反胜清泉_9313
《小窗幽记》——朝市山林俱有事，今人忙处古人闲。《小窗幽记》——富贵之家，常有穷亲戚来往，便是忠厚。《小窗幽记》——人心好胜，我以胜应必败；人情好谦，我以谦处反胜。《小窗幽记》——富时不俭贫时悔，潜时不学用时悔，醉后狂言醒时悔,安不将息病时悔。《小窗幽记》——草色花香,游人赏其真趣;桃开梅谢,达士悟其无常。《小窗幽记》——真放肆不在饮酒高歌,假矜持偏于大庭卖弄。看明世事透,自然不重功名;认得当下真
我要当小仙女一手王
以后我再也不要抱怨啦，因为一抱怨灵气就没有啦。我要成为小仙女天天快快乐乐的成长。我要好好学习，天天向上。我觉得出去玩儿比在家里待着好玩。我觉得我老公并不完全属于我。不属于就不属于呗，自己也可以成就精彩的人生！再说世界上人这么多，又不是只有他一个人。对，就是这样的。我要交志同道合的朋友。一起唱歌跳舞。拍抖音。写小说，参加运动会。一起跳绳，一起玩儿植物大战僵尸现实版的。心胸开阔。正所谓心大了，烦恼就小
新手怎么做自媒体运营？新手做自媒体运营的4个重要方法优惠券高省
作为一个优秀的自媒体运营者，需要具备很多能力，现在的自媒体运营者越来越多。一个自媒体运营者需要具备哪些能力？下面给大家分享一下自媒体运营者必备的四大基本能力。大家好，我是高省APP联合创始人蓓蓓导师，高省APP是2021年推出的电商导购平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个可省钱佣金高，能赚钱有收益的平台，百度有几百万篇报道，也期待你的加入。高省邀请码1
84、【情商】轻松快乐生活的秘密（三）简单15513012298
生命是由思想组成的。要想改变结果得先改变行动，要改变行为先改变思想。轻松快乐生活的秘诀我们昨天说了一个人感到累或者疲劳，最主要的原因是情绪或者精神上的那种倦怠感。你说人的情绪能对身体产生那么大的影响吗？我们举一个例子：比如有个小伙子工作一整天非常的忙碌，回家的路上就昏昏欲睡，自己感觉精疲力尽，疲惫不堪……也真的觉得头也疼，背也疼，不想吃饭，只想上床睡觉，而且疲劳的觉得自己得拽着猫尾巴才能上去床。这
妖爷的三点儿三月暖阳2017
此处没有小黄文，更没小黄图，只是我分享完毕，我们洞主发自内心的高文彩的感慨。拷贝如下：图片发自App1.一直以来，我们有那么多探索性格、分析特质的书籍，比如性格色彩、九型人格、disc性格分析模型，在不断探索自我，认识自我，最根本的目的，是为了达到幸福。这个角度的分析，恰恰说明一个真理：我是一切的根源。当我们归因和找出路从自己出发的时候，就开始接近正确答案了。今天对这个问题再次感受很深，是因为下午
政委马湖之边的故乡小米安子
马湖是四川省级风景名胜区、省级地质公园，位于雷波县东北部，东与宜宾市屏山县相邻，南与云南省永善县隔金沙江相望。它是全国第三大高山深水湖泊，也是四川四大天然湖泊之一，湖面海拔1100米，南北长5.5公里，东西宽2.5公里，面积7.33平方公里，平均水深66米，最深处134米，据最新探测最深处可能超过200米，蓄水4.81亿立方米。马湖周围有：金龟戏水、母猪卧岩、鹅公飞渡、五马归槽、大湾如月、坳口峰回
IoC容器深度解析：架构、原理与实现 liulilittle Markdown Extension C#架构网络 c#IoC DI 依赖倒置依赖注入
IoC容器深度解析：架构、原理与实现引用：.NETIoC容器原理与实现等巫山的雲彩都消散撒下的碧色如何看淡一、引言：从服务定位器到IoC的演进类签名修改集中式管理依赖反转+动态注入强耦合直接依赖全量代码重构服务定位器模式圈复杂度指数级增长IoC容器方案低耦合+高扩展性历史痛点在早期软件开发中（如2000年代JavaEE体系），开发者面临两大核心问题：强耦合依赖链：上层模块直接实例化下层对象（new
河南这5个差点出省的景区，2个在豫北，3个在豫南，你都去过吗？临窗观景LCGJ
河南位于我国中部地区，北跨黄河，南依汉水，境内地形多样，自然旅游资源丰富，山川景色兼具北方之雄浑和南方之秀丽。河南与多省相邻，这其中就有一些跨省或者两省共有的景区，我们就来聊一聊其中较知名的五个吧：云台山云台山景区位于豫北地区的焦作市修武县与山西省晋城市陵川县交界处，是世界地质公园，国家AAAAA级景区。青天河青天河以前的名字叫红旗水库，位于豫北焦作市博爱县与山西省晋城市泽州县之间，是世界地质公园
夸克网盘1TB存储空间,获取全攻略! 遇见火星面试职场和发展
近年来，夸克网盘凭借大容量和免费增值模式迅速崛起。作为老用户，如何永久锁定1TB存储空间成为核心问题？最新方法是转存这个文件实现免费扩容到1T：未用手机号注册过夸克账号、仅安装APP但未注册、曾用QQ、微信等非手机号注册的老用户以及24小时内新注册的账号皆可参与。已有账号用户需更换未注册过的手机号和新设备参与。1TB空间领取步骤：打开手机浏览器，私信获取活动专属链接，电脑端无法参与。1TB容量领取
陪孩子备战高考第九十六天想入非非的棋子
今天距高考还有整一百天，孩子与同学和老师一起举行了隆重的誓师仪式。我也很激动和兴奋，希望孩子能够以稳定和安静的心态度过这关键的一百天，用心学习，努力奋斗！争取考出好成绩步入理想的大学！我非常高兴和感激我的孩子在未来的考试中考入理想的大学，我感谢这个世界，感谢孩子的老师，感谢古今圣贤。我的孩子必定圆满！必定如意！加油吧！
AI产品经理面试宝典第30天：AI+教育个性化学习与知识图谱相关面试题的解答指导 TGITCIC AI产品经理一线大厂面试题人工智能产品经理 AI产品经理面试大模型产品经理面试 AI面试大模型面试
自适应学习系统如何实现千人千面？面试官：请用产品视角解释AI自适应学习系统的核心逻辑你的回答：自适应学习系统本质是构建"数据-模型-决策"的闭环。以沪江Hitalk为例，其通过12级能力评估体系采集学员的听、说、读、写数据，利用知识图谱建立知识点关联网络。当学员完成"实景演练-诊断反馈-学习包推送"的完整链路时，系统会动态调整知识图谱权重，形成个性化学习路径。面试官追问：如何验证个性化效果？回答：
国内第一梯队终端安全产品解析：技术与场景实践粤海科技君安全腾讯iOA 零信任终端安全
国内终端安全市场的第一梯队产品，通常具备技术领先性、场景覆盖度和规模化落地能力。结合2025年最新行业动态与实战案例，以下从技术架构、核心能力和典型应用三个维度，解析当前市场的头部产品及其差异化价值。一、技术架构与市场格局国内终端安全市场呈现"平台化、智能化、场景化"三大趋势。根据赛迪顾问2023年数据，奇安信以18.7%的终端安全市场份额位居首位，其天擎系统通过"终端检测与响应（EDR）+主动防
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

大模型推理框架概述

简介

技术交流

主要特性

与其他框架（HF、TGI）的性能对比

存在的问题

业界案例

HuggingFace TGI

简介

主要特性

支持的模型

适用场景

FasterTransformer

简介

FasterTransformer 中的优化技术

支持的模型

与其他框架（PyTorch）的性能对比

存在的问题

DeepSpeed-MII

简介

MII 工作流程

支持的模型和任务

与其他框架（PyTorch）的性能对比

FlexFlow Server

简介

主要特征

投机（Speculative） 推理

CPU Offloading

支持量化

支持的 LLMs 和 SSMs

与其他框架（vLLM、TGI、FasterTransformer）的性能对比

提示数据集

未来的规划

LMDeploy

简介

支持的模型

与其他框架（HF、DeepSpeed、vLLM）的性能对比

结语

你可能感兴趣的:(大模型理论与实战,语言模型,人工智能,自然语言处理,算法)

投机（Speculative）推理