E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
模型量化
0. 金融资产组合模型进化全图鉴
目录0.前言0.1专栏主旨0.2本文主旨1.资产组合模型进化路线2.资产组合
模型量化
回测实现3.金融量化难点通俗解释0.前言0.1专栏主旨本专栏【金融资产组合模型进化论】以马科维茨资产组合模型为起点,带领读者一步步感受
AI量金术师
·
2025-01-29 21:59
金融资产组合模型进化论
人工智能
金融
python
大数据
机器学习
QAT与PTQ
模型量化
方法的区别
QAT(QuantizationAwareTraining)和PTQ(PostTrainingQuantization)是两种常见的
模型量化
方法,用于减少深度学习模型的计算和存储开销,同时尽量保持模型的性能
old_power
·
2025-01-23 17:28
计算机视觉
模型量化
深度学习
计算机视觉
清华和哈工大把大
模型量化
做到了1比特,把世界顶尖多模态大模型开源大
模型量化
个人电脑运行!机器人领域首个开源视觉-语言操作大模型,激发开源VLMs更大潜能,视 Mamba速度提升2.8倍,内存能省87%
清华和哈工大把大
模型量化
做到了1比特,把世界顶尖多模态大模型开源大
模型量化
个人电脑运行!机器人领域首个开源视觉-语言操作大模型,激发开源VLMs更大潜能,视Mamba速度提升2.8倍,内存能省87%。
代码讲故事
·
2025-01-22 05:45
机器人智慧之心
Mamba
机器人
量化
大模型
开源
视觉
VLMs
llama.cpp部署
主要有两点优化:llama.cpp使用的是C语言写的机器学习张量库ggmlllama.cpp提供了
模型量化
的工具计算类
法号:行颠
·
2025-01-17 17:12
机器学习
机器学习
欺诈文本分类检测(十四):GPTQ量化模型
本文将采用一种训练后量化方法GPTQ,对前文已经训练并合并过的模型文件进行量化,通过比较
模型量化
前后的评测指标,来测试量化对模型性能的影响。
沉下心来学鲁班
·
2024-09-15 06:54
微调
分类
人工智能
语言模型
微调
TensorRT
模型量化
实践
文章目录量化基本概念量化的方法方式1:trtexec(PTQ的一种)方式2:PTQ2.1pythononnx转trt2.2polygraphy工具:应该是对2.1量化过程的封装方式3:QAT(追求精度时推荐)使用TensorRT量化实践(C++版)使用TensorRT量化(python版)参考文献量化基本概念后训练量化PostTrainingQuantization(PTQ)量化过程仅仅通过离线推
痛&快乐着
·
2024-09-12 01:00
深度学习
TensorRT
c++
深度学习
AI多模态实战教程:面壁智能MiniCPM-V多模态大模型问答交互、llama.cpp
模型量化
和推理
一、项目简介MiniCPM-V系列是专为视觉-语⾔理解设计的多模态⼤型语⾔模型(MLLMs),提供⾼质量的⽂本输出,已发布4个版本。1.1主要模型及特性(1)MiniCPM-Llama3-V2.5:参数规模:8B性能:超越GPT-4V-1106、GeminiPro、Qwen-VL-Max和Claude3,⽀持30+种语⾔,多模态对话,增强OCR和指令跟随能⼒。部署:量化、编译优化,可⾼效部署于端侧
AIGCmagic社区
·
2024-09-05 21:23
AI多模态
人工智能
交互
llama
【学习笔记】:Ubuntu 22 使用
模型量化
工具llama.cpp部署大模型 CPU+GPU
学习笔记:Ubuntu22使用
模型量化
工具llama.cpp部署大模型CPU+GPU前言1下载并编译llama.cpp1.1git下载llama.cpp仓库源码1.2编译源码(make)1.2.1选择一
淮序_
·
2024-08-30 02:00
笔记
ubuntu
llama
python
神经网络量化
最近在做神经网络的端侧部署,在做端侧部署的时候,为了减少内存压力和加快推理速度,会将单精度(fp32)
模型量化
成int8或者fp16。
掉毛学渣
·
2024-02-26 11:53
神经网络
【深入了解PyTorch】模型优化和加速:PyTorch优化技术与库的应用
【深入了解PyTorch】模型优化和加速:PyTorch优化技术与库的应用模型优化和加速:PyTorch优化技术与库的应用模型剪枝(ModelPruning)
模型量化
(ModelQuantization
prince_zxill
·
2024-02-24 07:23
Python实战教程
人工智能与机器学习教程
pytorch
人工智能
python
大
模型量化
技术原理-LLM.int8()、GPTQ
模型压缩主要分为如下几类:剪枝(Pruning)知识蒸馏(KnowledgeDistillation)量化之前也写过一些文章涉及大
模型量化
相关的内容。
吃果冻不吐果冻皮
·
2024-02-20 21:39
动手学大模型
人工智能
想要自己的专属 AI 猫娘助理?教你使用 CPU 本地安装部署运行 ChatGLM-6B实现
关键的是结合
模型量化
技术,ChatGLM-6B可以本地安装部署运行在消费级的显卡上做模型的推理和训练(全量仅需14GB显存,INT4量化级别下最低只需6GB显存)虽然智商比不过openAI的ChatGPT
恒TBOSH
·
2024-02-20 21:05
GPT-4
人工智能
Datawhale用免费GPU线上跑AI项目实践课程任务一学习笔记。部署ChatGLM3-6B模型
结合
模型量化
技术,用户可以在消费级的显卡上进行
Hoogte-oile
·
2024-02-20 21:04
学习笔记
学习
笔记
人工智能
自然语言处理
MIT-BEVFusion系列七--量化1_公共部分和激光雷达网络的量化
目录官方readme的Notesptq.py量化模块初始化解析命令行参数加载配置信息创建dataset和dataloader构建模型
模型量化
Lidarbackbone量化稀疏卷积模块量化量化完的效果加法模块量化本文是
端木的AI探索屋
·
2024-02-13 08:20
bevfusion
自动驾驶
算法
python
人工智能
LMDeploy 大
模型量化
部署实践
在浦语的MDeploy大
模型量化
部署实践课程中,可能需要完成的任务包括:大模型部署背景2、LMDeploy简介环境配置:这个部分你需要安装并设置相关的开发工具和库。
查里王
·
2024-02-12 23:57
人工智能
书生谱语-全链条开发工具
书生·谱语全链条开发体系包含:数据、模型预训练、模型微调、
模型量化
部署、模型测评、模型场景应用全链路开发体系github链接通用大模型国内外大语言模型快速发展,涌现了大量的大语言模型以及一批创业公司深度学习模型的发展大模型利用多模态优势
SatVision炼金士
·
2024-02-12 11:21
NLP
python
(2024,低比特
模型量化
,模型微调,QuEST,TAQuant)QuEST:通过高效选择性微调进行低比特扩散
模型量化
QuEST:Low-bitDiffusionModelQuantizationviaEfficientSelectiveFinetuning公和众和号:EDPJ(进Q交流群:922230617或加VX:CV_EDPJ进V交流群)目录0.摘要2.相关工作3.方法3.1.预备知识3.2.扩散模型的量化感知属性3.3.通过高效选择微调进行量化3.3.1.微调的充分性3.3.2.选择性微调进行量化4.实验
EDPJ
·
2024-02-08 20:49
论文笔记
人工智能
计算机视觉
大语言
模型量化
方法对比:GPTQ、GGUF、AWQ
原文:大语言
模型量化
方法对比:GPTQ、GGUF、AWQ-知乎在过去的一年里,大型语言模型(llm)有了飞速的发展,在本文中,我们将探讨几种(量化)的方式,除此以外,还会介绍分片及不同的保存和压缩策略。
javastart
·
2024-02-02 17:48
自然语言
aigc
大模型
语言模型
人工智能
自然语言处理
AIGC
chatgpt
书生·浦语大模型实战营汇总
文档,笔记,作业第三课:基于InternLM和LangChain搭建你的知识库视频,文档,笔记,作业第四课:XTuner大模型单卡低成本微调实战视频1,视频2,文档,笔记,作业第五课:LMDeploy大
模型量化
部署实践视频
灬烖灬
·
2024-01-31 03:55
语言模型
大模型学习之书生·浦语大模型笔记汇总
大模型学习之书生·浦语大模型3——基于InternLM和LangChain搭建知识库大模型学习之书生·浦语大模型4——基于Xtuner大模型微调实战大模型学习之书生·浦语大模型5——基于LMDeploy大
模型量化
部署实践大模型学习之书生
uncle_ll
·
2024-01-31 03:25
#
书生·浦语大模型
学习
笔记
大模型
LLM
浦语大模型
【书生·浦语大模型实战营】学习笔记目录
InternLM和LangChain搭建你的知识库》学习笔记【书生·浦语大模型实战营04】《(4)XTuner大模型单卡低成本微调实战》学习笔记【书生·浦语大模型实战营05】《(5)LMDeploy大
模型量化
部署实践
songyuc
·
2024-01-30 14:33
学习
笔记
【LMDeploy 大
模型量化
部署实践】学习笔记
参考学习教程【LMDeploy的量化和部署】理论作业使用LMDeploy以本地对话、网页Gradio、API服务中的一种方式部署InternLM-Chat-7B模型,生成300字的小故事本地对话API服务Client命令端口转发网页Gradio
尘汐筠竹
·
2024-01-29 05:46
学习
笔记
显存不够又想用某个模型时的
模型量化
操作
fromtransformersimportAutoTokenizer,AutoModelForCausalLM,BitsAndBytesConfigquantization_config=BitsAndBytesConfig(load_in_8bit=True)tokenizer=AutoTokenizer.from_pretrained(path,trust_remote_code=True)
鱼鱼9901
·
2024-01-28 20:00
nlp
人工智能
linux
深度学习
书生·浦语大模型--第五节课笔记&作业--LMDeploy 大
模型量化
部署实践
文章目录大模型部署背景LMDeploy简介动手实践创建环境服务部署在线转换离线转换TurboMind推理+API服务Gradio作为前端Demo演示TurboMind服务作为后端TurboMind推理作为后端作业大模型部署背景部署:将训练好的模型在特定软硬件环境中启动的过程挑战:存储问题LMDeploy简介针对英伟达平台量化可以节省显存,提升推理速度访问数据占用了大量时间有一部分很重要的参数不量化
李日音
·
2024-01-25 21:28
InternLM大模型
笔记
书生·浦语大模型实战营-学习笔记5
LMDeploy大
模型量化
部署实践大模型部署背景LMDeploy简介轻量化、推理引擎、服务核心功能-量化显存消耗变少了大语言模型是典型的访存密集型任务,因为它是decoder-by-decoder先把数据量化为
Kinno酱
·
2024-01-24 05:52
大模型
学习
笔记
自然语言处理
chatgpt
人工智能
第五节课 LMDeploy 大
模型量化
部署实践(笔记)
来源:(5)LMDeploy大
模型量化
部署实践_哔哩哔哩_bilibili课程文档:https://github.com/InternLM/tutorial/blob/main/lmdeploy/lmdeploy.md1
幽径微澜
·
2024-01-24 05:34
书生·浦语大模型实战营(笔记
笔记
python
【书生·浦语大模型实战营第5课】LMDeploy大
模型量化
部署实践
量化是一种以参数或****计算中间结果精度下降换空间节省(以及同时带来的性能提升)的策略。对模型进行量化。主要包括KVCache量化和模型参数量化。KVCache量化是指将逐Token(Decoding)生成过程中的上下文K和V中间结果进行INT8量化(计算时再反量化),以降低生成过程中的显存占用。计算minmax。主要思路是通过计算给定输入样本在每一层不同位置处计算结果的统计情况。对于Atten
A-Little-Boy
·
2024-01-24 04:17
OpenMMLab
人工智能
【书生·浦语大模型实战营05】《(5)LMDeploy 大
模型量化
部署实践》学习笔记
《(5)LMDeploy大
模型量化
部署实践》课程文档:《LMDeploy的量化和部署》1、大模型部署背景1.1模型部署定义将训练好的模型在特定软硬件环境中启动的过程,使模型能够接收输入并返回预测结果为了满足性能和效率的需求
songyuc
·
2024-01-24 03:42
学习
笔记
【大
模型量化
】OliVe:硬件友好的A4W4量化方案
模型量化
是缓解LLM规模和硬件容量之间不断扩大的差距的有前途的方法。之前的离群点感知量化方案采用稀疏编码技术将离群点从正常值中分离出来,该过程需要全局协调(例如,全局稀疏度协调列表)。
AI小白龙
·
2024-01-21 22:05
大模型
语言模型
人工智能
[C#]winform部署yolov8图像分类的openvino格式的模型
以下是OpenVINO部署模型的主要优点:高性能:OpenVINO提供了一系列性能优化工具,如
模型量化
和剪枝等,可以在Intel硬件平台上实现高性能和低延迟的推理。多平台支持:OpenVIN
FL1623863129
·
2024-01-21 03:12
C#
YOLO
openvino
人工智能
本地部署 ChatGLM-6b
结合
模型量化
技术,用户可以在消费级的显卡上进行本地部署(INT4量化级别下最低只需6GB显存)。
sanyer
·
2024-01-20 22:31
科普:大语言模型中的量化是什么意思?
为了提高这些模型的效率和可移植性,一种常用的方法是
模型量化
。1:什么是
模型量化
?
模型量化
是指将模型中的参数或者激活值从高精度(例如32位浮点数)转换为低精度(例如4位或者8位整数)的过程。
AI明说
·
2024-01-19 17:08
AIGC
人工智能
[BUG] cannot import name ‘quantize_qat‘ from ‘onnxruntime.quantization‘
前言进行onnx
模型量化
出现了这个错误解决:卸载重装onnx和onnxruntime,会自动安装最新,由于版本更新取消了quantize_qat函数改为以下代码:fromonnxruntime.quantizationimportquantize_dynamic
犟小孩
·
2024-01-18 20:59
BUG
bug
前端
javascript
大模型学习第五课
学习目标:LMDeploy大
模型量化
部署实践学习内容:大模型部署背景LMDeploy简介动手实践环节学习时间:20240115学习产出:1,大模型部署背景模型部署定义,产品形态,计算设备大模型特点内存开销巨大
敲键盘的喵桑
·
2024-01-18 12:46
学习
InternLM第5次课笔记
LMDeploy大
模型量化
部署实践1大模型部署背景2LMDeploy简介3动手实践环节https://github.com/InternLM/tutorial/blob/main/lmdeploy/lmdeploy.md3
Jamiechoi
·
2024-01-17 06:45
笔记
大模型学习之书生·浦语大模型5——基于LMDeploy大
模型量化
部署实践
目录大模型部署背景LMDeploy部署量化TurboMindAPIserver动手实践环节
uncle_ll
·
2024-01-17 05:00
#
书生·浦语大模型
学习
LLM
大模型
持续部署
【书生·浦语】大模型实战营——LMDeploy 大
模型量化
部署实战
大模型部署背景大模型部署是指将训练好的模型在特定的软硬件环境中启动的过程,使模型能够接收输入并返回预测结果。大模型的内存开销巨大,7B模型仅权重需要14G内存。另外大模型是自回归生成,需要缓存Attention的k/v。LMDeploy简介推理性能核心功能-量化量化可以大大降低显存,同时提升推理速度。LLM是典型的访存密集型任务WeightOnly量化:核心功能——推理引擎TurboMind主要包
不想动脑筋的亮亮
·
2024-01-17 04:16
langchain
python
LMDeploy 大
模型量化
部署实践
LMDeploy大
模型量化
部署实践大模型部署背景模型部署定义产品形态计算设备大模型特点大模型挑战大模型部署方案LMDeploy简介推理性能核心功能-量化核心功能-推理引擎TurboMind核心功能推理服务
桑_榆
·
2024-01-15 07:42
MMLab实战训练营
人工智能
用 Ollama 轻松玩转本地大模型
模型量化
(quantization)技术可以很大程度上降低显存要求。以4-bit量化为例,其将原
m0_54050778
·
2024-01-14 23:02
python
大模型实战营Day5 LMDeploy大
模型量化
部署实践
模型部署定义产品形态计算设备大模型特点内存开销大动态shape结构简单部署挑战设备存储推理速度服务质量部署方案:技术点(模型并行transformer计算和访存优化低比特量化ContinuousBatchPageAttention)方案(云端移动端)LMDeploy:云端部署接口:pythongRPCRESTful轻量化推理引擎服务(apiservergradiotritoninferencese
流浪德意志
·
2024-01-14 17:38
LLM
python
大模型
langchain
InternLM
人工智能
LMDeploy 的量化和部署
InternLM/tutorial/blob/vansin-patch-4/lmdeploy/lmdeploy.md视频:https://www.bilibili.com/video/BV1iW4y1A77P一、
模型量化
大模型参数量很大
yestolife123
·
2024-01-14 07:45
人工智能
PaddleSeg的训练与测试推理全流程(超级详细)
LeNet
模型量化
参考文档一.下载项目地址:https://gitee.com/paddlepaddle/PaddleSeg/tree/release%2F2.5/特别注意下载版本:二.paddlepaddle-gpu
雪回
·
2024-01-13 11:47
开发语言
ChatGLM2-6B 大语言模型本地搭建
ChatGLM2-6B的6B代表了训练参数量为60亿,同时运用了
模型量化
技术,意味着用户可以在消费级的显卡上进行本地部署(INT4量化级别下最低只需6GB显存)详细介绍(官方git:https://github.com
雪峰空间
·
2024-01-10 11:42
语言模型
人工智能
自然语言处理
基于llama.cpp学习开源LLM本地部署
二、使用步骤1.下载编译llama.cpp2.普通编译3.BLAS编译3.1、OpenBLAS编译CPU版3.2cuBLAS编译GPU版本4.
模型量化
4.1、模型文件下载:
joimson
·
2024-01-10 01:00
llama
学习
CPU 混合推理,非常见大
模型量化
方案:“二三五六” 位量化
模型量化
技术就是这样一个“神奇、有效”的方案。看过前两篇文章《零一万物模型折腾笔记:官方Yi-34B模型基础使用》、《本
soulteary
·
2024-01-04 16:27
为了不折腾而去折腾的那些事
Python
模型量化
性能优化
Llama
llama.cpp
用通俗易懂的方式讲解大模型:在 CPU 服务器上部署 ChatGLM3-6B 模型
大语言模型(LLM)的量化技术可以大大降低LLM部署所需的计算资源,
模型量化
后可以将LLM的显存使用量降低数倍,甚至可以将LLM转换为完全无需显存的模型,这对于LLM的推广使用来说是非常有吸引力的。
Python算法实战
·
2024-01-04 04:59
大模型理论与实战
大模型
服务器
大模型
语言模型
多模态
人工智能
ChatGLM-6B 部署与 P-Tuning 微调实战-使用Pycharm实战
结合
模型量化
技术,用户可以在消费级的显卡上进行本地部署(INT4量化级别下最低只需6GB显存)。ChatGLM-6B使用了和ChatGPT相似的技术,针对中文问答和对话
chengjinpei
·
2023-12-30 09:38
pycharm
人工智能
ide
大模型
语言模型
模型量化
和边缘人工智能的曙光
模型量化
的快速创新在这方面发挥着关键作用,
模型量化
是一种通过提高可移植性和减小模型大小来加快计算速度的技术。
网络研究院
·
2023-12-28 18:59
网络研究院
人工智能
边缘
融合
模型
量化
模型量化
| Pytorch的
模型量化
基础
官方网站:Quantization—PyTorch2.1documentationPracticalQuantizationinPyTorch|PyTorch量化简介量化是指执行计算和存储的技术位宽低于浮点精度的张量。量化模型在张量上执行部分或全部操作,精度降低,而不是全精度(浮点)值。这允许更紧凑的模型表示和在许多硬件平台上使用高性能矢量化操作。与典型的FP32模型相比,PyTorch支持INT
夏天|여름이다
·
2023-12-27 15:04
-
实用篇
-
pytorch
人工智能
python
模型量化
之AWQ和GPTQ
什么是
模型量化
模型量化
(ModelQuantization)是一种通过减少模型参数表示的位数来降低模型计算和存储开销的技术。
taoli-qiao
·
2023-12-27 14:09
LLM
大模型
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他