E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
LLaMa
LLM系列 | 19 :
Llama
2实战(上篇)-本地部署(附代码)
今天这篇关于
Llama
2的小作文其实比较长,所以分为上下两篇,上篇主要介绍
Llama
2的基本情况和基于官方模型实测
Llama
2在中英上的效果,包括单轮和多轮对话。
JasonLiu1919
·
2023-09-23 00:53
LLM
人工智能
llama
人工智能
LLM
模型部署
LLM系列 | 20 :
Llama
2 实战(下篇)-中文语料微调(附完整代码)
简介紧接前文:万字长文细说ChatGPT的前世今生
Llama
2实战(上篇):本地部署(附代码)上篇主要介绍
Llama
2的基本情况和基于官方模型实测
Llama
2在中英上的效果,包括单轮和多轮对话。
JasonLiu1919
·
2023-09-23 00:49
LLM
人工智能
NLP
人工智能
LLM
llama
实战
Chinese-
LLaMA
-AIpaca
文章目录关于Chinese-
LLaMA
-Alpaca一、
LLaMA
模型-->HF格式二、合并LoRA权重,生成全量模型权重方式1:单LoRA权重合并方式2:多LoRA权重合并(适用于Chinese-Alpaca-Plus
伊织code
·
2023-09-22 14:10
LLM
&
AIGC
llama
Chinese-LLaMA
AIpaca
LoRA
huggingface
LLM各层参数详细分析(以
LLaMA
为例)
网上大多分析LLM参数的文章都比较粗粒度,对于LLM的精确部署不太友好,在这里记录一下分析LLM参数的过程。首先看QKV。先上transformer原文也就是说,当h(heads)=1时,在默认情况下,WiQW_i^QWiQ、WiKW_i^KWiK、WiVW_i^VWiV都是2维方阵,方阵维度是dmodel×dmodeld_{model}\timesd_{model}dmodel×dmodel.结
Αλήθεια
·
2023-09-22 14:10
llama
gpt
transformer
python
大模型训练之加速篇 -> peft(Lora) -> accelerator -> deepspeed (Zero)
HUGGINFACEPEFT库:实现LORA,prefix-tuning.prompttuning,AdaLoRA,
LLaMA
-Adapter训练的库HUGGINFACEaccelerator库:是一个将
zhurui_xiaozhuzaizai
·
2023-09-22 03:22
自然语言处理
深度学习
碾压
Llama
2!微软13亿参数phi-1.5,单个A100训练,刷新SOTA
微软推出了一个全新预训练模型phi-1.5,共有13亿参数,能做QA问答、聊天和写代码等等。模型越大,能力越强吗?然而,事实并非如此。近日,微软研究人员推出了一个模型phi-1.5,仅有13亿参数。论文地址:https://arxiv.org/pdf/2309.05463.pdf具体来说,在常识推理、语言技能,phi-1.5表现与其他模型相当。同时在多步推理上,远远超过其他大模型。phi-1.5展
语音之家
·
2023-09-22 00:54
智能语音
人工智能
神经网络
语音识别
科技
数据库
大语言模型之十一 Transformer后继者Retentive Networks (RetNet)
在《大语言模型之四-
LlaMA
-2从模型到应用》的
LLama
-2推理图中可以看到,在输入“你好!”时,是串行进行的,即先输入“你”这个token,然后是“好”,再然后是“!”
shichaog
·
2023-09-21 22:25
神经网络&人工智能
语言模型
transformer
人工智能
ChatGLM 实践指南
如今ChatGLM2-6b、
LLama
2等越来越多强大的开源模型的出现,成本和安全性越来越可控,私有知识库也就逐渐变得可落地。再加上看到阿里云
张志翔的博客
·
2023-09-21 13:48
人工智能
语言模型
深度学习
使用QLoRA对
Llama
2进行微调的详细笔记
使用QLoRA对
Llama
2进行微调是我们常用的一个方法,但是在微调时会遇到各种各样的问题,所以在本文中,将尝试以详细注释的方式给出一些常见问题的答案。
·
2023-09-21 12:44
太强了开源的AI工具APP,AIdea -支持 AI聊天、协作、图片生成
一款集成了主流大语言模型以及绘图模型的APP,采用Flutter开发,代码完全开源,支持以下功能:支持GPT-3.5/4问答聊天支持国产模型:通义千问,文心一言、讯飞星火、商汤日日新支持开源模型:
Llama
2
AI 研习所
·
2023-09-21 12:33
AIGC
人工智能
AGI
人工智能
AIGC
论文阅读_大语言模型_
Llama
2
英文名称:
Llama
2:OpenFoundationandFine-TunedChatModels中文名称:
Llama
2:开源的基础模型和微调的聊天模型文章:http://arxiv.org/abs/2307.09288
xieyan0811
·
2023-09-21 10:57
大模型
论文阅读
MHA、MQA、GQA区别和联系
2023年7月,Meta发布了其最新版本
LLaMA
2,其中
LLama
2的注意力机制使用了GQA,那么什么是GQA呢?和标准的MHA有什么区别呢?
TFATS
·
2023-09-21 00:53
nlp
算法
深度学习
深度学习
自然语言处理
人工智能
LLM预训练之RLHF(一):RLHF及其变种
在ChatGPT引领的大型语言模型时代,国内外的大模型呈现爆发式发展,尤其是以年初的
LLaMA
模型为首的开源大模型和最近百川智能的baichuan模型,但无一例外,都使用了「基于人类反馈的强化学习」(RLHF
wshzd
·
2023-09-20 20:02
ChatGPT
笔记
NLP
chatgpt
AIGC
LLM微调(一)| 单GPU使用QLoRA微调
Llama
2.0实战
最近
LLaMA
2在
LLaMA
1的基础上做了很多优化,比如上下文从2048扩展到4096,使用了Grouped-QueryAttention(GQA)共享多头注意力的key和value矩阵,具体可以参考:
wshzd
·
2023-09-20 20:30
ChatGPT
llama
EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models
EdgeMoE:基于MoE的大型语言模型的快速设备推理摘要1引言2实验与分析3EDGEMOE设计4评估5相关工作6结论摘要GPT和
LLaMa
等大型语言模型(LLM)由于其在广泛的机器学习任务中的卓越能力
UnknownBody
·
2023-09-20 10:47
LLM
语言模型
人工智能
自然语言处理
GRPC CPP 开发单向Stream服务器
上周提到我们要给
llama
.cpp增加一个grpc入口,这是最终成果仓库,等待进一步测试后提交合并。今天讲讲GRPCCPP开发的麻烦事情。
百家饭OpenAPI
·
2023-09-20 04:22
c++
grpc
[NLP] LLM---<训练中文
LLama
2(三)>对
LLama
2进行中文预料预训练
预训练预训练部分可以为两个阶段:第一阶段:冻结transformer参数,仅训练embedding,在尽量不干扰原模型的情况下适配新增的中文词向量。第二阶段:使用LoRA技术,为模型添加LoRA权重(adapter),训练embedding的同时也更新LoRA参数。第一阶段预训练由于第一阶段预训练会冻结transformer参数,仅训练embedding模型,因此,收敛速度较慢,如果不是有特别充裕
舒克与贝克
·
2023-09-19 14:55
自然语言处理
人工智能
激活函数之ReLU, GeLU, SwiGLU
SwiGLU:目前很多大模型里的标配激活函数,如Google的PaLM,Meta的
LLaMA
等。[1]PaLM中使用的激活函数:SwiGLU[2]GELU激活函数
#苦行僧
·
2023-09-19 08:24
NLP
激活函数
大模型
自然语言处理
人工智能
transformer
【个人笔记本】本地化部署 类chatgpt模型 详细流程
不推荐小白,环境配置比较复杂全部流程下载原始模型:Chinese-
LLaMA
-Alpaca-2linux部署llamacpp环境使用llamacpp将Chinese-
LLaMA
-Alpaca-2模型转换为
静待缘起
·
2023-09-19 04:53
chatgpt
英伟达 H100 vs. 苹果M2,大模型训练,哪款性价比更高?
M1芯片|Uitra|AMD|A100M2芯片|ARM|A800|H100关键词:M2芯片;Ultra;M1芯片;UltraFusion;ULTRAMAN;RTX4090、A800;A100;H100;
LLAMA
高性能服务器
·
2023-09-18 12:01
A100
H100
H800
A800
如何在SAM时代下打造高效的高性能计算大模型训练平台
关键词:SAM;PCB;SA-1B;Prompt;CV;NLP;PLM;BERT;ZSL;task;zero-shot;data;H100、H800、A100、A800、
LLaMA
、Transformer
高性能服务器
·
2023-09-18 12:01
算法
数据结构
线性回归
LLM(一)| 百川智能baichuan7B、13B、53B以及baichuan2总结
百川大模型在benchmark上有超越ChatGLM和
LLaMA
的迹象,尤其是在中文任务上的表现,下面分别对7B、13B和53B模型进行简单总结:一、baichuan-7B2023年6月1
wshzd
·
2023-09-18 11:14
ChatGPT
NLP
笔记
chatgpt
AIGC
大语言模型之十-Byte Pair Encoding
Tokenizer诸如GPT-3/4以及
LlaMA
/
LlaMA
2大语言模型都采用了token的作为模型的输入输出,其输入是文本,然后将文本转为token(正整数),然后从一串token(对应于文本)预测下一个
shichaog
·
2023-09-18 04:57
神经网络&人工智能
语言模型
数据库
人工智能
qwen微调
envapt-getupdateapt-getinstallgit-lfsgitinitgitlfsinstallmkdirQwencdQwengitclonehttps://huggingface.co/Qwen/Qwen-7Bcd..gitclonehttps://gitee.com/meijunhui0917/
LLaMA
-Efficient-Tuning.gitgitclone"huanh
王多头发
·
2023-09-17 23:06
gpt
LLaMA
参数微调方法
1.AdapterTuning:嵌入在transformer中新增了一个名为adapter的结构,其核心思想是保持模型其他原始参数不变,只改变adapter的参数,其结构如下图所示:1.在每一个transformer模块最后都加入一层adapter。2.adapter首先使用一个feedforward将高维特征映射到了低维特征。3.低维特征经过一层非线性层之后将低维特征映射回高维特征。2.Pref
抓个马尾女孩
·
2023-09-17 17:14
深度学习
llama
深度学习
[NLP] LLM---<训练中文
LLama
2(五)>对SFT后的
LLama
2进行DPO训练
当前关于LLM的共识大型语言模型(LLM)使NLP中微调模型的过程变得更加复杂。最初,当ChatGPT等模型首次出现时,最主要的方法是先训练奖励模型,然后优化LLM策略。从人类反馈中强化学习(RLHF)极大地推动了NLP的发展,并将NLP中许多长期面临的挑战抛在了一边。基于人类反馈的强化学习(ReinforcementLearningfromHumanFeedback,RLHF)事实上已成为GPT
舒克与贝克
·
2023-09-17 15:37
自然语言处理
人工智能
深度学习
大模型对外提供应用的三种服务方式及示例
最近在研究
Llama
大模型的本地化部署和应用测试过程中,为了给大家提供更多的应用方式,研究了如何利用python快速搭建各种应用访问服务,一般来说,我们开发完成的软件模块为了体现价值,都需要对外提供服务
一马平川的大草原
·
2023-09-17 14:54
后端
数据应用
机器学习
大模型
chatgpt
人工智能
[NLP] LLM---<训练中文
LLama
2(四)方式一>对
LLama
2进行SFT微调
指令精调指令精调阶段的任务形式基本与StanfordAlpaca相同。训练方案也采用了LoRA进行高效精调,并进一步增加了可训练参数数量。在prompt设计上,精调以及预测时采用的都是原版StanfordAlpaca不带input的模版。对于包含input字段的数据,采用f"{instruction}+\n+{input}"的形式进行拼接。其中,StanfordAlpaca格式如下所示:[{"in
舒克与贝克
·
2023-09-17 10:34
自然语言处理
人工智能
[NLP] LLM---<训练中文
LLama
2(一)>训练一个中文
LLama
2的步骤
一数据集【Awesome-Chinese-LLM中文数据集】【awesome-instruction-dataset】【awesome-instruction-datasets】【
LLaMA
-Efficient-Tuning
舒克与贝克
·
2023-09-17 10:09
自然语言处理
人工智能
Llama
2-Chinese项目:2.2-大语言模型词表扩充
因为原生
LLaMA
对中文的支持很弱,一个中文汉子往往被切分成多个token,因此需要对其进行中文词表扩展。
NLP工程化
·
2023-09-17 10:39
人工智能
自然语言处理
Llama
大语言模型
省显存(内存?)的大语言模型(LLMs)训练/微调/推理方法
即使RTX3090有着24GB的RAM,使用一块RTX3090依然无法fp32精度训练最小号的
LLaMA
-6B。
桂花很香,旭很美
·
2023-09-16 22:24
NLP
AIGC
语言模型
人工智能
深度学习
Llama
-1|Alpaca-LoRA 微调模型下载以及安装推理教程
Llama
-1|Alpaca-LoRA微调模型下载以及安装推理教程经常玩AI的人应该对LoRA这一词并不陌生,尤其是在SD绘画领域,各种角色的LoRA模型层出不穷。那么语言领域是否存在LoRA呢?
产品大道
·
2023-09-16 22:54
人工智能
人工智能
语言模型
llama
Llama
-2 推理和微调的硬件要求总结:RTX 3080 就可以微调最小模型
大语言模型微调是指对已经预训练的大型语言模型(例如
Llama
-2,Falcon等)进行额外的训练,以使其适应特定任务或领域的需求。
deephub
·
2023-09-16 22:21
llama
人工智能
机器学习
深度学习
大语言模型
PMC-
LLaMA
: Towards Building Open-source Language Models for Medicine
本文是LLM系列文章,针对《PMC-
LLaMA
:TowardsBuildingOpen-sourceLanguageModelsforMedicine》的翻译。
UnknownBody
·
2023-09-16 14:34
LLM
llama
语言模型
人工智能
Llama
.cpp工具main使用手册
Llama
.cpp提供的main工具允许你以简单有效的方式使用各种
LLaMA
语言模型。它专门设计用于与
llama
.cpp项目配合使用。
新缸中之脑
·
2023-09-16 11:02
llama
打造生产级
Llama
大模型服务
对于任何想要尝试人工智能或本地LLM,又不想因为意外的云账单或API费用而感到震惊的人,我可以告诉你我自己的旅程是如何的,以及如何开始使用廉价的消费级硬件执行
Llama
2推理。
新缸中之脑
·
2023-09-16 11:30
llama
Text-to-SQL小白入门(五)开源最强代码大模型Code
Llama
摘要本文介绍了CodeLlama大模型的基本概括,包含了论文的摘要、结果、结论以及核心方法,对于了解和实践CodeLlama有一定帮助。论文概述上一篇介绍了指令进化大模型WizardLM,留了一个坑,补上CodeLlama论文学习,可以作为下游任务的基座模型,比如Text2SQL。目前DB-GPT-Hub分支refactor支持了CodeLlama模型微调,我粗糙地跑7b基础模型使用lora方法s
junewgl
·
2023-09-15 20:32
Text-to-SQL
llama
code
llama
text2sql
LLM
SQL
NLP
Text-to-SQL
本地部署CodeLlama +GTX1080显卡 对接open-interpreter对接wxbot(一)
GitHub-oobabooga/text-generation-webui:AGradiowebUIforLargeLanguageModels.Supportstransformers,GPTQ,
llama
.cpp
三块钱0794
·
2023-09-15 13:24
llama
codellame
wxbot
interpreter
淘天集团联合爱橙科技开源大模型训练框架Megatron-
LLaMA
9月12日,淘天集团联合爱橙科技正式对外开源大模型训练框架——Megatron-
LLaMA
,旨在让技术开发者们能够更方便地提升大语言模型训练性能,降低训练成本,并保持和
LLaMA
社区的兼容性。
阿里技术
·
2023-09-15 11:28
科技
开源
llama
常用与业务密切相关的prompt
可以在Bard、Bing、Claude2、ChatGPT和
Llama
2上使用定义您的业务目的和愿景。提示:“我正在[插入行业]创业。我的重点是定义与我的受众产生共鸣的明确目标和愿景。
赵孝正
·
2023-09-15 08:57
伟大变革
prompt
人工智能
常用与业务密切相关的prompt
可以在Bard、Bing、Claude2、ChatGPT和
Llama
2上使用定义您的业务目的和愿景。提示:“我正在[插入行业]创业。我的重点是定义与我的受众产生共鸣的明确目标和愿景。
赵孝正
·
2023-09-15 08:22
伟大变革
prompt
人工智能
windows10搭建
llama
大模型
LLAMA
介绍
llama
全称:LargeLanguageModelMetaAI是由meta(原facebook)开源的一个聊天对话大模型。
逍遥壮士
·
2023-09-14 22:59
llama
大模型升级与设计之道:ChatGLM、
LLAMA
、Baichuan及LLM结构解析
本文通过深入剖析ChatGLM、
LLAMA
和Baichuan模型的升级路径,以及探讨大型语言模型结构选型,为大家提供了一个系统性的视角,梳理了大型预训练模型的关键要素。
阿里巴巴淘系技术团队官网博客
·
2023-09-14 10:26
llama
旋转位置编码
下面是具体的推导过程:https://zhuanlan.zhihu.com/p/642884818参考一文看懂
LLaMA
中的旋转式位置编码(RotaryPositionEmbedding)十分钟读懂旋转编码
transformer_WSZ
·
2023-09-14 06:14
nlp
外推性
[NLP] LLM---扩充词表
LLama
2-构建中文tokenization
使用SentencePiece的除了从0开始训练大模型的土豪和大公司外,大部分应该都是使用其为当前开源的大模型扩充词表,比如为
LLama
扩充通用中文词表(通用中文词表,或者垂直领域词表)。
舒克与贝克
·
2023-09-13 17:24
自然语言处理
人工智能
《向量数据库指南》——向量数据库内核面临的技术挑战及应对措施
最近一年,以ChatGPT、
LLaMA
为代表的大语言模型的兴起,将向量数据库的发展推向了新的高度。
LCHub低代码社区
·
2023-09-13 13:14
《向量数据库指南》
数据库
人工智能
MIlvus
MIlvusCloud
ModaHub
向量数据库
维格云
8个免费的AI和LLM游乐场
1.ChatbotArenaChatbotArena让您体验各种各样的模型,如Vicuna,Koala,RMKV-4-Raven,Alpaca,ChatGLM,
LLaMA
,Dolly,
ygtu2018
·
2023-09-12 21:50
人工智能
AI
巴比特 | 元宇宙每日必读:Meta 正开发全新大模型,比肩GPT-4;天猫申请大模型商标...
Meta的目标是,其新的人工智能模型将比两个月前发布的名为
Llama
2的模型强大数倍。计划中的系统将帮助其他公司构建能够生成复杂文本、分析和其他输出结果的服务。
巴比特资讯
·
2023-09-12 18:23
Falcon 180B 目前最强大的开源模型
TechnologyInnovationInstitute最近发布了Falcon180B大型语言模型(LLM),它击败了
Llama
-270b,与谷歌Bard的基础模型PaLM-2Large不相上下。
·
2023-09-12 10:25
ColossalAI-Chat训练手册(RLHF)
Trainingrewardmodel)3.3、RL(TrainingmodelusingpromptswithRL)3.4、使用模型进行应答3.5、playground3.6、应答效果4、异常记录4.1
llama
IT一氪
·
2023-09-11 23:26
人工智能
上一页
9
10
11
12
13
14
15
16
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他