Llama 第7页

在灾难推文分析场景上比较用 LoRA 微调 Roberta、Llama 2 和 Mistral 的过程及表现

本文主要比较3个模型:RoBERTa、Mistral-7B及Llama-2-7B。我们用它们来解决一个常见问题——对灾难相关的推文进行分类。

Hugging Face·2023-12-23 19:14

Llama2大模型开源，和开源的原教旨主义者们的又一次分道扬镳！

——扎克伯格上周技术圈最爆款的新闻估计就是扎克伯格的Meta公司宣布免费、开源、商用Llama2的大语言模型了。

开源社·2023-12-23 16:48

LLaMA开源大模型源码分析！

Datawhale干货作者：宋志学，Datawhale成员花了一晚上照着transformers仓库的LLaMA源码，把张量并行和梯度保存的代码删掉，只留下模型基础结构，梳理了一遍LLaMA的模型结构。

Datawhale·2023-12-23 16:17

LLM微调（四）| 微调Llama 2实现Text-to-SQL，并使用LlamaIndex在数据库上进行推理

Llama2是开源LLM发展的一个巨大里程碑。

wshzd·2023-12-23 09:57

LLM之RAG实战（七）| 使用llama_index实现多模态RAG

一、多模态RAGOpenAI开发日上最令人兴奋的发布之一是GPT-4VAPI（https://platform.openai.com/docs/guides/vision）的发布。GPT-4V是一个多模态模型，可以接收文本/图像，并可以输出文本响应。最近还有一些其他的多模态模型：LLaVa和Fuyu-8B。在过去的一年里，大部分应用程序开发都是围绕文本输入/文本输出范式。最典型的例子之一是检索增强

wshzd·2023-12-23 09:27

ChatGPT开源系列

模型StanfordAlpaca可以借鉴的点llama.cpp验证阶段已完成nebullvm-chatllama（待定）可以借鉴的点OpenChatKit可以借鉴的点：ChatGLM可以借鉴的点应用QA

MIngo的成长·2023-12-23 01:16

LLama Factory 安装部署实操记录（二）

1.项目地址GitHub-hiyouga/LLaMA-Factory:Easy-to-useLLMfine-tuningframework(LLaMA,BLOOM,Mistral,Baichuan,Qwen

瑾怀轩·2023-12-22 16:13

LLama Factory 实操记录（一）

1.api端口参数说明：src/api-h,--help 显示帮助信息并退出--model_name_or_pathMODEL_NAME_OR_PATH 模型权重的路径或标识符，来自huggingface.co/models或modelscope.cn/models。(默认:None)--adapter_name_or_pathADAPTER_NAME_OR_PATH

瑾怀轩·2023-12-22 16:42

阿里云赵大川：弹性计算推理解决方案拯救 AIGC 算力危机

赵大川阿里云弹性计算高级技术专家GPU云服务器推理解决方案的提出背景随着AIGC时代的到来，两个重要应用应运而生，一个是StableDiffusionDALL-E为代表的文生图，另一个是以ChatGPT和Llama

云布道师·2023-12-22 09:10

基于DeepSpeed对 llama2-7b的LORA精调

DeepSpeed数据并行研究1.技术调研a.DeepSpeedDeepSpeed是一个开源深度学习训练优化库，其中包含一个新的显存优化技术——ZeRO（零冗余优化器）。该框架包含四个技术亮点：用3D并行化实现万亿参数模型训练：DeepSpeed实现了三种并行方法的灵活组合，它们分别为ZeRO支持的数据并行，流水线并行和张量切片模型并行。3D并行性适应了不同工作负载的需求，以支持具有万亿参数的超大

Charles_yy·2023-12-21 21:32

LLMs：《Efficient And Effective Text Encoding For Chinese Llama And Alpaca—6月15日版本》翻译与解读

导读：本文介绍了改进LLaMA和Alpaca模型在中文理解和生成方面能力的方法。通过扩展词表、参数高效微调、指令式微调和不同量化方法，提升了模型在指令任务和自然语言理解任务中的性能。

GitHub质检员·2023-12-21 20:24

论文和模型学习资料合集

社区开放麦讲座】《颠覆性创新：多模态对话与精准区域分割-VPGTrans&NExT-Chat》已知问题没有用到“InstructTuning”，主要是基于BLIP-2的模型，模型架构上有些过时（目前流行的是Llama

songyuc·2023-12-20 22:52

Mistral AI CEO宣布于2024年开源GPT-4级别模型

最近，MistralAI推出了基于MoE架构的8X7B模型，与GPT3.5和Llama270B等其他流行模型相媲美，并在大多数基准测试中以6倍更快的推理速度超越了Llama270B。

智云研·2023-12-20 18:46

整理了上百个开源中文大语言模型，涵盖模型、应用、数据集、微调、部署、评测

尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后，业界涌现了非常多基于LLM的二次微调或应用的案例。

Python算法实战·2023-12-20 17:53

超越LLama2和GPT-3.5，来自欧洲初创公司

一是因为它的性能击败了LLama2和GPT-3.5。

夕小瑶·2023-12-20 13:46

微软官宣放出一个「小模型」，仅2.7B参数，击败Llama2和Gemini Nano 2

就在前一阵谷歌深夜炸弹直接对标GPT-4放出Gemini之后，微软这两天也紧锣密鼓进行了一系列动作。尽管时间日趋圣诞假期，但是两家巨头硬碰硬的军备竞赛丝毫没有停止的意思。就在昨日，微软官宣放出一个“小模型”Phi-2，这个Phi-2仅有27亿的参数（注意不是27B），但却在参数规模小于13B的模型中达到了最先进性能，利用微软在模型扩展与训练数据管理方面的创新，Phi-2的性能可以直接匹敌参数量超过

夕小瑶·2023-12-20 13:10

开源 AI 研发提效方案 Unit Mesh 总结

在这篇文章里，我们将总结UnitMesh的一系列项目，从国内最早开源的微调Llama、ChatGLM用于研发流程的Un

Phodal·2023-12-20 00:25

LLaMA系列模型

1.LLama1.1简介OpenandEfficientFoundationLanguageModels(Open但没完全Open的LLaMA)2023年2月，Meta（原Facebook）推出了LLaMA

IT斜杆青年·2023-12-19 15:51

这是Meta版ChatGPT雏形？开源、一块GPU就能跑，1/10参数量打败GPT-3

视学算法报道编辑：张倩、蛋酱具有130亿参数的LLaMA模型「在大多数基准上」可以胜过GPT-3（参数量达1750亿），而且可以在单块V100GPU上运行。

视学算法·2023-12-19 10:48

Baichuan2开源聊天框架，使用Baichuan2-7B-Chat-4bits模型运行成功，硬件16G内存/GTX1070显卡

前提摘要：一.这几天一直在找开源的chatgpt框架，运行成功的有llama.cpp、chatgml2和baichuan2框架，先说说llama.cpp框架，使用的是cpu运行的框架，也成功了，但是我16g

萧鼎·2023-12-19 09:42

中文开源LLM评测

github.com/lm-sys/FastChathttps://github.com/oobabooga/text-generation-webuihttps://github.com/ggerganov/llama.cpphttps

.MING_X·2023-12-18 13:41

【GPT4技术揭秘】GPT-4 Architecture,Infrastructure,Training Dataset,Costs,Vision,MoE

群友分享了总结内容如下：13Ttokens预训练语料（llama和palm是1.4T）MoE，16个110B大的模型（更多的experts理论上效果更好但工程难度更高(内存带宽要求高)，更难收

易寻fly·2023-12-18 12:49

87 GB 模型种子，GPT-4 缩小版，超越ChatGPT3.5，多平台在线体验

缘起是MistralAI二话不说，直接在其推特账号上甩出了一个87GB的种子随后Mixtral公布了模型的一些细节：具有编程能力相比Llama270B，运算速度快6倍可处理32k令牌的上下文可通过API

机器学习算法与Python实战·2023-12-18 11:12

【LLM】大语言模型的前世今生

AnOverviewofLLMsLLMs’statusquoNLPFourParadigmAtimelineofexistinglargelanguagemodels看好OpenAI、Meta和LLaMA

Hellespontus·2023-12-18 07:55

Llama2-Chinese-7b-Chat安装部署

文章目录前言一、文件介绍二、环境配置♟三、Llama2-Chinese-7b-Chat下载⏬总结前言本文主要介绍如何使用Llama2-Chinese-7b-Chat，最后的效果如图所示：一、文件介绍⬇️

drj御用programmer·2023-12-18 05:27

大模型——LLAMA模型

论文导读ChatGPT具有指令遵循能力和泛化性，论文对ChatGPT背后的指令微调和RLHF技术进行详细描述。背景gpt-3模型首次超过千亿数量级，但是由于参数规模大，无法使用微调方法，那么出来了提示学习提示学习：给一个任务描述，输出模型提示学习隐含假设：预训练模型包含丰富知识预训练模型提示学习预训练+微调预训练+提示+预测论文动机InstructGPT参数越来越大，但是表现不好，不能遵循用户意图

crush.,·2023-12-18 03:36

Llama中文社区开源预训练Atom-7B-chat大模型体验与本地化部署实测(基于CPU，适配无GPU的场景)

一、模型简介原子大模型Atom由Llama中文社区和原子回声联合打造，在中文大模型评测榜单C-Eval中位居前十（8月21日评测提交时间）。

weixin_48087464·2023-12-18 03:36

详解各种LLM系列｜（2）LLaMA 2模型架构、预训练、SFT内容详解 (PART-1)

一、引言Llama2是Meta在LLaMA基础上升级的一系列从7B到70B参数的大语言模型。Llama2在各个榜单上精度全面超过LLaMA1，Llama2作为开源界表现最好的模型之一，目前被广泛使用。

Sunny_AI_addict·2023-12-18 03:36

Mistral MOE架构全面解析

在大多数基准测试中，Mistral-8x7B的性能优于Llama270B。Mixtral8x7B是

江小皮不皮·2023-12-18 03:06

llama/llama2论文解读

llama摘要llama在约1.4T的token上，训练出参数量7B到65B的模型，其模型规模如下在仅使用开源数据集的情况下，llama-13B在多数benchmarks上与GPT-3效果相当；llama

美洲大蠊很顽强·2023-12-18 03:05

Llama 架构分析

从代码角度进行Llama架构分析Llama架构分析前言Llama架构分析分词网络主干DecoderLayerAttentionMLP下游任务因果推理文本分类Llama架构分析前言Meta开发并公开发布了

江小皮不皮·2023-12-18 03:35

揭秘高效大型语言模型：技术、方法与应用展望

近年来，大型语言模型（LLMs）在自然语言处理领域取得了显著的进展，如GPT-series(GPT-3,GPT-4)、Google-series(Gemini,PaLM),Meta-series(LLAMA1&

机器学习社区·2023-12-17 19:54

综述 | 揭秘高效大型语言模型：技术、方法与应用展望

Xnhyacinth近年来，大型语言模型（LLMs）在自然语言处理领域取得了显著的进展，如GPT-series(GPT-3,GPT-4)、Google-series(Gemini,PaLM),Meta-series(LLAMA1&

zenRRan·2023-12-17 19:52

使用Pytorch从零开始构建LoRA

这包括BERT和RoBERTa等掩码语言模型，以及GPT、Llama和Mistral等因果（或聊天机器人）模型。LoRA的主要优点之一在于其效率。通过使用更少的参数，LoRA显着降

Garry1248·2023-12-17 07:47

[论文笔记] 大模型gpu机器推理测速踩坑 (llama/gpt类)

cpu没报错，换gpu就报错。以下是一些踩坑：坑1：要指定gpu，可以在importtorch之前指定gpu。model=LlamaForCausalLM.from_pretrained(model_path,trust_remote_code=True).to(device)报错:RuntimeError('Expectedalltensorstobeonthesamedevice,butfou

心心喵·2023-12-17 00:02

揭开机器学习转换器架构的神秘面纱

最近，随着OpenAI公司的ChatGPT和Meta公司的LLama等大型语言模型的出现，转换器的受欢迎程度飙升。所有上述这些模型都建立在转换器架构的基础上，引起了业界极大的关注。

c++服务器开发·2023-12-16 19:06

Llama 2论文解读

标题简介模型预训练预训练设置硬件资源与碳排放模型评估模型微调有监督微调基于人工反馈的强化学习（RLHF）人类偏好数据的收集奖励模型迭代微调过程多轮对话控制RLHF结果模型回答的安全性一直以来，Llama

长白山下大绵羊·2023-12-16 13:52

Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言

1.摘要我们提出了一个多模态框架Video-LLaMA1，它使大型语言模型(LLM)能够理解视频中的视觉和听觉内容。视频-来自冻结的预训练视频和音频编码器和冻结的LLM的美洲驼引导跨模式训练。

庄园特聘拆椅狂魔·2023-12-16 02:25

走向边缘智能，美格智能携手阿加犀成功在高算力AI模组上运行一系列大语言模型

近日，美格智能发挥软硬件一体协同开发能力，融合阿加犀卓越的AI优化部署技术，在搭载高通QCS8550平台的高算力AI模组上，成功运行了一系列大语言模型，包括LLaMA-2、通义千问Qwen、百川大模型、

美格智能·2023-12-15 23:38

《从GLM-130B到ChatGLM：大模型预训练与微调》笔记

第一部分100B参数的大模型开始出现智能涌现在code数据集上训练，增强大模型的逻辑推理能力第二部分GLM和LLaMA中采用RoPE旋转式编码BF16牺牲了数据精度（表示由10位降到7位），但扩大了数据的表示范围

佛系调参·2023-12-15 13:01

LLaMA-Factory使用V100微调ChatGLM2报错 RuntimeError: “addmm_impl_cpu_“ not implemented for ‘Half‘

微调命令CUDA_VISIBLE_DEVICES=0python/aaa/LLaMA-Factory/src/train_bash.py\--stagesft\--model_name_or_path/

ybdesire·2023-12-15 13:01

LLaMA-Factory用self_cognition数据微调ChatGLM2后，CLI运行输出乱码和报错 IndexError: piece id is out of range

微调命令CUDA_VISIBLE_DEVICES=0python/aaabbb/LLaMA-Factory/src/train_bash.py\--stagesft\--model_name_or_path

ybdesire·2023-12-15 13:01

LLaMA-Factory可视化界面微调chatglm2；LoRA训练微调模型简单案例

参考：https://github.com/huggingface/pefthttps://github.com/hiyouga/LLaMA-Factory1、LLaMA-Factory可视化界面微调chatglm2

loong_XL·2023-12-15 13:59

baichuan-7B-chat微调报错及解决记录使用的仓库：LLaMA-Factory 2023年11月27日

我所使用的代码仓库是LLaMA-Factoryhiyouga/LLaMA-Factory:Easy-to-useLLMfine-tuningframework(LLaMA,BLOOM,Mistral,Baichuan

ygdzzx·2023-12-15 13:57

一文带你UI界面玩转ChatGLM以及Llama的微调

Lora微调的概念：lora是Low-RankAdaptation的缩写，是微软的Hu等人于2021年挂在ArXiv上（后又发表在ICLR2022上）的一篇论文《LoRA:Low-RankAdaptationofLargeLanguageModels》中提出的，通俗来讲，是一种降低模型可训练参数，又尽量不损失模型表现的大模型微调方法。为什么时隔两年，lora又突然火了一把呢？这一切都要感谢Chat

梅渍小番茄·2023-12-15 13:23

Mistral AI 推出高质量的稀疏专家混合AI人工智能模型——SMoE，有望超越ChatGPT3.5

他们发布了Mixtral8x7B，这是一个高质量的稀疏专家混合模型（SMoE），拥有开放权重，该模型的性能在大多数基准测试中优于Llama270B，推理速度提高了6倍。

喜好儿aigc·2023-12-15 13:22

LLaMA-Factory微调ChatGLM3报错： Segmentation fault (core dumped)

SFT训练模型的命令CUDA_VISIBLE_DEVICES=0pythonsrc/train_bash.py\--stagesft\--model_name_or_pathmodels/chatglm3-6b\--do_train\--datasetself_cognition\--templatechatglm3\--finetuning_typelora\--lora_targetquery

ybdesire·2023-12-15 13:19

超越边界：Mistral 7B挑战AI新标准，全面超越Llama 2 13B

近日，一个新的里程碑被设立：MistralAI发布了其最新模型Mistral7B，它在众多基准测试中全面超越了Llama213B模型，标志着AI技术的一个重大进步。

努力犯错·2023-12-15 13:48

人工智能联盟的首件神兵利器——“Purple Llama” 项目，旨为保护工智能模型安全性

Meta公司（MetaPlatformInc），原名Facebook，创立于2004年2月4日，市值5321.71亿美元。总部位于美国加利福尼亚州门洛帕克。Meta公司推出了名为“PurpleLlama”的项目，旨在保护和加固其开源人工智能模型。该项目提供了一系列工具，开发人员可以在发布之前测试其模型的安全性。其中的一个工具是LlamaGuard，开发人员可以使用它来防御生成潜在风险的输出。另一个

喜好儿aigc·2023-12-15 13:16

安装LLaMA-Factory微调chatglm3，修改自我认知

安装gitclonehttps://github.com/hiyouga/LLaMA-Factory.gitcondacreate-nllama_factorypython=3.10condaactivatellama_factorycdLLaMA-Factorypipinstall-rrequirements.txt

小草cys·2023-12-15 13:46

推荐频道

Llama