Llama 第3页

使用deepspeed继续训练LLAMA

目录1.数据训练配置2.模型载入3.优化器设置4.DeepSpeed设置5.DeepSpeed初始化6.模型训练LLAMA模型子结构：1.数据训练配置利用PyTorch和Transformers库创建数据加载器

samoyan·2024-02-05 13:58

清华系2B模型杀出，性能吊打LLaMA-13B

在综合性榜单上与Mistral-7B相近，在中文、数学、代码能力表现更优，整体性能超越Llama2-13B、MPT-30B、Falcon-40B等模型。

智慧医疗探索者·2024-02-05 13:28

LLaMA 模型中的Transformer架构变化

目录1.前置层归一化（Pre-normalization）2.RMSNorm归一化函数3.SwiGLU激活函数4.旋转位置嵌入（RoPE）5.注意力机制优化6.GroupQueryAttention7.模型规模和训练超参数8.分布式模型训练前置归一化与后置归一化的区别前置归一化（Pre-normalization）后置归一化（Post-normalization）结论1.前置层归一化（Pre-no

samoyan·2024-02-05 13:57

大模型增量预训练新技巧：解决灾难性遗忘

今天给大家带来一篇增量预训练方法-Llama-Pro，对LLMs进行Transformer块扩

深度学习算法与自然语言处理·2024-02-05 05:14

Large Language Models on Graphs: A Comprehensive Survey

图上的大型语言模型综述摘要1引言2定义和背景3分类和框架4纯图5富含文本的图6文本成对图7应用8未来方向9结论摘要大型语言模型（LLM），如ChatGPT和LLaMA，由于其强大的文本编码/解码能力和新发现的涌现能力

UnknownBody·2024-02-04 16:15

GPT用来润色论文\生成完整长篇论文\进行AI绘图，真的太香了！

夏日恋雨·2024-02-04 13:21

GPT/GPT4科研实践应用与AI绘图技术及论文高效写作

详情点击公众号：技术科研吧链接:GPT/GPT4科研实践应用与AI绘图技术及论文高效写作第一：2024年AI领域最新技术1.OpenAI新模型-GPT-52.谷歌新模型-GeminiUltra3.Meta新模型-LLama34

夏日恋雨·2024-02-04 13:50

GPT在地学、GIS、气象、农业、生态、环境等领域中的高级应用

技术科研吧链接：GPT在地学、GIS、气象、农业、生态、环境等领域中的高级应用一开启大模型1开启大模型1)大模型的发展历程与最新功能2)大模型的强大功能与应用场景3)国内外经典大模型（ChatGPT、LLaMA

夏日恋雨·2024-02-04 13:49

ChatLaw：基于LLaMA微调的法律大模型

文章目录动机数据组成模型框架模型评估北大团队发布首个的中文法律大模型落地产品ChatLaw，为大众提供普惠法律服务。模型支持文件、语音输出，同时支持法律文书写作、法律建议、法律援助推荐。github地址：https://github.com/PKU-YuanGroup/ChatLawChatlaw官网（体验地址）：https://www.chatlaw.cloud/论文地址：ChatLaw:Ope

dzysunshine·2024-02-04 11:37

Llama2大模型开源，大模型的Android时代来了？

就昨天凌晨，微软和Meta宣布Llama2大模型开源且进一步放开商用，一下朋友圈刷屏。

南七小僧·2024-02-04 11:49

选择GPT-3.5、还是微调Llama 2等开源模型？综合比较后答案有了

众所周知，对GPT-3.5进行微调是非常昂贵的。本文通过实验来验证手动微调模型是否可以接近GPT-3.5的性能，而成本只是GPT-3.5的一小部分。有趣的是，本文确实做到了。在SQL任务和functionalrepresentation任务上的结果对比，本文发现：GPT-3.5在两个数据集（Spider数据集的子集以及Viggofunctionalrepresentation数据集）上都比经过Lo

程序员的店小二·2024-02-02 06:33

大模型运行成本对比：GPT-3.5/4 vs. 开源托管

然而，最近Falcon和LLaMA等开源模型的创新使得从开源模型中获得类似ChatGPT的质量成为可能。这些模型的好处是，与C

新缸中之脑·2024-02-02 06:00

在Windows11的WSL上运行Llama2-7b-chat 下

上一篇博客讲了我跑Llama的demo的心路历程（上一篇博客传送门），这篇我们主要是讲下怎么配置。

Silver__Wolf·2024-01-31 10:53

使用llama.cpp在本地搭建vicuna 13B语言模型

有人做了windows下的脚本放到github上了，直接运行就可以了。我在本机试了一下13B的模型能运行，但生成速度非常慢，回复一个问题基本上要花5分钟以上的时间。我的机器配置3900X32G内存。https://github.com/mps256/vicuna.ps1

lilihli·2024-01-31 09:50

Meta开源Code Llama 70B,缩小与GPT-4之间的技术鸿沟

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/。加入请求下载的名单：https://bit.ly/3Oil6bQMeta最近更新了它的

新加坡内哥谈技术·2024-01-31 09:44

5.llama.cpp编译及使用

llama.cpp的编译及使用下载源码llama.cpphttps://github.com/ggerganov/llama.cppggml向量库https://github.com/ggerganov

行循自然-kimi·2024-01-31 09:44

LLM大模型：面试、微调

题库整理篇）大模型八股答案（一）——基础知识-知乎分析transformer模型的参数量、计算量、中间激活、KVcache-知乎【NLP】GoogleBERT模型原理详解-知乎2、大模型微调学习【万字长文】LLaMA

风路丞·2024-01-31 01:42

大模型基础

比如现在流行的chatgpt,llama,文心一言，都是基于大模型技术开发的。其中包括几个大类：prompt提示词，用于引导模型生

xiechaoyi123·2024-01-30 05:54

VLM 系列——Object Recognition as Next Token Prediction——论文解读

一、概述1、是什么结合了CLIP的视觉编码器+语言模型Llama的部分参数，将常见的图片描述任务转变为只输出属性，换言之将图片分类转变为预测下一个文本输出token。

TigerZ*·2024-01-29 21:29

VLM 系列——Llava——论文解读

本文基于CLIP的视觉编码器，以及LLaMa语言解码器，构建了一个大规模的多模态模型（

TigerZ*·2024-01-29 21:57

Meta正在训练Llama 3，目标是60万块H100！模型仍会开源

2、Meta正在训练Llama3；3、Meta正在构建大规模的计算基础设施，到今年年底要部署35万台H

夕小瑶·2024-01-29 08:11

【Llama2 windows部署详细教程】第三节 Llama2 跑起来

前面两节主要介绍了基础环境的准备，借下来就是对Llam2模型进行量化并运行起来，这个过程在实际的部署过程中也很容易出现问题。具体的部署如下：一、下载模型目前大模型主要发布在HuggingFace上提供下载，无法在上面下载的小伙伴可以在国内的ModelScope网站上下载，模型文件比较大，下载过程中需要确保网络顺畅，下载方式如下：git clone https://www.modelscope.cn

拥抱AI·2024-01-28 13:39

GPT4科研实践应用与AI绘图技术及论文高效写作

详情点击链接：GPT4科研实践应用与AI绘图技术及论文高效写作第一：2024年AI领域最新技术1.OpenAI新模型-GPT-52.谷歌新模型-GeminiUltra3.Meta新模型-LLama34.

夏日恋雨·2024-01-28 06:38

如何用GPT快速写论文？

夏日恋雨·2024-01-28 06:34

如何用GPT绘图？

慢腾腾的小蜗牛·2024-01-28 05:55

如何用GPT进行AI绘图？

夏日恋雨·2024-01-28 05:55

如何用GPT制作技术路线图？

慢腾腾的小蜗牛·2024-01-28 05:24

Mistral AI社区发布SMoE混合专家模型Mixtral 8x7B性能超越ChatGPT

Mixtral在大多数基准测试中都优于Llama270B模型，推理速度提高了6倍。特别是，它在大多数标准基准测试中优于GPT3.5。

人工智能研究所·2024-01-27 19:57

基于LLaMA-Factory的微调记录

文章目录数据模型准备基于网页的简单微调基于网页的简单评测基于网页的简单聊天LLaMA-Factory是一个非常好用的无代码微调框架，不管是在模型、微调方式还是参数设置上都提供了非常完备的支持，下面是对微调全过程的一个记录

羊城迷鹿·2024-01-27 18:44

如何使用Hugging Face微调大语言模型（LLMs）

从ChatGPT爆发以来，后来逐步发展了众多开源大模型LLMs，如MetaAI的Llama2、MistralsMistral&Mixtral模型，TIIFalcon等。

技术狂潮AI·2024-01-27 14:14

智能体AI Agent的极速入门：从ReAct到AutoGPT、QwenAgent、XAgent

除了已经在七月官网上线的AIGC模特生成系统外，我正在并行带多个项目组第二项目组，论文审稿GPT第2版的效果已经超过了GPT4，详见《七月论文审稿GPT第2版：用一万多条paper-review数据集微调LLaMA2

v_JULY_v·2024-01-27 08:19

腾讯LLaMA Pro大模型：突破大模型微调的知识遗忘难题

为应对这一挑战，香港大学的研究团队联合腾讯ARC实验室，提出了一种新颖的微调方法——BlockExpansion，并基于此方法开发了新型模型LLaMA

努力犯错·2024-01-26 18:40

本周Github上有趣的11个项目

它通过统一的API简化了对OpenAI、Anthropic、Mistral、LLama2、Anyscale、GoogleGemini等的API请求。

极道Jdon·2024-01-26 16:11

模型推理加速系列 | 08：TensorRT-LLM助力LLM高性能推理

紧接前文：万字长文细说ChatGPT的前世今生Llama2实战(上篇):本地部署(附代码)Llama2实战(下篇)-中文语料微调(附代码)CodeLlama实战(上篇)-模型简介和评测CodeLlama

JasonLiu1919·2024-01-26 16:24

LLM-模型大小：GPU显卡内存大小、模型大小、精度、batch_size关系

对于LLaMa-6b模型来说1、训练时模型本身参数、梯度值、优化器参数值需要的内存大小为：2、每个样本需要的内存大小（）：3、基于第1/2条，对于A100显卡（80GBRAM）来说，batch_size

u013250861·2024-01-26 11:22

LLaMa-Factory最新微调实践，轻松实现专属大模型

1.为什么要对Yuan2.0做微调？Yuan2.0（https://huggingface.co/IEITYuan）是浪潮信息发布的新一代基础语言大模型，该模型拥有优异的数学、代码能力。自发布以来，Yuan2.0已经受到了业界广泛的关注。当前Yuan2.0已经开源参数量分别是102B、51B和2B的3个基础模型，以供研发人员做进一步的开发。LLM（大语言模型）微调方案是解决通用大模型落地私有领域的

浪潮圈·2024-01-26 04:38

ChatGPT用来润色论文\生成完整长篇论文\进行AI绘图，到底有多强大！！

课程安排学习内容第一章2024年AI领域最新技术1.OpenAI新模型-GPT-52.谷歌新模型-GeminiUltra3.Meta新模型-LLama34.科大讯飞-星火认知5.百度-文心一言6.MoonshotAI-Kimi7

asyxchenchong888·2024-01-25 04:15

GreptimeAI + Xinference 联合方案：高效部署并监控你的 LLM 应用

随着OpenAI的兴起，同时涌现的还有许多其他优质的开源大语言模型，比如Llama，ChatGLM，Qwen等等，这些优秀的开源模型也可以帮助团队快速地搭建出一个出色的LLM应用。

Greptime·2024-01-25 03:10

深入了解LLaMA大模型

最近，一款名为LLaMA的中文大模型受到了广泛关注。与之前的模型相比，LLaMA大模型在推理能力方面表现出色，为中文自然语言处理领域带来了新的突破。首先，让我们了解一下LLaMA大模型的推理机制。

百度_开发者中心·2024-01-24 15:42

Code Llama：基于 Llama 2 的 AI 代码生成大模型

CodeLlama正是一个基于Llama2的AI代码生成大模型，旨在解决这一问题。

百度_开发者中心·2024-01-24 15:42

Meta Llama大模型：引领人工智能创新的巅峰之作

近年来，随着人工智能技术的飞速发展，深度学习神经网络在各个领域的应用越来越广泛。其中，MetaLlama大模型的出现引起了广泛关注，被誉为人工智能领域的一次革命。本文将深入探讨MetaLlama大模型的背景、特点以及其在人工智能创新中的潜在影响。MetaLlama大模型是由MetaAI公司（前身为Facebook）研发的一种深度学习神经网络。该模型的设计灵感来自于元学习（meta-learning

百度_开发者中心·2024-01-24 15:12

Video-LLaMA：为AI大模型注入视听觉

为了解决这一问题，研究人员开发了Video-LLaMA，一个将视频和文本数据结合的新型大语言模型。

百度_开发者中心·2024-01-24 15:12

利用 Mountpoint for Amazon S3 在 Kubernetes 上加速 LLM 的训练

本文通过在EC2g5.2xl实例上完成LLaMA2的调优训练，读者可以利用较少的GPU资源学习复现本

亚马逊云开发者·2024-01-24 06:25

基于LLaMA Factory，单卡3小时训练专属大模型 Agent

大家好，今天给大家带来一篇Agent微调实战文章Agent（智能体）是当今LLM（大模型）应用的热门话题[1]，通过任务分解（taskplanning）、工具调用（toolusing）和多智能体协作（multi-agentcooperation）等途径，LLMAgent有望突破传统语言模型能力界限，体现出更强的智能水平。在这之中，调用外部工具解决问题成为LLMAgent必不可缺的一项技能，模型根据

机器学习社区·2024-01-23 01:03

掌握大模型这些优化技术，优雅地进行大模型的训练和推理！

ChatGPT于2022年12月初发布，震惊轰动了全世界，发布后的这段时间里，一系列国内外的大模型训练开源项目接踵而至，例如Alpaca、BOOLM、LLaMA、ChatGLM、DeepSpeedChat

机器学习社区·2024-01-23 01:02

每周AI新闻（2024年第3周）Meta研发Llama 3 | 苹果Vision Pro预售 | 智谱AI发布GLM-4

大厂动向【1】Meta研发Llama3，构建开源AGIMeta公司CEO马克·扎克伯格（MarkZuckerberg）=宣布公司将对两个关键AI研究部门进行重组。

陌北有棵树·2024-01-22 22:09

FinGPT Llama2 推理

文章目录InferencewithSingleTask:SentimentMakepromptsInferencewithMulti-TaskFinGPT_Inference_Llama2_13B_falcon

小田_·2024-01-22 21:40

大模型训练折戟之路

经过多次比较选择，感觉还是LLaMA还是比较好，称为羊驼，国内在这个模型基础上，增强了中文能力，考虑到租用GPU成本问题，采用7B模型。

manok·2024-01-22 11:59

MacOS M2使用llama2

unsetunset前言unsetunset看见老扎说Meta要弄llama3了，用35w张H100来搞，然后开源。

懒编程-二两·2024-01-22 06:04

大模型笔记【3】 gem5 运行模型框架LLama

一LLama.cppLLama.cpp支持x86，arm，gpu的编译。

南方铁匠·2024-01-22 03:04

推荐频道

Llama