LLaMa 第19页

基础语言模型LLaMA

LLaMA包含从7B到65B参数的基础语言模型集合。Meta在数万亿个tokens上训练了模型，LLaMA-13B在大多数基准测试中优于GPT-3（175B）。

tzc_fly·2023-07-22 14:39

更强的Llama 2开源，可直接商用：一夜之间，大模型格局变了

一直以来Llama可以说是AI社区内最强大的开源大模型。但因为开源协议问题，一直不可免费商用。今日，Meta终于发布了大家期待已久的免费可商用版本Llama2。

语音之家·2023-07-22 06:18

LLaMA基础大模型复刻最佳实践开源，GitHub已获30k星

开源LLaMA神话再次复现！首个开源650亿参数大模型高性能预训练方案，训练加速38%，低成本打造量身大模型。「百模大战」正风起云涌，AIGC相关企业融资和并购金额也屡创新高，全球科技企业争相入局。

语音之家·2023-07-22 06:17

格局打开，Meta 发布免费商业应用的开源 AI 模型 Llama 2，网友：微软又赢麻了！...

整理|屠敏出品|CSDN（ID：CSDNnews）昔日的竞争对手，今日的合作盟友；忽如一夜春风来，开源大模型迎来新局面；今天是OSSAI胜利的一天；随着Meta最新发布一个新的开源AI模型——Llama2

CSDN 程序人生·2023-07-21 09:58

市值216亿芯片股收监管工作函；工信部将采取举措推动算力发展；文心大模型3.5能力已超ChatGPT 3.5丨每日大事件...

Meta发布Llama2模型，与微软、高通展

数据猿·2023-07-21 09:39

linux Ubuntu Python 3.10 环境报错与解决方案集合

环境配置参考文章：使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调1.报错.nvidia/cublas/lib/libcublas.so.11:undefinedsymbol:cublasLtHSHMatmulAlgoInit

Jay_fearless·2023-07-20 21:34

亚马逊云科技现已支持 Meta 推出的最新 Llama 2 基础模型

一直以来Llama可以说是AI社区内最强大的开源大模型。但因为开源协议问题，一直不可免费商用。今天，Meta发布了大家期待已久的免费可商用版本Llama2。一夜之间，大模型格局再次发生巨变。

亚马逊云开发者·2023-07-20 18:11

LLaMA微调记录

本文基于开源代码https://github.com/Lightning-AI/lit-llama/tree/main执行微调其他参考链接：AcceleratingLLaMAwithFabric:AComprehensiveGuidetoTrainingandFine-TuningLLaMA-LightningAI

Enabler_Rx·2023-07-20 16:21

Meta 发布大模型 Llama2 ，开源且免费商用

今日，Meta发布了大家期待已久的免费可商用版本Llama2。和今年2月发布的Llama1相比，Llama2的训练数据多了40%，上下文长度也翻倍。推荐阅读：▶身价翻300倍！

CSDN 程序人生·2023-07-20 09:04

格局打开，Meta 发布免费商业应用的开源 AI 模型 Llama 2，网友：微软又赢麻了！...

整理|屠敏出品|CSDN（ID：CSDNnews）昔日的竞争对手，今日的合作盟友；忽如一夜春风来，开源大模型迎来新局面；今天是OSSAI胜利的一天；随着Meta最新发布一个新的开源AI模型——Llama2

CSDN资讯·2023-07-20 09:04

【LLM】金融大模型场景和大模型Lora微调实战

文章目录一、金融大模型背景二、大模型的研究问题三、大模型技术路线四、LLaMA家族模型五、Lora模型微调的原理六、基于mt0-large进行Lora微调实战Reference一、金融大模型背景金融行业需要垂直领域

山顶夕景·2023-07-20 08:04

FastEdit ⚡：在10秒内编辑大型语言模型

支持的模型：○GPT-J(6B)○LLaMA(7B/13B)○BLOOM(7.1B)○Falcon(7B)○Baichuan(7B/13B)○InternLM(7B)实现的算法：○一阶模型编辑(ROME

无数据不智能·2023-07-20 03:14

Meta 最新发布 LLaMA 2（允许商业化）

文章目录Llama2模型介绍Llama2的核心点Llama2的测评结果Llama2的预训练预处理数据预训练设置和模型架构Llama-2-chat模型介绍Llama-2-chat模型在帮助性和安全性上的表现

dzysunshine·2023-07-20 02:35

Rotary Position Embedding (RoPE, 旋转式位置编码) | 原理讲解+torch代码实现

出自论文：《RoFormer:EnhancedTransformerwithRotaryPositionEmbedding》据我了解，最近发布的大语言模型：Meta的LLaMA、清华的ChatGLM都采用了

#苦行僧·2023-07-19 23:48

微软Office AI工具定价每人每月30美元；Meta开源免费可商用大语言模型Llama 2；美团申请美团光年商标|极客头条

「极客头条」——技术人员的新闻圈！CSDN的读者朋友们早上好哇，「极客头条」来啦，快来看今天都有哪些值得我们技术人关注的重要新闻吧。整理|梦依丹出品|CSDN（ID：CSDNnews）一分钟速览新闻点！微信公众号划线阅读功能被吐槽，腾讯客服回应称正进行灰度测试浙江大学发表TableGPT，可对表格进行操控美团申请美团光年商标华为宣布盘古大模型在矿山场景首次商用携程董事局主席梁建章提议实行3天周末或

极客日报·2023-07-19 09:34

提高LLaMA-7B的数学推理能力

概述这篇文章探讨了利用多视角微调方法提高数学推理的泛化能力。数学推理在相对较小的语言模型中仍然是一个挑战，许多现有方法倾向于依赖庞大但效率低下的大语言模型进行知识蒸馏。研究人员提出了一种避免过度依赖大语言模型的新方法，该方法通过有效利用具有不同注释格式的现有数学问题数据集来进行训练。区别于过去的方法，该方法充分考虑不同的注释格式，并在训练模型时利用它们。模型通过在输入问题后附加不同的指令来灵活地学

无数据不智能·2023-07-19 08:16

LLaMA

LLaMA1，llama参数范围7B13B33B65B在万亿token上训练的模型，2,研究重点研究表明，最好的模型性能不是由最大的模型体积实现，而是在更多的数据上训练较小的模型实现工作重点是通过使用比通常更多的

dream_home8407·2023-07-18 06:21

大模型训练的复杂度在哪

国内更是如此基本都是基于LLama或者GLM开源的参数在调，百度基本是闭源的算是一个独立自主从零开始训练模型。

远洋之帆·2023-07-18 05:02

国外资源国内镜像访问（亲测）

手动下载：https://mirrors.tuna.tsinghua.edu.cn/hugging-face-models/hfl/代码下载：importllama#MODEL='/home/guo/llama_test

会发paper的学渣·2023-07-17 13:04

本地推理,单机运行,MacM1芯片系统基于大语言模型C++版本LLaMA部署“本地版”的ChatGPT

OpenAI公司基于GPT模型的ChatGPT风光无两，眼看它起朱楼，眼看它宴宾客，FaceBook终于坐不住了，发布了同样基于LLM的人工智能大语言模型LLaMA，号称包含70亿、130亿、330亿和

2301_77550592·2023-07-17 13:51

LLaMA以及其扩展模型总结（一）

Meta公司反其道行之，今年2月24日发布了半开源大语言模型LLaMA(中文意为“羊驼”)，这是一组包含7到650亿个参数的基础大型语言模型，因其参数量远小于GPT-3，效果

wshzd·2023-07-17 12:59

论文笔记--Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks

论文笔记--Goat:Fine-tunedLLaMAOutperformsGPT-4onArithmeticTasks1.文章简介2.文章概括3文章重点技术3.1LLM的选择3.2算数任务的可学习性(learnability)3.3大模型的加减乘除4.数值实验结果5.文章亮点6.原文传送门7.References1.文章简介标题：Goat:Fine-tunedLLaMAOutperformsGPT

Isawany·2023-07-16 18:56

快速训练自己的大语言模型：基于LLAMA-7B的lora指令微调

目录1.选用工程：lit-llama2.下载工程3.安装环境4.下载LLAMA-7B模型5.做模型转换6.初步测试7.为什么要进行指令微调？

lokvke·2023-07-16 06:26

基于LLAMA-7B的lora中文指令微调

目录1.选用工程2.中文llama-7b预训练模型下载3.数据准备4.开始指令微调5.模型测试前言：系统：ubuntu18.04显卡：GTX3090-24G（惨呀，上次还是A100，现在只有3090了~

lokvke·2023-07-16 06:26

医疗金融法律大模型：从ChatDoctor到BloombergGPT/FinGPT/FinBERT、ChatLaw/LawGPT_zh

第一部分各种医疗类ChatGPT：或中英文数据微调LLaMA、或中文数据微调ChatGLM1.1基于LLaMA微调的国内外医疗问答模型1.1.1ChatDoctor：通过self-instruct技术提示

v_JULY_v·2023-07-15 17:58

LongLLaMA：LLaMA的升级版，处理超长上下文的利器！

原文来源：芝士AI吃鱼有效整合新知识：大模型面临的挑战大家使用过大型模型产品的时候可能会遇到一个共同的问题：在进行多轮对话时，模型可能会忘记之前的对话内容，导致回答不连贯。这实际上是由于大型模型在处理大量新内容时有时会力不从心，给人一种分心的感觉。这个问题实际上也是当前大型模型面临的一个主要挑战，即如何有效地将大量新知识整合到模型中。目前常见的解决方法之一是微调（fine-tune），但这种方法不

wwlsm_zql·2023-07-14 20:47

羊驼再度进化，“长颈鹿版”LongLLaMA 来啦，上下文长度冲向 100K ，性能不减

要说当下制约大模型释放更大规模潜力的桎梏，除了机器幻觉，肯定当属受限的上下文长度，前两天微软的LongNet正将Transformer的上下文长度扩展到夸张的10亿量级，这两天撑起了开源大模型一片天的LLaMA

夕小瑶·2023-07-14 20:47

Meta提出全新参数高效微调方案，仅需一个RNN，Transformer模型GPU使用量减少84%！

近来，随着ChatGPT和GPT-4模型的不断发展，国内外互联网大厂纷纷推出了自家的大语言模型，例如谷歌的PaLM系列，MetaAI的LLaMA系列，还有国内公司和高校推出的一些大模型，例如百度的文心一言

TechBeat人工智能社区·2023-07-14 20:57

llama.cpp试用

显存占用是真的低，13Bvicunaint4量化，example/chat-13B.sh正常问答交流，不到2G的占用。相比之下，vicuna7B原版int8量化，8G显卡下，cuda会OOM(原版不支持int4量化)。chatglm6Bint4量化，显存占用仍然需要6G。

菜鸡学AI·2023-07-14 19:12

大语言模型调研

为了实现这个目标，该项目基于开源预训练大语言模型，如BLOOM和LLAMA，进行了中文优化。模型调优过程仅使用由ChatGPT生产的数据，而不包含任何其他数据，

kafkabalu·2023-07-14 19:40

英文绘本公益亲子共读Day99—Is Your Mama a Llama?（适合年龄：2-7岁）

深圳/小桃园/1岁2个月10天图片发自App如果让宝宝讲2个关于妈妈的特征，宝宝会怎么说呢？如果把这两个特征告诉别人，别人会猜对吗？IsYourMamaaLlama？就是这样一本这样的书，小驼羊Lloyd到处问朋友们“Isyourmamaallama？/你的妈妈是驼羊吗？”而每个朋友都说“No，sheisnot/不，她不是。”进而说出两个有关自己妈妈的特点，然后小驼羊就猜他们的妈妈是什么样的动物，

Gentle琪迹·2023-07-14 07:03

Langchain 新手完全指南

它是一个框架，用于在大型语言模型上开发应用程序，例如GPT、LLama、HuggingFace模型等。

李特丽·2023-07-13 21:30

怎么让英文大预言模型支持中文？（一）构建自己的tokenization

代码地址：https://github.com/taishan1994/sentencepiece_chinese_bpePart1前言目前，大语言模型呈爆发式的增长，其中，基于llama家族的模型占据了半壁江山

西西嘛呦·2023-06-24 10:00

textgen教程（持续更新ing...）

TextGen:ImplementationofTextGenerationmodels,includeLLaMA,BLOOM,GPT2,BART,T5,SongNetandsoon.文本生成模型，实现了包括LLaMA

诸神缄默不语·2023-06-24 08:56

一文看全开源大语言模型汇总

转自分布式实验室01Alpaca/LLaMA（Meta/Stanford）斯坦福Alpaca：一个遵循指令的LLaMA模型。

中生代技术·2023-06-24 03:58

llama.cpp一种在本地CPU上部署的量化模型（超低配推理llama）

0x00背景前不久，Meta前脚发布完开源大语言模型LLaMA，随后就被网友“泄漏”，直接放了一个磁力链接下载链接。

god_Zeo·2023-06-24 00:26

[大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora（部分）

文章目录LLaMA大模型及其衍生模型1.LLaMA2.stanford_alpaca3.ChatDoctor4.alpaca-lora5.Chinese-LLaMA-Alpaca6.BELLE大模型综述

晨阳2023·2023-06-24 00:26

LLaMA模型文件 (搬运工)

LLaMA需要进行申请才能获得官方模型权重。但是申请的审批时间一般都很长。

Reza.·2023-06-24 00:26

LLaMA及其子孙模型概述

文章目录LLaMAAlpacaVicunaKoalaBaize(白泽)骆驼(Luotuo)BELLEGuanacoLLaMA与原始transformer的区别:预归一化[GPT3]。为了提高训练稳定性，对每个Transformer子层的输入进行归一化，而不是对输出进行归一化。使用了Zhang和Sennrich（2019）引入的RMSNorm规范化函数。SwiGLU激活功能[PaLM]。用Shaze

ToTensor·2023-06-24 00:56

LLM - 基于 Vicuna-13B 参数计算搭建私有 ChatGPT 在线聊天

CSDN：https://spike.blog.csdn.net/本文地址：https://blog.csdn.net/caroline_wendy/article/details/131312366LLaMA

SpikeKing·2023-06-24 00:50

llama.cpp LLM模型 windows cpu安装部署

参考：https://www.listera.top/ji-xu-zhe-teng-xia-chinese-llama-alpaca/https://blog.csdn.net/qq_38238956/

loong_XL·2023-06-23 23:23

大模型没有壁垒吗？开源模型和chatgpt已经没有差距了吗？

近期有很多工作比如Alpaca、Vicuna、Koala等论文宣称通过收集到的大量chatgptoutput，在基于开源大模型如LLaMA上进行微调后的模型就接近甚至超过chatgpt效果。

手把手教你学AI·2023-06-23 20:10

MosaicML 推出 30B 模型 — 挑战 LLaMA、Falcon 和 GPT

MosaicML正在推出其第二个开源大型语言模型（LLM），称为MPT-30B，这是继五月份首次推出的较小的MPT-7B模型之后。为了讨论新模型及其对开发人员的意义，我采访了MosaicML联合创始人兼首席执行官NaveenRao。他之前的创业公司是Nervana，这是一家深度学习公司，于2016年被英特尔收购，所以他最近在人工智能行业并不重要。顾名思义，MPT-30B是一个300亿参数模型。该公

·2023-06-23 15:51

Vicuna-13B云服务器部署

Vicuna同样是基于Meta开源的LLaMA大模型微调而来，它的训练数据是来自ShareGPT上的7万多条数据（ShareGPT一个分享ChatGPT对话的谷歌插件）：在训练方式上，研究人员借鉴了Alpaca

liuhehe321·2023-06-23 14:14

01.LLaMA

文章目录前言导读摘要预备知识语言模型ChatGPT性能暴涨的原因（涌现）GPT-1Transformer背景介绍模型精讲数据集及处理CommonCrawlC4GithubWikipediaGutenbergandBooks3ArXivStackExchange小结关键TrickPre-normalizationSwiGLURotaryEmbeddings实验分析和讨论训练Trick模型的损失和to

oldmao_2000·2023-06-23 14:02

在低配Windows上部署原版llama.cpp

现在大语言模型的部署，通常都需要大的GPU才能实现，如果是仅仅想研究一下，大语言模型的算法，我们是很想能够直接在我们的工作电脑上就能直接运行的，llama.cpp就是很好的实现。

go2coding·2023-06-23 13:46

Ziya：一个自回归、双语、开源和多功能的大语言模型

Ziya是一个基于LLaMa的130亿参数的中英双语预训练语言模型，它由IDEA研究院认知计算与自然语言研究中心（CCNL）推出，是开源通用大模型系列的一员。

大伟先生·2023-06-22 17:47

开源中文大语言模型集合【2023-06-19】

尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后，业界涌现

u013250861·2023-06-22 17:01

国产开源大模型：百亿参数“伶荔”，填补中文基础模型空白！

其中，中文基础模型以LLaMA为底座，利用中文和中英平行增量预训练，将它在英文上强大语言能力迁移到中文上。更进一步

Datawhale·2023-06-22 16:59

高效底座模型LLaMA

论文标题：LLaMA:OpenandEfficientFoundationLanguageModels论文链接：https://arxiv.org/abs/2302.13971论文来源：MetaAI一、

酷酷的群·2023-06-22 16:29

推荐频道

LLaMa

基础语言模型LLaMA

更强的Llama 2开源，可直接商用：一夜之间，大模型格局变了

LLaMA基础大模型复刻最佳实践开源，GitHub已获30k星

格局打开，Meta 发布免费商业应用的开源 AI 模型 Llama 2，网友：微软又赢麻了！...

市值216亿芯片股收监管工作函；工信部将采取举措推动算力发展；文心大模型3.5能力已超ChatGPT 3.5丨每日大事件...

linux Ubuntu Python 3.10 环境报错与解决方案集合

亚马逊云科技现已支持 Meta 推出的最新 Llama 2 基础模型

LLaMA微调记录

Meta 发布大模型 Llama2 ，开源且免费商用

格局打开，Meta 发布免费商业应用的开源 AI 模型 Llama 2，网友：微软又赢麻了！...

【LLM】金融大模型场景和大模型Lora微调实战

FastEdit ⚡：在10秒内编辑大型语言模型

Meta 最新发布 LLaMA 2（允许商业化）

Rotary Position Embedding (RoPE, 旋转式位置编码) | 原理讲解+torch代码实现

微软Office AI工具定价每人每月30美元；Meta开源免费可商用大语言模型Llama 2；美团申请美团光年商标|极客头条

提高LLaMA-7B的数学推理能力

LLaMA

大模型训练的复杂度在哪

国外资源国内镜像访问（亲测）

本地推理,单机运行,MacM1芯片系统基于大语言模型C++版本LLaMA部署“本地版”的ChatGPT

LLaMA以及其扩展模型总结（一）

论文笔记--Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks

快速训练自己的大语言模型：基于LLAMA-7B的lora指令微调

基于LLAMA-7B的lora中文指令微调

医疗金融法律大模型：从ChatDoctor到BloombergGPT/FinGPT/FinBERT、ChatLaw/LawGPT_zh

LongLLaMA：LLaMA的升级版，处理超长上下文的利器！

羊驼再度进化，“长颈鹿版”LongLLaMA 来啦，上下文长度冲向 100K ，性能不减

Meta提出全新参数高效微调方案，仅需一个RNN，Transformer模型GPU使用量减少84%！

llama.cpp试用

大语言模型调研

英文绘本公益亲子共读Day99﻿﻿—Is Your Mama a Llama?（适合年龄：2-7岁）

Langchain 新手完全指南

怎么让英文大预言模型支持中文？（一）构建自己的tokenization

textgen教程（持续更新ing...）

一文看全开源大语言模型汇总

llama.cpp一种在本地CPU上部署的量化模型（超低配推理llama）

[大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora（部分）

LLaMA模型文件 (搬运工)

LLaMA及其子孙模型概述

LLM - 基于 Vicuna-13B 参数计算搭建私有 ChatGPT 在线聊天

llama.cpp LLM模型 windows cpu安装部署

大模型没有壁垒吗？开源模型和chatgpt已经没有差距了吗？

MosaicML 推出 30B 模型 — 挑战 LLaMA、Falcon 和 GPT

Vicuna-13B云服务器部署

01.LLaMA

在低配Windows上部署原版llama.cpp

Ziya：一个自回归、双语、开源和多功能的大语言模型

开源中文大语言模型集合【2023-06-19】

国产开源大模型： 百亿参数“伶荔”，填补中文基础模型空白！

高效底座模型LLaMA

英文绘本公益亲子共读Day99—Is Your Mama a Llama?（适合年龄：2-7岁）

国产开源大模型：百亿参数“伶荔”，填补中文基础模型空白！