E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
LLaMa
大模型微调方法解析
随着大模型(如DeepSeek、
LLaMA
、QwQ等)的广泛应用,如何高效地通过微调(Fine-tuning)让通用模型适配垂直领域任务,成为行业关注的核心问题。
西木风落
·
2025-03-26 15:03
AI大模型
大模型微调
LoRA微调
提示词微调
Aider +
Llama
3.1:无需编码开发全栈APP
Llama
3.1在代码生成方面的卓越表现在代码生成领域,
Llama
3.1的表现尤为出色,几乎成为了开源模型中的佼佼者。
七哥的AI日常
·
2025-03-26 03:06
llama
国产670亿参数的DeepSeek:超越
Llama
2,全面开源
这款模型不仅在多项中英文公开评测榜单上超越了700亿参数的
Llama
2,而且在推理、数学和编程能力方面表现突出。
努力犯错
·
2025-03-26 02:51
microsoft
llama
自然语言处理
人工智能
语言模型
使用LangChain和中文羊驼2.0搭建离线版的ChatPDF
了解如何使用
llama
.cpp量化大模型的方法。了解如何使用深度学习中常用的向量数据库。为了让更多的同学看懂,我会尽量写的小白一点。如果你是有经验的
大模型常客
·
2025-03-25 18:49
langchain
人工智能
ai
agi
经验分享
笔记
模型量化的原因和方法
优化模型参数以适应有限内存环境为了使具有大量参数(例如
Llama
3.1的4050亿个参数)的大型语言模型在合理内存的设备上高效运行,需要对模型进行一系列优化。
潇湘馆记
·
2025-03-25 06:27
人工智能
算法
视频知识库初步设想
下面是测试例子:入参:{"model":"deepseek-ai/DeepSeek-R1-Distill-
Llama
-8B","messages":[{"role":"system","content"
cainiaojunshi
·
2025-03-24 23:05
视频知识库
人工智能
学习
英伟达开源超强模型Nemotron-70B;OpenAI推出Windows版ChatGPT桌面客户端
Niemotron-70B的开发基于
Llama
-3.1,且开源数据集加强其训练效果。分析指出,英伟达的策略是
go2coding
·
2025-03-24 14:55
AI日报
chatgpt
使用 Baseten 部署和运行机器学习模型的指南
无论是开源模型如
Llama
2和Mistral,还是专有或经过微调的模型,Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同
shuoac
·
2025-03-24 03:17
机器学习
人工智能
python
OpenManus 架构的详细技术实现
一、OpenManus架构的详细技术实现1.核心分层架构的深度解析底层:LLM层模型选择与适配:OpenManus允许用户替换底层LLM(如mPLUG-Owl3、Qwen、
Llama
等),通过统一接口调用模型
大势下的牛马
·
2025-03-22 22:12
搭建本地gpt
架构
OpenManus
Manus
Agent
使用Ollama部署开源大模型
Ollama是一个简明易用的本地大模型运行框架,可以一键启动启动并运行
Llama
3、Mistral、Gemma和其他大型语言模型。安装MacOS,Windows用户直接在官网下载页下载安装包即可。
好好学习 666
·
2025-03-22 22:09
开源
MiniMind:完全从 0 训练自己的大模型
是B站UP主近在远方的远开源的一个微型语言模型,改进自DeepSeek-V2、
Llama
3结构,项目包含整个数据处理、pretrain、sft、dpo的全部阶段,包含混合专家(MoE)模型。
三花AI
·
2025-03-22 15:49
三花AI
人工智能
LLM大模型
llama
源码学习·model.py[3]ROPE旋转位置编码(2)旋转角度生成代码
一、源码注释defprecompute_freqs_cis(dim:int,end:int,theta:float=1000.0):'''预先计算频率和复数的cosine和sine值,用于后续的PositionalEncodingdim:维度end:一个序列的最大长度或位置的最大值theta:用于计算频率的超参数,默认值为1000.0'''#生成一个等比数列,即频率(frequencies),这种
小杜不吃糖
·
2025-03-22 15:19
llama
llama
-factory 微调 Qwen2.5-3B-Instruct
0、资源链接官方readme:https://github.com/hiyouga/
LLaMA
-Factory/blob/v0.9.1/README_zh.md官方文档:https://llamafactory.readthedocs.io
coco_1998_2
·
2025-03-22 14:16
llama
factory
fine
tune
Deepseek-R1-Distill-
Llama
-8B + Unsloth 中文医疗数据微调实战
内容参考至博客与Bin_Nong1.环境搭建主要依赖的库(我的版本):torch==2.5.1unsloth==2025.2.15trl==0.15.2transformers==4.49.0datasets=3.3.1wandb==0.19.62.数据准备-medical_o1_sft_Chinese经过gpt-o1的包含cot(思考过程)的中文医疗问答数据,格式与内容如下:"Question"
LuckyAnJo
·
2025-03-22 08:47
LLM相关
llama
python
自然语言处理
人工智能
大模型最新面试题系列:微调篇之微调基础知识
需存储所有参数的梯度(如GPT-3175B模型全量微调需约2.3TB显存)PEFT:以LoRA为例,仅需存储低秩矩阵参数(7B模型使用r=16的LoRA时显存占用减少98%)实战经验:在A10080GB显存下,全量微调
LLaMA
人肉推土机
·
2025-03-22 05:42
大模型最新面试题集锦大全
面试
人工智能
AI编程
大模型微调
LLM
【AI 天才研究院】从 MoE 架构到 AGI:DeepSeek 将给未来带来哪些影响?
具体而言,DeepSeekMoE架构实现了:仅用大约40%的计算量,便达到了与
LLaMA
2-7B差不多的效果。
AI天才研究院
·
2025-03-21 22:40
DeepSeek
R1
&
大数据AI人工智能大模型
人工智能
架构
agi
DeepSeek
OpenBayes 教程上新丨单卡A6000轻松部署Gemma 3,精准识别黄仁勋演讲实拍
日晚间,谷歌发布了「单卡大魔王」Gemma3,号称是能在单个GPU或TPU上运行的最强模型,真实战绩也证实了官方blog所言非虚——其27B版本击败671B的满血DeepSeekV3,以及o3-mini、
Llama
·
2025-03-20 18:00
GGUF量化模型技术解析与DeepSeek-R1-Distill-
Llama
-8B选型指南
```markdown#【完全指南】GGUF量化技术与DeepSeek-R1模型选型:从入门到部署##什么是模型量化?(小白扫盲版)###1.1量化就像"模型减肥术"-**传统模型**:每个参数用32位浮点数(好比高清无损图片)-**量化模型**:用4-8位整数存储(类似手机压缩照片)-**核心原理**:`FP32→Int8/Int4`的数学映射,保留关键特征###1.2为什么要量化?|对比项|原
每天三杯咖啡
·
2025-03-20 16:29
人工智能
Transformers模型版本和lm_eval老版本冲突问题ImportError: cannot import name ‘initialize_tasks‘ from ‘lm_eval.task
Transformers模型版本和lm_eval老版本冲突问题1问题背景在LLM评测的时候,要用lm_eval模型,而对于像是
llama
3/Mistrual等比较新的模型,较低的Transformers
neverwin6
·
2025-03-20 02:58
llama
python
服务器
KV 缓存简介
KV缓存是Transformer架构(如GPT、
LLaMA
等大模型)在自回归生成任务(如文本生成)中,用于加速推理过程的核心技术。
dev.null
·
2025-03-19 17:49
AI
缓存
使用LoRA微调
LLaMA
3
使用LoRA微调
LLaMA
3的案例案例概述在这个案例中,我们将使用LoRA微调
LLaMA
3模型,进行一个文本分类任务。我们将使用HuggingFace的Transformers库来完成这个过程。
想胖的壮壮
·
2025-03-19 16:12
深度学习
人工智能
llama
.cpp 和 LLM(大语言模型)
llama
.cpp和LLM(大语言模型)的介绍,以及两者的关联与区别:1.LLM(LargeLanguageModel,大语言模型)定义:LLM是基于深度学习技术(如Transformer架构)构建的超大参数量的自然语言处理模型
这个懒人
·
2025-03-18 14:12
llama
语言模型
人工智能
LLaMA
-Factory 微调训练
LLaMA
-Factory微调训练该框架功能,标注-微调-导出-合并-部署,一整条流程都有,而且训练时消耗的gpu算力也会小一些一,安装(推荐在linux中训练,win可以用wsl+docker)gitclonehttps
zsh_abc
·
2025-03-18 14:40
llama
docker
深度学习
人工智能
python
linux
llama
-factory微调
大模型微调实操--
llama
-factoryllama-factory环境安装前置准备英伟达显卡驱动更新地址下载NVIDIA官方驱动|NVIDIAcuda下载安装地址CUDAToolkit12.2Downloads
AI Echoes
·
2025-03-18 13:05
深度学习
人工智能
机器学习
deepseek
部署微调框架
LLaMA
-Factory
LLaMAFactory1.我们在ChatGLM3的github官方页面上能看到对
LLaMA
-Factory的推荐2.LLaMAFactorygithub链接hiyouga/
LLaMA
-Factory:
高原魔女
·
2025-03-18 00:40
llama
ChatGPT智能聊天机器人实现
智能聊天机器人的完整开发指南,包含技术选型、核心代码逻辑和推荐学习资源:—云端平台整理一、技术架构与工具核心模型基座模型:HuggingFaceTransformers库(如GPT-2/GPT-3.5TurboAPI/
LLaMA
2
云端源想
·
2025-03-17 14:57
chatgpt
机器人
AI大模型学习路线:从入门到精通的完整指南【2025最新】
引言近年来,以GPT、BERT、
LLaMA
等为代表的AI大模型彻底改变了人工智能领域的技术格局。它们不仅在自然语言处理(NLP)任务中表现卓越,还在计算机视觉、多模态交互等领域展现出巨大潜力。
AI大模型-大飞
·
2025-03-17 10:27
人工智能
学习
大模型
LLM
AI
程序员
大模型学习
主流开源大模型能力对比矩阵
模型名称核心优势主要局限
Llama
2/3✅多语言生态完善✅Rotary位置编码✅GQA推理加速⚠️数据时效性差⚠️隐私保护不足Qwen✅千亿参数规模✅中文语境优化✅复杂文本生成⚠️需高性能硬件⚠️领域知识需二次训练
时光旅人01号
·
2025-03-16 12:09
人工智能
开源
python
深度学习
pytorch
LLaMA
-Factory 训练数据默认使用 instruction、input、output 三个 key
在
LLaMA
-Factory进行SFT(Directivesupervisionfine-tuning指令监督微调)时,训练数据的格式非常重要,因为大模型依赖标准化的数据结构来学习指令-响应模式。
背太阳的牧羊人
·
2025-03-16 08:43
模型微调
llama
人工智能
大模型微调
linux(ubuntu)中Conda、CUDA安装Xinference报错ERROR: Failed to build (
llama
-cpp-python)
一、常规办法
llama
-cpp-python依赖CMake、Make和g++来编译,所以可能是缺少依赖或者环境配置不对。按照以下步骤排查问题并解决:1.确保Python版本符合要求
llama
小胡说技书
·
2025-03-16 03:12
杂谈/设计模式/报错
Data/Python/大模型
linux
ubuntu
conda
大模型
python
Xinference
大模型火爆 2025:
LLaMA
、Qwen、DeepSeek 核心原理+就业秘籍,快速入门 AI 工程师
以下是详细拆解,让小白也能掌握:
LLaMA
系列模型核心原理详解:什么是
LLaMA
?:
LLaMA
是一个基于人工智能的语言模型,像一个超级聪明的聊天机器人,能理解和生成人类语言。
weixin_40941102
·
2025-03-16 03:38
llama
人工智能
LLM之Colossal-
LLaMA
-2:源码解读(init_tokenizer.py文件)实现基于源词表的扩展、(init_model.py文件)实现过计算均值扩展模型、(prepare_pretr
LLM之Colossal-
LLaMA
-2:源码解读(init_tokenizer.py文件)实现基于jsonl文件中读取新词列表(新中文词汇)→for循环去重实现词表的扩展(中文标记的新词汇)→保存新的分词模型
一个处女座的程序猿
·
2025-03-15 18:38
CaseCode
NLP/LLMs
精选(人工智能)-中级
Colossal
LLaMA-2
自然语言处理
LLMs之Colossal-
LLaMA
-2:源码解读(train.py文件)基于给定数据集实现持续预训练
LLaMA
-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插
LLMs之Colossal-
LLaMA
-2:源码解读(train.py文件)基于给定数据集实现持续预训练
LLaMA
-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插件
一个处女座的程序猿
·
2025-03-15 18:38
NLP/LLMs
精选(人工智能)-中级
Colossal-AI
LLaMA-2
大语言模型
自然语言处理
1
llama
源码学习·model.py[3]ROPE旋转位置编码(1)原理
零:(导学)Transformer位置编码(1)为什么需要位置编码位置编码描述序列中实体的位置信息,为每个位置分配唯一的表示。Transformer使用智能位置编码方案,其中每个位置/索引都映射到一个向量。因此,位置编码层的输出是一个矩阵,其中矩阵的每一行表示序列的编码对象与其位置信息的总和(2)Transformer中的位置编码假设有一个长度为LLL的输入序列,并要求位置kkk为该序列中的对象,
小杜不吃糖
·
2025-03-15 18:07
学习
llama
源码学习·model.py[1]RMSNorm归一化
一、model.py中的RMSNorm源码classRMSNorm(torch.nn.Module):def__init__(self,dim:int,eps:float=1e-6):super().__init__()self.eps=epsself.weight=nn.Parameter(torch.ones(dim))def_norm(self,x):returnx*torch.rsqrt(
小杜不吃糖
·
2025-03-15 18:37
llama
python
2025年开源大模型全景:语言、多模态与开发工具的前沿探索
语言类开源大模型1.
Llama
系列开发者:Meta发布时间:2024年7月参数量:8B、70B、405B特点:
Llama
系列模型以其强大的多语言支持和广泛的自然语言处理能力而闻名。
软件职业规划
·
2025-03-15 15:08
开源
使用 Ollama 对
LLaMA
-2 模型进行微调的详细指南
对于更大的模型(如
LLaMA
-213B或33B),
软件职业规划
·
2025-03-15 15:08
llama
DeepSeek创始人专访:中国的AI不可能永远跟随,需要有人站到技术的前沿
训练成本估计只有
Llama
3.1405B模型的11分之一,后者的效果还不如它。
AIBigModel
·
2025-03-15 04:06
人工智能
Gemma 3 发布:最强单 GPU/TPU 可运行模型,性能超
Llama
-405B!
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行!订阅:https://rengongzhineng.io/GoogleDeepMind再次掀起AI界的狂潮,正式推出Gemma3——一款轻量级但性
新加坡内哥谈技术
·
2025-03-15 04:35
人工智能
自然语言处理
语言模型
深度学习
copilot
llama
大语言模型微调和大语言模型应用的区别?
1.定义与目标微调(Fine-tuning)目标:调整预训练模型(如GPT、
LLaMA
、PaLM)的参数,使其适应特定任务或领域。
AI Echoes
·
2025-03-15 04:34
人工智能
深度学习
机器学习
LLM推理和优化(1):基本概念介绍
一、LLM推理的核心过程:自回归生成LLM(如DeepSeek、ChatGPT、
LLaMA
系列等)的推理本质是自回归生成:从初始输入(如[CLS]或用户prompt)开始,逐token预测下一个词,直到生成结束符
AndrewHZ
·
2025-03-14 23:50
AI算法工程师面试指北
算法
LLM
语言模型
推理优化
KVCache
DeepSeek
注意力机制
第二十八个问题-Dify、RAG-Flow、FastGPT 核心特点对比
核心特点:多模型支持:无缝集成数百种专有/开源大模型(如GPT、
Llama
3、Mistral),支持通过API或本地部署调用18。流程编排能力:提供Chatflow(对话类应用)和Workfl
释迦呼呼
·
2025-03-13 15:18
AI一千问
架构
深度学习
人工智能
机器学习
自然语言处理
在M4 Mac Mini集群上运行DeepSeek V3 671B
台M4Pro64GBMacMini集群(总内存512GB)上运行DeepSeekv3(671B)的结果:模型首个Token时间(秒)每秒Token数DeepSeekV3671B(4位)2.915.37
Llama
3.1405B
强化学习曾小健
·
2025-03-12 22:18
Deepseek原理与使用
macos
如何增强机器学习基础,提升大模型面试通过概率
我的好朋友没有通过面试所以我给我的好朋友准备了这一篇学习路线随着大模型(如Transformer、GPT-4、
LLaMA
等)在自然语言处理(NLP)、计算机视觉(CV)和多模态任务中的广泛应用,AI行业的招聘竞争愈发激烈
weixin_40941102
·
2025-03-12 19:55
机器学习
面试
人工智能
DeepSeek发展背景和前景
2.技术演进:2024年1月:发布首个大模型DeepSeekLLM,包含670亿参数,在2万亿token的数据集上训练,性能超越
Llama
270BBase。202
爱吃苹果的日记本
·
2025-03-12 02:18
人工智能
8.3 GPTQ量化技术:4倍压缩大模型显存,精度零损失!
以
LLaMA
-7B模型为例:FP32精度显存占用:28GBFP16精度显存占用:14GBINT8量化后显存占用:7GBINT4量化后显存占用:3.5GB
少林码僧
·
2025-03-12 01:16
掌握先机!从
0
起步实战
AI
大模型微调
打造核心竞争力
语言模型
人工智能
gpt
llama
.cpp 安装与量化(mac电脑)
llama
.cpp安装与量化(mac电脑)1.创建并切换至虚拟环境2.安装
llama
.cpp3.安装依赖4.转换模型5.创建build目录6.生成构建文件7.编译项目8.运行量化命令9.测试量化后的模型
初七i
·
2025-03-12 00:32
llama
macos
llama.cpp
量化
ai
AI 问答系统实战:用 Python + Flask + LLM 打造你的智能对话机器人!
本文将手把手教你如何利用Python和Flask快速搭建一个属于自己的AI问答系统,并集成强大的语言模型(如OpenAI的GPT-3.5或HuggingFace的
LLaMA
)。
Leaton Lee
·
2025-03-11 20:57
人工智能
python
flask
《AI浪潮中的璀璨新星:Meta
Llama
、Ollama与DeepSeek的深度剖析》
《AI浪潮中的璀璨新星:MetaLlama、Ollama与DeepSeek的深度剖析》引言:AI大模型的群雄逐鹿时代在科技飞速发展的当下,AI大模型领域已成为全球瞩目的焦点,竞争激烈程度堪称白热化。从OpenAI推出的GPT系列,到谷歌的BERT、百度的文心一言等,众多巨头纷纷下场,不断推陈出新,试图在这个充满潜力的领域占据一席之地。而在这场激烈的角逐中,MetaLlama、Ollama和Deep
空云风语
·
2025-03-11 18:18
人工智能
人工智能
llama
从零手撕
LLaMa
3 项目爆火(图解+代码)
一个月前,Meta发布了开源大模型
llama
3系列,在多个关键基准测试中优于业界SOTA模型,并在代码生成任务上全面领先。此后,开发
机器学习社区
·
2025-03-11 16:27
大模型
深度学习
大模型
算法
人工智能
RAG
多模态大模型
Llama
面试题
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他