E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
bert微调
从零开始构建一个大语言模型-第七章第一节
第七章目录7.1指令
微调
简介7.2为有监督的指令
微调
准备数据集7.3将数据整理成训练批次7.4为指令数据集创建数据加载器7.5加载预训练的大语言模型7.6在指令数据上对大语言模型进行
微调
7.7提取并保存回复
释迦呼呼
·
2025-02-13 15:07
从零开始构建一个大语言模型
语言模型
人工智能
自然语言处理
机器学习
transformer
硅基流动开放模型
微调
(可使用赠送金额)
就这几天硅基流动上线了模型
微调
目前仅开放这两个模型,价格也在上面,最重要的是可以使用赠送的额度。网站链接:https://cloud.siliconflow.cn/i/wLHLnn22
2401_82750289
·
2025-02-13 04:16
人工智能
机器学习
语言模型
win10 llamafactory模型
微调
相关① || Ollama运行
微调
模型
目录
微调
相关1.
微调
结果评估2.模型下载到本地导出转换,Ollama运行1.模型转换(非常好的教程!)
我的巨剑能轻松搅动潮汐
·
2025-02-12 22:31
llamafactory
语言模型
一文读懂RAG
架构数据准备阶段应用阶段:五、RAG分类基础RAG(NaiveRAG)缺点高级RAG(AdvancedRAG)模块化RAG(ModularRAG)六、RAG(检索增强生成)vsFine-Tuning(
微调
wangziling123456
·
2025-02-12 22:58
人工智能
深度学习
用Llama Factory单机多卡
微调
Qwen2.5时报torch.OutOfMemoryError: CUDA out of memory的解决办法
接着上一篇博客:在Ubuntu上用LlamaFactory命令行
微调
Qwen2.5的简单过程_llamafactory
微调
qwen2.5-CSDN博客如果需要
微调
比较大的模型,例如Qwen2.5-32B
蛐蛐蛐
·
2025-02-12 22:27
大模型
科研工具
Python技巧
llama
人工智能
大模型
目标检测:yolo格式txt转换成COCO格式json
修改对应文件路径即可,其他根据txt或者希望生成的json做轻
微调
整#-*-coding:utf-8-*-importosimportjsonfromPILimportImagecoco_format_save_path
詹姆斯德
·
2025-02-12 21:49
格式转换
目标检测
YOLO
json
Golang怎么入门
1.Golang简介Go语言诞生于2007年,由Google的Ro
bert
Gr
wwwenhx
·
2025-02-12 17:18
golang
开发语言
后端
【2025版】最新AI大模型NLP全面解析,零基础入门到精通,收藏这篇就够了
AI大模型,作为一类具备庞大参数规模与卓越学习能力的神经网络模型,如
BERT
、GPT等,已在自然语言处理、计算机视觉等多个领域展现出卓越成效,极大地推动了相关领域的技术进步。
程序员二飞
·
2025-02-12 11:15
人工智能
自然语言处理
服务器
学习
知识图谱
Open Li
bert
y使用指南及微服务开发示例(五)
续前篇十九、实现租户行为日志的自动归档目前,我们已经实现日志导出,但日志会无限增长,占用数据库空间。现在,我们要实现:✅定期归档旧日志(每3个月)✅归档数据存储为CSV/Excel✅归档后自动清理旧日志,减少数据库负担方案设计归档策略:1️⃣每3个月归档一次(定时任务执行)2️⃣归档数据存储到/logs/archive/YYYY-MM.csv或/logs/archive/YYYY-MM.xlsx3
自由鬼
·
2025-02-12 09:59
Java程序
开源产品及技术
IT应用探讨
java
Liberty
ibm
微服务
手把手教学,DeepSeek-R1
微调
全流程拆解
手把手教学,DeepSeek-R1
微调
全流程拆解原创极客见识GeekSavvy2025年02月09日09:02广东DeepSeek通过发布其开源推理模型DeepSeek-R1颠覆了AI格局,该模型使用创新的强化学习技术
AI生成曾小健
·
2025-02-12 05:01
windows
解决:libssl.so.10: cannot open shared object file: No such file or directory
RuntimeError:Failedtoimporttransformers.models.
bert
becauseofthefollowingerror(lookuptoseeitstraceback
铭147
·
2025-02-12 04:25
bert
人工智能
深度学习
开源模型应用落地-qwen2-7b-instruct-LoRA
微调
&合并-ms-swift-单机多卡-RTX 4090双卡(十五)
一、前言本篇文章将使用ms-swift去合并
微调
后的模型权重,通过阅读本文,您将能够更好地掌握这些关键技术,理解其中的关键技术要点,并应用于自己的项目中。
开源技术探险家
·
2025-02-12 04:50
开源模型-实际应用落地
#
开源模型-微调实战密码
自然语言处理
深度学习
语言模型
揭幕 DeepSeek-V2.5-1210:革新人工智能能力
技术背景DeepSeek-V2.5-1210在DeepSeekV2系列的基础上进行了
微调
,利用后训练迭代提升了其在数学、编程、写作和
吴脑的键客
·
2025-02-12 03:16
人工智能
人工智能
搜索引擎
预训练语言模型:从
BERT
到GPT,NLP的新纪元
从
BERT
到GPT,这些模型不仅在学术研究中取得了突破性进展,也在工业界得到了广泛应用。本文将深入探讨预训练语言模型的原理、发展历程以及如何在实际项目中应用这些强大的工具。
Evaporator Core
·
2025-02-11 20:23
自然语言处理
人工智能
Python开发经验
自然语言处理
语言模型
bert
【NLP算法面经】NLP算法面经 -- 腾讯 VS 美团(附面题)
博客主页:[青松]目录【NLP百面百过】大模型算法高频面题(全面整理ʘ‿ʘ)一、大模型(LLMs)基础面大模型(LLMs)架构篇注意力机制(Attention)篇Transformer理论篇二、大模型
微调
面有监督
微调
青松ᵃⁱ
·
2025-02-11 13:37
NLP
百面百过
AI面试
NLP面试
算法面试
人工智能
【人工智能领域优质书籍】实战AI大模型
书籍亮点1.全面Al知识结构:从基础理论到最前沿的实践应用,全面覆盖了’Al大模型领域,包括Transformer模型、
BERT
、AL
BERT
、T5、G
秋说
·
2025-02-11 12:01
赠书活动
AI
大模型
deepseek学习笔记
原计划是基于
BERT
或者GPT做一些自然语言处理的应用研究,deepseek出来之后,决定使用deepseek来做,相信能够获得更好的效果。
wsnzou
·
2025-02-11 10:40
学习
笔记
Open Li
bert
y使用指南及开发示例(二)
续上篇七、实现动态权限分配目前,我们的系统基于角色(Role)进行权限控制,但角色权限是固定的。现在,我们要实现:✅用户可动态分配权限(而不是仅靠角色)✅每个用户可以拥有不同的权限集(CRUD操作可灵活授权)✅管理员可管理用户权限方案设计采用基于权限的访问控制(PBAC-Permission-BasedAccessControl)用户→拥有多个权限(READ,CREATE,UPDATE,DELET
自由鬼
·
2025-02-11 09:34
IT应用探讨
Java程序
开源产品及技术
java
开发语言
Liberty
ibm
微服务
Open Li
bert
y使用指南及开发示例(一)
OpenLi
bert
y是一个轻量级、云原生的Java运行时,主要用于运行JakartaEE和MicroProfile应用。它的核心特点是模块化、快速启动和良好的可观测性。
自由鬼
·
2025-02-11 09:34
IT应用探讨
开源产品及技术
Java程序
微服务
java
Liberty
ibm
详解Redis中lua脚本和事务
—-Al
bert
Einstein引言Lua脚本的原子性和事务的ACID特性想必大家都很熟悉,本篇文章将从性能表现和原理帮助我们快速理解他们基本概念1.RedisLua脚本从2.6版本起,Redis开始支持
优人ovo
·
2025-02-11 08:53
redis
lua
数据库
【深度学习】常见模型-
BERT
(Bidirectional Encoder Representations from Transformers)(双向编码器表示)
BERT
(BidirectionalEncoderRepresentationsfromTransformers)
BERT
是什么?
IT古董
·
2025-02-11 02:06
深度学习
人工智能
深度学习
bert
人工智能
大模型入门(六)—— RLHF
微调
大模型
一、RLHF
微调
三阶段参考:https://huggingface.co/blog/rlhf1)使用监督数据
微调
语言模型,和fine-tuning一致。
LLM.
·
2025-02-10 23:17
人工智能
语言模型
机器学习
自然语言处理
LLM
大模型
RLHF
Go语言入门:从安装到环境配置
这个由Google的三位大神级工程师-Ro
bert
Griesemer、RobPike和KenThompson(对,就是那个写出Unix的大佬)一起搞出来的新语言,简直让人眼前一亮。
·
2025-02-10 23:54
程序员
【Neo4j 】学习笔记:GraphRAG 宣言:为 GenAI 添加知识
或者
微调
,或者GPT-5。是的。基于向量的RAG和
微调
等技术可以提供帮助。它们对于某些用例来说已经足够
等风来不如迎风去
·
2025-02-10 16:53
AI入门与实战
neo4j
大模型学习笔记 - LLM 对齐优化算法 DPO
概述大模型预训练是从大量语料中进行无监督学习,语料库内容混杂,训练的目标是语言模型损失,任务是nexttokenprediction,生成的token不可控,为了让大模型能生成符合人类偏好的答案(无毒无害等)一般都会进行
微调
和人类对齐
JL_Jessie
·
2025-02-10 03:54
学习
笔记
算法
LLM
微调
大模型【已成功】
环境%%capture#InstallsUnsloth,Xformers(FlashAttention)andallotherpackages!!pipinstall"unsloth[colab-new]@git+https://github.com/unslothai/unsloth.git"#WehavetocheckwhichTorchversionforXformers(2.3->0.0.
捏塔
·
2025-02-09 18:20
python
ai
动态词表采样:一种控制模型词表大小的新方法
背景介绍随着深度学习技术的发展,尤其是Transformer架构的成功应用,预训练语言模型如
BERT
、GPT等取得了
东方佑
·
2025-02-09 18:50
量子变法
pandas
python
从零开始构建一个大语言模型-第六章第一节
第六章目录6.1不同类型的
微调
6.2准备数据集6.3创建数据加载器6.4用预训练权重初始化模型6.5添加分类头6.6计算分类损失和准确率6.7在有监督数据上
微调
模型6.8将大语言模型用作垃圾邮件分类器本章内容涵盖介绍不同的大语言模型
微调
方法为文本分类准备数据集修改预训练大语言模型以进行
微调
使用
微调
后的大语言模型对新数据进行分类到目前为止
释迦呼呼
·
2025-02-09 18:17
从零开始构建一个大语言模型
语言模型
人工智能
自然语言处理
机器学习
python
T5模型-基于Transformer架构的通用文本到文本转换模型
通过预训练和
微调
,T5模型可以用于广泛的
Jiang_Immortals
·
2025-02-09 16:09
人工智能
python
transformer
深度学习
人工智能
接入deepseek构建RAG企业智能问答系统
让AI大模型“学习”业务知识的两种主要方法:
微调
(Fine-Tuning):在预训练模型基础上根据特定任务和数据集调整参数。
da pai ge
·
2025-02-09 16:08
prometheus
kubernetes
javascript
基于 llama-Factory 动手实践 Llama 全参数 SFT 和 LoRA SFT
一、llama-Factory:你的Llama模型SFT工厂llama-Factory是一个开源的、用户友好的工具,专门用于对Llama系列模型进行
微调
。
kakaZhui
·
2025-02-09 12:36
llama
AIGC
chatgpt
深度学习
蒸馏:让DeepSeek用“移魂大法”增强你的小模型
在DeepSeekR1的技术报告中,使用DeepSeek-R1生成的推理数据,
微调
了几个广泛使用的开源模型。评估结果表明,蒸馏后的较
AI生成曾小健
·
2025-02-09 11:58
Deepseek原理与使用
人工智能
多模态大模型:技术原理与实战 多模态大模型在情绪识别领域的应用
传统的单一模态大模型,如
BERT
、GPT等,尽管在各自模态上有着卓越的表现,但在处
杭州大厂Java程序媛
·
2025-02-09 10:23
DeepSeek
R1
&
AI人工智能与大数据
java
python
javascript
kotlin
golang
架构
人工智能
红黑树与布隆过滤器的了解
后来,在1978年被LeoJ.Guibas和Ro
bert
Sedgewick修改为如今的“红黑树”。
胡图蛋.
·
2025-02-08 18:23
mysql
java
熬夜整理模型下载、量化、代码调用可免费使用离线部署的上千个国内外开源大模型梳理,整理开源的大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域
微调
及应用,数据集与教程等
熬夜整理模型下载、量化、代码调用,可免费使用离线部署的上千个国内外开源大模型梳理,整理开源的大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域
微调
及应用,数据集与教程等
代码讲故事
·
2025-02-08 15:32
机器人智慧之心
模型
离线
量化
大模型
开源
部署
训练
深度学习的文本生成:从seq2seq到GPT2和GPT3
1.2Transformer模型1.2.1自注意力机制1.2.2位置编码1.2.3多头注意力1.2.4训练1.3GPT(GenerativePre-trainedTransformer)模型1.3.1预训练1.3.2
微调
AI天才研究院
·
2025-02-08 11:33
AI大模型应用入门实战与进阶
ChatGPT
大数据
人工智能
语言模型
AI
LLM
Java
Python
架构设计
Agent
RPA
解决IBM Li
bert
y 部署Springboot 应用遇到StackOverflow的问题
客户最近要求把一个Springboot应用从was9迁移部署至li
bert
y20,jar包部署,自启动没问题,但部署到li
bert
y上server.xml配置如下:javaee-8.0springBoot
tomcat1010
·
2025-02-08 11:03
spring
boot
java
web
容器
DeepSeek模型与OpenAI模型原理和技术架构的异同分析
DeepSeek模型与OpenAI模型原理和技术架构的异同分析一、模型原理(一)DeepSeekR1DeepSeekR1的核心原理是基于强化学习(RL)的训练方式,其创新之处在于不依赖任何监督
微调
(SFT
程序猿000001号
·
2025-02-08 04:10
DeepSeek
大模型
大模型(LLM)
微调
并不复杂,数据才是关键:3个实例详解数据准备
今天咱们聊聊一个听起来很高大上的词——
微调
(Fine-Tuning)。听说过吗?
程序员二飞
·
2025-02-08 01:21
深度学习
机器学习
人工智能
金融
学习
chatgpt
大数据
一个游戏,多种框架
RogerEngel
bert
在他的博客rengel
bert
.com展示给我们如何做一个移动版的青蛙过河游戏,使用四个不同的框架:Starling,Sparrow,cocos2d和LibGDX。
wkyb608
·
2025-02-07 19:44
物理引擎
项目架构设计
游戏
框架
引擎
flash
image
工作
AI商业化:如何包装技术并找到客户需求?
一、引言在过去几年里,从GPT、Transformer到DeepSeek,以及分布式训练和
微调
技术的发展,为AI技术带来了质的飞跃。然而,光有先进的技术并不足以实现商业成功。如何将这些技术包装成易于
hjy1821
·
2025-02-07 17:34
AI
人工智能
传统AI算法工程师转型指南:如何成功切入大模型领域赛道“
在做项目的过程中,为了节省训练成本,阅读了很多peft(参数高效
微调
)的文献,并且实践了lor
大模型玩家
·
2025-02-07 17:33
人工智能
算法
面试
ai
职场和发展
语言模型
agi
大语言模型原理基础与前沿 高效的MoE架构
大语言模型原理基础与前沿高效的MoE架构关键词:大语言模型,MoE架构,参数高效
微调
,分布式训练,模型压缩,推理加速1.背景介绍1.1问题的由来随着深度学习技术的飞速发展,大语言模型(LargeLanguageModels
AI架构设计之禅
·
2025-02-07 13:39
DeepSeek
R1
&
大数据AI人工智能
Python入门实战
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
基于 DeepSeek-R1 模型
微调
(SFT)技术详解
目录引言1.1大模型时代与
微调
的重要性1.2本文目的与结构概述DeepSeek-R1模型基础2.1模型简介2.1.1模型架构2.1.2预训练数据与目标2.2模型特点与优势2.2.1语言理解与生成能力2.2.2
zhangjiaofa
·
2025-02-07 10:43
大模型
DeepSeek-R1
SFT
模型微调
大模型生态开源工具整理
最近一直在做大模型应用开发工作,总结下用到的一些开源工具1-模型训练LLaMA-Factory整体介绍LLaMA-Factory是一个开源的
微调
框架,为开发者提供简便高效的工具,以便在预训练模型基础上快速适应特定任务需求
miracletiger
·
2025-02-07 08:35
开源
实例解析:RAG与模型
微调
的选择策略——三个简单案例帮你做出明智决策
我们重点来讨论几个案例,来看一下每个案例到底选择RAG,还是
微调
,或者是RAG+
微调
。
程序员老冉
·
2025-02-07 06:50
人工智能
transformer
语言模型
深度学习
agi
程序员
rag
大模型参数量及其单位的概念
BERT
模型的参数量是多少?
BERT
(BidirectionalEncoderRepresentationsfromTransformers)模型有几种不同的版本,它们的参数量不同。
这个人有丶懒
·
2025-02-07 03:57
自然语言处理
语言模型
使用一个大语言模型对另一个大语言模型进行“调教”
使用一个大语言模型对另一个大语言模型进行“调教”(通常称为
微调
或适配),是一种常见的技术手段,用于让目标模型更好地适应特定的任务、领域或风格。
大霸王龙
·
2025-02-07 03:25
python
人工智能
python
[论文笔记] Deepseek技术报告
1.总体概述背景与目标报告聚焦于利用强化学习(RL)提升大型语言模型(LLMs)的推理能力,旨在探索在不依赖大规模监督
微调
(SFT)的情况下,模型如何自我进化并形成强大的推理能力。
心心喵
·
2025-02-06 22:53
论文笔记
论文阅读
人工智能
【机器学习】机器学习重要方法——迁移学习:理论、方法与实践
文章目录迁移学习:理论、方法与实践引言第一章迁移学习的基本概念1.1什么是迁移学习1.2迁移学习的类型1.3迁移学习的优势第二章迁移学习的核心方法2.1特征重用(FeatureReuse)2.2
微调
(Fine-Tuning
E绵绵
·
2025-02-06 22:52
Everything
机器学习
迁移学习
人工智能
python
AIGC
应用
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他