E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Transformer
解决:libssl.so.10: cannot open shared object file: No such file or directory
RuntimeError:Failedtoimport
transformer
s.models.bertbecauseofthefollowingerror(lookuptoseeitstraceback
铭147
·
2025-02-12 04:25
bert
人工智能
深度学习
Transformer
细节(九)——
Transformer
位置编码
一、总述
Transformer
模型中的位置编码(PositionalEncoding)是用于向模型提供序列中各个元素位置信息的机制。
多学学多写写
·
2025-02-12 04:25
transformer
深度学习
人工智能
缩放点积注意力(Scaled Dot-Product Attention)
ScaledDot-ProductAttention)缩放点积注意力(ScaledDot-ProductAttention)是自注意力(Self-Attention)机制的一种变体,它被广泛应用于现代的神经网络架构中,尤其是在
Transformer
彬彬侠
·
2025-02-11 20:53
自然语言处理
缩放点积注意力
自注意力
Self-Attention
Transformer
pytorch
python
自然语言处理
DeepSeek发布开源多模态大模型Janus-Pro-7B!本地部署+Colab部署!支持图像识别和图像生成!基准测试得分超越OpenAI的DALL·E 3 + Stable Diffusion
模型主要特点:统一的架构:Janus-Pro采用单一
transformer
架构来处理文本和图像信息,实现了真正的多模态理解和生成
AI超元域
·
2025-02-11 20:21
stable
diffusion
人工智能
AI编程
ai
AI作画
AIGC
【NLP算法面经】NLP算法面经 -- 腾讯 VS 美团(附面题)
博客主页:[青松]目录【NLP百面百过】大模型算法高频面题(全面整理ʘ‿ʘ)一、大模型(LLMs)基础面大模型(LLMs)架构篇注意力机制(Attention)篇
Transformer
理论篇二、大模型微调面有监督微调
青松ᵃⁱ
·
2025-02-11 13:37
NLP
百面百过
AI面试
NLP面试
算法面试
人工智能
【人工智能领域优质书籍】实战AI大模型
书籍亮点1.全面Al知识结构:从基础理论到最前沿的实践应用,全面覆盖了’Al大模型领域,包括
Transformer
模型、BERT、ALBERT、T5、G
秋说
·
2025-02-11 12:01
赠书活动
AI
大模型
Transformer
:基于注意力机制的序列转换模型
Transformer
:基于注意力机制的序列转换模型最近,我研究了一篇非常有趣的论文——《AttentionIsAllYouNeed》,由GoogleBrain团队的AshishVaswani等人撰写。
金外飞176
·
2025-02-11 09:07
论文精读
transformer
深度学习
人工智能
StripedHyena 模型介绍
StripedHyena是近年来提出的一种新型神经网络架构,旨在替代或补充传统的
Transformer
模型。
qq_27390023
·
2025-02-11 08:51
深度学习
python
机器学习
pytorch
生物信息学
Transformer
的辉煌与大模型方向确立,点燃AGI之火把
技术壁垒:模型,技术,开源CUDA壁垒:PTX编程更加底层,大量中国硬件公司,可以适配
Transformer
架构的奠基2017年,Vaswani等人发表了开创性论文《AttentionisAllY
dingcb168
·
2025-02-11 07:47
搜索引擎
自然语言处理
【AI学习】LLM的发展方向
当然,首先要有一个能够scaling的模型架构,
Transformer
是首个能够scaling的模型架构,去年的Mamba学习,了解了为什么CNN、LSTM这些架构为什么无法scaling。
bylander
·
2025-02-11 03:47
AI学习
人工智能
学习
gpt
【深度学习】常见模型-BERT(Bidirectional Encoder Representations from
Transformer
s)(双向编码器表示)
BERT(BidirectionalEncoderRepresentationsfrom
Transformer
s)BERT是什么?
IT古董
·
2025-02-11 02:06
深度学习
人工智能
深度学习
bert
人工智能
基于“感知–规划–行动”的闭环系统架构
1.感知(Perception)1.1多模态数据采集与预处理传感器系统Agent的感知层通常由多种传感器组成,支持采集多种形式的数据:视觉:采用摄像头、深度传感器,通过卷积神经网络(CNN)、视觉
Transformer
由数入道
·
2025-02-10 22:39
人工智能
系统架构
人工智能
智能体
1.1 Attention机制终极指南:从数学推导到
Transformer
实战,解密大模型核心引擎
Attention机制终极指南:从数学推导到
Transformer
实战,解密大模型核心引擎引言:人脑如何启发AI革命?
少林码僧
·
2025-02-10 19:49
transformer
深度学习
人工智能
langchain
chatgpt
embedding
DeepSeek-VL2 、 qwen2.5 vl 技术选型比较
以下是两者的技术选型对比分析,涵盖架构设计、性能、适用场景和实际应用考量:1.核心架构对比维度DeepSeek-VL2Qwen2.5-VL视觉编码器基于改进的ViT(Vision
Transformer
)
天机️灵韵
·
2025-02-10 18:42
人工智能
deepseek
qwen
基于Python和开源框架的简单聊天交互软件代码实现
代码实现:基于Flask的聊天交互软件1.环境准备安装所需依赖:pipinstallflaskflask-socketio
transformer
s2.代码实现fromflaskimportFlask,render_template
星糖曙光
·
2025-02-10 14:33
后端语言(node
javascript
vue等等)
人工智能
学习
笔记
python
交互
DeepSeek和ChatGPT的优劣或者区别(答案来DeepSeek和ChatGPT)
ChatGPT:基于
Transformer
架构,参数规模估计约1万亿,依
笑傲江湖2023
·
2025-02-10 12:45
chatgpt
人工智能
锂电池剩余寿命预测 | Matlab基于
Transformer
-GRU的锂电池剩余寿命预测
✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、期刊写作与指导,代码获取、论文复现及科研仿真合作可私信或扫描文章底部二维码。个人主页:Matlab科研工作室个人信条:格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍锂离子电池作为一种重要的储能装置,在
天天Matlab代码科研顾问
·
2025-02-10 09:24
matlab
transformer
gru
深度解析
Transformer
架构核心原理,让小白也懂
解密
Transformer
:从人类思维到机器智能的注意力革命引言:语言理解的本质困境在纽约地铁站,一个三岁孩童指着广告牌上的"Apple"问妈妈:"这是吃的苹果还是爸爸的手机?"
python算法(魔法师版)
·
2025-02-10 07:00
transformer
深度学习
人工智能
机器学习
神经网络
开源
自然语言处理
ai大模型学习和实践
1.3以下方法被用于处理序列数据的是1.4注意力机制是什么2、变革里程碑:
transformer
的崛起2.1
Transformer
模型和注意力机制的关系2.2
Transformer
模型和注意力机制在数据训练上有差异
编程ID
·
2025-02-10 07:26
AI
人工智能
学习
AI大模型系列之七:
Transformer
架构讲解
目录
Transformer
网络是什么?输入模块结构:编码器模块结构:解码器模块:输出模块结构:
Transformer
具体是如何工作的?
Transformer
核心思想是什么?
m0_74823683
·
2025-02-10 03:58
面试
学习路线
阿里巴巴
人工智能
transformer
深度学习
Awesome Video
Transformer
AwesomeVideo
Transformer
仅针对Video数据,探索近年来
Transformer
的架构演进,以及实现细节。
Yuezero_
·
2025-02-10 03:27
video
understanding
transformer
深度学习
人工智能
AI学习专题(一)LLM技术路线
(贝叶斯定理、极大似然估计)最优化方法(梯度下降、拉格朗日乘子法)编程&框架Python(NumPy、Pandas、Matplotlib)PyTorch&TensorFlow基础HuggingFace
Transformer
s
王钧石的技术博客
·
2025-02-10 01:39
大模型
人工智能
学习
ai
AI大模型:一文搞懂大模型文件存储格式新宠GGUF
本文大介绍大模型文件存储格式新宠GGUF,目前Huggingface
Transformer
s已经支持了GGUF格式,同时,像谷歌的Gemma、阿里的Qwen等模型默认已经提供了GGUF格式
Llama-Turbo
·
2025-02-10 01:37
人工智能
llama
自然语言处理
知识图谱
语言模型
LLM
大模型
多头注意力机制的创新优化:MLA架构解析
摘要MLA(Multi-headLatentAttention)架构是对
Transformer
模型中多头注意力(MHA)结构的创新优化,旨在提高推理阶段的效率并降低资源消耗。
耶耶Norsea
·
2025-02-09 23:22
网络杂烩
Deepseek
动态词表采样:一种控制模型词表大小的新方法
背景介绍随着深度学习技术的发展,尤其是
Transformer
架构的成功应用,预训练语言模型如BERT、GPT等取得了
东方佑
·
2025-02-09 18:50
量子变法
pandas
python
T5模型-基于
Transformer
架构的通用文本到文本转换模型
T5(Text-to-TextTransfer
Transformer
)是由Google于2019年提出的一种基于
Transformer
架构的通用文本到文本转换模型。
Jiang_Immortals
·
2025-02-09 16:09
人工智能
python
transformer
深度学习
人工智能
混合专家模型 (MoE) 最全详细图解
随着Mixtral8x7B(announcement,modelcard)的推出,一种称为混合专家模型(MixedExpertModels,简称MoEs)的
Transformer
模型在开源人工智能社区引起了广泛关注
DFCED
·
2025-02-09 10:23
人工智能算法前沿
AIGC算法学术工业技术前沿
混合专家网络
MOE
DeepSeek
人工智能
深度学习
大模型
个性化音乐生成:生成式AI在音乐推荐与创作中的应用
文章目录引言生成式AI与个性化音乐生成1.变分自编码器(VAE)2.生成对抗网络(GAN)3.
Transformer
模型4.扩散模型(DiffusionModels)技术实现1.音乐特征提取2.基于VAE
二进制独立开发
·
2025-02-09 00:34
非纯粹GenAI
GenAI与Python
人工智能
python
语言模型
自然语言处理
生成对抗网络
知识图谱
神经网络
Vision
Transformer
学习笔记(2020 ICLR)
摘要(Abstract):简述了ViT(Vision
Transformer
)模型的设计和实验结果,展示了其在大规模图像数据集上进行训练时的优越性能。
刘若里
·
2025-02-08 21:15
论文阅读
学习
笔记
网络
计算机视觉
transformer
动手学图神经网络(12):MovieLens上的链接回归
环境设置使用pip安装pyg-lib、pytorch_geometric、sentence_
transformer
s、fuzzywuzzy、captum等。
段智华
·
2025-02-08 11:07
图神经网络
图神经网络
深度学习的文本生成:从seq2seq到GPT2和GPT3
文章目录1.背景介绍1.1序列到序列(seq2seq)模型1.1.1编码器1.1.2解码器1.1.3训练1.2
Transformer
模型1.2.1自注意力机制1.2.2位置编码1.2.3多头注意力1.2.4
AI天才研究院
·
2025-02-08 11:33
AI大模型应用入门实战与进阶
ChatGPT
大数据
人工智能
语言模型
AI
LLM
Java
Python
架构设计
Agent
RPA
ACC-UNet网络学习笔记(2023 MICCAI )
同样,医学图像领域也发生了一样的变化,最具影响力的网络结构——U-Net已和
Transformer
相结合而被重新设计。
刘若里
·
2025-02-08 10:58
论文阅读
网络
学习
笔记
完整的671B R1塞进本地,详尽教程来了!
李锡涵(XihanLi)作者简介:伦敦大学学院(UCL)计算机系博士研究生,谷歌开发者专家,主要研究方向为学习优化,在NeurIPS、ICLR、AAMAS、CIKM等会议发表过学术论文,Circuit
Transformer
·
2025-02-08 10:08
datawhale
AI学习指南HuggingFace篇-项目实战:情感分析系统
HuggingFace的
Transformer
s库提供了强大的工具,使得情感分析变得简单高效。
俞兆鹏
·
2025-02-08 10:25
AI学习指南
ai
【Block总结】DFFN,门控机制选择性保留低频和高频信息
论文信息标题:EfficientFrequencyDomain-based
Transformer
sforHigh-QualityImageDeblurring论文链接:LingshunKong,JiangxinDong
AI浩
·
2025-02-08 08:36
Block总结
计算机视觉
transformer
人工智能
【AI原理解析】— Gemini模型
模型基础与架构模型架构模型尺寸3.多模态处理能力输入处理数据处理训练过程4.技术细节与优化预训练上下文长度注意机制5.安全性与编程能力安全性评估编程能力6.模型发布与应用发布时间应用方向7.性能评估8.数学基础8.1
Transformer
coolkidlan
·
2025-02-08 06:49
AI学习路径
AIGC
人工智能
AIGC
DeepSeek为什么采用与主流大模型不一样的MoE架构?一文搞懂什么是MoE模型
但像Qwen、LLama模型,用的却是Dense架构,也就是传统的
Transformer
架构。这两种架构有个很明显的区别。
大模型_学习路线
·
2025-02-08 04:39
架构
人工智能
AI大模型
大模型
自然语言处理
LLM
DeepSeek
Flash Attention介绍
FlashAttention是一种优化
Transformer
模型中注意力机制的技术,旨在提高计算效率并减少内存使用。
TAICHIFEI
·
2025-02-08 03:38
大模型面试
人工智能
AI商业化:如何包装技术并找到客户需求?
一、引言在过去几年里,从GPT、
Transformer
到DeepSeek,以及分布式训练和微调技术的发展,为AI技术带来了质的飞跃。然而,光有先进的技术并不足以实现商业成功。如何将这些技术包装成易于
hjy1821
·
2025-02-07 17:34
AI
人工智能
深度搜索MoE:利用大规模预训练模型提升信息检索效能
利用大规模预训练模型提升信息检索效能DeepSeek-MoE项目地址:https://gitcode.com/gh_mirrors/de/DeepSeek-MoE项目简介DeepSeek-MoE是一个基于
Transformer
杭律沛Meris
·
2025-02-07 15:20
SRMT:一种融合共享记忆与稀疏注意力的多智能体强化学习框架
自反射记忆
Transformer
(SRMT)作为一种新型记忆增强型
transformer
架构,专注于提升基于AI的决策能力和多智能体协同效果。
·
2025-02-07 13:28
DeepSeek 多模态大模型Janus-Pro本地部署教程
该框架通过将视觉编码解耦到不同的处理路径(同时仍使用单一统一的
Transformer
架构
·
2025-02-07 13:20
大模型参数量及其单位的概念
BERT(BidirectionalEncoderRepresentationsfrom
Transformer
s)模型有几种不同的版本,它们的参数量不同。
这个人有丶懒
·
2025-02-07 03:57
自然语言处理
语言模型
使用一个大语言模型对另一个大语言模型进行“调教”
以下是基于搜索结果整理的详细步骤和方法:1.准备工作安装必要的库•
Transformer
s:用于加载和训练模型。•Datasets:用于处理数据集。
大霸王龙
·
2025-02-07 03:25
python
人工智能
python
deepseek再爆大招,janus pro炸裂出场
januspro多模态大模型炸裂出场,
transformer
架构,没有走diffusion路线,再次颠覆行业认知,继续追着OpenAI打。家里有高配电脑的可以玩起来了,网上自己搜索吧。
caoz
·
2025-02-06 12:15
大模型的底层逻辑及
Transformer
架构
其中,
Transformer
架构是目前主流的大模型架构,它通过自注意力机制和前馈神经网络来处理输入数据。这种架构能够高效地处理序列数据,如文本。3.自
搏博
·
2025-02-06 02:04
transformer
架构
深度学习
机器学习
人工智能
(14-6-03)基于Latent Diffusion
Transformer
的文生视频系统:实现模型(03)图像生成模型
它结合了
Transformer
架构和扩散模型的优势。
码农三叔
·
2025-02-05 22:30
训练
RAG
多模态)
人工智能
transformer
多模态
大模型
Transformer
s解决RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn
在使用
Transformer
s启动梯度检查点时,即:model.gradient_checkpointing_enable()时,会报错RuntimeError:element0oftensorsdoesnotrequiregradanddoesnothaveagrad_fn
怎么这么多名字都被占了
·
2025-02-05 18:06
transformer
pytorch
中国AI再放异彩!MiniMax01开源震撼全球
它突破了传统的
Transformer
架构,这可是AI领域的核心技术之一。对于咱们普通人来说,
盼达思文体科创
·
2025-02-05 15:15
经验分享
DeepSeek-R1全面超越OpenAI o1:开源大模型训练范式革新
OpenAI早期专注于强化学习(RL),但在
Transformer
结构问世后,迅速调整方向,借助Google的开源研究开发出强大的LLM。然而,尽
·
2025-02-05 02:16
前端javascript
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他