E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
squeezeLM
SqueezeLM
的想法,压缩输入句子潜变量,生成下一句子
又搞了一段时间。还是感觉LongNet那种空洞注意力做编码器有搞头。RetNet等AFT方法,直接生成太长的句子感觉有点难度,不过可以一句句生成,每次生成短句,这样感觉比较合适。启发受MemroyTransformer和GLM启发想了一个类似T5的设计,包含编码器和解码器只使用拼接和CausalSelfAttention,不使用CrossAttention可以等价省去T5的解码器里面的交叉注意力层
ONE_SIX_MIX
·
2023-08-01 07:25
深度学习的经验
深度学习
pytorch
transformer
squeezeLM
上一页
1
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他