E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
transformer论文阅读
深度学习代码源码项目90个分享
CNN分类的模型一般使用包括alexnet、DenseNet、DLA、GoogleNet、Mobilenet、ResNet、ResNeXt、ShuffleNet、VGG、EfficientNet和Swin
transformer
z5645654
·
2024-01-12 21:05
深度学习
python
深度学习
人工智能
机器学习
python
大模型学习与实践笔记(五)
一、环境配置1.huggingface镜像下载sentence-
transformer
s开源词向量模型importos#设置环境变量os.environ['HF_ENDPOINT']='https://
AllYoung_362
·
2024-01-12 20:14
人工智能
学习
笔记
langchain
AIGC
chatgpt
Transformer
中的layer norm(包含代码解释)
在
transformer
中存在add&norm操作,add操作很简单,就是把注意力矩阵和原来的矩阵相加,也就是残差链接,可以有效减少梯度消失。
牛像话
·
2024-01-12 19:01
transformer
深度学习
人工智能
推荐系统
论文阅读
(二十九)-美团:利用历史交互数据改进对话推荐系统
论文:题目:《LeveragingHistoricalInteractionDataforImprovingConversationalRecommenderSystem》地址:https://dl.acm.org/doi/pdf/10.1145/3340531.3412098这是我第一次将美团发表的论文写在这上面,该论文是人大跟美团这边合作在CIKM上面的一篇短论文,研究的是如何利用历史交互的数
推荐系统论文阅读
·
2024-01-12 18:49
用通俗易懂的方式讲解大模型分布式训练并行技术:序列并行
近年来,随着
Transformer
、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,传统的单机单卡模式已经无法满足超大模型进行训练的要求。
Python算法实战
·
2024-01-12 17:25
大模型理论与实战
大模型
分布式
LLM
多模态
人工智能
模型训练
模型部署
羊驼2:开放的基础和微调聊天模型--Llama 2
论文阅读
论文地址:https://arxiv.org/pdf/2307.09288.pdfd代码地址:GitHub-facebookresearch/llama-recipes:ExamplesandrecipesforLlama2model问答用了多少个gpu?这篇文档中使用了3.3MGPU小时的计算,使用的硬件类型是A100-80GB,可以扩展到2000个GPU,但这些计算的功耗估计并不包括互连或非G
andeyeluguo
·
2024-01-12 17:59
AI笔记
人工智能
Cylinder3D
论文阅读
CylindricalandAsymmetrical3DConvolutionNetworksforLiDARSegmentation(2020年论文)作者:香港中文大学论文链接:https://arxiv.org/pdf/2011.10033.pdf代码链接:https://github.com/xinge008/Cylinder3D摘要为什么做这件事(why):●目前用于自动驾驶场景的最好的点
zhaoyqcsdn
·
2024-01-12 15:58
论文学习
论文阅读
自动驾驶
深度学习
经验分享
笔记
EM planner
论文阅读
论文题目:BaiduApolloEMMotionPlanner0前言EM和Lattice算法对比EMplannerLatticePlanner参数较多(DP/QP,Path/Speed)参数少且统一化流程复杂流程简单单周期解空间受限简单场景解空间较大能适应复杂场景适合简单场景1摘要基于百度Apollo平台提出的一种实时运动规划系统,该规划系统包括顶层的多车道和其中的单车道自动驾驶:(1)系统顶层是
Big David
·
2024-01-12 15:57
Apollo学习
自动驾驶规划系列论文阅读笔记
论文阅读
决策规划
二次规划QP
EM
planner
4、Swin
Transformer
:视觉
Transformer
的革新之路
具体实现细节1、模型架构2、PatchPartition3、PatchMerging4、SwinTransfomerBlockW-MSASW-MSA五、对比ViT六、一些资料一、论文名称原论文地址:Swin
Transformer
O_meGa
·
2024-01-12 15:21
AIGC论文笔记
深度学习
深度学习
人工智能
(详细)
Transformer
完整版)
原文链接:https://blog.csdn.net/longxinchen_ml/article/details/86533005作者:龙心尘时间:2019年1月出处:https://blog.csdn.net/longxinchen_ml/article/details/86533005审校:百度NLP、龙心尘翻译:张驰、毅航、Conrad原作者:JayAlammar原链接:https://j
薛定谔的炼丹炉!
·
2024-01-12 15:50
NLP基础
transformer
自然语言处理
深度学习
Transformer
:革新自然语言处理的强大模型
简介:
Transformer
是一种革新性的神经网络模型,它在自然语言处理任务中取得了巨大的成功。
程序猿-饭饭
·
2024-01-12 15:20
深度学习
人工智能
机器学习
transformer
pytorch
1、理解
Transformer
:革新自然语言处理的模型
目录一、论文题目二、背景与动机三、卖点与创新四、解决的问题五、具体实现细节0.
Transformer
架构的主要组件1.注意力、自注意力(Self-Attention)到多头注意力(Multi-HeadAttention
O_meGa
·
2024-01-12 15:48
AIGC论文笔记
AIGC
深度学习
transformer
深度学习
自然语言处理
推荐系统
论文阅读
(十四)-DCN-Deep&Cross Network推荐
论文原文:论文地址:http://xxx.itp.ac.cn/pdf/1708.05123v1论文题目:《Deep&CrossNetworkforAdClickPredictions》一、背景在第四篇文章里面我们介绍了DeepFm,DeepFm把fm和和神经网络结合在一起了,在文章里面我们也提到了两种方式,一种是并行方式,另一种是串行方式。我们知道DeepFm是并行结构,FM和DNN部分是并行的,
推荐系统论文阅读
·
2024-01-12 14:29
Huggingface的Trainer类无法将日志写到logging文件中
在训练时想把这个信息也写到logging文件中在training_args中设置参数:training_args=
transformer
s.TrainingArguments(logging_steps
cpopttt
·
2024-01-12 14:44
人工智能
速度飙升200%!Flash Attention 2一统江湖,注意力计算不再是问题!
❤️点击上方,选择星标或置顶,每天给你送上干货❤️作者|godweiyang出品|公众号:算法码上来(ID:GodNLP)-BEGIN-attention是
Transformer
中最重要的一个结构,但是随着序列长度的增加
算法码上来
·
2024-01-12 14:12
text-generation-webui加载codellama报错DLL load failed while importing flash_attn_2_cuda: 找不到指定的模块。
codellama,报错:Traceback(mostrecentcalllast):File"C:\Users\Ma\AppData\Roaming\Python\Python310\site-packages\
transformer
s
cpopttt
·
2024-01-12 14:11
深度学习
人工智能
llama
NeurIPS 2023 | LIBERO:机器人持续学习基准环境
点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【机器人和
Transformer
】交流群作者:Heeger(源:知乎,已授权)https://zhuanlan.zhihu.com
Amusi(CVer)
·
2024-01-12 11:59
机器人
学习
NLP
论文阅读
记录 - 05 | 2023 抽象总结与提取总结:实验回顾
文章目录前言0、论文摘要一、Introduction1.1目标问题1.2相关的尝试1.3本文贡献二.相关工作2.1提取方法2.2抽象方法2.3数据集三.本文方法四实验效果4.1数据集4.2对比模型4.3实施细节4.4评估指标4.5实验结果4.6细粒度分析五总结思考前言Abstractivevs.ExtractiveSummarization:AnExperimentalReview(2306)0、
yuyuyu_xxx
·
2024-01-12 09:59
NLP
自动文本摘要综述
自然语言处理
论文阅读
人工智能
2、BERT:自然语言处理的变革者
BERT(BidirectionalEncoderRepresentationsfrom
Transformer
s)是Google在2018年提出的一种自然语言处理(NLP)预训练模型。
O_meGa
·
2024-01-12 09:27
AIGC论文笔记
bert
人工智能
深度学习
【深度学习:视觉基础模型】视觉基础模型 (VFM) 解释
【深度学习:视觉基础模型】视觉基础模型VFM解释了解视觉基础模型从CNN到
Transformer
的演变自我监督和适应能力流行的视觉基础模型DINO(自蒸馏,无标签)SAM(分段任意模型)SegGPTMicrosoft'sVisualChatGPT
jcfszxc
·
2024-01-12 09:23
深度学习知识专栏
深度学习
人工智能
NLP
论文阅读
记录 - wos | 01 使用深度学习对资源匮乏的语言进行抽象文本摘要
文章目录前言0、论文摘要一、Introduction1.1目标问题1.2相关的尝试1.3本文贡献二.相关工作三.本文方法四实验效果4.1数据集4.2对比模型4.3实施细节4.4评估指标4.5实验结果4.6细粒度分析五总结思考前言Abstractivetextsummarizationoflowresourcedlanguagesusingdeeplearning(2211)0、论文摘要人类必须能够
yuyuyu_xxx
·
2024-01-12 09:22
NLP
自然语言处理
论文阅读
深度学习
RLHF与LLM训练的碰撞:寻找最佳实践之路!
典型的LLM训练流程现代基于
transformer
的LLM,如Chat
wwlsm_zql
·
2024-01-12 09:50
chatgpt
人工智能
NLP(十八):LLM 的推理优化技术纵览
原文:NLP(十八):LLM的推理优化技术纵览-知乎目录收起一、子图融合(subgraphfusion)1.1Faster
Transformer
byNVIDIA1.2DeepSpeedInferencebyMicrosoft1.3MLCLLMbyTVM
javastart
·
2024-01-12 09:46
aigc
大模型
自然语言处理
人工智能
AIGC
chatgpt
llama
编码器与解码器LLM全解析:掌握NLP核心技术的关键!
编码器与解码器风格的
Transformer
从根本上说,编码器和解码器风格的架构都使用相同的自注意力层来编码词汇标记。然而,主要区别在于编码器旨在学习可以用于各种预测建模任务(如分类)的嵌入表示。
wwlsm_zql
·
2024-01-12 09:15
大模型
人工智能
chatgpt
RAG
transformer
深度学习
大模型内容分享(十二):图解大语言模型:从操作系统的视角
LLM的进化树[1]基于「
Transformer
」的模型(非灰色颜色)和其中的「仅解码器(DecoderOnly)模型」(蓝色)占明显的优势开源模型(实心块)和闭源模型(空心块)都在迅速发展Google
之乎者也·
·
2024-01-12 09:38
AI(人工智能)
内容分享
大模型(Foundation
Model)
内容分享
语言模型
人工智能
自然语言处理
ALiBi线性偏置注意力
6327801882.实现github:https://github.com/ofirpress/attention_with_linear_biases/blob/master/fairseq/models/
transformer
.py
云帆@
·
2024-01-12 07:08
torch
pytorch
深度学习
论文阅读
:TinyGPT-V
论文阅读
及源码梳理对应
TODO有待更新QFormer作用?QFormer来自论文BCLI2工作中,用来弥补FrozenImageencoder和FrozenLLM之间的gap。基于Bert作为初始化的。推理结构图Imageblip2_image_evalQFormerLinerLinearget_context_embpromptGivethefollowingimage:ImageContent.""Youwillb
Liekkas Kono
·
2024-01-12 06:26
论文学习
论文阅读
大语言模型面试问题
transformer
中求和与归一化中“求和”是什么意思?
抓个马尾女孩
·
2024-01-12 05:23
深度学习
语言模型
人工智能
自然语言处理
论文阅读
_训练大模型用于角色扮演
英文名称:Character-LLM:ATrainableAgentforRole-Playing中文名称:角色-LLM:训练Agent用于角色扮演文章: [https://arxiv.org/abs/2310.10158](https://arxiv.org/abs/2310.10158)作者:YunfanShao, LinyangLi, JunqiDai, XipengQiu机构:复旦大学计算
xieyan0811
·
2024-01-12 03:05
论文阅读
深度学习
人工智能
【AI视野·今日Sound 声学论文速览 第四十五期】Wed, 10 Jan 2024
10Jan2024Totally12papers上期速览✈更多精彩请移步主页DailySoundPapersMaskedAudioGenerationusingaSingleNon-Autoregressive
Transformer
AuthorsAlonZiv
hitrjj
·
2024-01-12 03:04
Papers
audio
Sound
声学
深度学习
智能声学
计算声学
【
论文阅读
】Deep Graph Infomax
目录0、基本信息1、研究动机2、创新点2.1、核心思想:2.2、思想推导:3、准备3.1、符号3.2、互信息3.3、JS散度3.4、DeepInfoMax方法3.5、判别器:f-GAN估计散度4、具体实现4.1、局部-全局互信息最大化4.2、理论动机5、实验设置5.1、直推式学习(Cora,CiteseerandPubmed)6、代码实现6.1、DGI6.2、GCNLayer6.3、readout
鲸可落
·
2024-01-12 02:06
图神经网络
论文阅读
神经网络
深度学习
算法
python
人工智能
2021-03-04 Speech-
Transformer
项目参数设置2
参数设置为了更方便调试LFR_m、LFR_n参数的设置,将训练、开发集的json做些精简:原始训练集:120098条语音精简后:9条语音原始开发集:14326条语音精简后:10条语音具体精简情况可以见《Speech-
Transformer
雨风SLEK
·
2024-01-12 01:26
深度学习模型部署TensorRT加速(九):TensorRT部署
TransFormer
模型
下篇内容预告:深度学习模型部署TensorRT加速(十):TensorRT部署分析与优化方案(一)前言:众所周知,
transformer
在很多计算机视觉领域的性能已经超过CNNS,例如目标检测中的DETR
咕哥
·
2024-01-11 19:57
深度学习模型部署优化
深度学习
人工智能
目标跟踪
计算机视觉
Pytorch环境下基于
Transformer
的滚动轴承故障诊断
关于python的集成环境,我一般Anaconda和winpython都用,windows下主要用Winpython,IDE为spyder(类MATLAB界面)。winpython脱胎于pythonxy,面向科学计算,兼顾数据分析与挖掘;Anaconda主要面向数据分析与挖掘方面,在大数据处理方面有自己特色的一些包;winpython强调便携性,被做成绿色软件,不写入注册表,安装其实就是解压到某个
哥廷根数学学派
·
2024-01-11 19:24
pytorch
python
人工智能
电能质量Python实现全家桶——全网最低价
Python电能质量扰动信号分类(一)基于LSTM模型的一维信号分类-CSDN博客Python电能质量扰动信号分类(二)基于CNN模型的一维信号分类-CSDN博客Python电能质量扰动信号分类(三)基于
Transformer
建模先锋
·
2024-01-11 19:53
电能质量扰动信号
python
开发语言
多特征变量序列预测(二)——CNN-LSTM-Attention风速预测模型
数据集介绍和预处理-CSDN博客风速预测(二)基于Pytorch的EMD-LSTM模型-CSDN博客风速预测(三)EMD-LSTM-Attention模型-CSDN博客风速预测(四)基于Pytorch的EMD-
Transformer
建模先锋
·
2024-01-11 19:23
时间序列预测
cnn
lstm
人工智能
在Hugging Face上下载并使用Bert-base-Chinese
HuggingFaceHuggingface起初是一家总部位于纽约的聊天机器人初创服务商,他们本来打算创业做聊天机器人,然后在github上开源了一个
Transformer
s库,虽然聊天机器人业务没搞起来
little pierce
·
2024-01-11 14:59
bert
人工智能
深度学习
Intro project based on BERT
BERT介绍语言模型BERT,其实就是
Transformer
中的encoder。是语言
Karen_Yu_
·
2024-01-11 14:26
bert
人工智能
深度学习
从零开始复现BERT,并进行预训练和微调
从零开始复现BERT代码地址:https://gitee.com/guojialiang2023/bert模型BERT是一种基于
Transformer
架构的大型预训练模型,它通过学习大量文本数据来理解语言的深层次结构和含义
青云遮夜雨
·
2024-01-11 11:28
代码复现
bert
人工智能
深度学习
【NLP】多标签分类【上】
,上篇聚焦三种机器学习方法,分别是:BinaryRelevance(BR)、ClassifierChains(CC)、LabelPowerset(LP),下篇聚焦利用序列生成解决多标签分类方法,将使用
Transformer
Twilight Sparkle.
·
2024-01-11 11:28
NLP
自然语言处理
分类
人工智能
简单几个步骤几行代码一步一步掌握NLP自然语言处理通过
Transformer
s模型实现包括情感分析,垃圾邮件检测,语法纠错,文本推理等
简单几个步骤几行代码一步一步掌握NLP自然语言处理通过
Transformer
s模型实现包括情感分析,垃圾邮件检测,语法纠错,文本推理等。
代码讲故事
·
2024-01-11 11:55
机器人智慧之心
自然语言处理
人工智能
NLP
Transformers
情感分析
垃圾邮件
语法纠错
03.用于LLMs不同的任务-
transformer
架构
大多数现代LLMs都依赖于
transformer
架构,这是2017年论文AttentionIsAllYouNeed中介绍的深度神经网络架构。
这就是编程
·
2024-01-11 10:05
人工智能
语言模型
自然语言处理
端到端自动驾驶
UniAD[CVPR2023]:使用
transformer
架构,统一自动驾驶流程,完成所有检测,跟踪,建图,轨迹预测,占据栅格预测与规划的端到端推理。
yang_daxia
·
2024-01-11 10:07
自动驾驶
人工智能
机器学习
序列模型(3)—— LLM的参数量和计算量
本文说明以下重要结论设模型参数量为NNN,训练数据量(Token)为DDD,LLM训练中计算量(FLOPs)C≈6NDC\approx6NDC≈6ND参考:模型训练计算量到底怎么算分析
transformer
云端FFF
·
2024-01-11 07:38
#
LLM专题
LLM
大语言模型
参数量
计算量
C=6ND
用Bert进行文本分类
BERT(BidirectionalEncoderRepresentationsfrom
Transformer
s)模型是一种基于
Transformer
架构的深度学习模型,主要用于自然语言处理任务。
天一生水water
·
2024-01-11 07:22
bert
分类
人工智能
10、InstructGPT:Training language models to follow instructions with human feedback
它们都是采用了
Transformer
为核心结构,不同的是GPT-1通过自左向右生成式的构建预训练任务,然后得到一个通用的预训
C--G
·
2024-01-11 06:34
#
NLP
语言模型
自然语言处理
人工智能
【
论文阅读
】InstructGPT: Training language models to follow instructions with human feedback
论文链接:InstructGPT关注公众号funNLPer了解更多AI算法文章目录1.摘要2.导论2.1背景2.2方法2.3发现3.方法及实验细节3.1数据集3.2模型3.3实验结果总结1.摘要把语言模型变大并不意味着会让模型更好的理解用户意图,例如大的语言模型会生成一些不真实、有害的、没有帮助的输出给用户,换句话说,这些模型并没有和用户的意图对齐(aligned)。在这篇论文中我们展示了通过使用
orangerfun
·
2024-01-11 06:25
自然语言处理
论文阅读
人工智能
机器学习
ChatGPT
论文阅读
《Generalizing Face Forgery Detection with High-frequency Features》
高频噪声分析会过滤掉图像的颜色内容信息。本文设计了三个模块来充分利用高频特征,1.多尺度高频特征提取模块2.双跨模态注意模块3.残差引导空间注意模块(也在一定程度上体现了两个模态的交互)SRM是用于过滤图像的高频噪声输入的图像X,共两个分支,一部分是用于输入到SRM获得高频特征Xh,一部分是RGB流,RGB的分支同样也会输入到SRM进行提取高频特征,其结果与已经输入SRM中的结果进行相加得到最后的
一只发呆的猪
·
2024-01-11 04:51
论文阅读
毕业论文idea
Swin
Transformer
的模型表现不如MobileViT使用高像素的数据集在云服务器上训练时,如果您发现Swin
Transformer
的模型表现不如MobileViT,这可能由几个因素导致:模型架构与数据匹配度
pythonSuperman
·
2024-01-11 02:10
毕业设计
老板向我请教
Transformer
的原理,我没讲清
这时,老板过来了,就聊,问,谈到
Transformer
结构,结果讲了半天愣是没讲清。赶紧抽点时间整理出来!敲一遍才理解深。个人简介:一个全栈工程师的升级之路!
发狂的小花
·
2024-01-10 23:17
漫谈LLMs带来的AIGC浪潮
transformer
深度学习
人工智能
上一页
19
20
21
22
23
24
25
26
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他