Transformer论文学习第38页

01_stable_diffusion_introduction_CN

pipinstall-Uqdiffusersftfyaccelerate#InstallingtransformersfromsourcefornowsinceweneedthelatestversionforDepth2Img

Mr_yuekitty·2023-11-12 12:45

01_ddim_inversion_CN

pipinstall-qtransformersdiffusersaccelerateimporttorchimportrequestsimporttorch.nnasnnimporttorch.nn.functionalasFfromPILimportImagefromioimportBytesIOfromtqdm.autoimporttqdmfrommatplotlibim

Mr_yuekitty·2023-11-12 12:43

时间序列预测实战(十二)DLinear模型实现滚动长期预测并可视化预测结果

是一种用于时间序列预测（TSF）的简单架构，DLinear的核心思想是将时间序列分解为趋势和剩余序列，并分别使用两个单层线性网络对这两个序列进行建模以进行预测(值得一提的是DLinear的出现是为了挑战Transformer

Snu77·2023-11-12 11:49

时间序列预测实战(十一)用SCINet实现滚动预测功能(附代码+数据集+原理介绍）

SCINet实现时间序列滚动预测功能的讲解，SCINet是样本卷积交换网络的缩写(SampleConvolutionalInterchangeNetwork)，SCINet号称是比现有的卷积模型和基于Transformer

Snu77·2023-11-12 11:19

NL2SQL学习笔记

输出常常是能够在表格上执行的SQL语句基于表格的自动问答，输出是从表格中提取或者生成的答案基于表格的事实核查，输出是二分类标签（表示语言表述是否符合表格事实）相关论文谷歌MATE2023可以处理长表格研究如何将transformer

weixin_47179035·2023-11-12 10:50

ChatGPT已经不知不觉改变了我的生活

文章目录前言GPT技术的广泛应用内容创作智能助手教育和知识分享机遇与挑战机遇挑战总结前言近年来，自然语言处理技术的巨大进步已经催生了一系列GPT（GenerativePre-trainedTransformer

江上清风山间明月·2023-11-12 08:34

GPT2Config

作用：这是用于存储transformers.GPT2Model或transformers.TFGPT2Model的配置的配置类。它用于根据指定的参数实例化GPT-2模型，定义模型架构。

hibernate2333·2023-11-12 07:35

Transforme原理--全局解读

文章目录作用全局解读作用Transformer最初设计用于处理序列数据，特别在NLP(自然语言处理)领域取得了巨大成功全局解读Transformer来源于谷歌的一篇经典论文AttentionisAllyouNeed

快苏排序OAO·2023-11-12 07:40

到底什么是几何深度学习？Twitter 首席科学家Bronstein深度解读

MrBear编辑|青暮前不久，帝国理工学院教授、Twitter首席科学家MichaelBronstein发表了一篇长达160页的论文，试图从对称性和不变性的视角从几何上统一CNNs、GNNs、LSTMs、Transformers

喜欢打酱油的老鸟·2023-11-12 06:27

ProPainter——实现视频消除特定对象、去水印、视频修复

训练自己的数据集github：https://github.com/sczhou/ProPainterpaper：ICCV2023|ProPainter:ImprovingPropagationandTransformerforVideoIn

咚咚锵咚咚锵·2023-11-12 06:48

钟逸0822·2023-11-12 06:17

transformers模型加载与seed随机状态

Transformers的模型加载会改变seed的随机状态这里使用了一个自己写的库进行测试：py-seeds（直接pip就可以安装，目前是0.0.2版本）importpy_seedsfromtransformersimportAutoModeldefstate_str

ziuno·2023-11-12 04:28

Transformers的RoBERTa model怎么使用word level的tokenizer

2022年8月25日更新：昨天改了tokenizer之后以为好了，结果发现还是有问题。具体来说，用后面方法训练的tokenizer，并不能被正确加载为RobertaTokenizerFast，会导致只对输入序列中的逗号进行编码。解决方法是：用类似于tokenizer.save(model_dir+'/wordlevel.json')这种形式将tokenizer保存成一个json文件，然后用Robe

蛐蛐蛐·2023-11-12 04:25

official.nlp.transformer调研

而现在bert和Transformer发展太快，有很多应用在不同应用的预训练模型，所以需要调用别人写好的库。加上框架不同，TensorFlow、keras、pytorch都分别有不同出名的库。

卢容和·2023-11-12 04:54

训练Bert、Robert、ALBert等的巨大坑

如下，我们在使用transformers包的get_linear_schedule_with_warmup()这个学习率预热API时，num_warmup_steps这个参数一定要设置为0，一定要设置为

SCU-JJkinging·2023-11-12 04:24

BERT等语言模型的BertForMaskedLM避的坑

在用transformers中的BertForMaskedLM来预测被mask掉的单词时一定要加特殊字符[CLS]和[SEP][CLS]和[SEP][CLS]和[SEP]。不然效果很差很差！！！

风吹草地现牛羊的马·2023-11-12 04:23

transformers安装避坑

这个我也不知道，你下了就对了，不然后面的transformers无法安装因为是windows到官网选择推荐的下载方式https://www.rust-lang.org/tools/install。

柴神·2023-11-12 04:51

《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》阅读笔记

论文标题《ANIMAGEISWORTH16X16WORDS:TRANSFORMERSFORIMAGERECOGNITIONATSCALE》谷歌论文起名越来越写意了，“一幅图像值16X16个单词”是什么玩意儿

AncilunKiang·2023-11-12 02:37

《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》阅读笔记

论文标题《SwinTransformer:HierarchicalVisionTransformerusingShiftedWindows》Swin这个词貌似来自后面的ShiftedWindowsShiftedWindows

AncilunKiang·2023-11-12 02:04

3分钟探索生成式AI｜分析 Transformer 架构的基本原理

Transformer架构的工作原理是什么？Transformer架构分类和应用场景如何？什么是提示词（Prompt）？关于“生成式AI”你是否存有以上疑惑。

亚马逊云开发者·2023-11-12 01:42

[linux] ‘LlamaTokenizer‘ object has no attribute ‘sp_model‘

解决方案：pipinstalltransformers==4.33.2如果再有ValueError:Non-consecutiveaddedtoken''found.Shouldhaveindex76524buthasindex0insavedvocabulary

心心喵·2023-11-12 01:15

第五十一周周报

学习目标：一、实验二、论文学习时间：2023.8.26-2023.9.1学习产出：实验由于学校网问题，实验暂时还一个没跑完论文完成论文基本撰写，剩下实验部分和需要小修的地方，方法部门由于实验还没做完，傅里叶编码的效果暂时不知

童、一·2023-11-12 01:42

第五十周周报

学习目标：一、补充实验二、编写论文学习时间：2023.8.18-2023.8.25学习产出：一、实验1、由于前面的实验效果没有超过原模型，因此这周又继续实验相对位置编码。

童、一·2023-11-12 01:12

第六十一周周报

学习目标：代码实验论文学习时间：2023.11.4-2023.11.10学习产出：代码1、修改CelebA64数据集的代码，实验暂时没跑完2、添加CB模块，实验暂时没跑完3、修改ViTGAN的CIPSGenerator

童、一·2023-11-12 01:39

基于HF transformers的AI建模和训练实战

我们经常使用scikit-learn对监督学习和无监督学习任务的数据进行建模。我们熟悉面向对象的设计，例如启动类并从类中调用子函数。然而，当我个人使用PyTorch时，我发现与scikit-learn类似但又不一样的设计模式。在线工具推荐：Three.jsAI纹理开发包-YOLO合成数据生成器-GLTF/GLB在线编辑-3D模型格式在线转换-可编程3D场景编辑器1、PyTorch和transfor

新缸中之脑·2023-11-12 00:22

tf::transformPose,tf::Transform,tf::Stamped,tf::Pose用法

以下是tf::transformPose的详细用法：booltf::Transformer::transformPose(conststd::string&target_frame,consttf::Stamped

东风笑西风·2023-11-11 22:34

循环神经网络、注意力机制、Seq2Seq、Transformer与卷积神经网络（打卡2）

一、过拟合和欠拟合接下来，我们将探究模型训练中经常出现的两类典型问题：一类是模型无法得到较低的训练误差，我们将这一现象称作欠拟合（underfitting）；另一类是模型的训练误差远小于它在测试数据集上的误差，我们称该现象为过拟合（overfitting）。在实践中，我们要尽可能同时应对欠拟合和过拟合。虽然有很多因素可能导致这两种拟合问题，在这里我们重点讨论两个因素：模型复杂度和训练数据集大小。正

机器小白猫·2023-11-11 10:12

gpt-3开源吗

GPT-3(GenerativePre-trainedTransformer3)是一个大型的预训练语言模型，由OpenAI开发。它目前并不是开源的，而是作为一项有偿服务提供。

老光私享·2023-11-11 10:36

2022年T2I文本生成图像中文期刊论文速览-1（ECAGAN:基于通道注意力机制的文本生成图像方法+CAE-GAN:基于Transformer交叉注意力的文本生成图像技术）

文本生成图像中文期刊论文速览-1一、ECAGAN:基于通道注意力机制的文本生成图像方法1.1、主要创新1.2、主要框架1.2.1、低分辨率图像生成阶段1.2.2、图像精炼阶段1.3、损失函数1.4、实验二、CAE-GAN:基于Transformer

中杯可乐多加冰·2023-11-11 09:08

时间序列预测(1) — 时间序列预测研究综述

2时间序列预测的应用场景与分类3时间序列数据的特性4时序预测评价指标5基于深度学习的时间序列预测方法5.1卷积神经网络5.2循环神经网络5.3Transformer类模型1什么是时间序列预测?

几度春风里·2023-11-11 09:36

大语言模型-LLM简介

语言模型的发展从开始的统计方法到使用神经网络，再到现在通过使用Transformer架构的模型训练大量数据，理解文本规则和模式，同时随着训练数据和模型的扩大，语言模型的能力提升显著，此时大语言模型出现了

Mark_Aussie·2023-11-11 08:38

一文详解多模态大模型发展及高频因子计算加速GPU算力 | 英伟达显卡被限，华为如何力挽狂澜？

★深度学习、机器学习、多模态大模型、深度神经网络、高频因子计算、GPT-4、预训练语言模型、Transformer、ChatGPT、GenAI、L40S、A100、H100、A800、H800、华为、GPU

高性能服务器·2023-11-11 06:41

基于飞浆NLP的BERT-finetuning新闻文本分类

2.加载模型3.批训练4.准确率1.数据预处理导入所需库importnumpyasnpfrompaddle.ioimportDataLoader,TensorDatasetfrompaddlenlp.transformersimportBertForSequenceClassification

装B且挨揍の·2023-11-11 04:44

BERT和ChatGPT简单对比

OpenAI发布了第一个版本的GPT（GenerativePretrainedTransformer）模型在2018年6月。

chunmiao3032·2023-11-11 04:10

【论文阅读】DALL·E: Zero-Shot Text-to-Image Generation

OpenAI第一代文本生成图片模型paper：https://arxiv.org/abs/2102.12092DALL·E有120亿参数，基于自回归transformer，在2.5亿图片-文本对上训练的

李加号pluuuus·2023-11-10 22:55

facebook OPT试用

pipinstalltransformers其次，试用模型350mfromtransformersimportpipelinegenerator=pipeline('text-generation',model

lanmengyiyu·2023-11-10 16:15

ChatGLM-中英对话大模型-6B试用说明

==1.4.3-fhttps://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.htmlpipinstallprotobuf==3.20.0transformers

lanmengyiyu·2023-11-10 16:15

超全总结！大模型算法面试指南（含答案）

近些年，在大规模语料库上预训练Transformer模型产生了预训练语言模型（PLMs），并在解决各类NLP任务上展现出了强大的能力。有趣的是，当参数规模超过一定水平时，这个更大的语言模

机器学习社区·2023-11-10 15:07

语言大模型推理性能工程：最佳实践

这些指南是MosaicML工程师团队基于FasterTransformers、vLLM以及NVIDIA的TensorRT-LLM等背后的经验总结而来。Mos

OneFlow深度学习框架·2023-11-10 15:55

hugging face transformers模型文件 config文件

模型的组成一般transformer模型有三个部分组成：1.tokennizer，2.Model，3.Postprocessing。如下图所示，图中第二层和第三层是每个部件的输入/输出以及具体的案例。

MyLuckyLife·2023-11-10 13:19

mac安装pytorch，使用transformers

3.9.16condaactivatepytorch_envcondainstallpytorchtorchvisiontorchaudio-cpytorchpipinstallrustpipinstalltokenizerspipinstalltransformers

静听山水·2023-11-10 13:49

Huggingface--Quick tour

pipinstalltransformersdatase

尧景·2023-11-10 12:50

一文搞懂Transformer的边角料知识：位置编码

目录一、为什么需要位置编码二、位置编码分类1.表格型2.函数型三、Transformer的位置编码1.位置编码应有的特点2.Transformer的位置编码公式3.三角函数4.线性相关5.相对位置关系四

小殊小殊·2023-11-10 11:01

【DL】第 7 章：用于音乐生成的Transformers和 MuseGAN

除了视觉艺术和创意写作一样，音乐创作是我们认为人类独有的另一种核心创造力行为。为了让机器创作出悦耳的音乐，它必须克服我们在上一章中看到的与文本相关的许多技术挑战。特别是，我们的模型必须能够学习并重新创建音乐的顺序结构，并且还必须能够从一组离散的可能性中选择后续音符。然而，音乐生成提出了文本生成不需要的额外挑战，即音高和节奏。音乐通常是复调的——也就是说，不同的乐器同时演奏几条音符流，它们结合起来产

Sonhhxg_柒·2023-11-10 08:10

论文学习之对比学习【1】-SimCLR：论文阅读与简单demo测试

对比学习SimCLR：论文阅读与简单demo测试1.论文摘要解读：1.1内容翻译1.2重点提要2.对比学习的主要思想3.SimCLR的主要结构解析3.1数据增强3.2数据编码3.3深度映射模块3.4对比损失函数参考文献资料4.基于Pytorch的简单实现4.1加载相关包4.2设置随机参数4.3Cifar10数据读取4.4数据划分4.5数据datagenerator函数4.6Dataloader4.

cnjs1994·2023-11-10 02:35

GPT与人工智能：技术浪潮与就业前景

近年来，随着人工智能技术的不断发展，各大平台纷纷推出了自己的GPT（GenerativePre-trainedTransformer）模型，如百度的【文心一言】、CSDN的【C知道】等。

王摇摆·2023-11-09 23:38

《GPT与AI助手：技术进步与就业前景》

随着人工智能的迅速发展，像GPT（GenerativePre-trainedTransformer）这样的自然语言处理技术已经广泛应用于各个领域，各个互联网公司也纷纷推出了自己的AI助手来帮助创作、交流和解决问题

YJlio·2023-11-09 23:35

ReadTimeoutError: HTTPSConnectionPool(host=‘cdn-lfs.huggingface.co‘, port=443)

问题最近遇到需要从huggingface下载并导入预训练模型SimCSE，然后进行计算文本相似度，代码如下：fromtransformersimportAutoModel,AutoTokenizerimportosos.environ

肥宅程序员aka不会游泳的鱼·2023-11-09 19:43

解决 SSLError: HTTPSConnectionPool(host=‘huggingface.co‘, port=443)

看我的回答：https://github.com/huggingface/transformers/issues/17611#issuecomment-1794486960能问这个问题的都是网络不太好的

XD742971636·2023-11-09 19:37

大语言模型的关键技术（二）

一、Transformer语言模型存在明显的扩展效应：更大的模型/数据规模和更多的训练计算通常会导致模型能力的提升。

嗯，这是一个好名字·2023-11-09 17:45

推荐频道

Transformer论文学习