transformer论文阅读第12页

huggingface 的trainer训练框架优势

背景HuggingfaceTransformers是基于一个开源基于transformer模型结构提供的预训练语言库，它支持Pytorch，Tensorflow2.0，并且支持两个框架的相互转换。

be_humble·2024-01-31 07:57

白话BERT

白话白话transformer1、attention的计算方法每个词去计算与其他词的关系经过attention之后每个词的向量不再是单单它本身的，还包括其上下文的。

TtingZh·2024-01-31 07:38

白话 Transformer 原理-以 BERT 模型为例

白话Transformer原理-以BERT模型为例第一部分：引入1-向量在数字化时代，数学运算最小单位通常是自然数字，但在AI时代，这个最小单元变成了向量，这是数字化时代计算和智能化时代最重要的差别之一

Jin_Kwok·2024-01-31 07:01

MapReduce 论文阅读笔记 MapReduce 简介

论文：MapReduce:SimplifiedDataProcessingonLargeClustersJeffreyDeanandSanjayGhemawatGooglehttps://pdos.csail.mit.edu/6.824/papers/mapreduce.pdfMapReduce是一种分布式系统中处理大数据方法。他提出是在2004，jeffdean和SanjayGhemawat的作

RzBu11d023r·2024-01-31 04:34

论文阅读-MapReduce

论文名称：MapReduce:SimplifiedDataProcessingonLargeClusters翻译的效果不是很好，有空再看一遍，参照一下别人翻译的。MapReduce:SimplifiedDataProcessingonLargeClusters中文翻译版(转)-阿洒-博客园(cnblogs.com)概要MapReduce是一种处理和生成大数据集的编程模型和相关实现。用户可以指定一个

向来痴_·2024-01-31 04:31

LLM大模型：面试、微调

1、面试题总结【LLM】大模型面试准备-1（题库整理篇）大模型八股答案（一）——基础知识-知乎分析transformer模型的参数量、计算量、中间激活、KVcache-知乎【NLP】GoogleBERT

风路丞·2024-01-31 01:42

特征选择综述论文阅读笔记

一特征选择（featureselection）的简介我们现在正处在大数据的时代，大量的高维数据在各种领域中无处不在，如社交媒体、医疗保健、生物信息学和在线教育。当数据挖掘和机器学习算法应用于高维数据时，一个关键问题被称为维数诅咒：数据在高维空间中变得更加稀疏，对为低维空间设计的算法产生不利影响的现象。用一个例子表示就是如果用one-hot编码来对文章进行编码（即一篇文章为一个正交向量），因

wyn20001128·2024-01-31 01:23

【论文阅读】HiNet Deep Image Hiding by Invertible Network

睡晚不猿序程·2024-01-30 23:37

LLM - Transformer 的 Q/K/V 详解

目录一.引言二.传统Q/K/V三.TransformerQ/K/V-InputQuery-Q/K/V获取-Q/K相似度计算-注意力向量-MultiHead四.代码测试-初始化-Attention-Main

BIT_666·2024-01-30 20:57

【论文阅读】Long-Tailed Recognition via Weight Balancing（CVPR2022）附MaxNorm的代码

目录论文使用方法weightdecayMaxNorm如果使用原来的代码报错的可以看下面这个论文问题：真实世界中普遍存在长尾识别问题，朴素训练产生的模型在更高准确率方面偏向于普通类，导致稀有的类别准确率偏低。key:解决LTR的关键是平衡各方面，包括数据分布、训练损失和学习中的梯度。文章主要讨论了三种方法：L2normalization,weightdecay,andMaxNorm本文提出了一个两阶

鱼小丸·2024-01-30 20:38

论文阅读，Domain Specific ML Prefetcher for Accelerating Graph Analytics（一）

目录一、Article:文献出处（方便再次搜索）（1）作者（2）文献题目（3）文献时间（4）引用二、Data:文献数据（总结归纳，方便理解）（1）背景介绍（2）目的（3）预置知识（4）主要实现手段4.1overview4.2MPGraph的工作流程4.3阶段转换检测器PhaseTransitionDetector4.4多模态访存预测器Phase-SpecificMulti-ModalityPred

好啊啊啊啊·2024-01-30 20:08

ChatGPT发展至今的一些宏观想法！

其底层技术依赖于Transformer网络结构和自然语言处理技术，通过预测下一个词的方式生成对话。与小爱同学这样的预设回答式聊天机器人不同，ChatGPT能自由生成回答

赵闪闪168·2024-01-30 20:07

【论文阅读|半监督小苹果检测方法S3AD】

论文题目：:Semi-supervisedSmallAppleDetectioninOrchardEnvironments项目链接：https://www.inf.uni-hamburg.de/en/inst/ab/cv/people/wilms/mad.html摘要（Abstract）农作物检测是自动估产或水果采摘等精准农业应用不可或缺的一部分。然而，由于缺乏大规模数据集以及图像中农作物的相对尺

Dymc·2024-01-30 18:07

【论文阅读|细胞实例分割算法ASF-YOLO】

论文题目：ASF-YOLO:AnovelYOLOmodelwithattentionalscalesequencefusionforcellinstancesegmentation论文链接：https://arxiv.org/abs/2312.06458代码链接：https://github.com/mkang315/ASF-YOLO摘要（Abstract）作者提出了一种新颖的基于"YouOnly

Dymc·2024-01-30 18:06

2022.5.24

上午除了上课，主要是听一个关于议论文阅读的讲座，讲得很用心。感

河南麦子的书写·2024-01-30 16:02

Swin-Transformer详解

Swin-Transformer详解0.前言1.Swin-Transformer结构简介2.Swin-Transformer结构详解2.1PatchPartition2.2PatchMerging2.3SwinTransformerBlock2.3.1W-MSA2.3.2SW-MSA3

sjx_alo·2024-01-30 15:59

大语言模型的未来进化路径及其影响

从早期基于规则和统计学习的语言模型，到如今基于深度学习框架下的Transformer架构，如GPT系列、BERT等，大语言模型已经在自然语言处理领域取得了前所未有的突破。

TechCreator·2024-01-30 12:49

bert提取词向量比较两文本相似度

使用bert-base-chinese预训练模型做词嵌入（文本转向量）模型下载：bert预训练模型下载-CSDN博客参考文章：使用bert提取词向量下面这段代码是一个传入句子转为词向量的函数fromtransformersimportBertTokenizer

木下瞳·2024-01-30 10:15

为什么是大语言模型？

参考：复旦邱锡鹏：深度剖析ChatGPT类大语言模型的关键技术–我爱自然语言处理(52nlp.cn)随着算力的不断提升，语言模型已经从最初基于概率预测的模型发展到基于Transformer架构的预训练语言模型

wangqiaowq·2024-01-30 10:13

自然语言处理领域论文整理(持续更新)

一、所有看过的论文序号标题+年份作者标签github代码链接内容简述原文链接状态1AttentionIsAllYouNeed（2017年）AshishVaswani∗，NoamShazeer∗模型,transformer

零戚·2024-01-30 09:46

AI大语言模型学习笔记之三：协同深度学习的黑魔法 - GPU与Transformer模型

Transformer模型的崛起标志着人类在自然语言处理（NLP）和其他序列建模任务中取得了显著的突破性进展，而这一成就离不开GPU（图形处理单元）在深度学习中的高效率协同计算和处理。

DATA无界·2024-01-30 09:43

论文阅读[2023ToN]Joint Upload-Download Transmission Scheme for Low-Latency Mobile Live Video Streaming

JointUpload-DownloadTransmissionSchemeforLow-LatencyMobileLiveVideoStreaming会议信息：Publishedin:2023IEEE/ACM31stInternationalSymposiumonQualityofService(IWQoS)1背景移动视频流量和用户需求的快速增长，导致多个视频流客户端共享一个瓶颈链路的可能性增大

woshicaiji12138·2024-01-30 07:25

论文阅读[2023][ICCE]360DIV: 360° Video Plus Depth for Fully Immersive VR Experiences

360DIV:360°VideoPlusDepthforFullyImmersiveVRExperiences会议信息：Publishedin:2023IEEEInternationalConferenceonConsumerElectronics(ICCE)作者：1背景与挑战360°视频不提供运动视差，如图1所示。当观看者移动时，虚拟场景随之而动，这大大降低了体验的质量。在这项工作中，我们处理3

woshicaiji12138·2024-01-30 07:25

【报错】RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling `cublasLtMatmul( ltHandle,

在GPU上运行huggingfacetransformer的时候出现如下报错：RuntimeError:CUDAerror:CUBLAS_STATUS_EXECUTION_FAILEDwhencalling

Reza.·2024-01-30 07:55

论文阅读_跨模态商品搜索FashionBERT

论文地址：https://arxiv.org/pdf/2005.09801v1.pdf《FashionBERT:TextandImageMatchingwithAdaptiveLossforCross-modalRetrieval》是一篇非常新的论文，于2020年5月20提交arxiv，文中在时尚领域使用自适应损失技术，实现了文本与图片的跨模态搜索（用文本搜图片、用图片搜文本）。早期的跨模态搜索常

xieyan0811·2024-01-30 01:05

Phoncent博客GPT写作工具

GPT写作工具是基于GPT（GenerativePre-trainedTransformer）技术开发的一款人工智能写作工具。它通过深度学习和自然语言处

庄泽峰·2024-01-30 00:37

TF-IDF：自动提取关键词

目录：一、TF-IDF基础知识1.TF-IDF2.举例介绍二、TF-IDF调用两个方法1.CountVectorizer2.TfidfTransformer3.别人示例一、TF-IDF基础知识1.TF-IDFTF-IDF

超级圈·2024-01-29 20:29

Transformer模型 | Pytorch实现Transformer模型进行时间序列预测

Transformer模型最初是为了处理自然语言处理任务而设计的，但它也可以用于时间序列预测。

算法如诗·2024-01-29 19:53

基于BERT的文本分类——附-简单的示例代码

**BERT（BidirectionalEncoderRepresentationsfromTransformers）**是一种预训练的自然语言处理模型，由Google于2018年提出。

技术宅学长·2024-01-29 18:54

anaconda虚拟环境添加第三方的库tensorbordX,torchvision,tqdm,opencv-python,pillow,tensorflow,keras

系列文章目录一、conda新建配置python3.8的虚拟环境，安装torch-cuda1.8，torchtext0.9.0，huggingface的transformers库anaconda虚拟环境添加第三方的库系列文章目录前言一

LinlyZhai·2024-01-29 18:00

datawhale 大模型学习第八章-分布式训练

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，传统的单机单卡模式已经无法满足超大模型进行训练的要求。

fan_fan_feng·2024-01-29 18:25

使用Bert报错：Bert输出为字符串

1、解决办法参考：通过CCproxy配置内网linux服务器_ccproxy-CSDN博客按照解决办法1，重新下载transformers，仍然报错2、解决办法在网上查找资料后发现，这和tranformers

wwqily·2024-01-29 16:13

MaskDistill-不需要标注数据的语义分割

本篇分享论文『DiscoveringObjectMaskswithTransformersforUnsupervisedSemanticSegmentation』，苏黎世联邦理工学院&鲁汶大学提出MaskDistill

FightingCV·2024-01-29 15:01

Analysis of Learning from Positive and Unlabeled Data

PUlearning论文阅读。

zealscott·2024-01-29 14:53

Byte Pair Encoding（BPE）算法及代码笔记

BytePairEncoding（BPE）算法BPE算法是Transformer中构建词表的方法，大致分为如下几个步骤：将语料中的文本切分为字符统计高频共现二元组将共现频率最高的二元组合并加入词表重复上述第二和第三直到词表规模达到预先设置的数量

等风来随风飘·2024-01-29 13:50

【YOLOv8改进】骨干网络： SwinTransformer (基于位移窗口的层次化视觉变换器）(论文笔记+引入代码)

文章目录介绍摘要创新点文章链接基本原理HierarchicalFeatureMapsPatchMergingSwinTransformerBlock基于窗口的自注意力移位窗口自注意力核心代码官方代码非官方可用代码

程序员半夏·2024-01-29 13:36

第四十一周：文献阅读+GAN存在的问题和改进

目录摘要Abstract文献阅读：基于Transformer的时间序列生成对抗网络现有问题提出方法相关前提GAN（生成对抗网络）Transformer方法论时间序列处理TTS-GAN（基于Transformer

m0_66015895·2024-01-29 12:00

基于麻雀优化算法SSA的CEEMDAN-Transformer-BiGRU预测模型

分解与可视化1.1导入数据1.2CEEMDAN分解2数据集制作与预处理3麻雀优化算法3.1麻雀优化算法介绍3.2基于Python的麻雀优化算法实现3.3麻雀优化算法-超参数寻优过程4基于CEEMADN的SSA-Transformer-BiGRU

建模先锋·2024-01-29 12:02

jxls的poi版本冲突

0、工作上框架引入的poi版本是5.X,而jxls支持的poi版本是4.1.2，在idea中排除jxls的poi过后能正常导出excel，但是部署到测试环境就会报错：CannotloadXLStransformer.PleasemakesureaTransformerimplementationisinclasspath1

Ayu大象·2024-01-29 11:44

京东广告算法架构体系建设高性能计算方案最佳实践

但随着广告模型效果优化进入深水区，基于Transformer用户行为序列和Attention的建模逐渐成为主流，这个阶段模型的特点是参数的体量、网络结构复杂度呈指数级增长，算法建模的创新工作往往由于吞吐和耗时的性能算力问题

京东零售技术·2024-01-29 10:25

【论文阅读】Vlogger: Make Your Dream A Vlog

Vlogger：把你的梦想变成Vlogpaper：https://arxiv.org/abs/2401.09414code：https://github.com/zhuangshaobin/vlogger看起来挺有意思的，有空读一下本文提出Vlogger，一种用于生成用户描述的分钟级视频博客(即vlog)的通用人工智能系统。与几秒钟的短视频不同，vlog通常包含复杂的故事情节和多样化的场景，这对大

李加号pluuuus·2024-01-29 09:35

【论文阅读】Membership Inference Attacks Against Machine Learning Models

基于confidencevector的MIAMachineLearningasaService简单介绍什么是MembershipInferenceAttacks（MIA）攻击实现过程DatasetShadowtrainingTrainattackmodelMachineLearningasaService简单介绍机器学习即服务（MachineLearningasaService，MLaaS），即将

PleaseBrave·2024-01-29 09:04

论文精读--BERT

AbstractWeintroduceanewlanguagerepresentationmodelcalledBERT,whichstandsforBidirectionalEncoderRepresentationsfromTransformers.Unlikere

__如果·2024-01-29 09:43

MMDetection

任务支持目标检测实例分割覆盖广泛440+个预训练模型60+篇论文复现常用学术数据集算法丰富两阶段检测器一阶段检测器级联检测器无锚框检测器Transformer使用方便训练工具测试工具推理APIMMDetection

pythonSuperman·2024-01-29 09:27

bert预训练模型下载

查看bert模型所支持的预训练模型有哪些fromtransformersimportBERT_PRETRAINED_MODEL_ARCHIVE_LISTprint(BERT_PRETRAINED_MODEL_ARCHIVE_LIST

木下瞳·2024-01-29 08:13

2024年1月19日Arxiv最热CV论文：RAP-SAM: Towards Real-Time All-Purpose Segment Anything

引言：探索实时全能分割的新篇章在计算机视觉领域，基于Transformer架构的视觉基础模型（VisionFoundationModels，VFMs）取得了显著的进展，不仅在性能上有所提升，而且在泛

夕小瑶·2024-01-29 08:12

一文读懂BERT（原理篇）

一文读懂BERT（原理篇）2018年的10月11日，Google发布的论文《Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding

AiA_AiA·2024-01-29 08:40

最通俗易懂的BERT原理与代码实现

2018年，Google在《BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding》

Joe量化·2024-01-29 08:40

BERT论文翻译

一、写在前面在Transformer和BERT大行其道的时代，搞懂这两种基础模型结构很有必要，在网上没有搜索到满意的论文翻译结果，最近刚好有时间，把BERT的论文在个人英语水平基础上最大程度的保留原作者的本意翻译一遍

TheHonestBob·2024-01-29 08:37

bert实现完形填空简单案例

bert预训练模型下载-CSDN博客通过这个案例来了解一下怎么使用预训练模型来完成下游任务，算是对怎么使用bert的流程有一个初步的了解，代码都写注释了，直接看代码注释就好：importtorchfromtransformersimportBertTokenizer

木下瞳·2024-01-29 08:06

推荐频道

transformer论文阅读