王清贤

cvpr 注意力机制_今日论文|Transformer++刷新翻译SOTA&跨越语言鸿沟的视觉共享嵌入&高度驱动注意力网络&多语言问答数据集&MORE...

今日人工智能领域新增论文 224篇，AI日读精选其中 36篇推荐给大家。这些论文主要来自CVPR，AAAI，ECAI，AISTATS，ESWC，WAAS，JMLR等会议与期刊。其中包含计算机视觉论文17篇[1-17]，自然语言处理论文5篇[18-22]，方法论论文3篇[27-29]，知识图谱论文4篇[31-34]，推荐系统论文2篇[35-36]。
首先来看计算机视觉论文：
- 在临床显微镜中处理 十亿像素完整幻灯片图像(WSI)的困难一直是实施计算机辅助诊断系统的长期障碍。由于现代计算资源无法以如此巨大的规模执行计算，因此当前的最佳技术方案是利用基于补丁的处理来保持WSI分辨率。但是，这些方法通常占用大量资源，且在处理时间上造成很大折衷。[6]证明传统的基于补丁的处理对于某些WSI分类任务是多余的， 在WSI分类任务中， 仅在少数情况下才需要高分辨率。这反映了在临床实践中观察到的情况：病理学家可以使用低分辨率物镜来筛选幻灯片，并且只有在不确定其发现时才切换到高分辨率。为消除这些冗余，研究者基于对缩减的WSI的预测置信度，提出一种选择性使用高分辨率处理的方法，称之为 选择性目标切换(Selective Objective Switch，SOS)法。该方法在常规用于自身免疫性肝病研究的684个肝脏-肾脏-胃免疫荧光WSI的新数据集上得到验证。通过将高分辨率处理限制为无法在低分辨率下可靠分类的案例，可以保持补丁程序级别分析的准确性，同时将推理时间减少7.74倍。
- [2]利用城市场景图像的内在特征，提出一个通用的附加模块，称为 高度驱动注意力网络(Height-Driven Attention Networks，HANet)，用于改善城市场景图像的语义分割。其 根据像素垂直位置选择性强调信息化特征或类别。在城市场景图中，在水平分割的部分之间，逐像素类别分布明显不同。同样，城市场景图像具有其自身独特的特征，但大多数语义分割网络并未反映出体系结构中的此类独特属性。所提网络架构结合了利用属性来有效处理城市场景数据集的能力。当采用HANet时，研究者验证了在两个数据集上各种语义细分模型的一致性能(mIoU)增加。这种广泛的定量分析表明，将所提模块添加到现有模型中既容易又具有成本效益。在基于ResNet101的细分模型中，所提方法在Cityscapes基准上实现了当前最佳性能。此外，研究者通过可视化和解释注意力图来表明所提模型与在城市场景中观察到的事实是一致的。
- 最近的研究表明，在部分遮挡的情况下，深度卷积神经网络(DCNN)的泛化性都不够高。受合成模型在分类部分遮挡目标任务上成功应用的启发，[3]提出将合成模型和DCNN 集成到一个 统一合成卷积神经网络模型中，使其在部分遮挡的情况下，也能具有良好的泛化性。其主要思想是 将传统DCNN顶部全连接分类层替换为一个可微合成模型，而合成模型的生成性质使它能够定位遮挡物，并随后专注于对象的非遮挡部分。文章在MS-COCO数据集中的人工遮挡图像以及部分遮挡物体图像上进行了实验，实验结果表明，即使是使用增强过的部分遮挡数据进行训练，DCNN也无法对遮挡的对象进行稳健的分类。文章提出的模型在对部分被遮挡的物体进行分类时，即使在训练过程中没有“看见”被遮挡的物体，其结果在很大程度上也优于标准DCNN的结果。
- 地球上有成千上万种能说的语言，但只有一个视觉世界。扎根于这个视觉世界有可能弥合所有这些语言之间的鸿沟。[5]目标是 使用视觉基础来改善语言之间无监督的单词映射。关键思想是通过学习以母语描述的未配对教学视频中的嵌入内容，在两种语言之间建立通用视觉表示。鉴于这种 共享嵌入，研究者证明1)可以在语言之间映射单词，尤其是“视觉”单词；2)共享嵌入为现有的无监督基于文本的单词翻译技术提供了良好的初始化方法，从而为所提的混合可视文本映射算法MUVE奠定基础；3)所提方法通过解决基于文本方法的缺点而获得卓越的性能，该方法更健壮、以较少的通用性处理数据集、适用于资源贫乏的语言。研究者采用所提方法将单词从英语翻译为法语、韩语和日语而无需任何平行语料库，只需观看许多人在做事时讲话的视频即可。
- 大多数现有的 目标检测方法都依赖于每个类别所提供的大量标注样本和离线批处理训练。这些要求将这些模型的可扩展性限制为只能训练有限标注样本的新类。为了解决这个问题，[4]提出了一个 增量小样本检测(Incremental Few-Shot Detection)方法。具体来说，文章提出了一个基于增量学习的 ONCE检测器，用来检测带有少数样本的新目标类。ONCE完全遵从增量学习的范式，新类只需在少量训练样本的情况下进行一次前向过程，而不需要访问基本的目标类，这使得ONCE适合在嵌入式设备上进行部署。文章在标准目标检测和服装关键点检测任务上进行了大量的实验，并证明了其提出方法的有效性。
- 视频具有丰富的动态结构，并且其在日常生活中十分普遍，因此一个自然而然的想法是将视频数据作为强大的无监督学习信号，用来训练深度神经网络中的视觉表示。然而想大规模的实现此想法仍然是当前视觉领域的一个重大挑战。在[1]中，文章提出了一个 视频实例化嵌入(VIE)框架，该框架将用于学习深度 非线性嵌入的无监督损失函数扩展到了大型视频数据集上的多流时间处理架构中。文章表明，通过VIE训练的神经网络在从视频数据流进行无监督学习方面显著优于现有模型，其既可以用于Kinetics数据集中的动作识别，也可以用于ImageNet数据集中的对象识别。自然语言处理方面：
- 注意力机制的最新进展已取代递归神经网络及其在机器翻译任务中的变体。使用注意力机制的Transformer在序列建模中获得当前最佳结果。基于注意力机制的神经机器翻译可并行，且比循环神经网络更有效解决了句中单词间的长程依赖问题。注意力机制的核心概念之一是 学习Query，Key，Value这三个矩阵，通过这些矩阵线性投影词嵌入来学习单词之间的全局依赖。进一步，多个Query，Key，Value矩阵可以同时学习以聚焦于嵌入维度的不同子空间，这就是Transformer中的多头注意力机制。[19]认为， 单词之间的某些依赖可以通过中间上下文来习得，效果比直接建模单词到单词的依赖更好。这中现象可能取决于某些依赖项的性质，或是模式的缺失导致，这些模式使模型很难使用多头自注意机制进行全局建模。在这项工作中，研究者提出一种使用卷积在多头环境中学习依赖关系的新方法。与Transformer相比，这种新多头注意力形式及传统形式在WMT 2014的英语到德语和英语到法语翻译任务上取得了更好的效果。研究者还引入了一个框架，用于在编码器训练期间学习正类标记和负类信息，以进一步提高识别结果，从而在WMT 2014英德翻译任务上使BLEU值达到32.1，比现有基准1.4BLEU更好；在英法翻译任务上，BLEU则为44.6，比现有最佳方法高出1.1BLEU。研究者称所提方法为 Transformer ++。
- 序列到序列模型试图捕获输入序列和输出序列中所有单词间的相关性。虽然这对于单词间相关性确实很强的机器翻译任务非常有用，但对于其中相关性通常处于抽象级别的会话建模而言则存在问题。人类倾向于专注对话上下文中讨论的基本概念，并产生相应的响应。基于此，[20]试图通过在 无监督情况下 学习上下文和响应中的基本概念来模仿这种 响应生成机制。所提模型称为 Mask&Focus，将输入上下文映射到一系列概念，然后将这些概念用于生成响应概念。接着，上下文和响应概念共同生成最终响应。为自动从训练数据中学习上下文概念，研究者在输入中遮住一些单词，并观察遮罩对响应生成的影响。研究者训练模型来学习那些与上下文概念具有较高相互信息的响应概念，从而指导模型将注意力集中在上下文概念上。Mask&Focus在几个已建立的对话度量标准中，相对于现有基准有显著改进。
- 越来越多文献声称深度神经网络在处理恶意创建的对抗样本时是非常脆弱的。但是，目前尚不清楚这些模型在现实情况下(通常存在“自然而非恶意”的对抗样本)如何运行。[18]探讨 BERT在 处理无意间发生的嘈杂数据(尤其是键盘输入错误)方面的 鲁棒性。在 情感分析和问答基准上的大量实验表明：1)句中各单词的错别字不会产生同等影响，信息丰富的错别字会造成更大损失；2)与插入、删除等操作相比，类型错误是造成破坏最大的因素；3)人机在识别对抗攻击方面有不同侧重点。
除此之外，本期还有如下看点：
- 多语言建模方面若要取得进展，需要具有挑战性和可信赖的评估方式。[23]提出 TyDi QA，一个 涵盖204种问答对、11种类型的多语言问答数据集。TyDi QA的语言在类型(即每种语言所表达的语言特征集)方面多种多样，因此，研究者希望在该语言集上表现良好的模型能够很好地在全球众多语言上推广。这项工作提供了对数据质量的定量分析，以及仅在英语语料库中找不到的观察到的语言现象的示例级别定性语言分析。为提供切合实际的信息搜索任务并避免启动效应(priming effects)，问题由想知道答案但还不知道答案的人编写，并直接使用每种语言收集数据，而无需使用翻译。
最后，本期还包含2个新构造的数据集[23-24]，2个新提出的任务[25-26]，1篇综述[30]，以及其他技术。

计算机视觉

Computer Vision

[1]

Unsupervised Learning from Video with Deep Neural Embeddings

Chengxu Zhuang, Tianwei She, Alex Andonian, Max Sobol Mark, Daniel Yamins

摘要：

原文：http://arxiv.org/pdf/1905.11954v2

资源：https://github.com/neuroailab/VIE

[2]

Cars Can't Fly up in the Sky: Improving Urban-Scene Segmentation via Height-driven Attention Networks

Sungha Choi, Joanne T. Kim, Jaegul Choo

摘要：

原文：http://arxiv.org/pdf/2003.05128v1

资源：github.com/shachoi/HANet

[3]

Compositional Convolutional Neural Networks: A Deep Architecture with Innate Robustness to Partial Occlusion

Adam Kortylewski, Ju He, Qing Liu, Alan Yuille

摘要：

原文：http://arxiv.org/pdf/2003.04490v1

[4]

Incremental Few-Shot Object Detection

Juan-Manuel Perez-Rua, Xiatian Zhu, Timothy Hospedales, Tao Xiang

摘要：

原文：http://arxiv.org/pdf/2003.04668v1

[5]

Visual Grounding in Video for Unsupervised Word Translation

Gunnar A. Sigurdsson, Jean-Baptiste Alayrac, Aida Nematzadeh, Lucas Smaira, Mateusz Malinowski, João Carreira, Phil Blunsom, Andrew Zisserman

摘要：

原文：http://arxiv.org/pdf/2003.05078v1

资源：github.com/facebookresearch/

[6]

SOS: Selective Objective Switch for Rapid Immunofluorescence Whole Slide Image Classification

Sam Maksoud, Kun Zhao, Peter Hobson, Anthony Jennings, Brian Lovell

摘要：

原文：http://arxiv.org/pdf/2003.05080v1

资源：github.com/cradleai/LKS-Dataset

[7]

Learning Video Object Segmentation from Unlabeled Videos

Xiankai Lu, Wenguan Wang, Jianbing Shen, Yu-Wing Tai, David Crandall, Steven C. H. Hoi

摘要：

原文：http://arxiv.org/pdf/2003.05020v1

资源：https://github.com/carrierlxk/MuG

[8]

Cloth in the Wind: A Case Study of Physical Measurement through Simulation

Tom F. H. Runia, Kirill Gavrilyuk, Cees G. M. Snoek, Arnold W. M. Smeulders

摘要：

原文：http://arxiv.org/pdf/2003.05065v1

资源：tomrunia.github.io/projects/cloth/Table

[9]

Equalization Loss for Long-Tailed Object Recognition

Jingru Tan, Changbao Wang, Buyu Li, Quanquan Li, Wanli Ouyang, Changqing Yin, Junjie Yan

摘要：

原文：http://arxiv.org/pdf/2003.05176v1

资源：github.com/richardaecn/, github.com/tztztztztz/eql.detectron2, github.com/zhmiao/

[10]

LC-GAN: Image-to-image Translation Based on Generative Adversarial Network for Endoscopic Images

Shan Lin, Fangbo Qin, Yangming Li, Randall A. Bly, Kris S. Moe, Blake Hannaford

摘要：

原文：http://arxiv.org/pdf/2003.04949v1

[11]

AP-MTL: Attention Pruned Multi-task Learning Model for Real-time Instrument Detection and Segmentation in Robot-assisted Surgery

Mobarakol Islam, Vibashan VS, Hongliang Ren

摘要：

原文：http://arxiv.org/pdf/2003.04769v1

[12]

Channel Interaction Networks for Fine-Grained Image Categorization

Yu Gao, Xintong Han, Xun Wang, Weilin Huang, Matthew R. Scott

摘要：

原文：http://arxiv.org/pdf/2003.05235v1

[13]

ENSEI: Efficient Secure Inference via Frequency-Domain Homomorphic Convolution for Privacy-Preserving Visual Recognition

Song Bian, Tianchen Wang, Masayuki Hiromoto, Yiyu Shi, Takashi Sato

摘要：

原文：http://arxiv.org/pdf/2003.05328v1

[14]

PBRnet: Pyramidal Bounding Box Refinement to Improve Object Localization Accuracy

Li Xiao, Yufan Luo, Chunlong Luo, Lianhe Zhao, Quanshui Fu, Guoqing Yang, Anpeng Huang, Yi Zhao

摘要：

原文：http://arxiv.org/pdf/2003.04541v1

资源：https://github.com/open-mmlab/mmdetectionAbbreviated

[15]

Off-Road Drivable Area Extraction Using 3D LiDAR Data

Biao Gao, Anran Xu, Yancheng Pan, Xijun Zhao, Wen Yao, Huijing Zhao

摘要：

原文：http://arxiv.org/pdf/2003.04780v1

[16]

Video2Commonsense: Generating Commonsense Descriptions to Enrich Video Captioning

Zhiyuan Fang, Tejas Gokhale, Pratyay Banerjee, Chitta Baral, Yezhou Yang

摘要：

原文：http://arxiv.org/pdf/2003.05162v1

资源：https://github.com/bjascob/LemmInflect22

[17]

Unpaired Image-to-Image Translation using Adversarial Consistency Loss

Yihao Zhao, Ruihai Wu, Hao Dong

摘要：

原文：http://arxiv.org/pdf/2003.04858v1

自然语言处理

Natural Language Processing

[18]

Adv-BERT: BERT is not robust on misspellings! Generating nature adversarial samples on BERT

Lichao Sun, Kazuma Hashimoto, Wenpeng Yin, Akari Asai, Jia Li, Philip Yu, Caiming Xiong

摘要：

原文：http://arxiv.org/pdf/2003.04985v1

[19]

Transformer++

Prakhar Thapak, Prodip Hore

摘要：

原文：http://arxiv.org/pdf/2003.04974v1

[20]

Mask & Focus: Conversation Modelling by Learning Concepts

Gaurav Pandey, Dinesh Raghu, Sachindra Joshi

摘要：

原文：http://arxiv.org/pdf/2003.04976v1

[21]

SAFE: Similarity-Aware Multi-Modal Fake News Detection

Xinyi Zhou, Jindi Wu, Reza Zafarani

摘要：

原文：http://arxiv.org/pdf/2003.04981v1

资源：https://github.com/KaiDMML/FakeNewsNet, https://github.com/tensorflow/models/tree/master/research/slim#, https://github.com/nikhilmaram/Show_and_Tell6

[22]

Understanding the Downstream Instability of Word Embeddings

Megan Leszczynski, Avner May, Jian Zhang, Sen Wu, Christopher R. Aberger, Christopher Ré

摘要：

原文：http://arxiv.org/pdf/2003.04983v1

资源：github.com/thunlp/OpenKE/tree/OpenKE-PyTorch, github.com/zalandoresearch/flairUnderstandingtheDownstreamInstabilityofWordEmbeddings, github.com/harvardnlp/sent-conv-torch/tree/master/data, github.com/HazyResearch/smallfryUnderstandingtheDownstreamInstabilityofWordEmbeddings, github.com/stanfordnlp/GloVeUnderstandingtheDownstreamInstabilityofWordEmbeddings, github.com/allenai/allennlp, github.com/facebookresearch/, https://github.com/HazyResearch/anchor-stability, github.com/tmikolov/word2vec, github.com/HazyResearch/anchor-stability/blob/master/README.mdﬁlefordetailed

数据集

Dataset

[23]

TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages

Jonathan H. Clark, Eunsol Choi, Michael Collins, Dan Garrette, Tom Kwiatkowski, Vitaly Nikolaev, Jennimaria Palomaki

摘要：

原文：http://arxiv.org/pdf/2003.05002v1

资源：24github.com/google-research/bert, 3github.com/google-research-datasets/tydiqa

[24]

PANDA: A Gigapixel-level Human-centric Video Dataset

Xueyang Wang, Xiya Zhang, Yinheng Zhu, Yuchen Guo, Xiaoyun Yuan, Liuyu Xiang, Zerun Wang, Guiguang Ding, David J Brady, Qionghai Dai, Lu Fang

摘要：

原文：http://arxiv.org/pdf/2003.04852v1

任务与挑战

Task & Challenge

[25]

The MineRL Competition on Sample-Efficient Reinforcement Learning Using Human Priors: A Retrospective

Stephanie Milani, Nicholay Topin, Brandon Houghton, William H. Guss, Sharada P. Mohanty, Oriol Vinyals, Noboru Sean Kuno

摘要：

原文：http://arxiv.org/pdf/2003.05012v1

资源：https://github.com/minerllabs/competition_submission_starter_template, https://github.com/AIcrowd/repo2docker, https://github.com/minerllabs/baselines

[26]

A Benchmark for Systematic Generalization in Grounded Language Understanding

Laura Ruis, Jacob Andreas, Marco Baroni, Diane Bouchacourt, Brenden M. Lake

摘要：

原文：http://arxiv.org/pdf/2003.05161v1

资源：github.com/LauraRuis/groundedSCAN, github.com/LauraRuis/multimodal_seq2seq_gSCAN

方法论

Methodology

[27]

FuDGE: Functional Differential Graph Estimation with fully and discretely observed curves

Boxin Zhao, Y. Samuel Wang, Mladen Kolar

摘要：

原文：http://arxiv.org/pdf/2003.05402v1

资源：https://github.com/boxinz17/FuDGE

[28]

Trusted Confidence Bounds for Learning Enabled Cyber-Physical Systems

Dimitrios Boursinos, Xenofon Koutsoukos

摘要：

原文：http://arxiv.org/pdf/2003.05107v1

[29]

Auditing ML Models for Individual Bias and Unfairness

Songkai Xue, Mikhail Yurochkin, Yuekai Sun

摘要：

原文：http://arxiv.org/pdf/2003.05048v1

综述

Survey

[30]

Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey

Sanmit Narvekar, Bei Peng, Matteo Leonetti, Jivko Sinapov, Matthew E. Taylor, Peter Stone

摘要：

原文：http://arxiv.org/pdf/2003.04960v1

知识图谱

Knowledge Graph

[31]

Dividing the Ontology Alignment Task with Semantic Embeddings and Logic-based Modules

Ernesto Jiménez-Ruiz, Asan Agibetov, Jiaoyan Chen, Matthias Samwald, Valerie Cross

摘要：

原文：http://arxiv.org/pdf/2003.05370v1

资源：https://github.com/facebookresearch/StarSpace, https://github.com/ernestojimenezruiz/logmap-matcher, https://github.com/plumdeq/neuro-onto-part

[32]

Entity Extraction from Wikipedia List Pages

Nicolas Heist, Heiko Paulheim

摘要：

原文：http://arxiv.org/pdf/2003.05146v1

资源：https://github.com/5j9/wikitextparserEntity

[33]

Compacting Frequent Star Patterns in RDF Graphs

Farah Karim, Maria-Esther Vidal, Sören Auer

摘要：

原文：http://arxiv.org/pdf/2003.05238v1

资源：https://github.com/SDM-TIB/Graph-Factorization

[34]

Crop Knowledge Discovery Based on Agricultural Big Data Integration

Vuong M. Ngo, M-Tahar Kechadi

摘要：

原文：http://arxiv.org/pdf/2003.05043v1

推荐系统

Recommendation System

[35]

Uncovering the Data-Related Limits of Human Reasoning Research: An Analysis based on Recommender Systems

Nicolas Riesterer, Daniel Brand, Marco Ragni

摘要：

原文：http://arxiv.org/pdf/2003.05196v1

资源：github.com/CognitiveComputationLab/ccobra

[36]

Learning Diverse Fashion Collocation by Neural Graph Filtering

Xin Liu, Yongbin Sun, Ziwei Liu, Dahua Lin

摘要：

原文：http://arxiv.org/pdf/2003.04888v1

方便重温，点个在看~

LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
Transformer、BERT等模型原理与应用案例程序猿全栈の董（董翔）人工智能热门技术领域 transformer bert 深度学习
Transformer、BERT等模型原理与应用案例Transformer模型原理Transformer是一种基于注意力机制的深度学习模型架构，由Vaswani等人在2017年的论文"AttentionIsAllYouNeed"中提出。与传统的循环神经网络(RNN)和卷积神经网络(CNN)不同，Transformer完全依赖自注意力机制来处理输入序列的全局依赖关系。核心组件多头自注意力机制(Mul
注意力机制和小潘一起学AI 深度学习人工智能
第一种注意力机制#注意力机制importtorchimporttorch.nnasnnimporttorch.nn.functionalasFclassAttn(nn.Module):def__init__(self,query_size,key_size,value_size1,value_size2,output_size):"""初始化函数中的参数有5个query_size代表query的最
时尚搭配助手，深度解析用Keras构建智能穿搭推荐系统忆愿高质量领域文章 keras 人工智能深度学习机器学习 python
文章目录引言：当算法遇见时尚第一章数据工程：时尚系统的基石1.1数据获取的多元化途径1.2数据预处理全流程1.2.1图像标准化与增强1.2.2多模态数据处理第二章模型架构设计：从分类到推荐2.1基础CNN模型（图像分类）2.2多任务学习模型（属性联合预测）第三章推荐算法核心3.1协同过滤与内容推荐的融合第四章系统优化4.1注意力机制应用第五章实战演练5.2实时推荐API实现第六章前沿探索：时尚AI
用Keras构建爱情模型：破解情侣间的情感密码忆愿高质量领域文章 keras 人工智能深度学习 python 机器学习自然语言处理神经网络
文章目录一、给情话穿上数字马甲1.1中文分词那些坑1.2停用词过滤玄学二、给神经网络装个情感温度计2.1记忆增强套餐2.2注意力机制实战三、给模型喂点狗粮数据3.1数据增强七十二变3.2标注的艺术四、调参比哄对象还难4.1超参数扫雷指南4.2可视化调参黑科技五、实战演练之保命指南5.1部署成求生APP5.2案例分析库六、当AI遇见现实：模型局限与伦理困境6.1隐私雷区七、从玩具模型到生产系统7.1
Gemini vs DeepSeek：Transformer 架构下的技术路线差异与企业级选择 charles666666 transformer 架构深度学习语言模型产品经理人工智能
一、引言：从商业价值切入Gemini和DeepSeek都基于Transformer架构，但在技术路线和应用场景上各有侧重。本文将解密同源Transformer下的技术分野，帮助企业做出更明智的大模型选型决策。二、Transformer核心机制精要Transformer架构是现代大语言模型的基础，其核心机制包括自注意力机制和前馈神经网络。自注意力机制使模型能够捕捉序列中元素的全局依赖关系，但也是GP
计算机视觉：Transformer的轻量化与加速策略 xcLeigh 计算机视觉CV 计算机视觉 transformer 人工智能 AI 策略
计算机视觉：Transformer的轻量化与加速策略一、前言二、Transformer基础概念回顾2.1Transformer架构概述2.2自注意力机制原理三、Transformer轻量化策略3.1模型结构优化3.1.1减少层数和头数3.1.2优化Patch大小3.2参数共享与剪枝3.2.1参数共享3.2.2剪枝3.3知识蒸馏四、Transformer加速策略4.1模型量化4.2.2TPU加速4.
PagedAttention和Continuous Batching 流浪大人大模型深度学习人工智能机器学习
PagedAttention是什么PagedAttention是一种用于优化Transformer架构中注意力机制的技术，主要用于提高大语言模型在推理阶段的效率，特别是在处理长序列数据时能有效减少内存碎片和提高内存利用率。它借鉴了操作系统中虚拟内存分页机制的思想。工作原理传统注意力机制的局限性：传统的注意力机制在处理长序列时，需要为每个位置计算注意力得分并存储中间结果，这会导致内存占用随着序列长度
YOLOv11模型轻量化挑战的技术黑客飓风 YOLO 目标跟踪人工智能
YOLOv11模型轻量化挑战的技术文章大纲背景与意义YOLOv11在目标检测领域的地位与优势轻量化需求的实际应用场景（移动端、嵌入式设备等）轻量化面临的挑战：精度与速度的权衡YOLOv11模型结构分析整体架构设计特点（如主干网络、特征融合模块等）参数量与计算量分布的关键瓶颈现有轻量化改进的局限性轻量化技术路线网络结构优化深度可分离卷积替代传统卷积注意力机制的高效嵌入设计冗余模块的剪枝与删除量化与压
Python实现基于POA-CNN-LSTM-Attention鹈鹕优化算法（POA）优化卷积长短期记忆神经网络融合注意力机制进行多变量回归预测的详细项目实例 nantangyuxi Python 算法神经网络 python 人工智能深度学习目标检测机器学习
目录Python实她基她POA-CNN-LSTM-Attentikon鹈鹕优化算法（POA）优化卷积长短期记忆神经网络融合注意力机制进行她变量回归预测她详细项目实例...1项目背景介绍...1项目目标她意义...1提升她变量回归预测精度...2优化模型训练效率...2python复制ikmpoxtos#操作系统接口，用她环境管理和文件操作ikmpoxtqaxnikngs#警告管理模块，控制运行时警
Python训练打卡Day46 编程有点难 Python学习笔记 python 开发语言
通道注意力(SE注意力)知识点回顾：不同CNN层的特征图：不同通道的特征图什么是注意力：注意力家族，类似于动物园，都是不同的模块，好不好试了才知道。通道注意力：模型的定义和插入的位置通道注意力后的特征图和热力图注意力机制：一种让模型学会「选择性关注重要信息」的特征提取器，就像人类视觉会自动忽略背景，聚焦于图片中的主体（如猫、汽车）。transformer中的叫做自注意力机制，他是一种自己学习自己的
Tansformer的Multi-Head Attention组件数字化与智能化大模型基础 Transformer框架 transformer 多头注意力机制
一、Transformer的注意力机制Transformer的注意力机制是对传统序列建模方法的颠覆性创新。它通过全局并行的关联计算解决了RNN的效率与长距离依赖瓶颈，通过动态权重和多头设计增强了模型对复杂信息的捕捉能力，最终成为现代人工智能的核心技术基石。其意义不仅在于提升了模型性能，更在于提供了一种“计算关联”的通用思路，推动了人工智能向更高效、更通用的方向发展。在Transformer之前，循
Transformer模型架构深度讲解
Transformer是一种在自然语言处理（NLP）和深度学习中非常重要的模型架构。它首次由Vaswani等人于2017年提出，主要应用于序列到序列的任务（如机器翻译、文本生成、摘要生成等）。Transformer模型与传统的RNN（循环神经网络）和LSTM（长短时记忆网络）不同，它不依赖于时间步的顺序处理，而是完全基于“注意力机制”进行计算，这使得它在训练速度、并行化能力和长期依赖问题的处理上具
AI人工智能浪潮中，GPT的技术优势凸显 AI学长带你学AI 人工智能 gpt ai
AI人工智能浪潮中，GPT的技术优势凸显关键词：人工智能、GPT、自然语言处理、深度学习、Transformer、大语言模型、技术优势摘要：本文深入探讨了在人工智能浪潮中GPT(GenerativePre-trainedTransformer)系列模型的技术优势。我们将从GPT的核心架构出发，分析其独特的技术特点，包括自注意力机制、预训练-微调范式、零样本学习能力等。通过与传统NLP方法的对比，揭
PyTorch深度学习优化实战：从理论到实践的现代化技能指南智算菩萨深度学习 pytorch 人工智能
引言：现代PyTorch开发的核心思维在深度学习技术日新月异的今天，掌握PyTorch不仅仅意味着能够搭建和训练神经网络，更重要的是理解如何高效地利用现代硬件资源、优化模型性能并构建可扩展的AI系统。随着PyTorch2.x系列的成熟，特别是最新2.7版本的发布，框架为开发者提供了前所未有的优化工具和性能潜力。本文将深入探讨现代PyTorch开发中的核心优化技能，从编译器优化到注意力机制革新，从内
PyTorch 2.7深度技术解析：新一代深度学习框架的革命性演进智算菩萨深度学习 pytorch 人工智能
引言：站在AI基础设施变革的历史节点在2025年这个充满变革的年份，PyTorch团队于4月23日正式发布了2.7.0版本，随后在6月4日推出了2.7.1补丁版本，标志着这个深度学习领域最具影响力的框架再次迎来了重大突破。这不仅仅是一次常规的版本更新，而是一次面向未来计算架构和AI应用场景的全面重构。从底层硬件支持到上层API设计，从编译器优化到注意力机制革新，PyTorch2.7展现出了前所未有
【零基础学AI】第27讲：注意力机制（Attention） - 机器翻译实战 1989 0基础学AI 人工智能机器翻译自然语言处理 python tensorflow 机器学习神经网络
本节课你将学到理解注意力机制的核心思想掌握注意力计算的数学原理实现基于注意力机制的Seq2Seq模型构建英语到法语的神经翻译系统开始之前环境要求Python3.8+需要安装的包：tensorflow==2.8.0numpy==1.21.0matplotlib==3.4.0pandas==1.3.0前置知识RNN/LSTM原理（第26讲）序列数据处理（第26讲）自然语言处理基础（第14讲）核心概念为
Python 训练营打卡 Day 46 2401_86382089 Python打卡 python
通道注意力一、什么是注意力注意力机制是一种让模型学会「选择性关注重要信息」的特征提取器，就像人类视觉会自动忽略背景，聚焦于图片中的主体（如猫、汽车）。transformer中的叫做自注意力机制，他是一种自己学习自己的机制，他可以自动学习到图片中的主体，并忽略背景。我们现在说的很多模块，比如通道注意力、空间注意力、通道注意力等等，都是基于自注意力机制的。从数学角度看，注意力机制是对输入特征进行加权求
文末含资料链接！YOLOv11性能飞跃：深度融合iRMB注意力机制，实战教程助你突破检测极限！博导ai君深度学习教学-附源码 YOLO
文章目录1.介绍：揭秘iRMB——轻量化与高性能的完美融合1.1摘要：洞察iRMB的设计哲学与卓越表现1.2简单描述：深入剖析iRMB的构造与工作原理核心灵感：CNN与Transformer的珠联璧合iRMB的核心结构：短距离与长距离的协同设计理念：实用、统一、有效、高效1.3模块结构：iRMB的内部构造图（概念描述）2.代码解析：逐行揭秘iRMB的魔法2.1`LayerNorm2d`：为2D数据
聚焦的伟力：注意力机制与Transformer的创世纪田园Coder 人工智能科普人工智能科普
当LSTM和GRU凭借其精密的门控系统，成功驯服了时间的长河，让神经网络能够跨越数十甚至数百步记住关键信息，并在机器翻译、文本生成等领域大放异彩时，一个看似微小却影响深远的瓶颈逐渐浮出水面，尤其是在序列到序列（Seq2Seq）框架中。在标准的Seq2Seq模型（如用于神经机器翻译）里，编码器（通常是一个RNN如LSTM）需要将整个输入序列（如一个英语句子）的信息压缩成一个固定长度的上下文向量（Co
Happy-LLM 第二章 Transformer HalukiSan transformer 深度学习人工智能
Transform架构图片来自[Happy-llm](happy-llm/docs/chapter2/第二章Transformer架构.mdatmain·datawhalechina/happy-llm)，若加载不出来，请开梯子注意力机制前馈神经网络每一层的神经元都与上下两层的每一个神经元完全连接数据在其中只向前流动，用于处理静态的数据，进行图像识别或者分类，但是该网络没有记忆能力，数据在它里面没
happy-llm 第二章 Transformer架构 weixin_38374194 transformer 深度学习人工智能学习
文章目录一、注意力机制核心解析1.1注意力机制的本质与核心变量1.2注意力机制的数学推导1.3注意力机制的变种实现1.3.1自注意力（Self-Attention）1.3.2掩码自注意力（MaskedSelf-Attention）1.3.3多头注意力（Multi-HeadAttention）二、Encoder-Decoder架构详解2.1Seq2Seq任务与架构设计2.2核心组件解析2.2.1前馈
YOLOv11深度解析：Ultralytics新一代目标检测架构创新与实战指南芯作者 D2:YOLO YOLO 神经网络计算机视觉
2024年Ultralytics重磅推出YOLOv11**：在精度与速度的平衡木上再进一步，参数减少22%，推理速度提升2%，多任务支持全面升级！一、YOLOv11核心创新：轻量化与注意力机制的完美融合YOLOv11并非颠覆性重构，而是通过模块级优化实现“少参数、高精度、快推理”的目标。其三大创新点如下：1.1C3k2模块：动态卷积核的灵活设计取代YOLOv8的C2f模块，C3k2通过参数c3k动
CVPR 2024 图像、视频处理总汇（视频字幕、图像超分辨率、图像分类和压缩等）点云SLAM 图形图像处理深度学习计算机视觉图像处理视频处理 3DGS CVPR2024
1、Image/VideoCaptioning(图像/视频字幕)VisualFactChecker:EnablingHigh-FidelityDetailedCaptionGenerationPolos:MultimodalMetricLearningfromHumanFeedbackforImageCaptioning⭐codeprojectPanda-70M:Captioning70MVide
计算机视觉中的Transformer：ViT模型详解与代码实现 AI大模型应用工坊计算机视觉 transformer 人工智能 ai
计算机视觉中的Transformer：ViT模型详解与代码实现关键词：计算机视觉、Transformer、ViT、自注意力机制、图像分块摘要：传统卷积神经网络（CNN）统治计算机视觉领域多年，但2020年一篇《AnImageisWorth16x16Words:TransformersforImageRecognitionatScale》的论文打破了这一格局——它将NLP领域的Transformer
【CVPR2024】计算机视觉|即插即用|DFAM:marine！不懂DFAM，别说你会做水下动物分割！
论文地址：http://arxiv.org/pdf/2404.04996v1代码地址：https://github.com/Drchip61/Dual_SAM关注UPCV缝合怪，分享最计算机视觉新即插即用模块，并提供配套的论文资料与代码。https://space.bilibili.com/473764881摘要本研究提出了一种新颖的特征学习框架，名为**Dual-SAM，用于高性能的海洋动物分割
【2025CVPR】SEC-Prompt：少样本增量学习中的语义互补提示模型详解清风AI 生成对抗网络人工智能神经网络 pcm 目标跟踪深度学习计算机视觉
目录一、研究背景：少样本增量学习的挑战二、SEC-Prompt核心原理1.自适应层次化查询（AdaptiveHierarchicalQuery）2.语义互补提示机制（1）判别性提示（D-Prompt）（2）非判别性提示（ND-Prompt）3.训练策略创新（1）判别性提示聚类损失（2）ND-Prompt数据增强三、模型架构图解四、关键创新点五、实验结果对比1.ImageNet-R结果2.CUB20
【ICLR 2022】时序精选论文08｜Pyraformer: 基于金字塔注意力机制与多尺度辨识卷积的时间序列预测模型（代码解读附源码） OverOnEarth 时间序列预测项目实战人工智能机器学习深度学习 python 算法
ICLR2022PYRAFORMER:LOW-COMPLEXITYPYRAMIDALAT-TENTIONFORLONG-RANGETIMESERIESMODELINGANDFORECASTINGPyraformer要解决的问题基于时间序列数据面临的挑战：建立一个灵活但简约的模型，能够捕获不同范围的时间依赖性。时间序列通常表现为短期和长期的重复模式，将他们考虑在内是准确预测的关键。即能够获得一个同时
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

cvpr 注意力机制_今日论文|Transformer++刷新翻译SOTA&跨越语言鸿沟的视觉共享嵌入&高度驱动注意力网络&多语言问答数据集&MORE...

计算机视觉

Computer Vision

[1]

Unsupervised Learning from Video with Deep Neural Embeddings

Chengxu Zhuang, Tianwei She, Alex Andonian, Max Sobol Mark, Daniel Yamins

摘 要：

[2]

Cars Can't Fly up in the Sky: Improving Urban-Scene Segmentation via Height-driven Attention Networks

Sungha Choi, Joanne T. Kim, Jaegul Choo

摘 要：

[3]

Compositional Convolutional Neural Networks: A Deep Architecture with Innate Robustness to Partial Occlusion

Adam Kortylewski, Ju He, Qing Liu, Alan Yuille

摘 要：

[4]

Incremental Few-Shot Object Detection

Juan-Manuel Perez-Rua, Xiatian Zhu, Timothy Hospedales, Tao Xiang

摘 要：

[5]

Visual Grounding in Video for Unsupervised Word Translation

Gunnar A. Sigurdsson, Jean-Baptiste Alayrac, Aida Nematzadeh, Lucas Smaira, Mateusz Malinowski, João Carreira, Phil Blunsom, Andrew Zisserman

摘 要：

[6]

SOS: Selective Objective Switch for Rapid Immunofluorescence Whole Slide Image Classification

Sam Maksoud, Kun Zhao, Peter Hobson, Anthony Jennings, Brian Lovell

摘 要：

[7]

Learning Video Object Segmentation from Unlabeled Videos

Xiankai Lu, Wenguan Wang, Jianbing Shen, Yu-Wing Tai, David Crandall, Steven C. H. Hoi

摘 要：

[8]

Cloth in the Wind: A Case Study of Physical Measurement through Simulation

Tom F. H. Runia, Kirill Gavrilyuk, Cees G. M. Snoek, Arnold W. M. Smeulders

摘 要：

[9]

Equalization Loss for Long-Tailed Object Recognition

Jingru Tan, Changbao Wang, Buyu Li, Quanquan Li, Wanli Ouyang, Changqing Yin, Junjie Yan

摘 要：

[10]

LC-GAN: Image-to-image Translation Based on Generative Adversarial Network for Endoscopic Images

Shan Lin, Fangbo Qin, Yangming Li, Randall A. Bly, Kris S. Moe, Blake Hannaford

摘 要：

[11]

AP-MTL: Attention Pruned Multi-task Learning Model for Real-time Instrument Detection and Segmentation in Robot-assisted Surgery

Mobarakol Islam, Vibashan VS, Hongliang Ren

摘 要：

[12]

Channel Interaction Networks for Fine-Grained Image Categorization

Yu Gao, Xintong Han, Xun Wang, Weilin Huang, Matthew R. Scott

摘 要：

[13]

ENSEI: Efficient Secure Inference via Frequency-Domain Homomorphic Convolution for Privacy-Preserving Visual Recognition

Song Bian, Tianchen Wang, Masayuki Hiromoto, Yiyu Shi, Takashi Sato

摘 要：

[14]

PBRnet: Pyramidal Bounding Box Refinement to Improve Object Localization Accuracy

Li Xiao, Yufan Luo, Chunlong Luo, Lianhe Zhao, Quanshui Fu, Guoqing Yang, Anpeng Huang, Yi Zhao

摘 要：

[15]

Off-Road Drivable Area Extraction Using 3D LiDAR Data

Biao Gao, Anran Xu, Yancheng Pan, Xijun Zhao, Wen Yao, Huijing Zhao

摘 要：

[16]

Video2Commonsense: Generating Commonsense Descriptions to Enrich Video Captioning

Zhiyuan Fang, Tejas Gokhale, Pratyay Banerjee, Chitta Baral, Yezhou Yang

摘 要：

[17]

Unpaired Image-to-Image Translation using Adversarial Consistency Loss

Yihao Zhao, Ruihai Wu, Hao Dong

摘 要：

自然语言处理

Natural Language Processing

[18]

Adv-BERT: BERT is not robust on misspellings! Generating nature adversarial samples on BERT

Lichao Sun, Kazuma Hashimoto, Wenpeng Yin, Akari Asai, Jia Li, Philip Yu, Caiming Xiong

摘 要：

[19]

Transformer++

Prakhar Thapak, Prodip Hore

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：

摘要：