ICASSP

火山引擎RTC获得 ICASSP 2023回声消除挑战赛冠军

在刚刚过去的ICASSP2023声学回声消除（AEC）挑战赛中，火山引擎RTC团队联合西北工业大学音频语音与语言处理研究实验室，在通用回声消除(Non-personalizedAEC)与特定说话人回声消除

火山引擎视频云·2025-05-14 19:32

隐语技术团队研究成果被 ICASSP 与 ICLR 两大顶会收录

“隐语”是开源的可信隐私计算框架，内置MPC、TEE、同态等多种密态计算虚拟设备供灵活选择，提供丰富的联邦学习算法和差分隐私机制。开源项目：https://github.com/secretflowhttps://gitee.com/secretflow导语：2023年，「大模型」走到了聚光灯下，技术圈的“头部玩家”们纷纷入场，其潜能和价值正在被不断挖掘与释放。与此同时，大模型相关的隐私安全问题也

·2025-02-17 20:25

ICASSP2024 | BS-PLCNet: 基于多任务学习框架和多判别器的分频带丢包隐藏网络

随着互联网和通讯技术的发展，实时音频流传输已经成为网络通信的一个非常重要的部分。但由于网络拥堵、带宽限制、硬件故障等各种因素干扰，音频数据包在传输过程中可能会丢失，对语音通信的质量产生严重影响，造成用户体验下降。语音丢包补偿（PacketLossConcealment，PLC）又称丢包隐藏，旨在通过各种方式尽可能地恢复或掩饰丢失的数据包，从而保持语音通信的连续性和清晰度。随着硬件和算法的进步与深度

语音之家·2024-02-04 05:15

毫米波感知/成像部分高质量论文列表(持续更新)

仅列出了优秀工作中的一部分每一年的排列顺序:Mobicom,Sigcomm,Mobisys,NSDI,NDSS,S&P,CCS,Sensys,Ubicomp,Infocom,其他顶会,BMVC,WACV,ICASSP

R.X. NLOS·2024-01-25 20:46

ICASSP 2024丨上海交通大学跨媒体语言智能实验室14篇入选论文分享

近日，2024年IEEE声学、语音与信号处理国际会议（2024IEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing,ICASSP2024

希尔贝壳AISHELL·2024-01-22 01:38

ICASSP 2024｜字节跳动丢包补偿（冠军）与音质修复（亚军）国际挑战赛解决方案

在本届ICASSP2024各类音频国际挑战赛中，字节跳动流媒体音频团队联合西北工业大学音频语音与语言处理研究实验室，在丢包补偿（PacketLossConcealment，PLC）与音质修复（SpeechSignalImprovement

希尔贝壳AISHELL·2024-01-22 01:08

奇富科技跻身国际AI学术顶级会议ICASSP 2024，AI智能感知能力迈入新纪元

近日，2024年IEEE声学、语音与信号处理国际会议ICASSP2024（2024IEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing

CSDN云计算·2023-12-28 19:49

【Shuffle Attention】《SA-Net：Shuffle Attention for Deep Convolutional Neural Networks》

ICASSP-2021文章目录1BackgroundandMotivation2RelatedWork3Advantages/Contributions4Method5Experiments5.1DatasetsandMetrics5.2ClassiﬁcationonImageNet

bryant_meng·2023-12-22 18:06

TTS | 2019~2023年最新增强/生成情绪的语音合成调研(20231211更新版)

本博客主要是增强/生成情绪的语音合成调研，论文按照时间顺序排列，且有些论文为期刊会议论文，有的是arxiv论文，在本文中，标识如下：【ICML】【✨Interspeech】【ICASSP】2019.09.30

夏天｜여름이다·2023-12-18 22:53

Nussbaumer Transform 以及 Amortized FHEW bootstrapping

参考文献：[Nuss80]NussbaumerH.FastpolynomialtransformmethodsformultidimensionalDFTs[C]//ICASSP’80.IEEEInternationalConferenceonAcoustics

山登绝顶我为峰 3(^v^)3·2023-11-11 21:40

YOLOv8-Seg改进：分割注意力系列篇 | 高效多尺度注意力 EMA | ICASSP2023

本文改进：EMA跨空间学习高效多尺度注意力引入到YOLOv8中进行二次创新，改进方法1）head层输出层结合；2）加入backbone；EMAAttention亲测在多个数据集能够实现涨点，同样适用于小目标分割YOLOv8-seg创新专栏：http://t.csdnimg.cn/KLSdv学姐带你学习YOLOv8，从入门到创新，轻轻松松搞定科研；1）手把手教你如何训练YOLOv8-seg；2）模型

会AI的学姐·2023-11-11 19:09

论文阅读[2022ICASSP]Global Optimization Solution for Dynamic Adaptive 360-Degree Streaming

1标题与作者2022ICASSPGlobalOptimizationSolutionforDynamicAdaptive360-DegreeStreaming2背景360度视频包含了整个周围空间的所有视觉信息，需要高清晰度(视频分辨率4K及以上)、高帧率(40帧/秒，fps及以上)和高比特率(10mbps及以上)来保证沉浸式用户体验和高质量体验(QoE)。上述需求导致360度流媒体视频的数据量是普

woshicaiji12138·2023-11-10 03:46

论文阅读：LOGO-Former: Local-Global Spatio-Temporal Transformer for DFER（ICASSP2023）

多头局部注意力多头全局注意力紧凑损失正则化实验思考总结本篇论文LOGO-Former:Local-GlobalSpatio-TemporalTransformerforDynamicFacialExpressionRecognition发表在ICASSP

卡拉比丘流形·2023-11-09 02:43

YOLOv8改进：手把手入门系列篇 | 创新点如何在自己数据集上高效涨点 | EMA注意力作为案例展开

://t.csdnimg.cn/hGhVK学姐带你学习YOLOv8，从入门到创新，轻轻松松搞定科研；1.EMA注意力介绍论文：https://arxiv.org/abs/2305.13563v1录用：ICASSP2023

会AI的学姐·2023-11-06 03:28

1.信号处理顶会-ICASSP：SA-Net: shuffle attention for deep convolutional neural networks

CODE:https://github.com/wofmanaf/SA-NetABSTRACT:在计算机视觉研究中主要有两种广泛使用的注意机制，空间注意和通道注意，它们分别旨在捕获像素级的成对关系和通道依赖性。虽然将它们融合在一起可能会比它们各自的实现更好的性能，但这将不可避免地增加计算开销。→ShuffleAttention（SA）模块（1）分组：SA首先将通道尺寸分组为多个子特征，然后并行处理

pig不会cv·2023-11-05 20:28

YOLOv8血细胞检测（12）：EMA基于跨空间学习的高效多尺度注意力、效果优于ECA、CBAM、CA | ICASSP2023

本文改进：EMA基于跨空间学习的高效多尺度注意力,以保留每个通道上的信息和降低计算开销为目标，将部分通道重塑为批量维度，并将通道维度分组为多个子特征，使空间语义特征在每个特征组中均匀分布。EMA|亲测在血细胞检测项目中涨点，[email protected]从原始0.895提升至0.9收录专栏：YOLO医学影像检测：http://t.csdnimg.cn/N4zBP✨✨✨实战医学影像检测项目，通过创新点验证涨点可行性

AI小怪兽·2023-10-23 00:18

YOLOv7改进---注意力机制： EMA基于跨空间学习的高效多尺度注意力、效果优于ECA、CBAM、CA | 小目标涨点明显 | ICASSP2023

本文属于原创独家改进：EMA基于跨空间学习的高效多尺度注意力、效果优于ECA、CBAM、CAEMA|亲测在多个数据集实现暴力涨点，强烈推荐，独家首发；收录：YOLOv7高阶自研专栏介绍：http://t.csdnimg.cn/tYI0c✨✨✨前沿最新计算机顶会复现YOLOv7自研创新结合，轻松搞定科研

AI小怪兽·2023-10-12 02:15

基于YOLOv8的安全帽检测系统（4）：EMA基于跨空间学习的高效多尺度注意力、效果优于ECA、CBAM、CA，助力行为检测 | ICASSP2023

目录1.Yolov8介绍2.安全帽数据集介绍3.EMA介绍4.训练结果分析5.系列篇1.Yolov8介绍UltralyticsYOLOv8是Ultralytics公司开发的YOLO目标检测和图像分割模型的最新版本。YOLOv8是一种尖端的、最先进的（SOTA）模型，它建立在先前YOLO成功基础上，并引入了新功能和改进，以进一步提升性能和灵活性。它可以在大型数据集上进行训练，并且能够在各种硬件平台上

AI小怪兽·2023-10-06 02:35

ICASSP 2023 | 解密实时通话中基于 AI 的一些语音增强技术

‍动手点关注干货不迷路背景介绍实时音视频通信RTC在成为人们生活和工作中不可或缺的基础设施后，其中所涉及的各类技术也在不断演进以应对处理复杂多场景问题，比如音频场景中，如何在多设备、多人、多噪音场景下，为用户提供听得清、听得真的体验。作为RTC方案中不可或缺的技术，语音增强技术正从传统的基于统计学习的方案向基于深度学习的方案融合演进，利用AI技术，可以在语音降噪、回声消除、干扰人声消除等方面实现更

字节跳动技术团队·2023-09-24 14:18

YOLOv8改进:添加EMA注意力机制

1、EMA介绍论文：[2305.13563v1]EfficientMulti-ScaleAttentionModulewithCross-SpatialLearning(arxiv.org)录用：ICASSP2023

小王子C·2023-09-24 00:48

【论文阅读】Untargeted Backdoor Attack Against Object Detection（针对目标检测的无目标后门攻击）

.背景介绍3.作者贡献4.重点图表一.论文信息论文题目：UntargetedBackdoorAttackAgainstObjectDetection（针对目标检测的无目标后门攻击）发表年份：2023-ICASSP

AISecurity盐究员·2023-09-17 05:16

【ICASSP 2023】ST-MVDNET++论文阅读分析与总结

主要是数据增强的提点方式。并不能带来idea启发，但对模型性能有帮助Challenge：少有作品应用一些全局数据增强，利用ST-MVDNet自训练的师生框架，集成了更常见的数据增强，如全局旋转、平移、缩放和翻转。Contribution：1.介绍了激光雷达雷达车辆检测模型的几何增强。2.提出了一个师生框架名称STMVDNet++，并结合几何增强和噪声增强来训练广义融合模型。3.在ORR数据集上so

zhSunw·2023-09-15 05:30

车载多通道语音识别挑战赛（ICMC-ASR）丨ICASSP2024

西工大音频语音与语言处理研究组、新加坡南洋理工大学、天津大学、WeNet开源社区、微软、中国信通院等单位发起的“车载多通道语音识别挑战赛”（ICMC-ASR）将作为IEEE声学、语音与信号处理国际会议（ICASSP2024

希尔贝壳AISHELL·2023-09-14 09:07

第二期 | ICASSP 2023 论文预讲会

ICASSP2023论文预讲会是由CCF语音对话与听觉专委会、语音之家主办，旨在为学者们提供更多的交流机会，更方便、快捷地了解领域前沿。活动将邀请ICASSP2023录用论文的作者进行报告交流。

语音之家·2023-09-12 16:00

云音乐ICASSP2023最新成果

本文作者：成益《TG-CRITIC:ATIMBRE-GUIDEDMODELFORREFERENCE-INDEPENDENTSINGINGEVALUATION》-以音色作为指导的无参考歌唱评价算法论文作者：孙校珩、高月洁、林瀚峣（共同一作）、刘华平，均来自云音乐音视频实验室。论文下载：https://arxiv.org/abs/2305.09127论文简介：本文提出一种歌唱评价算法，可以仅依靠一段演

·2023-09-06 11:48

ICASSP 2022 | 用于多模态情感识别的KS-Transformer

优必选科技·2023-09-04 02:23

Yolov8小目标检测（9）： EMA基于跨空间学习的高效多尺度注意力、效果优于ECA、CBAM、CA | ICASSP2023

本文改进：EMA基于跨空间学习的高效多尺度注意力EMA|亲测在红外弱小目标检测涨点，[email protected]从0.755提升至0.766Yolo小目标检测，独家首发创新（原创），适用于Yolov5、Yolov7、Yolov8等各个Yolo系列，专栏文章提供每一步步骤和源码，带你轻松实现小目标检测涨点重点：通过本专栏的阅读，后续你可以结合自己的小目标检测数据集，在网络不同位置（Backbone、head、de

AI小怪兽·2023-08-29 10:42

ICASSP 2023说话人识别方向论文合集

今年入选ICASSP2023的论文中，说话人识别（声纹识别）方向约有64篇，初步划分为SpeakerVerification（31篇）、SpeakerRecognition（9篇）、SpeakerDiarization

语音之家·2023-08-28 17:39

ICASSP2023论文代码开源｜TOLD能对混叠语音建模的说话人日志框架

说话人日志（SpeakerDiarization,SD）任务的目标是检测不同说话人的语音活动时间段，即回答“谁在什么时间说话了”这一问题。传统的说话人日志系统，往往基于聚类算法实现，一般包括成如下步骤：（1）使用语音端点检测将原始音频切分成语音片段；（2）使用说话人嵌入码提取模型；（3）使用聚类方法，例如K-means等将属于同个说话人的音频片段分组到一起。然而，这些聚类方法往往是无监督的，无法直

语音之家·2023-08-21 02:26

ICASSP 2023 | 深度窄带网络消除实时语音通信中的干扰音

来源：ICASSP2023作者：FeifeiXiong,JinweiFeng等论文题目：DeepSubbandNetworkforJointSuppressionofEcho,NoiseandReverberationinReal-TimeFullbandSpeechCommunication

阿里技术·2023-08-19 05:28

【自然语言处理】关系抽取 —— SimpleRE 讲解

SimpleRE论文信息标题：AnEmbarrassinglySimpleModelforDialogueRelationExtraction作者：FuzhaoXue期刊：ICASSP2022发布时间与更新时间

不牌不改·2023-08-18 11:29

【达摩院OpenVI—通用检测系列之视频目标检测】(ICASSP 2023) 针对流感知的长短支路网络 LongShortNet

一、背景介绍传统视频目标检测（VideoObjectDetection,VOD）任务以一段视频作为输入，利用视频的时序信息进行目标检测，并最终输出每一帧视频帧的检测结果。其相比图像目标检测（ImageObjectDetection,IOD）任务，优势在于能够利用视频的时序信息，对运动模糊、图像失焦、遮挡、物体姿态变化等困难的场景具有更强的鲁棒性。然而，传统的VOD和IOD都是离线（offline）

·2023-08-15 16:01

干货 | 面向多任务学习和领域泛化的公平感知机器学习

在包括KDD，CVPR,AAAI，WWW，ICASSP等会议与期刊上发表过多篇论文，并受邀担任KDD，NeurIPS，AAAI，ICDM，AISTATS等人工智能领域顶级国际会议程序委员和审稿人

AITIME论道·2023-08-10 08:50

YOLOv5改进系列（16）——添加EMA注意力机制（ICASSP2023|实测涨点）

【YOLOv5改进系列】前期回顾：YOLOv5改进系列（0）——重要性能指标与训练结果评价及分析YOLOv5改进系列（1）——添加SE注意力机制YOLOv5改进系列（2）——添加

路人贾'ω'·2023-08-04 22:16

Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band Generation and Inverse Short

2023ICASSP东京大学&LINECorpMasayaKawamuragithub-codeabstractmotivation：VITS的质量很好，本文工作旨在用更小的模型、更快的推理速度实现高质量合成

林林宋·2023-08-03 07:42

ICASSP 2023 | MCROOD: MULTI-CLASS RADAR OUT-OF-DISTRIBUTION DETECTION

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg4MjgxMjgyMg==&mid=2247486484&idx=1&sn=d43f92ca0230753e77f54557054653d6&chksm=cf51beedf82637fb27d4cbb9279f273298779dabe25f7775cb93469787bcc12c1b6b2caec979#rdICA

R.X. NLOS·2023-07-28 02:16

ICASSP2023论文解读｜如何检测会议记录中的待办事项？

得益于语音识别技术的发展，人工智能可以帮助人们记录会议，自动检测与会后行动项关联的会议内容，并进行总结。行动项识别对于管理会后待办任务至关重要。针对对于行动项识别任务，相关数据集稀缺且规模小。因此，达摩院构建并开源了AMC-A语料库，这或是首个带有行动项标注的中文会议语料库。基于行动项数据集，达摩院提出了Context-Drop方法，通过对比学习利用局部和全局上下文，在行动项识别任务中取得了更好的

语音之家·2023-07-22 06:17

基于静态和动态特征融合的语音情感识别层次网络

HierarchicalNetworkbasedontheFusionofStaticandDynamicFeaturesforSpeechEmotionRecognition时间2021年期刊\会议ICASSP

uuu_柚子·2023-07-16 13:36

即插即用篇 | YOLOv8 引入具备跨空间学习的高效多尺度注意力 Efficient Multi-Scale Attention | 《ICASSP 2023 最新论文》

论文地址：https://arxiv.org/vc/arxiv/papers/2305/2305.13563v1.pdf该论文展示了通道或空间注意机制在各种计算机视觉任务中产生更明显的特征表示的显著效果。然而，通过通道维度缩减来建模跨通道关系可能会在提取深度视觉表示方面带来副作用。本文提出了一种新颖高效的多尺度注意(EMA)模块。该模块专注于保留每个通道上的信息并减少计算负荷，通过将部分通道重塑为

迪菲赫尔曼·2023-07-16 08:52

对话钉钉音视频专家冯津伟：大模型不是万能的

策划：LiveVideoStack在音视频技术领域，ICASSP大会是行业的风向标会议，也是语音学界从业者研究下一代技术发展的盛宴。

LiveVideoStack_·2023-06-16 02:04

ICASSP 2023丨基于 CTC 的模型改进，实现更强的模型结构

分享一篇网易智企易盾AILab团队在ICASSP2023被收录的语音识别方向的论文《ImprovingCTC-basedASRModelswithGatedInterplayerCollaboration

语音之家·2023-06-12 18:08

ICASSP 2023论文模型开源｜语音分离Mossformer

本文将详细解读ICASSP2023本届会议收录的单通道语音分离模型Mossformer论文，以及如何基于开发者自有数据进行该模型的调优训练。▏语音分离模型能做什么？

语音之家·2023-04-18 10:00

ICASSP2023 | 基于多因素解耦的高表现力语音合成

人类语音是极富表现力的，包括语调、重读、风格、情感的各种表达。表现力语音合成（ExpressiveSpeechSynthesis）的目标就是准确的表达出语音中的各种表现力因素。之前的表现力语音合成通常将表现力定义为说话时的单一因素，即风格或情感，然而风格可以随文本内容和场景进行转换，情感可以随着态度和意图进行转换。比如“童话故事”和“武侠评书”具有明显的朗读风格上的区分，而各自风格的语音朗读过程中