interspeech

多语言TTS：Multilingual speech synthesis

LearningtoSpeakFluentlyinaForeignLanguage:MultilingualSpeechSynthesisandCross-LanguageVoiceCloning](https://arxiv.org/abs/1907.04448)[2019interspeech

林林宋·2024-01-06 10:44

Pooling方法总结（语音识别）

1.StatisticsPooling链接：http://danielpovey.com/files/2017_interspeech_embeddings.pdfThedefaultpoolingmethodforx-vectorisstatisticspooling.Thestatisticspooli

shadowismine·2023-12-22 10:44

TTS | 2019~2023年最新增强/生成情绪的语音合成调研(20231211更新版)

本博客主要是增强/生成情绪的语音合成调研，论文按照时间顺序排列，且有些论文为期刊会议论文，有的是arxiv论文，在本文中，标识如下：【ICML】【✨Interspeech】【ICASSP】2019.09.30

夏天｜여름이다·2023-12-18 22:53

论文笔记：语音情感识别（三）手工特征+CRNN

一：EmotionRecognitionfromHumanSpeechUsingTemporalInformationandDeepLearning（2018InterSpeech）（1）分帧加窗，每一帧采用的特征向量为

编程大乐趣·2023-11-22 11:04

万万没想到，钉钉居然是个AI平台

豁，左一个INTERSPEECH，

Sim1480·2023-11-09 19:50

MFA-Conformer

基于多尺度特征聚合Conformer说话人识别模型的创新与应用论文：https://arxiv.org/abs/2203.15249代码：GitHub-zyzisyz/mfa_conformer收录于INTERSPEECH20221

shadowismine·2023-11-02 23:05

语音情感识别领域-论文阅读笔记1：融合语音和文字的句段级别情感识别技术

1FusionTechniquesforUtterance-LevelEmotionRecognitionCombiningSpeechandTranscripts融合语音和文字的句段级别情感识别技术本文是对interspeech

笨鸟东南飞·2023-10-19 09:04

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码

作为语音信号处理研究领域的旗舰国际会议，Interspeech

字节跳动技术团队·2023-09-24 14:20

THUHCSI人机语音交互实验室9篇论文被语音旗舰国际会议INTERSPEECH录用

2023年ISCA国际语音通讯学会年会（2023AnnualConferenceoftheInternationalSpeechCommunicationAssociation,INTERSPEECH2023

语音之家·2023-08-28 17:10

INTERSPEECH2023｜达摩院语音实验室入选论文全况速览

近日，语音技术领域旗舰会议INTERSPEECH2023公布了本届论文审稿结果，阿里巴巴达摩院语音实验室有17篇论文被大会收录。

语音之家·2023-06-19 21:09

INTERSPEECH 2023论文｜基于多频带时频注意力的复调音乐旋律提取

论文题目：MTANet:Multi-bandTime-frequencyAttentionNetworkforSingingMelodyExtractionfromPolyphonicMusic作者列表：高虞安，胡英，王柳淞，黄浩，何亮研究背景复调音乐是一种具有多个声部交织在一起的音乐形式。在复调音乐中，不同的声部可以同时演奏不同的旋律线，相互独立但又相互关联。乐器伴奏与主声交织在一起，使任务相当

语音之家·2023-06-16 17:14

第二期丨INTERSPEECH 2023 论文预讲会

INTERSPEECH2023论文预讲会是由CCF语音对话与听觉专委会、语音之家主办，旨在为学者们提供更多的交流机会，更方便、快捷地了解领域前沿。

语音之家·2023-06-16 17:14

NPU-ASLP实验室11篇论文被语音旗舰会议Interspeech2023录用

语音之家·2023-06-12 19:16

奇富科技语音论文入选国际顶会INTERSPEECH 2023

ASimpleandEfficientParallelText-to-speechArchitecturewithCollaborativeDuration-alignmentLearning）被全球语音与声学顶级会议INTERSPEECH2023

CSDN云计算·2023-06-08 04:01

深度学习语音转换歌声转换歌唱语音转换

【小数据VC】Attention-BasedSpeakerEmbeddingsforOne-ShotVoiceConversion[2020interspeech]2.

c2a2o2·2023-04-18 10:29

Interspeech20022论文阅读记录1 - Cross-Layer Similarity Knowledge Distillation for Speech Enhancement

文章目录论文:Cross-LayerSimilarityKnowledgeDistillationforSpeechEnhancementAbstractIntroduction1.Motivation：为什么要对SE模型进行KD2.通用的KD方法：对中间特征表示进行变换3.已有用于SE的KD工作：没有学习中间特征的表示4.本文工作：为SE提出了一种cross-layer的KD框架Methodol

Rarachel的成长之路·2023-04-07 00:53

背景宽高随文本变化_今日论文|零资源口语建模&多尺度合并蒸馏语义分割持续学习&迷彩动物识别&数据到文本语义准确新指标&自动深度GNN设计&MORE...

这些论文主要来自AAAI，AAMAS，ACCV，CIKM，ArtificialIntelligence，CVPR，ECCV，EMNLP，ICASSP，ICLR，ICML，ICONIP，ICPR，ICRA，TKDE，INTERSPEECH

weixin_39611072·2023-02-06 18:49

语音情感识别

语音情感识别发展至今，特征提取依然尚未成熟，目前最为普及的特征集有INTERSPEECH2009EmotionChallenge和INTERSPEECH2013Para

编程大乐趣·2023-01-29 07:05

StarGANv2-VC

会议：2021interspeech作者：YinghaoAaronLi单位：ColumbiaUniversity文章目录abstractintroductionmethodexperimentsdatasetabstractStarGANv2

林林宋·2023-01-19 10:22

Self-Attentive Speaker Embeddings for Text-Independent Speaker Verification

Interspeech2018--Self-AttentiveSpeakerEmbeddingsforText-IndependentSpeakerVerificationhttp://www.danielpovey.com

Grace_yanyanyan·2023-01-12 13:20

INTERSPEECH 2022｜面向零样本声音克隆的内容相关细粒度说话人表征方法

本文由清华大学与腾讯AILab、香港中文大学合作。零样本说话人自适应（zero-shotspeakeradaptation），或称为零样本声音克隆，旨在根据任意一条参考语音（referencespeech）合成训练过程中从未见过的说话人（unseenspeaker）的声音。以往的工作大多从参考语音中提取一个固定维度的向量作为说话人表征，该思路虽然能较好地表示说话人的音色、整体说话方式，但其有限且粗

语音之家·2023-01-05 22:55

x-vector：Deep Neural Network Embeddings for Text-Independent Speaker Verification

会议：2017interspeech机构：TheJohnsHopkinsUniversity作者：DavidSnyderabstract 用dnn提取的embedding取代i-vector表示说话人特征

林林宋·2023-01-02 07:44

京东智联云4篇论文入选国际语音顶级大会Interspeech 2020

近日，受到新冠疫情的影响，原计划于2020年10月25日至10月29日期间，在中国上海+线上同步举行的国际语音顶级会议Interspeech2020最终改为线上举行。

京东云开发者·2022-12-31 08:12

WELCOME TO INTERSPEECH 2023

INTERSPEECH2023Wearedelightedtoinviteyoutothe24thINTERSPEECHConferencefromAugust20thto24th,tobeheldintheConventionCentreDublin

语音之家·2022-12-30 01:34

【ECAPA_TDNN 下】代码和论文细节分析

2.2SpecAugment算法2.3注意力统计池化2.4SERes2Blocks2.4.1SEblock2.4.2res2net2.5MFA多层特征聚合三、损失函数AAMsoftmax(loss.py)来源：INTERSPEECH2020

崔西的梅尔之旅·2022-12-24 10:50

PnG BERT - 用于TTS的预训练BERT模型（变种）

文章目录模型结构实验及结果分析本文提出了一种BERT变种，PngBert是google在interspeech2021提出的一种可以用做TTSencoder的预训练模型。

GFward·2022-12-23 13:53

INTERSPEECH 2022——基于层级上下文语义信息的多尺度语音合成风格建模

本文由清华大学与虎牙信息科技有限公司、元象唯思控股（深圳）有限公司和香港中文大学合作。人类语音的风格表达是多尺度的，不仅包括全局尺度的情感表达，还包括局部尺度的韵律表达。而现有关于表现力语音合成的工作只考虑了单一尺度的说话风格。针对该问题，本文提出一种基于不同层级上下文语义信息来建模段落级别、句子级别和字级别等不同尺度说话风格的方法，以进一步提升合成语音的表现力。在中文有声小说数据集上，与只考虑单

语音之家·2022-12-06 11:11

INTERSPEECH 2022｜CALM: 基于对比学习的表现力语音合成跨模态说话风格建模【语音之家】

本文由清华大学与腾讯科技有限公司和香港中文大学合作，并在腾讯公司落地应用。说话风格建模对于表现力语音合成具有重要作用。现有基于参考音频提取风格表征的方法通常利用文本的语义相似度进行参考音频选择，忽略了语义信息和说话风格的差异性。本文考虑利用天然成对的文本和语音数据互相作为监督，设计了一种基于对比学习的根据文本选取多个参考音频的风格建模方法CALM，从文本中捕捉到真正与说话风格相关的特征。与基线方法

语音之家·2022-11-30 22:44

声纹识别中pooling总结

1、StatisticsPoolinghttp://danielpovey.com/files/2017_interspeech_embeddings.pdfThestatisticspoolinglayercalculatesthemeanvectorµaswellasthesecond-orderstatisticsasthestandarddeviationvectorσoverframe

GaryGao99·2022-11-30 19:12

zx超·2022-11-30 15:03

【人物】机器学习

AndrewNgGeofferyHinton李飞飞DanqiChen(陈丹琦)NeuralReadingComprehensionandBeyondMikolov在INTERSPEECH2010上发表的

dzzxjl·2022-11-25 17:16

语音识别方案 - 联想语音团队多场景实时语音文字转换方案

在去年的国际语音盛会Interspeech系列挑战赛中，联想研究院语音团队参加了远场语音技术评测（VOiCES）、副语言语音属性评测（ComParE）和说话人日志评测（DIHARDII），荣获了一项国际第

南方小土豆·2022-11-24 17:01

Interspeech 2021 | 腾讯AI Lab解读9篇入选论文

本文将介绍腾讯AILab入选Interspeech2021的9篇论文。

腾讯AI实验室·2022-11-23 07:16

Magic Data 论文入选国际语音顶级大会 INTERSPEECH 2022

国际语音顶级会议INTERSPEECH2022预计将于今年9月18日-22日在韩国仁川举办。

Magic Data·2022-11-21 06:29

Interspeech2022论文解读 | LODR：一种更好、更轻量的语言模型融合新方式

该工作已被语音领域的国际会议Interspeech2022接收，论文的作者是郑华焕、安柯宇、欧智坚、黄辰、

语音之家·2022-11-21 06:29

Interspeech 2022 | 探索非自回归跨语言语音合成中的音色解耦问题

研究人员们也逐渐开始关注跨语言语音合成领域，本文介绍网易游戏广州AILab在Interspeech2022中发表的一篇跨语言语音合成论文《E

PaperWeekly·2022-11-21 05:16

INTERSPEECH 2021丨希尔贝壳2篇论文入选全球顶级语音学术大会

作为语音领域里的顶级国际会议，INTERSPEECH历来都是学术界和工业界关注的焦点，会议涵盖了语音语言处理和应用的各个方面，以及语音相关领域的各类前沿进展。

希尔贝壳AISHELL·2022-11-21 05:06

INTERSPEECH2020丨远场声纹识别比赛（FFSVC 2020）

IntroductionWelcometotheInterspeech2020Far-FieldSpeakerVerificationChallenge(FFSVC2020).Speakerverificationisakeytechnologyinspeechprocessingandbiometricauthentication,whichhasbroadimpactonourdailyliv

希尔贝壳AISHELL·2022-11-21 05:06

INTERSPEECH2022丨希尔贝壳邀您参加 FFSVC 2022 远场说话人识别比赛

WelcometoFFSVC2022!ThesuccessofFFSVC2020indicatesthatmoreandmoreresearchersarepayingattentiontothefar-fieldspeakerverificationtask.Inthisyear,thechallengestillfocusesonthefar-fieldspeakerverificationt

希尔贝壳AISHELL·2022-11-21 05:01

INTERSPEECH 2022｜FS-CANet: 基于全带子带交叉注意力机制的语音增强

INTERSPEECH2022FS-CANet:基于全带子带交叉注意力机制的语音增强本文由清华大学与腾讯天籁实验室、香港中文大学合作，提出了一个全带-子带交叉注意力（FSCA）模块来交互融合全局信息和局部信息

语音之家·2022-11-20 11:41

Bi-directional Joint Neural Networks for Intent Classification and Slot Filling 论文分享

HenryWeld,andJosiahPoon.2021.Bi-directionalJointNeuralNetworksforIntentClassiicationandSlotFilling.InProc.Interspeech2021

张某文的博客_Lambda·2022-11-20 10:27

今日arXiv精选 | 34篇顶会论文：CIKM/ ACL/ Interspeech/ ICCV/ ACM MM

关于#今日arXiv精选这是「AI学术前沿」旗下的一档栏目，编辑将每日从arXiv中精选高质量论文，推送给读者。DESYR:DefinitionandSyntacticRepresentationBasedClaimDetectionontheWebComment:10pages,AcceptedatCIKM2021Link:http://arxiv.org/abs/2108.08759Abstr

PaperWeekly·2022-11-11 13:24

[语音分离论文小记] Dual-Path Transformer Network

作者：JingjingChen,QirongMao,DongLiuJingjingChen,QirongMao,DongLiu发表于INTERSPEECH2020网上的笔记asteroid源码官方源码论文地址双路径

努力work，早发paper·2022-10-27 18:33

【Interspeech2021】语音分离方向|摘要汇总

Interspeech2021:语音前端Interspeech2021论文集传送门TargetSpeakerSeparation当前在做的方向：时域/频域的pipeline先验信息的利用损失函数的设计网络架构的训练

kodoshinichi·2022-10-27 18:02

论文分享 | SpeechFormer: 利用语音信号的层次化特性提升Transformer在认知性语音信号处理领域中的性能

本次分享华南理工大学在INTERSPEECH2022会议发表的论文《SpeechFormer:AHierarchicalEfficientFrameworkIncorporatingtheCharacteristicsofSpeech

语音之家·2022-10-27 18:31

INTERSPEECH 2022 | 钉钉蜂鸣鸟音频实验室论文入选国际顶会，创新提出窄带滤波网络架构

钉钉蜂鸣鸟音频实验室提出了一种新的窄带滤波网络架构，可大幅提升去噪和去混响联合语音增强效果，提升音频质量，相关论文已被语音领域顶会INTERSPEECH2022收录。

阿里技术·2022-10-25 11:39

Interspeech 2022丨火山语音7篇论文再次成功入选国际顶会

语音研究领域最大、最全面的国际学术会议Interspeech2022，即将圆满落幕。

语音之家·2022-09-28 07:49

Interspeech 2022丨FFSVC 2022 远场说话人识别比赛

官网：https://ffsvc.github.io/01背景FFSVC2022（Far-fieldspeakerverificationchallenge2022）是Interspeech2022的satelliteevents

语音之家·2022-09-28 07:18

竞赛获奖系统解读：远场说话人确认中基于两阶段迁移学习解决域不匹配问题

作为Interspeech2022的赛事活动，远场说话人验证挑战赛(FFSVC)由昆山杜克大学、新加坡国立大学、南加州大学和希尔贝壳联合组织，主要关注极具挑战性的远场说话人确认任务。

语音之家·2022-09-28 07:47

火山语音7篇论文入选国际顶会Interspeech

日前，火山语音团队七篇论文成功入选国际顶会Interspeech2022，内容涵盖音频合成、音频理解等多个技术方向的创新突破。

·2022-09-22 11:17

推荐频道