从顶级会议Interspeech 2019看语音领域大家都在弄个啥嘞

Interspeech 2019 总共有2100多份提交,1800多份进入评审阶段,接收的不到1000份(?没看到官方统计结果,我

是从论文集里统计出来的)。投稿单位主要仍然是科研机,但是占比只有60%, 商业机构都占35%了。商业机构占比

多也很正常,因为这个会议就是他们赞助的。最大的赞助商是Amazon,国内最大的赞助商是滴滴,属于钻石赞助商

,掏了20000欧元,(今天才知道滴滴语音领域挺厉害,它不仅仅是个打车的app,也是孤陋寡闻了,关于这次会议

的新闻稿有些就是"滴滴语音"发的)。阿里也赞助了,属于黄金赞助商。


会议共五天,9月15到9月19号。16号开始一天一个keynote,16号讲语音合成,17号讲人机互动,18号讲语音产生

机理的,19号讲自然语言接口。从keynote也可以看出当前热点。


大会论文集已经放出,https://www.isca-speech.org/archive/Interspeech_2019。论文集分类分得很详细,大体可分为:语音识别、语音增强、语音合成、说话人识别和自然语言理解等。

语音识别仍然是大热门,还是语音领域里的一哥。语音识别需要克服噪声、远场带来的困难,当然这两个哪个都没有被搞定。如果它们被搞定了,而且你还是做语音的,你一定会在新闻上看到,不用去读文献。语音识别现在是Attention相关算法的天下了,几乎所有的ASR文章都涉及到了attention。

语音增强现在也是什么技术都往上使,自编码器、GAN、spatial filter等等,无监督学习貌似要成主流,另外语音增强还有个多通道语音增强专题。

语音合成主要还是研究高音质语音生成算法,自从wavenet出来以后,我就没太关注了,现在技术也越来越成熟了,不光能说话,还能唱歌了。

说话人识别本人不涉及,不表。

开会当然少不了大牛,深度学习三巨头之一Bengio灌了一篇,俞栋一篇,Rainer Martin两篇,汪德亮4篇。汪德亮现在作为大象声科的技术总监,还能不停在学术界耕耘,也是不容易。他的学生貌似有些直接在大象声科实习了。

 

你可能感兴趣的:(技术交流)