主讲:微软亚洲研究院语音组Lead Researcher, Dr. Qiang Huo.
讲座信息:MSRA-USTC Class “Advanced Research Lecture Series” , November 23, 2010
讲座题目:现代语音识别技术的理论根基介绍及拓展
充满学士风度,幽默风趣,举止得体,是我对霍老师的第一印象。恰到好处的解释,辅以娴熟并带有人文关怀气息的PPT演示,让每一位到场的听者莫不全神贯注,瞬即与之融为一体!
今天是计算机领域前沿研究进展第二次课,给我们带来精彩内容的是语音组的霍强老师。这里先小小介绍一下,霍老师是我们6系的大大大师兄,82级中科大最高荣誉——郭沫若奖学金——得主。在07年加入微软之前,在香港大学从事了9年的科研教学工作。
马上转入正题。下面的介绍分为技术内容和拓展内容两大块。
关于现代语音识别
霍强老师首先细述了语音的发展史,包括很多有趣的故事,从中引申出语音系统的通信视角:从你要表达的意思形成(信源),经过你的思维(语言信道)转换为语言的词句,这些概念上的词句通过发声器官(发音信道)转化为实实在在的声音后,通过空气等媒介(传输信道)传输给他/她。霍强老师随即提出,从这种观点理解就可以很轻松的看清楚语音处理的全局,这是很重要的,正所谓“抽象的力量”(Barbara Liskov)。没有这种横向的视角以前,你必然不能看清你所绞尽脑汁研究的到底在这个领域占据的是一个怎样的位置,到底是不是有意义的或者可以出结果的。
有了这个铺垫之后,霍强老师给我们解释了语音领域的深度理解:编解码!如前所述,从你要表达的意思到传给对方的声音之间要经过几个信道,这其实就是在对信源进行编码(code)的过程!那么,语音识别就是他/她已经接收到你发出的声音,反过来得到表达你的意思的词句的过程。语音理解则更进一步,他要理解你所想表达的意思。说到这里你可能已经知道了,事实上这就是解码(Decode)的过程。有信道就有噪声,由此带来大量的随机性,描述这些随机性并对其建模就引出了语音技术的根基:统计理论中的决策理论(Decision Theory)。
为了让我们对语音技术有更深的理解,霍强老师随即介绍了两个语音技术的处理方法范例(paradigm):基于最大后验概率准则的概率模型和基于最大判别函数的机器学习模型。并详细讨论比较了两种模型的假设以及适用情况。其中让我印象深刻的是老师对于每种模型的假设都加以详细剖析并强调其成立条件,也是在老师的诱导下,我提出了问题:“如果得不到这个……会怎样?”霍强老师强调说:“我们要透彻了解方法的局限性,和前人工作中的局限性,这样我们才能做出好的研究。”
今天,我们面临的是更具有挑战性的问题:在快速变化情况下的语音识别。霍强老师提出了在这种情况下的几个解决方案,包括自适应,并行处理以提高速度,将自上而下和自下而上的方法相结合等。
关于研究
从霍强老师的讲座中,我学到了很多。这里和大家分享一下霍强老师的一些思想:
1. 不是没有问题,只是我们无知。
2. 现代研究人员需要掌握的两个重要能力
· 会处理大量的数据(Ability to handle huge amount of data)。
· 善用基础设施,如云计算(Ability to utilize computer infrastructure)。
3. 只要功夫到位,论文不是问题,它只是研究的副产品。
4. 模型的正确性很重要:如果模型是错的,拼命在参数选择和优化上下功夫有意义吗?
讲座的最后,霍强老师让我们记住两点:一是尊重那些在语音领域做研究的人,语音领域看起来简单但实质上很难,做好了完全是可以拿诺贝尔奖的领域;二是要关注前人工作中的limitation,很多事情前人的做法有他当时的历史背景,到我们这一代可能当时的问题已经不成为问题了!所以只有明确值得研究的问题所在,并在此基础上利用新的条件进行创新,才能做出好的研究。
最后的最后,是我的理解:If you do wrong, Re-search!
作者:许晓彬