言有三
毕业于中国科学院,计算机视觉方向从业者,有三工作室等创始人
作者 | 言有三
编辑 | 言有三
接着上一篇介绍国内的重要研究院,今天开始第一期正式的介绍,先说历史最悠久的微软亚洲研究院
01
简介
微软亚洲研究院,即Microsoft Research Asia(MSRA),是本系列中唯一一个非中国本土的研究院,但是因为它落地生根都是在中国,培养出大量优秀的华人学者,被称为中国IT界的黄埔军校。世界上计算机视觉领域排名前三的研究中心之一,因此我们先介绍它,有官方公众号“微软研究院AI头条”,官网链接https://www.msra.cn/,知乎链接https://www.zhihu.com/org/wei-ruan-ya-zhou-yan-jiu-yuan/activities,github链接https://github.com/msracver。
1998年7月,李开复加入微软并在中国创建并领导微软中国研究院,2001年11月,微软中国研究院升级为微软亚洲研究院,2004年,微软亚洲研究院被MIT Technology Review评为全球最顶级的计算机科学研究院。
MSRA至今已经20年,国内其他本土研究院还没有几个历史比得上它的一半。
02
领导团队
首任院长李开复,大家不能更熟悉了,读书的时候在语音领域作出了开创性的贡献,随后活跃在工业界,读大学的时候在学校见过本人一次,听其演讲很受鼓舞。身体得病前非常活跃,休息复出后现在是创新工场CEO,帮助年轻人创业,我辈偶像 。
第二任院长张亚勤,也是微软亚洲研究院的首任院长。12岁进入中国科技大学少年班,23岁的张亚勤获得乔治华盛顿大学博士学位,现任百度公司总裁。
第三任院长沈向洋,微软全球执行副总裁,目前是微软核心管理层唯一的大陆华人高管,也是美国科技行业的华人最高职位者。
第四任院长洪小文,也是现任院长,微软公司资深副总裁,曾任苹果公司的Apple-ISS研究中心的技术总监。
除了以上这些人,还有汤晓鸥,何凯明等,基本上都是AI届的重量级人物,可自行了解,目前官网有它的组织架构,可以数数自己认识哪些人。
03
研究领域
MSRA的研究领域很多,有以下研究组
几乎覆盖了所有计算机应用领域,在大数据(城市计算),智慧医疗,知识图谱(微软认知服务),NLP(机器翻译、实时语音翻译、微软小英、微信小冰),计算机视觉等领域都建树颇多。
04
研究成果
1.1 微软小冰
微软小冰,一个非常调皮的AI,想必很多人都调戏过。微软小冰是一个领先的跨平台人工智能机器人。目前在微信、QQ、Windows 10、美拍、京东、米聊、米家、优酷等都可以使用。
目前已经到第6代了,如果你想初次了解人工智能能干什么,不如去好好了解一下。
1.2 微软小英
没错,又是一个机器人,而且名字同样么么哒。微软小英是一款融合了语音识别、口语评测,自然语言处理、语音合成等人工智能技术而实现的智能人机交互服务,有同名官方公众号。
口语练习,拍照翻译,有它就够了,随时学习,不用报班。
1.3 语音识别
在使用深度学习上,微软首先其实是在语音上发力,在NIPS 2009 会议上,邓力和Hinton联合组织了Deep Learning for Speech Recognition and Related Applications workshop,首次证明使用新方法训练的深度神经网络在大量语音识别基准上优于之前的方法,之后 2012 年发表了著名论文《Deep Neural Networks for Acoustic Modeling in Speech Recognition》,由 Hinton和邓力合著。
下面这本书也是我看的第一本深度学习书,由邓力和俞栋合著,都是MSRA的语音识别专家。由于语音不是我研究方向,就不做过多介绍,可以去用用Skype Translator,直接用不同语言做语音对话。
1.4 MS COCO数据集
大家都知道数据集的重要性,在深度学习图像方向,如MNIST,CIFAR,PASCAL VOC,ImageNet,MS COCO都是具有里程碑意义的数据集,也是论文中评测经常使用的。
COCO从全称Common Objects in Context可以看出,这个数据集以场景理解为目标,特别选取比较复杂的日常场景,相比于pascal的建立是为了推进目标检测任务,coco的建立则是为了推进自然背景下的定位与分割任务,很多方法在VOC,ImageNet上work,到了这里就不行了的,关于数据集的重要性,可以去看我以前的一篇文章。
【数据】深度学习从“数据集”开始
1.5 ResNet
2015年何凯明,孙剑等人提出了ResNet网络拿下了当年ImageNet几大单元的冠军,也被成为残差网络,这是第一个达到1000层以上的神经网络。今天的计算机视觉模型,很少有不使用残差连接的网络了,如果想对残差网络了解更深,可以阅读我以前的一篇分析。
【模型解读】resnet中的残差连接,你确定真的看懂了?
1.6 文本理解
微软在今年年初提交的R-NET模型在SQuAD挑战赛的EM值(Exact Match, 表示预测答案和真实答案完全匹配)上以82.650的最高分领先并率先超越人类分数82.304,这对于自然语言处理研究领域来说是一个重要的里程碑。
SQuAD挑战赛被称为机器阅读理解界的ImageNet,由斯坦福大学自然语言计算组发起,它通过众包的方式构建了一个大规模的机器阅读理解数据集(包含10万个问题),更多可自行了解。
1.7 机器翻译
MSRA的研究几乎覆盖所有智能计算方向而且都处于领先位置,对于机器翻译这个任务也是。也是今年早期的时候,在通用新闻报道测试集newstest2017的中-英测试集上,达到了可与人工翻译媲美的水平,注意,有许多的限定不用过于惊叹,但是仍然是比较大的突破。关于使用的对偶学习技术,可以自行关注。
1.8 CNTK
Microsoft Cognitive Toolkit(CNTK),https://github.com/Microsoft/CNTK
目前深度学习框架百花齐放,caffe,tensorflow,pytorch人尽皆知,微软虽然没有宣传自家的CNTK深度学习框架,但是它在github上面也超过15000个star,不过据说使用成本高,反正我是没用过,似乎更合适做语音,毕竟是语音组开发的。
1.9 MMDnn
MMdnn是一套能让用户在不同深度学习框架间进行转换以及可视化的工作,包括Caffe、Keras、MXNet、Tensorflow、CNTK、PyTorch 和 CoreML等。
已经支持以下模型
1.10 微软收购了Github
哈哈哈哈,这个锅你背了吧MSRA!因为后面还有太多不知道写什么了,期待MSRA开源更多优秀的研究项目(包括数据集),看起来Microsoft Research Open Data是个好苗头。
更多请移步知乎专栏。
十月开始,我们有三AI学院开启了“稷”划和“济”划,帮助想入行以及想取得更多实战经验的同学。内容覆盖从自动驾驶到美颜直播等领域的实战项目,从图像基础到深度学习理论的系统知识,欢迎关注。
有三AI“【济】划”,从图像基础到深度学习
有三AI“十月【稷】划”,从自动驾驶到模型优化
我们的网易公开课已经上线,欢迎来听。
如果想加入我们,后台留言吧
微信
Longlongtogo
公众号内容
1 图像基础|2 深度学习|3 行业信息
往期精选
【技术综述】“看透”神经网络
【有三说图像】图像简史与基础
【技术综述】闲聊图像分割这件事儿
【技术综述】一文道尽softmax loss及其变种
往期学员分享
【技术综述】人脸表情识别研究
【技术综述】人脸颜值研究综述
如何降低遮挡对人脸识别的影响
【技术综述】人脸年龄估计研究现状
往期开源框架
【pytorch速成】Pytorch图像分类从模型自定义到测试
【paddlepaddle速成】paddlepaddle图像分类从模型自定义到测试
【caffe速成】caffe图像分类从模型自定义到测试
【tensorflow速成】Tensorflow图像分类从模型自定义到测试
往期行业分析
【行业进展】国内自动驾驶发展的怎么样了?
【行业进展】AI:新药研发的新纪元
【行业进展】哪些公司在搞“新零售”
【行业趋势】国内这10个AI研究院,你想好去哪个了吗?
往期模型解读
【模型解读】“全连接”的卷积网络,有什么好?
【模型解读】“不正经”的卷积神经网络
【模型解读】resnet中的残差连接,你确定真的看懂了?
【模型解读】pooling去哪儿了?