Google Summer of Code 2011

Google Summer of Code 2011今天出结果了,有1100多人获得由Google的赞助参与到各种开源项目的开发中去。大体上是这样的:开源项目方给出感兴趣的课题,参与者获得锻炼机会并且有一定的经济补助,Google大款散点小钱落得个支持开源社区的好名声,这是个三赢局面。当然也不是随便什么项目就可以打着GSOC的名号来骗苦力的,Google批准了175个项目。我觉得这些项目必然有值得支持的理由,于是从头到尾扫了一遍,其中很多有名的开源项目,像GCC, GNU, FreeBSD, GNOME, KDE, Mozilla。下图是所有项目的关键词的用wordle在线服务生成的标签云,可以快速预览一下众开源项目的口味。

我挑几个我个人感兴趣的说说:

 

  1. OpenCV 这个排第一没办法,平时都会用到的。计算机视觉的算法库,自打有了这个库,酱油学生们的日子舒服多了,几行人脸检测函数糊弄一下毕业设计就过关了;软件公司也可以二度创作,搞出像绿坝那样的造福下一代的软件。OpenCV东家Willow Garage的另一个开源库Cloud Point Library也入围了,这个应该是视觉里的一个子领域,专门处理点云和三维空间数据。
  2. CMU Sphinx 这是个开源语音识别库,Sphinx在典故里是个让人猜谜语的狮子,喻指语音识别,出自CMU因此得名。训练识别全套都有,这个项目从九十年代开始已经培养出一堆一堆的PhD了,看了几个Demo,感觉很蛮准的。Sphinx已经被port到iOS移动平台上,叫做OpenEar。语音识别已经是相对比较成熟的应用了,个人感觉这个库应该还蛮靠谱的。不过到目前为之我所见到的最牛的还是Google在Android手机里提供的服务,我试过不管是中英文(需要预先设定识别语言),包括各种脏话,都可以准确的识别。需要指出的是,识别是在云端,手机上只是提取特征,传输有延时,并且没网络不行。
  3. Apertium 一个machine translation库,自动文本翻译,说白了就是让金山快译什么的回家歇歇的免费库。我看了一下首页的翻译demo里没有中文选项,鉴于我也只会中英两种就没再试了。系统构架应该是可扩展的平台,如果提供中文训练数据应该也可以work。不过这方面Google应该还是老大,试试Google translate就知道了。
  4. Hugin 唯一的panorama全景拼接开源工具,折腾过panorama全景拼接的人应该都知道,提供GUI和命令行方式。这里可以观看Hugin的展示作品
  5. Shogun 在日文里是将军的意思。这是个machine learning库,强调large scale,估计对大吞吐的数据比较有用。原生C/C++实现在实际应用中的灵活性自由度更大,并且提供其他主流语言包括Java, Python, Matlab等的wrapper。项目主页上给出了和其他同类项目的详细比较。等有机会可以试玩试玩。。。
  6. Processing 这个数据可视化的工具,需要使用类似Java的脚本语言去生成各种玄酷的图。很多Infographics的图表都是由它生成的。我打算在遥远的将来学学这东西。
  7. Gephi 同样是数据可视化工具,不过这个是所见即所得的,并且主要用于可视化网、图和社会关系。我在这里介绍过。
  8. Liquid Galaxy Project 一个虚拟现实的项目,似乎是多块屏幕组成可以观测星空的玩意儿。
  9. Orange 又一个machine learning data mining的库,不过看截图好像有点弱,只是直观感觉,没有细究。
  10. MetaBrainz 这是个音乐数据库项目,我一直想找到一个很好的自动填补修复音乐ID3 tag的软件,希望这个项目可以好好发展。他们家的MusicBrainz Picard我试过,还有很大提高空间。。。

你可能感兴趣的:(Google,matlab,FreeBSD,mozilla,translation,数据可视化)