我是如何收集信息的

本文首发于微信公众号:NewBeeNLP,欢迎关注获取更多干货资源。

我是如何收集信息的

在当下,很多时候问题不在于找不到信息,而在于如何从垃圾信息的海洋中找到优质信息的孤岛。两个指导原则如下:

  • 英文世界比中文世界有着更多的优质作品,并且时效性更强,因此应当习惯于阅读英文资料。
  • 在没有时间和精力去筛选内容的情况下,优先关注优质的平台、博主生产的信息。

我个人常用的信息获取渠道主要有:

A. 想要获取最新信息

  • 在 twitter 上关注各位大佬,每天早上刷 twitter 即可
  • 用 RSS 阅读器订阅 DeepMind/OpenAI/Google AI blog

如果做到以上两点,各种中文机器学习/人工智能公众号推送的东西基本上就都是你半天到两三天前看过的了。中文公众号我基本上只用来看国内公司的新闻。

如果我对一个工作感兴趣,想知道其他人对它的看法,一般会先看看 Twitter/Reddit 上其他人是怎么评论的。当然,如果碰巧有朋友在发表这个工作的机构工作,会直接私信问他对于这个工作的看法。如果愿意耐心等两天,也可以上知乎看评论,不过知乎现在水平越来越低了,有大量答非所问的回答。

B. 想要了解某个领域的进展

  • 如果是我完全不熟悉的领域,一般以 XXX tutorial/notes 为关键字来搜索,找到北美名校的讲义、某个顶会的 Tutorial 或者说 Summer School 的资料看,这些资料一般质量都很高。如果需要读论文,就找一些 roadmap 中提到频次较高的文章, 然后在 Google scholar 中搜索这些文章所引用和被引的文章里的高引文章,读上几篇就可以熟悉这个领域的大致脉络。
  • 如果是我熟悉的领域,就去找基准数据集的 leaderboard(例如 SQuAD/GLUE/WMT 等等),看看最新的效果如何,再去看对应的论文。paperswithcode[1] 和 nlpprogress[2] 也是追踪最新进展的好地方。

C. 回顾某个领域在过去一段时间内沉淀下来的工作

最新的工作刚出来的时候,解读难免有失偏颇(例如我以前对 Transformer 就看走眼了,觉得是一篇水文,这是我自从读论文以来犯过的最大错误)或者无法用更简化的眼光来审视。当一个领域发展一段时间后,把某些工作串联起来看往往会有更深的感悟。这种文章我一般会浏览以下博主或网站上的博客:

  • https://distill.pub/
  • http://colah.github.io/
  • http://ruder.io/
  • http://www.wildml.com/

D. 漫无目的的随便看看

随便浏览一下各个会议的 outstanding paper (或者拿到其他奇奇怪怪的奖项的论文)的标题和摘要。

本文参考资料

[1]paperswithcode: http://paperswithcode.com/

[2]nlpprogress: http://nlpprogress.com/

你可能感兴趣的:(NLP)