原文:The 5 Best Machine Learning GitHub Repositories & Reddit Threads from August 2018
PRANAV DAR, SEPTEMBER 2, 2018
当我去年年初开始使用 GitHub 时,我从来没有想过它对我来说有多么有用。最初我只是用它来上传我自己的代码,以为这就是 GitHub 所能做到的有用的程度了。但当我加入了 Analytics Vidhya,并且我的研究范围扩大后,我被这个平台实际上的巨大规模所吸引。
除了允许我访问像谷歌、微软、英伟达、Facebook 等顶级公司的开源代码和项目,它还提供了与机器学习爱好者合作现有项目的渠道。我无法告诉你,为别人使用的项目做出贡献是多么令人惊讶。这是一种独一无二的感觉。当然,这也促使我写了这个月刊系列,我希望你们在自己的工作中有所收获。
这个月的文章包含了一些很好的仓库。NVIDIA有一个项目是研究视频到视频的翻译,它是一个简洁的谷歌库,使强化学习方法比以前更容易学习,我还添加了一个有用的自动对象检测库。下面还有大量的信息,包括一个有趣的 R 语言包。
在我们的 Reddit 部分,我们有各种各样的讨论,从 Julia 的多专家评论到现实生活中的数据泄漏故事。作为一名数据科学家,你需要在任何时候都处于比赛的顶端,这包括跟进所有最新的进展。Reddit 和 AVBytes 绝对应该出现在你的首选列表中。
你可以看看 GitHub 的顶级存储库和 Reddit 的顶级讨论(从四月开始),我们每个月都在下面讨论:
图像到图像的翻译领域已经取得了巨大的进步。然而,视频处理领域近年来鲜有突破。直到现在。
英伟达(NVIDIA)已经在利用深度学习技术进行图像和视频处理方面处于领先地位,它开源了一种从视频到视频的翻译技术,其结果令人震惊。他们已经在 GitHub 上开源了他们的代码,所以你现在就可以开始使用这种技术了。代码是 vid2vid 的 PyTorch 实现,你可以利用它来:
在这里查看我们对这个库的介绍。
如果你在强化学习领域工作或研究过,你就会知道复现现有的方法有多难(如果不是不可能的话)。Dopemine 是一个已经创建和开源的 TensorFlow 框架,它被寄予能加快这一领域的进展,使其更灵活和可复现的希望。
如果你一直想学习强化学习,但又被它的复杂程度吓到了,那么这个库就是一个珍贵的机会。仅有 15 个 Python 文件,代码附带详细的文档和免费数据集!
您还可以在这里阅读更多关于这个库。
在深度学习社区中,对象检测正在蓬勃发展,但对于新手来说,这可能是一个艰巨的挑战。要映射多少像素和帧数?如何提高一个非常基本的模型的准确性?甚至你从哪里开始?你不用再为这个烦恼了——多亏了麻省理工学院的算法,它能以惊人的精度自动检测目标。
他们的方法被称为「语义软分割(Semantic Soft Segmentation, SSS)」。原本需要一个专业人士花费 10 分钟来手工编辑的内容,你现在可以在几秒钟内完成!上面的图片很好地说明了这个算法是怎么工作的,以及在机器上实现它时的外观。
在这里更详细地查看我们对该技术的介绍。
姿态估计今年吸引了大量研究人员的兴趣,像麻省理工学院这样的出版物也发表了在这一领域取得进展的研究报告。从帮助老年人接受正确的治疗到商业应用,比如让一个人虚拟跳舞,姿态估计将成为商业上的下一个最好的东西。
这个库是微软的流行论文——简单的人类姿态估计和跟踪的基线的官方 PyTorch 实现。他们提供的基准模型和基准足够好,有希望能在这一研究领域激发新的想法。
这个是给所有 R用 户的。我们通常从 CRAN 那里下载 R 包,所以我个人觉得没有必要去 GitHub,但是这个包我觉得很有趣。chorrrds 帮助你提取、分析和组织音乐和弦。它甚至预装了一些音乐数据集。
实际上,您可以直接从 CRAN 安装它,或者使用 devtools 包从 GitHub 下载它。在这篇文章中,您将了解更多关于如何做到这一点的信息,以及更多细节。
你可能在过去的几个月里没有关注过 OpenAI。他们的团队一直在努力宣传他们的最新创新——OpenAI Fivem,这是一个由 5 个神经网络组成的团队,他们共同努力,以在玩 Dota 上变得更好为目标。这些神经网络做得非常好,一直到他们遇到了第一支职业 Dota 团队。
Reddit 的这篇文章从各个角度来看待球队的失败,而机器学习的观点真的很突出。即使你还没有读过他们的研究论文,这篇文章也有足够的信息让你快速了解。关于这个话题,有超过 100 条评论,一个真正丰富知识的讨论。
译者注:这里的 Notebook 即指 Jupyter Notebooks
在数据科学和机器学习领域,我们中的大多数人都使用 Notebook 来完成各种任务,比如数据清理、模型构建等。实际上,我还没有遇到过在数据科学的旅程中没有使用 Notebook 的人。我们通常不会质疑这些 Notebook 的局限性,不是吗?
现在我们来看看为什么 Notebook 并不像我们想象的那么有用。确保您浏览整个讨论,有一些来自数据科学家同行的好奇和深刻的评论。另外,你还可以看看制作精良的演示文稿。
TensorFlow 2.0 几周前被谷歌提出,预计将在未来几个月发布。这条线索既有趣又严肃。来自世界各地的 TensorFlow 用户给出了他们所期望的,以及他们想看到的添加。相当多的评论围绕着 Eager Execution 的有用性展开。
Eager Execution:TensorFlow 的即时执行(Eager Execution)是一个重要的编程环境,它可以立即评估操作,而不需要构建图表:即操作返回具体的值,而不是构建一个计算图稍后运行。这使得开始使用 TensorFlow 和调试模型变得很容易,同时也减少了样板文件。
这是一个期待已久的更新,是一件被期待的大事。谷歌会发布吗?
有人写了一些关于 Julia 将来如何取代 Python 的文章之后,最近这一语言在社交媒体上广为流传。我收到过评论该语言的请求,并将每个人都引导到这个帖子。还有什么地方比一个核心 ML Reddit 帖子更能检验编程语言的优缺点呢?
除了阅读一个视角,您还可以访问多个评论,每个评论都添加了一个独特的观点。我喜欢这个讨论的地方是,许多现有的 Julia 用户已经添加了他们的 2 美分。人们的共识似乎是,它显示出了很多希望(尤其是最新版本 Julia 1.0),但它在赶上 Python 之前还有一段时间。
我们都在努力解决现实世界中的问题,而我们往往会忘记在现有项目中可能出现的问题。您可能会对人们在这里讲述的故事感到惊讶——其中一个故事中,他们对一行有重复的条目,这使得模型大量超出了训练数据。对于行业中出现的数据泄漏问题,还有一些有用的链接供您进一步阅读。
你曾经是数据泄露的受害者吗?在这个 Reddit 帖子上分享你的故事并参与讨论吧!
以上是原文翻译过来的,这些话题都是挺吸引人的。对于 GitHub 项目的更多介绍,基于篇幅关系,没有完全翻译,但我们都留了链接,你可以戳进去查阅原文,或者如果你对于其中某一篇感兴趣,希望我们可以翻译,可以留言让我们知道!
此外,如果你想了解更多关于人工智能的资讯,欢迎扫码关注微信公众号以及知乎专栏 「译智社」,我们为大家提供优质的人工智能文章、国外优质博客和论文等资讯哟!