如何才能进入数据孵化器中心

提示:文章中划线部分涉及的链接列在文章的末尾。

我们数据孵化器中心收到成千上万份想要加入我们数据分析协会的申请。我们的要求非常高,以致于经常有人问我们以下问题:“我要怎么做才能加入你们的数据分析协会呢?”

如何才能进入数据孵化器中心_第1张图片

接下来我将介绍我们最看重的五个技能以及相应的学习资源,虽然我们并不要求申请者同时拥有这些技能,但是大多数申请人需要掌握大部分的技能。

爬虫技术

如何才能进入数据孵化器中心_第2张图片

互联网上有许多数据,你需要学习如何获取它们。不管它们的格式是 JSON,HTML 或者其他一些自制的格式,你都应该能够轻松地把它们抓取下来。像 Python 专业的现代脚本语言是写爬虫程序的理想工具。在 Python 中,有许多便捷的软件库帮助我们更好地完成爬虫工作,比如 urllib2, requests, simplejson, re 和 beautiful soup。进阶的爬虫相关软件库有处理错误机制的 retrying 和 并行处理的 multiprocessing。

SQL


当你获得一大堆结构化数据后,接下来你需要考虑的问题是如何储存它们?SQL 是一门原始的查询语言,以至于许多语言都有 SQL 查询接口,比如 R 语言中的 sqldf和 HIVE。通常情况下,安装 SQL 的过程非常麻烦。不过幸运的是,这里有一个 在线学习网站,该网站提供了一个交互式环境,你可以在网站上提交自己的 SQL 查询代码。此外,如果你想在本地环境中使用 SQL,那么你可以尝试使用 SQLite。

数据框

如何才能进入数据孵化器中心_第3张图片

虽然 SQL 可以很好地处理大批量的数据集,但是 SQL 中缺乏机器学习模型和可视化的工具。因此我们通常利用 SQL 或者 MapReduce 来预处理数据,然后利用 R 语言中的数据框或者 Python 的 pandas来做进一步的数据分析。对于 pandas 来说,在视频网站 YouTube 上有其创始人 Wes McKinney 发布的教学视频。你可以 点此观看视频,并跟着 github上的代码亲自练习。

机器学习模型

如何才能进入数据孵化器中心_第4张图片

许多数据分析只需要用到 select, join 和 groupby(或者 map 和 reduce)等操作即可完成,但是有时候你需要构建更深入的机器学习模型。在你接触复杂的算法之前可以考虑使用一些相对较简单的算法,比如 朴素贝叶斯模型和 正则化回归模型。在 Python 中,我们利用 scikit-learn来实现相应的机器学习模型,而在 R 语言中我们主要使用 glm 和 gbm� 软件包。你应该确保你在了解相关基础知识之后再进一步尝试更深入的算法模型。

可视化

如何才能进入数据孵化器中心_第5张图片

数据科学的一个重要过程是与他人共享你的一些发现,其中数据可视化是一个非常有效的手段。Python 中提供了 MATLAB 风格的绘图软件包 matplotlib,R 则提供了一个非常强大的绘图工具 ggplot。当然如果你想尝试动态可视化绘图工具的话,你可以试下 d3。

以上都是一些数据科学家的基础技能,掌握这些技能后对你的职业生涯会有很大的帮助。如果你仅仅只掌握了一部分技能,这是一个很好的开始。而且如果你已经做好准备的话,那么就来加入我们吧!

如何才能进入数据孵化器中心_第6张图片


原文链接:http://blog.thedataincubator.com/2014/09/how-to-prepare-for-the-data-incubator/

原文作者:Michael

译者:Fibears


你可能感兴趣的:(如何才能进入数据孵化器中心)