原文: How to Learn Python for Data Science In 5 Steps
作者:Charlie Custer
在探索如何学习Python进行数据科学之前,我们应该简要回答为什么首先要学习Python。
简而言之,理解Python是从事数据科学职业所需的宝贵技能之一。
尽管并非总是如此,Python是数据科学的首选编程语言。以下是一段简短的历史:
2016年,它在数据科学竞赛的首要平台Kaggle上超越了R。
2017年,在KDNuggets的年度数据科学家最常用工具调查中,它超越了R。
2018年,66%的数据科学家报告每天都在使用Python,这使它成为分析专业人士的头号语言。
数据科学专家预计,随着Python生态系统的不断发展,这一趋势将继续下去。虽然您学习Python编程的旅程可能才刚刚开始,但很高兴知道就业机会也很丰富(而且还在增长)。
事实上,数据科学家的平均工资是121583美元。
好消息是什么?随着对数据科学家的需求预计将持续增长,这一数字预计只会增加。据Quanthub称,2020年,数据科学领域的职位招聘数量是数据科学领域的求职人数的三倍。这意味着对数据科学的需求远远超过了供给。
因此,数据科学的未来是光明的,Python只是众所周知的馅饼中的一块。幸运的是,学习Python和其他编程基础仍然是可以实现的。我们将通过五个简单的步骤向您展示如何操作。
但是请记住,仅仅因为步骤简单并不意味着你就不必投入工作。如果您全身心地投入并投入有意义的时间学习Python,那么您不仅有可能学会一项新技能,而且有可能将您的职业生涯提升到一个新的水平。
首先,您需要找到正确的课程来帮助您学习Python编程。Dataquest的课程专门为您设计,让您以自己的速度学习Python for data science,挑战您在交互式浏览器界面中编写真实代码和使用真实数据。
除了在课程设置中学习Python,您成为数据科学家的旅程还应该包括软技能。此外,我们建议您在学习过程中学习一些免费的技术技能。
每个人都从某个地方开始。这第一步是学习Python编程基础知识的地方。您还需要介绍数据科学。
在旅程的早期,您应该开始使用的一个重要工具是Jupyter笔记本,它预先打包了Python库,以帮助您学习这两件事。
通过加入社区来启动您的学习
通过加入社区,你将与志同道合的人交往,增加就业机会。根据人力资源管理学会的数据,员工推荐占所有员工的30%。
创建一个Kaggle帐户,加入本地Meetup小组,并与现有学生和校友一起参与Dataquest的学习者社区。
相关技能:尝试命令行界面
通过命令行界面(CLI :Command Line Interface),可以更快地运行脚本,从而可以更快地测试程序并处理更多数据。
我们真正相信动手学习。您可能会惊讶于很快就可以构建小型Python项目了。我们已经为初学者编写了一本很棒的Python项目指南,其中包括以下想法:
尝试我们的一个指导性项目-交互式Python项目,针对每一个技能级别,使用真实数据并提供指导,同时仍然挑战您以新的方式应用您的技能。
但这只是冰山一角,真的。你可以尝试为在线游戏编写计算器,或者从你所在城市的谷歌上获取天气信息的程序。您还可以构建简单的游戏和应用程序,帮助您熟悉Python的使用。
构建这样的小型项目将帮助您学习Python。像这样的编程项目是所有语言的标准,也是巩固您对基础知识理解的好方法。
您应该开始使用API建立您的体验,并开始web抓取。除了帮助您学习Python编程之外,web抓取还将有助于您以后收集数据。
通过阅读开始你的学习
加强您的课程,并找到您遇到的Python编程挑战的答案。阅读指南、博客文章,甚至其他人的开源代码,学习Python和数据科学最佳实践,并获得新的想法。
阿尔·斯维加特(Al Sweigart)的《用Python自动化无聊的东西》是一个极好的、有趣的资源。但我们已经整理了一份完整的数据科学电子书清单,供您免费阅读。亮点包括:
以上书籍都是亚马逊资源,大概可以了解一下这方面的概念,寻找国内译本或者类似资源学习即可
相关技能:使用SQL处理数据库
SQL用于与数据库对话以更改、编辑和重新组织信息。SQL是数据科学界的一个重要组成部分,我们已经写了一整篇文章,阐述了如果你想在数据领域找到工作,为什么需要学习SQL。
与其他一些编程语言不同的是,在Python中,处理一些事情通常有一种最好的方法。用于数据科学的三个最好也是最重要的Python库是NumPy、Pandas和Matplotlib。
我们已经为数据科学提供了15个最重要的Python库的有用指南,但这里有几个对于Python中的任何数据工作都非常重要:
NumPy和pandas非常适合探索和使用数据。Matplotlib是一个数据可视化库,它可以生成Excel或Google工作表中的图形。
通过提问开始学习
你不知道你不知道的!
Python拥有一个丰富的专家社区,他们渴望帮助您学习Python。像Quora、Stack Overflow和Dataquest的学习者社区这样的资源充满了乐于分享知识并帮助您学习Python编程的人。我们还为每节课提供了常见问题解答,以帮助您解答在使用Dataquest编程课程中遇到的问题。
相关技能:使用Git进行版本控制
Git是一种流行的工具,它可以帮助您跟踪代码的更改,从而更容易地更正错误、进行实验以及与他人协作。
对于有抱负的数据科学家来说,作品集(portfolio)是必须的。
这些项目应该包括使用几个不同的数据集,并且应该给读者留下您收集到的有趣的见解。需要考虑的一些项目类型:
你的分析应该清晰直观地呈现出来;理想情况下,采用Jupyter笔记本这样的格式,以便技术人员可以阅读您的代码,但非技术人员也可以跟随您的图表和书面解释。
你的作品集不一定需要特定的主题。找到您感兴趣的数据集,然后想出一种将它们组合在一起的方法。然而,如果你渴望在某个特定的公司或行业工作,在你的投资组合中展示与该行业相关的项目是一个好主意。
展示这样的项目可以让数据科学家同事有机会与您进行潜在的合作,并向未来的雇主表明您确实花了时间学习Python和其他重要的编程技能。
数据科学的一个好处是,你的作品集可以作为简历翻倍,同时突出你学到的技能,比如Python编程。
通过以下方式启动您的学习:沟通、协作和专注于技术能力
在这段时间里,你需要确保你正在培养与他人合作所需的软技能,确保你真正理解你所使用的工具的内部工作原理。
相关技能:学习初级和中级统计
在学习用于数据科学的Python时,您还需要具备坚实的统计背景。了解统计数据将使您具备专注于正确事物所需的心态,因此您将发现有价值的见解(和真正的解决方案),而不仅仅是执行代码。
最后,提高你的技能。您的数据科学之旅将充满不断的学习,但您可以完成一些高级课程,以确保您已涵盖所有基础知识。
您需要熟悉回归、分类和k-means聚类模型。您还可以进入机器学习–使用scikit学习引导模型和创建神经网络。
此时,编程项目可以包括使用实时数据源创建模型。这种机器学习模型会随着时间的推移调整其预测。
记住:继续保持学习!
数据科学是一个不断发展的领域,跨越许多行业。
在需求增长的速度下,学习的机会呈指数级增长。继续阅读、合作和与他人交谈,你一定会保持兴趣和竞争优势。
阅读这些步骤后,人们问我们的最常见问题是:“这一切需要多长时间?”
对于学习Python所需的时间有很多估计。具体地说,对于数据科学而言,持续实践的时间从三个月到一年不等。
我们看到人们以闪电般的速度通过我们的课程,而其他人则走得慢得多。
实际上,这完全取决于您想要的时间线、您可以用来学习Python编程的空闲时间以及学习的速度。
Dataquest的课程是为你自己的速度而创建的。每一条路径都充满了课程、实践学习和提问机会,让您能够深入掌握数据科学基础知识。
免费开始。通过我们的数据科学家之路学习Python,今天就开始掌握一项新技能!
在哪里可以学习数据科学的Python?
有很多Python学习资源,但是如果你想学习数据科学,最好选择专门教授数据科学的地方。
这是因为Python也被用于从游戏开发到移动应用程序的各种其他编程规程中。一般的“学习Python”资源尝试教授一些东西,但这意味着您将学习很多与数据科学工作无关的东西。
此外,做一些与你的目标没有联系的事情会让你觉得很没动力。如果你想做数据分析,而你正在努力学习一门教你用Python构建游戏的课程,那么你很容易会感到沮丧并放弃。
有很多免费的Python数据科学教程。如果你不想花钱学习Python,这是一个很好的选择——上一句中的链接包括几十个,按难度和重点区域分开。
不过,如果你是认真的,那么最好找到一个互动式教学平台,其中包含一个课程,可以指导你完成数据科学学习之旅。Dataquest就是这样一个平台,我们提供了一系列课程,可以让您从初学者到合格的Python数据分析师Data Analyst或数据科学家Data Scientist。
作为一名数据科学家,可以使用Python或R。每种语言都有其优缺点,这两种语言都在业界广泛使用。Python总体上更受欢迎,但R在某些行业(特别是学术界和研究界)占据主导地位。
要进行数据科学工作,您肯定需要至少学习这两种语言中的一种。它不必是Python,但它必须是Python或R中的一种。
(当然,无论选择哪种Python或R作为主要编程语言,您都必须学习一些SQL)。
这是数据科学中经常讨论的话题,但真正的答案是,这取决于你在寻找什么,以及你喜欢什么。
R是在考虑统计和数学的基础上建立起来的,并且有一些惊人的软件包使它易于用于数据科学。它还有一个非常支持的在线社区。
Python是一种更好的全方位工作语言,这意味着您的Python技能将更易于转移到其他学科。它也稍微流行一点,有些人会争辩说这两种方法中比较容易学(尽管很多研究人员不同意)。
与其阅读观点,不如看看这篇关于Python和R如何处理类似数据科学任务的更客观的文章,看看哪一篇看起来更容易理解。
像Python这样的编程语言在数据科学过程中的每一步都被使用。例如,数据科学项目工作流可能如下所示:
Python几乎在这一过程中的每一步都在使用!
后续会做这个文章涉及的其他文章的搬运。如有兴趣请点订阅/关注。