五步法学习Python进阶数据科学:数据分析和挖掘的入门分析及学习资源路径

原文: How to Learn Python for Data Science In 5 Steps
作者:Charlie Custer

为什么要为数据科学学习Python?

在探索如何学习Python进行数据科学之前,我们应该简要回答为什么首先要学习Python。
简而言之,理解Python是从事数据科学职业所需的宝贵技能之一

尽管并非总是如此,Python是数据科学的首选编程语言。以下是一段简短的历史:
2016年,它在数据科学竞赛的首要平台Kaggle上超越了R。
2017年,在KDNuggets的年度数据科学家最常用工具调查中,它超越了R。
2018年,66%的数据科学家报告每天都在使用Python,这使它成为分析专业人士的头号语言。

数据科学专家预计,随着Python生态系统的不断发展,这一趋势将继续下去。虽然您学习Python编程的旅程可能才刚刚开始,但很高兴知道就业机会也很丰富(而且还在增长)。

事实上,数据科学家的平均工资是121583美元。

好消息是什么?随着对数据科学家的需求预计将持续增长,这一数字预计只会增加。据Quanthub称,2020年,数据科学领域的职位招聘数量是数据科学领域的求职人数的三倍。这意味着对数据科学的需求远远超过了供给。

因此,数据科学的未来是光明的,Python只是众所周知的馅饼中的一块。幸运的是,学习Python和其他编程基础仍然是可以实现的。我们将通过五个简单的步骤向您展示如何操作。

但是请记住,仅仅因为步骤简单并不意味着你就不必投入工作。如果您全身心地投入并投入有意义的时间学习Python,那么您不仅有可能学会一项新技能,而且有可能将您的职业生涯提升到一个新的水平。

如何为数据科学学习Python

首先,您需要找到正确的课程来帮助您学习Python编程。Dataquest的课程专门为您设计,让您以自己的速度学习Python for data science,挑战您在交互式浏览器界面中编写真实代码和使用真实数据。
除了在课程设置中学习Python,您成为数据科学家的旅程还应该包括软技能。此外,我们建议您在学习过程中学习一些免费的技术技能。

步骤1:学习Python基础知识

每个人都从某个地方开始。这第一步是学习Python编程基础知识的地方。您还需要介绍数据科学。
在旅程的早期,您应该开始使用的一个重要工具是Jupyter笔记本,它预先打包了Python库,以帮助您学习这两件事。

通过加入社区来启动您的学习

通过加入社区,你将与志同道合的人交往,增加就业机会。根据人力资源管理学会的数据,员工推荐占所有员工的30%。

创建一个Kaggle帐户,加入本地Meetup小组,并与现有学生和校友一起参与Dataquest的学习者社区。

相关技能:尝试命令行界面
通过命令行界面(CLI :Command Line Interface),可以更快地运行脚本,从而可以更快地测试程序并处理更多数据。

步骤2:练习迷你Python项目

我们真正相信动手学习。您可能会惊讶于很快就可以构建小型Python项目了。我们已经为初学者编写了一本很棒的Python项目指南,其中包括以下想法:

  • 跟踪和分析您的个人亚马逊消费习惯:一个有趣的项目,将帮助你练习Python和pandas的基础知识,同时也让你真正了解你的个人财务状况。
  • 分析来自调查的数据:* 在这个初学者项目中查找公共调查数据或使用您自己工作中的调查数据,该项目将教您深入了解我的见解的答案。

尝试我们的一个指导性项目-交互式Python项目,针对每一个技能级别,使用真实数据并提供指导,同时仍然挑战您以新的方式应用您的技能。

但这只是冰山一角,真的。你可以尝试为在线游戏编写计算器,或者从你所在城市的谷歌上获取天气信息的程序。您还可以构建简单的游戏和应用程序,帮助您熟悉Python的使用。

构建这样的小型项目将帮助您学习Python。像这样的编程项目是所有语言的标准,也是巩固您对基础知识理解的好方法。

您应该开始使用API建立您的体验,并开始web抓取。除了帮助您学习Python编程之外,web抓取还将有助于您以后收集数据。

通过阅读开始你的学习

加强您的课程,并找到您遇到的Python编程挑战的答案。阅读指南、博客文章,甚至其他人的开源代码,学习Python和数据科学最佳实践,并获得新的想法。

阿尔·斯维加特(Al Sweigart)的《用Python自动化无聊的东西》是一个极好的、有趣的资源。但我们已经整理了一份完整的数据科学电子书清单,供您免费阅读。亮点包括:

  • The Data Science Handbook 《数据科学手册》:收集了大量采访在职数据科学家的资料,让您更好地了解真正的数据科学工作以及如何在该领域取得成功。
    *Python Data Science Handbook 《Python数据科学手册》:一本很好的指南,在Github上还提供了方便的Jupyter笔记本格式,因此您可以自己深入并运行所有示例代码。
  • Elements of Statistical Learning 《统计学习的要素》:一本最近更新的大量统计教科书,可以作为学习Python的重要参考,以确保您的工作在统计上是有效的。

以上书籍都是亚马逊资源,大概可以了解一下这方面的概念,寻找国内译本或者类似资源学习即可

相关技能:使用SQL处理数据库

SQL用于与数据库对话以更改、编辑和重新组织信息。SQL是数据科学界的一个重要组成部分,我们已经写了一整篇文章,阐述了如果你想在数据领域找到工作,为什么需要学习SQL。

步骤3:学习Python数据科学库

与其他一些编程语言不同的是,在Python中,处理一些事情通常有一种最好的方法。用于数据科学的三个最好也是最重要的Python库是NumPy、Pandas和Matplotlib

我们已经为数据科学提供了15个最重要的Python库的有用指南,但这里有几个对于Python中的任何数据工作都非常重要:

  • NumPy:一个使各种数学和统计操作更容易的库;这也是熊猫图书馆许多特色的基础。
  • pandas:一个专门为方便处理数据而创建的Python库,这是许多Python数据科学工作的基础。
  • Matplotlib:一个可视化库,可以快速轻松地从数据生成图表。
  • scikit learn:Python中最流行的机器学习库。

NumPy和pandas非常适合探索和使用数据。Matplotlib是一个数据可视化库,它可以生成Excel或Google工作表中的图形。

通过提问开始学习
你不知道你不知道的!
Python拥有一个丰富的专家社区,他们渴望帮助您学习Python。像Quora、Stack Overflow和Dataquest的学习者社区这样的资源充满了乐于分享知识并帮助您学习Python编程的人。我们还为每节课提供了常见问题解答,以帮助您解答在使用Dataquest编程课程中遇到的问题。

相关技能:使用Git进行版本控制
Git是一种流行的工具,它可以帮助您跟踪代码的更改,从而更容易地更正错误、进行实验以及与他人协作。

步骤4:在学习Python时构建数据科学组合

对于有抱负的数据科学家来说,作品集(portfolio)是必须的。

这些项目应该包括使用几个不同的数据集,并且应该给读者留下您收集到的有趣的见解。需要考虑的一些项目类型:

  • 数据清理项目:任何涉及脏数据或“非结构化”数据的项目,您都需要清理和分析这些数据,这会给潜在的雇主留下深刻印象,因为大多数真实世界的数据都需要清理。
  • 数据可视化项目:制作有吸引力的、易于阅读的可视化既是编程也是设计挑战,但如果你能做得好,你的分析将更有影响力。在一个项目中拥有漂亮的图表将使你的投资组合脱颖而出。
  • 机器学习项目:如果你渴望成为一名数据科学家,你肯定需要一个展示你的ML技能的项目(你可能需要几个不同的机器学习项目,每个项目都专注于使用不同的流行算法)。

你的分析应该清晰直观地呈现出来;理想情况下,采用Jupyter笔记本这样的格式,以便技术人员可以阅读您的代码,但非技术人员也可以跟随您的图表和书面解释。

你的作品集不一定需要特定的主题。找到您感兴趣的数据集,然后想出一种将它们组合在一起的方法。然而,如果你渴望在某个特定的公司或行业工作,在你的投资组合中展示与该行业相关的项目是一个好主意。

展示这样的项目可以让数据科学家同事有机会与您进行潜在的合作,并向未来的雇主表明您确实花了时间学习Python和其他重要的编程技能。

数据科学的一个好处是,你的作品集可以作为简历翻倍,同时突出你学到的技能,比如Python编程。

通过以下方式启动您的学习:沟通、协作和专注于技术能力

在这段时间里,你需要确保你正在培养与他人合作所需的软技能,确保你真正理解你所使用的工具的内部工作原理。

相关技能:学习初级和中级统计

在学习用于数据科学的Python时,您还需要具备坚实的统计背景。了解统计数据将使您具备专注于正确事物所需的心态,因此您将发现有价值的见解(和真正的解决方案),而不仅仅是执行代码。

步骤5:应用先进的数据科学技术

最后,提高你的技能。您的数据科学之旅将充满不断的学习,但您可以完成一些高级课程,以确保您已涵盖所有基础知识。

您需要熟悉回归、分类和k-means聚类模型。您还可以进入机器学习–使用scikit学习引导模型和创建神经网络。

此时,编程项目可以包括使用实时数据源创建模型。这种机器学习模型会随着时间的推移调整其预测。

记住:继续保持学习!

数据科学是一个不断发展的领域,跨越许多行业。
在需求增长的速度下,学习的机会呈指数级增长。继续阅读、合作和与他人交谈,你一定会保持兴趣和竞争优势。

学习Python需要多长时间?

阅读这些步骤后,人们问我们的最常见问题是:“这一切需要多长时间?”
对于学习Python所需的时间有很多估计。具体地说,对于数据科学而言,持续实践的时间从三个月到一年不等。

我们看到人们以闪电般的速度通过我们的课程,而其他人则走得慢得多。

实际上,这完全取决于您想要的时间线、您可以用来学习Python编程的空闲时间以及学习的速度。

Dataquest的课程是为你自己的速度而创建的。每一条路径都充满了课程、实践学习和提问机会,让您能够深入掌握数据科学基础知识。

免费开始。通过我们的数据科学家之路学习Python,今天就开始掌握一项新技能!

在哪里可以学习数据科学的Python?

有很多Python学习资源,但是如果你想学习数据科学,最好选择专门教授数据科学的地方。

这是因为Python也被用于从游戏开发到移动应用程序的各种其他编程规程中。一般的“学习Python”资源尝试教授一些东西,但这意味着您将学习很多与数据科学工作无关的东西。

此外,做一些与你的目标没有联系的事情会让你觉得很没动力。如果你想做数据分析,而你正在努力学习一门教你用Python构建游戏的课程,那么你很容易会感到沮丧并放弃。

有很多免费的Python数据科学教程。如果你不想花钱学习Python,这是一个很好的选择——上一句中的链接包括几十个,按难度和重点区域分开。

不过,如果你是认真的,那么最好找到一个互动式教学平台,其中包含一个课程,可以指导你完成数据科学学习之旅。Dataquest就是这样一个平台,我们提供了一系列课程,可以让您从初学者到合格的Python数据分析师Data Analyst或数据科学家Data Scientist。

Python在数据科学领域是必要的吗?

作为一名数据科学家,可以使用Python或R。每种语言都有其优缺点,这两种语言都在业界广泛使用。Python总体上更受欢迎,但R在某些行业(特别是学术界和研究界)占据主导地位。

要进行数据科学工作,您肯定需要至少学习这两种语言中的一种。它不必是Python,但它必须是Python或R中的一种。

(当然,无论选择哪种Python或R作为主要编程语言,您都必须学习一些SQL)。

Python在数据科学方面是否优于R?

这是数据科学中经常讨论的话题,但真正的答案是,这取决于你在寻找什么,以及你喜欢什么。

R是在考虑统计和数学的基础上建立起来的,并且有一些惊人的软件包使它易于用于数据科学。它还有一个非常支持的在线社区。

Python是一种更好的全方位工作语言,这意味着您的Python技能将更易于转移到其他学科。它也稍微流行一点,有些人会争辩说这两种方法中比较容易学(尽管很多研究人员不同意)。

与其阅读观点,不如看看这篇关于Python和R如何处理类似数据科学任务的更客观的文章,看看哪一篇看起来更容易理解。

Python是如何用于数据科学的?

像Python这样的编程语言在数据科学过程中的每一步都被使用。例如,数据科学项目工作流可能如下所示:

  1. 使用Python和SQL,您可以编写一个查询,从公司数据库中提取所需的数据。
  2. 使用Python和pandas库,可以将数据清理并排序到一个数据框(表)中,以便进行分析。
  3. 使用Python以及pandas和matplotlib库,您可以开始分析、探索和可视化数据。
  4. 通过您的探索了解更多关于数据的信息后,您可以使用Python和scikit学习库构建一个预测模型,该模型基于您获取的数据预测公司未来的结果。
  5. 您将最终分析和模型结果安排为与同事沟通的适当格式。

Python几乎在这一过程中的每一步都在使用!

后续会做这个文章涉及的其他文章的搬运。如有兴趣请点订阅/关注。

你可能感兴趣的:(数据分析入门,python,数据分析,开发语言,数据挖掘,职场和发展)