来源 | Python Data Analysis 3rd Edition
作者 | Navlani,et al.
翻译 | Harper
校对 | gongyouliu
编辑 | auroral-L
全文共9691字,预计阅读时间45分钟。
第一章 Python 库入门
1. 了解数据分析
2. 数据分析的标准流程
3. KDD流程
4. SEMMA
5. CRISP-DM
6. 比较数据分析和数据科学
6.1 数据分析师和数据科学家的角色
7. 数据分析师和数据科学家的技能
8. 安装 Python 3
8.1 Windows 上的 Python 安装和设置
8.2 在 Linux 上安装和设置 Python
8.3 使用 GUI 安装程序在 Mac OS X 上进行 Python 安装和设置
8.4 使用 brew 在 Mac OS X 上进行 Python 安装和设置
9. 本书中使用的软件
10. 使用 IPython 作为 shell
10.1 阅读手册页
10.2 在哪里可以找到对 Python 数据分析库的帮助和参考呢?
11. 使用 JupyterLab
12. 使用 Jupyter 笔记本
13. Jupyter 笔记本的高级功能
13.1 键盘快捷键
13.2 安装其他内核
13.3 运行 shell 命令
13.4 Notebook 扩展
14. 总结
众所周知,Python已成为最受欢迎的标准语言之一,并且是基于数据科学的操作的完整软件包。Python提供了许多库,例如NumPy,Pandas,SciPy,Scikit-Learn,Matplotlib,Seaborn和Plotly。这些库提供了一个完整的数据分析生态系统,供数据分析师,数据科学家和业务分析师使用。Python还提供了其他功能,例如灵活性,易于学习,开发速度快,活跃的社区以及在复杂的数字,科学和研究应用程序上工作的能力。所有这些功能使其成为数据分析的首选。
在本章中,我们将重点介绍各种数据分析过程,例如KDD,SEMMA和CRISP-DM。之后,我们将对数据分析和数据科学进行比较,以及对于数据分析师和数据科学家的角色和不同技能进行比较。最后,我们将转移工作重点,并开始安装各种Python库,IPython,Jupyter Lab和Jupyter笔记本。我们还将介绍Jupyter Notebook的各种高级功能。
1. 了解数据分析
我们生活在21世纪这个信息时代,这意味着我们日常生活的几乎每个方面都在生成数据。不仅如此,企业运营,政府运营和社会岗位也在生成大量数据。由于业务,政府,科学,工程,健康,社会,气候和环境等方面在不断产生数据,因此数据在日复一日地积累。在这所有的领域中,我们需要一个系统的、通用的、有效的和灵活的系统来进行分析和研究,以便我们能够洞悉正在生成的数据。
在当今的智能世界中,数据分析为企业和政府运营提供了有效的决策流程。数据分析是检查,预处理,探索,描述和可视化给定数据集的活动。数据分析过程的主要目标是发现决策所需的信息。数据分析提供了多种方法,工具和技术。所有这些方法都可以应用于各个领域,例如商业,社会科学和基础科学。
接下来让我们看一下Python生态系统的一些核心基础数据分析库:
NumPy:这是数字Python的简写形式。它是Python中最强大的科学库,用于处理多维数组,矩阵和方法,以便有效地计算数学问题。
SciPy:这也是一个功能强大的科学计算库,用于执行科学,数学和工程运算。
Pandas:这是一个数据探索和操作库,提供表格格式的数据结构,例如DataFrames以及用于数据分析和操作的各种方法。
Scikit-learn:代表“机器学习的科学工具包”。它是一个机器学习库,提供了各种有监督和无监督的算法,例如回归,分类,降维,聚类分析和异常检测。
Matplotlib:这是一个核心的数据可视化库,并且是Python中所有其他可视化库的基础库。它提供2D和3D绘图,图形,图表以及用于数据浏览的图形。它在NumPy和SciPy之上运行。
Seaborn:这是基于Matplotlib的,提供了易于绘制,高层次,互动性和更有条理的平面图。
Plotly:Plotly是一个数据可视化库。它提供了高质量的交互式图表,例如散点图,折线图,条形图,直方图,箱形图,热图和子图。
必要时,本书将提供所需库和软件的安装说明。同时,我们将讨论各种数据分析过程,例如标准过程,KDD,SEMMA和CRISP-DM。
2. 数据分析的标准流程
数据分析是指调查数据,从中寻找有意义的见解,并得出结论。此过程的主要目标是收集,过滤,清理,转换,探索,描述,可视化和交流来自这些数据的见解,以发现决策信息。通常,数据分析过程包含以下内容:
〇收集数据:从多个来源收集和聚合数据。
〇预处理数据:过滤,清理数据并将其转换为所需的格式。
〇 分析和发现见解:探索,描述和可视化数据,并找到见解和结论。
〇见解解释:了解见解并找到每个变量对系统的影响。
〇讲故事:以故事的形式传达你的结果,以便外行可以理解它们。
我们可以通过以下流程图总结数据分析过程的这些步骤:
在本节中,我们介绍了标准的数据分析过程,该过程强调寻找可解释的见解并将其转换为用户故事。在下一节中,我们将讨论KDD流程。
3. KDD流程
KDD是一个缩写,代表从数据中发现知识或在数据库中发现知识。许多人将KDD视为数据挖掘的代名词。数据挖掘被称为有趣模式的知识发现过程。KDD的主要目标是从大型数据库,数据仓库以及其他Web和信息存储库中提取或发现隐藏的有趣模式。KDD流程分为七个主要阶段:
〇 数据清理:在此第一阶段,对数据进行预处理。此处,消除了噪声,处理了缺失值,并检测了异常值。
〇数据集成:在此阶段,使用数据迁移和ETL工具将来自不同来源的数据合并和集成在一起。
〇 数据选择:在此阶段,将收集与分析任务相关的数据。
〇数据转换:在此阶段,将以所需的适当形式设计数据以进行分析。
〇 数据挖掘:在此阶段,数据挖掘技术用于发现有用和未知的模式。
〇 模式评估:在此阶段,对提取的模式进行评估。
〇知识呈现:在模式评估之后,需要对提取的知识进行可视化处理,并呈现给业务人员以用于决策。
下图显示了完整的KDD过程:
KDD是提高数据质量,集成和转换以获得更完善系统的迭代过程。接下来,我们来讨论SEMMA流程。
4. SEMMA
SEMMA首字母缩略词的完整格式为“采样”,“浏览”,“修改”,“模型”和“评估”。按此顺序的数据挖掘过程是由SAS开发的。SEMMA流程分为五个主要阶段:
〇采样:在此阶段,我们将识别不同的数据库并将其合并。之后,我们选择用于建模过程的数据样本。
〇探索:在此阶段,我们了解数据,发现变量之间的关系,将数据可视化,并获得初步的解释。
〇修改:在此阶段,准备数据进行建模。此阶段涉及处理缺失值,检测异常值,转换要素以及创建新的附加要素。
〇模型:在此阶段,主要关注的是选择和应用不同的建模技术,例如线性和逻辑回归,反向传播网络,KNN,支持向量机,决策树和随机森林。
〇评估:在最后一个阶段,使用绩效评估方法对已开发的预测模型进行评估。
下图显示了SEMMA过程:
上图显示了SEMMA过程中涉及的步骤。SEMMA强调模型的建立和评估。现在,让我们讨论一下CRISP-DM的过程。
5. CRISP-DM
CRISP-DM的完整格式是CRoss-InduStry Process for Data Mining。CRISP-DM是一个定义明确,结构合理且经过验证的流程,用于机器学习,数据挖掘和商业智能项目。它是一种健壮,灵活,循环,有用和实用的方法,用来解决业务问题。该过程从各个数据库发现隐藏的有价值的信息或模式。CRISP-DM流程分为六个主要阶段:
〇业务了解:在此第一阶段,主要目标是了解业务场景和设计分析目标和初始行动计划的要求。
〇数据理解:在此阶段,主要目标是了解数据及其收集过程,执行数据质量检查并获得初步见解。
〇数据准备:在此阶段,主要目标是准备可用于分析的数据。这涉及处理缺失值,离群值检测和处理,数据归一化以及特征工程。对于数据科学家/分析人员而言,此阶段最耗时。
〇建模:这是整个过程中最令人兴奋的阶段,因为在此阶段中,你出于预测目的设计模型。首先,分析人员需要确定建模技术并根据数据开发模型。
〇评估:模型开发完成后,就可以使用模型评估措施(例如MSE,RMSE,R-Square回归和准确性,精度,召回率和F1措施)在验证和测试数据上评估和测试模型的性能。
〇部署:在此最后阶段,将在上一步中选择的模型部署到生产环境中。这需要数据科学家,软件开发人员,DevOps专家和业务专业人员的团队合作。
下图显示了CRISP-DM过程的完整周期:
标准过程侧重于发现见解并以故事形式进行解释,而KDD侧重于数据驱动的模式发现并对其进行可视化。SEMMA主要专注于模型构建任务,而CRISP-DM专注于业务理解和部署。现在我们了解了数据分析的一些过程,下面我们比较一下数据分析和数据科学,以发现它们之间的关系以及使它们彼此不同的原因。
6. 比较数据分析和数据科学
数据分析是探索数据,以发现有助于我们做出业务决策的模式的过程。它是数据科学的子领域之一。数据分析方法和工具已被业务分析师,数据科学家和研究人员广泛用于多个业务领域。其主要目标是提高生产力和利润。数据分析从不同来源提取和查询数据,进行探索性数据分析,可视化数据,准备报告,并将其提供给业务决策机构。另一方面,数据科学是一个跨学科领域,它使用科学方法从结构化和非结构化数据中提取见解。数据科学是所有术语的结合,包括数据分析,数据挖掘,机器学习和其他相关领域。数据科学不仅限于探索性数据分析,还用于开发模型和预测算法,例如股票价格,天气,疾病,欺诈预测以及诸如电影,书籍和音乐推荐之类的推荐。
6.1 数据分析师和数据科学家的角色
数据分析师收集,过滤,处理和应用所需的统计知识以从数据中捕获模式,趋势和见解,并准备用于决策的报告。数据分析师的主要目标是使用发现的模式和趋势来帮助公司解决业务问题。数据分析师还评估数据的质量并处理与数据获取有关的问题。数据分析师应精通编写SQL查询,发现模式,使用可视化工具和使用报告工具,例如Microsoft Power BI,IBM Cognos,Tableau,QlikView,Oracle BI等。
数据科学家比数据分析师更具技术性和数学能力。数据科学家以研究和学术为导向,而数据分析师则以应用程序为导向。数据科学家会预测未来的事件,而数据分析师则从数据中提取重要的见解。数据科学家会提出自己的问题,而数据分析师会找到给定问题的答案。最后,数据科学家专注于将要发生的事情,而数据分析师则专注于迄今为止发生的事情。我们可以使用下表总结这两个角色:
特点 |
数据科学家 |
数据分析师 |
背景 |
根据数据预测未来事件和场景 |
从数据中发现有意义的见解。 |
角色作用 |
提出可以使企业受益的问题 |
解决业务问题以做出决策。 |
数据类型 |
处理结构化和非结构化数据 |
仅适用于结构化数据 |
编程方式 |
高级编程 |
基础编程 |
技能 |
统计知识,机器学习算法,NLP和深度学习 |
统计,SQL和数据可视化方面的知识 |
工具 |
R,Python,SAS,Hadoop,Spark,TensorFlow和Keras |
Excel,SQL,R,Tableau和QlikView |
既然我们知道了数据分析师和数据科学家的定义,以及它们之间的区别,那么让我们来看看你要成为其中之一需要具备的各种技能。
7. 数据分析师和数据科学家的技能
数据分析师是从数据中发现见解并从中创造价值的人。这有助于决策者了解企业的经营状况。数据分析师必须具备以下技能:
〇探索性数据分析(EDA):EDA是数据分析人员的一项必不可少的技能。它有助于检查数据以发现模式,检验假设并确定假设。
〇关系数据库:必须至少了解一种关系数据库工具,例如MySQL或PostgreSQL是处理关系数据库所必需的。
〇可视化和BI工具:图片胜于言语。视觉对人类的影响更大,视觉是代表见解的一种简单明了的选择。可视化和BI工具(例如Tableau,QlikView,MS Power BI和IBM Cognos)可以帮助分析师可视化和准备报告。
〇电子表格:必须具备MS Excel,WPS,Libra或Google表格的知识,才能以表格形式存储和管理数据。
〇讲故事和演示技能:讲故事的艺术是另一项必要技能。数据分析师应该是将数据事实与想法或事件联系起来并将其转化为故事的专家。
另一方面,数据科学家的主要工作是使用数据解决问题。为此,他们需要了解客户的要求,他们的领域,他们的问题空间,并确保他们得到真正想要的东西。数据科学家承担的任务因公司而异。一些公司使用数据分析师并提供数据科学家的头衔,这只是为了美化职位。有些将数据分析师的任务与数据工程师结合在一起,并指定为数据科学家。其他的则赋予他们在计算机上执行密集数据可视化的任务。
数据科学家必须精通各行各业,要“多戴帽子”,包括数据分析师,统计学家,数学家,程序员,ML或NLP工程师的帽子。大多数人在所有这些行业中都不足够熟练或不是专家。另外,要想变得足够熟练,就需要大量的努力和耐心。这就是为什么在3到6个月内无法学习数据科学的原因。学习数据科学是一段旅程。数据科学家应具有多种技能,例如:
〇数学和统计学:大多数机器学习算法都基于数学和统计学。数学知识可帮助数据科学家开发定制解决方案。
〇数据库:SQL知识使数据科学家可以与数据库进行交互并收集数据以进行预测和推荐。
〇机器学习:对有监督的机器学习技术(例如回归分析,分类技术)和无监督的机器学习技术(例如聚类分析,离群值检测和降维)的了解。
〇编程技巧:编程知识可帮助数据科学家自动化其建议的解决方案。建议了解Python和R。
〇讲故事和演示技巧:通过PowerPoint演示以讲故事的形式交流结果。
〇大数据技术:对Hadoop和Spark等大数据平台的了解有助于数据科学家为大型企业开发大数据解决方案。
〇深度学习工具:TensorFlow和Keras等深度学习工具用于NLP和图像分析。
除了这些技能之外,还需要具备用于从各种来源提取数据的Web抓取程序包/工具的知识,以及用于设计原型解决方案的Web应用程序框架(例如Flask或Django)的知识。一切都与数据科学专业人员的技能有关。
既然我们已经介绍了数据分析和数据科学的基础知识,那么让我们深入了解开始进行数据分析所需的基本设置。在下一节中,我们将学习如何安装Python。
8. 安装Python 3
可以从官方网站轻松下载用于安装Python 3的安装程序文件(https://www.python.org/downloads/)适用于Windows,Linux和Mac 32位或64位系统。双击安装程序即可安装。此安装程序还具有一个名为“ IDLE”的IDE,可用于开发。在接下来的几节中,我们将更深入地研究每个操作系统。
8.1 Windows上的Python安装和设置
本书基于最新的Python 3版本。本书中将使用的所有代码都是用Python 3编写的,因此,在开始编码之前,我们需要安装Python 3。Python是一种开源,分布式且可免费使用的语言。它也被可用于商业用途。Python有许多种版本的实现,包括商业实现和发行版。在本书中,我们将重点介绍标准的Python实现,该实现可保证与NumPy兼容。
你可以从Python官方网站https://www.python.org/downloads/下载Python3.9.x。在这里,你可以找到Windows,Linux,Mac OS X和其他OS平台的安装文件。你可以在https://docs.python.org/3.7/using/index.html上找到有关在各种操作系统上安装和使用Python的说明。
你需要在系统上安装Python 3.5.x或更高版本。Python 2.7的停止维护日期已从2015年移至2020年,但在撰写本文时,Python社区将不支持和维护Python 2.7。
在撰写本书时,我们已在Windows 10虚拟机上安装了Python 3.8.3作为必备软件:
https://www.python.org/ftp/python/3.8.3/python-3.8.3.exe
8.2 在Linux上安装和设置Python
与其他操作系统相比,在Linux上安装Python要容易得多。要安装基础库,请运行以下命令行指令:
$ pip3 install numpy scipy pandas matplotlib jupyter notebook
如果你在使用的计算机上没有足够的权限,则可能必须在之前的命令之前运行sudo命令。
8.3 使用GUI安装程序在Mac OS X上进行Python安装和设置
可以通过Python官方网站上的安装文件来安装Python。可以从mac OS的官方网页(https://www.python.org/downloads/mac osx /)下载安装程序文件。此安装程序还具有一个名为“ IDLE”的IDE,可用于开发。
8.4 使用brew在Mac OS X上进行Python安装和设置
对于Mac系统,你可以使用Homebrew软件包管理器来安装Python。它可以简化开发人员,研究人员和科学家所需的应用程序的安装。brew install命令用于安装另一个应用程序,例如安装python3或任何其他Python软件包,例如NLTK或SpaCy。
要安装最新版本的Python,你需要在终端中执行以下命令:
$ brew install python3
安装后,你可以通过运行以下命令来确认已安装的Python版本:
$ python3 --version
Python 3.7.4
你还可以通过运行以下命令从命令行打开Python Shell:
$ python3
现在我们知道了如何在系统上安装Python,让我们深入研究开始数据分析所需的实际工具。
9. 本书中使用的软件
让我们讨论将在本书中使用的软件。在本书中,我们将使用Anaconda IDE来分析数据。在安装它之前,让我们了解什么是Anaconda。
Python程序可以轻松地在安装了该程序的任何系统上运行。我们可以在记事本上编写程序,然后在命令提示符下运行它。我们还可以在不同的IDE(例如Jupyter Notebook,Spyder和PyCharm)上编写和运行Python程序。
Anaconda是可免费获得的开源软件包,其中包含各种数据处理IDE和数个用于数据分析目的的软件包,例如NumPy,SciPy,Pandas,Scikit-learn等。Anaconda可以轻松下载和安装,如下所示:
〇从https://www.anaconda.com/distribution/下载安装程序。
〇选择你正在使用的操作系统。
〇在“ Python 3.7”部分中,选择32位或64位安装程序选项,然后开始下载。
〇双击运行安装程序。
〇安装完成后,在“开始”菜单中检查程序,或在“开始”菜单中搜索Anaconda。
Anaconda还具有Anaconda Navigator,这是一个桌面GUI应用程序,可用于启动Jupyter Notebook,Spyder,Rstudio,Visual Studio Code和JupyterLab等应用程序:
现在,我们来看一下IPython,这是一种用于数据分析的基于shell的计算环境。
10. 使用IPython作为shell
IPython是一个交互式shell,等效于诸如Matlab或Mathematica的交互式计算环境。创建此交互式shell是为了进行快速实验。对于正在执行小型实验的数据专业人员来说,这是一个非常有用的工具。
IPython Shell提供以下功能:
〇轻松访问系统命令。
〇轻松编辑内联命令。
〇制表符补全,可帮助你查找命令并加快任务执行速度。
〇命令历史记录,可帮助你查看以前使用的命令。
〇轻松执行外部Python脚本。
〇使用Python调试器轻松调试。
现在,让我们在IPython上执行一些命令。要启动IPython,请在命令行上使用以下命令:
$ ipython3
当你运行前面的命令时,将出现以下窗口:
现在,让我们了解并执行IPython Shell提供的一些命令:
〇历史记录命令:历史记录命令用于检查以前使用的命令列表。以下屏幕截图显示了如何在IPython中使用history命令:
〇系统命令:我们也可以使用感叹号在IPython Shell中,我们可以使用help命令打开可用命令列表。不必写功能的全名。你只需输入一些初始字符,然后按Tab键,它将找到你要查找的单词。例如,让我们使用ranging()函数。我们可以通过两种方式找到有关功能的帮助:(!)从IPython运行系统命令。在此,将感叹号后的输入命令视为系统命令。例如:!date将显示系统的当前日期,而!pwd将显示当前工作目录:
〇编写函数:我们可以像在任何IDE中编写函数那样编写函数,例如Jupyter Notebook,Python IDLE,PyCharm或Spyder。让我们看一个函数的例子:
〇退出IPython Shell:你可以使用quit()或exit()或CTRL + D退出IPython Shell:
〇你还可以使用quit()命令退出IPython Shell:
在本小节中,我们研究了可以在IPython Shell上使用的一些基本命令。现在,让我们讨论如何在IPython Shell中使用help命令。
10.1 阅读手册页
在IPython Shell中,我们可以使用help命令打开可用命令列表。不必写功能的全名。你只需输入一些初始字符,然后按Tab键,它将找到你要查找的单词。例如,我们使用ranging()函数。我们可以通过两种方式找到有关功能的帮助:
〇使用帮助功能:让我们键入help并写一些该功能的初始字符。之后,按Tab键,使用箭头键选择一个功能,然后按Enter键:
〇使用问号:我们也可以在函数名称后使用问号。以下屏幕截图显示了此示例:
在本小节中,我们研究了为模块功能提供的帮助和问号支持。我们还可以从库文档中获取帮助。接下来我们讨论如何在Python库中获取用于数据分析的文档。
10.2 在哪里可以找到对Python数据分析库的帮助和参考呢?
下表列出了我们在本章中讨论过的Python数据分析库的文档网站:
Packages/Software |
Description
|
NumPy |
https://numpy.org/doc/ |
SciPy |
https://docs.scipy.org/doc/ |
Pandas |
https://pandas.pydata.org/docs/ |
Matplotlib |
https://matplotlib.org/3.2.1/contents.html |
Seaborn |
https://seaborn.pydata.org/ |
Scikit-learn |
https://scikit-learn.org/stable/ |
Anaconda |
https://www.anaconda.com/distribution/ |
你还可以在StackOverflow平台上找到与NumPy,SciPy,Pandas,Matplotlib,Seaborn和Scikit-learn相关的各种Python编程问题的答案。你还可以在GitHub上提出与上述库有关的问题。
11. 使用JupyterLab
JupyterLab是下一代基于Web的用户界面。它结合了数据分析和机器学习产品开发工具,例如文本编辑器,笔记本,代码控制台和终端。这是一个灵活而强大的工具,应该成为数据分析师工具包的一部分:
你可以使用conda,pip或pipenv安装JupyterLab。
要使用conda进行安装,我们可以使用以下命令:
$ conda install -c conda-forge jupyterlab
要使用pip进行安装,我们可以使用以下命令:
$ pip install jupyterlab
要使用pipenv进行安装,我们可以使用以下命令:
$ pipenv安装jupyterlab
在本节中,我们学习了如何安装Jupyter Lab。在下一节中,我们将重点介绍Jupyter Notebooks。
12. 使用Jupyter Notebooks
Jupyter Notebook是一个Web应用程序,用于创建包含代码,文本,图形,链接,数学方程式和图表的数据分析笔记本。最近,社区推出了名为JupyterLab的下一代基于Web的Jupyter笔记本。你可以通过以下链接查看这些笔记本系列:
〇https://github.com/jupyter/jupyter/wiki/A-gallery-of-interestingJupyter-Notebooks
〇https://nbviewer.jupyter.org/
通常,这些笔记本用作教育工具或演示Python软件。
我们可以从纯Python代码或特殊笔记本格式导入或导出笔记本。这些笔记本可以在本地运行,或者我们可以通过运行专用的笔记本服务器使它们联机可用。某些Wakari,PiCloud和Google Colaboratory等云计算解决方案允许你在云中运行笔记本。
“ Jupyter”是Julia,Python和R的首字母缩写。最初,开发人员为这三种语言实现了它,但现在,它被用于其他各种语言,包括C,C ++,Scala,Perl,Go,PySpark和Haskell:
Jupyter Notebook提供以下功能:
〇它具有在浏览器中编辑代码的能力,并使用适当的缩进。
〇它具有从浏览器执行代码的能力。
〇它具有在浏览器中显示输出的功能。
〇它可以在单元格输出中呈现图形,图像和视频。
〇它具有导出PDF,HTML,Python文件和LaTex格式的代码的功能。
通过在Anaconda提示符下运行以下命令,我们还可以在Jupyter Notebook中同时使用Python 2和Python 3:
# For Python 2.7
conda create -n py27 python=2.7 ipykernel
# For Python 3.5
conda create -n py35 python=3.5 ipykernel
现在,我们介绍了各种工具和库,并且已经安装了Python,接下来我们继续使用最常用的工具Jupyter Notebooks中的一些高级功能。
13. Jupyter Notebooks的高级功能
Jupyter Notebook提供了各种高级功能,例如键盘快捷键,安装其他内核,执行Shell命令以及使用各种扩展名进行更快的数据分析操作。让我们开始并逐一了解这些功能。
13.1 键盘快捷键
通过在“帮助”菜单中选择“键盘快捷方式”选项或使用Cmd + Shift + P快捷键,用户可以找到Jupyter Notebook内部可以使用的所有快捷键命令。这将使快速选择栏出现,其中包含所有快捷键命令以及每个快捷键的简要说明。该栏很容易使用,并且用户在忘记某些东西时可以使用它:
13.2 安装其他内核
Jupyter能够为不同的语言运行多个内核。在Anaconda中为特定语言设置环境非常容易。例如,可以在Anaconda中使用以下命令来设置R内核:
$ conda install -c r r-essentials
然后应显示R内核,如以下屏幕截图所示:
13.3 运行shell命令
在Jupyter Notebook中,用户可以在Unix和Windows上运行shell命令。该shell提供了用于与计算机对话的通信接口。用户需要在运行任何命令之前放(!)。
13.4 Notebook扩展
与基本的Jupyter笔记本相比,Notebook扩展(或nbextensions)增加了更多功能。这些扩展改善了用户的体验和界面。用户可以通过选择NBextensions选项卡轻松选择任何扩展名。
要使用conda在Jupyter Notebook中安装nbextension,请运行以下命令:
conda install -c conda-forge jupyter_nbextensions_configurator
要使用pip在Jupyter Notebook中安装nbextension,请运行以下命令:
pip install jupyter_contrib_nbextensions && jupyter contrib nbextension install
如果你在macOS上遇到权限错误,只需运行以下命令:
pip install jupyter_contrib_nbextensions && jupyter contrib nbextension install --user
所有可配置的nbextensions将显示在不同的选项卡中,如以下屏幕快照所示:
现在,让我们看一看Notebook扩展的一些有用的功能:
Hinterland:这为在单元格中进行的每个按键提供了一个自动完成菜单,其行为类似于PyCharm:
目录:此扩展显示侧边栏或导航菜单中的所有标题。它是可调整大小,可拖动,可折叠和可停靠的。
执行时间:此扩展显示执行单元的时间以及完成单元代码所需的时间:
拼写检查器:拼写检查器检查并验证每个单元格中所写的拼写,并突出显示所有写错的单词。
变量选择器:此扩展跟踪用户的工作区。它显示了用户创建的所有变量的名称,以及它们的类型,大小,形状和值。
幻灯片:笔记本结果可以通过幻灯片进行传达。这是一个讲述故事的好工具。用户可以轻松地将Jupyter Notebooks转换为幻灯片,而无需使用PowerPoint。如以下屏幕截图所示,幻灯片可以使用视图菜单的单元格工具栏中的“幻灯片放映”选项启动:
Jupyter Notebook还允许你显示或隐藏幻灯片放映中的任何单元格。将“幻灯片显示”选项添加到视图菜单的单元格工具栏后,你可以在每个单元格中使用“幻灯片类型”下拉列表并选择各种选项,如以下屏幕截图所示:
嵌入PDF文档:Jupyter Notebook用户可以轻松添加PDF文档。PDF文档需要运行以下语法:
from IPython.display import IFrame
IFrame('https://arxiv.org/pdf/1811.02141.pdf',width=700,height=400)
结果为以下输出:
嵌入YouTube视频:Jupyter Notebook用户可以轻松添加YouTube视频。要添加YouTube视频,需要运行以下语法:
from IPython.display import YouTubeVideo
YouTubeVideo('ukzFI9rgwfU', width=700, height=400)
结果为以下输出:
这样,你现在就可以了解数据分析,它所进行的过程以及它所扮演的角色。你还学习了如何安装Python以及如何使用Jupyter Lab和Jupyter Notebook。在接下来的章节中,你将了解有关各种Python库和数据分析技术的更多信息。
14. 总结
在本章中,我们讨论了各种数据分析过程,包括KDD,SEMMA和CRISP-DM。然后,我们讨论了数据分析师和数据科学家的角色和技能。之后,我们安装了NumPy,SciPy,Pandas,Matplotlib,IPython,Jupyter Notebook,Anaconda和Jupyter Lab,所有这些我们都将在本书中使用。你可以安装内置了NumPy,Pandas,SciPy和Scikit-learn的Anaconda或Jupyter Lab,而不是安装所有这些模块。然后,我们启动了向量加法程序,并了解了NumPy与其他库相比如何提供卓越的性能。我们探索了可用的文档和在线资源。此外,我们讨论了Jupyter Lab,Jupyter Notebook及其功能。
在下一章,即第二章“NumPy和Pandas”中,我们将深入研究NumPy和Pandas,并探讨围绕数组和DataFrames的一些基本概念。