实践-数据分析及可视化(1)-环境配置


实践-数据分析及可视化(1)-环境配置


一只小胖子

[互联网运营 | 直播电商 | 广告行业] 从业者


如果你不想配置Jupyter环境来学习,也是可以的,你可以直接使用如下在线平台, 它们是已经配置好了的JupyterLab环境,直接打开浏览器访问即可.

如下链接为: Google Colab、Observable在线平台,你可跳过本文后续的内容,直接使用即可.
欢迎使用 Colaboratory - Colaboratory (google.com)
Observable - Make sense of the world with data, together / Observable (observablehq.com)

>>>>>--------本文正文从此开始-------

在数据分析领域,我们习惯选用R语言,Python语言来实现数据的处理/分析及整个可视化工作.因为相对其它程序语言而言,它们拥有丰富封装好的类库可以直接调用,而且语言学习,入门使用相对简单,和其它编程语言相比,实现同样功能语法相对简洁,代码量更少.

同时在各大院样教学场景以及科研机构普遍都采用这两种语言作为数据分析及理论研究的情况下,在数据处理领域,它们已经拥有被大众普遍认知和可接受的基础.因此后续我们系列的文章,都是选择使用Python,R两种语言作为基础,并使用VS Code / Jupyter Lab 等集成平台进行学习.

一. 环境配置

搭建Python语言的环境,有很多种形式. 你可以自己安装PyCharm社区版,Python的独立应用安装包即可进行基础开发, 然后在不同业务场景中,按需要安装使用到的pip包即可. 现在市面上也有一系列全部集成好的环境,减少了使用者配置软件环境的工作量,即安装开箱即用,不需额外安装Python及各业务场景下的pip包了.

常见集成安装方案,有如下列举的几种. 经作者的一些对比,最终我们采用的是第三种方式安装.

方案一:

一是使用Anaconda集成包安装,它会自动安装你需要的包括如Python软件,PyCharm,Spyder等IDE基础环境,pandas/numpy/matplotlib等几百个常用到的库,这种方式比较简单,相当于一次把所有内容安装好,以后开箱即用.但问题就是安装包太大,可能会安装上很多你用不上的东西,而且由于Anaconda公司可能的收费策略,如果你比较再意这些,就不太建议大家使用这种方式了.

一只小胖子:JupyterLab 快速环境配置 (一)0 赞同 · 0 评论文章

方案二:

二是使用以上Anaconda集成包安装方式的优化方案,使用了基于Anaconda的MiniConda方案来安装,MiniConda只包括了Python 程序,Conda包管理器,以及少量必用的pip包,它算是一个免费而且迷你版的Anaconda 环境,因此可以较好的避免方案一的一些弊端.

一只小胖子:MiniConda 快速环境配置 (二)0 赞同 · 0 评论文章

方案三:

三是除了以上的两种方式,还有一种安装方式是使用开源的Miniforge,相对于MiniConda,它的优点是可以支持苹果的M1芯片系统,而且本身有多个分支,在CPython的分支外,开发了基于Python分支的PyPy来提升性能,同时提供了和Conda一样功能的Mamba来替代Conda.

即在对性能提升基础上,支持更多CPU架构,同时避免开了Anaconda及Conda方案的部分风险.

Miniforge官网简要介绍


开始安装程序

因此,此文中我们使用Miniforge来搭建数据分析环境基础.相关的安装你可以参考如下链接:

风影忍着:Anaconda商用要收费了怎么办?没关系,我们有miniforge28 赞同 · 3 评论文章

解决安装错误

使用上面的链接安装Miniforge下的notebook时,我在中途遇到了一些错误,具体如下:

执行命令 mamba install -c conda-forge notebook时报错如下:

ERROR Could not write out repodata file /Users/Likey/ProgramFiles/mambaforge/pkgs/cache/fb3d5425.json: No such file or directory

经多次尝试: rm -rf /Users/Likey/ProgramFiles/mambaforge/pkgs/cache/ *

删除缓存文件,再次安装即可,再次安装时最好开启外网或者配置国内源环境避免其它问题.

除了可以安装notebook来使用Jupyter Notebook, 还可以用:

mamba install -c conda-forge jupyterlab

安装 Jupyter Lab,并在终端使用jupyter lab或jupyter-lab来运行.


更换镜像源

确实现在miniforge我们已安装成功,并能正常使用,但对于国内用户来讲,下载速度实在是太慢了,我们需更改其默认镜像源,比如我将其改为清华镜像源进行下载,那下载速度简直不要太快

首先打开终端,输入以下命令

conda config --add channels Index of /anaconda/cloud/msys2/
conda config --add channels Error
conda config --add channels Index of /anaconda/pkgs/free/
conda config --set show_channel_urls yes

确认回车运行没问题后,打开访达,搜索condarc,打开此文件

找到- dafaults此行,删除此行后退出,此时已完成更改镜像源,再进行库的安装后会发现下载速度非常快.

参考链接:

M1芯片Mac上Anaconda的暂时替代:miniforge_yc11tentgy的博客-CSDN博客_miniforge


二. 集成平台

微软团队宣布已发布2020年11月版的Visual Studio Code Python 集成环境,并在此版本中引入了单独的Jupyter插件。

关于Jupyter Notebook | Jupyter Lab

Jupyter Notebook | Jupyter Lab是基于网页的用于交互计算的应用程序。其可被应用于全过程计算:开发、文档编写、运行代码和展示结果。

简而言之,Jupyter Notebook | Jupyter Lab 是以网页的形式打开,可以在网页页面中直接编写代码和运行代码,代码的运行结果也会直接在代码块下显示。如在编程过程中需要编写说明文档,可在同一个页面中直接编写,便于作及时的说明和解释,它是一个高效的数据科学工具。

VS Code 中 Jupyter插件介绍

除用以上终端的 jupyter notebook 或 jupyter lab 命令运行网页版Jupyter外. 在微软VS Code 中安装微软官方的Python插件,新建一个*.ipynb文件,也是可以直接操作jupyter的功能的,VS Code自己开了一个服务器,所以我们不用运行jupyter notebook等命令也可以直接在VS Code 的IDE中完成交互.

VS Code的Python集成环境提供对 Jupyter Notebook 的原生支持已超过一年,并且越来越受欢迎。Jupyter Notebook还可以与Python以外的其他编程语言一起使用,例如R、Julia和Scala。为了给其他语言也提供相同丰富的Jupyter Notebook体验,微软团队已经将基于Python集成环境的Jupyter原生支持重构为最近发布的Jupyter插件。使用Jupyter插件,可以让它本身不依赖于Pytho开发环境或Python插件,从而为Python以外的语言构建新的Jupyter体验。不过Python的Jupyter原生支持的使用体验不会改变。

Jupyter插件为现在Jupyter Notebooks支持的编程语言内核提供了基本的Notebook支持,许多编程语言内核无需修改即可使用。

参考链接: 微软 VS Code 重大更新!Jupyter 插件不再是 Python 专属 - 知乎 (zhihu.com)


至此,本文结束....


你可能感兴趣的:(实践-数据分析及可视化(1)-环境配置)