Python是一门简单易学且功能强大的编程语言。它拥有高效的高级数据结构,并且能够用简单而又高效的方式进行面向对象编程。 Python优雅的语法和动态类型,再结合它的解释性,使其在许多领域成为编写脚本或开发应用程序的理想语言。
要认识 Python,首先得明确一点, Python是一门编程语言!这就意味着,原则上来说,它能够完成 Matlab能够做的所有事情(因为大不了从头开始编写),而且在大多数情况下,同样功能的 Python代码会比 Matlab代码更加简洁、易懂;另一方面,因为它是一门编程语言,所以它能够完成很多 Matlab不能做的事情,比如开发网页、开发游戏、编写爬虫来采集数据等。
Python以开发效率著称,也就是说,它致力于以最短的代码完成任务。 Python通常为人诟病的是它的运行效率,而 Python还被称为“胶水语言”,它允许我们把耗时的核心部分用C/C++等更高效率的语言编写,然后由它来“黏合”,这很大程度上已经解决了 Python的运行效率问题。事实上,在大多数数据任务上, Python的运行效率已经可以媲美CC++语言。同时,Python在数据分析和挖掘上的功能,和之前讲解的R语言类似,只不过R语言多用于统计领域,而Python在互联网大行其道的今天将更加大放光彩。
这里只讲解用 Python进行数据挖掘这一部分功能,而这部分功能,仅仅是 Python强大功能中的冰山一角。如果对Python基础语法不了解,建议先学习和了解Python之后再学习它的数据挖掘功能。随着 Numpy、scipy Matplotlib和 Pandas等众多程序库的开发,Python在科学领域占据着越来越重要的地位,包括科学计算、数学建模、数据挖掘,甚至可以预见,未来 Python将会成为科学领域的编程语言的主流。
搭建 Python开发平台
所要考虑的问题
Python的官网:htps:// www.python.org。搭建 Python开发平台有几个问题需要考虑,第一是选择什么操作系统,是 Windows还是 Linux?第二是选择哪个 Python版本,是2.x还是3.x?
首先,来回答后一个问题。3.x是对2.x的一个较大的更新,可以认为, Python3.x什么都好,就是它的部分代码不兼容2.x的,这使得不少好用的库都无法支持3.x(值得庆幸的是,越来越多的主流库已经开始支持3.x了)。这里使用 Python2.7版本,但尽可能地同时兼容2.x和3.x,包括在各种第三方库也使用两个版本都兼容的扩展库。
其次,就是选择操作系统的问题,主要是在 Windows和 Linux之间选择。 Python是跨平台的语言,因此脚本可以跨平台运行。然而;不同的平台运行效率不一样,一般来说,在Linux下的运行速度会比 Windows快,而且是对于数据分析和挖掘任务。此外,在 Linux下搭建 Python环境相对来说容易一些,很多 Linux发行版自带了 Python程序,并且在 Linux下更容易解决第三方库的依赖问题。当然, Linux的操作门槛较高,入门的读者可以先在Windows环境下熟悉,然后再考虑迁移到Linux环境中。
基础平台的搭建
第一步是 Python核心程序的安装,分为 Windows和 Linux介绍;最后介绍一个 Python的科学计算发行版— Anaconda
(1)Windows:在 Windows系统中安装 Python比较容易,直接到官方网站下载相应的msi安装包安装即可,和一般软件的安装无异,在此不赘述。安装包还分32位和64位版本,请读者自行选择适合的版本
(2) Linux:大多数 Linux发行版,如 Centos、 Debian、 Ubuntu等,都已经自带了 Python2.x的主程序,因此并不需要额外安装。
(3) Anaconda:安装 Python核心程序只是第一步,为了实现更丰富的科学计算功能,还需要安装一些第三方的扩展库,这对于一般的读者来说可能显得比较麻烦,尤其是在 Windows环境中还可能出现各种错误。幸好,已经有人专门将科学计算所需要的模都编译好,然后打包以发行版的形式供用户使用,Anaconda就是其中一个常用的科学计算发行版。它的特点如下:
1、包含了众多流行的科学、数学、工程、数据分析的Python包;
2、完全开源和免费;
3、全平台支持,可自由切换。
因此,推荐初级数据学习人员安装此Python发行版,下载地址为:https://www.anaconda.com/download/。
安装好python后,只需要在命令窗口输入python就可以进入Python环境