目录
1.数据分析
2.数据可视化
3.数据分析与可视化常用软件
1.Microsoft Excel
2.R语言
3.Python语言
4.SAS Enterprise Miner
5.SPSS
6.专用可视化分析工具
4.Python数据分析与可视化常用类库
1.Numpy
2.Scipy
3.Pandas
4.Matplotlib
5.Seaborn
6.Scikit-learn
数据分析(Data Analysis)是指使用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息并形成结论,从而对数据加以详细研究和概括总结的过程。
数据挖掘(Data Mining)是指从大量的,不完全的,有噪声的,模糊的和随机的实际应用数据中,通过应用聚类,分类回归和关联规则等技术,挖掘潜在价值的过程。
数据分析有狭义和广义之分。狭义的数据分析是指根据分析目的,采用对比分析,交叉分析和回归分析等分析方法对收集来的数据进行处理和分析,提取有价值的信息,发挥数据的作用,并得到一个特征统计量结果的过程。而广义的数据分析是指针对收集来的数据,运用基础探索,统计分析,深层挖掘等方法,发现数据中有用的信息和未知的规律与模式,进而为下一步的业务决策提供理论与实践依据。也就是说,广义数据分析,除了狭义数据分析之外,还包括数据挖掘的部分。
数据可视化是数据分析和数据科学的关键技术之一,它将数据或信息编码为图形或图像,允许使用图形图像处理计算机视觉以及用户界面,用户界面以及以及对立体表面属性和动画的显示对数据加以可视化解释。
数据可视化分析过程包括数据处理,视觉编码和可视化生成。数据处理聚焦于数据的采集,清洗,预处理,分析和挖掘,视觉编码聚焦于对光学图像进行接收,提取信息,加工变换,模式识别及存储显示,可视化生成则聚焦于将数据转换成图形并进行交互处理。
Excel是一款常用的办公软件,可以进行各种数据的处理,统计分析和辅助决策操作,广泛的应用于管理、统计、金融等众多领域。
R语言是由新西兰奥克兰大学Ross Ihaka和Robert Gentleman开发的用于统计分析、绘图的语言和操作环境,是属于GNU系统的一款自由、免费和源代码开放的软件,是一种用于统计计算和统计制图的优秀工具。
Python是由荷兰人Guido van Rossum于1989年发明的,它是一种简单易学的编程类工具,其编写的代码具有简洁性,易读性和易维护性等优点,它拥有非常丰富的第三方模块,用户可以使用这些模块完成数据科学中的工作任务,例如Numpy,Pandas,Matplotlib,Seaborn等。
SAS Enterprise Miner是一种通用的数据挖掘工具,它把统计分析系统和图形用户界面集成起来,将数据存储,管理,分析和展现有机的融为一体,具有功能强大,统计方法齐全,并且操作简单灵活的特点。
SPSS是世界上最早的统计分析软件,它封装了先进的统计学和数据挖掘技术来获得预测知识,并将相应的决策方案部署到现有的业务系统和业务过程中,从而提高企业的效益。
目前常用的专业可视化分析工具有Power BI,Tableau,Gehpi,Echarts等。
Numpy软件包是Python生态系统中数据分析,机器学习和科学计算的主力军,它极大地简化了向量和矩阵的操作处理方式,除了能对数值数据进行切片(slice)和切块(dice)外,使用Numpy还能为处理和调试上述库中的高级实例带来极大便利。
SciPy是基于Numpy开发的高级模块,提供了许多数学算法和函数的实现,可便捷的解决科学计算中的一些标准问题,包含了科学计算中常见问题的各个功能模块,不同子模块适用于不同的应用。
Pandas是基于Numpy的一种工具,提供了大量便捷处理数据的函数和方法。Pandas中主要的数据结构有Series,DataFrame和Panel。其中,Series是一维数组,DataFrame是二维的表格型数据结构,Panel是三维的数组,可看作DataFrame的容器。
Matplotlib是Python的绘图库,是用于生成出版质量级别图形的桌面绘图包,它可以与Numpy一起使用,提供一种有效的MATLAB开源替代方案,它也可以与图形工具包一起使用,让用户很轻松的将数据图形化。
Seaborn在Matplotlib基础上提供了一个绘制统计图形的高级接口,为数据的可视化分析工作提供了极大的方便,使得绘图更加容易。
Scikit-learn是专门面向机器学习的Python开源框架,它实现了各种成熟的机器学习算法,容易安装和使用,它的基本功能有分类,回归、聚类,数据降维,模型选择和数据预处理六大部分。
参考书籍:
[1] 魏伟一,李晓红,高志玲.Python数据分析与可视化.清华大学出版社