Pandas 的名称源自 “ panel data ”,这是一个计量经济学术语,用于表示多维结构化数据集和 “ Python 数据分析”。众所周知,清理和转换数据在数据分析中非常重要,Pandas 提供了丰富的数据结构和功能,使数据处理变得快速、轻松、富有表现力。
Pandas 允许您从不同的文件格式(例如 CSV,JSON,SQL 和 Microsoft Excel)导入数据。它基于两个主要数据结构:“Series”(一维)和 “DataFrame”(二维)。数据框与统计软件(例如 Excel 和 SPSS)中的表非常相似。Pandas 允许执行各种数据操作,例如处理和填补缺失的数据,建立索引,从数据框中添加和删除列,合并,重塑,选择等。
NumPy(Numerical Python)是Python 中最常用的数组处理程序包之一,用于科学计算和执行高级数组操作。它是许多库的基础,例如机器学习的 SciPy 和 scikit-learn。NumPy 有助于对数组及其向量化进行数学运算,这可以提高性能和执行时间。
SciPy(Scientific Python)是用于高级科学计算的另一个核心库。它基于 NumPy 构建,并扩展了其功能,提供了许多友好且高效的模块,用于科学和数值计算。SciPy 包含处理数据集成,数据优化,数据插值,数据修改,线性代数,概率论,随机数生成,积分演算,傅立叶变换等的模块。
Matplotlib 是 Python 中使用最广泛的可视化库,可以用于创建二维和三维图表。Matplotlib 可容纳图例,标签和网格,甚至可以使用 Matplotlib 讲个故事。Matplotlib 可以创建包括饼图,条形图,散点图,直方图,折线图在内的多种图形,许多流行的绘图库(例如 seaborn)都设计为可与 matplotlib 配合使用。
Scikit-Learn 是一个免费的机器学习 Python 库,用于数据挖掘任务和建模(例如回归,分类和聚类)。它包含监督和非监督算法,例如决策树,SVM,朴素贝叶斯,随机森林,交叉验证,k 均值聚类等。NumPy,SciPy,Matplotlib,Pandas都支持 Scikit-Learn。