头歌平台(EduCoder)——Pandas初体验

简介

Pandas是面向数据分析场景设计的Python开源软件工具包,其名字来自英文词组panel data,作为经济界的术语指多维结构化的数据集。从命名来看,Pandas特别适合处理序列数据、表格数据等具有良好结构的数据。在软件使用上,由于Pandsa是基于BSD开源软件许可证发布的,能够很方便地在学习、办公和工业应用等场合使用。

历史

Pandas是程序员Wes McKinney2008年在AQR资产管理公司工作时,为了满足分析师对金融数据量化分析所需的高性能和高灵活性工具软件需求而开发的。在Wes离开AQR公司前,他说服了公司的高管将这个工具集开源,也就有了现在Pandas社区如此好的发展。随后在2012年,另一位AQR雇员Chang She作为第二贡献者加入了Pandas的开发。截至20177月,Pandas的最新版本是0.20.0

特点

通过带有标签的列和索引,Pandas使我们可以以一种便于理解的方式来处理数据。它可以让我们毫不费力地从诸如csv类型的文件中导入数据,并使用类似数据库查询语言SQL的方式来访问数据。我们可以用 Pandas快速地对数据进行复杂的转换和过滤等操作。Pandas这方面表现是非常优秀的。具体有着如下特点:

  • 通过DataFrame对象的索引能力来管理复杂的表格数据;
  • 灵活的读取和写入文件的接口;
  • 数据对齐和强大的缺失数据处理;
  • 对数据集维度的重构和切分;
  • 强大的数据切片、索引和区域选取能力;
  • 二维表格数据中列的插入和删除;
  • 类似SQL语言Group by语法的数据分组、执行函数和合并结果的能力;
  • 合并数据集;
  • 层次化的索引技术来处理复杂高维数据;
  • 强大的时间序列处理能力,提供日期区间生成、频率计算、移动窗口统计、移动窗口线性回归和数据;
  • 为了提高执行效率,Pandas的核心代码是使用CythonC编写的。

实训概述

本实训项目的主要内容是使同学们掌握Pandas的基本用法,从而学会应用Pandas进行数据处理和分析。本实训从了解数据处理对象SeriesDataframe开始,讲授读取写入CSV数据,数据的基本操作和分析,数据的缺失处理,数据的层次化索引,共五个方面介绍Pandas操作的相关知识,并设置相对应的八个关卡考察大家对Pandas的掌握程度。

第1关:了解数据处理对象--Series

头歌平台(EduCoder)——Pandas初体验_第1张图片

 第2关:了解数据处理对象-DataFrame

头歌平台(EduCoder)——Pandas初体验_第2张图片

 第3关:读取CSV格式数据

头歌平台(EduCoder)——Pandas初体验_第3张图片

 第4关:数据的基本操作——排序

头歌平台(EduCoder)——Pandas初体验_第4张图片

第5关:数据的基本操作——删除

头歌平台(EduCoder)——Pandas初体验_第5张图片

第6关:数据的基本操作——算术运算头歌平台(EduCoder)——Pandas初体验_第6张图片

第7关:数据的基本操作——去重 

头歌平台(EduCoder)——Pandas初体验_第7张图片

第8关:层次化索引

头歌平台(EduCoder)——Pandas初体验_第8张图片

 

 

你可能感兴趣的:(头歌平台(EduCoder),python,机器学习,pandas)