简单的数据获取和处理流程丨数析学院

课程简介

本节将以婴儿名字数据集为例,向大家介绍 pandas 库数据的读取以及简单的处理和可视化工具。

数据来源 - 自行创建婴儿的名字以及数量数据集。
数据准备 - 从自行创建的数据集中读取所需数据,并进行缺失、异常数据的查看及处理。
分析目标 - 简单地找到在 1880 年最流行的名字。
数据可视化 - 通过表格数据和图表,清晰地展示分析结果。
首先导入 pandas 和 matplotlib 库:

简单的数据获取和处理流程丨数析学院_第1张图片
1

简单的数据获取和处理流程丨数析学院_第2张图片
2

创建数据

数据集由1880年出生5个婴儿名字和对应名字数量组成

3

为了合并这两条列表,使用 zip 方法

接下来使用 pandas 库将数据集导出为 csv 文件,首先转换为 dataframe 数据框:

简单的数据获取和处理流程丨数析学院_第3张图片
5

未完待续:课程内容较多,请复制链接通过电脑学习,获得最佳学习效果。 http://datacademy.io/lesson/150
更多课程和文章尽在微信号:「datartisan数据工匠」

简单的数据获取和处理流程丨数析学院_第4张图片

你可能感兴趣的:(简单的数据获取和处理流程丨数析学院)