Python数据分析——数据载入、存储及文件格式

该部分为学习笔记,具体内容详见:《利用Python进行数据分析》一书
访问数据是使用本书中各类工具所必需的第一步。将重点关注使用 pandas 进行数据输入和输出,尽管其他库中有许多工具可帮助读取和写入各种格式的数据。

Python数据分析——数据载入、存储及文件格式

  • 一、文本格式数据的读写
    • 1. 分块读入文本文件
    • 2. 将数据写入文本格式
    • 3. 使用分割格式
    • 4. JSON数据
    • 5. XML 和 HTML:网络抓取
  • 二、二进制格式
    • 1. 使用 HDF5 格式
    • 2. 读取 Microsoft Excel 文件
  • 三、与 Web API 交互
  • 四、与数据库交互

一、文本格式数据的读写

将表格型数据读取为 DataFrame 对象是 pandas 的重要特性。read_csv 和 read_table 可能是后期我们使用最多的函数。除此之外,还有 read_fwf,read_clipboard,read_excel,read_html,read_json。这些函数的可选参数主要有以下几种类型:

  • 索引
    可以将一或多个列作为返回的 DataFrame,从文件或用户处获得列名,或者没有列名。
  • 类型推断和数据转换
    包括用户自定义的值转换和自定义的缺失值符号列表
  • 日期时间解析
    包括组合功能,也包括将分散在多个列上的日期和事件信息组合成结果中的单个列。
  • 迭代
    支持对大型文件的分块迭代
  • 未清洗数据问题
    跳过行、页脚、注释以及其他次要数据,比如使用逗号分隔千位的数字。

1. 分块读入文本文件

当处理大型文件或找出正确的参数集来正确处理大文件时,你可能需要读入文件的一个小片段或按小块遍历文件。

2. 将数据写入文本格式

3. 使用分割格式

4. JSON数据

5. XML 和 HTML:网络抓取

二、二进制格式

1. 使用 HDF5 格式

2. 读取 Microsoft Excel 文件

三、与 Web API 交互

四、与数据库交互

你可能感兴趣的:(Python,1024程序员节,数据分析,数据挖掘,python)