文本数据的读取与存储

1、CSV文件的读取
pandas库提供了将表格型数据读取为DataFrame数据结构的函数 。在现实应用中,常用的有read_csv和read_table函数
Python数据分析之文本数据的读取与存储(笔记)
(1)、CSV是存储表格数据的常用文件格式,可通过read_csv函数进行读取。
Python数据分析之文本数据的读取与存储(笔记)_第1张图片
注意:读取CSV文件时,如果文件路径中有中文,需要加open函数,否则会报错。 换言之,路径中没有中文,可以不加open函数
(2)、对于CSV文件,也可以使用read_table进行读取,指定分隔符即可
Python数据分析之文本数据的读取与存储(笔记)_第2张图片
2、TXT文件的读取
TXT文件使用的分隔符可能并不是逗号,比如创建一个分隔符为“?”的TXT文档。
通过read_table函数中的sep参数进行分隔符的指定。
Python数据分析之文本数据的读取与存储(笔记)_第3张图片
有些TXT文件并没有固定的分隔符,而是用一些数量不 定的空白符进行分隔,这种情况下也可以手动处理,但数据量过多时,手动处理就会很耗 时。本例可通过正则表达式来处理。
Python数据分析之文本数据的读取与存储(笔记)_第4张图片
3、文件数据的存储
在对数据进行处理和分析之后,通常会把数据存储起来。利用DataFrame的to_csv方法,可以将数据存储到以逗号分隔的 CSV文件中。
Python数据分析之文本数据的读取与存储(笔记)_第5张图片
也可以通过sep参数指定存储的分隔符,这种情况下会存储行和列索引,我们可以通过设置index和header分 别处理行和列索引。
二、JSON和Excel数据的读取与存储
1、JSON数据的读取与存储
JSON(Javascript Object Notation)数据是一种轻量级的数据交 换格式,因其简洁和清晰的层次结构使JSON成为了理想的数据交换 语言
对于JSON数据,常使用两种方法来读取。一种是通过Python的第 三方库json,通过下面的代码可以将JSON数据转化为字符串格式。
Python数据分析之文本数据的读取与存储(笔记)_第6张图片
将数据输入DataFrame构造器,即可完成对JSON数据的读取。
注意:由于数据类似字典结构,因此读取时可能会乱序
Python数据分析之文本数据的读取与存储(笔记)_第7张图片
另一种方法则是直接通过read_json函数来读取JSON数据。
Python数据分析之文本数据的读取与存储(笔记)_第8张图片
由于读取时会乱序,这里重新对行索引进行排序。
Python数据分析之文本数据的读取与存储(笔记)_第9张图片
使用to_json函数对DataFrame数据进行相应的存储。
Python数据分析之文本数据的读取与存储(笔记)_第10张图片
2、Excel数据的读取与存储
Excel 表 格 数 据 也 是 工 作 中 常 用 的 一 种 数 据 。 我 们 可 以 通 过 read_excel和to_excel函数对Excel数据进行读取和存储。
Python数据分析之文本数据的读取与存储(笔记)_第11张图片
三、数据库的读取与存储
我们可以通过Python 进 行 MySQL 数 据 库 的 连 接 和 使 用 , 但 是 需 要 安 装 第 三 方 库 PyMySQL。可以通过conda命令来安装。(或者pip命令)
conda install pymysql
pip install pymysql
Python数据分析之文本数据的读取与存储(笔记)_第12张图片