利用Python进行数据分析_第六章:…

利用Python进行数据分析_第六章:数据加载、存储与文件格式

读取文本格式的数据:
read_csv默认分隔符是逗号。
read_table默认分隔符是制表符(“\t”)。

read_fwf读取定宽列格式数据(没有分隔符)
read_clipboard读取剪贴板中的数据。将网页转换为表格时很有用。

header=none:pandas为其分配默认的列名。否则用:names=[“”,“”]。

读取时,列索引参数:index_col=‘’。

skiprows跳过文件的第一行、第三行、第四行:读取文件时,参数:skiprows=[0,2,3]。

pd.isnull返回布尔值。

读取文件时,参数:na_values=[‘NULL’]来接受一组用于表示缺失值的字符串。

利用Python进行数据分析_第六章:数据加载、存储与文件格式 利用Python进行数据分析_第六章:数据加载、存储与文件格式 利用Python进行数据分析_第六章:数据加载、存储与文件格式

读取文件时,只读取几行:nrows=5,读取5行。

逐块读取文件:设置参数chunksize(行数):chunksize=1000。

将数据写出到文本格式:to_csv方法,我们可以将数据写到一个以逗号分隔的文件中。参数:sys.stdout打印文本结果。缺失值:na_rep=‘NULL’。header=False。列cols=[‘a’,‘b’]。

Series系列:from_csv更方便读取csv文件。

手工处理分隔符格式:直接使用Python内置的csv板块,将任意已打开的文件或文件型的对象传给csv.reader。

手工输出分隔符文件:你可以用csv.writer。

利用Python进行数据分析_第六章:数据加载、存储与文件格式 利用Python进行数据分析_第六章:数据加载、存储与文件格式 利用Python进行数据分析_第六章:数据加载、存储与文件格式

JSON数据:(JavaScriptObjectNotation的简称)

json.loads:将JSON字符串转换成Python形式
json.dumps将Python对象转换成JSON格式。

(原生的高效导出:to_json。解码:from_json)

XML和HTML:Web信息收集:

lxml.html处理html,再用lxml.objectify做一些XML处理。

urllib2打开url,用的是urllib2中的urlopen。parse是解析。tag是标签。

使用文档根节点的findall。
get方法(针对URL)。text_content方法(针对显示文本)。

对于标题行,就是th单元格;
而对于数据行,则是td单元格。

略………………

二进制数据格式(略………………)

使用HDF5格式(略………………)

读取excel文件:(需要安装xlrd和openpyxl包)
直接用pd.ExcelFile函数。
存在在工作表中的数据:df.parse(‘sheet1’)。

使用HTML和Web API(略……)

使用数据库:
SQLite数据库:sqlite3模板
重点,新来一篇博客讲解数据库。

存取MongoDB中的数据:(略……)

你可能感兴趣的:(Python数据分析)