目录:
常用格式的本地数据读写
Python的数据库基本操作
数据库多表连接
爬虫简介
BeautifulSoup解析网页
爬虫框架Scrapy
实战案例:获取国内城市空气质量指数数据
常用的数据分析文件格式:txt,csv,json,xml(Excel),xls,HDF
由字符串行组成,每行由EOL(End Of Line)字符隔开,'\n'
(1)打开文件,注意编码
file_obj = open(filename,access_mode,encoding='utf-8')
access_mode:'r','w'
file_obj.close()
(2)读操作
file_obj.read() 读取整个文件内容
file_obj.readline() 逐行读取
file_obj.readlines() 返回列表,列表中的每个元素是内容
file_obj.close()
(3)写操作
file_obj.write() 将内容写如文件
file_obj.writelines() 将字符串列表内容逐行写入文件
file_obj.close()
(4)with语句:包括异常处理,走动调用文件关闭操作,推荐使用
适用于对资源进行访问的场合,确保无论适用过程中是否发生异常都会执行‘清理’操作,如关闭文件,线程的自动获取与释放
filename='........../.txt'
with open(filename,'r',encoding='utf-8') as f_obj:
print(f_obj.read())#执行相关操作
以纯文本形式存储的表格数据(以逗号作为分隔符),通常第一行为列名利用pandas处理快捷方便
Pandas基于Numpy构建,索引在左,数值再右,索引是Panda自动创建的
Panda数据结构:series,类似于一维数组对象;DataFrame,表格型数据结构,每列可以是不同的数据类型,可表示二维或者更高维的数据
(1)读操作
import pandas as pd
filename = '......../.csv'
df = pd.read_csv(filename,encoding='utf-16') #返回DataFrame类型数据
print(df.head()) #输入行列数据,第一行通常为列名
"""如何读取列数据"""
country_se = df[u'国家'] #u表示后面字符的编码,‘国家’为列名
(2)写操作
filename='......../.csv'
df.to_csv(filename,index=None,encoding='utf-8')
语法规则:数据是键值对,由逗号分隔,{ }保存对象,[ ]保存数组
(1)读操作
filename = '...../.json'
with open(filename,'r') as f_obj:
json.load(f_obj) #返回dict类型
(2)JSON ---->csv:
"""分别取出JSON的键值,键:year_lst;值:temp_lst"""
import panda as pd
year_se = pd.Series(year_lst,name='year')
temp_se = pd.Series(temp_lst,name='temperature')
result_df = pf.concat([year_se,temp_se],axis=