Python数据分析(二)数据采集与操作

目录:
常用格式的本地数据读写
Python的数据库基本操作
数据库多表连接
爬虫简介
BeautifulSoup解析网页
爬虫框架Scrapy
实战案例:获取国内城市空气质量指数数据

一.常用格式的本地数据读写

 常用的数据分析文件格式:txt,csv,json,xml(Excel),xls,HDF
1.txt文件读写
  由字符串行组成,每行由EOL(End Of Line)字符隔开,'\n'
  (1)打开文件,注意编码
file_obj = open(filename,access_mode,encoding='utf-8')
access_mode:'r','w'
file_obj.close()

(2)读操作

file_obj.read()    读取整个文件内容
file_obj.readline()     逐行读取
file_obj.readlines()        返回列表,列表中的每个元素是内容
file_obj.close()

(3)写操作

file_obj.write()    将内容写如文件
file_obj.writelines()     将字符串列表内容逐行写入文件
file_obj.close()

(4)with语句:包括异常处理,走动调用文件关闭操作,推荐使用
适用于对资源进行访问的场合,确保无论适用过程中是否发生异常都会执行‘清理’操作,如关闭文件,线程的自动获取与释放

filename='........../.txt'
with open(filename,'r',encoding='utf-8') as f_obj:
     print(f_obj.read())#执行相关操作
2.CSV(Comma-Separated Values)文件读写(Excel文件相似)

以纯文本形式存储的表格数据(以逗号作为分隔符),通常第一行为列名利用pandas处理快捷方便
Pandas基于Numpy构建,索引在左,数值再右,索引是Panda自动创建的

Panda数据结构:series,类似于一维数组对象;DataFrame,表格型数据结构,每列可以是不同的数据类型,可表示二维或者更高维的数据

(1)读操作

import pandas as pd
filename = '......../.csv'
df = pd.read_csv(filename,encoding='utf-16')      #返回DataFrame类型数据
print(df.head())    #输入行列数据,第一行通常为列名

"""如何读取列数据"""
country_se = df[u'国家']             #u表示后面字符的编码,‘国家’为列名

(2)写操作

filename='......../.csv'
df.to_csv(filename,index=None,encoding='utf-8')
3.JSON(JavaScript Object Notation)文件

语法规则:数据是键值对,由逗号分隔,{ }保存对象,[ ]保存数组
(1)读操作

filename = '...../.json'
with open(filename,'r') as f_obj:
      json.load(f_obj)     #返回dict类型

(2)JSON ---->csv:

"""分别取出JSON的键值,键:year_lst;值:temp_lst"""
import panda as pd
year_se = pd.Series(year_lst,name='year')
temp_se = pd.Series(temp_lst,name='temperature')
result_df = pf.concat([year_se,temp_se],axis=

你可能感兴趣的:(python,数据分析,python)