读取文件(excel,csv,json,sql,txt等)

读取数据,一般分为三个途径。

一是从数据库中读取

数据库加载通常使用pymysql包,当然也有一些其他的包,个人经常使用pymysql.

import pymysql

#host指要连接的主机IP,localhost指连接本地
#port指端口号,默认是3306
#user指用户名称
#password指密码
#db指要连接的数据库
#charset指编码类型
mysql = pymysql.connect(host = 'localhost',port = '3306',user='root',password='123456',db='database',charset="utf8")

#第一种方式如下:
#创建游标
cursor = mydb.cursor()   
#sql语句,增删查改相同
sql = "select * from mybooks"   #查询语句

#sql语句执行
cursor.execute(sql)   
#获取返回结果,必须要有返回结果才可以获取
data_all = cursor.fetchall()  #查看全部返回结果
data_one = cursor.fetchone()  #查看一个返回结果
k = 3
data_k = cursor.fetchmany(k)  #查看k个返回结果
print(data_all)
print(data_one)
print(data_k)
#关闭游标和数据库连接
cursor.close()
mysql.close()

#第二种方式
import pandas as pd
sql = "select * from mybooks"   #查询语句
#read_sql_query读取sql查询结果
#sql指查询语句
#con指数据库连接
#index_col指将哪一列作为索引
data_all = pd.read_sql_query(sql,con=mysql,index_col=None)
print(data_all)

二是从文件读取

从文件读取,文件类型有csv,xls,xlsx,txt,json等

1.csv

#第一种方式
import csv
csv_file = '/Users/hj/vscode/python/data/city.csv'
fs = open(csv_file)
data = csv.reader(fs)
for line in data:
	print(line)
	
#第二种方式
import pandas as pd
csv_file = '/Users/hj/vscode/python/data/city.csv'
#read_csv读取csv文件
#index_col指设置索引列,默认是None
#usecols指设置要查看的列,默认是None
df = pd.read_csv(csv_file,index_col=0,usecols=['name','area'])
print(df)

#扩展内容,查看数据详情
df.shape  #查看形状
df.head()  #查看前几行
df.tail()  #查看后几行
df.info()  #查看详情信息,每一列的类型,是否存在缺失值
df.describe()   #查看每列详细的统计信息,最大值,最小值,中位数等

2.excel

excel数据有两种格式xls和xlsx。

import pandas as pd
file_path = '/Users/hj/vscode/python/data/people.xls'
#read_excel读取excel文件
#sheet_name指读取excel中哪一个表,一个表时不用设置
#header指是否使用第一行为列标签
#index_col指设置索引列,默认是None
#usecols指设置要查看的列,默认是None
excel_file = pd.read_excel(file_path,sheet_name=0,header=0,index_col=None,usecols=None)
print(excel_file)

3.json

json文件的加载和存储。

#第一种方式
import pandas as pd
json_file = '/Users/hj/vscode/python/data/temp.json'
#read_json读取json文件
#encoding指unicode的文本编码格式
json_data = pd.read_json(json_file,encoding='utf-8')
print(json_data)

#第二种方式
import json
json_file = '/Users/hj/vscode/python/data/temp.json'
with open(json_file,'r',encoding='utf8') as f
	json_data = json.load(f)
	print(json_data)

#json.load(),从json文件中读取数据
#json.dump(),将字典转化成字符串,转入json文件。
#json.loads(),将字符串转化为字典
#json.dumps(),将字典转化成字符串

Note,注意区分load,loads,dump.dumps的使用。

4.txt

读取text文件

txt_file = '/Users/hj/vscode/python/data/temp.txt'
f = open(txt_file,'r',encoding='utf8')
data_all = f.read()
print(data_all)
for line in f.readline():
	print(line)
print(f.readlines())

read:全部读取,放到一个字符串中。
readline():一次只读一行,放到字符串中。
readlines():全部读出,放到一个列表中。

三是加载数据

像sklearn,nltk中都会自带一些数据直接加载即可,在此不讨论。

总结

pandas可以对多种不同文件进行读取,方便上手。
open()可以文件进行写入和读取,使用也较为广泛。

你可能感兴趣的:(数据挖掘,json,sql,数据库,数据挖掘)