读取数据,一般分为三个途径。
数据库加载通常使用pymysql包,当然也有一些其他的包,个人经常使用pymysql.
import pymysql
#host指要连接的主机IP,localhost指连接本地
#port指端口号,默认是3306
#user指用户名称
#password指密码
#db指要连接的数据库
#charset指编码类型
mysql = pymysql.connect(host = 'localhost',port = '3306',user='root',password='123456',db='database',charset="utf8")
#第一种方式如下:
#创建游标
cursor = mydb.cursor()
#sql语句,增删查改相同
sql = "select * from mybooks" #查询语句
#sql语句执行
cursor.execute(sql)
#获取返回结果,必须要有返回结果才可以获取
data_all = cursor.fetchall() #查看全部返回结果
data_one = cursor.fetchone() #查看一个返回结果
k = 3
data_k = cursor.fetchmany(k) #查看k个返回结果
print(data_all)
print(data_one)
print(data_k)
#关闭游标和数据库连接
cursor.close()
mysql.close()
#第二种方式
import pandas as pd
sql = "select * from mybooks" #查询语句
#read_sql_query读取sql查询结果
#sql指查询语句
#con指数据库连接
#index_col指将哪一列作为索引
data_all = pd.read_sql_query(sql,con=mysql,index_col=None)
print(data_all)
从文件读取,文件类型有csv,xls,xlsx,txt,json等
#第一种方式
import csv
csv_file = '/Users/hj/vscode/python/data/city.csv'
fs = open(csv_file)
data = csv.reader(fs)
for line in data:
print(line)
#第二种方式
import pandas as pd
csv_file = '/Users/hj/vscode/python/data/city.csv'
#read_csv读取csv文件
#index_col指设置索引列,默认是None
#usecols指设置要查看的列,默认是None
df = pd.read_csv(csv_file,index_col=0,usecols=['name','area'])
print(df)
#扩展内容,查看数据详情
df.shape #查看形状
df.head() #查看前几行
df.tail() #查看后几行
df.info() #查看详情信息,每一列的类型,是否存在缺失值
df.describe() #查看每列详细的统计信息,最大值,最小值,中位数等
excel数据有两种格式xls和xlsx。
import pandas as pd
file_path = '/Users/hj/vscode/python/data/people.xls'
#read_excel读取excel文件
#sheet_name指读取excel中哪一个表,一个表时不用设置
#header指是否使用第一行为列标签
#index_col指设置索引列,默认是None
#usecols指设置要查看的列,默认是None
excel_file = pd.read_excel(file_path,sheet_name=0,header=0,index_col=None,usecols=None)
print(excel_file)
json文件的加载和存储。
#第一种方式
import pandas as pd
json_file = '/Users/hj/vscode/python/data/temp.json'
#read_json读取json文件
#encoding指unicode的文本编码格式
json_data = pd.read_json(json_file,encoding='utf-8')
print(json_data)
#第二种方式
import json
json_file = '/Users/hj/vscode/python/data/temp.json'
with open(json_file,'r',encoding='utf8') as f
json_data = json.load(f)
print(json_data)
#json.load(),从json文件中读取数据
#json.dump(),将字典转化成字符串,转入json文件。
#json.loads(),将字符串转化为字典
#json.dumps(),将字典转化成字符串
Note,注意区分load,loads,dump.dumps的使用。
读取text文件
txt_file = '/Users/hj/vscode/python/data/temp.txt'
f = open(txt_file,'r',encoding='utf8')
data_all = f.read()
print(data_all)
for line in f.readline():
print(line)
print(f.readlines())
read:全部读取,放到一个字符串中。
readline():一次只读一行,放到字符串中。
readlines():全部读出,放到一个列表中。
像sklearn,nltk中都会自带一些数据直接加载即可,在此不讨论。
pandas可以对多种不同文件进行读取,方便上手。
open()可以文件进行写入和读取,使用也较为广泛。