上一篇: python数据可视化基础
1、概述
'''
数据探索与数据清洗
数据探索的目的是及早发现数据的一些简单规律与特征,数据清洗的目的是留下可靠数据,避免脏数据的干扰。两者不分先后顺序。
1.数据探索的核心是:
1、数据质量分析
2、数据特征分析(分布、对比、周期性、相关性、常见统计量等)
2.数据清洗步骤:
1、缺失值处理(通过describe与len直接发现、通过0数据发现)
2、异常值处理(通过散点图发现)
一般遇到缺失值,处理方式为(删除、插补、不处理)
插补的方式:均值插补、中位数插值、众数插补、固定值插补、最近数据插补、回归插补、拉格朗日插值、牛顿插值法、分段插值等等
遇到异常值,一般处理方式为视为缺失值、删除、修补(平均数、中位数等等)、不处理。
3、数据集成的过程
1、观察数据,发现其中关系
2、进行数据读取与整合
3、去除重复数据
'''
2、实战
'''
import pymysql
import numpy as np
import pandas as pd
import matplotlib.pylab as pyl
conn=pymysql.connect(host='127.0.0.1',user='root',passwd='123456',db='csdn')
sql='select * from taob'
data=pd.read_sql(sql,conn)
print(len(data))
x=0
data["price"][(data["price"]==0)]=None
for i in data.columns:
for j in range(len(data)):
if(data[i].isnull())[j]:
data[i][j]="36"
x+=1
print(x)
data2=data.T
price=data2.values[2]
comt=data2.values[3]
pyl.subplot(2,2,1)
pyl.plot(price,comt,'o')
line=len(data.values)
col=len(data.values[0])
da=data.values
for i in range(0,line):
for j in range(0,col):
if(da[i][2]>2300):
da[i][j]=36
if(da[i][3]>200000):
da[i][j]=58
da2=da.T
price=da2[2]
comt=da2[3]
pyl.subplot(2,2,2)
pyl.plot(price,comt,'o')
pricemax=da2[2].max()
pricemin=da2[2].min()
commentmax=da2[3].max()
commentmin=da2[3].min()
pricerg=pricemax-pricemin
commentrg=commentmax-commentmin
pricedst=pricerg/12
commentdst=commentrg/12
pricesty=np.arange(pricemin,pricemax,pricedst)
pyl.subplot(2,2,3)
pyl.hist(da2[2],pricesty)
commentsty=np.arange(commentmin,commentmax,commentdst)
pyl.subplot(2,2,4)
pyl.hist(da2[3],commentsty)
pyl.show()
import numpy as np
a=np.array([[1,5,6],[9,4,3]])
b=np.array([[6,36,7],[2,3,39]])
c=np.concatenate((a,b))
print(c)