Datacamp学习笔记_Cleaning Data in Python(一)了解数据

Datacamp学习笔记_Cleaning Data in Python

(一)了解数据

Datacamp官网:https://www.datacamp.com/
微软送你两个月DataCamp订阅啦!https://cloud.tencent.com/developer/news/18063

这个是Datacamp里面的一个课程,叫《利用python进行数据清洗》,主要讲的是在进行数据分析之前要对数据进行的一些前期处理、清洗的工作,为分析做准备。

工具:spyder
数据来源:tushare

1、从tushare获取股票数据,生成一个DataFrame叫 sd

import pandas as pd
import numpy as np
import tushare as ts 

# 获取数据,得到一个叫 sd 的 DataFrame
api = ts.pro_api('your token')
for i in code_list:
    df = ts.pro_bar(pro_api=api, ts_code=i, adj='qfq', start_date='20190101', end_date='20190131')
    sd = sd.append(df)

2、现在数据有了,首先得看看它长什么样子,有个大概直观的感受。

(1)看看前后几行(默认是5行)

df.head()
df.tail()

Datacamp学习笔记_Cleaning Data in Python(一)了解数据_第1张图片
Datacamp学习笔记_Cleaning Data in Python(一)了解数据_第2张图片
(2)看看表格是几行×几列的

sd.shape

在这里插入图片描述
(3) 看看都有哪些列

sd.columns

Datacamp学习笔记_Cleaning Data in Python(一)了解数据_第3张图片
(4) 看看每一列的基本信息

sd.info()

Datacamp学习笔记_Cleaning Data in Python(一)了解数据_第4张图片
(5) 看看每列数据基本的统计值

sd.describe()

Datacamp学习笔记_Cleaning Data in Python(一)了解数据_第5张图片
(6)看看每列有多少不同的值(e.g. 不同股票有哪些数据)

sd['ts_code'].value_counts(dropna=False)

Datacamp学习笔记_Cleaning Data in Python(一)了解数据_第6张图片

3、如果上面这些操作还不够直观的话,就作图看看!

(1)用直方图可视化单个变量
注:
为了好看,以后 import 可以统一都放在最上面;
e.g. 看看收盘价是怎么分布的,这里是两只股票的收盘价,看起来可能有点奇怪,但就是这个意思哈,图片靠左是"000001.SZ"股票的分布,集中在10元左右,右边是另一只的分布"000002.SZ",集中在25元左右的位置

import matplotlib.pyplot as plt    #为了好看,以后import可以统一都放在最上面

sd['close'].plot(kind='hist', rot=0)  

Datacamp学习笔记_Cleaning Data in Python(一)了解数据_第7张图片
(2)箱型图可视化多个变量

箱型图的解释参考下面的链接:
http://www.sohu.com/a/220236877_434937

sd.boxplot(column='close', by='ts_code', rot=0)

Datacamp学习笔记_Cleaning Data in Python(一)了解数据_第8张图片
(3)散点图可视化两个变量

sd.plot(kind='scatter', x='open', y='close', rot=70)

Datacamp学习笔记_Cleaning Data in Python(一)了解数据_第9张图片

你可能感兴趣的:(Datacamp学习笔记_Cleaning Data in Python(一)了解数据)