为啥要用python中的pandas库进行数据分析,用excel不可以吗?不可以,excel处理上万条数据时通常会死机或者出错,python不会有这种问题。相信鲤鱼学长,在学习乃至日后工作中,pandas库将会风靡相当长一段时间。
提示:以下是本篇文章正文内容,下面案例可供参考
示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
代码如下(示例):
import pandas
import pandas as pd#这里是给pandas函数取了一个名字:pd,后面调用时写pd就行。
代码如下(示例):
df=pd.read_csv(r'C:\Users\WLY\Desktop\python数据分析(活用pandas库)\pandas_for_everyone-master\data\gapminder.tsv',sep='\t')
print(df.head())
1、默认情况下,read_csv函数会读取逗号分隔文件。
2、这里将sep参数设置为\t,是指明使用制表符分隔的意思。
3、调用head()方法,只显示前5行数据。
运行结果如下:
country continent year lifeExp pop gdpPercap
0 Afghanistan Asia 1952 28.801 8425333 779.445314
1 Afghanistan Asia 1957 30.332 9240934 820.853030
2 Afghanistan Asia 1962 31.997 10267083 853.100710
3 Afghanistan Asia 1967 34.020 11537966 836.197138
4 Afghanistan Asia 1972 36.088 13079460 739.981106
df=pd.read_csv(r'C:\Users\WLY\Desktop\python数据分析(活用pandas库)\pandas_for_everyone-master\data\gapminder.tsv',sep='\t')
print(type(df))
运行结果如下:
<class 'pandas.core.frame.DataFrame'>
print(df.shape)
运行结果如下:
(1704, 6)
也就是说这个数据集有1704行,6列。
print(df.columns)
运行结果如下:
Index(['country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap'], dtype='object')
这里可以看到,列名的类型是object。
print(df.dtypes)
运行结果如下:
country object
continent object
year int64
lifeExp float64
pop int64
gdpPercap float64
dtype: object
pandas类型 | python类型 | 说明 |
---|---|---|
object | string | 最常用的数据类型 |
int64 | int | 整型 |
float64 | float | 带小数的数字 |
datatime64 | datatime | python标准库里包含datatime,但是默认不加载,需要导入才能用 |
获取数据中的某列,比如获取country列。,这里将她保存到一个变量里。
country_df=df['country']
print(country_df.head())#显示前5行
print(country_df.tail())#显示后5行
运行结果如下:
#显示前5行
0 Afghanistan
1 Afghanistan
2 Afghanistan
3 Afghanistan
4 Afghanistan
Name: country, dtype: object
#显示后5行
1699 Zimbabwe
1700 Zimbabwe
1701 Zimbabwe
1702 Zimbabwe
1703 Zimbabwe
Name: country, dtype: object
通过列名获取多列。
subset=df[['country','continent','year']]
print(subset.head())
print(subset.tail())
运行结果如下:
country continent year
0 Afghanistan Asia 1952
1 Afghanistan Asia 1957
2 Afghanistan Asia 1962
3 Afghanistan Asia 1967
4 Afghanistan Asia 1972
country continent year
1699 Zimbabwe Africa 1987
1700 Zimbabwe Africa 1992
1701 Zimbabwe Africa 1997
1702 Zimbabwe Africa 2002
1703 Zimbabwe Africa 2007
我用的python版本是python3.7 64位,pycharm是2017.1 64位。大家根据自己的电脑来安装python和编译器。
数据集下载链接:
链接:https://pan.baidu.com/s/1CwmLTn70bRlyWrSQXsDeyA
提取码:68ob
CSDNpython数据分析1代码下载:、
链接:https://pan.baidu.com/s/1eEzlkcK0-Ri7JAbRcvYoiA
提取码:8ijc
注意:
1、这里也可以选择不把结果打印出来。
2、python里路径的写法,我这(r’xxx’)是一种,不同的版本,不同的电脑不一样,当你检查代码还是报错的话,就搜索那个错误就可以找到不少解决方法。