python数据分析1

python数据分析pandas库

文章目录

  • python数据分析pandas库
  • 前言
  • 1.1pandas是什么?
  • 1.2加载数据集
    • 1.引入库
    • 2.读入数据
    • 3.检查返回的是否是DataFrame
    • 4.获取数据集的行数和列数
    • 5.获取列名
    • 6.获取每列的dtype(类型)
  • 1.3查看列、行、单元格
    • 1.3.1获取列子集


前言

为啥要用python中的pandas库进行数据分析,用excel不可以吗?不可以,excel处理上万条数据时通常会死机或者出错,python不会有这种问题。相信鲤鱼学长,在学习乃至日后工作中,pandas库将会风靡相当长一段时间。


提示:以下是本篇文章正文内容,下面案例可供参考

1.1pandas是什么?

示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

1.2加载数据集

1.引入库

代码如下(示例):

import pandas 
import pandas as pd#这里是给pandas函数取了一个名字:pd,后面调用时写pd就行。

2.读入数据

代码如下(示例):

df=pd.read_csv(r'C:\Users\WLY\Desktop\python数据分析(活用pandas库)\pandas_for_everyone-master\data\gapminder.tsv',sep='\t')
print(df.head())

1、默认情况下,read_csv函数会读取逗号分隔文件。
2、这里将sep参数设置为\t,是指明使用制表符分隔的意思。
3、调用head()方法,只显示前5行数据。
运行结果如下:

country continent  year  lifeExp       pop   gdpPercap
0  Afghanistan      Asia  1952   28.801   8425333  779.445314
1  Afghanistan      Asia  1957   30.332   9240934  820.853030
2  Afghanistan      Asia  1962   31.997  10267083  853.100710
3  Afghanistan      Asia  1967   34.020  11537966  836.197138
4  Afghanistan      Asia  1972   36.088  13079460  739.981106

3.检查返回的是否是DataFrame

df=pd.read_csv(r'C:\Users\WLY\Desktop\python数据分析(活用pandas库)\pandas_for_everyone-master\data\gapminder.tsv',sep='\t')
print(type(df))

运行结果如下:

<class 'pandas.core.frame.DataFrame'>

4.获取数据集的行数和列数

print(df.shape)

运行结果如下:

(1704, 6)

也就是说这个数据集有1704行,6列。

5.获取列名

print(df.columns)

运行结果如下:

Index(['country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap'], dtype='object')

这里可以看到,列名的类型是object。

6.获取每列的dtype(类型)

print(df.dtypes)

运行结果如下:

country       object
continent     object
year           int64
lifeExp      float64
pop            int64
gdpPercap    float64
dtype: object
pandas类型 python类型 说明
object string 最常用的数据类型
int64 int 整型
float64 float 带小数的数字
datatime64 datatime python标准库里包含datatime,但是默认不加载,需要导入才能用

1.3查看列、行、单元格

1.3.1获取列子集

获取数据中的某列,比如获取country列。,这里将她保存到一个变量里。

country_df=df['country']
print(country_df.head())#显示前5print(country_df.tail())#显示后5

运行结果如下:

#显示前50    Afghanistan
1    Afghanistan
2    Afghanistan
3    Afghanistan
4    Afghanistan
Name: country, dtype: object
#显示后51699    Zimbabwe
1700    Zimbabwe
1701    Zimbabwe
1702    Zimbabwe
1703    Zimbabwe
Name: country, dtype: object

通过列名获取多列。

subset=df[['country','continent','year']]
print(subset.head())
print(subset.tail())

运行结果如下:

country continent  year
0  Afghanistan      Asia  1952
1  Afghanistan      Asia  1957
2  Afghanistan      Asia  1962
3  Afghanistan      Asia  1967
4  Afghanistan      Asia  1972
       country continent  year
1699  Zimbabwe    Africa  1987
1700  Zimbabwe    Africa  1992
1701  Zimbabwe    Africa  1997
1702  Zimbabwe    Africa  2002
1703  Zimbabwe    Africa  2007

我用的python版本是python3.7 64位,pycharm是2017.1 64位。大家根据自己的电脑来安装python和编译器。

数据集下载链接:

链接:https://pan.baidu.com/s/1CwmLTn70bRlyWrSQXsDeyA
提取码:68ob

CSDNpython数据分析1代码下载:、

链接:https://pan.baidu.com/s/1eEzlkcK0-Ri7JAbRcvYoiA
提取码:8ijc
注意:
1、这里也可以选择不把结果打印出来。
2、python里路径的写法,我这(r’xxx’)是一种,不同的版本,不同的电脑不一样,当你检查代码还是报错的话,就搜索那个错误就可以找到不少解决方法。


有啥问题欢迎童鞋们留言!

你可能感兴趣的:(python数据分析,python,数据分析)