初识 python - DataFrame 类型及其简单使用

目录

1、DataFrame 的创建

2、DataFrame 属性

3、DataFrame 的使用

4、csv 文件的处理使用

1)、处理时间序列

2)、统计分析


开始之前先放两个要用到的文件,一个是 excel 文件:提取码: y6ye ;另一个是 csv 文件: 提取码 : oidb 。

1、DataFrame 的创建

import pandas as pd

data = pd.DataFrame({'姓名':['s1','s2','s3'],
              '年龄':['18','30','50']})
print(data)

 

2、DataFrame 属性

data_1 = pd.read_excel(r'C:\Users\dell\Desktop\英雄联盟员工信息表.xlsx')     #文件在电脑上的路径
print(type(data_1))       # dataframe 类型(具有行索引和列索引)

# 行索引
print(data_1.index)

# columns(列索引)
print(data_1.columns)

# 元素
print(data_1.values)

# 结构
print(data_1.shape)

# 维度
print(data_1.ndim)

# 元素个数
print(data_1.size)

 

3、DataFrame 的使用

print(data1['年龄'])       #series
# print(data1['姓名', '年龄'])   #出错,多个列需要以列表形式
print(data1[['姓名','年龄']])

# 插入
data1['性别'] = [1,1,0]
print(data1)

# 删除
# axis=1 表示的是行,axis=0 表示的是列
data1.drop(labels='性别',axis=1,inplace=True)      #删除每一行上 “性别” 这一列
                                        # 第三个参数是对原表进行操作,不加的话相当于是对原表 复制一份后再删除的备份
print(data1)
print()
print(data1.drop(labels=0, axis=0))         # 删除每一列上 “0” 这一行
print(data1)

 

4、csv 文件的处理使用

data = pd.read_csv(r'order-14.3.csv',encoding='gbk',sep=',')        #文件放到当前目录下,故可直接使用
# print(data)
print(data.columns)         #列索引
# print(data.index)           #行索引
# print(data.values)        #元素值

1)、处理时间序列

data['成交时间'] = pd.to_datetime(data['成交时间'])         #将原 csv 文件中的时间改变成 python 中方便操作的时间类型
print(data['成交时间'])

# 1)、提取各时间
# print(data['成交时间'].dt.month)
print(data['成交时间'].dt.year)
# print(data['成交时间'].dt.day)
# print(data['成交时间'].dt.hour)
# print(data['成交时间'].dt.minute)
# print(data['成交时间'].dt.second)

# print(data['成交时间'].dt.date)     #日期(年月日)

 

2)、统计分析

print(data['单价'].mean())
data['总价'] = data ['单价'] * data['销量']
# print(data['总价'].sum())
# print(data['总价'].max())
# print(data['总价'].min())

# print(data['门店编号'].mode())    #众数

# print(data['门店编号'].count())    #非空数目

# print(data['门店编号'].value_counts())    #类别统计(去重并统计)

# 同前面学习中的 统计部门员工数 做法相比:
# df = pd.read_excel(r'C:\Users\dell\Desktop\英雄联盟员工信息表.xlsx')
# print(df.columns)
# print(df['部门'].value_counts())


print(data['单价'].describe())        #四分位数,统计描述

print(data.info())      #列属性类型

 

 

你可能感兴趣的:(Python)