目录
1、DataFrame 的创建
2、DataFrame 属性
3、DataFrame 的使用
4、csv 文件的处理使用
1)、处理时间序列
2)、统计分析
开始之前先放两个要用到的文件,一个是 excel 文件:提取码: y6ye ;另一个是 csv 文件: 提取码 : oidb 。
import pandas as pd
data = pd.DataFrame({'姓名':['s1','s2','s3'],
'年龄':['18','30','50']})
print(data)
data_1 = pd.read_excel(r'C:\Users\dell\Desktop\英雄联盟员工信息表.xlsx') #文件在电脑上的路径
print(type(data_1)) # dataframe 类型(具有行索引和列索引)
# 行索引
print(data_1.index)
# columns(列索引)
print(data_1.columns)
# 元素
print(data_1.values)
# 结构
print(data_1.shape)
# 维度
print(data_1.ndim)
# 元素个数
print(data_1.size)
print(data1['年龄']) #series
# print(data1['姓名', '年龄']) #出错,多个列需要以列表形式
print(data1[['姓名','年龄']])
# 插入
data1['性别'] = [1,1,0]
print(data1)
# 删除
# axis=1 表示的是行,axis=0 表示的是列
data1.drop(labels='性别',axis=1,inplace=True) #删除每一行上 “性别” 这一列
# 第三个参数是对原表进行操作,不加的话相当于是对原表 复制一份后再删除的备份
print(data1)
print()
print(data1.drop(labels=0, axis=0)) # 删除每一列上 “0” 这一行
print(data1)
data = pd.read_csv(r'order-14.3.csv',encoding='gbk',sep=',') #文件放到当前目录下,故可直接使用
# print(data)
print(data.columns) #列索引
# print(data.index) #行索引
# print(data.values) #元素值
data['成交时间'] = pd.to_datetime(data['成交时间']) #将原 csv 文件中的时间改变成 python 中方便操作的时间类型
print(data['成交时间'])
# 1)、提取各时间
# print(data['成交时间'].dt.month)
print(data['成交时间'].dt.year)
# print(data['成交时间'].dt.day)
# print(data['成交时间'].dt.hour)
# print(data['成交时间'].dt.minute)
# print(data['成交时间'].dt.second)
# print(data['成交时间'].dt.date) #日期(年月日)
print(data['单价'].mean())
data['总价'] = data ['单价'] * data['销量']
# print(data['总价'].sum())
# print(data['总价'].max())
# print(data['总价'].min())
# print(data['门店编号'].mode()) #众数
# print(data['门店编号'].count()) #非空数目
# print(data['门店编号'].value_counts()) #类别统计(去重并统计)
# 同前面学习中的 统计部门员工数 做法相比:
# df = pd.read_excel(r'C:\Users\dell\Desktop\英雄联盟员工信息表.xlsx')
# print(df.columns)
# print(df['部门'].value_counts())
print(data['单价'].describe()) #四分位数,统计描述
print(data.info()) #列属性类型