创建dataframe

目录

  • 1. 引入基础包
  • 2. 创建空的dataframe
    • 最朴素的创建方法
    • 创建包含列名和index的dataframe
  • 3. 自定义数据创建dataframe
    • 使用列表的形式传入数据,列名、值 分别传参
    • 使用字典的形式同时传入 列名和值
  • 4. Excel --> DataFrame
  • 5. CSV --> DataFrame
  • 6. 总结

1. 引入基础包

import pandas  as pd 

2. 创建空的dataframe

最朴素的创建方法

df = pd.DataFrame()

在这里插入图片描述

创建包含列名和index的dataframe

df = pd.DataFrame(columns=['A','B','C'],index=[0,1,2])

创建dataframe_第1张图片

3. 自定义数据创建dataframe

使用列表的形式传入数据,列名、值 分别传参

df2 = pd.DataFrame(data=['Apple','banna','cherry','dates','eggfruit'])

创建dataframe_第2张图片

使用字典的形式同时传入 列名和值

product_dict = {'pencial':['black','red','yellow'],'ruler':['long','short']}
df3 = pd.DataFrame(product_dict)

创建dataframe_第3张图片
这里需要注意的一个点是:每列数据的个数应保持一致。否则会报错:

ValueError: All arrays must be of the same length

4. Excel --> DataFrame

df = pd,read_excel('data.xlsl)

几个重要的参数

read_excel(
  path,
  sheet = NULL,
  range = NULL,
  col_names = TRUE,
  col_types = NULL,
  na = "",
  trim_ws = TRUE,
  skip = 0,
  n_max = Inf,
  guess_max = min(1000, n_max),
  progress = readxl_progress(),
  .name_repair = "unique"
)

sheet 用于指定excel簿中的具体sheet
range: 数据读取的范围,形如:“B3:D87”, “Budget!B2:G14”
col_names: 如果是TRUE则读取第一行作为列名,否则用默认值命名或者接受一个字符串向量作为列名
na 用于指定缺失值的字符

5. CSV --> DataFrame

df = pd.read_csv('data.csv')

6. 总结

当数据data.csv文件与脚本代码位于同一个文件时,可以直接使用‘data.csv’指向该文件,若是 不在同一个位置,则需要输入文件的全目录地址

总结:对于一般写博客需要,可能需要使用字典或者列表进行dataframe创建,而平时的项目则通常使用read_excel和read_csv进行数据读取。

参考资料

https://blog.csdn.net/qq_18055167/article/details/127861157
https://blog.csdn.net/weixin_39832348/article/details/110384410

你可能感兴趣的:(数据处理,pandas,数据分析,python)