Pandas最简单使用

  1. Pandas基于series和dataframe两种类型,series是一维的,dataframe是二维的。
  2. 读取数据,如从csv中,df = read_csv(‘d:/a.csv’,head=0)
  3. df.head(5) 查询前几个
  4. df.tail(5) 查询后几个
  5. df.columns #print(df.columns)可以看到列名
  6. df.x 或者 df[‘x’] 都可以选中某一列
  7. df[(df.x < 1000) & (df.y>1000)] //按条件过滤
    值得注意的是,由于操作符优先级的问题,在这里你不可以使用关键字‘and’,而只能使用’&’与括号
  8. Matplotlib很适合画图,不过pandas本身也可以用plot函数进行画图
    df.plot(x=‘x’,y=[‘y,z’]) #参数x为横坐标,值为df的列名字,y为纵坐标,值可以为一个列表;x不能是列表
  9. df.to_csv(‘a.csv’) #导出
    df.to_csv(‘a.xlsx’)
  10. 按值排序 data.sort_values(by=‘date’,ascending=False)
  11. 查询简单的数据分析信息
    data.describe()
    Out[40]:
    open close high low volume
    count 54.000000 54.000000 54.000000 54.000000 5.400000e+01
    mean 1557.014130 1608.434019 1743.852907 1444.099815 2.419422e+07
    std 761.942843 808.612772 872.240083 707.223564 2.059523e+07
    min 628.726000 633.439000 718.275000 614.587000 4.801826e+06
    25% 923.026750 916.806500 995.207750 872.441750 1.263886e+07
    50% 1363.731500 1378.323500 1489.636500 1236.116000 1.548160e+07
    75% 2207.428000 2212.247500 2399.145000 2123.350250 2.720723e+07
    max 3377.761000 3457.498000 3746.546000 3105.325000 8.827346e+07

你可能感兴趣的:(Pandas最简单使用)