初识Pandas-初探数据文件

安装pandas

pip install pandas

额外的安装jupyter,我们的全部编程都在jupyter进行编写

初探数据文件

  • 需要的数据文件
    IMDB.csv 提取码: y8c9

  • 加载数据文件

    import pandas as pd
    pd_imdb = pd.read_csv("IMDB.csv") #这里面我们以IMDB.csv文件为演示
    

    文件自行下载

  • 操作及食用方法

    • 查看数据的基本信息

      pd_imdb.info() #查看数据基本信息
      

      会显示出来该数据文件的基本信息

    • 查看所有的列名

      pd_imdb.columns #查看所有的列名
      
    • 查询前/后几行数据

      pd_imdb.head(3) #查看前三行
      pd_imdb.tail(3) #查看末尾三行
      
    • 查看基础的描述信息

      pd_imdb.describe() #查看基础的描述信息
      
    • ilocloc 的区别
      iloc是根据索引值来获取内容的,loc是根据列名来获取内容的:
      iloc: pd_imdb[1:10,3:6] -> 这样是选择第1到9行,第3到5列的内容 注意!这里面不包含第10行
      loc:pd_imdb[0:10,['Title','Actors']] -> 这样是选择'Title','Actors'列的第0到10行

    • 选出最大值及最大值的索引

      pd_imdb.loc[:,['Revenue (Millions)']].max() #选出票房最高的电影
      
      pd_imdb.loc[:,['Revenue (Millions)']].idxmax() #选出票房最高的电影的索引(行号)
      
    • 范围的选取

      pd_imdb[pd_imdb['Revenue (Millions)'] > 500] #选出票房大于500的行
      
    • 选取包含的内容

      pd_imdb[pd_imdb['Genre'].str.contains('Sci-Fi')] #选出风格中包含科幻的
      
    • 统计某列数据所有字眼出现的次数

      pd_imdb['Director'].value_counts() #统计出每个导演导演了多少部影片
      

你可能感兴趣的:(初识Pandas-初探数据文件)