初识Pandas函数是Python的一个库(继续更新...)

    
学习网页: 

Welcome to Python.orghttps://www.python.org/https://www.python.org/icon-default.png?t=N7T8https://www.python.org/

Pandas函数库

Pandas是一个Python库,提供了大量的数据结构和数据分析工具,包括DataFrame和Series等。Pandas的函数非常丰富,可以用于数据的各种操作和处理。

以下是一些Pandas函数的基本用法

  1. 读取数据

    • pandas.read_csv(filename):读取CSV文件。
    • pandas.read_excel(filename):读取Excel文件。
    • pandas.read_sql(sql, con):从SQL数据库中读取数据。
  2. 数据清洗

    • DataFrame.dropna():删除含有空值的行或列。
    • DataFrame.fillna(value):填充空值。
    • DataFrame.replace():替换值。
  3. 数据筛选

    • DataFrame.loc[]:基于标签进行筛选。
    • DataFrame.iloc[]:基于整数位置进行筛选。
  4. 数据排序

    • DataFrame.sort_values():根据列的值进行排序。
  5. 数据聚合

    • DataFrame.groupby():根据某一列或多列的值进行分组。
    • DataFrame.agg():对分组后的数据进行聚合操作,如求和、求平均等。
  6. 数据重塑

    • DataFrame.pivot():创建数据透视表。
    • DataFrame.melt():将宽格式数据转换为长格式数据。
  7. 数据连接

    • pandas.concat(objs, axis=0):沿着axis=0(即行方向)连接多个对象。
  8. 绘图

    • DataFrame.plot():绘制图表。
  9. 缺失值处理

    • DataFrame.dropna():删除含有空值的行或列。
    • DataFrame.fillna():填充空值。
  10. 重复值处理

  • DataFrame.drop_duplicates():删除重复的行。11.
  •      .时间序列处理: 
  • pandas.to_datetime():将字符串、整数、浮点数或日期对象转换为日期时间对象。
  • pandas.resample():对时间序列数据进行重采样。

    12.其他常用函数

  • DataFrame.info():显示DataFrame的信息概览。
  • DataFrame.describe():显示DataFrame的描述统计信息。
  • Series.map()Series.apply():对Series中的每个元素应用函数。
  • DataFrame.apply()DataFrame.applymap():对DataFrame中的每个元素或每个单元格应用函数。

小结

这只是Pandas功能的一个子集,Pandas还有许多其他功能和函数,建议查看官方文档或相关教程以获得更全面的了解。

  • 以下是一些Pandas函数的示例

  • 1、读取数据

    • 读取CSV文件:

      
      	python`import pandas as pd 
      
      	df = pd.read_csv('data.csv')`

    • 读取Excel文件:

      python`import pandas as pd 
      df = pd.read_excel('data.xlsx')`

  • 2、数据清洗

    • 删除空值:

      
      	python`df = df.dropna() # 删除含有空值的行或列`

    • 填充空值:

      
      	python`df['column_name'].fillna(value='new_value', inplace=True) # 填充指定列的空值`

  • 3、数据筛选和查询

    • 使用标签选择数据:

      
      	python`df = df.loc[df['column_name'] == 'value'] # 选择某一列中值为'value'的行`

  • 4、数据排序

    • 根据某一列的值进行排序:

      
      	python`df = df.sort_values('column_name') # 对指定列进行升序排序`

  • 5、数据聚合和统计:

    
    	python`df = df.groupby('column_name').sum() # 对按指定列分组的每组数据进行求和操作`

  • 6、数据重塑和转换

    • 将宽格式数据转换为长格式数据:
      ```pythondf = df.melt('column_name') # 将宽表转换为长表,'column_name'为转换的键列

      “举个栗子”

    • 以下是一个使用Pandas进行数据处理的实际例子:

      假设我们有一个包含员工信息的CSV文件,文件名为"employees.csv",内容如下:

      id,name,age,department  
      1,Alice,28,Sales  
      2,Bob,30,Marketing  
      3,Charlie,25,HR  
      4,David,35,Sales  
      5,Eve,29,Marketing

      我们想要对员工信息进行以下处理:

    • 读取CSV文件并将其转换为DataFrame对象。
    • 删除空值和重复行。
    • 下面是相应的Pandas代码示例:

    • 根据部门对员工进行分组,并计算每个部门的平均年龄。
    • 筛选出平均年龄大于25岁的部门。
    • 显示每个部门的员工人数。
      import pandas as pd  
        
      # 读取CSV文件  
      df = pd.read_csv('employees.csv')  
        
      # 删除空值和重复行  
      df = df.dropna().drop_duplicates()  
        
      # 根据部门对员工进行分组,并计算每个部门的平均年龄  
      average_age = df.groupby('department')['age'].mean()  
        
      # 筛选出平均年龄大于25岁的部门  
      filtered_departments = average_age[average_age > 25].index.tolist()  
        
      # 显示每个部门的员工人数  
      department_counts = df[df['department'].isin(filtered_departments)]['department'].value_counts()  
        
      print(department_counts)

      运行以上代码后,将输出每个部门的员工人数,其中平均年龄大于25岁的部门将被筛选出来。

你可能感兴趣的:(Python,我的大学笔记,pandas,python,开发语言)