Pandas常用数据预处理方法

1.日期格式转换

输入日期列为object、string类型,格式是“9/14/2021”,需要转换成pandas中可计算的日期格式。实际运行后输出为“2021-09-14”。

import pandas as pd

dataframe2['日期'] = pd.to_datetime(dataframe2['日期'], format='%m/%d/%Y').dt.date

2.设置列名并删除指定列

把‘指标’列的数据当做列名后,删除‘指标’列。

	data.columns = data.loc['指标',:]
    data.drop('指标', axis=0, inplace=True)

3.添加一列新数据

在已有的数据表中,添加一列数据value,指定该列名字column和位置loc。新增数据行数与现有行数一致。

    data.insert(loc=0, column='年份', value=insertDataList)

4.按列排序, 并显示前五行

在已有的数据表中,按某列数据row_number,进行排序。

    df = df.sort_values(by='row_number', ascending=True)
    print(df.head(5))  # head()、tail()

5.直接根据条件筛选行

在已有的数据表中,按行对数据进行筛选。

	# 常规筛选><=
	data = data[(data['col']>=10) & (data['val']==100)]
    # 筛选不包含[0,1,2] List的行
	data = data[~ data['col'].isin([0,1,2])]

	# 同时也可以作为筛选包含0,1,2的行
	data = data[data['col'].isin([0,1,2])]
	
	# 如果需要匹配的话
	data = data[data['col'].str.contains('abc')]

你可能感兴趣的:(数据预处理,python,数据挖掘,数据分析)