Python数据分析 - 简单分析 数据标准化scale 区间分组cut

简单计算

//price*num=sum
例如:
fome pandas import read_csv
df = read_csv('filepath\\filename.csv')
result = df.price*df.num
df['sum'] = result


数据标准化 

将数据按比例缩放,一般用0-1标准化
x*=(x-min)/(max-min) #百分化乘以100
scale = ( df.score - df.score.min() ) / (df.score.max() - df.score.min() )


数据分组

cut函数
cut(series, bins, right=True, labels=NULL)
#cut(分组的数据,划分的数组区间,划分分组右边是否闭合(默认闭合),分组自定义标签(可不自定义))
例如:
#对df文件的cost列分组进行操作
bins = [min(df.cost)-1, 20, 40, 60, 80, 100, max(df.cost)+1]
labels=['20一下', '20-40', '40-60', '60-80', '80-100', '100以上']
pandas.cut(df.cost, bins)

pandas.cut(df.cost, bins, right=False)

pandas.cut(df.cost, bins, right=False, labels=labels)


日期转换

#字符型→日期型

date = to_datetime(dateString, format)

属性:%Y, %m, %d, %H, %M, %S

例如:

#原列名为“注册时间”

#原数据日期格式:2018/6/10

df_date = to_datetime(df.注册时间, format='%Y/%m/%d')

#转换结果:2018-06-10 00:00:00


日期格式化

#日期型→字符型

apply(lambda x:处理逻辑)

datetime.strftime(x, format)

例如:

#列名为“注册时间”的数据为:2018/6/10

#先进行日期转换

df_date = to_datetime(df.注册时间, format='%Y/%m/%d')




你可能感兴趣的:(Python,数据分析)