Python学习笔记-3群18组-杜杜狼-2017.7.21

Lesson 21 简单计算

通过对已有字段加减乘除,得出新的字段
当增加或修改某一列时,只能使用:

data['column_name'] = data.column1 * data.column2

Attention 不可使用:

data.column_name

Lesson 22 数据标准化

数据标准化是指数据按比例缩放,使之落入到特定区间
标准化的作用是消除量纲的影响,方便进行不同变量间的比较分析,用于综合评价分析,聚类分析,因子分析,主成分分析前,如果量纲不统一,需要将数据标准化。
十分制,百分制或处于0-1之间

//round(num, 2)用于保留两位小数
data['scale'] = round(
    (
        data.score-data.score.min()
    )/(
        data.score.max()-data.score.min()
    )
    , 2
)

Lesson 23 数组分组

根据数据分析对象的特征,按照一定的数值指标,把数据分析对象划分为不同的区间进行研究,以揭示其内在联系和规律性
cut(series, bins, right, labels)
series: 需要分组的数据
bins: 分组的划分数组
right: 分组的时候,右边是否闭合, default: 左开右闭区间;right = false: 左闭右开区间
labels: 分组的自定义标签,可以不自定义

Lesson 24 时间处理

将字符型的时间格式数据转换成时间型的数据过程

datetime = pandas.to_datetime(datastring, format)

格式化成其他字符串:

dateTimeFormat = datetime.dt.strftime('%Y-%m-%d %H:%M:%S')

抽取datetime的属性:

datetime.dt.year
datetime.dt.month
datetime.dt.weekday
datetime.dt.day
datetime.dt.hour
datetime.dt.minute
datetime.dt.second

Lesson 25 时间抽取

时间抽取是指根据一定的条件,对时间格式的数据进行抽取
根据索引进行抽取

DataFrame.ix[start:end]
DataFrame.ix[dates]
//dates为数组

根据时间列进行抽取

DataFrame[condition]

你可能感兴趣的:(Python学习笔记-3群18组-杜杜狼-2017.7.21)