天池新人实战赛之[离线赛](转)

import pandas as pd

import re 

# pandas 读取商品子集(P)train_item=pd.read_csv('tianchi_fresh_comp_train_item.csv') 

# 查看商品子集数据的数量 

train_item['item_id'].count()# 查看商品子集前10条的数据 

train_item.head(10) 

 # 读取用户商品交互数据(D)train_user=pd.read_csv('tianchi_fresh_comp_train_user.csv') 

# 查看用户商品交互数据数量 

train_user['user_id'].count() 

# 查看用户商品交互数据的前10条train_user.head(10) 

 # 查看每一列的异常值 

train_user.apply(lambda x : sum(x.isnull()))

 # 查看日期和行为数据 

train_user['time'].value_counts()train_user['behavior_type'].value_counts()

# 筛选出 behavior_type==3,即加入购物车数据 

train_user = train_user[train_user['behavior_type']==3]

train_user['behavior_type'].value_counts()

 # 筛选出12月18日一天的数据

regex = re.compile(r'^2014-12-18+ \d+$')

def date(column): 

           if re.match(regex,column['time']): 

                  date,hour = column['time'].split(' ')  

                  return date 

           else: return 'null'

train_user['time'] = train_user.apply( date , axis=1)

train_user = train_user[(train_user['time'] == '2014-12-18')]train_user.head(10)

 # 删除掉多余项 

train_user = train_user.drop(['user_geohash'] , axis=1)train_user = train_user.drop(['item_category'] , axis=1)train_user = train_user.drop(['behavior_type'] , axis=1)train_user = train_user.drop(['time'],axis=1)

 # 查看结果数据集 

train_user['item_id'].count() 

# 生成sample_submission.csv 文件,保存train_user.to_csv('sample_submission.csv',index=False)print('completed!')


你可能感兴趣的:(天池新人实战赛之[离线赛](转))