kaggle——Bike Sharing Demand

个人感觉最主要是通过visualization来获取一些信息,

在这之前一般都要先提取出一些有用的feature,比如这里的时间字符串要先提取出“小时”这个信息

有时在丢到model之前需要extract一些feature,也需要drop一些没用的feature

比如24小时变化的曲线

kaggle——Bike Sharing Demand_第1张图片


工作日24h变话的曲线(想想也是对的,大部分是在上下班的时间)

kaggle——Bike Sharing Demand_第2张图片


周末24h变换的曲线

kaggle——Bike Sharing Demand_第3张图片


从中就可以挖掘出一些有用的信息


挖掘出来最简单的应用就是根据时间来预测,用当前时间段的所有的平均值代替就行了,

但是这样做出来的结果是比较差的,还不如直接用random forest来的LB效果好(话说kaggle里面好像特别favor RF,是分类,回归问题大家都喜欢用

也许应该对不同的时间进行预测?但是这样样本量就减小了24倍,值得一试


有人也说:

1. 按照是否注册分别预测,因为从24h图上看他们的趋势是不一样的,

2. instead of predicting count, but predict ln(count+1), because evaluation is RMSLE


但是我写的对比,答案差不多


你可能感兴趣的:(kaggle——Bike Sharing Demand)