[kaggle]DC比赛进程5

  • 本周开始试了下高德的路径规划导航,虽然效果很差,但其中有一些借鉴意义,可以作为备选的特征放到后期的model中。例如,路径的导航距离、预估时间等;
  • 后面在研究geohash做相同轨迹识别的工作,有一些资料了,明天有空整理一下共享,还有机器学习平台的选择,H2O(已搭建好)/Caffe/TensorFlow,在这里需要补充下接下来整体的model过程:

数据清洗:载客状态的真实性、GPS的连续性(因为现在预估不出这两问题造成的影响,可以先跳过,先做第二步)
数据抽取:选取和预测目标轨迹相同的行程(Q:相似轨迹识别算法?单用户筛选or全体筛选?这里本来一开始是打算直接学习全量数据,得到任意两点的时间预测模型(不可行,kill))
特征工程:特征选择(各种论文都试试)
训练模型:基于机器学习平台做算法的选择(这部分都是套路,除非去做深度神经网络)
模型迭代:不断重复上两步,直到以优异的成绩进入复赛O.O

  • 之前给大家的四个资源中,PKDD的第二个比赛是最接近的,除了张洋和我上传的两篇文章外:可以到比赛的论坛找些灵感来源:
    https://www.kaggle.com/c/pkdd-15-taxi-trip-time-prediction-ii/forums/t/14988/method-sharing
    通过昨天的地毯式搜索,找到了一些开源的代码。需要有人研读一下,总结下其中的算法,特别是轨迹识别,和复用价值:

R:Kaggle_Taxi_Trajectory
py:kaggle-taxi-ii
R:kaggle-taxi-II-1
突然想了下,为什么不去直接找kaggle,taxi:

[kaggle]DC比赛进程5_第1张图片
不要抢,大家都有份儿

我来承担8个R的项目的研读,注意只要时间预测,不要看目的地预测的项目。(待会分一下,还有两个notebook的,完美)。 注意:只看算法,如果作者有文档说明,就劲量不要去研究没有注释的代码(别问我为什么)。

行程选择部分应该是这个模型里最重要的问题了,选取什么样的数据来做预测?
关于行程选择部分的两个忧虑:

  1. 算法复杂度太高,如果全体搜索时间长,效率低?
  2. 选择后的数据样本不太大。不足以支持机器学习,过拟合现象严重。效果差?

你可能感兴趣的:([kaggle]DC比赛进程5)