2015年度总结

问题:

  1. 运维环境对于用户画像团队资源利用的矛盾。
  2. 时间仓促,对新技术的调研没有预留时间,以至于从上手到开发会遇到很多坑。
  3. 团队中沟通中出现问题,也有可能是我自己的问题,比如工作方式和沟通方式。


成果/产出:


0.zhe800/楚楚街商品采集爬虫和piwik.js埋点查验/优化工作

  1. 统计标签。大概100多个用户统计标签。如:用户连续访问天数,用户最喜欢的三级类目等等。 基于hession平台,提供统计标签的查询展示页面。
  2. 用户群组。基于统计标签,根据业务方个性化需求生成 群组配置表和对应 群组内用户信息表。
  3. 商品画像。商品画像初衷是为商品打上属性标签,如:商品性别概率,商品属性等等。最终有效被应用的产出是商品第四级类目--品类,用作于运营端查询/打标 功能 和 卷皮指数。
  4. 服务层。hessian,挺多坑。特别注意编码问题和php与java对接的问题。
  5. 深度标签。利用数据挖掘算法计算如:圈子标签、用户消费心理/消费能力/贡献度、性别预测、孕妇预测。
  6. 用户画像,为用户打上统计标签和深度标签。
  7. 明日预告商品推荐。基于卷皮推荐引擎jre,首先近七天上新商品与明日预告商品的相似度矩阵,然后根据用户近期偏好商品与之前生成的相似度矩阵进行匹配,筛选出用户值得推荐的明日预告商品。




2015年,是我在卷皮的第二年,这一年遇到的坑特别多,当然收获也特别多。这一年来经历的卷皮BI团队的成长、磨砺和绽放,  小伙伴们从年初的5,6个人到现在30多人,产品线也从最初的数据基础平台、观星台最初几条产品线扩大并产出种类齐全和稳定成熟的产品,进步可喜令人欣慰。下面以时间和项目为主线来讲讲我这一年来的心路历程和学习心得。
    从我自身来说从年初参与的基础平台kafka消费端优化工作之后,我们开始进行数据比对和查验的工作,基于统计报表和浏览器firebug调试中发现了UV大于会话数、用户请求中访客id不一致、一次会话多个访客id、session存活时间不确定等等一系列访客id和sessionid错乱的问题,两周时间基本上该问题得以解决,对比第三方统计平台,该问题得到解决。这是也15年完成的第一项的工作。
    接到需求马不停蹄的开展zhe800和楚楚街爬虫编写和穿插着进行一系列数据平台运维方面的工作(hdfs/hive 数据压缩以及数据消费租约过期的问题修复),其实总的来说 穿插的零星工作任务的时候很考验一个人的应变、学习能力以及多核处理任务安排工作的能力,其实回想起来,我这方面的能力还有所欠缺,具体可能表现在数据挖掘组的工作上吧,这个稍后再说。另外,前面提到的zhe800/楚楚街爬虫也让我收获了很多,主要是python编程和文本处理的能力了。
   来到五月份,貌似小伙伴变得多起来,团队也出具规模,分工也更加明显,我基本上也将手头的爬虫工作转交出去。这个月我和几个小伙伴开展了用户推荐项目的预言工作,我们统计用户行为以及用户商品的关联关系,借助Mahout中的协同过滤开发了一版推荐系统Cinderella。当然也遇到过了很多问题和坑 ,多半是因为输入的数据格式不合法造成的,比如 分隔符不合法,数据为null等。这段时间的工作让我对数据分析处理的个人能力要求有了重新的界定,那就是在细心的基础上有对数据敏锐度及数学上思维锻炼。一些新东西进入我们的视线,我可不会放过这样的机会,短期当然也是囫囵吞枣式的拿下了Lucene分词、IDF-TF等分文本分析的理论和开发实战工作,处理用户收货地址分析,商品标题拆分构建词库等工作,虽然这段时间很紧凑,不过貌似效果还不错。
    不知道怎么的职责划分就日益明细,也许久没有参与平台优化运维和爬虫工作了,貌似我已经是数据挖掘组的一员了,虽然现在还只是项目组,但是我已经坚定的想把数据挖掘/分析这条路踏踏实实的走下去了。
    之后,我开始独立负责商品画像的工作,为商品打上标签 如:商品性别概率,商品属性等等。会用到一些文本聚类、贝叶斯分来的算法,逐步向一个数据科学家努力。在开发阶段对no-sql数据库(redis、hbase也有了重新的认识),rowkey的设计方法不仅要结合业务需求还要考虑集群/资源开销, 这是和传统的关系型数据库最大的不同了。不过业务方以及我们的卷皮指数中只是用到我们开发的“商品品类”标签。对于这个“品类”标签,运营人员会生成一个品类标签池,然后我们根据标签池解析到redis数据库中,将商品标题做简易分词进行匹配对商品打上品类的标签,并通过hessian将服务对外。后续应该还会针对运营人员做品类的推荐,大概会用品类聚类自学习的算法吧。商品品类标签由于需求变化过于频繁,涉及到联调人员跨部门,从开发到上线稳定大概花费了5周的时间,领导当然是不满意的。其实后来我也又做过回访,至今使用方对我们的数据支撑是非常满意的,不过新来的产品经理狐狸还是提出了一些新的需求和优化方案,比如细分品类,品类推荐等功能。
    然后就是近期的一些工作了,大概如下:
  1. 深度标签。利用数据挖掘算法计算如:圈子标签、用户消费心理/消费能力/贡献度、性别预测、孕妇预测。
  2. 用户画像,为用户打上统计标签和深度标签。
  3. 明日预告商品推荐。基于卷皮推荐引擎jre,首先近七天上新商品与明日预告商品的相似度矩阵,然后根据用户近期偏好商品与之前生成的相似度矩阵进行匹配,筛选出用户值得推荐的明日预告商品。
   近期工作产出是有的,收获也是丰富的,但是时间仓促或者是其他地方出了问题,没有达到领导的要求,没有获得认可,我本人也在一段时间里比较低落。
    后来我也有过一写反思:
    1. 工作方式问题。在给予过多期望的前提下,兼顾多条任务的时候 分不清主次和重要程度以至于有时无法按时达到领导的要求,因此会产生 急躁的情绪,还是太年轻了,但这并不是借口。
    2. 还是工作方式问题,在巨大压力下,不懂得与人沟通交流而是默默在做,其实并不是,工作需要透明化。
    3. 其实长久以来,沟通绝对是工作中很重要很关键的一环。我在这方面收益(商品品类项目),也在这方面吃过亏(与组长沟通),刻骨铭心。
    4. 工作压力大没有被认可,这绝对是负面的,因此这段时间的自我成长没有之前那么迅速,也没有预留太多的时间充电和技术预研,那么产生连锁反应在新技术(spark,scala)开发中阻力增大。
  好消息是,我挺过来了!没有放弃。我写这篇年度总结的时候正值我独立开发的“明日预告商品推荐”上线,并且通过验证,可喜可贺。

你可能感兴趣的:(算法,释怀,自己总结心得)