【暑期学习第二期-实战】day1

问题引出:https://tianchi.aliyun.com/getStart/introduction.htm?raceId=231522

问题概述:对消费者第二天对商品子集的购买行为进行预测

问题难点:

1.数据集过于庞大
第一期,数据分析小组同学们多用excel处理数据。excel最多只能处理十万余条数据,但是这次数据集里包含两千万条数据,远远超过了excel的能力范围。因此我们进行讨论,发现分拆数据集,用python读取文件,用SQL处理数据,都是可行的。

2.特征工程
知乎上大佬的文章:特征工程到底是什么? - 城东的回答 - 知乎
https://www.zhihu.com/question/29316149/answer/110159647
特征工程的作用便是最大限度的提取原始数据的特征以供算法和模型使用。
首先确认数据的可用性,对数据进行预处理,此时需要考虑很多情况,如数据的缺失,信息冗余。
第二便是数据特征的提取,这时不仅需要利用科学方法来计算,还要适当结合常识进行观察。
这次学习需要给出完整的理论依据

本次暑期学习第二期 我在处理数据进行特征工程部分的工作上有以下进展:

我对数据进行的预处理如下:
使用工具:python (import pandas)

1.首先,地理位置缺失过多,且据观察,地理位置的表达没有明显含义,所以这一条我们决定当作冗杂信息。
解决方案:pandas.drop

2.经过组内讨论,我们预测目标是十九号当天的购买情况。经过讨论,小组成员决定放弃具体时间,将具体时间作为冗杂信息。而且年份是相同的,因此不会导致任何差异,所以年份也被我们当作了冗杂信息
解决方案:slice切片

3.将商品和用户联系起来。在本次实战中,只讨论商品或者用户的行为有失偏颇,需要将用户和商品捆绑起来观察,这样可以观测到一个用户对某一样商品的行为
解决方案:python字符串连接

还未解决的问题:
4.找出每一个用户对某一个商品的所有操作,目的是为了观察先前的行为对购买到底有没有影响。在这一步我试图使用简单的list计数。
首先我将所有的数据捆绑成用户_ 商品 _ 行为,然后将其转化为一个list,接下来将list里的数据转化为set。然后循环set中的值,利用list的函数count来计数。
难点:因为数据太多,进行的很慢。
改进:依据行为分类,分出1,2,3,4,然后根据用户_商品进行计数。
未完成原因:依旧运行中。

更:使用groupby可以解决这种问题

待完成处理:
5.找出热销商品
解决方案:在4中得到的表格可以得到每一种行为的次数,再通过pandas相关函数进行计算。
6.双十二数据干扰:双十二当天购买量十分庞大,对数据造成了一定的影响,现还需对双十二的数据进行详细分析排查。
7.以时间为特征,观察近几天的操作与商品购买是否有一定联系

你可能感兴趣的:(2018summer)