1.了解研究的商业背景与数据集的含义
高质量的数据是数据挖掘的关键。
数据库及日常收集到的数据极易受到缺失值、异常值、无效值、重复值等不一致数据的影响。
2. 数据清洗
【缺失值】
数据量较大,而缺失值较少——>忽略观测值
数据量较大,而缺失值较少&找到缺失值的关系——>人工填写(e.g.全局常量)
缺失量较大——>使用属性的中心度量来填充缺失值(e.g.均值和中位数)
缺失量较大——>单独作为一类,另行分析
【异常值】
异常值不一定是错误值
为每个变量设定一个正常的取值范围——>超出正常取值范围的为异常值
假定服从线性模型——>利用线性模型拟合后,严重偏离模型的即为异常值
【无效值】
不在数据定义范畴有出入的值——>查询数据来源、重复收集、单独分析
【重复值】
确定好产生重复值的原因,然后删除
【标准化】
消除量纲影响&变量自身差异大小和数值大小的影响
2. 进行探索性数据分析EDA
通过作图、制表、函数拟合、计算统计特征量等手段探索数据的内在结构和规律
探索性数据分析角度:
检验每个单变量的统计量:Mean SD Max Min——>描述分析
检验所有类型变量的分布(连续型变量的正态性)——>频数分析
检验异常值——>频数分析
计算顺序变量和连续性变量的相关系数——>相关分析
借助散点图探索变量之间的非线性关系——>相关分析
检查每个变量的缺失值及缺失值的简单替换或删除后所引起的偏差——>缺失值分析
检验来自于同一个总体的不同样本假设——>均值比较
检验变量的交叉分布表——>交叉分析
探测数据内部的结构——>如因子分析、主成分分析等
Explore:
识别数据的分布形式——>判断数据中是否包含异常值、影响点和错误数据
正态性检验——>有些统计方法要求总体必须呈正太分布
方差齐性检验——>数据的离散程度是否存在差异
(独立样本T检验:若方差不齐就要看转换后的结果)
Rule
1. 让数据活起来
2. 主动去度量
4. 早计划
5. 给你的产品确定基线
6. 挖掘你的数据
7. 讲商业语言
8. 呈现你的置信程度
9.不要误用度量
10.简化你的报告
写在前边:
没有规定要先定性还是要先定量。
先定性再定量:定量数据可以用来验证通过定性分析得到的假设。
先定量再定性:定量可以提供一些用户信息,可以从定量数据中筛选进行定性沟通的用户进行深入挖掘。
定性-定量-定性-定量:
1. 比如在投问卷前,先投一个开放性小问卷(当你手上的信息没法帮你设计出一份完整的定量问卷时,当你设计定量问卷不确定问题可以有哪些答案时)
2. 然后再正式投定量问卷(收集一下联系方式),然后根据定量问卷给用户打个标签
3. 然后根据标签筛选用户邀约进行电话访谈或者实地访谈(需要针对定量分析的结果设计一份深度访谈的提纲),对定量分析没能覆盖到的问题——通常是你在看到定量分析的结果之后觉得故事还是很单薄的时候,自圆其说有些困难的时候
4. 访谈之后,故事相对饱满了,但是这个时候你觉得原本的定量数据不够“精致有力”,大概就是有些想要的数据没有,有些数据不太想要,或者你对第一次的数据结果不是很有信心的时候。可以换个渠道,或者仍旧在原有渠道,换一份精简一些的问卷,重新投放一次。
结合上述反复验证的结果
一、产品后台的用户数据提取与分析
1. 对于比较大体量的产品,最重要的就是用户后台的行为数据。很显然在提取之前是要有数据部门先来埋点,产品记录了哪些时段和哪些维度的数据,就是你可以选择的数据池了。
2. 数据池的搭建,最重要的是打标签&建立标签体系,所以在进行数据提取之前,应当花时间去了解该产品后台的数据池,可以的话能够根据实际需求对数据池的扩展和维护提供一些有效建议。至于你决定从中抽取哪些数据,即从什么维度去刻画目标用户群体,是和你要解决的问题紧密相关的。要有好的分析问题的能力,把问题肢解,然后落到一些实际的点上,逐个解决。
3. 用户行为分析,可以从时间上进行描画,可以从空间上进行描画,还可以根据特定行为自行区分,就相当于自变量的设置,是你关心的问题,而因变量的选择,是能够解决你关心的问题的表征。
二、实地深访
从不同用户群体中抽取代表进行有框架的、挖掘性的、长时间的、相对放松的沟通。
用户抽取的维度大致有:
年龄、城市、性别、婚姻状态、工作职位、个人收入、最高学历等人口特征,或是其他后台可提取到的行为特征,或是通过问卷获取的意愿、态度、行为特征。
产品使用的熟练程度:新用户,老用户~使用产品的时间
产品粘度:重度使用用户、轻度使用用户~ 可以通过后台的产品使用频率和使用时长来区分
竞品使用情况:双栖用户、单栖用户~ 后台可能不会有这样的数据,但是问卷可以问
维度选取的原则:
1. 你手上有大致数据(他人的公开的相关的报告/自己手中的一数据/大家都认可的信息判断)证明,对你研究的问题有影响的时候,就去控制这个差异变量,你可以在控制了主要影响因子后,探究特定群体内部是否有一致性问题,同时也可以比较用户群体之间究竟有怎样的差异。
2. 其次,你们有一定的共识是这种研究所得的差异是你们有计划/有必要去在产品中解决的。比如不同年龄用户对产品在功能需求上可能有区别,但是你的产品主要用户都是特定的年龄段,比如80、90后,在资源有限的情况下,可以只选取80后90后群体进行研究,这样同样算是排除年龄影响。就城市而言,如果一款产品仅仅在一二线城市流行,但是产品会希望能够在三、四线推广,毕竟也是可观的市场,那么这个时候,有必要对三、四线用户进行单独的分析,同时比较这部分用户与一二线城市就产品使用是否有差异,即时没有差异,也可以分析,是否是产品以外的因素造成了限制,比如推广和友好度。
3. 所以在设计研究方案最初都是可以将这些考虑在内的。就某个方向,如果有某个方向的结果,可以支持怎样的后续策略,如果假设不成立,可以继续挖掘什么信息,得到的信息能否支持另一个产品相关的决策,这些可能性考虑在内后,在访谈的过程中都可以去审视自己的假设,同时在假设A没有得到证实时,可以迅速切换到假设B,好过你为了验证假设A,产生操作性偏见,得到有偏的数据结果。
三、电访
待填
四、问卷
待填
其他的一些研究方法:
实时动态网站数据(Google Analytics)
基本的网站分析
跳出率
退出率
转化率
点击率
弃用率