数据分析项目总结

数据分析项目总结(一)

  • 项目综述
    • 踩过的坑
    • 总结

项目综述

做的第一个数据分析的项目。项目背景是属于探索型项目,即有一些数据,想看看这些数据可以做些什么?当然是从业务的角度出发,想利用数据为业务决策提供数据支撑。

踩过的坑

  1. 首先要明确业务方想得到什么?
  2. 在确定完前期的目标及相关的基本统计量后,写报告时,出现得到的报告结果不是业务方想要的;
  3. 重新设计统计量。(一定要注意:在连成宽表之前,先看一下要统计的指标,是否可以先进行filter操作后,再连;对于数据量很大的情况,这样会节省大量连表的时间)
  4. 连成宽表之后,再统计指标。这样就不会出现,每统计一个统计量,都要将该统计量所关联的表都筛出,然后连起来。这样出错的几率很大。比如在sas中使用
// An highlighted block
proc sql;
create table temp_1 as 
select * from temp
where var<3;
quit;

where语句则会将var变量为空的样本删了,再用temp_1与其他表相连时就会造成连接后表中的样本数量比实际的少,此时又需要关联temp表。这个过程很容易出错。
5. 验证代码执行出来的数据是否我们想要的?
首先,先看数据维度是否正确;
其次,对表中的数据进行排序,看首尾极值的情况是否与我们设想的一致;
第三,对有疑问的数据,拉出两条看看原始数据是否存在我们没有考虑到的情况。比方说,数据中有缺失值的问题,在求mean的过程中,对空值是如何计算的等都需要关注一下。
6. 在写分析报告的过程中,可以采用先提假设、再摆事实、得出结论的思路写。注意抛出异常点,并分析产生这种异常点的原因;之后可以选择原因进行验证,当有两个原因时,选其中一个不成立的原因验证,然后说明另一个原因是结论;总结几个结论后,或许可以挖掘更深的东西。比方说,离行与附行存在某种距离上的关系,附行的某项指标会随着与离附行距离的变远而增加,换句话说,附行的某项指标会随着与离行距离的变近而减少,这是为什么呢?一方面是环境的因素,因为附行一般建立在人口较密集,需求较多的地方,而离行可能不是;另一方面,离行对附行分流了。然后设计实验验证,验证什么呢?刚刚两个可能的原因一个是环境因素导致,一个是很有结论性的原因。此时,可以选择判断是不是环境因素导致的上述结果的,如果是,则直接得出结论;如果不是,则是第二个原因,从而得出结论。
7. 写作规范
8. 讲述报告时要点:明确报告的目标、从哪几个方面考虑的?每个方面设计了哪些实验?得到了怎样的结论?

总结

明确目标,设计指标;
统计时,划分几个部分,制作宽表;
统计结果(画图,该部分还没系统学习);
结果分析,先分后合;
分析报告撰写,有理有据、循序渐进、抛出异常点。

你可能感兴趣的:(数据分析)