数据采集

数据采集_第1张图片

数据采集概述:

1.采集目的:

获取数据,用户后续的建设,建立数据仓库提供统一的数据分析准备。

2.采集的数据源:

以O2O企业为例,大体包含了以CRM/ERP/OA系统为主的业务数据,以网站日志采集的行为数据(过程数据),其他数据(和第三方交换的数据、爬虫数据等)

3.采集数据的原则:

采集业务数据需要保持数据的幂等性(数据可重复拉取,且不影响结果)

4.阶段产出:

·统一的数据采集格式;

·数据PD对业务的数据采集推动能力和反向搭建系统的推动能力;


经验和教训

踩过的坑:

1.行为数据以消息形式进行传送到数据平台,会有数据损耗(不能避免);

2.某些数据需要在业务系统中进行埋点,但业务重视度不高,出错几率高,数据团队维护成本巨大;

3.由于数据平台采集数据是跨多条业务线的,所以制定统一的数据采集格式极其重要,包含了必要的信息,和一些辅助性的信息。比如对某一业务的数据采集格式是:采集标识、用户标识、业务线行为类型、关键信息、辅助信息等;

4.业务系统采集的数据未必满足运营的分析需要。运营需求“投诉率大量增高的原因”,但是系统中并没有被记录,只能通过Excel进行记录;

5.数据源不足够或数据不完整,导致数据产品残缺or项目工作量重复;


解决方案:

1.关键节点数据,采用监控系统,数据上报,分钟级监控数据(可配置阈值)Dashboard;

2.自动化测试,对埋点进行自动化测试,包含Web端和APP端的测试,降低出错几率;

3.核心数据采集,采用以业务数据库为主;对于行为数据,通过埋点进行获取行为数据;

4.对于业务系统采集的数据不满足运营分析需求,反向驱动业务人员录入“系统”(临时搭建的数据格式化采集系统),反向收集数据。


以上

你可能感兴趣的:(数据采集)