小曾曾读书笔记 ||《大数据实践之路》

《大数据实践之路》这本书,是由多位数据产品和分析师,根据自己的工作经验和个人总结,汇总而来。


类似这种合著作品的例子,现在越来越普遍,优点是可以发挥所长、精心雕刻,缺点也较为明显,就是章节之间割裂感比较严重,叙述风格和笔法习惯也各有千秋。
所以本书为了统一内容,设定了一群数据工作者在某电商企业工作的故事背景,以此为依托,展开叙述。


不可谓不用心。


但是对故事的把握程度,不敢妄言。
回到书本内容本身,在副标题中已经表明内容主要分为三块:


1、数据中台
数据中台的主要构成有:元数据中心、数据指标中心、数仓模型中心、数据资产中心以及数据服务中心。
对穿插内容进行详细的解剖和枚举示例,是这一部分的重点,也让数据中台部分成为全书的支撑点和核心点。


2、数据分析
对数据分析理论进行了比较简略的介绍。
其亮点在于,在把数据分析按照场景划分为预测性、描述性和诊断性分析之后,对每个场景的分析步骤进行了详细的拆解。美中不足的是,尚缺乏策略性分析的场景描述,以及对各个场景的层次感把握力略显乏力。
当然,这些都算是作为读者的我的个人见解。


3、数据产品
数据产品的主要构成有:BI系统、用户画像体系、电商反作弊体系、资讯个性化推荐和电商个性化推送。


个人理解,对于BI和用户画像体系的搭建,是考察一个数据分析师基本产品能力的风向标。
通过书本的篇幅可以看出作者和我的意见不谋而合,对画像搭建感兴趣的同学可以详细参考用户画像体系部分。


总的来说,这本“小册子”大体框架令人满意,但是对于详略程度的拿捏做得不是很好。
可读性:优;实用性:良。



最后,引用和总结书中一些颇为出彩的陈述:

1、数据质量的衡量涉及数据的完整性、准确性、一致性、规范性和时效性。
完整性基于业务和数据采集完整度,准确定规定了数值与真实值之间的误差,一致性要求多方数据出口保持一致,规范性要求统一的数据格式以便采集分析,时效性要求能在恰当时间范围内出数。

2、针对不同类型的元数据,可以把它们组织起来分为3组:数据属性、数据字典、数据血缘。
这些数据有几种类型:基础信息、标签信息、业务信息、技术信息、权限信息。

3、指标分为原子指标与派生指标:

  • 原子指标:事实逻辑表中某个字段的统计值(sum、count、max、min、avg),如下单用户数、下单金额等。
  • 派生指标:基于原子指标,进行维度组合后产生的指标,如近1天商城下单用户数、本周商城黄金会员下单金额等。

原子指标无业务意义,它只是预定义的代码片段。我们在业务中用到的指标基本都是派生指标。

4、数仓模型中心设计思路:控制数据源、划分主题域、构建一致性维度、构建总线矩阵、数仓分层建设、数仓效果评估。
数仓一般分为3层:ODS层(操作数据存储层)、CDM层(公共维度模型层)和ADS层(应用数据层)。
数仓效果评估,采用量化的指标:规范度、完善度、复用度。

5、数据赋能业务一般会经历4个环节:数据表现、业务原因、业务策略和作用方式。

  • 首先,我们通过数据去评估业务状态,发现业务表现异常;
  • 其次,我们全面地分析数据,并结合一线的调研反馈,反复地进行猜想和数据验证,弄清楚数据表现背后的业务原因,思考解决问题的业务策略;
  • 最后,我们落地执行业务策略,监控落地效果并不断地迭代业务策略,直到问题被解决,业务发展进入正轨。

6、业务策略存在两个闭环:逻辑闭环和业务闭环。

  • 逻辑闭环:数据分析的过程,在逻辑上要实现闭环,论据要能够支撑结论。
  • 业务闭环:业务策略在业务上的落地执行要实现闭环,不断地被调整和迭代。

7、数据分析五板斧:细分,对比,关联,因果,趋势。

8、在取数之前多思考为什么要取这个数据,分析的框架是什么,分析的目的和接下来要取的数据是否能印证对应上等。
不要把自己的工作内容和思想局限在取数这件事上。

9、数据分析,按照从浅到深分为四个阶段:描述性分析、诊断性分析、预测性分析、策略性分析(原文无策略性分析)。

  • 描述性分析:回答数据是什么;
  • 诊断性分析:回答数据为什么;
  • 预测性分析:回答数据将是什么;
  • 策略性分析:自动化制定策略。

10、企业从两方面考核数据分析师的产出:

  • 专业产出:拆解的项目年度/月度目标、搭建的业务评估指标体系和分析的业务策略等都属于数据分析师的专业产出;
  • 业务结果:往往数据分析师的绩效与业务结果不会被强行绑定,但业务结果差的数据分析师一般不会获得好的绩效。

11、要想有好的工作节奏,我们就需要想清楚当下自己的核心诉求是什么,要学会不断地根据客观环境调整自己的状态,让自己的工作与核心诉求保持一致,最大地激发自己的热情与创造力,要经常反观自己是否还位于第一象限。

12、诊断性分析的一般流程:发现问题—定义问题—拆解问题—寻找原因—提出解决方案—落地执行—反馈迭代,直到业务问题被解决。评估标准一般是关键指标的变化符合预期。

13、在可视化实践中,初学者需要注重积累和总结,逐渐形成适合自己的图表配对模板和配色风格。

14、精准营销的4R法则,即通过合适的渠道(Right Channel),在合适的时间(Right Time),将合适的产品(Right Product)推送给合适的用户(Right Customer)。

15、好的push应该具备4个要素:效率高、算法准、推荐好、展示靓。

你可能感兴趣的:(小曾曾读书笔记,大数据,数据分析)