数据的本质及 DIKW 模型

数据的本质及 DIKW 模型_第1张图片

这个讨论的起点是看到居士在朋友圈里问「数据的本质是什么」,并提到有篇文章认为「数据的本质是商业」。这个观点与我心目中的观点差别很大,转发给「数据人修炼之路」微信群后,大家引发了很多讨论,这里分享下我个人的总结。

0. 结论

开门见山,在我的观点里,「数据」的本质是衡量客观世界的方式,经过主观意识解读后变成「信息」,从而能帮助人们更好地理解世界(消除了不确定性)。而「信号」是人们感知客观世界的载体。

这里面有三个概念,信号(Signal),数据和信息。

1. 信息的定义

信息(Information)是个使用很广的概念。我们取 Wikipedia 中的定义来讲,Information can be thought of as the resolution of uncertainty ,是「不确定的解决」。

信息量或信息熵则是这个「不确定性」或「选择的自由度」的度量。 信息论奠基人克劳德·艾尔伍德·香农(Claude Elwood Shannon)在他的著名论文《通信的数学理论》(1948)中提出计算信息量的公式,该公式和热力学的熵的本质一样,故也称为熵。

能够消除不确定性,则代表信息经过了意识的解读。客观存在如果不经过主观解读,则无法对主观判断产生影响。

2. 数据的定义

数据,百度百科中说:“数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据可以是连续的值,比如声音、图像,称为「模拟数据」。也可以是离散的,如符号、文字,称为「数字数据」。在计算机系统中,数据以二进制信息单元0 和 1 的形式表示。”因此,我们可以说数据是衡量客观世界的一种方式,是客观存在经过主观观察、记录和归纳的产物,但这里只是记录和归纳,没有解读。

3. 数据和信息的关系

正如 Wikipedia 所言,“In popular publications, data is sometimes said to be transformed into information when it is viewed in context or in post-analysis”

只有在上下文信息或事前分析时,我们才能将「数据」转化为「信息」,从而提高我们对客观世界的理解和判断。

以「你推窗看到蓝天,拍了一张照」为例,蓝天是信号,属于客观存在,经过你眼球和大脑记录下来成为「数据」:X月X号X时,天空是蓝色的。然后你解读出来的「今天是个晴天」是个信息,因其消除了「天气」的不确定性。拍照后留下的照片是模拟数据。

4. 互联网的数据概念

大部分互联网从业人士认知的应该是「用户和设备的状态和变化数据」,这些行为数据经过采集系统变成「计算机数据」,从而被加工有特定含义的「信息」,帮助采集者消除用户和设备识别方面的不确定性。我们所谓的数据产品,数据分析,数据仓库中的「数据」就是指的这个。

同样的,这些数据存放在服务器里,没有任何意义。只有当用户开始解读这些数据,放入上下文中,才能开始产生「信息」,获得对商业或业务的认知,然后实现商业价值。可以说「企业数据最终目的是实现商业价值」,但如果直接说「数据的本质是商业」未免有刻意简化和拔高概念之嫌。

5. DIKW 模型

数据的本质及 DIKW 模型_第2张图片

在讨论的过程中,有人引述到了 DIKW 模型,分别是 Data,Information,Knowledge 和 Wisdom 的首字母合称。这算是个讨论的外延,不过本身知识和智慧这两个词的定义更难,用本身存在歧义的概念搭建的模型,实用性往往不高。因此这里借鉴其用法,不讨论其实际定义。在寻找资料过程中,有两个变种图就是不错的用法。

下文的数据均为「互联网数据」

此图我觉得对数据从业者应该有所启发,它从四个角度阐述了这四个概念的递进过程:上下文,理解程度,过去和未来,常规和新颖。上下文有点类似我们的数据建设过程,从收集数据碎片(用户随机行为),到连接碎片(梳理成有前后逻辑的行为集),将碎片拼成整体(某些场景的行为意义),最后连接这些整体(形成用户画像)。这个图其实显示了数据价值的更高方向,整体性,预测性,新颖性和实操性(Interact和 Reflect)。

数据的本质及 DIKW 模型_第3张图片

还有一个是 Wikipedia 提到的美国陆军 2015 年出版的《有效知识管理的技术》提到的模型。它描述了一个将数据转换为信息,然后是知识到智慧的过程,以及最终在整个组织内共享认知并管理决策风险所涉及的活动。这更多是对日常工作和生活中如何去消化数据的借鉴,从「WHAT-HOW-WHY」去认知,在每个阶段有核心的关注点,每个层级如何递进等等。

数据的本质及 DIKW 模型_第4张图片

6. 总结

有时候进行一些务虚的思考也挺有意思。思维的碰撞能够产生更美妙的火花。

关于该话题,我在视频号中会持续分享,大家可以关注查看。

数据的本质及 DIKW 模型_第5张图片

热门文章

直戳泪点!数据从业者权威嘲讽指南!

数据分析师做成了提数工程师,该如何破局?

全栈型VS专精型,团队到底需要什么样的人?

数据驱动业务,比技术更重要的是思维的转变

最近面了十多个数据分析师,聊一聊我发现的一些问题

你可能感兴趣的:(数据的本质及 DIKW 模型)