从数据可视化 / 到智能可视化
以简洁精美的图像展现复杂、抽象或分散的信息,并将不同的数据组合,展现其中的联系和模式,帮助我们在数据丛林中看清真相。
在数据可视化制作过程,我们探索各种信息中内在因素的模式和关联,依赖的是个人的经验和信息提炼、总结能力。
当我们使用AI代替人脑对数据进行提取、压缩、呈现,也就有了智能可视化这个跨学科方向。
琢磨了一段时间,我把之前关于算法见解和归因分析的研究进行了“合并”~~
shadow
版本记录:
v1.0 2020-08-09 什么是见解、如何实现算法见解
v1.0 2020-07-11 归因分析指南
无界
# 智能可视化
AI参与数据可视化的生产过程,典型的一种流程是:
用户向机器下达指令,机器根据分析场景和上下文推测人类分析的目的,自动理解、智能分析并主动用可视化的方式呈现给用户。
# 智能可视化是怎么一种体验?
各种技术通过组合后,产生了一种新的人机交互体验。我们通过一个具体的例子来感受此种体验。
问题:服装产品的销售量是多少?
当你在 Excel 中输入这个问题,Excel 将立即“意会”,把“服装”分类下不同产品的销售量数据,以可视化图表的方式呈现在你眼前。
ibrand
“数据指挥家” @史丹青 ,之前也提过可视化设计本身已经是交叉学科啦~~
???? 人物专访:数据指挥家
史丹青
对的,可视化设计是交叉学科,需要创作者在具备设计素养的同时还能够掌握数据分析的能力,这对于普通大众还是有一定门槛的。
我希望通过人工智能的技术自动为数据完成可视化的制作,让普通用户无需掌握相关知识也可以基于自己的数据快速完成一个不错的可视化作品。
创作者需要深刻理解每一种图表的作用。比如桑基图,可以应用到用户旅程中,帮助我们了解用户的行为习惯,找到用户主要使用流程,从而确定转化漏斗中的关键步骤。通过了解用户的流向,我们可以:
1/ 发现用户的兴趣点、流失点流失点
2/ 找到有价值的用户群体
3/ 发现被用户忽略的产品价值点,修正曝光方式
有时甚至需要创造一种全新的图表,优秀的可视化作品需要具备以下几个条件:
1/ 让数据看起来更酷
2/ 用数据讲述一个故事
3/ 将我们引导到信息中重要的部分
比如下面这个经典的可视化设计:它通过对数据精妙的编码,描述了拿破仑帝国入侵俄罗斯的整个过程。
黄色是拿破仑大军进军的路线,而黑色表示他们败退的路线。这些线条的粗细展示了当时军队的人数,可见在败退的过程中,军队人数损失惨重。此外,其它诸如地理信息、气温信息也被高效地进行了呈现。
# 全流程智能可视化
压缩信息、表达信息的过程交由算法
对知识进行压缩,通过透彻的理解来更简洁地表达海量的信息。这一压缩过程可以是人脑也可以是通过算法。下面是微软的一篇论文,为我们展示了从文本信息自动生成数据可视化的研究成果。比如用户的输入:
问题:
3 out of 5 Chinese people live in rural areas
每五个中国人中就有三个住在农村地区
AI自动的设计出合适的信息图:
Text-to-Viz:
Automatic Generation of Infographics from Proportion-Related Natural Language Statements
IEEE VIS 2019
从用户的输入到信息图的输出,这显然不是一件简单的任务,中间涉及到了许多的技术难点。为此,作者设计了一套复杂的流程。
1/
通过自然语言分析从文本中提取关键的信息,诸如整体是什么、部分是什么、比例是多少等等;
2/
收集了网络上大量的设计案例
3/
在这些案例的基础上,总结并设计出了一套自动设计的算法,将信息分别转化成图形、布局、颜色等等,最终合成许多可能的信息图;
4/
最后对信息图在若干个维度上评估打分,输出系统推荐出来的最好结果。
# 智能可视化的人机协作
人工智能辅助可视化
全过程的自动化生成太难了,存在比较大的技术瓶颈,那是不是意味着AI真的无法在可视化上应用?
其实不然,我们可以很好地应用AI来辅助数据可视化的过程,比如信息的标记、提取、压缩,配合人类的决策,通过一种人机协作的方式,完成数据可视化的制作。
产品 /
一体化文本分析&数据可视化
这是一款用AI辅助可视化的技术产品,自动标记您的业务数据,自动化流程,并可交互的、可视化见解和趋势。
# 更进一步:AI+Insight
如果仅仅只是把数据通过可视化显示出来,似乎还不够。往往我们需要对数据可视化进行解读,使表达得更有洞察力。
- 什么是insight 洞察/见解
举一个UI设计上的例子
如果我们表述为:增加社交计数可将转化率提高,这一观点,其实算不上insight。因为没有上升到规律的层面。我们换一个角度描述:由于羊群效应,在我们的心理深处,其他人的行为具有自然的吸引力,所以增加社交计数可将转化率提高。
这一描述就显得insight,因为有抽象的部分(羊群效应),可以解释很多场景(不仅仅是UI)。
举一个 ThinkTwice2 写的insight 的例子
参考:
https://www.jianshu.com/p/af8823d5900d
曾经有组音频节目体验的调研发现,有的人会在开车的时候听一些自己喜欢的节目,而有的在周末整理家务时,把音频节目设置好,一边干活一边听。
如果单单看这两件事的行为,乍一看完全没有什么联系,但是如果我们仔细思考一下,这两个观察中都透露了一个共同的行为特征,那就是用户是把机械性重复工作和需要认知的任务分开在做(Divided Body and Mind)。
这种总结性的陈述可以帮助我们解释大多数在调研中观察到的现象,而这个解释也就是我们所说的insight。
insight可以解释观察中的大多数现象,也可以用于解释其他没有被观察到的场景。
insight一般比较抽象,并不是所看即所得。
insight不需要定量的数据,也很有说服力。
就如作者所说,The best posture is your next posture Previous 这一句就很有insight。
另外,洞察力能够清楚地看到或理解某些东西。
它通常包括因果关系:如果您执行“ A”,则将发生“ B”。
洞察力,是一项需要创造力,毅力和深思熟虑的技能。最有力的见解来自严格和认真的分析,可以将大量数据转换为简明而引人注目的发现。
另外还有一种方法,通过发现有趣的模式interesting patterns来产生洞察。如何定义有趣?如下图所示,数据的趋势不稳定,就代表是有趣的:
# 如何实现AI+Insight?
为了把Insight自动挖掘出来,需要把所有可能的有趣模式分类出来,有趣的模式包括12种:
Attribution贡献
Outstanding No. 1 第一名
Outstanding Top 2 第二名
Outstanding Last 最后一位
Evenness 均匀度
Change Point 转折点
Outlier 离群值
Seasonality 季节性
Trend 趋势
2D Clustering 聚类
Correlation 相关性
Cross-Measure Correlation 交叉测量相关
可以进一步分成3类:单点洞察、单形状洞察、复合洞察。
结合图表,我们看几个示例:
Outstanding No. 1
Outstanding Last
Attribution
Evenness
Change Point
Outlier
Trend
Seasonality
Correlation
Cross-Measure Correlation
2D Clustering
当把洞察的种类罗列完之后,就可以尝试使用机器学习来自动发现各种有价值的洞察啦~
产品 /
Power BI Desktop的insight功能
见解是有一定的模式的(套路),因而是可以被算法所实现的。接下来,我们通过研究Power BI Desktop的insight功能,来回答:算法见解如何实现?机器是否可以完成一项,需要创造力的工作?
Power BI Desktop 为我们展示了2种可被算法实现的见解:解释图表中的波动、发现分配发生变化的位置。
1 解释图表中的波动
例子:2014 年的销售额大幅下降,
第一季度与第二季度之间的销售额骤减。
在图表中,你通常会看到数值大幅上升又急剧下降的情况,那什么是导致这种波动的原因呢?借助 Power BI Desktop 中的见解,只需单击几下即可了解原因。(对数据进行研究,以帮助解释发生变化的原因)
右键单击数据点,可以看到分析选项下面有:
解释此减少情况
解释此增长情况
查找此分配不同之处
在这里我们选择“解释此减少情况”。见解功能给出的答案是:销量里具体每一种产品贡献率及其比重变化。(计算机、家用电器、电视、音响等)
我们还可以切换见解所给出的图表形式,选择显示为散点图、堆叠柱形图或功能区图。
在页面顶部Power BI Desktop提供了“很棒”和“很差”的图标,这样你就可以提供关于自动见解的反馈。
2 发现分配发生变化的位置
如何知道不同类别的分布是否相同呢?
以不同国家/地区的总销售额为例。如图所示,大部分销售额来自美国,占所有销售额的 57%,余下的销售额则来自其他国家/地区。在这种情况下,探索是否会在不同的亚群中看到与之相同的分布通常很有趣。
选择分析>找出分布的不同之处
在此示例中,自动化分析显示,图中灰色部分为总销售额,彩色部分为旅行车的销售额。结论:就旅行车而言,美国和加拿大的销售额比例降低,而其他国家/地区的比例升高。
总结下,见解是抽象的、具有规律性的(可以描述大多数场景的),机器可以结合下钻分析完成2种范式的见解:解释数据的前后波动的原因、发现分布规律不一致。
除此之外还可以完成:类别离群值、时序中趋势明显变化的点、时序中的整体趋势、时序中的季节性、时序离群值、低方差、多数(主要因素)、关联(检测多个度量值显示相似模式或趋势)、稳定份额。
????详见 如何实现算法见解
# 数据可视化的应用场景
说到智能可视化,有必要把数据可视化的应用都汇总下。数据可视化应用非常广泛,简单到ppt里的一页数据分析结果展示,复杂到数字孪生里的可视化展示。
可视化学习音乐。在这个网站中,你会学习到合成器的基础知识。这里不要求任何经验或设备,所有操作你都可以在浏览器中完成。
learningsynths.ableton.com/zh-Hans/get-started
互补色预测,可视化展示AI所能完成的工作和原理。
stelling.cc/complementary-color-prediction
通过数据可视化,挖掘山水画作品的特征规律。
Dissecting landscape art history with information theory
可视化表达社交关系。用于系统地发现、排列并解释用户行为与社交媒体提要中出现的内容之间的联系。
活动项目关系发现框架FAIRY
师生关系的可视化。通过检测老师在每个桌子的停留时间和行走轨迹,生成老师的行为可视化图,来促进教育的公平性。
可视化解梦。以一位十几岁女孩Lzzy的梦境为例,和许多人一样,Lzzy梦见了一些不太可能发生的情况里的奇怪人物。她在日记中这样描述她的梦境,“我当时在家里,那个蠢节目《Looney Tunes》(兔八哥) 里的恐怖红怪物在周围游荡”,“很多怪物想进来,我怕得要死”。
数据可视化分析《权利的游戏》的人物关系。这个网站将《权利的游戏》六季每一集的完整对话进行分析,以图表的形式展现不同人物之间的关系,并将每一句台词转化为可交互的体验,进入网站的用户可以尽情地探索剧里的人物关系、台词情感和互动,现在网站还是 beta 版本,Bureau 工作室还在不断完善这个项目。
在《Complete Anatomy》中可以直接结合可视化方案,检查病人身体恢复情况。
影视里的可视化。影视剧《死亡笔记》应用可视化和大数定理,设置了相关的剧情。
1/
通过犯罪人数与成功率的关系推断出罪犯是一个人
2/
通过对犯罪时间按7天区间的切分,叠加在一起,发现罪犯是学生…
TVB港剧《智能爱人》,利用数据可视化,表达机器人眼里的人类或其他事物。
# 应用于归因的可视化
归因最早源于心理学:人们对自己的行为起因和他人的行为进行推断的解释过程。汉语上理解,指的是观察者对他人的行为过程或自己的行为过程所进行的因果解释和推论。
归因:因果解释和推论。归因分析是一种可以跨领域使用的方法(技术),能帮助我们看清影响结果的关键因素,从而不会轻易被表象所迷惑。在数据分析、深度学习、广告营销、心理学、投资都有相关的理论研究。
数字营销领域的归因数据可视化。在数字营销领域,一般我们会称为营销归因模型,共有六种常见的归因模型:首次互动、最后一次互动、最后一次非直接点击、线性、时间衰减和基于位置。
每种分析模型都有其优缺点。通过分析每个归因模型,我们可以更好地了解每个营销渠道的投资回报率。不一定有“最佳”归因模型,但我们可以选择一种作为报告和分析的主要归因模型。
产品 /
Adobe Analytics
这不仅是归因,而是一场洞察革命。
It’s not just attribution.
It’s an insight revolution.
通过归因,您可以了解整个客户旅程中不同的互动如何影响转化。传统归因归因于特定事件和任意事件,而最佳归因则使用机器学习和高级统计模型来了解每次触摸的精确影响。
功能1 营销归因
多种基于规则和算法的归因方法可对客户行为进行可靠的分析,并根据客户的实际互动模式为每个渠道提供最合适的模型。
1 多种归因模型,每种模型有其假设及适用的场景
2 合理地根据具体业务选择适合的归因模型;
Mix, match, or compare attribution models in your analysis
3 可视化的重要性
可视化图表的选择代表了所想要展示的规律,往往图就是结论。
功能2 预测分析
Predictive analytics.
Predicting the future is what data was made for.
数据的存在价值就是为了预测未来。
当我们收集了大量的客户数据,但是在许多情况下,我们并没有充分利用这一切收集而来的数据,因为我们依赖从手动挖掘到的很小比例的见解。
预测分析旨在帮助我们挖掘尚未开发的数据潜力。这些数据中隐藏着一些模式,这些模式可以揭示有意义的客户见解。预测功能依靠机器学习和高级统计模型来自动挖掘大量数据,以寻找大多数分析师根本没有时间寻找的那些模式。
用于因果关系分析的可视化方法。三种类型的图,各自表达不一样的信息,帮助我们探索因果关系。
用于解释深度学习模型的归因。归因也用于分析深度学习模型所学习到的特征,对于预测结果的贡献度。下图是用于分析一个翻译模型,单词对于输入输出的贡献程度。以及用于文本分类模型的归因分析,我们可以直观地了解到模型所学习到的、对于分类有关键作用的单词。
# 应用于数字孪生的可视化
数字孪生是一个综合性的概念,而不是单个产品或一项技术。由多种技术,包括3D模拟、数据可视化、物联网、4G/5G、大数据、区块链、边缘计算、云计算和人工智能等构成。核心原理是,物理实体或资产与虚拟世界中的数字资产等价。有几个关键的要点可以帮助我们理解:
- 模拟通常在某些情况下用于离线优化。相反,数字孪生用于整设计的生命周期。
- 模拟可以帮助了解现实世界中可能发生的事情。数字孪生不仅有助于了解可能发生的事情,而且是正在发生的事情(实时)。
- Gartner 认为数字孪生的发展超越了数字资产,应该包括人员、流程和行为的整个组织。
数字孪生中的可视化
柚柚爸
数字孪生!这个待我抽空好好研究下~~~
其实我还没有空去好好整理数字孪生方面的可视化,只能先抛个话题,哈哈。
另外,补充一点。在新技术落地过程中,必须处理好技术与产品之间的关系。具体包括:
- 站在用户和产品的角度思考,保证目标用户最常见的查询需求都能够得到满足。
- 产品对技术的准确率有着极高的要求,当用户问一个问题,机器自动给出的回答必须有很高的准确率,否则会误导用户的决策,带来极大的损失。
- 定义技术在产品中的边界,并让用户理解它的适用范围。
shadow
opus
如果对以上话题感兴趣
????????????????????????????????????????????????????????
欢迎加入社群,
关注后回复:群聊 ⤵️
1450+主题数
覆盖
回复:2021