相信大家在工作和学习中,都免不了需要做图表,比如用EXCEL、用PPT,还有用各种高端软件做出的动图与动画,这种利用图表或图画呈现方案或成果的方式一般被称为可视化。它通常是一项分析报告的"最后一公里",可以帮助汇报者更好地表达内心的想法,也让听取汇报的人更直观了解报告的意义。所以,如何在混沌、嘈杂的数据中,能够快速提取出有效信息就成了数据分析工作的关键。
通常来说,有人依赖直觉,有人注重理性思考。直觉反应虽快,但是缺乏深度,而理性思考虽然可靠,但是缺乏效率。这时候数据可视化的价值就体现出来了:通过图形要素来优化信息的表达速率,让需要决策的人员有更多的心智进行理性思考,两者协同提高整个决策流程的效率和结果可靠性。
数据可视化的价值是值得肯定的,但它诞生的背后还有一段鲜为人知的故事……
John Snow大概永远不会想到,自己在排查霍乱传播途径时,在地图上标记死于霍乱病人的“霍乱地图”居然会被后人评为历史上十佳数据可视化的案例,并且成为了医药地理学和传染病学中一项基本的研究方法。
约翰·斯诺(John Snow,1813年3月15日-1858年6月16日),英国内科医生,曾经当过维多利亚女王的私人医师,因在1854年宽街霍乱爆发事件研究中作出重大贡献,被认为是麻醉医学和公共卫生医学的开拓者。
在斯诺生活的年代,对霍乱的起因的主流意见是空气污染论(认为霍乱像黑死病一样通过空气传播)。另一方意见是未被广泛接受病菌学说。通过深入研究,在与当地居民的沟通中加上亨利·怀特海德的协助,斯诺判断出宽街的公共水泵是污染源,斯诺随后使用点示图去解释霍乱案例爆发点是以水泵为中心。通过连接霍乱事件与地理信息的关联,创制了著名的 “霍乱地图”。
他将该地区的每一个水泵,以及四周的水井都标注到图中。最后他发现最多的霍乱患者围绕的水泵位于宽街。最终遏制了霍乱在当地的传播。
斯诺的故事说明了最佳的数据可视化是与实际问题和需求相关联的,能用最直观形象的方式阐明问题和结论,挖掘出数据的最终价值,为决策提供强力支撑。
以上是数据可视化建立的背景,那数据可视化是什么呢?价值又具体表现在哪些方面呢?我们继续往下看。
利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术称为可视化,它将不可见或难以分析的数据转化为可感知的图形、符号、颜色、纹理等等,以提高数据识别和信息传递的效率。
我们拿到的原始数据,可能是半结构化,甚至非结构化的,经过数据清洗和ETL过程,我们得到规整的结构化数据表,再通过视觉映射,我们得到需要展示的视觉结构,即按照什么维度,展示什么指标,最后,将视觉结构通过图像转换,转化为最终的可视化图像,呈现给决策者。
●注:ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
1.软件生成分析图
Excel、Python、Matlab和SAS等数据分析软件经常自带数据可视化包或工具,科研人员或技术人员可借此对数据进行初步可视化,以继续深入分析和挖掘,维度相对简单,对视觉要求较低,适合技术人员初步分析或学者发表研究论文。
比如下图是针对16年美国大选选民学历的可视化分析,未接受高等教育的白人比例越大(相比4年前),Trump的胜算越大,而这个比例在男性中更为明显。
2.信息图
由设计人员根据清洗过的数据,充分分析其含义后,利用illustrator、corel draw等平面设计软件进行手动加工,同时加入注解信息获得。可读性趣味性很强,但相对数据准确度不高,常出现于媒体资讯或者公司行业报告中,也就是大家经常看到的“一图看懂XXXX”。
3.可交互的HTML网页(BI系统)
可借由HTML5、JS等技术动态地、可交互地展示高维数据,非技术背景的普通用户也可以对自己感兴趣的数据进行选取和下钻。常由多个网页构成商业智能(BI)系统,但近年来也被媒体广泛采用展示热点数据。
1.对于管理层。管理者更多的是需要以全景的角度,自上而下的俯看,直观准确的找到重点关注的数据价值,以便进行全局掌控,明智快速的决策以及管理思路的落地。
2.对于执行层。执行者希望能够从海量数据抽丝剥茧,找到有执行价值的数据,通过自下而上的视角,把执行成果进行呈现,恰好对应上管理者的决策。
总结而言,可视化就是一种将管理者关注重点与执行者工作重点对齐的重要手段。
1.目标及需求调研:也就是对齐业务目标、展现目标,圈定需求边界。
做可视化,最容易进入的误区就是,拿到一堆数据,还没有理解数据有什么含义,直接就开始套用图形进行展示,把大部分时间用在美化图表上,而完全忽略数据本身传达的意义。下面这张图信息量很大,可以帮助大家评估一个可视化作品是否成功。
因此明确一个可视化作品的目标是很重要的,知道了要传达什么信息,达到什么目标,才知道要选择什么展现形式。不同的图表类型适合表达不同的含义,比如,要比较趋势,折线图就比柱状图更合适,比如,要表达占比,饼图不一定比堆积柱状图好用。
2.故事线梳理:比如从全景观测视角出发,纵向围绕交易、系统、应用等维度,横向围绕交易链路,逐步下钻呈现数据价值。
3.数据来源及质量调研:巧妇难为无米之炊,第一步当然是要获取结构化的,干净的数据,如数据库、中间件、服务器等,确保数据质量有效精准。否则再漂亮的可视化,没有准确的数据支撑,也是空中楼阁。不光是可视化,基于数据的分析,模型,支撑风控、营销和运营,在缺少数据质量支撑的前提下几乎都无从谈起。
4.展示设计和模板选择:基于业务需求理解的展示逻辑设计以及提供积累下来的已有展示模板。那么,如何选择合适的展现形式呢,毕竟,有那么多种类的图形:
下面列举了常用的各类图表及适用场景:
5.产品部署及展示实现:现场部署产品并提供后期远程支持,把控展示节奏等
6.优化及上线:现场调优及后期上线的远程维护支持
在企业数字化转型的历史进程中,随着业务的创新发展,致使业务系统架构逐渐变得更为复杂且多样。在稳态与敏态共存的情况下,运维工作面对的难度愈发变大、挑战愈发变强。因此,运维手段的升级、数据治理方法的精进成为了企业颇为关注的重点。
保证IT系统、业务系统的健康运行和用户体验的持续提升,是我们近年投入大量精力的研发方向。虽受到疫情的严重影响,但我们从未停下开拓进取的脚步。
经过产研团队的不懈努力,我们将夏洛克AIOps系列产品下的运营决策中心进行了全面升级,正式推出AnyV 运营可视化中心。旨在通过简单的图形化界面来帮助客户实现专业级的可视化场景,实现客户在不同运营场景下的灵活、个性的业务展示需求。
运营可视化中心
*注:以上部分内容来源于网络
擎创科技,Gartner连续推荐的AIOps领域标杆供应商。公司致力于协助企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。
行业龙头客户的共同选择
了解更多运维干货与技术分享
可以右上角一键关注
我们是深耕智能运维领域近十年的
连续多年获Gartner推荐的AIOps标杆供应商
下期我们不见不散