昨晚在CPDA微课堂做了场直播,聊了一个终极问题,也是很多人在关注的话题。我把内容整理下来供读者们阅读、质疑和思考。(全文长6000多字)
-----------------------------
各位好,我是马世权,感谢大家抽出周末的宝贵时间,参加此次直播。相信大家来到这里也是同一个学习目的,就是掌握一些创新的技术知识,并且利用他们来增强自己的实力。那我就不多啰嗦了,直奔今天的主题,先给大家做个分享,再多留一些给大家提问交流的时间 。
今天我想分享的是一个非常重要的话题,就是关于数据分析工具,这也可能会影响到大家的职业发展路线。因为选择一个工具开始学习是要花很多学习成本的。如果不清楚这款工具会给你带来什么价值,就盲目开始学,很有可能误入歧途。
PowerBI这个产品上线了大概两年多的时间,其实我也是在一年多以前才开始接触它,先是百度各种搜索,又找了很多外文的资料,但一开始就有一个很大的疑惑,就是市面上的数据分析工具有这么多,它跟其他的工具相比有什么区别?哪个更好?比如常见的一个问题 PowerBI与R、Python语言相比 哪个更强?我应该学习哪个?
虽然这个问题有点俗套,但是很重要。我也一直努力在追求这个终极问题的答案。如果大家在网上去搜索这方面相关的信息,你又很难看到一个公平的观点。因为评价某一个工具的好坏评论者都可能站在不同的角度,带上一些个人的感情色彩或者是站在利益相关方的角度,比如我比较擅长用PowerBI,讲PowerBI课程,那平时就会更倾向于讲PowerBI的优势。
所以,我今天想抛开这些个人色彩的东西,力求客观地与大家浅谈一下我个人对市面上几款数据分析工具的看法,供大家参考。我共选了三类工具, Excel是第一类,PowerBI/Tableau BI工具是第二类, 第三类是编程类语言,R和Python。(其实之前在设计今天的演讲话题的时候,还放了一个SQL语言但后来把它拿掉了,因为我觉的SQL是查询语言,它是与数据库交流必备的工具,不能算作数据分析语言。如果大家对它有疑惑,咱们可以在后面的交流中聊聊)
现在就开始聊聊刚才说的三类工具吧。
Excel
咱们先讲讲Excel,数据科学家在用,不懂数据的人也会用。它可以说是无人不知,无人不晓。如果与其他几个工具放在一起, Excel、PowerBI/Tableau、R和Python,我们把这些都比作军事战斗武器的话,Excel绝对是航空母舰,因为它的体系太庞大了。从简单的表格制作,数据透视表,写公式,再到VBA语言,还有无数的插件供你使用。
比如我之前在的一家公司里学习过使用一种插件,叫@Risk,不知道大家有没有听过,没听过也没关系,我用到这个插件的功能叫,MonteCarlo 蒙特卡洛分析,是一种统计模拟方法。这个词是来源于摩纳哥一个城市赌城Monte Carlo。 如果大家出国去一些赌场,也可能会看到MonteCarlo这个词,我找了张照片,这是大概两年前在吉隆坡云顶赌场,也是马来西亚唯一合法的赌场,当时路过的时候看到有个门口写着Monte Carlo。哎,这不正是我用过的Excel插件功能吗?就拍了张照片作为留念。
简单的举个例子关于MonteCarlo,你可能会做一个分析模型,做一些假设,比如不同情境下的收入、成本、利润率多少,如果你想求不同情境下发生的可能性,就可以用到这类插件做模拟。模拟的过程就好像,扔硬币一样,正面、反面,当你扔硬币的次数非常多的时候,这个正面或者反面的概率就会接近二分之一。
这是非常强大的一个统计计算,也是基于我使用到过的一款Excel插件,但这对于Excel的插件来讲只是冰山一角,我们听过的插件还有PowerBI,包括PowerQuery、PowerPivot、PowerView、PowerMap,以及市面上还有更多无数的第三方开发的插件可以装载到Excel里使用。
所以,Excel不仅是一个武器,更像是航空母舰,它是一个载体,可以按照你的需求来配备各种高级的武器。
Excel第二个最强大的地方是,它的客户群体是世界第一。地球人都知道,以致于我在PowerBI的课程中讲一些用法的时候,都会联系到Excel里是怎样操作的。比如介绍在PowerBI中如何做“合并查询”或者“关联”,这几个词第一次听你可能不知道是什么含义,但如果我说他们的功能比较像Vlookup,很多人就马上明白意思了。
交流经验用Excel的方式来举例,别人与你探讨数据,发的文件可能大多也是Excel格式的。从这个角度来讲,因为使用人群非常多,Excel可以说是已经成为了一种工具语言。
当很多人问,我想转行做数据分析,但是我只会用Excel,不会其他的工具,能不能做数据分析呢?其实你连Excel都会,转行做数据分析真的是再完美不过了。
当然也有人认为自己非常精通计算机编程语言,不屑于使用Excel这种工具,我也有听到过很多人讲Excel不能处理大数据这类抱怨的声音。但换个思维想想,除了不能处理大数据这一条以外,还有什么Excel不能做的呢?这个局限的大数据,又是指多大呢?我们在日常中用到的数据是否超过了这个极限呢?
在我看来,Excel属于万能型的选手,解决小数据当然最适合,加上插件也可以处理到百万、千万、甚至亿行级的数据。所以对于有抱怨Excel想法的人,我希望你可以多花些时间了解Excel。
有些事情我们很可能还没有看得全面就下了定论,就好像我用了这么多年Excel,近两年才听说过还有Power系列的插件。说不定你会跟我一样,发现在做的很多事情,其实都可以在Excel中找到更快捷的解决方案。只不过是不知道而已。真的是一叶障目,不见泰山。
总结一下,基于Excel的强大的功能和它的用户规模,我的看法是,它是必备工具,我可以不用PowerBI、Tableau、以及其他类型的工具,但是真的不能没有Excel。
BI工具
我们来讲讲BI工具吧。BI,Business Intelligence 商业智能,这是为了数据分析而生的,它诞生的起点就非常高,目标是把从业务数据到经营决策的时间缩短,如何利用数据来影响决策。
而我们看Excel的产品目标不是这样的,Excel可以做很多事情,你用Excel可以画一张课程表,做一份调查问卷,当作计算器来算数,甚至还可以用来画画,用VBA写个小游戏,这些其实都不是数据分析功能。
我找了张Excel画蝙蝠侠的图片,网上这类Excel作画的图片有很多。显然,用PowerBI和Tableau你做不了这些事情,术业有专攻,BI是专攻数据分析的。
当你学习PowerBI的时候,你会发现它是完全按照数据分析的流程来设计的,先是PowerQuery数据处理,整理清洗,再到PowerPivot数据建模,最后数据可视化,展现图表,用图来讲故事,发掘问题影响决策。这些是数据分析的必经之路,同时这个流程里面也存在着从业者的一些痛点:
比如清洗数据这种重复性,低附加值的工作,可以用PowerQuery简单化,记录工作步骤,来解决;
做数据透视分析,由于数据量很大,传统Excel工具就很吃力,卡掉、死机。PowerPivot可以解决这个问题,让你随心所欲地实现计算度量。
做图形展现,用Excel可能会花费很多时间编辑图表,包括颜色、字体的设定,甚至大家经常看到一些Excel技巧类的文章,实现一些精美的图表需要花很多偏门的小技巧才能够完成,而用PowerBI的图表库,可能一键就可以生成。
这些痛点都是BI工具能够给我们带来改变和增值的地方。
那么再来谈谈PowerBI和Tableau相比较。
我是这样看的,其实PowerBI和Tableau的核心本质是一样的,这个核心就是Excel的数据透视表和数据透视图。它们都是通过拖拽字段的方式,实现数据透视分析,并一键生成图表。这也是为什么说如果你对Excel数据透视表很掌握,再去学习这两门工具上手会很快。
Tableau可以说敏锐地发觉了Excel的这个数据透视特性,较早地切入了BI市场,把这个核心价值发扬光大了。而PowerBI之前是以Excel插件作为产品,受限于Excel本身这个航母,发展情况并不理想,于是从Excel的插件中剥离出来,独立成一门派,脱胎换骨。但作为后来者,每个月都有迭代跟新,追赶速度非常快。
关于两个工具相比较,听到的观点和优势劣势的比较分析也很多。但我想说的是,对于微软巨头和Tableau这两家实力型公司,在产品功能上的差别(比如Tableau界面操作可以实现不同时间轴对比,PowerBI没有这个功能,需要间接的方式来操作;PowerBI可能有一种图形、Tableau没有),这些细微的差别可能只是时间差,预计未来也是你追我赶,互作标杆,这些其实都不是核心竞争力的东西。核心竞争力是什么呢?我认为主要有两点:
先讲Tableau。
从发展历史和当前的市场的一些反馈情况看,Tablueau在可视化方面更胜一筹,这个优势我认为并不是图表有多炫酷,而是它的设计、色彩、操作界面给人一种简单,清新的感觉。这一点的确是像Tableau自己所宣传的,投入了很多学术性精力研究人们喜欢什么样的图表,怎样在操作和视觉上给使用者带来极致的体验。此外,Tableau也在日趋完善,比如加入数据清洗功能和更多智能分析功能。这也都是Tableau可预计的产品发展优势。
再看PowerBI,我个人选择PowerBI的原因,是看好微软的商业模式和产品的数据分析功能。商业模式是软件免费,这样你不用担心盗版、破解版的问题,因为正版都是免费的,这一点相比Tableau的动辄几千元的售价实在是很有诱惑力。
另一方面是数据分析功能,就是PowerPivot,DAX语言,它可以让我用类似Excel写公式的方式,实现很多非常复杂的高级分析。比如前些日子,有位朋友问我一个问题:
一张销售订单表,每一条都是一笔订单,每种商品都有很多顾客购买,比如A商品,有的顾客买了1次,有的买了2次、3次...我们想求购买2次以上的人数怎么求呢?
我把答案写在了图上,你会发现只需要写两个简单的度量值就可以完成。这个公式的逻辑是先提取出不重复的顾客ID, 再筛选哪些顾客购买的次数是大于2次,如果>2次就计为1,最后再把这些1加总,求得想要的结果。
其实这种思考的方式与平时使用Excel做分析也是非常相同的。而且我举的这个例子,仅仅是一项比较简单的应用,有很多复杂的分析,我们都可以写DAX公式来完成,DAX,Data Analysis Expression 数据分析表达式 也是微软的独家专利。
以上是我认为PowerBI和Tablueau各家的看家本领,至于选择哪个工具,就好像买手机一样,你喜欢三星、苹果还是华为呢?根据大家能接受的成本、实际工作需要和个人风格偏好来选吧。但无论哪个,BI工具都是未来的主流数据分析工具的方向。
R和Python
第三类工具,这是最难的回答的,也是我一直想要回答的终极问题。主流的数据分析编程语言是R和Python, 那么这类编程语言与PowerBI这种BI工具相比又有什么区别呢?或者说PowerBI可不可以替代这些语言呢?
其实我个人并不精通这两门语言,在工作中也基本用不到。但前面我提到过,早在一年以前我就有这个关于Excel、BI与编程语言相比较的疑问,也把它列为我想要回答的终极问题。我想即使我们不懂R、Phthon语言,平时工作不会接触,我们也有必要了解不同工具的优势劣势,来决定自己是否需要扩大学习知识体系。
为了找到这个问题的答案,更接近真相,我在业余时间也学习了些R、Python、机器学习、人工智能方面的教程。就以个人初浅的认知来谈谈吧:
先来讲讲相比较之下BI工具的优势。
首先第一大优势,PowerBI和Tableau都属于傻瓜化操作工具,可视化的界面操作学习成本比较低,而编程语言是纯写代码操作。比如教你怎样用Excel做一张数据透视表,选中数据区域插入数据透视表,拖拽你想要的字段到行、列、值,再选择值的计算方式是求和还是计数等等。演示一遍,几分钟的时间你就能够学会。
但是如何写代码来完成这项工作,可能要从语言的基础开始努力学习一段时间才能记下来。这就好比电脑系统,Windows出现以前是DOS系统,在黑屏界面上输入代码操作和鼠标操作相比,对用户的接受程度和学习门槛是完全不同的。
事实上,即使对于精通编程语言的人群,大家也非常喜欢用可视化界面的工具。比如我们需要修改一列数据的格式,把数值类型变成日期,在PowerQuery里,点击一下就完成了,更重要的是,你能够看见这一列的数值变成了日期,这种用户体验,是更优越的。
所以为什么说PowerBI可以让人人成为数据分析师这件事成为可能呢?其实就是这个道理,学习门槛不高。
第二个PowerBI工具的优势是灵活性
如果你刚刚学习PowerPivot,创建度量值,你就会发现度量值的神奇,它被称作移动的公式,建立了一次以后就可以无限量的重复利用在各个场景,调整时间轴,选中不同的城市,就可以迅速得到对应的时间和对应城市的计算结果。
这一招PowerBI对于编程语言可以说是致命一击。这种差别通俗地来讲,利用PowerBI做的数据透视表是动态的,而编程语言生成的表是静态的。动态的方式非常适合回答商业分析问题,因为商业分析经常会有很多变化的问题:
比如环比怎样?同比怎样?当前时间段与某一特定时间段比较如何?哪些产品有增长?不同的城市经营状况如何?这种多维度多问题的分析,利用PowerBI来回答,只需要切片器调整,同一个度量值公式就可以得到不同的结果。而在R、Python这类编程语言中操作,你需要反复修改代码,才能完成。
接下来,再来讲讲Excel和BI工具的局限性。虽然这些软件的设计已经尽最大努力考虑到大部分数据分析的应用场景,但本质上他们都是定制化的,如果没有设计某一项功能,或者开发某项功能的按钮,很有可能你就不能完成你的工作。对于这一点,编程语言就不一样了,语言是非常强大非常灵活的,你可以随心所欲地写代码执行你想要的东西。比如R和Python语言,作为数据科学家的必备工具,从职业高度上讲,这绝对是高于Excel、PowerBI工具的。
那么有哪些应用场景,R/Python 可以做,而Excel和PowerBI比较难实现呢?我想到两点:
第一、专业的统计分析
以R语言来讲,它最擅长的是统计型分析,比如求正态分布,利用算法归类聚群,回归分析等。这种分析就好比把数据当做一种实验品,它能够帮助我们回答的问题:
比如数据的分布情况,是正态分布、三角分布还是其他类型的分布?离散情况如何?是否在我们想要达到的统计可控范围内呢?不同参数对结果的影响的量级是多少?以及假设性模拟分析,如果某一参数变化,会带来多大的影响?我想基于这些功能,也是为什么R会成为数据科学家的工具吧,它是以科学的视角来看待数据。
不过,对于统计分析场景、假设性模拟分析这种应用,在前面提到的做Monte Carlo分析的类似插件也可以实现,所以就像前面所说的,Excel是万能型选手,它也可以实现专业级的统计分析,可能这个前提是数据量不是特别大的情况下。
第二个编程语言的优势是,个体预测分析
比如我们想要预测一位消费者的行为,他会在我们的店里停留多长时间,消费多少,或者通过一个人的淘宝消费记录判断他的个人信用情况,制定贷款额度;再或者根据你在网页上的浏览记录,推送不同的商品。这也是涉及到目前比较火的机器学习、人工智能概念。
对于个体的预测分析,这方面BI工具是做不到的。当然,微软也有针对机器学习方面的工具,叫Azure Machine Learning,是可以不需要精通编程语言就可以上手机器学习的软件,但这又是另一款工具,另一个领域了。
以上的对比说明了几个软件的差别,我想总结的是,存在即合理。Excel\BI\编程语言,这些工具在应用上有交叉重叠的地方,也有互补的地方。对于重叠的地方,无论是哪种工具,只要你能利用它解决你遇到的问题,它就是最棒的。
如果你会用R语言绘制一张图表,用Excel也能绘制出同样的,那么它们在这张图表的价值就是一样的。
如果你用Excel可以做的更快,那就是Excel超越了R。
如果你用Excel分析出业务发展的动向,影响了管理层的商业决策,这就是最高价值的体现。
反过来讲,即使你精通Excel、精通各类计算机编程语言,但最后做出来的数据分析没有达到影响业务决策的目的,再多的知识也只是工具知识,并没有发挥出它的最终目的。
最后总结一下,选择哪个工具,首先要了解你自己的工作,是否会用到我刚才提到的那些应用场景。或者想想你的从业方向,是朝着偏重数据的数据科学方向发展,还是偏业务的商业分析方向。
我今天分享的部分就先讲到这里,希望个人的一些见解能够给大家一些启发。各位朋友如果有不同的看法或者想法也非常欢迎与我探讨。接下来的时间我来看看大家有没有什么问题,我尽量一一解答。(想获得更多的PowerBI交流可以加CPDA微课堂的分析君微信号咨询: cpda2003)
祝好,
微信公众号PowerBI大师
更多学习资源请关注公众号PowerBI大师,联系小编微信 : beyondexcel