《大数据思维》的读书笔记

《大数据思维》的读书笔记

作    者:马继华

出版社:电子工业出版社

版    次:2016年7月第1版

作者简介:

DATAREAL创始人,电信与互联网分析师,大数据专家。长期关注通信、互联网、金融和新媒体。百度百家作者,微博签约自媒体,腾讯科技年度最具影响力自媒体,移动互联网影响力人物,知名培训师,坚持每日一文超过十年。

本书的重点内容及感悟:

第1章、大数据与人脑的较量

1、QQ与微信的区别:“在吗”?对用户的使用行为研究最充分的,无疑是阿里巴巴。很多人都发现,只要你打开“淘宝”,首页上的推荐就让你欲罢不能,特别是网页中间那张跳动的大图,怎么看都是自己想要的商品。是的,淘宝说要实现千人千面,每个人看到的网页都是不一样的。因为那个页面就是根据你最近的搜索、下单等历史行为结合你的各种资料进行“定制”的。

太有同感,个性化的网页。每次打开淘宝的网页呈现的都是让自己想购买的东西。

2、其实,每个人生活的痕迹就是大数据。如果有一种技术可以轻易地记下你的脚印,那么你的爱好、习惯、职业、经济状况、婚姻状况都可以通过你去的地方精确展现出来。只不过问题在于,脚印这种数据非常难以记录。

3、猫眼电影整合了2015年上半年的售票数据,报告根据用户购买电影票的习惯,结合用户在美团上的相关消费行为,发现了有意思的现象。数据显示,用户在购买电影的同时,有79%会进行餐饮消费,10%会选择唱K、桌游、足疗等悠闲活动,还是11%会选择酒店消费,其中有81%选择的是经济型酒店。

4、大数据预测世界杯真的很准吗?百度预测世界杯的主要数据来源包括:百度搜索数据、球队基础数据、球员基础数据、赔率市场数据。百度大数据通过分析过去5年987支球队的3.7万场比赛数据,共涉及29610名球员,112,285,543条相关数据,构建了足球赛事预测模型。准确率为75%。评:百度用的是传统统计分析,注重近期球队和球员表现,这种预测是至今为止在技术上最稳定的方法。

5、数据分析的基础:一般的分析,主要可以分为描述性分析、探测性分析和因果性分析三种,三种分析有时候是独立的,有时候是密切结合在一起,但大多数企业的分析都会是逐步展开的。我们一般要先进行描述性的分析,然后根据描述的结果进行探测性分析,探测完成以后开展因果分析,三家共同构成了完整的经营分析。第一、描述性分析比喻为考古。要把古墓中的一切说清楚,到底挖掘出了多少宝贝,是否有盗油等。第二、探测性分析。接下来我们需要明白的就是这个墓到底是什么年代的,墓主人是谁等等。探测性分析往往是建立在描述性分析之上的,没有清晰的描述,就很难去探测。探测就是要发现问题。比如通过对公司情况的描述,我们进行对比及评估,可以发现公司在经营中存在哪些问题,主要问题是什么,公司用户数增长或下降是否严重等。总之,探测性分析是用来发现问题和指向问题的,而寻找问题和症结所在正是企业经营管理中非常重要的工作内容。第三、因果分析:发现问题之后就需要明白问题是怎么产生的,到底因何而来,目的是解决问题。因果分析是要找到问题的成因,并经过严密的推理和实证确定,以后就是针对原因想出解决方案,把影响经营的因素解决掉,让企业的经营回归正常轨道,或者更上一层楼。

数据分析三步曲:描述性分析->探测性分析->因果分析。

1)带着思维去分析。

2)先把研究对象的方方面面吃透。作为数据分析人士,我们首要做的并非是掌握太多高级分析方法,而是要对分析的对象充分了解,十分关注。对于任何毫不知晓的领域,发表任何看法都是草率的,即使是博士院士,在其无知的领域也只能是无知,其能力不会比普通人多哪怕一点点。做企业分析的人,就必须花力气最大限度地了解企业的过去和现在、业务和产品,销售与服务,人员和管理,当你烂熟悉于心的时候,就可能具备了”第六感“,也许拍拍脑门都可以做出恰当的决策。反之,对企业的了解一知半解,即便掌握再高超的分析方法,也不会有用武之地,强行使用,可能得到南辕北辙的结论。

3)快,才能解决现实问题。数据分析也一样,如果分析的过程太过缓慢,不管你分析的结果有多正确,都可能因为时效性的问题而变得一文不值。企业的经营分析等不了。一个企业承包遇到了经营困难,或者客户在流失,或者产品销售不畅,或者客户服务评价在降低,我们要找到原因,就必须严格遵守时间限制,用最快的速度将分析完成,拖延几个月甚至几天都可能变得毫无价值。

4)理解管理者的意图:企业都是有经营目标的,企业的管理者也有自己的想法,任何的企业分析都需要充分结合这样的必然前提。理解管理者的意图,为特定的目标服务,每位分析人员都会面临这样的境况,只有理论联系实际做出合情合理的分析,才会让分析变得有价值。

6、结构化思维与分析的类别

一般来说,要做好数据分析,需要从思维、方法、模型和解读四个方面来行动。思维是最高阶,也是做好数据分析的基础。和很多人想法并不一致,做好数据分析并不是首先要强化自己的EXCEL或者SPSS操作能力,甚至也不是什么统计学知识,而是在于锻炼自己的思维能力。

方法比思维低一个层次。所谓的方法,主要是将我们已经具备的思维能力转化为具体的行为,通过适当的方式方法来解决具体的问题。思维是解决问题的灵魂,而方法是解决问题的肉身,是执行者,是行动派。

结构化的思维----思维导图。哈哈哈哈,我的思维导图基础也可以助我的数据分析之路。

7、人脑在大数据时代并没有过时

对于围棋来说,现在的计算机下棋也是基于对围棋棋谱的学习,人类曾经达到的高度就是围棋所能达到的最高高度,因为计算机自己还不会创造,也没有自我意识,数据所能表达出来的东西最多只能和数据质量一样好,不可能超越。如果哪一天,计算机可以去创造性地下棋,完全不顾及以往的棋谱,那才是真正的智能。

从分析的角度来看,在方法分类上,一般会分成定性分析和定量分析。简单地说,定性研究主要是回答“为什么”的问题,我们应用定性研究进行“认识、发现、判断、了解”,而不能使用它进行“测量、监控、估计、预测”,这方面的问题应当用定量研究的方法去解决。定笥分析就是研究对象进行“质”的方面的分析,运用归纳和演绎、分析与综合及抽象与概括等方法,对获得的各种材料进行思维加工,从而能去粗取精,去伪存真,由表及里,达到认识事物本质,揭示内在规律的作用。定量分析是对社会现象的数量特征、数量分析与数量变化的分析,功能在于揭示和描述社会现象的相互作用和发展趋势。

从分析的内容看,定性分析与定量分析应该是统一的,相互补充的;定性分析是定量分析的基本前提,没有定性的定量是一种盲目的、毫无价值的定量;定量分析使定量分析更加科学、准确。它可以促使定性分析得出广泛而深入的结论。

在大数据时代,很多人觉得定性分析已经无用,我们依靠强大的计算机技术可以通过数量解决一切问题,但计算机至今还不是人脑,大数据信息再全面也很难有足够的智慧,更无法参透各国文字之间的玄妙。

第2章、大数据看起来是无所不能

1、根据一般的理解,大数据应该是围绕特定的主题而将看来毫不相干的数据集成在一起构成统一视力,然后寻找到期间合理的关联因素,从而超越简单的统计分析而得到意想不到的结论。

2、赌场:进赌场办一张电子磁卡,相关的信息已经被赌场获取了。比如说第几次来,大概年龄、种族、职业等。赌场有一个庞大的数据库,拿到数据后就做预测。每个人都有一个痛苦点。当在这个赌场里输的钱超过了痛苦点后,这个人会从此再也不踏进这家赌场一步。从赌场的角度,最好的选择是当赌客快要达到痛苦点时,让赌客住手。.....当你输到9800美元的时候,奇迹发生了,你旁边会突然出现一个年轻貌美的公关经理,说:“先生玩累了吧,我们的赌场刚请了一个法国名厨,会作世界一流的法国大餐。恭喜你,你被选为幸运顾客。要不带着家人去享受法国大餐。休息一下吧。”为什么服务这么好。因为你的最后一分钱已经被它榨完了。为什么赌场能够精准预测你的行为?因为你的行为和别人的行为不一样。

活在当下,是互联网的正常思维,我们更关注发生了什么,而不再用心思于为何发生。大数据之于商家,就是通过采集的大量用户行为数据寻找“众数”,发现共同的兴趣点或痛点,然后投其所好地进行产品设计和营销。

3、《纸牌屋》火了,如是你不看,那就会被人觉得过时了。因为,这部剧是站在大数据的基础上,根据你的喜好进行设计的,你爱看什么就演什么,你爱怎么看就给你怎么演。央视的元宵晚会,把网络上北京台春晚评价很高的相声安排进来,这也是大数据的一种体现。

4、大数据是商业创新的利器,也是改变人类文化的双刃剑,是个别人的大财富工具,也是让伟大更加落寞的厚壁。那些超越时代的人和作品会更孤独。大数据,很好用,关键看谁来用,怎么用。

5、实事求是地说,大数据确实可以提升道路管理水平,但大数据却无法解决信息沟通中的群体错位决策,也无法解决超出负荷的刚性需求到来的道路绝对拥堵,更没有办法应对随时可能出现的随机性事故影响。大数据对于节假日期间的交通拥堵问题,绝对是有心无力。

6、不仅是低价,金融去带来的大数据处理能力,还能够让金融机构利用大数据,低成本地实现信贷业务。金融机构可以在线判断用户信用水平,无需用户再当面提交各种证明材料,或是担保抵押,就能让那些小微企业,草根用户非常方便地通过网络贷款,而且贷款成本成会更低。

7、用大数据方法保护大数据的安全。既然是大数据,那就有可能也用大数据的方法来进行数据保护,很多公司都在进行这方面的科技攻关,包括网络层面的安全解决方案,也包括应用层面的用户信息保护机制。........网络安全要依赖网络管理上的大数据应用;用户在应用端的安全更需要大数据理念。(我们每个人在使用PC或手机等登录账号、输入密码、点击链接等也会形成自己的习惯动作,这些动作形成的大数据信息也会被记录和分析,如果哪一天哪一次系统突然发现这些动作等出现了异常,就会采取拦截措施。通过一系列的新增信息核对步骤来保证交易的安全,特殊条件下会中止交易与资金所有人进行直接沟通核实)

8、通信运营商多年来都在全面采集用户各方面的通信使用信息,包括用户的个有背景资料,实时的移动位置信息,如今还可以获得更多的移动互联网应用情况,只要是加以合理利用,完全可以准确清晰地分析出行走路线,旅游偏好等,成为大数据应用的样板。

第3章、七种必备的大数据思维

1、1-0≠8-7。我们在分析问题的时候,不仅要看最终的结果,也要看其中的过程,即使结果一样,如果过程不一样,也不能得到一样的结论。有些时候,即使结果有差异,但过程却非常类似或一样,那么两者可能差异并不大。做分析,就是要从量变看到未来的质变,或者于量变不显著的时候就看到内在的质变。

2、统计,一门与赌博密不可分的技术:要做分析,自然离不开统计学,而统计学是建立在概率论基础之上的学科,与大数据实际上“格格不入”。我们现在谈的大数据,如果非要找一个相对的词汇,应该叫做抽样数据,也就是说,大数据并不是强调大,而是强调全。

3、虽然统计学与大数据有一定的差异,甚至在基础理论上风马牛不相及,可统计学的一些方法还是可以在大数据分析中使用的。记住,不是全部。基础的统计分析,包括汇总、排序、集中趋势、离散程度、分布形状,也包括相关分析、回归分析、聚类分析、因子分析等,也都有用武之地。大数据分析并不一定比统计分析更准确,因为大数据分析经常会遇到异常或特异情况的干扰,即所谓的一颗老鼠屎坏一锅粥。

4、串联,一种简单实用的日常分析法。在大数据分析的时候,我们借助某条线索,可以是时间轴,也可以是人物、地点或者其他关联性的事物,把很多相关的事项连接起来,从而让人有一目了然的结论。串联的分析方法往往需要长期的资料积累,更需要专业性的知识储备,看似简单的逻辑使用起来却很难。

5、对比,最常用也最实用的分析方法:我们日常进行的比较分析,可以从与计划对比、与上期对比、与去年同期、与历史最好水平对比、与总体平均水平对比、与国际国内最好水平对比这些角度进行,也还要考虑数据绝对数与相对数的比较。

6、统计学依据数据的计量尺度将数据划分为四大类:即定距型数据、定序型数据、定类型数据和定比型数据。第一、定距型数据,可以求加减平均值等,但不存在基准0值,即当变量值为0时不是表示没有。第二、定序型数据。具有内在固有大小或高低顺序,但它不同于定距型数据,一般可以用数值或字符表示。如职称变量可以有低级、中级和高级三个取值。第三、定类型数据是指没有内在固定大小或高低顺序,一般以数值、字符、文字表示的分类数据,比如性别男和女。第四、定比型变量就是常说的数值变量,拥有零值及数据间的距离是相等被定义的,通常指诸如身高、体重、血压等连续性数据。从这四类数据出发,我们可以简单地理解,最好用的分析数据是定比数据,也就那些连续性的数据变量,如收入、利润、用户数等,而定类数据分析能力最差,一般只能进行类别之内的汇总,如果要跨类别进行统计,往往需要将不同的类别先综合成高一级别的大类。

7、一般来说,分析问题可以坚持从大到小、从全局到局部的原则。分析问题,不管多牛的分析师,都只能以做到手头的数据为最好,不可能超越其中去胡思乱想,但在很多情况下,需要补充外围的数据,这样分析出的结果才更有价值。

例子:挣钱的故事:

引:“张三”以7.5%年收益将10000元通过“招财当铺”借给“白家药铺”,“张三”因用钱又以6.0%的年利息通过“招财当铺”向“众家”借了10000元。一年到期,“众家”通过“招财当铺”领回了“白家药铺”的6%的利息。“张三”额外向“招财当铺”支付了0.1%的手续费。整个过程中,“张三”只用了几天的时间,就赚到了1.5%左右的收益,要知道,在银行这可是要一年的时间成本。从此,张三将拿回的钱再次投入,十天后再一个轮回,愉快地玩了起来。一年后,他一共玩了30回,回报是(1+1.5%)的30次方,高达60%的收益啊。

很多人说,为啥众乡邻不直接投资给白家获取那7.5%,非要让张三赚了一次差价呢?因为对于白家药铺,向哪么多人去直接借钱,太麻烦,也没有那么快捷,谁让张三钱多呢。

最近一段时间,蚂蚁金融服务推出的招财宝平台受到了“小确幸们”的欢迎,因为其赚钱的方法就是让无数个“张三”实现了资金的高收益和流动性的兼得。特别是招财宝平台推出的万能险。

万能险的投资风险并不高,比P2P(网贷)风险要低得多。招财宝的万能产品风险比直接在保险公司购买万能险的风险还要低得多。

变现并没有增加风险,风险的高低与变现次数无关。招财宝的“变现”是一种具有划时代的创新,这种变现与金融领域的套利不同,在风险并不增加的情况下,实现了资金的快速流动,同时以市场化的方式实现了借贷双方的利率自由博弈。

简单地说,变现就是购买了理财产品的人通过招财宝平台拿回了自己已经投资出去的钱。投资到招财宝平台产品的人,购买了半年、一年或者两年期的理财产品之后,不用持有的到期,如果需要把钱取回,可以使用“变现”的方式,向另外的投资人(在招财宝里预约或购买个人贷的人)借贷,等于是将贷来的钱转交给了自己要来投入资金的那家机构,换回自己的钱。

实际上,在招财宝平台上,很多人买了万能险之后进行变现,而变现出来的个人贷被人购买之后可能再次选择利率低的时候进行变更,从而出现了下一个接盘者,以此类推。不管多少次的变现,万能险的产品收益是7.5%,这是所有人收益总和。多次多人变现只是将这个总收益进行更强的拆分而已。

招财宝实现了多方共赢,真正的输家只有银行。在招财宝的平台上,卖万能险的公司、购买万能险的人、变现接盘的人、再变现的人、再接盘的人、招财宝平台、财产保险公司这些参与者都是获益者。建设银行的行长和总理总“银行是弱势群体”,并不一定是玩笑话,因为这样的互联网金融的创新确确实实是已经将银行变成了弱势群体。

问题:为什么不是所有人都去买那个高收益的7.5%产品却去接别人的盘呢?

一是、更多的人不知道还可以买到7.5%的产品,因为这些所谓的高收益产品并不是放在所有渠道的,最初的时候,这些7.5%的高收益产品只会放到支付宝的PC页面。你想想自己有多久没打开过支付宝PC页面了,这就叫信息不对称。

二是、一些人风险意识很强,在招财宝里,那些收益相对低一些的个人贷,平台是通过第三方的担保机构进行“保本保息”的,而收益相对高的万能险、债券等标明的是“保证本金”,简单的差别就让很多人望而却步。

三是、一些人的钱实在是不多,即便是投资以1000元起步,也有人达不到,或者放在余额宝里的钱不是很多,买不了更高利息的理财产品。

综合起来,大概也就是有这三种原因。还是金融赚钱的三件法宝,有信息赚没信息,风险高挣风险低,有钱的比没钱的赚得多。

8、大数据分析的关键在于有用。大数据分析的成功不仅仅在于应用,更在于能够有价值的应用,粗制滥造地去应用很可能导致彻底的失败。做大数据分析,至少要做到以下几点:

1)虽然你关注相关性,但这种相关性也应该在一定程度上被验证因果,毫无因果可言的相关也许是暗含与宇宙黑洞的秘密,至少现在对人类用处不大;

2)先进的分析技术和高级的程序员都只是数据分析中的工具和操作手,都只能是作为决策的辅助,参谋不能带长,只会写报表的参谋永远不能当参谋长,更不能去当指挥战争的参谋总长。

3)让那些分析网络访问量、用户来自哪里,喜欢看什么网页等的传统互联网分析理念远离消费推荐领域,用那些为了网站运营而分析的套路去看待消费者行为是刻舟求剑。

4)忘掉那些高深的术语,被用专业门槛将公司里面的需求者阻挡以豪门之外,数据分析没那么神奇,即使多了一个大。

5)数据也会说假话,片面相信数据的结果是彻底的教条主义,任何看似非常科学的结论都有可能是你自己的分析方法导致的。

6)大数据当然有用,但要掌握在有用的人手里,更要掌握在会用的手里,更需要掌握在不乱用的人手里。

7)让机器替代人脑,认为机器可以替代人脑,只有傻子才这样想,至少在人类文明的现阶段是傻子。

8)做好大数据,先从小数据开始吧,虽然你可以说大数据可以仅仅是个大,但任何的大都是从小来的。

第4章、分析方法的全聚合

1、汇总与排序,你离不开的:汇总和排序只是说明全局,要想了解得更深刻,接下来一般就会进行结构分析,首先就是要算清楚其中的比例关系

2、谁说比例与频次不是分析

如:商品数据分析:日本、韩国、德国商品占据半壁江山;80后、90后仍是消费主力,天秤、天蝎、处女座成剁手党三甲;上海人最爱吃,江苏人最爱丰胸,北京人爱减肥;2015年成聚划算跨境爆发年;

以上的比例分析基本上都是简单的比例比较,在进行比例分析的时候还需要考虑比例之间的协调关系。比如,有一个分析认为:“30%的车祸是持驾照三年以下者所为,所以新驾驶员容易闯祸”,你觉得分析正确吗?这是有前提的,如果"持驾照三年以下者占总驾驶员的比例不到30%却闯了30%的车祸,那么这些新驾驶员容易闯祸",否则"持驾照三年以下者占总驾驶员的比例超过30%,可车祸只占到30%,那么这些新驾驶员不容易闯祸"。比例分析就是哪此,看起来多,并不是一定就多,还要看隔壁家是多还是少,或者在总体中的比例。在这里,真的是要患寡而患不均。

所以,分析比例,一定要站在动态的角度上,而不是静止地看待事物。

3、平均数里隐藏的大秘密

一般来说,平均数可以分为简单平均数、加权平均数、调和平均数、几何平均数等,当然还有一种叫作“截尾平均数”。“截尾平均数”是指在一个数列中,去掉两端的极端值后所计算的算术平均数,也称为切尾均值。

当然除了平均数,还有两个指标也用来表示集中趋势,一个是众数,一个是中位数。这两个指标都与排序有关。

我们把一组数据按从小到大的顺序排列,在中间的一个数字(或两个数字的平均值)叫做这组数据的中位数,而在一组数据中,出现次数最多的数就叫这组数据的众数。

按统计学原理,只有在数据分布偏态(不对称)的情况下,才会出现均值、中位数和众数的明显区别。所以说,如果是正态的话,用哪个统计量都行。如果偏态的情况特别严重,可以用中位数。

4、方差,也许你不用关注,但还是要理解更好。

方差是各个数据与平均数之间的平方的平均数。在概率论和数据统计中,方差用来度量随机变量和其数学期望之间人偏离程度。

用统计学的说法,当数据分布比较分散时,各个数据与平均数的的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此,方差越大,数据的波动越大;方差越小,数据的波动就越小。

5、大数据时代的相关关系和因果关系

大数据时代是一个注重相关关系的时代,人们变得不再对事物之间的因果进行深入细致的研究。有时候,原因和结果之间真的很难找到答案。

6、回归分析,你必须学会的分析方法。回归分析是应用最方的一种分析方法,也是统计学教学时的最重要内容。回归分析是根据已知的一个或一个以上变量(自变量)的值来估计另一个变量(因变量)的值,并且算出估计的误差,所建立的数据模型及所进行的统计分析。

有一元线性回归和多元线性回归。

7、回归分析与相关分析关系密切,但差异也很明显。相关分析是用来度量变量与变量之间关系的紧密程度的一种方法,在本质上只是对客观存在的关系的测度。回归分析是根据所拟合的回归议程研究自变量与因变量一般关系值的方法,可由已给定的自变量数值来推断因变量的数值,它具有推理的性质。在进行相关分析时,不需要确定哪个是自变量,哪个是因变量,但回归分析的首要问题就是确定哪个是自变量,哪个是因变量。现象之间的相关分析只能计算一个相关系统;而回归分析时回归系统可能有两个,也就是两现象互为因果关系时,可以确定两个独立回归方程,从而就有两种不同的回归系数。

在实际工作中,要特别注意线性回归的应用有4个前提条件:线性、独立性、正态性、等方差性。

8、聚类分析:是根据事物之间的相似性或同质性,将它们归类分组的方法。聚类分析的结果寻求的是组内差异最小,组间差异最大。聚类分析也是数据分析中最经常使用的多元分析方法之一,它在有关市场细分研究中几乎是必不可少的分析工具。

9、判别分析又称为分辨法。当得到一个新的样品数据时,要确定该样品属于已知类型中的哪一类,这类问题属于差别分析问题。

10、因子分析:可在许多变量中找出隐藏的具有代表性的因子,将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。

第5章、大数据,有时候很奇葩

1、为什么互联网专车会造成城市拥堵?

大数据分析从原来统计分看重的因果分析转为相关分析,只探究知道是什么,而不重点探索为什么。其实,在大数据的背景下,分析原因将变得更为重要,也更需要定性和直觉。因为大数据经常会给风马牛不相及的结论,只有后续进行深入细致的因果分析,才会更有价值。

可以肯定的是,不做任何清洗的大数据分析绝对不会有进行抽样统计得到的结果更好。大数据分析需要连续的、真实的、少杂质的数据,而这些数据对于大多数中国企业而言简直是天方夜谭。

在数据分析面前,智慧永远比算法和数量更重要,数据的多寡和技术的高低并不是决定结果是否有价值的核心标准。

第6章、善用数据,但别自作聪明

1、数据是分析的基础,分析也是收集数据的一种方式和能力。有时候变化的是你的关注点。有些时候,我们无法接近要分析的事物。

2、无论是获取情报还是分析情报,无论是球队比赛还是市场竞争,都有一个很重要的要素,就是要快,要领先对手一步。哪怕仅仅领先对手半步,可能历史的进程就会完全不同。

3、网络上的信息造假有三个特点:门槛低、传播快、影响大。最后牢记一点:所有吓唬你的文章,默认都是谣言。结论越是绝对,越吓人,越可能是谣言。这个世界上很难突然从石头里面跳出来一条爆炸性的吓人新闻。

4、在大数据的应用上,商家与消费者是在同步提高的,自作聪明的商家肯定会聪明反被聪明误,诚实守信尊重顾客在任何时代都不会过时。

第7章、换个角度,让结论海阔天空

1、对于数据分析工作者来说,冰冷的数据结果也许并不是真正的理性,数据也会说假话。片面相信数据的结果是彻底的教条主义,任何看似非常科学的结论都有可能不能符合常识。

2、阿里巴巴面试题:

1)第一步是描述。也就是观察和分析数据,把数据展示出来的内容列举出来,也许不需要发现任何问题,但描述却是非常必要的,如果描述不清晰,以后的分析就会成为无源之水。

2)第二步是探测,对于描述出来的数据进行扫描,利用一些分析方法,找到数据中的价值所以,或者是找到数据中透露出来的关键信息。如果是做企业的经营分析,则主要是找到公司运营过程中存在的不足和出现问题的部分。

3)第三步是提出对策。要通过认真地核对和详细地探讨找到出现问题的原因,找到原因之后才可能对症下药,研究和提出应对方案。

3、模型都靠不住,挑战短板理论。水桶容积大小是由短木板的长度决定的。短木板可以分为绝对的短木板和相对的短木板。也可以分为可提升的短木板和不可提升的短木板。可以分为容易提升的短木板和不容易提升的短木板。还可以分为值得提升的和不值得提升的。

是充分发挥优势还是努力弥补劣势。是把自己的长木板加得更长还是把自己的短木板加长,应该根据客观形势来分析判断。特别是在激烈竞争中的赛场或者市场中,有时候我们没办法化腐朽为神奇,如果一味地追求整体的均衡,把有限的资源耗费在无用或者少用的地方,即使短木板加长了,竞争的结果也不一定是胜利。

4、大数据不是IT技术。一个好的数据分析体系,首先得有一个良好的理论模型,用它去指导分析,然后通过数据不断修正它,任何把数据分析当数学和代码来搞的最后肯定会闹笑话。

不管怎样,大数据时代已经到来,我们尽情地拥抱吧!

感悟:本数据的收获,远不止是大数据,更是一种思维,一种思维的训练。我越来越发现,思维是学习一切东西的前提。包括给孩子学英语,也需要我们周密的思维。希望自己在将来很长的一段时间内,无论从事什么,都要努力训练自己的思维。周密的考虑问题。值得自己思考......

你可能感兴趣的:(《大数据思维》的读书笔记)