数据分析笔面试之——费米估计问题

数据分析笔面试之——费米估计问题

阅读之前看这里:博主是正在学习数据分析的一员,博客记录的是在学习过程中一些总结,也希望和大家一起进步,在记录之时,未免存在很多疏漏和不全,如有问题,还请私聊博主指正。博客地址:https://blog.csdn.net/qq_34069667,学习过程中不免有困难和迷茫,希望大家都能在这学习的过程中肯定自己,超越自己,最终创造自己。

接下来我们要介绍的是费米:
数据分析笔面试之——费米估计问题_第1张图片
不不不,虽然它看起来很帅,但是我们今天是介绍他的费米估计算法
开始题记:
在商业拓展中,经常需要估算市场容量,这是商业拓展必须搞清楚的基本问题之一。因此,在一些面试过程中,我们经常会遇到一些估算问题,如估算天津市加油站的数量、北京市酒店的数量等。

估算市场容量的问题,乍一看给出的条件很少,似乎是一个不能解决的问题;但如果懂得用费米估算法,问题将迎刃而解。

01 费米估计算法的来源

据说,有一次费米在芝加哥大学的课堂上提出了一个古怪的问题:芝加哥市一共有多少位钢琴调音师?见学生们一片茫然,费米提示把这个问题“分解成一些便于操作的小问题,然后鼓起勇气作猜测和假设”. 芝加哥有多少居民?可靠的估算是300万;平均每个家庭有多少人?4人;多少家庭有钢琴?大概三分之一,那么全市大约就有25万架钢琴;一架钢琴隔多长时间需要调音?平均5年,那么芝加哥平均每年有5万架次的钢琴需要调音;每个调音师每天能为多少架钢琴调音?4架;假设他一年工作250天,那么他每年约为1000架钢琴调音. 由此,费米和学生们推测,芝加哥市大概有50位钢琴调音师. 看起来这个答案不太精确,因为调音师的实际数据有可能介于25位~100位之间. 然而,事后有人用电话号码簿加以验证,实际统计的结果与费米的猜测十分接近。

费米的意图是想说明,我们可以提出假设,然后估算出相当近似的答案. 费米处理问题的方式是将复杂、困难的问题分解成小的、可以解决的部分,从而以最直接的方法迅速解决问题. 这种思维方式非常实用,可以帮助我们解决很多日常甚至重要的问题. 在上个世纪40年代的一个早晨,世界第一颗试验原子弹在美国新墨西哥州沙漠上爆炸. 40秒钟后,震波传到费米和他的同事们驻扎的基地,费米把一些碎纸屑扔向空中让其随风飘落,然后通过迅速计算,费米向他的同事宣布爆炸的能量相当于1万吨烈性炸药,这与精确测量的结果极为接近。

02 费米估算思路

在进行费米问题估算时,需要谨记的一点在于“将难获得的数据拆分为易获得的数据”,这并不是一件困难的事情,因为——费米估算是有逻辑套路的。我们从需求端、供给端三个方面给出案例。

2.1需求端

顾名思义,需求端就是从用户需求的角度出发,去计算市场的大小。常见的应用案例包括:

   “全中国一年需要消费多少猪肉?”

   “上海每天卖多少豆浆?”

案例:以“全中国一年要消费多少猪肉”为例,看一下这类问题如何解答。
数据分析笔面试之——费米估计问题_第2张图片
看到猪肉,是不是想吃呀,可是买不起了,穷人连猪肉都买不起了,那也不影响我们对此分析吧,hahahaha。回归正题,主要有以下几个步骤。
步骤一:我们将全中国一年消耗的猪肉量进行【初步】拆解,拆成以下的公式1

  • 公式1:消费猪肉总量=人均每日消费量 × \times × 全国人数 × \times ×一年的天数

在拆解公式中,全国人数、一年天数是已知的,那未知数据便是人均每天消费的猪肉量了。
步骤二:判断初级公式中数据是否已知,若仍有数据未知,继续拆!得到公式2

  • 公式2:每天消费的猪肉量=人均每天消耗的肉量 × \times ×猪肉在肉类食材中的占比

继续拆解:公式3:

  • 公式3:人均每天消费的猪肉量=每天消耗的肉量 × \times ×猪肉在肉类食材中的占比。

假设每人一天消耗200g肉类,而猪肉在其中占比较大,设为50%,即每人一天消耗100g猪肉。

步骤三: 数据整合,代入公式计算最后结果。

  • 全中国一年的猪肉消费量
    =每天消费猪肉量 × \times ×全国人数*一年的天数
    =每天消耗的肉量 × \times ×猪肉在肉类食材中的占比 × \times ×全国人数 × \times ×一年的天数
    =200g × \times × 50% × \times × 14亿 × \times × 365天=5110万吨

步骤四:思路优化与升级
之前我们只是简单的分析了需求,我们也可以进行更细致的划分,比如从区域和年龄划分,当然也可以从其它方面。
数据分析笔面试之——费米估计问题_第3张图片
考虑到南北方区域差异,我们的公式可以优化为或者细化为:

  • 全中国一年的猪肉消费量
    =每天消费猪肉量 × \times × 全国人数 × \times × 一年的天数
    =(西北地区每天消耗的肉量 × \times × 西北地区猪肉在肉类食材中的占比 × \times × 西北人数*365天)
    +(南方沿海地区每天消耗的肉量 × \times × 南方沿海地区猪肉在肉类食材中的占比 × \times × 南方沿海人数 × \times × 365天)
    +(其他地区每天消耗的肉量 × \times × 其他地区猪肉在肉类食材中的占比 × \times × 其他人数 × \times × 365天)

2.2供给端

接下来我们从供给端来进行估计实际问题。
顾名思义,供给端就是从企业的供给能力出发,评估企业能够支持多大的市场规模,从供给端的角度可以考虑下面的问题:
“楼下瑞信一年卖咖啡营业额?”
“北京市每天多少人乘坐地铁?”
……
我们来看看第一个问题:楼下瑞信一年卖咖啡营业额?
数据分析笔面试之——费米估计问题_第4张图片
瑞信咖啡莫名又中了,自财务造假风波以来优惠券还是没有变化,不得不说真香。

步骤一:第一步,初步拆解公式(费米思想,拆拆拆,不是拆房哦)

  • 公式1:瑞信一年营业额=一杯咖啡均价 × \times × 每天卖出咖啡数量 × \times × 365天

在拆解公式里,一杯咖啡的均价是已知的,但是每天卖出咖啡的数量是未知的。所以下一步要想办法计算出每天卖出咖啡的数量。
步骤二找到供给能力的瓶颈
根据我们的常识,其实也可以判断,饮料店的点单、收银虽然需要排队,但绝不是供给能力的瓶颈问题,瑞信的瓶颈在于制作咖啡的流程,每一杯咖啡需要2分钟的制作时间。(都是假设)
步骤三:继续拆公式
根据供给实际情况,我们考虑忙时和闲时两种情况。
在瑞信忙碌(早8点-10点,午1点-3点,共计4小时)的时候,产能达到极限;而在闲暇(早10点-午1点,午3点-晚8点,共计8小时)的时候,产能非常宽松。我们继续拆解得到公式:

  • 公式2:每天卖出的咖啡数=忙时产能+闲时产能

假设①:瑞信有2台咖啡机,每台咖啡机可以同时制作2杯咖啡,那么一家咖啡店可以同时制作4杯咖啡。
假设②:忙时设备利用率100%,闲时设备利用率20%
计算忙时产能:两分钟4杯咖啡->平均每分钟两杯咖啡->共计480杯咖啡
计算闲时产能:设备利用率为20%->平均每分钟生产0.4杯咖啡->共计192杯咖啡

步骤四:数据整合,得到最终结果

  • 公式3:瑞信一年营业额
    =一杯咖啡均价 × \times × (每天闲时产能+每天忙时产能)*365天
    =30 × \times × (480+192) × \times × 365
    =736 万

2.3供需结合

在讲了供求端和需求端,那么也可以利用供需结合的方式来进行估算,简单来说可以分为【以小见大】和【以大见小】两种方法。
以小见大

“香港有多少个自助提款机?” 被面试的学生来自港中文大学,知道港中文约有10000名师生,有5台ATM取款机。
在【供给与需求满足一定比例】的假设下,推测一台ATM机能够满足2000人的取款需求。 全香港大概有700万人口,需要3500台ATM机

以大见小

“XX县城有多少金融行业从业人员?” 作出假设:全国大概800W金融行业从业人员
在【供给与需求满足一定比例】的假设下,800W金融从业人员服务与14亿中国人,1个金融从业人员可以服务175人。
XX县城的金融从业人员数量=XX县城总人数/175

常见的费米估算问题都可以套用以上三种方法进行解答。在实际的面试过程中,更加推荐大家从需求端或者供给端出发,进行公式的拆解。

3 实际面试题举例和练习:

不用任何公开参考资料,估算今年新生儿出生数量。

解答:

  • 采用费米估计方法(人群画像x人群转化):新生儿出生数=Σ各年龄层育龄女性数量 × \times × 各年龄层生育比率
  • 从数字到数字:根据前几年新生儿出生数量数据,建立时间序列模型(需要考虑到二胎放开的突变事件)进行预测。
  • 找关联指标,如婴儿类用品新增用户是新生儿出生的关联指标。新生儿出生数=某宝平台的婴儿类用品的新增活跃用户数量 × \times × 新生儿家庭转化率。可以根据平台往年数据推算出新生儿家庭转换率,最后得出新生儿出生数。

你可能感兴趣的:(#,数据分析—业务类知识)