假如你是一家汉堡店老板,现在得到了一张素汉堡的配方,就是用大豆、香菇、水面筋等纯素的食料做“肉”饼,外观可以和你们家的肉汉堡一模一样,你想推广它,那怎么证明这个口味会让消费者喜欢呢?
你可能会想那还不简单?客人吃了,给个好评,不就是喜欢了嘛。还真不是这样,有些客人可能习惯性好评,买你一瓶矿泉水都能点个赞,这样的情况你怎么判断?
科学界的做法,当然是做个随机对照试验(randomized controlled trial, RCT)
在店里推出“招牌汉堡”,把点餐的100位顾客随机分成2组,每组50人。第一组顾客给素汉堡,第二组顾客给肉汉堡。包装、内容物看着都一模一样,顾客根本区别不出来,而且配餐阿姨也不知道经手的是哪一款,这就是个较为严谨的“双盲”试验。
如果吃完之后,第一组全好评,第二组全差评,那我们可以直接下结论,素汉堡好。不过你想得太美了,做实验可没那么简单。
你的实验结果可能是这样:
素汉堡组28个好评,5个差评
肉汉堡组22个好评,但是只有3个差评
你看,真实世界做生意是不是总碰到这样的?素汉堡的好评确实比肉汉堡多,说明还是受顾客喜欢的,但差评怎么还多了两个?也是挺郁闷的。
科学家怎么分析数据
关键就在于,我们要判断,这个结果到底是汉堡口味导致的,还是说只是碰巧发生。
简单起见,咱们先只看差评。
我们假设实验组的素汉堡组0差评,而对照组的肉汉堡组5个差评,因为每组50个人,所以肉汉堡差评率算出来就是10%。
这个数据就两种可能性嘛,要么是素汉堡确实更好吃,要么就是凑巧碰上没人给差评,对不对?那怎么判断是不是凑巧呢?
以下内容略微有点费脑,不过也没多难,肯定不如刷小视频那么痛快,但请坚持几分钟,相信看完之后你会收获另一种快乐,来自思考的快乐
准备好了吗?
科学的做法,就是先来个“无效假设”,咱们假设素汉堡跟肉汉堡没差别,而且整个汉堡届的行业水平,差评率就是肉汉堡的那个10%好不好?
如果这个无效假设是正确的,那么新品素汉堡,出现像现在这样0差评局面的可能性,有多大?
顾客给差评的概率是10%,那么不给差评的概率就自然是90%,50个顾客都不给差评的概率就是90%相乘50次对不对?结果显示0差评的概率是0.00515。
科研界把“无效假设”成立的可能性,称为“ P值 ”。
这个案例P=0.00515,也就是说这个结果凑巧发生的概率只有0.515%,这是一个很小的数值。
为什么说它很小?具体大小的判断标准是多少呢?
当P<0.05的时候,科学界就认定,无效假设不成立,所以他俩是有显著差别的,零差评不是巧合,素汉堡,确实不比肉汉堡差。
P<0.05
为什么非得是0.05?这个0.05咋来的?
你问我,我也不知道。
就像斗地主就是3个人打,四川麻将就是4个人凑一桌,0.05这个数就是科研界约定俗成的。
P<0.05说明结果是“显著的”,你的论文还是可以看一看的;
P>0.05,就说明结果可能就是凑巧,你这数据就跟参加考试闭着眼全选“C”一样,没有价值。
p<0.05就是科研界的黄金标准
不过这个“显著的”,不是说素汉堡就“显著的”好吃,充其量就是说明素汉堡跟肉汉堡在消费者嘴里是有显著区别的,具体好多少,则无法判断,还需要其他指标。
这个p<0.05其实挺难的,多少科研人员为了它愁得直掉头发,但尽管是这样,在P=0.05的情况下,每20篇科研文章,里面就会有一篇文章的数据,在其特定的无效假设中是纯属巧合,属于全选“C”的水准。
这还是客观情况下估算概率,如果科研人员主观上灌水呢?
比如那个差评的数据,你说是服务员态度不好,不做数,需要剔除掉,然后另外再叫几个顾客吃汉堡打分?这样经过美化的P<0.05可不少见。
你或许会想,真可怕,这就是科学吗?咱们还能相信科学吗?
答案是,要相信。
科学或许不完美,但它一直在进步,是我们目前探究世界,最不坏的方法。
完
- End -
往期精彩回顾
第003期 丨 英雄迟暮——骨伤病从何而来(二)
第002期丨像骨科医生一样思考——骨伤病从何而来(一)
第001期 丨 知道这一句话,就能避免挂错骨科号