第004期丨科研圈有哪些“行业黑话”？P＜0.05

假如你是一家汉堡店老板，现在得到了一张素汉堡的配方，就是用大豆、香菇、水面筋等纯素的食料做“肉”饼，外观可以和你们家的肉汉堡一模一样，你想推广它，那怎么证明这个口味会让消费者喜欢呢？

你可能会想那还不简单？客人吃了，给个好评，不就是喜欢了嘛。还真不是这样，有些客人可能习惯性好评，买你一瓶矿泉水都能点个赞，这样的情况你怎么判断？

科学界的做法，当然是做个随机对照试验（randomized controlled trial, RCT）

在店里推出“招牌汉堡”，把点餐的100位顾客随机分成2组，每组50人。第一组顾客给素汉堡，第二组顾客给肉汉堡。包装、内容物看着都一模一样，顾客根本区别不出来，而且配餐阿姨也不知道经手的是哪一款，这就是个较为严谨的“双盲”试验。

如果吃完之后，第一组全好评，第二组全差评，那我们可以直接下结论，素汉堡好。不过你想得太美了，做实验可没那么简单。

你的实验结果可能是这样：

素汉堡组28个好评，5个差评

肉汉堡组22个好评，但是只有3个差评

你看，真实世界做生意是不是总碰到这样的？素汉堡的好评确实比肉汉堡多，说明还是受顾客喜欢的，但差评怎么还多了两个？也是挺郁闷的。

科学家怎么分析数据

关键就在于，我们要判断，这个结果到底是汉堡口味导致的，还是说只是碰巧发生。

简单起见，咱们先只看差评。

我们假设实验组的素汉堡组0差评，而对照组的肉汉堡组5个差评，因为每组50个人，所以肉汉堡差评率算出来就是10%。

这个数据就两种可能性嘛，要么是素汉堡确实更好吃，要么就是凑巧碰上没人给差评，对不对？那怎么判断是不是凑巧呢？

以下内容略微有点费脑，不过也没多难，肯定不如刷小视频那么痛快，但请坚持几分钟，相信看完之后你会收获另一种快乐，来自思考的快乐

准备好了吗？

科学的做法，就是先来个“无效假设”，咱们假设素汉堡跟肉汉堡没差别，而且整个汉堡届的行业水平，差评率就是肉汉堡的那个10%好不好？

如果这个无效假设是正确的，那么新品素汉堡，出现像现在这样0差评局面的可能性，有多大？

顾客给差评的概率是10%，那么不给差评的概率就自然是90%，50个顾客都不给差评的概率就是90%相乘50次对不对？结果显示0差评的概率是0.00515。

科研界把“无效假设”成立的可能性，称为“ P值 ”。

这个案例P=0.00515，也就是说这个结果凑巧发生的概率只有0.515%，这是一个很小的数值。

为什么说它很小？具体大小的判断标准是多少呢？

当P＜0.05的时候，科学界就认定，无效假设不成立，所以他俩是有显著差别的，零差评不是巧合，素汉堡，确实不比肉汉堡差。

P＜0.05

为什么非得是0.05？这个0.05咋来的？

你问我，我也不知道。

就像斗地主就是3个人打，四川麻将就是4个人凑一桌，0.05这个数就是科研界约定俗成的。

P＜0.05说明结果是“显著的”，你的论文还是可以看一看的；

P＞0.05，就说明结果可能就是凑巧，你这数据就跟参加考试闭着眼全选“C”一样，没有价值。

p＜0.05就是科研界的黄金标准

不过这个“显著的”，不是说素汉堡就“显著的”好吃，充其量就是说明素汉堡跟肉汉堡在消费者嘴里是有显著区别的，具体好多少，则无法判断，还需要其他指标。

这个p＜0.05其实挺难的，多少科研人员为了它愁得直掉头发，但尽管是这样，在P＝0.05的情况下，每20篇科研文章，里面就会有一篇文章的数据，在其特定的无效假设中是纯属巧合，属于全选“C”的水准。

这还是客观情况下估算概率，如果科研人员主观上灌水呢？

比如那个差评的数据，你说是服务员态度不好，不做数，需要剔除掉，然后另外再叫几个顾客吃汉堡打分？这样经过美化的P＜0.05可不少见。

你或许会想，真可怕，这就是科学吗？咱们还能相信科学吗？

答案是，要相信。

科学或许不完美，但它一直在进步，是我们目前探究世界，最不坏的方法。

完

- End -

往期精彩回顾

第003期丨英雄迟暮——骨伤病从何而来（二）

第002期丨像骨科医生一样思考——骨伤病从何而来（一）

第001期丨知道这一句话，就能避免挂错骨科号

第004期 丨 科研圈有哪些“行业黑话”？P＜0.05

科学家怎么分析数据

P＜0.05

你可能感兴趣的:(第004期 丨 科研圈有哪些“行业黑话”？P＜0.05)

第004期丨科研圈有哪些“行业黑话”？P＜0.05

你可能感兴趣的:(第004期丨科研圈有哪些“行业黑话”？P＜0.05)