转:正态分布的东东--流量分析数据可用

回复:
作者: yalefield   发布日期: 2008-03-03
不明白你究竟要干什么。
要判断那组数据是否符合正态分布?
请把背景情况在多介绍介绍。

下面是科学发展历史上有名的一个事件------密立根事件
看看不当的数据处理是怎么回事。

科学史上著名公案――密立根事件
《经济观察报》2008.3.3
方舟子

    诺贝尔和平奖、文学奖的颁发经常引起争议,但一般认为科学领域的诺贝尔奖还是比较名副其实的。其实科学领域的诺贝尔奖错过了该得的人,或错发给了不该得的人也屡见不鲜。即使是那些公认该得诺贝尔奖的获奖者,其学术道德也不是无可指摘的。 1923年因油滴实验获得诺贝尔物理学奖的美国物理学家密立根就是一个典型的例子。文科生可能会对密立根油滴实验感到陌生,但是理科生在高中物理电磁学部分都学过甚至在实验课重复过这个实验。这是一个设计极为巧妙的实验,不仅证明了电荷的不连续性,而且测出了电子基本电荷的精确数值。
    这个实验的基本原理是这样的:
    用喷雾器将油滴喷入两块平行电极板之间,观察油滴的运动情况。
    先不给电极板加上电压,这时油滴在重力的作用下加速下降,下降过程中受到空气阻力和空气浮力的阻挠,加速度越来越小,最终,向下的重力与向上的阻力、浮力达到平衡,这时油滴将做匀速下降运动。
    然后给电极板加上电压,油滴经喷射后一般都带电,在电场的作用下将加速上升,最终,向上的电场力、空气浮力与向下的重力、空气阻力达到平衡,油滴将做匀速上升运动。
    通过测定同一个油滴不加电场时的匀速下降速度和加电场时的匀速上升速度,就
可以算出这个油滴所带的电荷。
    对许多不同的油滴进行测量的结果表明,油滴所带的电量总是某一个最小固定值的整数倍, 这个最小固定值就是电子所带的电量即基本电荷
    密立根是在1907年在芝加哥大学任教时开始做测定基本电荷的实验的。他一开始用的是水滴。在1909年他首次报告了用水滴测定的基本电荷的数值。但是用水滴做实验有一个很大的问题:水滴很容易挥发,只能对它们的运动情况做几秒种的观察。
    这时研究生哈维・弗雷彻加入了密立根实验室。在参与讨论如何防止水滴蒸发的问题之后,弗雷彻建议改用油滴做实验。
    在一天之间,弗雷彻制作了油滴实验的设备,并在当天就进行了实验,获得了一个比较靠谱的基本电荷数据。那一天密立根不在实验室。
    密立根在第二天回到实验室后,看到了弗雷彻的实验设备,非常兴奋。
    此后两个人一起工作,对实验设备进行了改进。6周后,公布了实验结果。
    很显然,这个实验的论文应该由两人联合发表。但是密立根提醒弗雷彻,根据学校的要求,研究生的博士论文必须单独署名,不能有合作者。密立根建议,弗雷彻可以在以后的某篇论文单独署名做为其博士论文,但是做为交换条件,这第一篇论文必须只署密立根一人的名字。弗雷彻虽然感到失望,但是找不到没有别的办法,同意了这一安排。
    于是在1910年密立根做为唯一作者发表了第一篇油滴实验的论文,并最终获得诺贝尔奖。弗雷彻则在第5篇论文中做为唯一作者。
    1982年,弗雷彻死后发表的文章中才披露了这个秘密。
    这个安排虽然是两人协议的结果,而密立根在第一论文中也提到实验是由他和弗雷彻一起做的,但是不管以什么理由或交换条件,剥夺研究生在参与设计和实验的论文的署名权,仍然是一种不正当的行为。
    不能拿论文的署名权做交易。
    密立根如果大度一点的话,完全可以让第一篇论文两人共同署名,这与让弗雷彻以后在某篇主要由他一个人完成的论文中单独署名,一点也不冲突。论文的作者必须是对实验做出了实质性贡献的所有的人,不能多也不能少。然而,即使是在今天,实验室的“老板”不看对论文的实质性贡献,利用权势决定谁是论文的共同作者,这仍然是相当常见的。
    密立根的问题还不限于此。
    在密立根的论文发表后,其他实验室试图重复其实验。
    其主要对手是维也纳大学的菲里克斯・厄仑霍夫特。在1911~1913年间,厄仑霍夫特重复了油滴实验,但是却 未能发现像密立根所说的油滴所带的电量总是某一个最小固定值的整数倍
    1913年,密立根发表了一篇论文,其数据非常清楚地表明了基本电荷的存在,并算出了基本电荷的精确值,从而结束了争论。
    密立根油滴实验果真像其论文显示的那样清晰、精确吗?
    1981年,阿兰・富兰克林研究了密立根的实验记录本,发现密立根在记录本中对其观察结果进行打分,从“一般”到“最好”。 根据记录本,密立根在1913年发表的论文依据的是140次观察,然而他把其中49次观察的数据舍弃不用,只根据91次他认为较好的观察结果的数据进行计算。但是,在论文中,密立根却声称该论文“代表了所有的油滴实验”。如果密立根把所有的观察数据都包括进去,虽然不会影响其结果,却会加大误差。
    这样,密立根通过 有选择性地删除数据,获得了漂亮的实验结果,并且在论文中误导读者。
    像这样对实验数据进行修饰,不论是少报还是多报实验次数,不论是删除不利数据还是增添有利数据,都是一种严重的学术不端行为。
    现在看来,密立根当时获得的基本电荷数值偏低,因为他在计算空气阻力时使用了不准确的空气粘滞系数。
    1974年,美国著名物理学家费曼在加州理工学院毕业典礼发表的演说中提到一个有趣的现象:在密立根之后物理学家测定的 基本电荷数值随着时间的推移在不断 增大,每次只增大一点点。费曼认为这是由于 后来的物理学家在测定基本电荷时,如果获得的数值比密立根的数值高得多,就会想当然地认为自己测错了,回头去找原因,舍去这些“高得离谱”的数据,只保留那些比较接近密立根数值的数据。看来干修饰数据勾当的物理学家还不在少数呢。

作者: njut007   发布日期: 2008-03-04
是这样,我要做一个QSAR分析
好像是数据越是接近正态分布,统计回归的结果应该越好,越具有统计学意义
但是目前我在文献上收集的一组数据,我想看看其分布情况,去除其中离正态分布曲线较远的点。 因此我希望我的数据可以作成这样一个图:中间的点最大,依次向两边减小,就是可以与正态分布作比较的曲线,去除偏差较大的点。
看来我语言表达能力不行啊

作者: yalefield   发布日期: 2008-03-04
判断一组数据是否符合正态分布
一般采取统计学检验的办法
最简单的是t检验和F检验
前者考察均值,后者考察方差

我想象不了“反着来”的情况,也就是“删一些点,使之更接近正态分布”。
当然,有很多统计学方法可以判断所谓Outlier......

好像理工版有位搞农业方面统计的,我们曾在坛子里讨论过一些关于P值、置信区间等问题。麻烦你查查。

我还是不太明白你的意图,真是老糊涂了。

作者: chenenlin319   发布日期: 2008-03-04
楼上的好历害,什么东西都懂,我的问题也是你回答的,太强了,崇拜一下!

作者: njut007   发布日期: 2008-03-05
是我表达的不清楚
表达差到我这个程度,您能明白这么多已经很佩服了,呵呵
不过我还是从你的回答里面得到了启示,谢谢阿

你可能感兴趣的:(职场,休闲)