感谢敖山、薛霄老师把我引进了统计学和现代服务业的大门.......至少是长见识了。
查相似项检索时发现的。
中间一部分资料来自厦门大学数据库实验室,感谢大牛们的传道授业,爱你们。
查资料时发现很多计算机相关(比如分布式、数据库)的研究生都曾经是数学系的学生。
ppt是英文的,笔者做了简单翻译。
subsidiary :附带的
Standard Deviation:标准差
outline:梗概,大纲
spam:垃圾邮件
extrac:提取
crap:废物,排泄物
objection:反对
vague:模糊的
violate:违反,妨碍,亵渎
suspicious:可疑的
at length:详细地
moral:道德上的,寓意,教训
测虚假(bogus)数据。
可视化(visualization):用图代替兆字节(Megabyte)的输出。
Databases: concentrate on large-scale (non-main-memory) data.
AI (machine-learning): concentrate on complex methods, small data.
Statistics: concentrate on models.
模型和过程分析:对数据库人员说,数据挖掘是过程分析的极端表现形式;对于统计学人员,数据挖掘是模型的推断(inference),结果是模型的参数。
Given a billion numbers, a DB person would compute their average and standard deviation.A statistician might fit the billion points to the best Gaussian distribution and report the mean and standard deviation of that distribution.
Map-Reduce and Hadoop.
Association rules, frequent itemsets.
PageRank and related measures of importance on the Web (link analysis ).
Spam detection.
Topic-specific search.
Recommendation systems.
Collaborative filtering.
Finding similar sets.Minhashing, Locality-Sensitive hashing.
Extracting structured data (relations) from the Web.
Clustering data.
Managing Web advertisements.
Mining data streams.
充满意义的回答。
大数据挖掘的风险:可能发现毫无意义的模式。
邦弗朗尼原理:如何避免统计假象。
斯坦福教授证明追踪恐怖分子是不可能的(我查资料发现介绍邦弗朗尼原理的书中都有这个例子)。
在考察数据时,如果将某些对象视为数据的有趣特征,而这些对象中的许多都可能会在随机数据中出现,那么这些显著的特征就不可依赖。对于那些实际中并不充分罕见的特征来说,上述观察结果限制了从这些数据特征中进行挖掘的能力。
邦弗朗尼校正(Bonferroni correction):在数据随机性假设的基础上,可以计算所寻找事件出现次数的期望值。如果该结果显著高于你所希望找到的真正实例的数目,那么可以预期,寻找到的几乎任何事物都是臆造的,也就是说,它们是在统计上出现的假象,而不是你所寻找事件的凭证。
假设我们确信在某个地方有一群恶人,目标是把他们揪出来。再假定我们有理由相信,这些恶人会定期在某个宾馆聚会来商讨他们的作恶计划。为限定问题的规模,我们再给出如下假设:
(1) 恶人数目可能有10亿;
(2) 每个人每100天当中会有一天去宾馆;
(3) 一个宾馆最多容纳100个人。因此,100 000个宾馆已足够容纳10亿人中的1%在某个给定的日子入住宾馆;
(4) 我们将对1000天的宾馆入住记录进行核查。
为了在上述数据中发现恶人的踪迹,我们可以找出那些在两个不同日子入住同一宾馆的人。但是假设并没有恶人,也就是说,给定某一天,对每个人来说,他们都是随机地确定是否去宾馆(概率为0.01),然后又是随机地从105个宾馆中选择一个。从上述数据中,我们能否推断出某两个人可能是恶人?
接下来我们做个简单的近似计算。给定某天,任意两个人都决定去宾馆的概率为0.000 1,而他们入住同一宾馆的概率应该在0.000 1基础上除以105(宾馆的数量)。因此,在给定某天的情况下,两个人同时入住同一宾馆的概率是10 9。而在任意给定的不同的两个日子,两人入住同一宾馆的概率就是10 9的平方,即10 18。需要指出的是,上述推理中只需要两人两次中每次住的宾馆相同即可,并不需要两次都是同一家宾馆 。
基于上述计算,我们必须要考虑到底事件出现多少次才意味着作恶事件的发生。上例中,"事件"的含义是指"两个人在两天中的每一天入住相同宾馆"。为简化数字运算,对于较大的n, 大概等于n2/2。下面我们都采用这个近似值。因此在109中的人员组对个数为 =5×1017,而在1000天内任意两天的组合个数为 =5×105。疑似作恶事件的期望数目应该是上述两者的乘积再乘上"两个人在两天中的每一天入住相同宾馆"的概率,结果为5 × 1017 × 5 × 105 × 10 18 = 250 000
也就是说,大概有25万对人员看上去像恶人,即使他们根本不是。
现在假定实际上只有10对人员是真正的恶人。警察局需要调查25万对人员来寻找他们。除了会侵犯近50万无辜人们的生活外,所需的工作量非常大,以至于上述做法几乎是不可行的。
寓意:Understanding Bonferroni’s Principle will help you look a little less stupid than a parapsychologist.
英文课件下载链接:http://download.csdn.net/detail/huoxingshiyilang/8694175
参考文献:斯坦福网易公开课、51CTO读书频道