大学软件专业课程回顾(二)概率与统计

统计学

官方一点的定义:

统计学是一门通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学

统计可以这样简单的来理解.统计就是收集各种各样的数据,然后对这些数据做一些分析,得出一些有用的结论.政府不是有个部门叫统计局嘛

收集的数据相同,结论未必相同.有些比较坑爹的会拿些不具普遍性的数据来得出些结论.比如某个地方的村民去年收入几千元,但可能村里有一个比较有钱的煤老板,年收入同千万.结论可以是村民的平均收入几十万啊.所以一些特殊的数据应该剔除掉才行.在一些歌唱比赛节目中有时不有啥去掉最高分最低分这样的场景嘛.

为了使收集的数据比较有代表性.就出现了一些专业的方法,比如啥简单随机抽样,分层抽样,等距抽样,整体抽样,多阶段抽样.

分析收集到的数据时会使用啥标准差,方差来衡量下样本数据波动大小啊. 会以一些图表来形象的展示数据反映的一些规律啊.有些规律还可以用些函数表示,比如有啥二次分布,正太分布之类的啊.

统计在各行各业应用的非常广泛.

统计学在计算机中领域的应用

在计算机领域跟统计学相关的最热门的可能算自然语言处理(Natural Language Processing),简称NLP.

传统的语言处理是以乔姆斯基的理论为代表,根据完善的语法规则来推导出哪些语言表达是正确的,哪些是不正确的.这在计算机程序语言的处理中非常有用,比如编译器编译你的源码时就按照那些标准的语法规则来判断你的代码是否写错了,就算词法和句法没错,但语义有歧义也会报错.

但我们用的自然语言可比程序语言复杂的多了,按固定的语法来推导一来嘛很难做到绝对正确,因为人们在使用语法的过程中总会扩展和改变一些语法规则.二来嘛我们很多时候使用语言不需要做到有多精确,只要能满足交流,获取信息的目的就行了.于是统计自然语言处理就出现了. 我们会收集很多语料,然后形成一个个的语库.这样我们就不再管一些语句或短语是否符合语法规则.而是看常用的使用形式是啥样.比如一些词之间有些啥常用的搭配(有可能符合语法规则也有可能不符合).

这样通过统计得到的经验规律用在输入法的智能提示,用在翻译,搜索引擎中会带来非常大的用处.

概率

统计的思想是比较好理解,但概率思想其实是非常非常不好理解的,很多人是很难想通的(当然了前提是你真有去深入的想了).当然了描述下什么是概率大家基本都知道.简单的说就是一件事有多大的可能性发生.刚开始大家不知道概率的理论,认为很多事情都是随机发生,比如抛骰子,抛硬币都是随机的.但通过多次实验,多次统计.就会得到规律,知道某些事情会有多大的可能性发生.进而可以事前进行推断了.所以可以这样说概率是从统计中归纳推理出来的规律,经验.当然了还有些独立于统计的概率计算的公式.

概率与平行宇宙

那可能会问为什么为有概率这东西啊? 如果说抛骰子,抛硬币这样的事你还可以认为反正都是受物理规律影响,你如果能做到初始条件完全一样,比如抛的角度和方面,周围的其他因素完全一样那结果永远是确定的,不存在啥忽悠人的概率.但量子力学里面有个著名的故事叫薛定谔的猫http://baike.baidu.com/view/4559339.htm

这个故事我们可以知道即使初条件一样也会存在概率.有一个理论叫平行宇宙,这理论可以很好的解释概率论的问题.平行宇宙的大概意思是,实际上我们周围存在着无数多个平行的宇宙与空间,当有概率发生一件事,实际上各种可能性都同时发生了,只不过发生在平行的不同宇宙中.比如你抛一个硬币后,从此刻起分划分出两个空间和宇宙,一个里面是硬币朝上,另一个是朝下.不过关于这两宇宙之间的联系,以及你在同一个宇宙中会啥会有延续的同一的感觉,不同宇宙中的你会有联系不,这个貌似就有点复杂的,想不太明白了啊.哎反正平行宇宙本身是比较抽象,不太容易用经验感性思维来类比的,不好理解.

概率在日常中的用处其实可以用句简单的话来说:就是趋吉避凶.哪个有利的事发生的概率越高我们就去做,某个有害的事发生的概率越高我们就要尽量去避免.当然了计算出概率的过程可能比较复杂,涉及到很多公式.

另外实际上很多人做决定时都是非理性的,不按概率来,像买彩票,赢的概率都非常小.但大学都抱着侥幸的心态,认为自己可能会碰到那小概率

你可能感兴趣的:(软件)