读---白话大数据与机器学习

第二章 步入数据之门

什么是数据

承载了信息的东西

什么是信息

信息是用来消除随机不定性的东西

 算法

在同一个算 法中,不同的参数和阈值设置同样会带来大相径庭的结果,甚至影响数据解读的科学性

第三章 排列组合与古典概型

1.古典概型

如果一个随机试验所包含的单位事件(就是刚才说的3次朝上分别为“正正正”、“正正
反”……这其中每一种情况都是单位事件)是有限的,且每个单位事件发生的可能性均相
等,则这个随机试验叫做拉普拉斯试验,这种条件下的概率模型就叫古典概型。古典概型也
叫传统概率,该定义是由法国著名数学家拉普拉斯(Laplace)提出的。
 
第4章 统计与分布
 
4.1.1 加和值
以使用加和值来对一群事物进行描述是一种非常自然的描述方式,比如:超市结账,使用加和值来对整体进行描述
 
 4.1.2 平均值
“一年级一班有40名学生,3门课程平均分为80分”。
“一年级二班有60名学生,3门课程平均分为75分”。
“一年级三班有50名学生,3门课程平均分为80分”。
从这组数据来看,基本可以得到一个印象,就是一年级一班的成绩“普遍”比一年级二
班“好”,至少是从“宏观体现”上看比二班好,它和一年级三班“一样好”。但是一年级一班和
一年级三班这两个班的每个人的成绩都是一样的吗?至少人数是不一样的。那么也许还需要
进一步地描述这平均下来的80分和每个学生具体的课程分数之间的差异性有多大,这就涉及
另一个描述的需求——标准差。
 
4.1.3 标准差
我们先上公式,标准差公式如下:
 
下面解释一下这个公式的含义。
我们以一年级一班所有40个学生为例,那么3门考试的情况下全班就有120个分数参与统
计,也就是n=120。把每个学生每门课的成绩减去全班的3个学科总的平均分80分,这样得到
120个差值,再把这些差值分别平方(主要是为了去掉负数,因为在分数差距里面,不管是
比这个平均值多,还是比这个平均值少,都被视为偏差),将这些平方的结果再加和,之后
除以参与统计的学科数量120,最后开平方,这个数字只可能是一个大于等于零的数字。用
汉字描述起来很啰嗦,但是一旦变成一个标准差的指标以后,由于是约定俗成的,所以只需
要“标准差”这3个字就能表示了。
这个数字表示的是什么含义?从这个数字得到的过程其实不难看出来。
如果所有的人的所有课程成绩都是和平均分一样,那么算出来的标准差就是0,因为每
一个 ( xi - u )^2  肯定都是0^2;反之,如果所有的人的课程成绩与平均分的差距都很大,
好的很好,差的很差,那么结果就是这个值会很大。如果一个班级成绩标准差比另一个班级
成绩的标准差小,说明学生之间的考试成绩水平差不多,标准差大则说明学生之间的考试成
绩水平相差比较大。
 
4.2 加权均值
如以重量1:4的原浆和水的比例来勾兑白酒,勾兑完的白
酒成本怎么计算?
1kg白酒成本=(1kg白酒原浆成本×1+1kg水成本×4)÷(1+4)
而绝对不会是
(1kg白酒原浆成本+1kg水成本)÷2
 
 
 
 

你可能感兴趣的:(读---白话大数据与机器学习)