可以通过分数占比算出数值
通过散点图画出Regression,可明显看出其他噪点
直接通过y除以x得到的数值如果不是整数但几乎在某个值波动,看起来不是线性关系,但可能是y=ax+b的一元二次线性关系而不是y=ax的一元线性关系
在混乱的二维表点数中存在许多噪音但整体观看又有一定的规律,但此时无法直接通过直线绘制出整体布局趋势,可以通过勾画出在一定区间内的柱状图,选取此区间的平均值作为柱状图的高度,根据每个区间柱状图的高度可大概了解整个数据的整体走向
柱状图可以多维,直方图是二维(大部分统计数值密度)
Relative Data
直方图看数值范围频率
对于零散且连续的散点图只能粗略看走势,如果只是某个固定的数值上的分布,不能看出大概走势,只能了解在某个值上大部分聚集在什么范围,以及其特殊值
柱状图可以了解在某个固定间隔区域内的数值大致走向是否大致呈线性
数字具有迷惑性 每个区域的数据得到的结果会不相同
线性函数中 线上以及线下的含义
根据图像的走势或者图中数量的显示决定图与图之间的变换关系
Statistics是从现有数据推算出事件的发生,Probability是从事件的发生推算出其产生的数据概率
单个事件的频率=出现指定的次数/所有试验的次数
所有事件的发生的集合称为必然事件
指定事件与对立事件总和为1
独立事件:第一次产生的结果不会影响第二次试验结果
多个独立事件同时发生的概率可通过其单独出现的概率进行相乘得出
已知所求事件在特定条件下的概率,求所求事件发生的概率
设A为所求事件,B为特定条件,则有:
通过已知现象推算出发生原因的概率,设为已知原因,为结果
将概率数值转化为变量进行存储,通过函数输入输出
在某个样本空间内,取特定值的概率为0,但取该样本空间里某个区域的概率不为0
例:一个瓶子在360°的圈内进行旋转,记录起始位置,稍微轻碰瓶子,瓶子相比于初始位置旋转到180°的概率为0,即。但是相比于初始位置旋转到180°到181°这个范围的概率为1/360,即。
密度(density)可大于1
设所发生时间的概率为,密度设为,选定区域设为,面积设为
则有
面积(所发生事件的概率)= SUM(密度 * 选定区域)==> 总和小于等于1
密度函数不一定是连续的
有相关性的事物不一定会有因果关系
基于贝叶斯概率拓展了一些实例
对于其中某个实例的理解如下:
maximum-likelihood 最大似然 laplacian 拉普拉斯算子
此处的最大似然估计可以理解为所选的事件出现的频率
Laplace 的分母是通过在原有数据的基础上添加所有会发生的事件(必然事件),得出来的结果与真实频率相近
Mean(平均数)、Medium(中位数)、Mode(众数)
在一系列的数字当中,差异并不大时可以通过平均数(所有数字总和/数字个数)来反映这串数字的大致趋于什么数值
在一系列的数字当中,差异并不大但有几个比较异常的数值可以通过中位数(将所有数字按顺序进行排序后处于中间的数值)来反映这串数字的情况
在一系列的数字当中,多级分化明显可以通过众数来反映这串数字的情况
可通过方差(variance)或者标准差(Standard deviation)查看一系列数字中的稳定状况
方差公式 :
方差是标准差的平方
计算数组中众数(mode)
通过 数组名称.count(数组名称[索引]) 可找到当前元素出现的次数
通过比较大小进行替换存储
替换成高效率写法如下: