统计学到底给我什么

2018/11/04
长久以来,总是自己相信也好,别人告诉也好,就说统计学非常有用。
可是自己也是看了统计学的书,当然,有很大原因是自己看书不够专注,导致最后的结果就是看了这么久,一直看不出什么效果。就是那种,感觉他很有用,但是又用不出来的感觉。
但是最近又有这种感觉,可能他就是这个原因呢,就是不能给我多好的实践出来的感觉。(说这句话,让我感觉,就是还是因为没有实践的机会)
举一个比较恰当的例子,数据可视化。
这个东西的内容,要远比统计学少的多,但我依然觉得这个东西很有用, 但每次学发现,就是那些基础的东西,每次看别人说都是那些东西。看来,我这个学习的过程是不对的,我一直都弄错了。这个东西我得好好研究一下。


这次趁这个机会,我把刚刚看的这本书的内容给梳理一下,同时也思考一下,统计学到底能给我什么。看的这本书的名字叫《mind on statistics》,按照该书的目录进行梳理,过程中注重这部分内容对我后续机器学习过程的可能影响。

1、简介

2、转化数据为信息
这部分属于机器学习中的预处理部分,将原始数据转化为相应的特征向量,根据自己对各个数据意义的真实理解,进行相应的转换。

书中对这部分内容的划分主要有以下几个部分:数据类型,如何简单的作图来说明变量之间的关系,如何处理异常点(这个内容是我原来一直没有做过的,但也是当时听过的),探究数据分布。

注意,日常生活中很多数据的分布都是正态分布,我没有真实做过,我不敢妄下判断。我觉得,正态分布的假设,应该能给出很大的信息量,估计最有效的,就是那种,两个正态分布的图。

3、采样:如何做调查和问问题
该部分的内容集中在如何采样上,以及采样之后,对样本与总体之间的关系的一些统计数据。

相对应于机器学习部分,交叉验证可能是最好的说明部分,虽然有些数据会利用置信度什么的,但大多数情况下,机器学习都没有利用这部分信息,可能是因为最终之后,总归要用全部数据来做一个样本训练。
但我也想起来一个可用的地方。那就是大数据情况下,该怎么采样。原来的时候一直关注一个问题,就是如何得到有代表性的数据,采样时候才用的策略,估计也应该是一个考虑的因素。从另一个角度来讲,我如果获得了不具有代表性的,我怎么检测出来。

4、从数据关联性中获取有用信息
这一章着眼于如何主观的设计实验来达到关联性检测的要求。对其内容就先不看了,因为后面的内容才是我真正想要的。

(这部分一直以来,最直观的认识,就是一个正相关负相关,即使是看别人的博客,看别人的各种问答,都没办法得到多少有用的信息,我不知道这个东西是不是可以深入,我特别想从这个点入手,来达到一定的掌握度。特别是机器学习过程中,我想知道每个输入变量与输出变量之间的这个具体关系,另一方面,就是我想知道这个东西我能获取到什么样的知识。)

5、数量型变量之间的关系
这一章值得重点关注。按照目录的说法,有以下几点:从散点图中获取模式、米利用回归线来描述线性模式、测量关联的强度和方向。最后一个部分说,关联不代表着是产生的因素。

对于回归类的研究而言,数量型的关联研究基本是必做的,我感觉也没什么好说的,因为本身你就是要从一个公式推导的角度入手(当然不是绝对的)。所以针对这种更久不必多说。相应的,如果我想知道两个输入变量之间的关联是不是也能这么做,这就对后期机器学习过程中的特征工程的意义很重大。

6、分类型变量之间的关系
针对这种变量,好像整体的策略都变得不一样了。目录:展示分类型变量之间的关系、风险,相对风险(这个是什么玩意??),6.3 The Effect of a Third Variable and Simpson’s Paradox,最后一个不知道是什么。

在机器学习的分类学习中,这种分析更有意义,一般情况下,分类的结果是类别,而不是数值。那么针对输入变量同样为分类变量,这样分析可以达到同数量型变量一样的效果。
这里产生一个问题:我怎么样去描述数量型变量和分类型变量的关系呢。这是个问题。

7-8 概率与随机变量
这两章基本就很熟悉了,不过第7章中几个条目吸引了我:找到概率的几个原则、找到复杂概率的策略、利用仿真来模拟概率(这个,有点意思哦,如果我事先并不知道概率是是什么样的, 我怎么去仿真???还是我理解错了???)

这里就不仔细赘述了。

9、理解样本分布:统计作为随机变量 10-11
这个翻译感觉不对,但是我自己翻译和百度翻译的都是这个。。在没看具体内容之前,我觉得应该是说明利用样本来说明一些统计量的,一定要区分开样本均值这种东西。

这部分也是我认为的统计学真正的内容,就是利用样本来推到整体上的数据分布。但是感觉这部分的内容好像还是有点不太理解。虽然,他前面提到了做调查的时候一些内容,用以获取代表性的数据。
而10-11的内容集中在估计一些参数上,这些也时当时关注过的。
对这部分内容,我还真想不起来好的关联点把他和机器学习的部分结合起来。可能最好的办法,就是最开始进行数据分析的部分把。

12-13 假设检验
同样是当时上课时候的内容,但是仔细想想,我好像一点也不记得了。。。

14、关于简单回归的一些推导

15、对于分类型变量的推导

16、方差分析
这个点,因为前几天我也一直关注方差的一些作用,就比如协方差这些东西。不知道这一张能不能给我带来什么帮助。


17章就不说了,从这个目录上来看,基本上的内容跟我在实验室看到的这个数理统计的书的内容一样。另外,从开始进行推导的部分开始,基本上就对我来说,都是陌生的,都是目前来讲,以我对机器学习的理解,没什么作用的。
但是我觉得如果我为了发现这些关联去学,就有点失去了真正的意义,所以,我还是学习机器学习,然后得到一定的理解之后,再来看。

你看,这个标题,可能我给出的答案就是,统计学,可能真的给不了我什么。
话肯定不要说绝,自然是期待能得到很多应用的内容。


2018/11/22
学习的过程中,发现学习的内容都比较散,没有将很多东西关联起来。可能这就是自学的一个弊端吧,特别是统计学这个东西,我基本都是想起来一个东西就学一下,没有一个系统性,虽然这个post就是为了想串一下。
2018/11/24
关于真正的这个统计学的思维,我还是没太弄明白什么样子。特别是,因为目前机器学习的东西,一直没有和统计学结合起来。
或者说,就是往好了说,我已经学会了这个东西,但就是没有把这个东西真正的利用起来???

按照我现在的想法,统计学的思维应该是一种处理数据的思维,从数据中得到知识(说的好像是数据挖掘),最简单的例子就是利用数据做决策,但是数据大小的制约,需要我们采用一些手段来完成通过小样本窥探整个数据的效果。还有另外一个方面,就是变量的关系分析。

2018/11/24
今天看了一个书的部分章节(统计思维),只能说,看完之后,脑子里就是一顿浆糊,这个写的就是太脱离实际了。也有可能,是我自身的理解能力不够,所以看不太懂。
语言太过抽象了,看起来就比较吃力。

针对统计思维的问题,有一个概念叫做不确定性,而统计从数据中获取知识的过程就是一个消除或者尽可能减少不确定性的过程。日常生活中的各种问题,都存在着不确定性, 通过减少这个东西, 来掌握事物内在的规律,帮助理解问题,帮助做决策。

你可能感兴趣的:(统计学到底给我什么)