数据挖掘小组学习记录——20190715-1

《人人都会统计学》

  这本书已经学了一段时间了,是时候将其整理一下了。之前学过统计学,但是再读一次统计相关的书籍如本书,还是有不少收获。

  数据分析不仅仅指的是拿到数据后进行推测、分析的步骤,其实数据分析包括了6个步骤:确定目标数据、目标数据采集、数据清洗、数据存储、数据分析、结果可视化及结果支持的决策等步骤。其实是一条龙全部内容都包括了,如同做research一样。首先明确自己的研究内容,根据内容确定目标数据;随后采用相应的采样方法收集数据;由于存在缺失值异常值等等,还要进行数据清洗;大数据资料如何储存暂时不清楚,自己在研究中一般用的Excel;数据分析要假设检验;最终生成可以po上去的图表。对于科研过程已经很熟悉了。对自己来说,数据清洗是最难的一步。

  Question-1:什么是数据内在逻辑?是否有相应的例子?

  “数据分析能力的基础在于数据分析的逻辑思维能力,而逻辑思维能力的培养必须建立在统计理论基础之上。”——如何从数据着手呢?分析哪些内容?是否可以分析BUN和当地晴天天数之间相关性?大概率是无意义的。这是否就是没有抓住数据内在逻辑的表现?
————————
  整本书按照统计分析的主要内容展开阐述,包括描述、推断、假设三方面。描述则包括数据的集中趋势、离散趋势、分布形态三个方面。e.g.:在做research时,常常要有statistical analysis这一段话, “定量数据表述为mean±SEM,如数据呈正态分布,则可进行t检验/方差分析” ,一句话里面包括了集中趋势(mean)、离散趋势(SEM)、分布形态(正态分布),所以在今后不记得数据的这几个方面的特质时,可以回忆一下经常写的这句话就ok了。

  当我们拿到数据时,首先不要直接上来就假设检验,应该首先进行数据描述。e.g.:拿到一组患者的BUN数据,如果直接上来就t、方差、mean,不掌握数据的全貌,就会遗漏重点信息。以两种不同疾病的患者为例,急性阑尾炎患者的BUN一般是正态分布,而慢性肾脏病患者的BUN则受到不同发病程度患者的数量的影响,需要透析的患者占大多数时,呈左偏态分布;占小部分时,呈右偏态分布。

  算术平均值 vs 加权算术平均值


屏幕快照 2019-07-15 上午9.15.19.png

  加权算术平均值能够反映不同数值的重要性,在数据权重不同时使用。

  Question-2:加权算术平均值

  心衰患者心率要求控制在70bpm以下。采样后发现心率未收到控制的有35个人,平均心率为92bpm;控制好心率的有11个人,平均心率为65pm。计算得知加权算术平均值为85bpm。

(1)85bpm如何反应不同数值的重要性呢?是否要和算术平均值搭配使用?
(2)这种数据使用中位数比算术平均值更能够反应数据的集中趋势,再结合IQR,一般就够了,那么到底这个加权的意义在于什么呢?
(3)采样角度:

  ① 是否先了解控制及未控制心率的人数占总心衰患者的比例,随后采用分层抽样?或是直接简单随机抽样?② 如果需要分层抽样,该如何了解控制及未控制心率的人数占总心衰患者的比例呢?

你可能感兴趣的:(数据挖掘小组学习记录——20190715-1)