数据挖掘小组学习记录—

《人人都会统计学》

这本书已经学了一段时间了，是时候将其整理一下了。之前学过统计学，但是再读一次统计相关的书籍如本书，还是有不少收获。

数据分析不仅仅指的是拿到数据后进行推测、分析的步骤，其实数据分析包括了6个步骤：确定目标数据、目标数据采集、数据清洗、数据存储、数据分析、结果可视化及结果支持的决策等步骤。其实是一条龙全部内容都包括了，如同做research一样。首先明确自己的研究内容，根据内容确定目标数据；随后采用相应的采样方法收集数据；由于存在缺失值异常值等等，还要进行数据清洗；大数据资料如何储存暂时不清楚，自己在研究中一般用的Excel；数据分析要假设检验；最终生成可以po上去的图表。对于科研过程已经很熟悉了。对自己来说，数据清洗是最难的一步。

Question-1：什么是数据内在逻辑？是否有相应的例子？

“数据分析能力的基础在于数据分析的逻辑思维能力，而逻辑思维能力的培养必须建立在统计理论基础之上。”——如何从数据着手呢？分析哪些内容？是否可以分析BUN和当地晴天天数之间相关性？大概率是无意义的。这是否就是没有抓住数据内在逻辑的表现？
————————
整本书按照统计分析的主要内容展开阐述，包括描述、推断、假设三方面。描述则包括数据的集中趋势、离散趋势、分布形态三个方面。e.g.：在做research时，常常要有statistical analysis这一段话， “定量数据表述为mean±SEM，如数据呈正态分布，则可进行t检验/方差分析” ，一句话里面包括了集中趋势（mean）、离散趋势（SEM）、分布形态（正态分布），所以在今后不记得数据的这几个方面的特质时，可以回忆一下经常写的这句话就ok了。

当我们拿到数据时，首先不要直接上来就假设检验，应该首先进行数据描述。e.g.：拿到一组患者的BUN数据，如果直接上来就t、方差、mean，不掌握数据的全貌，就会遗漏重点信息。以两种不同疾病的患者为例，急性阑尾炎患者的BUN一般是正态分布，而慢性肾脏病患者的BUN则受到不同发病程度患者的数量的影响，需要透析的患者占大多数时，呈左偏态分布；占小部分时，呈右偏态分布。

算术平均值 vs 加权算术平均值

屏幕快照 2019-07-15 上午9.15.19.png

加权算术平均值能够反映不同数值的重要性，在数据权重不同时使用。

Question-2：加权算术平均值

心衰患者心率要求控制在70bpm以下。采样后发现心率未收到控制的有35个人，平均心率为92bpm；控制好心率的有11个人，平均心率为65pm。计算得知加权算术平均值为85bpm。

（1）85bpm如何反应不同数值的重要性呢？是否要和算术平均值搭配使用？

（2）这种数据使用中位数比算术平均值更能够反应数据的集中趋势，再结合IQR，一般就够了，那么到底这个加权的意义在于什么呢？

（3）采样角度：

① 是否先了解控制及未控制心率的人数占总心衰患者的比例，随后采用分层抽样？或是直接简单随机抽样？② 如果需要分层抽样，该如何了解控制及未控制心率的人数占总心衰患者的比例呢？

数据挖掘小组学习记录——20190715-1