谁说菜鸟不会数据分析(工具篇)---读书笔记



第2章 玩转数据分析

数据分析,它主要有三大作用现状分析、原因分析与预测分析。

数据分析可以分为两类:一是呈现现状的描述性分析;另外一种是基于历史数据的推断预测性分析

2.1 Excel数据分析工具一-PowerPivot

Power Pivot是微软在Excel2010 中新增的一个插件工具。在PowerPivot 中, Excel的行、列限制已被取消,这样我们能方便地操作更大型的数据


2.2 Excel数据分析工具库

数据统计分析一般采用专业的统计软件来完成,如SPSS , SAS等,这对于非科班出身的人来说相对困难。其实,我们可以用Excel 自带的简单易用的分析工具库来实现我们的分析任务。



相关分析与回归分析的联系是:均为研究及测量两个或两个以上变量之间关系的方法。在实际工作中,一 般先进行相关分析,计算相关系数, 然后拟合回归模型, 进行显著性检验,最后用回归模型推算或预测

相关分析与回归分析的区别是:

  • 相相关分析研究的都是随机变量, 并且不分自变量与因变量, 回归分析研究的变量有自变量与因变量之分, 并且自变量是确定的普通变量,因变量是随机变量。
  • 相关分析主要描述两个变量之间线性关系的密切程度,回归分析不仅可以揭示变量X对变量Y的影响大小, 还可以由回归模型进行预测。
回归分析模型主要包括线性回归及非线性回归两种。线性回归又分为简单线性回归与多重线性回归, 而对于非线性回归, 我们通常通过对数转化等方式,将其转化为线性回归的形式进行研究,所以接下来将重点学习线性回归。


简单线性回归也称为一元线性回归, 也就是回归模型中只含一个自变量,否则称为多重线性回归。简单线性回归模型为
                                                       Y=a + bX + ε
                                                   式中, 
Y-- 因变量
X-- 自变量
a一一常数项,是回归直线在纵坐标轴上的截距
b一一回归系数, 是回归直线的斜率
ε 一一随机误差,即随机因素对因变量所产生的影响


多重线性回归模型( Mulitiple Linear Regression )是指包含一个因变量和多个自变量的回归模型,而多元线性回归( Multivariate Linear Regression )是指包含两个或两个以上因变量的回归模型。

2.2.7 移动平均

时间序列预测主要包括移动平均法、指数平滑法、趋势外推法、季节变动法等预测方法,
移动平均法的基本思想是移动平均可以消除或减少时|可序列数据受偶然性因素干扰而产生的随机变动影响,它适合短期预测。
移动平均法公式如下
Yt= (Xt_1+Xt_2+Xt_3+...+Xt_n)ln
式中, 只Yt对下期的预测值
n 一一移动平均的时期个数
Xt_ 1 一一前期实际值,
Xt_2' Xt_3,Xt_n,,"一一分别表示前两期、前三期直至前n期的实际值。

2.2.8 指数平滑

指数平滑法是从移动平均法发展而来的,是一种改良的加权平均法,在不舍弃历史数据的前提下,对离预测期较近的历史数据给予较大的权数,权数由近到远按指数规律递减。


第3章 Show出你的数据

3.1 数据可视化
数据可视化( Data Visualization ) ,就是研究如何利用图形,展现数据中隐含的信息,发掘数据中所包含的规律。也就是利用人对形状、颜色、运动的感官敏感性,有效地传递信息,帮助用户从数据中发现关系、规律和趋势。它涉及计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域,是研究数据展现、数据处理、决策分析等一系列问题的综合技术,随着数据挖掘和大数据的兴起而进一步发展。





你可能感兴趣的:(学习笔记)