如何开始数据分析

1.什么是数据分析


数据分析有很多种定义方式。在这里,只从三个方面对其进行描述:

1.1 数据分析的本质是比较

数据只有通过相互比较才会有意义。

举几个例子:

——实验设计,本质上是主动设计具备可比性的控制因素,以区分控制组和实验组,再用随机控制排除不可比的混杂因素,观察目标变量的变化。

——最优化问题,本质上是比较由不同决策变量生成的目标变量,在约束条件一致的情况下,找到最优的目标变量。

——假设检验,本质上是比较假设的真伪,对不能证伪的假设做评级比较。

——主观概率,本质上将定性比较数据化,实现精确的比较。

1.2 数据分析的目的是解决问题

分析工具会简化实际情况…分析以创建最有用的模型为目标…

为了解决问题,分析人员必须:

——先确定问题,把客户的问题转化为要分析的问题,能量化的要量化。

——确定假设,把客户的确定观点、自身知识等作为基准假设,同时要注意知识缺陷引起的基准假设谬误。

——分解问题到可管理、可解决的组块。

——有限决策,比如找到有意义的分析结论,完成无法证伪的假设评级,接受主观概率下的比较结果,采用启发式得到比直觉更优的结论,创建最满意而非最完美的模型等。

1.3 数据分析的基础是数据

整个分析过程都是以数据为基础进行的,包括:

——通过数据判断基准假设,发现未知信息或知识缺陷。

——通过探索性数据分析,寻找可能存在的数据模式。

——分解数据,从而观察和比较数据因子。

——通过数据精确度量假设、目标、可能性、相关性、误差等。

——利用关系数据库管理巨量数据。

——在进行分析前,完成混乱数据的整理。

2.简单的数据分析方法


2.1 调查和实验

适用场景:有控制组和实验组的场景

关键要素:控制组、实验组、混杂因素控制、随机控制

结论:选定解决策略

2.2 优化法

适用场景:最优化问题,启发式问题

关键要素:目标函数、决策变量、约束条件、可行区域、快省树

结论:最优目标变量、较优结果

2.3 假设检验

适用场景:利用有效证据选择假设

关键要素:证伪、诊断性、有效证据、假设评级

结论:采纳某一假设

2.4 贝叶斯规则

适用场景:需要整合新信息到分析中的场景

关键要素:基准概率、条件概率、条件概率互化、主观概率

结论:确定某一事件概率

2.5 数据图形化

适用场景:需要更直观的观察数据的场景

关键要素:目标相关、正确比较、多变量

结论:数据图形化得到的观点

2.6 回归

适用场景:预测问题,观察到数据的相关性

关键要素:相关系数r,回归方程、外插法、均方根误差、分割、预测功能、解释功能

结论:回归模型

总之,数据分析的离不开确定、分解、评估、决策四个步骤,需要在实际问题的分析中不断磨练精进。

你可能感兴趣的:(如何开始数据分析)