该系列文章系个人读书笔记及总结性内容,任何组织和个人不得转载进行商业活动!
其实我也不知道怎么就买了这么一般书,可能是学点python就觉得想要做点什么,好吧,买了毕竟是要读的,那就开始吧;
在,正式阅读之前,请“大量喝水”!
处理大量数据,分解和构建复杂的问题和数据集,得到推进现实工作的策略;
9月 | 10月 | 11月 | 12月 | 1月 | 2月 | |
---|---|---|---|---|---|---|
总销量 | 11000 | 14000 | 12000 | 12000 | 13000 | 14000 |
目标销量 | 10000 | 13500 | 15000 | 17000 | 19000 | 21000 |
广告费 | 5000 | 4000 | 3000 | 2000 | 1000 | 1000 |
社交网络费 | 0 | 1000 | 2000 | 3000 | 4000 | 5000 |
单价 | 2 | 2 | 2 | 1.9 | 1.9 | 1.9 |
目标:提高销量
固定的基本流程+丰富的经验:
好的数据分析师往往能作出更好的决策;
客户能帮助确定问题:
探索性数据分析:找到一些值得进行进行测试的假设条件;
优秀的数据分析师能够帮助客户思考自己的问题;而不是等待客户告诉他们该做什么;
聘用数据分析师的人认为。具备分析技能的人能够改善他们的业务;有人把这些问题视为机会,而向客户支出如何发现机会的数据分析师则能让客户赢得竞争优势;
找到感兴趣的比较对象,分解汇总数据:
已确定观点:
数据体现出来的:
对自己:
对客户:
作为数据分析师,工作就是让自己和客户仔细研究你对数据的评估,从而做出更好的决策;
提交的报告要以得到客户理解、鼓励客户以数据作为基础做出明智的决策为重点;
分析报告:
客户已经确认的观点和可能会让你误入歧途——客户心理想的往往是一种心智模型;
你对外界的假设和你确信的观点就是你的心智模型;
统计模型取决于心智模型;
假设:
明确不确定因素、盲点,获取未知信息;了解自己的知识缺陷,及时补充:
准确了解数据背后所代表的信息:
比如,你的数据里有一家经销商公司,你可能要了解,这个经销商公司的受众是哪些(再下一级受众)?
无论数据多么纷杂,一定要始终明确自己的目标;
现在数据分析已经纳入了更多的信息:各个经销商的分销产品的数量、占比等;
男士也是受众!!
完善的心智模型需要大量的知识、经验相结合。
实验
解决问题、揭示事物的真正运行规律;
摆脱对观察数据的无限依赖,帮助理清因果关系;得到可靠的实证数据;
示例:咖啡销量下滑
比较越多,分析结果越正确;
观察研究法
:被研究的人自行决定自己属于哪个群体的一种研究方法;
观察分析法充满了混杂因素(混杂因素就是研究对象的个人差异);
比如 某一个富人区对咖啡的需求会影响整个咖啡销量分析的结果;
所以需要——校正混杂因素;
控制组
:一组体现现状的处理对象,未经过任何新的处理(也称 对照组);
好的实验总是有一个控制组(对照组),使分析师能够将检验情况与现状进行比较;
没有控制组就意味着没有比较,就意味着没法对所发生的情况进行判断;
历史控制法通常用于检测对象的成功方面;当前和历史的大多数方面不具有可比性;
实验组和控制组的选择:避免混杂因素;
你可以:
从对象池中随机选择对象是避免混杂因素的极好方法;(随机使混杂因素的影响对控制组和实现组相同)
随机控制
是各种实验的黄金标准;最大限度地接近数据分析的核心——证明因果关系;
=RAND()
,然后向下拖动使用,在对随机列进行排序;我们已经了解了
观察研究法
实验研究法
控制组和实验组
混杂因素
随机性
,使用它们设计合适的实验,找到想要的答案;
随机控制实验,得出了最有效的提高营业收入的方式。
用数字表示利润、钱、效率、速度等,实现更高目标:调整决策变量、解决方案和优化点;
分析:
约束条件
:可以明确在实现利润最大化的过程中无法做到的事;
决策变量
:在不超过约束条件的情况下,选择一个组合实现利润最大化;通过改变一些量值,实现某一项的最大化;如通过改变各个产品的生产数量,达到利润的最大化;
将决策变量、约束条件及希望最大化的目标合并成一个目标函数;
希望最大化或最小化的对象就是目标,目标函数可以帮助找到最优化的结果;
约束条件和决策变量在等式中共同作用,形成利润,多个最终汇成目标:总利润:
P | = | c1x1 | + | c2x2 |
---|---|---|---|---|
目标:期望最大化的对象 | c表示约束条件 | x表示一个决策变量 |
任何最优化问题都有一些约束条件和一个目标函数;
产品1的利润 * 产品1的生产数量 + 产品2的利润 * 产品2的生产数量 = 利润
如何在一张图里把各个产品组合的约束条件绘制出来?
以x轴表示产品1,y轴表示产品2,产品组合在由约束线围城的空间称为可行区域;每个约束条件都会引起可行区域的变化,可以通过可行区域找到最优点;
原料供应的约束条件:
500个产品1 或400个产品2;各取圆点画直线;
可行区域的点带入到目标函数:
$5 * 产品1的数量 + $4 * 产品2的数量 = 利润;
一切模型都是错误的,但其中有一些有用的;尽量创建最有用的模型;
Solver
可以解决许多定量问题,但Solver主要是一个解决线性编程问题的工具,优化问题还有许多其他类型,可以用各种算法求解;
产品1的市场受欢迎程度可能和产品2负相关;
创建模型时,往往要假设并明确各个变量的相互关系;
加入一个新的约束条件:估计某个月各个产品的最高销量;并假设后续几个月会保持前几个月的销售趋势;
模型使用的数据都是观察数据,现在其作用,未来可能会失灵,要做好准备,反复不断地进行构建正式分析师的工作;
理解了具体的定量最优解的求解方式,但是这个Solver没用上,在WPS上没找到。
高明的数据图形:
散点图
是探索性数据分析的奇特工具:
最优秀的图形都是多元图形:
图形中,数据与假设的吻合程度,数据是否证实了假设;
证伪法
:一种切实有效的非直觉方法;
请勿试图选出最合理的假设,只需剔除无法证实的假设——这就是假设检验的基础:伪证;
在进行假设检验时,重点是要识别和找出诊断证据,非诊断证据不会给你带来任何进展;
要关注新进的证据,随时重新分析评估之前的各个假设;
必须确保每一个分析过程都充分利用所搜集到的与问题有关的数据;
贝叶斯规则
:利用基础概率和波动数据进行分析;
条件概率
:以一件事的发生为前提的另一件事的发生概率;
避免基础概率谬误的唯一办法就是对基础概率提高警惕,而且务必要将基础概率整合到分析中;
主观概率
:
主观概率是根据规律进行分析的巧妙方法,尤其是在预测孤立事件却缺乏从前在相同条件下发生过的事件的可靠数据的情况下;
通过散点图的分布确定已经达成共识的部分;
标准偏差
:
标准偏差量度:分析点与平均值的偏差;
数据集中的大部分点都会落在平均值的一个标准偏差范围内;
EXCEL中计算标准偏差:
公式 =STDEV(数据范围)
示例中场景:
主观概率偏离平均值的标准差越大,分歧越大;
贝叶斯规则用来修正主观概率
:
已知证据,求假设条件的概率 = (假设的概率 * 在假设成立的条件下,证据出现的概率) / (假设的概率 * 在假设成立的条件下,证据出现的概率)+(假设不成立的概率 * 在假设不成立的条件下,证据出现的概率)
P(H|E) = P(H)P(E|H) /( P(H)P(E|H) + P(H)P(E|H) )
通过比较修正后的主观概率重新确定需要达成的共识;
启发法
是从直觉走向最优化的桥梁:
选择一两个变量,然后根据这些变量对整个系统做出结论;
用一种更便于理解的属性代替一种难解的、令人困惑的属性;
可能会得出正确的答案,但不保证得出最优解;
使用快省树
:
一种描述启发法的图形被称为快省树,快是耗时不多,省是不需要大量认知;
使用Wxcel的Data DataAnalysis:
选择Histogram(
直方图
);
选择数据;
勾选Chart Output进行图标绘制;
直方图
体现了每组数据的发生频数:
无论数据集多大,直方图都能显示出数据点在数值范围内的分布情况;
散点图
:plot
使用平均值图形预测每个区间内的数值:
画一条线把平均值图中的点连起来——回归线;可以用于预测;
线性回归
or 非线性回归(更复杂,不讨论);
回归线对于具有线性相关特点的数据很有用;
相关性即两个变量之间的线性关系,如果要呈现线性关系,散点图上的点就需要大致沿着直线分布;
相关性:相关系数
相关性为1或-1 就有充足的理由使用回归线;
得出线性回归方程:预测结果;
y = 2.3 + 0.7x;
外插法
:回归方程预测数据范围以外的数值预测方法;
内插法
:回归方程预测数据范围以内的数值预测方法;(x值的范围来自能观察到的数据范围)
观察模型时,一定要想一想他们的假设有何道理,以及是否忘记了某种假设;不合适的假设会使模型完全失效;
机会误差
=实际结果与模型预测结果之间的偏差;
统计学中,机会误差又称为残差,对残差的分析是优秀的统计模型的核心;
定量地指定误差:
残差分布
:需要一个统计值,体现观察结果相对于回归线的平均偏移量;
做为一种度量方式,相对于回归线的机会误差(或者称为
均方根误差
)的分布与相对于平均值的标准偏差具有相同的用途;
有了回归线的均方根误差值,就能明确实际结果与典型预测结果之间可能有多大差距;
用均方根误差定量表示残差分布
:
均方根误差描述的是回归线周围的分布情况;
计算均方根使用相关的统计计算软件提供的函数很方便;我们需要知道的是:
误差是可以定量描述、定量使用的;
度量误差的方法还有很多,均方根只是描述偏差的一种;
分割的目的是管理误差:
将数据拆分为几个组称为分割,如果为几个组分别创建预测模型比单独使用一个模型更能减小误差,则应进行分割;
数据库就是一系列相互有特定关系的数据;
根据从表格导入的数据进行图表绘制使数据更加直观;
作为数据分析师,花在数据整理上的时间多过数据分析上的时间;
如果给定的数据域有规则,比如以某个分隔符进行分隔,Excel可以通过”Text to columns“来进行文本转换列;
Excel提供了字符串处理的函数:
Substitute
:以指定的新文本代替单元格中不需要的文本;FirstName域:=SUBSTITUTE(B2,"^","")
多个公式还可以嵌套使用:
CONCATENATE(LEFT(A1,1),RIGHT(A1,1))
使用正则表达式
处理复杂的数据模式;
为数据排序:让重复数值集中出现:
数据越混乱,越应该大胆的排序;
Excel中支持删除重复数据:Remove Dumplications;
十大要诀:
统计知识大全
统计学领域拥有大量数据分析工具和技术,对数据分析极为重要;
取样:调查、置信区间、标准误差、样本均值;
显著性检验:原假设和备择假设、T检验、卡方检验、Z检验;
概率:乘法规则、独立性、二项式定理;
随机变量:平均律、概率直方图、正态逼近法、盒子模型;
本书主要提及了假设 和 建模;
Excel技巧
:
掌握Excel并不是特别难;
图形原则
:
分析设计原则;
提现比较 对比 差异
提现因果关系 机制 理由 系统结构
提现多元数据(提现出1或2个变量)
将文字 数字 图片 图形结合
充分描述证据
数据分析报告的成败在于报告内容的质量、相关性和整体性;
数据透视表
数据透视表是电子表格和数据分析软件中极为重要的数据分析工具;