数据分析思维笔记(基础)

学习郭炜老师数据分析思维课笔记,绝!!

一、数据分析基础

平均值

不代表整体水平,质和量是不等价的。

数据分析思维笔记(基础)_第1张图片

 大数定律和小数陷阱

数据分析思维笔记(基础)_第2张图片

 数据的期望值

数据分析思维笔记(基础)_第3张图片

 随机对照实验

数据分析思维笔记(基础)_第4张图片

 直方图与幂分布

数据分析思维笔记(基础)_第5张图片

 数据分布

数据分析思维笔记(基础)_第6张图片

 散点图和相关性

数据分析思维笔记(基础)_第7张图片

 标准差

尽量把自己做人做事的标准差变小,提高对自己的标准差预期。

数据分析思维笔记(基础)_第8张图片

 数据抽样

数据分析思维笔记(基础)_第9张图片

 指数和KPI

数据分析思维笔记(基础)_第10张图片

因果倒置

数据分析思维笔记(基础)_第11张图片

二、数据算法基础

准确率、精确率(查准率)、召回率(查全率)

数据分析思维笔记(基础)_第12张图片

 置信度和置信区间

是一组参数,来告诉你算法模型的误差有多大。判断算法好坏:AUC曲线、F1 Score、PR曲线、增益和提升图等等。

数据分析思维笔记(基础)_第13张图片

回归

就是研究一个变量和另一个变量之间的变化关系,一个叫因变量,一个自变量。多元回归就是一个因变量和多个自变量之间的关系。

数据分析思维笔记(基础)_第14张图片

 聚类

通过算法将事物全部自动聚集起来,让聚好的类别达到内聚(组内)和分离(不同组)特性,最终任何事物的特征属性都可以变成类似距离的东西来计算。使用聚类算法时要尽量把一些异常点剔除掉,或者单独把它们单独聚成一类,否则一些有异常的数据会影响我们聚类算法的最终准确性。

数据分析思维笔记(基础)_第15张图片

分类

有训练数据集,不断学习规律,然后再测试数据,有监督学习,分类算法核心在于经验不断积累,不断迭代自己的规则,从而得到最好的答案。常见分类算法:C4.5决策树(逐级找领导再剪枝)、朴素贝叶斯、支持向量机SVM、随机森林、逻辑回归……

数据分析思维笔记(基础)_第16张图片

关联规则

需要找到支持度和置信度都高的规则。Apriori算法可以帮助我们去掉没有必要测试的组合。

数据分析思维笔记(基础)_第17张图片

蒙特卡洛和拉斯维加斯

都是利用随机的方法来简化整体的算法。蒙特卡洛算法:每次计算都尽量尝试找到更好的结果路径,但不保证是最好的结果路径,时间越久、尝试越多,最终越接近最优解。(100个苹果,每次次取两个比较,找到最大的那个)。拉斯维加斯算法:每次计算都尝试找到最好的答案,但不保证这次计算就能找到更好的答案,尝试次数越多,越有机会找到最优解。(1把锁,100个钥匙,依次开锁)。

数据分析思维笔记(基础)_第18张图片

数据分析思维笔记(基础)_第19张图片

马尔可夫链(和时间序列预测相关的算法)

找到内部运行规律,从而预测当这一系列事件达到平衡的时候,当前状态的下一步最可能发生的情况。(用途:天气预测、食品销售预测、GDP涨幅预测、企业人员变动预测……)预测结果的好坏依赖于概率转移矩阵是否准确,概率转移矩阵的准确性依赖于算法评估方法的合理性。

马尔可夫链蒙特卡洛算法(MCMC),将马尔可夫链用于对蒙特卡洛方法的计算过程中。(可用于推荐)

数据分析思维笔记(基础)_第20张图片

协同过滤

常用在推荐系统。基于用户的协同过滤算法就是基于用户和用户之间的相似性,推荐你喜欢的东西,过滤掉不喜欢的。基于物品的协调过滤算法是根据用户群对于物品的购买或者评价发现物品和物品之间的相似程度,然后再根据具体用户历史使用的类似物品推荐给这个用户。基于数据模型的协调过滤算法,可以复用前面所学到的算法,先做出来模型,再进行相关的协调过滤。

数据分析思维笔记(基础)_第21张图片

深度学习

RNN循环神经网络,可以针对更长的序列数据进行模拟和决策,有记忆功能。CNN卷积神经网络,能分层次提取各种各样的特征,从而能够将大量的数据有效抽取成比较小的数据量,而且不影响最后的训练结果(CNN模拟人都眼睛和头脑识别)。

数据分析思维笔记(基础)_第22张图片

 三、数据思维图

确定问题

和利益无关的问题都不值得做数据分析。(1)理想与现状对比,(2)6W2H。

数据采集

一手数据,数据可控,数字化升级转型应该从核心或者创新业务流程开始,数据的采集和计算一定要从最明细的数据开始,做数据分析时,数据质量的要求要大于数据量的要求。

二手数据,来源于行业内的数据,不是自己内部产生的,需注意可信度。

扩展方法:趋势分析法、快照扩展法、衍生指标法。

总结讨论

设计故事线

实践前的数据理论

数据驱动最终是用结果说话。用精益的方法,小步快跑;用拆分实验的方式降低门槛,用创新扩散模型找到第一波实验的企业内部用户,用理性行为理论来说服每一个干系人,让他们从对你的想法的认可落实到具体实践的行动当中。

15种数据分析思维图

VRIO分析,分析自身资源和运用方法,价值性、稀缺性、可模仿性、组织性

五力模型,最常见的竞争分析方式,分析整体业务赛道与竞争情况

SWOT模型,整体业务场景与竞争优劣态势

同理新地图,打动决策者

4P竞争分析,产品市场营销分析,产品、价格、渠道、促销

奥斯本检验表,拓展思路,获得新观点

SUCCESs,新观点创意和商业模式评估,简单、意外、可信、整合、情感、故事、神秘

产品组合矩阵(气泡图),产品布局,产品中的业务布局,是散点图的变种

商业模式画布,分析自身商业模式

AIDMA,设计整体客户营销策略

AARRR,获取客户的各个阶段,获取用户、活跃用户、留存用户、购买用户、传播用户,新形势下是RAARR,推荐、获取、激活、留存和购买

SMWRT,确定目标是否明确,具体、结果可衡量、制定目标可实现、动作和言论都是结果导向、所有目标有时效性

PDCA,反思和改进自己的业务

PACI,分拆工作职责,进行工作协同

Will,Can,Must,寻找做事情的优先级和边界

四、分析工具

个人数据分析,小公司进行数据统计:Excel、SQL Server、云、Power BI

中型传统企业,200+人规模民营企业:数据仓库、MYSQL、Greeplum、Teradata、Informatica、Datastage、Apache DolphinScheduler、Kettle、BO、Cognos、Tableau、QlikTech

数据分析思维笔记(基础)_第23张图片

 中大型传统企业,500+人规模民营企业:Apache、Hadoop、Spark、HBase、ClickHouse、Presto、Hive、Kafka、Apache DolphinScheduler、数据挖掘、R、SPSS、SAS、Python MLlib

数据分析思维笔记(基础)_第24张图片

 超大型传统企业,大型互联网公司:融合框架、融合算法、自建开源社区

大数据分析框架三个技术基础部分:数据存储、数据处理和数据展示

数据存储与分析引擎——ClickHouse

使用简单的SQL语言;宽表查询速度非常快,全球第一;ClickHouse整体部署和维护安装比较简单,在数据量不是特别大的时候,一台服务器就可以搞定,普通的运维人员就可以维护。

数据处理与调度平台——Apache DolphinScheduler

全部都是可视化的配置,非常稳定易扩展,底层使用云原生技术

数据展示工具——EChart

目前市面上最全的展示工具之一

你可能感兴趣的:(数据分析,机器学习,数据挖掘)