无小意
个人博客:无小意
知乎主页:无小意丶
公众号: 数据路(shuju_lu)
1.彻底结束之前预定暑假完成的天善学院课程《七周数据分析师》
2.总结《七周数据分析师》。
1.完成《七周成为数据分析师》任务
2.周总结与《七周数据分析师》一起完成。
唯有理解业务,才能建立完整的一套体系,简称业务数据模型。
想进入某个行业的数据分析,尽量需要一些业务知识,敲门砖。
模型未动,指标先行。
如果你不能衡量它,你就不能无法增长它
运用第一周的核心思维:结构化、公式化和业务化,形成指标。
指标建立的要点:
市场营销领域:
1.客户/用户生命周期
2.用户价值
RFM模型
具体看业务背景,确立RFM模型中的重心,进行更改和修正。
用户分群,营销矩阵
提取用户的几个核心维度,例如RFM,用象限法将其归纳和分类
AARRR框架
用户获取,用户活跃,用户留存,营收,传播
1.用户获取
2.用户活跃
3.用户留存
用户在某段时间内使用产品,过了一段时间后仍旧继续使用的用户。
4.营收
5.传播
1.用户行为
2.用户路径
路径图:用户在一次会话的过程中,其访问产品内部的游览轨迹,通过此,可以加工出关键路径转换率。
全产品路径如上,但是关注关键路径才重要。比如下单的路径,观察各个路径的情况,进行优化。
购物篮分析
1.游览量和访客量
PV:游览次数。以发起请求次数来判定
UV:一定时间内访问网页的人数,UV会通过cookie或IP的访问次数来判定次数
微信中的网页,UV是不准确的,微信不会保存cookies。
2.访客行为
来源:与多维分析相关,访客从哪里来,游览方式?手机机型?通过来源网站的参数提取。
退出率:从该页退出的页面访问数/进入该页的访问数(衡量网页产品结构)
组合!
从三个角度出发
本质是树形结构,从树形思维导图演变而来,但是加入闭环的循环结构。
遇到结构外的分析内容,在外面额外添加就行,如右上角。
分析各个节点,得到指标。例如,购物车分析:
指标结构框架如上,分析各个要点。
分析搜索流量:
有些指标在其他模型也有,模型之间没有严格界限,可以共同使用相同指标
怎么从空白数据分析需求开始?
新手,面对数据分析依然是没有思路进行分析?
练习
重点,在于练习。参考上面,如何锻炼数据分析思维。
例如,出门的夜市商铺、京东的电商产品框架、阅读资讯软件。
熟悉业务
从熟悉的入手培养业务sense
应用三种核心思维
打开Xmind思维导图,开始画画。
归纳和整理出指标
对于基本完整的思维导图,提炼出,复购率、活跃度和用户行为等等基本指标结合。
画出框架
PPT,等等其他软件。
检查、应用、修正
没有框架是完美的,在时间维度上需要检查。
应用和迭代
在工作中应用,先从小问题开始,再把各个小问题组合成大问题。
以科赛数据分析平台为例子,参考视频,设计了一个分析体系。
Excel常用于敏捷,快速,需要短时间相应的场景下是非常便捷的数据处理工具。
相对于语言类例如python和R等则用于常规的,规律的场景中应用,便于形成日常规则统计分析。
对于学习的路径:Excel函数—>SQL函数——>python
必知必会内容:保证使用版本是2013+;培养好的数据表格习惯;主动性的搜索;多练习
Excel常见函数
LOOKUP
VLOOKUP
INDEX:相当于数组定位
MATCH:查找数据在数组中的位置
OFFSET:偏移函数
ROW
COLUMN
HYPERLINK:去掉超链接
rand:随机数字,用来随机抽样使用
多条件就和和多条件计数的情况下是非常多的,所以countifs和sumifs用的是非常的多,基本能搞定所有的统计报表,达到实时统计。缺点就是数据量达到一定程度后,Excel运行会比较慢
时间的本质是数字
周函数中,中国的习惯方式参数常选择2
常用时间序列函数有:
快捷键
功能
数据切片:进行快速筛选(一般和多维分析关联在一起的),可以和作图工具进行相关联
应用场景:做统计报表和仪表盘的统计筛选功能
数据分析:直接对多想进行描述性统计
自定义名称:再次使用可对其直接引用
删除重复值:
下拉列表:
迷你图:
个人觉得主要还是在于实践当中的灵活运用,作为学习,掌握有什么样的函数用来做什么就可以了,工作中遇到的时候可能忘了怎么拼,但是能直接搜索把函数找出来用知道在哪里面找就好。当然,记得更多的函数好处就是能迅速的通过函数的用法把函数灵活的组合去解决问题。其实最重要的也是通过逻辑关系把各种函数进行组合去解决问题。
对于数据可视化,大多数人下意识是要好看,下意识的去追求美感,觉得高大尚。其实,美丽的图表应该是有用的图表。
数据可视化的目的是让数据更高效,让读者更高效的进行阅读,而不是自己使用。好的可视化能突出背后的规律,突出重要的因素,最后才是美观。
数据可视化的最终目的:数据作用的最大化。
核心:展现数据之间的规律
呈现出一定规律的散点图可增加趋势线,并通过选项将规律用公式表示出来。
改进图:
用面积区分大小,很多情况下肉眼是很难区分的,上图为玫瑰图—饼图的变种
数据量较大、数据类别较多时,能更好的体现数据分类情况。
绘制流量变动最开始,网站的流量,监视用户的行为分析,表示用户在网站上的行为轨迹,一对多或多对一的关系
数据上下波动可用折线图观察,但是中间的某种关系展示揭示特殊关系使用热力图则可看出来。
社交,社会媒体,微博的传播,用户和用户之间的关注等
揭示数据的分布情况
数据和空间的关系
1.颜色搭配
color.adobe.com上有多种主流颜色搭配
2.颜色搭配原则
3.次坐标轴的使用,使得数据能体现更多细节。
BI中的数据链接,最好直接连接数据库或者CSV文件,尽量不要xls文件。
power BI 的功能特点:
1.场景案例
2.指标结构案例
Dashbord是一个不断迭代的设计过程,需要根据目的,不断进化。
这里先放上菜鸟教程的Mysql:http://www.runoob.com/mysql/mysql-tutorial.html
遇到不会的内容,可以再进行查找复习。
SELECT column_name,column_name
FROM table_name
[WHERE Clause]
[LIMIT N][ OFFSET M]
select*form data.表名称 *,为通配符,代表全部
limit 20,限制搜索结果
order by,排序依据,可以设置多个依据。
where,对搜索结果进行一次过滤。其中可使用各种逻辑判断条件。模糊查找“%京%”
跨表分析,需要利用子查询。join可以用来跨表整合,join left常用
对于数据类型的改变,可以在select一行进行设置。
在实际用用的时候,有很多情况量纲不一致(即数据单位不一样)导致差异很大无法进行比较
用数据标准化将数据进行一定范围的压缩,得到的结果与数据业务意义无关,纯粹是数据上的波动达到可进行对比。
xi:数据的具体值
u:平均值
σ:标准差
标准化之后一般都是在0上下直接按波动的数字,就可以反应原始数据的典型特征进行分析。
但是,标准化的办法还需要根据实际数据类型确认,不同标准化办法的实际标准化意义不同。
关于销量等特征与时间的关系,需要从多个时间维度去分析才能得到更多结论。如,周期、月份和年份。
1.箱线图:描述一组数据的分布情况。
Excel中能直接对数据进行作图,并且还能添加许多对比条件。
2.直方图:数值数据分布的精确图形表示
标准型:分布均匀,出现在大多数场景下。
陡壁型:比较容易出现在收费领域
直方图引出另外一个概念:偏度,统计数据分布偏斜方向和程度的度量
正态分布:也称“常态分布”
以上公式成立是,有标准正态分布。
可以用来进行异常值排查,或者假设的数据分布。
统计推断(statistical inference),指根据带随机性的观测数据(样本)以及问题的条件和假定(模型),而对未知事物作出的,以概率形式表述的推断。
重要概念:贝叶斯定理
在知道结果A已经发生,想要推导出各种原因发生的可能性情况。
贝叶斯分析的思路对于由证据的积累来推测一个事物发生的概率具有重大作用, 它告诉我们当我们要预测一个事物, 我们需要的是首先根据已有的经验和知识推断一个先验概率, 然后在新证据不断积累的情况下调整这个概率。整个通过积累证据来得到一个事件发生概率的过程我们称为贝叶斯分析。
1.利用Python写脚本
2.excel可视化有性能瓶颈,需要Python来实现。
3.Python安装与数据分析相关如下
1.Python groupby
mysql不支持分组排序
2.concat和merge
concat是强行耦合
merge,是有共同名,优先表进行耦合
3.多重索引
4.文本函数
填充空值,None需要用np.nan,c语言形式的控制
pd.dropna()去除所有还有空值的行
5.Python pandas apply
6.聚合 apply
7。pandas数据透视
输出结果
7.python连接数据库
Pandas中读取数据库:
conn=pymysql.connect(
host='localhost',
user='root',
password='123456',
db='data_kejilie',
port=3306,
charset='utf8'
)
def reader(query,db):
sql=query
engine=create_engine('mysql+pymysql://root:123456@localhost/{0}?charset=utf8').format(db))
df=pd.read_sql(sql,engine)
return df
reader
cur.execute('select * from article_link ')
data=cur.fetchall()
cur.close()
conn.commit()
可视化课程没有进行记录,详情可以参照
https://www.kesci.com/apps/home/project/5a6cac37afceb51770d6ee9f
中的可视化代码展示。
https://www.kesci.com/apps/home/project/5aa687afcbc87e3f21332885
利用课程提供的数据集,简单分析练手了一下。
本次使用的是Python中的superset库,基于web的数据分析平台。
严重提示:安装这个库一定要新建一个虚拟环境后再进行pip安装,不然会使得依赖库和Anaconda中的部分库冲突,使得原环境的库无法正常调用
使用逻辑:
详情安装可以参考这篇文章:
http://blog.csdn.net/qq273681448/article/details/75050513
《七周成为数据分析师》课程终于学习完,整理、总结并且回顾了一遍,写下这一篇文章。课程整体偏向整体性的介绍,对常用部分才做一个实现与技巧的具体讲解,整体有轻有重,对于完成的新手来说还是比较不错的课程进行入门了解与基础学习。
前两周的内容,个人认为是比较重要的,数据分析的思维在每一周的学习中都能有所体现。前面两周,我是按照正常速度进行观看,并且做一定笔记。但是,在到了Excel部分后发现视频的节奏有些慢,自己的耐心也有了一些降低,后来自己尝试将视频播放速度调整至两倍,对于学习的注意力集中起到了不错的效果,推荐各位可以尝试使用这种方法。
《七周成为数据分析师》这个课程从寒假2月份就决定要学,计划3月5号即开学前完成,但是直到3-11开学后一周才彻底完成。对于计划的执行情况不好,需要在以后学习中继续调整规划策略,端正态度。但是,最后还是把规划完成了!还是给自己点个赞,哈哈。
写成总结文章也是希望有需要的人能通过此得到些帮助,自己也能从中总结与整理知识。本文会发布在个人公众号:数据路(shuju_lu),知乎:无小意丶,博客:无小意。以后也会继续在这些平台上,输出更多有价值的内容,欢迎讨论与学习。