读书计划-数据分析实战45讲 | 01丨数据分析全景图及修炼指南 20181223

    一,什么是数据分析?

这里我可以把数据分析分成三个重要的组成部分。

1. 数据采集。

2. 数据挖掘。它可以说是最“高大上”的部分,也是整个商业价值所在。之所以要进行数据分析,就是要找到其中的规律,来指导我们的业务。因此数据挖掘的核心是挖掘数据的商业价值,也就是我们所谈的商业智能 BI。

3. 数据可视化。

数据采集

在数据采集部分中,你通常会和数据源打交道,然后使用工具进行采集。

在专栏里,我会告诉你都有哪些常用的数据源,以及如何获取它们。另外在工具使用中,你也将掌握“八爪鱼”这个自动抓取的神器,它可以帮你抓取 99% 的页面源。当然我也会教你如何编写 Python 爬虫。掌握 Python 爬虫的乐趣是无穷的。它不仅能让你获取微博上的热点评论,自动下载例如“王祖贤”的海报,还能自动给微博加粉丝,让你掌握自动化的快感。

数据挖掘

第二个部分是数据挖掘,它可以说是知识型的工程,相当于整个专栏中的“算法”部分。首先你要知道它的基本流程、十大算法、以及背后的数学基础。

这一部分我们会接触到一些概念,比如关联分析,Adaboost 算法等等,你可能对这些概念还是一知半解,没有关系,我会详细为你介绍这些“朋友”。

每讲完一个算法原理,我都会带你做一个项目的实战,我精选了一些典型的、有趣的项目,比如对泰坦尼克号乘客进行生存预测、对文档进行自动分类、以及导演是如何选择演员的等等。

掌握了数据挖掘,就好比手握水晶球一样,它会通过历史数据,告诉你未来会发生什么。当然它也会告诉你这件事发生的置信度是怎样的,置信度这个词你先记住就可以了,后面我们来学习它具体代表什么。

数据可视化

第三个就是数据可视化。数据往往是隐性的,尤其是当数据量大的时候很难感知,可视化可以帮我们很好地理解这些数据的结构,以及分析结果的呈现。

如何进行数据可视化呢?有两种方法。

第一种就是使用 Python。在 Python 对数据进行清洗、挖掘的过程中,我们可以使用 Matplotlib、Seaborn 等第三方库进行呈现。

第二种就是使用第三方工具。如果你已经生成了 csv 格式文件,想要采用所见即所得的方式进行呈现,可以采用微图、DataV、Data GIF Maker 等第三方工具,它们可以很方便地对数据进行处理,还可以帮你制作呈现的效果。

数据采集和数据可视化的原理简单,容易理解。这两个部分注重的是工具的掌握,所以我会把重点放在讲解工具以及应用实战上。

我认为学习数据分析最好的方法是:在工具中灵活运用,在项目中加深理解。

修炼指南

人与人最大的差别在于“认知”,所谓成长就是认知的升级。

我们只有把知识转化为自己的语言,它才真正变成了我们自己的东西。这个转换的过程,就是认知的过程。

那么如何提升自己的学习吸收能力呢?简单地说,就是要“知行合一”。

如果说认知是大脑,那么工具就好比我们的双手,数据工程师和算法科学家每天打交道最多的就是工具。

如果你开始做数据分析的项目,你脑海中已经思考好了数据挖掘的算法模型,请牢记下面这两点原则。

1. 不重复造轮子

一个模型是否有相关的类库可以使用——这几乎是每个程序员入行被告知的第一条准则。

2. 工具决定效率

工程师会选择使用者最多的工具。因为:Bug 少、文档全、案例多。

比如 Python 在处理数据挖掘上就有很多第三方库,这些库都有大量的用户和帮助文档可以帮助你来上手。

在后面的课程里,我会给你介绍最常用的工具,这些工具会让你的数据挖掘事半功倍。

选择好工具之后,你要做的就是积累 “资产”了。我们很难记住大段的知识点,也背不下来工具的指令,但是我们通常能记住故事、做过的项目、做过的题目。这些题目和项目是你最先行的“资产”。

如何快速积累这些“资产”呢?这里我送你三个字:熟练度。

把题目完成只是第一步,关键在于训练我们工具使用的“熟练度”。

总结

认知三步曲,从认知到工具,再到实战,是我最想给你分享的学习建议。

他们很听老师的理论,但是这些理论最后又都还给了老师。所以我希望你在后面的 15 周学习里可以做到以下几点。

* 记录下你每天的认知。尤其是每次课程后,对知识点的自我理解。

* 这些认知对应工具的哪些操作。用工具来表达你对知识点的掌握,并用自己的语言记录下这些操作笔记。

* 做更多练习来巩固你的认知。你需要的就是更多的练习。

最后我想问你个问题,就当做个小调查吧,你平时是怎么学习的呢?会做学习笔记吗?期待在留言区看到你的答案。也欢迎你把今天的内容分享给身边的朋友,和他一起学习。

写留言

精选留言

Alex王伟健

5

推荐幕布,可以直接生成思维导图哈,数据分析也可以用导图,分享也挺方便,多叉树穷举各种可能的业务情况:https://mubu.com/doc/85OdlVv3W0

2018-12-18

 作者回复

很不错的分享!大家做笔记的时候 也可以试试

2018-12-18

草莓味冰糕

1

我主要的学习方式是依靠学习圈子,网易云课堂视频,还有各种专栏。平时也会做一些笔记,印象笔记软件也用了有一年多了,主要靠markdown语法做详细记录,xmind做导图整理框架,看了这一讲,感觉自己的学习方向大概还是对的,我最开始是学的Python基础,Python爬虫,《利用Python进行数据分析》。现在的状态是狂补统计学等数学基础,下一步准备进行商业思维训练相关学习,并准备打下机器学习基础。但是我的问题存在于两方面,第一是分享这一块我做的很差,为了弥补,最近也在学着开自己的知乎专栏和公众号,目的是为了把我这一年以来学的杂七杂八的东西串联整理起来。第二就是实战经验,我总想着学习完工具和思维再进行实战,但是这个月突然意识到实战是串联、应用与复习知识点的最佳途径。同时我也觉得这门可能对整理我所学有很大帮助。期望自己能在下一个半年成为一个合格的初级数据分析师。

2018-12-18

 作者回复

总结的很好,你没问题的!

知行合一,并不是个先后的顺序过程,就像你刚才说的:实战其实就是很好的学习,能让你理解工具使用和知识点。刚才有个同学分享了:自己写Demo是个非常好的体验,一起共勉

2018-12-19

勉勉同学

1

想转行互联网感觉需要编程,无意中接触Python,报了Python视频课程,又从课程中了解数据分析这个职业,觉得自己的个人兴趣适合做这个,不想做纯粹的码农。根据知乎的大咖介绍学习路径,各个击破,从统计,Excel,SQL都在努力学,重点内容记笔记,方便后续时间复习巩固,笔记能让自己回忆之前的内容帮助自己滤清思路。现在缺的就是实战经验和业务思维,希望这门课程给我帮助。

2018-12-18

 作者回复

对的,你对数据的重视是明智的。学习上,我会从不同维度让你和数据建立连接。包括:认知、工具和实战。这也会加强你对数据分析的认知

2018-12-18

A-M-Benchmarking

1

学了 可以把这个世界看的更清

2018-12-18

 作者回复

对 可以做slogan了

2018-12-18

jiemoon

1

我们现在的工作是不是也是在做作业,只是更复杂多变

2018-12-18

 作者回复

对!你的观点很不错。作业相当于平时的训练集,工作就是正式版的测试集

2018-12-18

AaronYu

1

我的学习方法是学纸质书时用笔记笔记,学习网络资源和付费课程我倾向于用 Markdown 记录,记录的过程我会强迫自己重新默写出来,最后,我会写公众号完整地梳理自己所学的知识。

2018-12-18

 作者回复

这种很赞啦!看、做、讲 三个维度都有了,大V加油

2018-12-18

JC

1

学习的过程中会记笔记,但是目前还在摸索如何高效笔记以及整合的问题。因为学习随时随地都在发生,如何管理零散想法和系统的知识笔记还没有很好的处理方式,所以经常有“烂尾”以及记下就“忘记”的情况。

2018-12-18

 作者回复

你说的这种情况,应该很多人都有!教你个小技巧:和别人约定个分享的时间,比如明天下午2点,给同事/同学做个主题分享,10分钟即可。这样就会把零散的知识变得系统,并且督促你不要“烂尾”

Iris

1

通过视频,博客,书籍进行学习,会做一些关键步骤的笔记,有时候觉得很浪费时间,但是,忘了的时候,重新翻出来看,就比重头找资料快

2018-12-18

 作者回复

对的 就像做数据表的时候不要忘记做索引,其实这个笔记工作才是最有效率的,因为这些知识不是一次性的,以后还要用到!

2018-12-18

circleyuan

1

老师你好,让我困惑的是数据分析这一行,如果要学得好,是不是需要不断去了解应用各种各种的语言、软件。我看很多数据分析岗位要求都不仅仅只是了解python这门语言,还要求r语言、sql等语言,工具的话还要求spss、sas等,可视化的还要熟悉tableau之类的软件,是不是在学习过程中都得广泛了解的呢?

2018-12-18

 作者回复

这些工具都是想通的,如果你会了python数据分析,也一定可以掌握R语言。数据分析是个广泛的领域,建议你逐块击破,在掌握了专栏内讲的工具之后,再拓展到其他的工具。

你可能感兴趣的:(读书计划-数据分析实战45讲 | 01丨数据分析全景图及修炼指南 20181223)