▼
更多精彩推荐,请关注我们
▼
编译:Fisher
很多人认为学习数据科学是一个线性过程。事实上,它是个有些凌乱的发展过程,更像是一系列平台期构成的。
普遍以为的学习曲线vs真实的学习曲线
幸运的是,已经有一个相当不错的一般性的学习模型,解释了这些平台期是如何起作用的。这个模型是Noel Burch在20世纪70年代创造的,又由Robert Greene在《Mastery》一书中进行了扩充。
根据这个模型的框架,我们的学习要经历五个阶段:从无意识的未掌握,到有意识的未掌握,到有意识的掌握,到无意识的掌握,最后是精通。学习数据科学同样遵循这个过程。
Noel Burch和Robert Greene提出的学习五阶段
在这篇文章里,作者会在数据科学的语境下解释学习的每个阶段,并将谈谈他在每个阶段的经验,以及发现的一些捷径——从一个阶段突破瓶颈到下一阶段的最快方法。
阶段一:无意识且未掌握(完全新手期)
在这个级别,你刚刚开始进入数据科学领域。你几乎没有什么编程或统计学方面的经验。这个阶段的学习者一般会过度自信。很多人认为学一两门课程就能掌握这个领域。
这也是我刚出校门时的感觉。有几门经济学课程打底,我觉得自己已经准备好进入体育分析领域了。学习数据科学只是顺理成章的下一步。从高处俯瞰,这个领域似乎很简单:你只需要找到数据中的趋势以获得一些洞察,简单吧?
不用说,我完全想错了。开始学习编程后,我陷入了无望的迷茫当中。我开始整合自己需要学习的所有各种概念,而这个任务有时简单,有时极度艰巨。
为了从阶段一进入阶段二,你需要初步理解什么是数据科学,掌握它需要懂得哪些编程和数学概念。我推荐看一些YouTube视频、接触一些Python编程来达到这种理解。
一旦你开始觉得编程和数学的世界大到让人不知所措,你已经到了第二阶段。在这个阶段,很多人都会卡住,甚至放弃。此时,你开始知道数据科学的水有多深。要学的东西太多了,不知道从哪下手。
走通这个阶段的关键,是把数据科学分解成若干小步。你需要从某处开始。在最基本的层面上,你需要懂一些编程(Python或者R)和简单的统计学。找一些在线资源来了解这些方面。我推荐学一些免费的编程或数据科学课程(kaggle.com的微课程是我的最爱)。
在这个阶段缓解我的不知所措的,是我关于自己为什么要学习这个领域的思考。我脑海里有一个具体的项目。我想要构建一个模型,来改进我当时在玩的daily fantasy sports的结果。如果我只专注于建模所必需的技能,我就可以让数据科学显得范围小很多,也更可控。
注:daily fantasy sports,是一种虚拟和现实结合的体育游戏,玩家可以扮演球队经理,选择真实球员组成自己的球队,球队积分根据球员在真实世界中的比赛表现来判定。
要想进入下一阶段,我建议就一个具体问题进行开发和打磨,这样可以让你的学习范围更小。相较于学习整个的数据科学领域,了解完成单个的项目需要学什么是更容易的。做一个小项目也没有“学习python”或者“学习统计学”那么令人生畏,因为后者过于宽泛和模糊。在早期阶段,你真的只要有编程和统计学的基础知识就可以进行数据科学的实践。如果你能做几个小项目,你就顺利上路了。
我也建议你在kaggle上研究一下别人的代码。你可能完全看不懂,但是不要慌。渐渐地,你会开始能理解它们,而读大量代码就是这个过程的起点。把你看到但不懂的术语、包和算法列个清单。每天研究其中的几个,尝试把它们弄明白。你会惊讶于你在几周内就能走出很远。
阶段三:有意识的掌握(轻度危险期)
至此,你已经做了几个不同的项目,在这些项目中,你已经学会了如何实现具体的算法。你现在有了一些可以参考的代码!
当我处于该阶段时,我收集了所有我常用的代码片段,把它们放到一个主文档中。我不必记住每一件事怎么做,只要参考这个“怪物”文档就可以了。这使我能够以更快的速度完成更多的项目。你可能觉得这像作弊,但我认为此时应专注于实现,而非语法。你应该尽可能多做一些项目,好用上你在研究中遇到的所有各种算法。
在应用过这些概念之后,你应该去了解它们的工作原理。在这个阶段,我开始读研究生了。在我修的课程里,我们被要求从零开始编写大部分算法。我认为这对所有的数据科学家而言都是非常好的实践。虽然我在用matlab编写一个神经网络时留下了一点“心理创伤”,但这绝对值得。正是通过编写这些算法,你开始了解各种不同方法所需要的输入和约束条件,以及它们的局限性。
从第三阶段走到第四阶段没有诀窍。能让你跨过门槛的是练习,持续的练习。
当你到达阶段四时,你知道遇到问题怎么做了。你不必再参考你的“怪物”代码库,你可以开始专注于优化你的问题解决方案。此时,你将专业技能和行业直觉与你的工作相结合,为你面对的挑战创造出最优解。
我相信,这才是数据科学的艺术得以发挥的地方。你不再只是专注于解决一个问题,而是要创造一个优雅而可持续的解决方案。你把更多的时间花在关键特征选取、模型参数调节和项目的最终部署上。你也会与业务的相关方更紧密地合作,以确保你提供的服务发挥其最佳效果。
我觉得自己仍在第三阶段和第四阶段之间不断徘徊。
阶段五:精通(贡献期)
在这个层次,你已接近于精通该领域的某些方面。就数据科学而言,我不认为有人真的可以掌握整个学科。但是你能通过发现新算法或新的解决问题的方法来推动领域的前进。
这个阶段带有虚幻色彩,我认为很少有人能达到这个高度。我想说的是,这一类的人大部分被吸引到学术界,更注重研究,而非业务的具体实现。
最后的一些想法
我希望这个框架能帮助你用新的视角来评估自己的数据科学学习之旅。我也希望它能给你一份扎实的路线图,让你的数据科学知识更上一层楼。根据我的体验,学习数据科学是个漫长的过程,但也是个令人愉快的过程。
相关报道:
https://towardsdatascience.com/the-stages-of-learning-data-science-3cc8be181f54
2020年6月28日