在本指南中,我们将分享65种免费的数据科学资源,我们已经为初学者精心挑选和注释。
要成为数据科学家,您将面临巨大的挑战。您需要掌握各种技能,从机器学习到业务分析。
但是,奖励是值得的。组织将奖励那些能够将原始数据转化为更明智的决策,更好的产品,更快乐的客户以及最终获得更多利润的炼金术士。此外,您将解决有趣的问题并掌握新的,有影响力的技术。
如果这听起来像你喜欢的职业,那么请将此页面加入书签并继续阅读,因为我们只为您编制了此列表。
提示:以下内容皆为全英文,请量力而行。
数据科学资源
- 基础技能
- 技术能力
- 商业技能
- 补充技能
- 实践
* 注意:高级,适当位置或行业特定技能
某些角色可能需要其他技能,例如:
深度学习,大数据,优化,异常检测,图形和网络模型,定量金融,研究领导力,项目管理,产品设计,软件工程,空间数据分析等......
在本指南中,我们将仅涵盖整个行业最常需要的技能。
1.基础技能
基础技能构成了真正理解的基础,这反过来又可以让您发现新颖的解决方案,构建更准确的模型,并做出更好的决策。
1.1.编程和数据纠缠
首先,您需要至少了解一种脚本语言,以便与数据集,原型模型和执行分析进行纠缠。
我们强烈建议在Python或R之间进行选择,因为它们既是开源的(免费的),也是广泛采用的,并且受到活跃社区的支持。他们每个人都有自己的优势,但我们建议一开始只选一个。
- Python在软件初创公司,大型科技公司和adTech中更为常见。Python往往更灵活,因为它是一种通用的编程语言。它对于深度学习和处理数据也更好。
- R / RStudio在研究,财务和分析方面很受欢迎。R是一种统计编程语言,具有用于计量经济学,统计学和机器学习的成熟库。
- 我们还为数据科学编写了一个更详细的Python与R的比较。
如果你仍然处于困境,我们建议从Python开始,因为它的广度和灵活性(而且它更适合初学者)。
提示:下面的每个资源链接都会在新标签页中打开,因此您不会丢失您的位置。
Python资源:
- 艰难学习Python(在线书籍) - 推荐给想要使用Python编程的完整课程的初学者。
- LearnPython.org(交互式教程) - 为那些只需要快速获取Python语法的人提供简短的交互式教程。
- 如何像计算机科学家一样思考(交互式书籍) - 用Python教授的交互式“CS 101”课程,真正关注解决问题的艺术。这超出了开始所需的最低限度,但它是如此美妙的宝石,我们必须将它包含在这里。
- PythonChallenge.com(在线拼图) - 有趣的拼图33级,你可以用Python编程解决。
- 如何学习数据科学的Python,自学者的方式 - 我们的指南更详细地介绍了这些资源。
- SQL,Python和机器学习初学者指南 - 我们与大会合作,为您简要介绍这些核心技术如何为现代企业提供动力。
R / RStudio资源:
- R for Data Science(在线书籍) - 推荐给想要使用R完成数据科学完整课程的初学者
- Swirl(交互式R软件包) - 非常酷的R软件包,您可以直接从RStudio(用于运行R的最常用接口)内部安装和学习语言。
- R(视频系列)数据科学简介 - 对于那些通过观察其他人完成步骤而学习更好的人。
1.2.统计与概率
强大的统计基础可帮助您充分了解机器学习,条件概率,A / B测试以及许多其他核心技能。它还可以帮助您“像数据科学家一样思考”,其中包括发现偏差,有效地迭代预测模型,以及了解如何从数据中提取洞察力。
此外,学习常见概率分布(特别是高斯,二项式,均匀,指数,泊松)对于实现许多实际应用至关重要,例如多臂强盗,市场购物篮分析和异常检测程序。
- 统计与概率(可汗学院) - 可汗学院的统计学和概率实用介绍。建议快速加速。
- 哈佛统计110:概率(视频系列) - 从哈佛大学严格处理概率论。建议用于建立更深层次的掌握。
- Think Stats:程序员的概率和统计(PDF) - 具有编程背景的人员的优秀资源。引用:“本书的论点是,如果你知道如何编程,你可以使用这种技能来帮助你理解概率和统计数据。”
- 基础统计学速成课程(PDF) - 简短的PDF,涵盖关键主题的旋风式复习。我们喜欢这篇评论表,因为它对每个概念都有简单直观的解释。
- 如何学习数据科学的统计数据,自学者的方式 - 我们的指南更详细地介绍了这些资源。
2.技术技能
数据科学就是将原始数据转换为洞察力,预测,软件等。因此,您需要熟悉数据处理。
核心技术技能包括收集,清理,管理和可视化数据,以及应用机器学习的大棒。
2.1.数据采集
一切都取决于数据的质量和数量。正如化学家需要合适的化学品一样,您需要相关数据。
收集数据有4种常用方法:
- 内部数据。 这是贵公司通过其运营或与其他提供商合作收集的专有数据。这通常是最相关的数据。
- 在线搜索。需要一套标有800万个视频的视频吗?有一个网页... 说真的,你会惊讶于你能找到的东西。在线数据集允许您在投资专有数据之前进行原型设计。
- 蜜蜂。 API允许您以编程方式(并合法地)访问其他公司收集的数据集。您可以找到从Twitter提要到天气数据到财务数据的任何内容。
- 网页搜罗。Web爬行和抓取是一个必须负责任地使用的强大工具。它打开了一个全新的世界,但请务必尊重服务条款。
API资源:
- Python:请求快速入门指南(教程) - 如何使用 请求库从API请求数据。
- R:httr快速入门指南(教程) - 如何使用 httr库从API请求数据。
网页搜寻资源:
- R:rvest(教程) - 使用rvest库进行基本的网络抓取 。
- Python Web Scraping库 - 我们对Python Web抓取环境的概述。
2.2.SQL
SQL是数据库管理和查询的通用语言,您应该能够编写复杂的查询。
学习SQL还可以更好地理解关系数据(即“表格”格式的数据),这将提高您在任何语言中的数据分析技能。
- 可汗学院的SQL简介(课程) - 涵盖每个重要SQL主题的综合视频系列。
- sqlcourse.com(交互式教程) - 非常适合使用评论或快速速成课程。
- SQL基础知识(课程) - 涵盖SQL基础知识的课程。包括测试您的理解的测验。
2.3.数据可视化
数据可视化对于探索性分析和传达您的见解非常重要,没有此主题,任何数据科学资源列表都不会完整。
原始数据可能难以解释,因此您需要使用图表和图表来调查趋势和分布。
- Python中的数据可视化(视频系列) - 在Python中使用matplotlib库的教程 。
- R中的数据可视化(视频系列) - 在R中使用ggplot库的教程
- Python Seaborn教程 - 我们的 Python中的 seaborn 库教程 ,我们强烈建议初学者使用。
2.4.应用机器学习
机器学习是一个包含许多子任务的广泛术语。简而言之,它是关于教授计算机如何从数据中学习模式和模型。
对于某些人来说,机器学习是数据科学的同义词,但我们认为它是一个与数据科学重叠的独立领域。毫无疑问,机器学习是一个强大的工具集,它是这个列表中最狡猾的技能。
- Andrew Ng的机器学习(视频系列) - 这是学习机器学习课程背后理论的黄金标准。
- 统计学习要素(PDF) - 参考文本。 这是该行业的经典教科书之一,但它需要扎实的数学背景。
- R中的统计学习导论(PDF) - 参考文献。另一本经典教科书,具有更温和的数学要求。
- 如何学习机器学习,自学者的方式 - 我们对机器学习环境的初学者概述。
- 数据科学入门 - 我们关于数据科学和机器学习工作流程的免费迷你课程。
- 现代机器学习算法:优点和缺点 - 我们简要介绍机器学习算法。
- Python机器学习教程 - 我们使用Python的 Scikit-Learn库培训您的第一个模型的端到端教程 。
3.商业技能
数据科学课程有时会忽略商业技能和软技能,但它们非常重要,雇主会关注它们。
数据科学永远不会在真空中进行。您需要预测业务需求,创造性地思考解决方案,并清楚地传达您的见解。
随着机器学习库的成熟和算法变得更容易“开箱即用”,企业将重视那些可以处理数据 并与人合作的人。我们的数据科学资源列表的这一部分将帮助您脱颖而出。
3.1.通讯
如果一棵树落在森林里,但周围没有人听到它,它会发出声音吗?如果分析数据但没人能解释结果,那真的重要吗?
有效的沟通技巧是普遍的,但数据科学家在讨论高技术或数学主题时面临着额外的挑战。
在数据科学家访谈期间,您经常会被要求“向外行解释一个技术概念”或“描述您之前曾参与过的项目”。雇主将专门寻求清晰,简洁和组织。
- 你见过的最好的统计数据(TED演讲) - 这是一个标志性的TED演讲和有趣的数据故事展示。
- 快速思考,智能谈话(视频) - 这是斯坦福大学商学院关于如何克服焦虑和自发说话的研讨会。这不仅可以帮助您完成其余的职业生涯,而且还可以让您在面试中脱颖而出。
- 改善沟通的7个技巧(视频) - 关于如何有效沟通的简单实用技巧。
- 如何赢得朋友和影响人(PDF),(免费有声读物版) - 这是一本我们推荐给任何人,数据科学家与否的书。虽然一些措辞有点陈旧,但关于人际关系的教义是永恒的。
- 练习向朋友教授技术概念 - 这将有助于您巩固对概念的理解,同时获得有价值的沟通实践。尝试解释一个有趣的机器学习算法,包括它的优点,缺点和正确的用例。
- 练习描述您已完成的项目 - 这将帮助您练习将数据科学的许多活动部分组织成连贯的叙述。
3.2.创意与创新
聘请数据科学家来构建新产品,执行复杂分析,并发明有价值的数据使用方法。
事实上,他们很少两次解决同样的问题。即使您可以将相同的方法应用于相邻的数据集,您也需要对功能工程,补充数据和业务影响充满创意。
随着您获得更多经验,您自然会成为更好的创意思维者,但以下资源可以帮助您快速启动解决问题和创新技能。
- 机器智能和数据产品(视频) - 数据产品和数据科学的前瞻性讨论。
- 机器智能景观(图表) - 风险投资家对机器智能应用领域的看法。
- 创新艺术(TED演讲) - 由Guy Kawasaki撰写的关于创新的伟大TED演讲。
- 创造性思维的7个步骤(TED演讲) - 从连续艺术家和企业家的角度来看创造性思维提示。
- 向后工作以解决问题(TED演讲) - 国际象棋大师莫里斯阿什利如何看待最后阶段并向后工作。
3.3.业务运营和战略
这是一个你应该每天问自己的问题:“我有什么方法可以改善这项业务?”
在一天结束时,公司不会雇用您来分析数据......他们雇用您来帮助他们成长或变得更有利可图。这意味着您应该了解数据如何帮助您做出更好的决策并构建更好的产品。
- 数据驱动决策(视频) - 如何实现业务目标,从中提取可测试假设,然后设计实验以进行评估。
- 如何通过DJ Patil(视频)进行数据驱动并构建出色的产品 - DJ Patil在成为美国首席数据科学家之前的讲座。
- 大数据:Hal Varian的计量经济学新技巧(PDF) - Google的首席经济学家Hal Varian对数据分析的技术和方法论概况进行了精彩的概述。
- 数据将如何改变业务(TED演讲) - 对业务战略和技术之间关系的发人深省的讨论。解释为什么两个长期存在的商业战略理论因大数据的兴起而失效。
- Victor Cheng的案例访谈工作室(视频系列) - 一些雇主喜欢在访谈期间提出咨询式的“案例”问题。这在数据科学家的业务运营,战略或分析角色中更为常见。这是一个关于案件访谈的优秀速成课程。
3.4.商业分析
业务分析技能对于担任运营角色的数据科学家至关重要。由于编程语言的灵活性,Python和R将允许您执行比Excel更复杂的分析。
掌握了技术工具后,构建强大的领域知识将带来更大的业务影响。
- 业务分析简介(视频) - 简要介绍企业如何使用分析,包括案例研究。
- 营销指标和分析(视频) - 在营销中使用的常见指标和分析方法简介。
- 使用市场篮分析(教程)进行有效的交叉销售 - 如何实现更智能的交叉销售。
- A / B测试直观指南(视频) - A / B测试和解释概述。
- 25业务KPI的示例(示例) - “测量的内容得到管理”。以下是25个业务关键绩效指标(KPI)的示例。
- 谷歌分析学院(课程) - 数字分析,电子商务分析和其他主题的实用课程。
4.补充技能
补充技能取决于角色,更具有情境性,但它们可以帮助您成为一个全面的数据科学家。以下是NLP,推荐系统和时间序列分析的数据科学资源。
4.2.自然语言处理(NLP)
自然语言处理(NLP)或文本挖掘是一个令人兴奋的机器学习子领域,用于从文本中提取结构,语法和见解。
着名的应用包括情感分析,文章分类,甚至教授神经网络来编写莎士比亚。
- 斯坦福大学NLP(视频系列) - “传统”自然语言处理全套课程,包括情感分析,朴素贝叶斯模型,n-gram等。
- CS224D:自然语言处理的深度学习(课程),(课程材料) - NLP深度学习理论介绍。
- Python NLP库 - 我们对NLP的Python库的概述。一旦掌握了基本的编程技巧并对应用的机器学习有了深刻的理解,你就可以直接跳到这里。
4.3.推荐系统
推荐系统或协作过滤器是数据科学的重大成功案例之一,尤其是在电子商务领域。
它们为许多令人惊叹的网站和应用提供支持,包括亚马逊,Yelp,Netflix和Spotify。简而言之,推荐系统会找到与您有相似品味的其他用户,为您提供更好的建议。通过改善用户体验,同时提高收入,这将产生巨大的双赢。
- 推荐引擎教程(视频系列) - 使用Python的协作过滤器简介。在解释算法背后的直觉方面做得非常好。
- 推荐系统(视频系列) - Andrew Ng讨论协作过滤器背后的理论和数学。如果你有线性代数的背景,那么数学会更加重要,并且会更容易理解。
- 使用Python进行协作过滤(教程) - 在Python中实现音乐推荐系统的参考教程。
- 使用R(教程)进行协作过滤 - 与上一个相同的教程,除了在R.
4.3.时间序列分析
时间序列分析处理按时间索引的数据系列。例如,按小时计算的股票价格,降水量和Twitter主题标签都将被视为时间序列。时间序列分析通常用于财务,预测和计量经济学。
虽然许多机器学习涉及“横截面数据”(数据不考虑时间差异),但也有专门设计用于处理时间序列的模型。
- 时间序列(课程材料) - 俄勒冈州立大学时间序列课程的讲座幻灯片,家庭作业和R代码。
- 时间序列R小书(在线书籍) - 使用R进行时间序列分析的非常实用的逐步介绍。包括每个步骤的代码和输出。
- 使用Python进行时间序列预测(教程) - 使用Python执行时间序列可视化,分析和预测的教程。
- 季节性ARIMA与Python(教程) - Python中的ARIMA模型简介。包括所有代码。
- 统计预测,Fuqua商学院(在线图书) - 杜克大学Fuqua商学院教授的统计预测课程的课程笔记。
5.练习
实践项目有两个主要目的:
- 它们可以帮助您巩固概念,并将所有动态的数据科学整合在一起。
- 他们用一些有形的东西给你带来雇主。 如果一张图片价值1000字,一个项目价值一百万......
从本质上讲,项目是个人事业,您应该选择您感兴趣的主题。以下是一些可以找到项目想法的地方:
- 6个有趣的初学者机器学习项目 - 我们为初学者提供的6个有趣的机器学习项目创意列表。
- 预测泰坦尼克号生存(Kaggle比赛) - Kaggle是一个举办数据科学比赛的网站,其中许多都是初学者友好的。泰坦尼克号生存预测挑战是一个经典的,有Python和R的详细教程。
- 黑客等级(编程挑战) - 简短的编程挑战,有助于提高技能,而不需要更长的项目。
原文链接:https://elitedatascience.com/data-science-resources