干货 :2018年最受欢迎的15篇数据科学和机器学习文章(Analytics Vidhya)

作者:Pranav Dar;翻译:陈之炎;校对:丁楠雅;

本文约4200字,建议阅读10+分钟。

本文为你整理了多个高质量和受欢迎的数据科学培训课程、学习文章及学习指南。


简介

Analytics Vidhya是由Kunal发起的一个数据科学社区,上面有许多精彩的内容。2018年我们把社区的内容建设提升到了一个全新的水平,推出了多个高质量和受欢迎的培训课程,出版了知识丰富的机器学习和深度学习文章和指南,博客访问量每月超过250万次。

当拉上2018年的精彩帷幕之时,我们想和社区的读者来分享这一年中的精彩华文。本文也是该系列文章的一部分,希望你能喜欢。其他几篇回溯性文章见:

A Technical Overview of AI & ML (NLP, Computer Vision, Reinforcement Learning) in 2018 & Trends for 2019:

https://www.analyticsvidhya.com/blog/2018/12/key-breakthroughs-ai-ml-2018-trends-2019/

The 25 Best Data Science Projects on GitHub from 2018 that you Should Not Miss:

https://www.analyticsvidhya.com/blog/2018/12/best-data-science-machine-learning-projects-github/


干货 :2018年最受欢迎的15篇数据科学和机器学习文章(Analytics Vidhya)_第1张图片


在这个文集中,我总结了每一篇文章,并根据它们各自的领域进行了分类。每一篇文章还包含对内容的总结。如果你有其他你觉得特别有用的文章,请在下面的评论框中告诉我们。

现在,我们来看看2018年在Analytics Vidhya上的那些最受欢迎程的文章吧!

本文所涵盖的专题

一、机器学习与深度学习-终极二重奏

二、商业智能与数据可视化

三、数据科学方向的职业

四、自然语言处理(NLP)

五、播客

一、机器学习与深度学习-终极二重奏

1. Scratch构建推荐引擎的综合指南(用Python语言)

https://www.analyticsvidhya.com/blog/2018/06/comprehensive-guide-recommendation-engine-python/


干货 :2018年最受欢迎的15篇数据科学和机器学习文章(Analytics Vidhya)_第2张图片


推荐技术已经存在了几十年(不是几百年)。机器学习的兴起无疑加速了这些技术的进步,我们已经不再需要依靠直觉,手动地对行为进行监控——只要把数据和正确的技术有机结合起来,瞧!你便有了一个非常高效和划算的组合。

本文是你在这个主题中能找到的最全面的指南之一。它涵盖了各种类型的推荐引擎算法以及在Python中创建它们的基本原理。Pulkit首先解释了什么是推荐引擎,它们是如何工作的。然后用Python(使用流行的MovieLens数据集)进行了一个案例研究,并利用它解释了如何构建特定模型,他关注的两项主要技术是协同过滤和矩阵因式分解。

一旦建立好了推荐引擎,该如何评估它呢?我们怎么知道它是否按照我们的计划运作呢?Pulkit展示了六种不同的评估技术来验证我们的模型,从而解答了这个问题。

2. 24个可以提高你的知识和技能的终极数据科学项目(&可以自由访问,无需付费)


https://www.analyticsvidhya.com/blog/2018/05/24-ultimate-data-science-projects-to-boost-your-knowledge-and-skills/


干货 :2018年最受欢迎的15篇数据科学和机器学习文章(Analytics Vidhya)_第3张图片

这是Analytics Vidhya有史以来最受欢迎的文章之一。最初发布于2016年,我们的团队更新了来自不同行业的最新数据集。数据集被划分为三个职业级别-各个级别适合于职业生涯中的不同阶段:

  • 初级:这个级别主要使用易用的数据集,并且不需要复杂的数据科学技术

  • 中级:这个级别主要使用更富挑战性的数据集,它由中、大型数据集组成,要求具备一些高级的模式识别技能

  • 高级:这个级别最适合那些了解高级主题的人,如神经网络、深度学习、推荐系统等。

蛋糕上的糖霜呢?每个项目都有一个与之相关的教程!因此,无论你是想从scratch开始学习,还是被困在某个点上,或者只是想用一个分数来评估你的结果,你都可以将它标记为书签,迅速回到该教程之中。

3. 在Scratch中用Python理解和建立目标检测模型

https://www.analyticsvidhya.com/blog/2018/06/understanding-building-object-detection-model-python/

干货 :2018年最受欢迎的15篇数据科学和机器学习文章(Analytics Vidhya)_第4张图片


目标检测在2018年真正开始了起飞,它可以为自动驾驶汽车安全导航,使之顺利通过交通拥堵,在人群拥挤的地方发现暴力行为,协助运动队分析和建立侦察报告,在制造过程中确保质量控制等等,这些只是目标检测技术所涉及的表面而已,它能做到的事情远不止这些。

在本文中,Faizan Shaikh首先解释了目标检测是什么,然后再深入探讨解决目标检测问题的多种不同的方法。他从非常基本的方法开始,将图像分割成不同的部分,并在每个部分上使用图像分类器。在此基础上,对每个步骤进行了改进,最终展示了如何利用深度学习来构建端到端的对象检测模型。

如果这个话题吸引到了你,并且你正在寻找一个切入点开始你的深度学习之旅,我建议你去看看“利用深度学习的计算机视觉”课程。

4. 集成学习综合指南(附Python代码)

https://www.analyticsvidhya.com/blog/2018/06/comprehensive-guide-for-ensemble-models/

干货 :2018年最受欢迎的15篇数据科学和机器学习文章(Analytics Vidhya)_第5张图片

一旦我们掌握了基本的机器学习算法,接下来就是集成学习了。这是一个迷人的概念,并在本文中得到了非常好的解释。有大量的例子可以帮助把复杂的主题分解成容易理解的想法。

由于本指南的综合性,Aishwarya指导我们通过许多技术-bagging,boosting,随机森林,LightGBM,CatBoost等等,所有的信息宝库都集中在一个地方!

在黑客比赛中,你经常会遇到这种方法-它是一种已经被证实的、成为领头羊的方法。

5. 每个数据科学家必须使用的25个深度学习开放数据集

 

https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/

干货 :2018年最受欢迎的15篇数据科学和机器学习文章(Analytics Vidhya)_第6张图片

学习和吸收一个概念的最好方法是什么?学习理论是一个很好的开始,但是只有当我们真正理解这种技术是如何工作之后,我们才能从实践中真正学到东西。对于像深度学习这样广阔的领域来说,尤其如此。

训练技能的数据集并不短缺-但是应该从哪里开始呢?哪一组数据集最适合用来建立你的个人资料?你能得到特定领域的数据集来帮助你熟悉这一领域的工作吗?为了能够帮助到你,我们为你精心挑选了25个开放的深度学习数据集。

这些数据集分为三类:

  • 图像处理

  • 自然语言处理

  • 音频/语音处理

所以,选择你感兴趣的领域,从今天起就开始吧!

6. 12种降维技术的终极指南(附Python代码)

 

https://www.analyticsvidhya.com/blog/2018/08/dimensionality-reduction-techniques-python/

干货 :2018年最受欢迎的15篇数据科学和机器学习文章(Analytics Vidhya)_第7张图片

啊,维度的诅咒。能有更多的数据固然好,它有助于构成一个足够大的训练集。但正如大多数数据科学家所证实的那样,拥有过多的数据最终会让人头疼。当面对一个拥有1000个变量的数据集时,应该做什么?要在粒度级别上分析每个变量是不太可能的。

这就是降维技术会如此重要的原因。在不丢失(太多)信息的情况下减少特征的数量是我们共同努力的目标,降维是一种非常有效的方法,Pulkit在这篇文章中对此做了全面的展示。他讨论了12种降维技术,以及它们在Python中的实现,其中包括主成分分析(PCA)、因子分析和t-SNE。

二、商业智能与数据可视化

1. 数据科学和商业智能专业人员的Tableau中级指南

https://www.analyticsvidhya.com/blog/2018/01/tableau-for-intermediate-data-science/

干货 :2018年最受欢迎的15篇数据科学和机器学习文章(Analytics Vidhya)_第8张图片

Tableau是分析手头数据的一个非常好的工具,它的功能不仅仅局限于生成漂亮的可视化图表——利用 Excel同样也可以实现类似的任务。

Tableau的扩展功能确实可以将智能放入到BI之中。

本文针对的是已经熟悉Tableau的基本功能,但是希望拓展对该工具的认识的用户。作者介绍了连接、数据混合、执行计算、分析和理解参数等主题。文中的华美描述,将使你更加想要立即启动Tableau!

如果需要快速复习一下Tableau,也可以先阅读Tableau初学者指南。

2. 数据科学和商业智能专业人员的Tableau高级进阶指南

 

https://www.analyticsvidhya.com/blog/2018/03/tableau-for-advanced-users-easy-expertise-in-data-visualisation/

干货 :2018年最受欢迎的15篇数据科学和机器学习文章(Analytics Vidhya)_第9张图片


在完成Tableau中级指南之后,接下来顺理成章地可以学习本指南。在这里,我们超越了Tableau的“ShowMe”(秀我)特性,探索出更为高级的图表。Pavleen雄辩地如是说-“这些高级图表的壮美令人兴奋和陶醉”。

这篇文章中涵盖多种不同类型的图表- Motion,Bump,Donut,Waterfall 和Pareto。此外,还介绍了Tableau中R编程的概念。当你希望将数据科学与BI结合起来时,这的确非常有用!

三、数据科学方向的职业

1. 最全面的数据科学与机器学习面试指南

 

https://www.analyticsvidhya.com/blog/2018/06/comprehensive-data-science-machine-learning-interview-guide/

干货 :2018年最受欢迎的15篇数据科学和机器学习文章(Analytics Vidhya)_第10张图片


把这些个指南放在一起真的很有趣。面试往往是数据科学家们面临的绊脚石,要想通过面试,需要一定的技能组合,如果你来自非技术背景(比如我),那么破解这些面试就变得更具挑战性了。

数据科学方向的面试通常会问什么样的问题?面试官要寻找的是什么?技术和软技能的正确结合是什么?如果没有做好充分的准备,这些都会让人望而生畏,这就是撰写这篇冗长而详细的指南背后的想法。

这个全面的帖子涵盖了多个主题与丰富的资源,包括数据科学和机器学习问题,特定工具的小测验,各种案例研究,谜题,猜测,甚至是几个引导你奔向终点线的真实的励志小故事!

2. 业余数据科学家所犯的13个常见错误及如何避免这些错误

 

https://www.analyticsvidhya.com/blog/2018/07/13-common-mistakes-aspiring-fresher-data-scientists-make-how-to-avoid-them/

干货 :2018年最受欢迎的15篇数据科学和机器学习文章(Analytics Vidhya)_第11张图片


有抱负的数据科学家在匆忙闯入这个领域时往往会犯很多错误,我同样在这个领域也出过很多错,在这篇文章中,记录了13个我见过的业余数据科学家所犯的常见错误。相信我,成为一名数据科学家是一条艰难的道路,而你并不是唯一犯这些错误的人。

从别人的错误中吸取教训也可能是一种职业生涯的经历,为此,我还提供了一份资源清单,目的是帮助你克服这些障碍,助力你迈向数据科学希望之地的旅程。

3. 想成为一名数据工程师吗?这是一份助你启程的全面的资源列表。

https://www.analyticsvidhya.com/blog/2018/11/data-engineer-comprehensive-list-resources-get-started/

干货 :2018年最受欢迎的15篇数据科学和机器学习文章(Analytics Vidhya)_第12张图片


到目前为止,我们主要讨论的是数据科学家。但是数据科学领域还有很多其他的角色,目前最热门的是数据工程师。在所有的数据科学家的大肆宣传中,他们往往被忽视了,但在任何DS项目中,数据工程师都是非常关键的一环。

要成为数据工程师,目前没有单一的结构化路径可以遵循,我希望这篇文章能提供一个不同的选项。这里有大量免费资源,包括电子书、视频课程、基于文本的文章等。

了解了什么是数据工程师,以及这个角色与数据科学家的不同之处之后,我们便直接深入到你需要了解的各个方面的知识和技能,以便使你顺利成为自己希望成为的那个角色。文中,我还提到了一些在数据科学界得到了认可的数据工程证书。

四、自然语言处理

1. 数据科学家和工程师们处理文本数据的终极指南(附Python语言)

 

https://www.analyticsvidhya.com/blog/2018/02/the-different-methods-deal-text-data-predictive-python/

干货 :2018年最受欢迎的15篇数据科学和机器学习文章(Analytics Vidhya)_第13张图片


这是一本你的必读指南。这本NLP初学者基础指南,从一些基本概念开始,逐步构建起更先进的概念,如包词和单词嵌入。解决文本数据问题有多种方法,在这里将介绍这些不同的方法。

特征提取、预处理和高级技术-所有这些都是文本数据包含的内容。每种技术都使用Python代码和一个开放的数据集来展示,这样可以做到一边学习一边编写代码。

你还可以加入 ‘使用Python的自然语言处理’综合课程,开启自己的NLP职业生涯。

2. 用Python构建FAQ聊天机器人-信息搜索的未来

 

https://www.analyticsvidhya.com/blog/2018/01/faq-chatbots-the-future-of-information-searching/

干货 :2018年最受欢迎的15篇数据科学和机器学习文章(Analytics Vidhya)_第14张图片

2018年是聊天机器人达到顶峰的一年,这是自然语言处理(NLP)在市场上最常见的应用。不难理解的是,越来越多的人想要学习如何构建一个聊天机器人。那么,你来对地方了!

本文探讨如何提取与印度最近引入的商品和服务税(GST)相关信息,在Python中构建聊天机器人。一个GST-FAQ机器人!作者利用Rasa-NLU库构建了该BOT。

3. 在Python中使用ULMFiT和Quickai库进行文本分类(NLP)教程


https://www.analyticsvidhya.com/blog/2018/11/tutorial-text-classification-ulmfit-fastai-library/

这是一个非常重要的话题-无论对于初学者还是高级NLP用户来说都是如此。ULMFiT框架是由Sebastian Ruder和JeremyHoward开发的,它为其他迁移学习库铺平了道路。这篇文章更适合那些熟悉基本NLP技术并希望拓展知识面的人。

Prateek Joshi采用通俗易懂方法,向我们介绍了迁移学习的世界:ULMFiT框架,以及如何在Python中实现这些概念。正如Sebastian Ruder所说,“NLP的ImageNet时刻已经到来”,是时候跳上这架马车了。


五、播客(一种可订阅下载音频文件的互联网服务,多为个人自发制作)

注:播客是一种可订阅下载音频文件的互联网服务,多为个人自发制作。

1. 必听的10个数据科学、机器学习和人工智能的播客

https://www.analyticsvidhya.com/blog/2018/01/10-data-science-machine-learning-ai-podcasts-must-listen/

播客是一个很好的消费信息的媒介。不是所有的人都有时间阅读文章,播客正是填补了这一空白,使得我们更为便捷地了解机器学习的最新发展。这个前10名播客集在出版时就走红了,之后便一直位居榜首。

我们今年还推出了自己的播客系列:DataHack Radio。DHR的特点是数据科学和机器学习行业的顶级先驱者和实践者,并迎合数据科学界各层级的需要。它可以在SoundCloud,iTunes上访问到,当然也可以在我们自己的网站上访问到!


尾注

再一次对Analytics Vidhya社区的成员大声表示:感谢你们一如既往的支持和对数据科学的热爱。让我们共同努力,使2019年成为更加美好和更为壮大的一年,并承诺保持我们对学习的无限渴望!明年见。

 

原文标题:

The 15 Most Popular Data Science and Machine Learning Articles on Analytics Vidhya in 2018

原文链接:

https://www.analyticsvidhya.com/blog/2018/12/most-popular-articles-analytics-vidhya-2018/

译者简介:陈之炎北京交通大学通信与控制工程专业毕业,获得工学硕士学位,历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护,在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。

「完」


本次转自:THU数据派 微信公众号;

版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。

关联阅读

原创系列文章:

1:从0开始搭建自己的数据运营指标体系(概括篇)

2 :从0开始搭建自己的数据运营指标体系(定位篇)

3 :从0开始搭建自己的数据运营体系(业务理解篇)

4 :数据指标的构建流程与逻辑

5 :系列 :从数据指标到数据运营指标体系

6:   实战 :为自己的公号搭建一个数据运营指标体系

7:  从0开始搭建自己的数据运营指标体系(运营活动分析)

数据运营 关联文章阅读:  

运营入门,从0到1搭建数据分析知识体系    

推荐 :数据分析师与运营协作的9个好习惯

干货 :手把手教你搭建数据化用户运营体系

推荐 :最用心的运营数据指标解读

干货 : 如何构建数据运营指标体系

从零开始,构建数据化运营体系

干货 :解读产品、运营和数据三个基友关系

干货 :从0到1搭建数据运营体系

数据分析、数据产品 关联文章阅读:

干货 :数据分析团队的搭建和思考

关于用户画像那些事,看这一文章就够了

数据分析师必需具备的10种分析思维。

如何构建大数据层级体系,看这一文章就够了

干货 : 聚焦于用户行为分析的数据产品

80%的运营注定了打杂?因为你没有搭建出一套有效的用户运营体系

从底层到应用,那些数据人的必备技能

读懂用户运营体系:用户分层和分群

做运营必须掌握的数据分析思维,你还敢说不会做数据分析

合作请加qq:365242293  


更多相关知识请回复:“ 月光宝盒 ”;

数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

干货 :2018年最受欢迎的15篇数据科学和机器学习文章(Analytics Vidhya)_第15张图片

你可能感兴趣的:(干货 :2018年最受欢迎的15篇数据科学和机器学习文章(Analytics Vidhya))