在本指南中,我们将为初学者提供8个有趣的机器学习项目。项目是您当时最好的投资之一。您将享受学习,保持动力并加快进度。
你看,没有多少理论可以取代动手实践。教科书和课程可以让你陷入错误的掌握信念,因为材料就在你面前。但是一旦你尝试应用它,你可能会发现它比它看起来更难。
项目可帮助您快速提高应用的ML技能,同时让您有机会探索有趣的主题。
此外,您可以将项目添加到您的投资组合中,从而更容易找到工作,找到很酷的职业机会,甚至可以通过谈判获得更高的薪水。
这里有8个有趣的机器学习项目,适合初学者。您可以在一个周末完成任何一个,或者如果您喜欢它们,可以将它们扩展为更长的项目。
目录
我们亲切地称这是“机器学习角斗士”,但这不是新的。这是围绕机器学习建立实用 直觉的最快方法之一 。
目标是采用开箱即用的模型并将其应用于不同的数据集。这个项目很棒,主要有三个原因:
首先,你将建立模型与问题契合的直觉。哪些模型对缺失数据很有效?哪些型号能够很好地处理分类功能?是的,您可以通过教科书来寻找答案,但是通过观察它可以更好地学习。
其次,这个项目将教你快速模型化原型的宝贵技能。在现实世界中,通常很难知道哪种模型在没有简单尝试的情况下表现最佳。
最后,本练习可帮助您掌握 模型构建的 工作流程。例如,你将练习......
因为您将使用开箱即用的模型,所以您将有机会专注于磨练这些关键步骤。
查看 sklearn(Python)或 caret(R)文档页面以获取说明。您应该练习 回归, 分类和聚类 算法。
教程
数据源
在Moneyball一书中 ,奥克兰A通过分析球员侦察彻底改变了棒球。他们建立了一支竞争激烈的阵容,同时只花费洋基队等大型市场球队支付工资的1/3。
首先,如果你还没有读过这本书,你应该看一下。这是我们的最爱之一!
幸运的是,体育界有大量数据可供使用。团队,游戏,分数和玩家的数据都在线跟踪和免费提供。
为初学者提供了许多有趣的机器学习项目。例如,你可以尝试......
体育也是实践数据可视化和探索性分析的绝佳领域。您可以使用这些技能来帮助您确定要在分析中包含哪些类型的数据。
数据源
对于那些甚至对金融感兴趣的数据科学家来说,股票市场就像糖果一样。
首先,您可以选择多种类型的数据。你可以找到价格,基本面,全球宏观经济指标,波动率指数等......这个清单一直在继续。
其次,数据可以非常精细。您可以轻松获取每家公司的白天(甚至是分钟)时间序列数据,这样您就可以创造性地思考交易策略。
最后,金融市场通常有较短的反馈周期。因此,您可以快速验证对新数据的预测。
您可以尝试的初学友好机器学习项目的一些示例包括......
明显的免责声明:建立交易模型来练习机器学习很简单。让它们盈利是非常困难的。这里没有什么是财务建议,我们不建议交易真钱。
教程
数据源
神经网络和深度学习是现代人工智能的两个成功案例。他们在图像识别,自动文本生成,甚至是自动驾驶汽车方面取得了重大进展。
要参与这个激动人心的领域,您应该从可管理的数据集开始。
该MNIST手写体数字分类的挑战是经典的切入点。图像数据通常比“平坦”关系数据更难处理。MNIST数据对初学者友好,并且足够小以适合一台计算机。
手写识别将挑战您,但它不需要高计算能力。
首先,我们建议使用下面教程的第一章。它将教你如何从头开始构建一个神经网络,以高精度解决MNIST挑战。
教程
数据源
在安然丑闻和崩溃 是历史上最大的企业崩溃的一个。
在2000年,安然公司是美国最大的能源公司之一。然后,在被欺骗之后,它在一年内逐渐陷入破产。
幸运的是,我们有安然电子邮件数据库。它包含150名前安然员工(大多数是高级管理人员)之间的50万封电子邮件。它也是真正的电子邮件的唯一大型公共数据库,这使它更有价值。
事实上,数据科学家多年来一直将这一数据集用于教育和研究。
您可以尝试的初学者机器学习项目示例包括......
数据源
从头开始编写机器学习算法是一个很好的学习工具,主要有两个原因。
首先,没有更好的方法来建立对其力学的真正理解。你将被迫思考每一步,这将导致真正的掌握。
其次,您将学习如何将数学指令转换为工作代码。在调整学术研究的算法时,您需要这种技能。
首先,我们建议选择一种不太复杂的算法。即使是最简单的算法,也需要做出许多微妙的决定。
在您轻松构建简单算法之后,请尝试扩展它们以获得更多功能。例如,尝试通过添加正则化参数将香草逻辑回归算法扩展为套索/岭回归。
最后,这里有一个每个初学者都应该知道的提示:不要气馁你的算法不像现有的包那样快或者花哨。这些包是多年发展的成果!
教程
由于大量用户生成的内容,社交媒体几乎已成为“大数据”的同义词。
挖掘这些丰富的数据可以证明前所未有的方法可以保持观点,趋势和公众情绪。Facebook,Twitter,YouTube,微信,WhatsApp,Reddit ...... 这个名单还在继续。
此外,每一代人都在社交媒体上花费的时间比他们的前辈多。这意味着社交媒体数据将变得与营销,品牌和整体业务更加相关。
虽然有许多流行的社交媒体平台,但Twitter是实践机器学习的经典切入点。
通过Twitter数据,您可以获得有趣的数据(推文内容)和元数据(位置,主题标签,用户,重新推文等)的混合,从而打开几乎无穷无尽的分析路径。
教程
数据源
由于机器学习而正在经历快速变化的另一个行业是全球健康和医疗保健。
在大多数国家,成为一名医生需要多年的教育。这是一个苛刻的领域,长时间,高赌注,甚至更高的进入障碍。
因此,最近在机器学习的帮助下,已经做出了重大努力来减轻医生的工作量并提高医疗保健系统的整体效率。
用途案例包括:
随着医院不断对患者记录进行现代化改造,并且随着我们收集更多细粒度的健康数据,数据科学家将会有大量低成果的机会,从而有所作为。
教程
数据源
原文:https://elitedatascience.com/machine-learning-projects-for-beginners