【机器学习】适用于机器学习初学者的8个小项目

在本指南中,我们将为初学者提供8个有趣的机器学习项目。项目是您当时最好的投资之一。您将享受学习,保持动力并加快进度。

你看,没有多少理论可以取代动手实践。教科书和课程可以让你陷入错误的掌握信念,因为材料就在你面前。但是一旦你尝试应用它,你可能会发现它比它看起来更难。

项目可帮助您快速提高应用的ML技能,同时让您有机会探索有趣的主题。

此外,您可以将项目添加到您的投资组合中,从而更容易找到工作,找到很酷的职业机会,甚至可以通过谈判获得更高的薪水。

这里有8个有趣的机器学习项目,适合初学者。您可以在一个周末完成任何一个,或者如果您喜欢它们,可以将它们扩展为更长的项目。

 

目录

  • 机器学习角斗士
  • 玩钱球
  • 预测股票价格
  • 教一个神经网络来阅读手写
  • 调查安然
  • 从Scratch编写ML算法
  • 挖掘社交媒体情绪
  • 改善医疗保健

 

1.机器学习角斗士

我们亲切地称这是“机器学习角斗士”,但这不是新的。这是围绕机器学习建立实用 直觉的最快方法之一  。

目标是采用开箱即用的模型并将其应用于不同的数据集。这个项目很棒,主要有三个原因:

首先,你将建立模型与问题契合的直觉。哪些模型对缺失数据很有效?哪些型号能够很好地处理分类功能?是的,您可以通过教科书来寻找答案,但是通过观察它可以更好地学习。

其次,这个项目将教你快速模型化原型的宝贵技能。在现实世界中,通常很难知道哪种模型在没有简单尝试的情况下表现最佳。

最后,本练习可帮助您掌握 模型构建的 工作流程。例如,你将练习......

  • 导入数据
  • 清洁数据
  • 将其拆分为训练/测试或交叉验证集
  • 前处理
  • 转换
  • 特征工程

因为您将使用开箱即用的模型,所以您将有机会专注于磨练这些关键步骤。

查看  sklearn(Python)或  caret(R)文档页面以获取说明。您应该练习  回归,  分类聚类 算法。

教程

  • Python:sklearn  - sklearn  包的官方教程
  • 使用Scikit-Learn预测葡萄酒质量 - 用于培训机器学习模型的分步教程
  • R:插入符号  - 插入符号的作者给出的网络研讨会

数据源

  • UCI机器学习库  - 350多个可搜索的数据集,涵盖几乎所有主题。你肯定会找到你感兴趣的数据集。
  • Kaggle数据集 - 由Kaggle社区上传的100多个数据集。这里有一些非常有趣的数据集,包括PokemonGo产卵地点和圣地亚哥的Burritos。
  • data.gov - 美国政府发布的开放数据集。如果你对社会科学感兴趣,那么看看的好地方。

 

2.玩金钱球

在Moneyball一书中  ,奥克兰A通过分析球员侦察彻底改变了棒球。他们建立了一支竞争激烈的阵容,同时只花费洋基队等大型市场球队支付工资的1/3。

首先,如果你还没有读过这本书,你应该看一下。这是我们的最爱之一!

幸运的是,体育界有大量数据可供使用。团队,游戏,分数和玩家的数据都在线跟踪和免费提供。

为初学者提供了许多有趣的机器学习项目。例如,你可以尝试......

  • 体育博彩...根据每场新游戏之前的时间可用数据预测奖励分数。
  • 人才侦察...... 利用大学统计数据来预测哪些球员将拥有最好的职业生涯。
  • 一般管理... 根据自己的优势创建球员集群,以建立一个全面的团队。

体育也是实践数据可视化探索性分析的绝佳领域。您可以使用这些技能来帮助您确定要在分析中包含哪些类型的数据。

数据源

  • 体育统计数据库  - 体育统计和历史数据,涵盖许多职业体育和几个大学体育。清洁的界面使网页抓取更容易。
  • 体育参考  - 另一个体育统计数据库。更混乱的界面,但可以将各个表导出为CSV文件。
  • cricsheet.org - 国际和IPL板球比赛的逐球数据。可以使用IPL和T20国际匹配的CSV文件。

 

3.预测股票价格

对于那些甚至对金融感兴趣的数据科学家来说,股票市场就像糖果一样。

首先,您可以选择多种类型的数据。你可以找到价格,基本面,全球宏观经济指标,波动率指数等......这个清单一直在继续。

其次,数据可以非常精细。您可以轻松获取每家公司的白天(甚至是分钟)时间序列数据,这样您就可以创造性地思考交易策略。

最后,金融市场通常有较短的反馈周期。因此,您可以快速验证对新数据的预测。

您可以尝试的初学友好机器学习项目的一些示例包括......

  • 定量价值投资...  根据公司季度报告中的基本指标预测6个月的价格走势。
  • 预测... 在隐含波动率和实际波动率之间建立时间序列模型,甚至是递归神经网络。
  • 统计套利...  根据价格变动和其他因素寻找类似的股票,并寻找价格偏离的时期。

明显的免责声明:建立交易模型来练习机器学习很简单。让它们盈利是非常困难的。这里没有什么是财务建议,我们不建议交易真钱。

教程

  • Python:sklearn for Investing - 关于将机器学习应用于投资的YouTube视频系列。
  • R:使用R进行定量交易 - 使用R进行定量融资的详细课堂笔记

数据源

  • Quandl  - 提供免费(和优质)财务和经济数据的数据市场。例如,您可以批量下载超过3000家美国公司的日终股票价格  或美联储的经济数据。
  • Quantopian - 量化金融社区,提供开发交易算法的免费平台。包括数据集。
  • 美国基础档案馆 - 为5000多家美国公司提供5年的基本面数据。

 

4.教一个神经网络来阅读手写

神经网络和深度学习是现代人工智能的两个成功案例。他们在图像识别,自动文本生成,甚至是自动驾驶汽车方面取得了重大进展。

要参与这个激动人心的领域,您应该从可管理的数据集开始。

MNIST手写体数字分类的挑战是经典的切入点。图像数据通常比“平坦”关系数据更难处理。MNIST数据对初学者友好,并且足够小以适合一台计算机。

手写识别将挑战您,但它不需要高计算能力。

首先,我们建议使用下面教程的第一章。它将教你如何从头开始构建一个神经网络,以高精度解决MNIST挑战。

教程

  • 神经网络和深度学习(在线书籍) - 第1章介绍如何在Python中从头开始编写神经网络以对MNIST中的数字进行分类。作者还对神经网络背后的直觉给出了非常好的解释。

数据源

  • MNIST  - MNIST是美国国家标准与技术研究院收集的两个数据集的修改子集。它包含70,000个手写数字的标记图像。

 

5.调查安然

在安然丑闻和崩溃  是历史上最大的企业崩溃的一个。

在2000年,安然公司是美国最大的能源公司之一。然后,在被欺骗之后,它在一年内逐渐陷入破产。

幸运的是,我们有安然电子邮件数据库。它包含150名前安然员工(大多数是高级管理人员)之间的50万封电子邮件。它也是真正的电子邮件的唯一大型公共数据库,这使它更有价值。

事实上,数据科学家多年来一直将这一数据集用于教育和研究。

您可以尝试的初学者机器学习项目示例包括......

  • 异常检测...  按小时映射发送和接收的电子邮件的分布,并尝试检测导致公共丑闻的异常行为。
  • 社交网络分析... 在员工之间建立网络图模型以找到关键影响者。
  • 自然语言处理...结合电子邮件元数据分析正文消息,根据其目的对电子邮件进行分类。

数据源

  • 安然电子邮件数据集  - 这是由CMU托管的安然电子邮件存档。
  • 安然数据描述(PDF) - 安然电子邮件数据的探索性分析,可以帮助您获得基础。

 

6.从Scratch编写ML算法

从头开始编写机器学习算法是一个很好的学习工具,主要有两个原因。

首先,没有更好的方法来建立对其力学的真正理解。你将被迫思考每一步,这将导致真正的掌握。

其次,您将学习如何将数学指令转换为工作代码。在调整学术研究的算法时,您需要这种技能。

首先,我们建议选择一种不太复杂的算法。即使是最简单的算法,也需要做出许多微妙的决定。

在您轻松构建简单算法之后,请尝试扩展它们以获得更多功能。例如,尝试通过添加正则化参数将香草逻辑回归算法扩展为套索/岭回归

最后,这里有一个每个初学者都应该知道的提示:不要气馁你的算法不像现有的包那样快或者花哨。这些包是多年发展的成果!

教程

  • Python:Scratch的Logistic回归
  • Python:Scratch的k-Nearest Neighbors
  • R:Scratch的Logistic回归

 

7.挖掘社交媒体情绪

由于大量用户生成的内容,社交媒体几乎已成为“大数据”的同义词

挖掘这些丰富的数据可以证明前所未有的方法可以保持观点,趋势和公众情绪。Facebook,Twitter,YouTube,微信,WhatsApp,Reddit ...... 这个名单还在继续。

此外,每一代人都在社交媒体上花费的时间比他们的前辈多。这意味着社交媒体数据将变得与营销,品牌和整体业务更加相关。

虽然有许多流行的社交媒体平台,但Twitter是实践机器学习的经典切入点。

通过Twitter数据,您可以获得有趣的数据(推文内容)和元数据(位置,主题标签,用户,重新推文等)的混合,从而打开几乎无穷无尽的分析路径。

教程

  • Python:挖掘Twitter数据 - 如何对Twitter数据进行情绪分析
  • R:机器学习的情感分析 - 简短而甜蜜的情绪分析教程

数据源

  • Twitter API  - twitter API是流数据的经典来源。您可以跟踪推文,主题标签等。
  • StockTwits API  - StockTwits就像是交易者和投资者的推特。您可以通过 使用时间戳和股票代码符号将其连接到时间序列数据集,以许多有趣的方式扩展此数据集  。

 

8.改善医疗保健

由于机器学习而正在经历快速变化的另一个行业是全球健康和医疗保健。

在大多数国家,成为一名医生需要多年的教育。这是一个苛刻的领域,长时间,高赌注,甚至更高的进入障碍。

因此,最近在机器学习的帮助下,已经做出了重大努力来减轻医生的工作量并提高医疗保健系统的整体效率。

用途案例包括:

  • 预防性护理......  预测个人和社区层面的疾病暴发。
  • 诊断护理...  自动分类图像数据,如扫描,X射线等。
  • 保险......根据公开的风险因素调整保险费。

随着医院不断对患者记录进行现代化改造,并且随着我们收集更多细粒度的健康数据,数据科学家将会有大量低成果的机会,从而有所作为。

教程

  • R:为疾病预测建立有意义的机器学习模型
  • 医疗机器学习 - 微软研究院的优秀演讲

数据源

  • 大型健康数据集 - 收集大型健康相关数据集
  • data.gov/health - 美国政府提供的与健康和医疗保健相关的数据集。
  • 卫生营养和人口统计 - 世界银行提供的全球卫生,营养和人口统计数据。

 

原文:https://elitedatascience.com/machine-learning-projects-for-beginners

你可能感兴趣的:(Machine,Learning,机器学习算法理论与实战)