面向初学者的5个最佳机器学习项目

面向初学者的5个最佳机器学习项目_第1张图片 购买的图像由PlargueDoctor设计

作为一个初学者,进入一个新的机器学习项目可能会很困难。 整个过程从选择一个数据集开始,然后,首先研究数据集,以找出哪种机器学习算法类或类型最适合该数据集。

以下是专家入门的一些技巧:

  • 找到一个相对容易分析的大小适中的数据集。 UCI ML存储库和Kaggle是搜索的好地方。
  • 实验数据集。 为了对数据集有良好的“感觉”,您可以对数据运行几种顶级的机器学习算法,以查看其行为以及每种算法可实现的性能。
  • 选择性能最佳的算法并进行相应调整。

好的,现在我们有了一些开始使用ML项目的一般提示,让我们看一下10个有趣的示例,这些示例将教您如何使用ML算法,对其进行调优以及如何分析给定的数据。

1.有虹膜花分类的有监督机器学习

Iris Flowers数据集被视为ML的“ Hello World”,因为它是分类的经典示例。 该数据集提供了很好的介绍,因为它要求您学习如何浏览数据以及如何加载数据。 此数据集的好处是加载到内存(150行)的空间很小,并且只有四个属性:花瓣长度,花瓣宽度,分隔长度和分隔宽度。

面向初学者的5个最佳机器学习项目_第2张图片

该项目涉及使用四个已知属性识别四种不同种类的鸢尾花。 数据集允许您在标记数据时使用监督学习算法,而无监督意味着当数据未被标记时,我们正在寻找数据中的隐藏结构。

分类类型? 我们在这里使用多类分类 这意味着我们应该能够准确地预测数据点属于哪个类别。

目标 :根据花的性质将花分类为三种:花瓣和萼片的尺寸。

下载: 鸢尾花数据集
完整指南:有关解决问题的信息,请参见此处 。

2.带有GNY的交易预测

多年来,机器学习一直是一个热门话题,但是主要由于成本,大多数开发人员无法使用许多流行的服务。 名为GNY的小组正在通过分散其强大的机器学习平台来解决这一问题,该平台可免费下载和安装。 机器学习平台实际上是嵌入在区块链中的,因此可以保护用户数据免受潜在黑客攻击。

该团队发布了一个演示,展示了该平台如何通过其强大的神经网络来预测零售交易组,并且将于今年夏天发布该平台的完全可下载和可定制的版本。 GNY将拥有一个可选的机器学习代码集库,可以根据每个人的需求对其进行选择,并将其应用于其侧链(因为GNY将使用Lisk的侧链技术)。

为什么这个这么重要? 几乎所有企业都在寻找一种负担得起的方法来释放其数据中的隐藏价值,但如果这样做会使他们面临安全风险,则不会。 区块链的固有结构有助于控制数据的一致性,并允许您始终控制数据。

由于可以在下一个块仍处于活动状态时为下一个块启动验证,因此性能得以提高。 验证包括检查用户是否有足够的余额。 仅对于错误预测的交易,才需要重做这项工作。

对于想要预测简单数字的人来说,此演示是一个有趣的入门项目,今年夏天启动的完整平台应为开发人员提供更多功能和定制功能。 在MLWave上可以找到一个很好的数据集,以便使用购买历史来预测回头客。

目标 :根据支出历史预测未来的交易。

3.带有Twitter的情绪分析

机器学习的一种有趣的应用是情感分析。 随着加密货币的兴起,情感分析已取得重大突破。 许多人试图构建结合了情绪分析的交易机器人,以做出更好的交易决策。

面向初学者的5个最佳机器学习项目_第3张图片 图片由AnalyticsVidhya.com提供

还有许多其他可用于情感分析的平台,例如Reddit,Facebook或LinkedIn,因为它们都提供了易于使用的API来检索数据。 但是,由于Twitter平台上数据的格式一致,因此这是机器学习的首选数据。 由于推文主要由文本,URL和主题标签组成,因此预处理也容易得多。

Twitter API知道许多可用于集成到您的项目中的API库。 可以使用!pip install python-twitter通过pip安装Python的包装。 但是,使用API​​时请当心,因为过度使用会使您进入黑名单。 因此,Twitter提供指导如何避免速率的限制。 如果您需要实时数据,Twitter流API可以为您省钱。

有几个有趣的例子可以分析:

  • 围绕新发行电影的情绪,并将其与IMDB和其他评级网站上的评论进行比较。
  • 围绕特定选举或任何其他趋势政治话题的情绪。
  • 根据推文的情绪预测前50种加密货币的价格未来方向。

目标 :情绪分析器学习一段内容背后的各种情绪。 该任务可帮助您考虑设计各种模型以将一条推文标记为肯定或否定。 在以后的阶段中,我们可以以更细微的方式标记推文,例如“中立”,“愤怒”,“乐观”,…

Github概述:所有与Twitter相关的数据集。

4.带有电影镜头的推荐系统

推荐系统是机器学习技术在企业中最成功和最广泛的应用之一。 您在日常生活中到处都有推荐系统。 例如,在观看Youtube视频时,Youtube算法会根据您的观看习惯向您推荐视频,同时还会根据他们在运行ML算法时对世界各地人们的观看行为的观看模式获得的重要见解。

我们可以找到两种用于推荐系统的算法:

  1. 基于内容的:如标签所述,它寻找内容的相似性。
  2. 协作过滤方法:此方法在交互中查找相似性。 交互的一个示例可以是查看用户的评分,并将其与其他人进行比较以找到相似的行为/喜好。 下图说明了这一点。
面向初学者的5个最佳机器学习项目_第4张图片 来源:关于推荐系统的机器学习算法的Recombee

目前,Movielens提供了电影收视率最受欢迎的数据集之一,这是初学者可以尝试的理想数据集。

目标 :根据收视率预测用户喜欢的电影。

网站: Grouplens.org

教程: Towardsdatascience提供了一个使用Python构建简单的推荐系统的教程。

5.带有Quandl的股票价格预测

股价预测器是一个了解公司绩效并预测未来股价的系统。 股票价格预测的棘手之处在于可以使用多种类型和数据源:

  • 波动率指数
  • 历史价格
  • 全球宏观经济指标
  • 基本面分析
  • 使用指标进行技术分析

分析股市的好处是反馈周期更短,这使您更容易验证您的预测。 如果您不知道市场周期,建议您阅读有关此主题的文章,以了解典型周期的情况。

面向初学者的5个最佳机器学习项目_第5张图片 资料来源:关于市场周期心理学的第五人

首先,您可以举一个简单的机器学习示例,在该示例中,我们根据其季度报告中某个组织的基本指标来预测6个月的价格走势。

目标 :使用基本指标和技术指标预测未来价格。

下载:来自Quandl.com或Quantoplan.com的股票市场数据集。

From: https://hackernoon.com/top-5-machine-learning-projects-for-beginners-47b184e7837f

你可能感兴趣的:(面向初学者的5个最佳机器学习项目)