来源:机器学习研习院
机器学习是一个非常火爆的术语。本文以最通俗易懂的方式阐述了机器学习的基本原理及其应用。
什么是机器学习?
机器学习,顾名思义,一台机器,正在学习一些东西。这是一个学习过程,从观察输入到特定机器的数据开始,机器在该数据中寻找特定模式,以便使用它做出决策。
它的核心目标是让机器/计算机仅通过使用某些算法来本能地学习,而无需任何人工干预或帮助,并相应地调整其方法以适应模型。
简而言之,机器学习是对计算机算法的研究,它可以通过使用数据自动改进。
★ 训练数据集
它是用于拟合用于训练数据集的模型的数据集。它帮助机器学习数据以及如何进一步使用它。
★ 验证数据集
它是用于对模型在训练数据集上的拟合度进行无偏评估的数据样本,同时调整模型超参数(其值用于控制学习过程的参数),它也被称为开发集。
★ 测试数据集
它是独立于训练集的数据集,用于对训练数据集上的最终模型拟合提供无泄漏数据评估。
★ 标签数据
标签数据是一组用一个或多个标签标记过的数据样本。
机器学习方法大致分为四类,如下所示:
☆ 监督学习
它是最常见和最容易使用的算法之一;机器使用标记良好的训练数据进行训练。
☆ 无监督学习
这是一种机器学习算法,其中模型使用未标记的数据集进行训练,并允许在没有任何外部监督的情况下对数据采取行动。
☆ 半监督学习
它是一种机器学习算法,它由一小部分标记数据和大部分未标记数据组成,模型可以从中进行所需的预测。
☆ 强化学习
它是一种独特的机器学习算法,它奖励期望的输出并惩罚错误,以训练机器。
① 确定训练数据集的类型
检查它是数值数据、分类数据、时间序列数据还是基于文本的数据。还要检查存在多少因变量和自变量。
② 收集标记的训练数据
确定目标是什么以及特征是什么,以获得识别模式并预测目标数据。
③ 拆分数据集
根据需求将实体数据集拆分为两个或三个部分——训练集、验证集和测试集。
④ 确定训练数据集的输入特征
理解给定数据集的特征。
⑤ 确定训练数据集的合适算法
在了解需求后,我们需要为我们的数据集决定最合适的数据集——回归/分类、聚类/关联、决策树等。
⑥ 在训练数据集上执行算法
在数据上应用选定的算法来训练数据集。
⑦ 评估模型的准确性
通过提供测试数据,可以了解和评估模型的准确性。
监督学习
定义:根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。
也就是说,在监督学习中训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。
监督学习是一种机器学习技术,其中机器使用标记良好的数据进行训练。它的主要目标是找到一个映射函数来映射输入变量和输出变量。
监督学习可以分为两种 —— 单因素监督学习和多元监督学习。
◎ 单变量监督学习 由 一个因变量 和 一个自变量 组成。
◎ 多元监督学习 由 一个因变量 和 一个以上的自变量 组成。
☆ 回归分析
回归分析是一种统计方法,如果用于输入变量和连续输出变量之间存在关系,则使用该方法。回归分析类型的算法有——线性回归、回归树、非线性回归、贝叶斯线性回归、多项式回归。
☆ 分类分析
当输出变量是分类的时候使用分类方法;即只有限个解决方案。分类分析类型的算法有——逻辑回归、支持向量机、K-最近邻、SVM、朴素贝叶斯、决策树分类、随机森林分类。
◎ 监督学习模型可以在使用训练集训练模型的基础上预测输出。
◎ 我们对正在使用的类别有一个明确的概念,因为它们被标记了。
◎ 它可以帮助我们解决现实世界中的问题。
◎ 它不适用于复杂的数据集。
◎ 如果测试数据与训练数据不同,则无法预测正确的输出。
◎ 训练模型需要大量计算。
监督学习在现实生活中的应用非常多,如· 文本分类、垃圾邮件检测、天气预报、根据当前市场价格预测房价、股票价格预测、人脸识别、签名识别、客户发现等待。
◎ 图像识别:图像识别是监督机器学习最重要的例子之一。它检测图像之间的模式并做出适当的预测。这主要用于安全和医疗目的。
◎ 语音识别:语音识别是可以将口语转换为可读文本的方法。最著名的语音助手,例如Siri、Alexa、天猫精灵、小爱同学等等,都使用此应用程序。
无监督学习
无监督机器学习(Unsupervised Machine Learning)是一种机器学习技术,它使用未标记的数据集训练模型,并允许模型在该数据集上工作和行动,而不需要任何外部的人工干预或监督。
无监督学习对于从数据中找到有用的见解非常有帮助。这是非常熟悉的方式,人类学习通过自己的经验来思考。即使输入数据与输出数据不一致,此方法也可以工作。
☆ 聚类
聚类是将对象分组为簇的方法,其中最相似的对象保留在特定组中,而差异较大的则属于另一组。
☆ 关联
关联是在大型数据库中查找变量之间关系的方法。我们开始了解一个变量如何直接或间接地与另一个变量相关联。
不同类型的算法有 K-means、K近邻、层次聚类分析、Anamoly 分析、神经网络、主成分分析、独立成分分析 等。
◎ 无监督学习可用于解决复杂的任务。
◎ 有更大的自由来探索现有的数据。
◎ 很难处理。
◎ 预测的准确性可能更低。
恶意软件检测、数据输入过程中人为错误识别、进行准确的购物篮分析、欺诈检测等等
◎ 客户细分:根据客户各种特征的将他们分成多个群。
◎ 库存管理:库存管理是商店使用的应用程序,可以通过关联找到某些产品之间的联系。
半监督学习
半监督学习是一种机器学习方法,其中使用一小部分标记数据和大部分未标记数据来训练模型。
◎ 用于半监督学习的算法本质上是稳定的。
◎ 它本质上是高效的。
◎ 准确率可能不高。
◎ 迭代结果不是很稳定。
据报道,在工业界,支付宝的风控与微信中扫一扫的识物,已利用半监督学习节省人力,并提升识别效果。
◎ 语音分析:音频文件的标记是一项非常密集的任务,其中可能只标记部分特征,并且需要大量人工干预。
◎ 网页内容分类:在线内容需要根据我们的搜索和关键字进行分类。
强化学习
强化学习是一种机器学习方法,它是按顺序做出决策。输出取决于当前输入的状态,下一个输入取决于输入预览的输出。做出的决定是完全依赖的,因此标签被赋予了依赖决定的序列。
强化学习被称为机器学习中的半监督学习模型,是一种允许代理采取行动并与环境交互以最大化总奖励的技术
☆ 正强化
正强化是指由于特定行为而发生的事件会增加该特定行为发生的频率。它还可以最大限度地提高性能,并在很长一段时间内保持变化。
☆ 负强化
负强化被定义为在避免负条件时模型行为的强化。它增加了行为,它还提供了对最低标准性能的颠覆。
◎ 它可以用来解决非常复杂的问题。
◎ 它取得了长期的成果。
◎ 过度的强化学习会导致过载,从而减少结果。
◎ 它不是解决简单问题的首选。
强化学习应用于无人驾驶、金融贸易、医疗保健、工程、新闻推荐、广告营销、机器人控制等等领域。
◎ 股票预测:股票预测需要强化学习来了解市场及其未来走势。
◎ 金融贸易:强化学习通过市场基准标准对RL模型进行评估,确保RL智能体正确做出持有、购买或是出售的决定,以保证最佳收益。
◎ 自动驾驶:有些自动驾驶的任务可以与强化学习相结合,比如轨迹优化,运动规划,动态路径,最优控制,以及高速路中的情景学习策略。
◎ 游戏:我们玩的单人游戏需要我们的设备进行下一步,而移动将基于我们之前的移动。国际象棋、Ludo、UNO 等需要强化学习。
写在最后
至此我们了解机器学习算法和模型的基础知识,以及它们可以在现实世界中的哪些地方使用。
如果你有更好的想法,欢迎一起交流学习呀~
-------- End --------
回复关键词,获取对应的资料:
关键词 | 资料名称 |
---|---|
600 | 《Python知识手册》 |
md | 《Markdown速查表》 |
time | 《Python时间使用指南》 |
str | 《Python字符串速查表》 |
pip | 《Python:Pip速查表》 |
style | 《Pandas表格样式配置指南》 |
mat | 《Matplotlib入门100个案例》 |
px | 《Plotly Express可视化指南》 |
可视化: Plotly Express
财经: Plotly在投资领域的应用 | 绘制K线图表
排序算法: 冒泡排序 | 选择排序 | 快速排序 | 归并排序 | 堆排序 | 插入排序 | 希尔排序 | 计数排序 | 桶排序