(说明:如果您认为下面的文章对您有帮助,请您花费一秒时间点击一下最底部的广告以此来激励本人创作,谢谢)
了解人工智能、机器学习、监督学习、无监督学习、分类、决策树、聚类、深度学习和算法。
深度学习、机器学习、人工智能——所有代表未来的流行语。在这篇文章中,我们将通过一些现实世界的例子来解释什么是机器学习和深度学习。在以后的文章中,我们将用例探讨。这样做的目的不是让您成为一名数据科学家,而是让您更好地了解您可以使用机器学习做什么。开发人员越来越容易使用机器学习,数据科学家与领域专家、架构师、开发人员和数据工程师一起工作,因此每个人都必须充分了解各种可能性。您的业务生成的每条信息都有可能增加价值。这篇文章和后面的文章旨在引发对您自己数据的审查,以发现新的机会。
什么是人工智能?
纵观人工智能的历史,这个定义不断被重新定义。人工智能是一个总称(这个想法始于 50 年代);机器学习是 AI 的一个子集,而深度学习是 ML 的一个子集。
专家系统在规则引擎中捕获专家的知识。规则引擎广泛用于金融和医疗保健等行业,最近还用于事件处理,但是当数据发生变化时,规则可能变得难以更新和维护。机器学习的优势在于它从数据中学习,并且可以提供数据驱动的概率预测。
过去 10 年,分析发生了怎样的变化?
根据哈佛商业评论的 Thomas Davenport 的说法,技术在过去十年中发生了巨大变化,跨商品服务器、流分析和改进的机器学习技术的分布式计算功能更强大、成本更低,使公司能够存储和分析更多的数据和许多不同类型的它。
Apache Spark 之类的技术通过迭代算法将数据缓存在内存中并使用更轻量级的线程,从而进一步加速分布式数据的并行处理。
图形处理单元 (GPU) 加快了多核服务器的并行处理速度。GPU 具有大规模并行架构,由数千个更小、更高效的内核组成,旨在同时处理多个任务,而 CPU 则由几个针对顺序串行处理优化的内核组成。就潜在性能而言,从 Cray-1 到如今拥有大量 GPU 的集群的发展速度大约是地球上最快的计算机的一百万倍,而成本只是其中的一小部分。
什么是机器学习?
机器学习使用算法来查找数据的规律,然后使用识别这些规律的模型对新数据进行预测。
一般来说,机器学习可以分为几种类型:有监督的、无监督的,以及介于这两者之间的。监督学习算法使用标记数据,而无监督学习算法在未标记数据中寻找规律。半监督学习使用标记和未标记数据的混合。强化学习训练算法以根据反馈最大化奖励。
监督学习
监督算法使用标记数据,其中输入和目标结果或标签都提供给算法。
监督学习也称为预测建模或预测分析,因为您构建了一个能够进行预测的模型。预测建模的一些示例是分类和回归。分类根据已知项目的标记示例(例如,已知是否为欺诈的交易)识别项目所属的类别(例如交易是否为欺诈)。逻辑回归预测一个概率——例如,欺诈的概率。线性回归预测一个数值——例如,欺诈的数量。
一些分类示例包括:
信用卡欺诈检测(欺诈,而非欺诈)。
信用卡申请(信用良好,信用不良)。
电子邮件垃圾邮件检测(垃圾邮件,不是垃圾邮件)。
文本情感分析(高兴,不高兴)。
预测患者风险(高风险患者、低风险患者)。
将肿瘤分类为恶性或非恶性。
逻辑回归(或其他算法)的一些示例包括:
鉴于历史汽车保险欺诈性索赔和索赔的特征,例如索赔人的年龄、索赔金额和事故的严重程度,预测欺诈的可能性。
给定患者特征,预测充血性心力衰竭的概率。
线性回归的一些例子包括:
鉴于历史汽车保险欺诈索赔和索赔的特征,如索赔人的年龄、索赔金额和事故的严重程度,预测欺诈金额。
给定历史房地产销售价格和房屋特征(即平方英尺、卧室数量、位置),预测房屋价格。
给定历史街区犯罪统计数据,预测犯罪率。
下面显示了其他有监督和无监督的学习算法,我们将不再赘述,但我们将更详细地查看每个示例。
分类示例:借记卡欺诈
分类采用一组具有已知标签和预定特征的数据,并学习如何根据该信息标记新记录。功能是您提出的“如果”问题。标签是这些问题的答案。
让我们看一个借记卡欺诈的例子。
我们试图预测什么?
借记卡交易是否欺诈。
欺诈是标签(真或假)。
您可以使用哪些“如果”问题或属性来进行预测?
今天花费的金额是否 > 历史平均水平?
今天是否在多个国家/地区进行交易?
今天的交易数量是否 > 历史平均水平?
与过去三个月相比,今天的新商户类型数量是否高?
今天是否有多次从具有风险类别代码的商家那里购买?
与过去使用 PIN 码相比,今天是否有不寻常的签名活动?
与过去三个月相比,是否有新的州购买?
与过去三个月相比,今天有外国购买吗?
要构建分类器模型,您需要提取对分类最有帮助的感兴趣的特征。
决策树
决策树创建一个模型,该模型基于几个输入特征来预测类或标签。决策树的工作原理是评估每个节点包含一个特征的问题,并根据答案选择一个分支到下一个节点。用于预测借记卡欺诈的可能决策树如下所示。特征问题是节点,答案“是”或“否”是树中到子节点的分支。(请注意,真正的树会有更多的节点。)
Q1:24小时消费金额是否>平均?
是的
Q2:今天是否有来自高风险商家的多次购买?
是的欺诈 = 90%
不欺诈 = 50%
决策树很受欢迎,因为它们易于可视化和解释。通过将算法与集成方法相结合,可以提高模型的准确性。一个集成示例是随机森林,它结合了决策树的多个随机子集。
无监督学习
无监督学习,有时也称为描述性分析,没有预先提供标记数据。这些算法发现输入数据中的相似性或规律性。无监督学习的一个例子是根据购买数据对相似的客户进行分组。
聚类
在聚类中,算法通过分析输入示例之间的相似性将输入分类。一些集群用例包括:
搜索结果分组。
对相似客户进行分组。
对相似的患者进行分组。
文本分类。
网络安全异常检测(从集群中找出不相似的异常值)。
K-means 算法将观测值分组到 K 个集群中,其中每个观测值都属于距离其集群中心最近的平均值的集群。
集群的一个例子是一家公司希望对其客户进行细分,以便更好地定制产品和产品。可以根据人口统计和购买历史等特征对客户进行分组。无监督学习的聚类通常与监督学习相结合,以获得更有价值的结果。例如,在这个银行客户 360 用例中,首先根据对调查的回答对客户进行细分。对客户群体进行了分析,并用客户角色进行了标记。然后,这些标签通过客户 ID 与帐户类型和购买等功能相关联。最后,监督机器学习被应用并与标记的客户进行测试,允许将调查客户角色与他们的银行行为联系起来并提供见解。
深度学习
深度学习是多层神经网络的名称,它是由输入和输出之间的几个“隐藏层”节点组成的网络。神经网络有许多变体,您可以在此神经网络备忘单上了解更多信息。改进的算法、GPU 和大规模并行处理 (MPP) 催生了具有数千层的网络。每个节点获取输入数据和权重,并将置信度分数输出到下一层中的节点,直到到达输出层,计算分数的误差。通过在称为梯度下降的过程中进行反向传播,错误再次通过网络发送回,并调整权重以改进模型。这个过程重复了数千次,根据模型产生的误差调整模型的权重,直到误差不能再减少。
在这个过程中,各层学习模型的最优特征,其优点是特征不需要预先确定。但是,这样做的缺点是模型的决策无法解释。因为解释决策可能很重要,研究人员正在开发新的方法来理解深度学习的黑匣子。
用于改进传统算法的深度神经网络。
财务:通过识别更复杂的模式来增强欺诈检测。
制造:基于更深入的异常检测增强缺陷识别。
用于图像的卷积神经网络。
零售:通过视频的店内活动分析来衡量流量。
卫星图像:标记地形和分类物体。
汽车:识别道路和障碍物。
医疗保健:来自 X 射线、扫描等的诊断机会。
保险:根据照片估计索赔的严重程度。
用于序列数据的循环神经网络。
客户满意度:将语音数据转录为文本以进行 NLP 分析。
社交媒体:社交和产品论坛帖子的实时翻译。
图片说明:搜索图像档案以获取新见解。
金融:通过时间序列分析(也是增强的推荐系统)预测行为。
更多内容请关注公众号: