以下内容是在学习过程中的一些笔记,难免会有错误和纰漏的地方。如果造成任何困扰,很抱歉。
什么是机器学习?
机器学习是一门通过编程让计算机从数据中进行学习的科学(和艺术)。下面是一个稍微通用一点的定义:机器学习是一个研究领域,让计算机无须进行明确编程就具备学习能力。——亚瑟·萨缪尔(Arthur Samuel),1959
机器学习就是一种机器处理问题使用拟人化方式的一种解决方案,通过自主性的学习问题处理方式来解决问题,在生活中,我们常常说的小红书、淘宝等厂家的大数据算法推荐,都是基于用户习惯进行学习,来给用户推荐最合适的产品/文章。
人的大脑是非常复杂的,机器学习如何通过这种拟人化的学习处理方式来解决实际问题?我们先从人类的大脑开始构思,人的大脑都是由无数个神经元构成,神经元之间相互通过脉络链接,组成一个庞大的神经元网络。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-39j1lMKA-1667143581712)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/头脑风暴-11.png)]
当人看到一只猫?抑或是一只狗时,神经元网络会如何处理这些信息?
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YMZL0BBr-1667143581712)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/猫狗动态图机器学习.gif)]
当一组图像输入到神经网络中,会被拆解成无数个可识别的/不可识别的标签,经过层层算法递进,找到最终自认为正确的一个结果(是猫是狗或是其它)。
单个神经网络由多个互联的神经元构成,组织形式叫层
,某一层的神经元会将消息传递到其下一层神经元(术语为“发射
”),这即是神经网络的运行方式。具有单个线性层的模型叫做感知器,如果模型中含有多个线性层,则称之为多层感知器
(MLP)。
事实上,机器学习的模型就是一种计算函数的方法,这个函数把对应的输入映射到对应的输出上,在这个过程中,通过损失函数(待优化的内容)的一些度量指标,逐渐不断的将模型修正。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-P3JpwQ6e-1667143581712)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/插画图-20221017-01.png)]
在机器学习中,根据学习方式不同,大致归为了如下几类
监督学习,Supervised Learning,对事先处理过的带有标签的数据组进行训练及量化,常见的方式有分类(类别,如球鞋、皮鞋、拖鞋等)与回归(连续性数据,如耗电量、气温等)。
给你一组西瓜数据,告诉你数据的最终结果,X1+X2+X3=Y。
无监督学习,Unsupervised Learning,对没有标签的数据进行建模,对没有事先标记的、无法事先处理的数据进行自动分类/分群,常用的算法有聚类算法及数据降维。
给你一组西瓜数据,不告诉你数据的最终结果,X1,X2,X3。
强化学习,通过自动调整策略获取最大期望回报,自主探索寻找最佳模型,例如AI下棋。
元学习/AutoML - Meta Learning,将机器学习应用于现实问题的端到端流程自动化的过程,从特征工程、模型构建、超参优化三方面实现自动化。
首先我们要清楚,一个机器学习的训练系统构成大致分为了四个步骤
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-A6H25jSs-1667143581713)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/机器学习入门-机器学习系统构成-2.jpg)]
训练数据量不足
在模型的训练构建中,往往需要大量的数据进行学习,大部分机器学习算法需要大量的数据才能正常工作。即使是最简单的问题,很可能也需要成千上万个示例。
为此,我们往往可以去获取一些公开的数据集,辅佐我们进行机器学习。
数据不具代表性
训练数据与结果之间尽可能的存在强关联关系,如训练数据与结果之间关联性较差,使用不具代表性的训练集训练出来的模型不可能做出准确的预估。
例如我想售卖一双毛茸茸的靴子,我前往热带地区进行宣传销售,获取人们的购买意向,显然是不大合理的。
低质量数据与无关特征
一个满是错误的训练集显然是毫无价值的,所以检查训练集也需要一定的时间,只有训练数据里包含足够多的相关特征以及较少的无关特征,系统才能够完成学习。一个成功的机器学习项目,其关键部分是提取出一组好的用来训练的特征集。这个过程叫作特征工程。
下面将与周志华老师一起通过西瓜举例
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TL9XKixl-1667143581713)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/吃了一半在碗里的西瓜-1.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EYfrAqZ0-1667143581713)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/机器学习基础-数据集划分-1.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mTYYTXg4-1667143581714)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/机器学习基础-示例样例划分-1.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Q0k8gdjW-1667143581714)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/机器学习基础-属性特征划分-1.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HaLenfST-1667143581714)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/机器学习基础-属性空间划分-1.png)]
链接 |
---|
数据集-阿里系唯一对外开放数据分享平台 (aliyun.com) |
开放数据集- 飞桨AI Studio - 人工智能学习实训社区 (baidu.com) |
Find Open Datasets for AI Projects | Graviti |
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Np1eUQyl-1667143581714)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/小星球-1.png)]