人工智能基础 | 机器学习介绍(一)

文章目录

  • 前言
  • 一、机器学习中的学习方式
  • 二、机器学习所面临的挑战
  • 三、基本术语
  • 四、国内公开数据集

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-glPfYqcG-1667143581711)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/公众号横幅-1.png)]

前言

以下内容是在学习过程中的一些笔记,难免会有错误和纰漏的地方。如果造成任何困扰,很抱歉。

什么是机器学习?

机器学习是一门通过编程让计算机从数据中进行学习的科学(和艺术)。下面是一个稍微通用一点的定义:机器学习是一个研究领域,让计算机无须进行明确编程就具备学习能力。——亚瑟·萨缪尔(Arthur Samuel),1959

机器学习就是一种机器处理问题使用拟人化方式的一种解决方案,通过自主性的学习问题处理方式来解决问题,在生活中,我们常常说的小红书、淘宝等厂家的大数据算法推荐,都是基于用户习惯进行学习,来给用户推荐最合适的产品/文章。

人的大脑是非常复杂的,机器学习如何通过这种拟人化的学习处理方式来解决实际问题?我们先从人类的大脑开始构思,人的大脑都是由无数个神经元构成,神经元之间相互通过脉络链接,组成一个庞大的神经元网络。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-39j1lMKA-1667143581712)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/头脑风暴-11.png)]

当人看到一只猫?抑或是一只狗时,神经元网络会如何处理这些信息?

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YMZL0BBr-1667143581712)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/猫狗动态图机器学习.gif)]

当一组图像输入到神经网络中,会被拆解成无数个可识别的/不可识别的标签,经过层层算法递进,找到最终自认为正确的一个结果(是猫是狗或是其它)。

单个神经网络由多个互联的神经元构成,组织形式叫,某一层的神经元会将消息传递到其下一层神经元(术语为“发射”),这即是神经网络的运行方式。具有单个线性层的模型叫做感知器,如果模型中含有多个线性层,则称之为多层感知器(MLP)。

事实上,机器学习的模型就是一种计算函数的方法,这个函数把对应的输入映射到对应的输出上,在这个过程中,通过损失函数(待优化的内容)的一些度量指标,逐渐不断的将模型修正。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-P3JpwQ6e-1667143581712)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/插画图-20221017-01.png)]

一、机器学习中的学习方式

在机器学习中,根据学习方式不同,大致归为了如下几类

  • 监督学习,Supervised Learning,对事先处理过的带有标签的数据组进行训练及量化,常见的方式有分类(类别,如球鞋、皮鞋、拖鞋等)与回归(连续性数据,如耗电量、气温等)。

    给你一组西瓜数据,告诉你数据的最终结果,X1+X2+X3=Y。

  • 无监督学习,Unsupervised Learning,对没有标签的数据进行建模,对没有事先标记的、无法事先处理的数据进行自动分类/分群,常用的算法有聚类算法及数据降维。

    给你一组西瓜数据,不告诉你数据的最终结果,X1,X2,X3。

  • 强化学习,通过自动调整策略获取最大期望回报,自主探索寻找最佳模型,例如AI下棋。

  • 元学习/AutoML - Meta Learning,将机器学习应用于现实问题的端到端流程自动化的过程,从特征工程、模型构建、超参优化三方面实现自动化。

二、机器学习所面临的挑战

首先我们要清楚,一个机器学习的训练系统构成大致分为了四个步骤

  1. 数据预处理 -> 相当于数据的准备;
  2. 算法学习 -> 根据数据的具体情况选择合适的机器学习方式,根据不同的精度选择合适的算法;
  3. 模型验证;
  4. 模型预测;

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-A6H25jSs-1667143581713)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/机器学习入门-机器学习系统构成-2.jpg)]

训练数据量不足

在模型的训练构建中,往往需要大量的数据进行学习,大部分机器学习算法需要大量的数据才能正常工作。即使是最简单的问题,很可能也需要成千上万个示例。

为此,我们往往可以去获取一些公开的数据集,辅佐我们进行机器学习。

数据不具代表性

训练数据与结果之间尽可能的存在强关联关系,如训练数据与结果之间关联性较差,使用不具代表性的训练集训练出来的模型不可能做出准确的预估。

例如我想售卖一双毛茸茸的靴子,我前往热带地区进行宣传销售,获取人们的购买意向,显然是不大合理的。

低质量数据与无关特征

一个满是错误的训练集显然是毫无价值的,所以检查训练集也需要一定的时间,只有训练数据里包含足够多的相关特征以及较少的无关特征,系统才能够完成学习。一个成功的机器学习项目,其关键部分是提取出一组好的用来训练的特征集。这个过程叫作特征工程。

三、基本术语

下面将与周志华老师一起通过西瓜举例

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TL9XKixl-1667143581713)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/吃了一半在碗里的西瓜-1.png)]

  • 数据集:训练集、测试集

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EYfrAqZ0-1667143581713)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/机器学习基础-数据集划分-1.png)]

  • 示例(instance)、样例(example)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mTYYTXg4-1667143581714)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/机器学习基础-示例样例划分-1.png)]

  • 样本(sample)
  • 属性、特征(feature)、属性值

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Q0k8gdjW-1667143581714)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/机器学习基础-属性特征划分-1.png)]

  • 属性空间、样本空间、输入空间
  • 特征向量

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HaLenfST-1667143581714)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/机器学习基础-属性空间划分-1.png)]

  • 标记空间、输出空间

四、国内公开数据集

链接
数据集-阿里系唯一对外开放数据分享平台 (aliyun.com)
开放数据集- 飞桨AI Studio - 人工智能学习实训社区 (baidu.com)
Find Open Datasets for AI Projects | Graviti

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Np1eUQyl-1667143581714)(https://csdn-pic-1301850093.cos.ap-guangzhou.myqcloud.com/csdn-pic/小星球-1.png)]

你可能感兴趣的:(机器学习,人工智能,机器学习,神经网络)