Introduction to Data-Centric AI 以数据为中心的人工智能导论


文章目录

  • 前言
  • 一、Data-Centric AI vs. Model-Centric AI
  • 二、Label Errors and Confident Learning
    • 1.引入库
    • 2.读入数据
  • 总结


前言

本博客笔记来源于MIT的课程,Introduction to Data-Centric AI

传统的机器学习流程都是基于给定的数据集,通过选择不同的模型、调参、改进模型等方法,以获得在该数据集上任务的良好表现。但是在现实中,数据是不干净的,即使是如 ImageNet、Cifar-10 这样的大型公开数据集,里面也有不少错误标签,正所谓“garbage in, garbage out”

以数据为中心的人工智能(DCAI)研究的正是改进数据集的技术,虽然长期以来研究人员都会通过一些试验发现数据集中的不足并进行修改,但 DCAI 认为数据的改进是一门系统工程学科


一、Data-Centric AI vs. Model-Centric AI

Model-Centric AI(基于模型的人工智能):

  • 给定一个数据集,目标是构建表现最优的模型
  • 通过改进模型,以提升模型在某类任务上的表现

Data-Centric AI(基于数据的人工智能):

  • 给定一个数据集,目标是改进训练集的质量
  • 通过系统/算法来改进数据集,以提升模型在某类任务上的表现

基于数据的人工智能,有以下的方法:

  • 异常值检测和去除(处理数据集中的异常示例)
  • 错误检测和纠正(处理数据集中不正确的值/标签)
  • 建立共识(从许多人工注释中确定真相)
  • 数据增强(向数据添加示例以编码先验知识)
  • 特征工程和选择(决定数据的表示方式)
  • 主动学习(选择信息最丰富的数据进行下一步标记)
  • 课程学习(将数据集中的示例从最简单到最难排序)

二、Label Errors and Confident Learning

1.引入库

代码如下(示例):

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.读入数据

代码如下(示例):

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。


总结

提示:这里对文章进行总结:

例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

你可能感兴趣的:(人工智能,python,机器学习,深度学习,pytorch)