机器学习大作业《Kaggle赛题之Kannada MNIST研究》论文和Python代码

一、赛题概述及分析

1、背景介绍

邮政系统每天都会处理大量的信件,最为要紧的一环是要根据信件上的收信人邮编进行识别和分类,以便确定信件的投送地。原本这项任务是依靠大量的人工来进行,后来人们尝试让计算机来替代人工。然而,因为多数的邮编都是手写的数字,并且样式各异,所以没有统一编制的规则可以很好地用于识别和分类。

20世纪80年代,美国国家标准与技术研究所(National Institute of Standards and Technology,即NIST)建立了经典的MNIST数据集,该数据集由250个不同人手写的阿拉伯数字构成,其中50%是高中生,50%来自人口普查局的工作人员,测试集也是相同比例的手写数字数据。MNIST数据集是机器学习领域的一个经典数据集,该数据集包含6万张训练图像和1万张测试图像,其历史几乎和这个领域一样长,而且被人们深入研究。

该赛题的目的是为经典的基于手写阿拉伯数字集MNIST竞赛提供一个简单的扩展,且使用了最近发布的卡纳达语数字集。卡纳达语是印度西南部卡纳塔克邦的官方行政语言,该语言全球有近6000万人使用,根据印度宪法第344(1)和351条,卡纳达语是印度22种语言之一。该语言是使用官方的卡纳达语手迹编写的,该脚本是Brahmic家族的元音附标文字,其起源可追溯到Kadamba手迹(公元325-550),如图1、图2所示。

机器学习大作业《Kaggle赛题之Kannada MNIST研究》论文和Python代码_第1张图片

你可能感兴趣的:(机器学习大作业《Kaggle赛题之Kannada MNIST研究》论文和Python代码)