【NLP入门教程】一、字符编码和Unicode

这里写自定义目录标题

  • 2.1.1 字符编码的发展
  • 2.1.2 Unicode简介
  • 2.1.3 Python中的字符编码和Unicode

字符编码是一种将字符与数字相互映射的方式,以便计算机可以处理和存储文本信息。在计算机中,所有信息最终都以二进制形式表示,因此字符编码的核心任务就是将字符与二进制数进行映射。随着计算机技术的发展,出现了许多不同的字符编码标准。在本节中,我们将简要介绍字符编码的发展历程以及Unicode的概念。

2.1.1 字符编码的发展

早期的计算机系统主要处理英文文本,因此ASCII(美国标准信息交换码)编码成为了第一个广泛使用的字符编码标准。ASCII使用7位二进制数(128个不同的值)来表示128个字符,包括英文字母、数字、标点符号和一些控制字符。然而,随着计算机技术的全球普及,ASCII编码无法满足其他语言和地区的需求。

为了解决这个问题,各个国家和地区开始开发自己的字符编码标准,如ISO-8859系列、GB2312(中国)、Shift-JIS(日本)等。这些编码标准各自使用8位或16位二进制数来表示更多的字符,但同时也带来了新的问题:不同编码之间的兼容性问题。例如,同一个二进制数在不同编码下可能对应不同的字符,这导致了文本信息在不同系统间传输时可能出现乱码现象。

2.1.2 Unicode简介

为了

你可能感兴趣的:(NLP入门教程,python,tf-idf,nlp)