go标准库中unicode/utf8包

// 编码所需的基本数字
const (
        RuneError  = '\uFFFD'        // 错误的Rune或Unicode代理字符
        RuneSelf  = 0x80               // ASCII字符范围
        MaxRune = '\U0010FFFF'  // Unicode 码点的最大值
        UTFMax = 4                        // 一个字符编码的最大长度
)

// 将r转换为UTF-编码写入p中（p必须足够长，通常为4个字节）
// 如果r是无效的Unicode字符，则写入RuneError
// 返回写入的字节数
func EncodeRune(p []byte, r rune) int

// 解码p中的第一个字符，返回解码后的字符和p中被解码的字节数
// 如果p为空，则返回（RuneError，0)
// 如果p中的编码无效，则返回（RuneError，1）
// 无效编码：UTF-8编码不正确（比如长度不够）、结果超出Unicode范围、编码不是最短的
func DecodeRune(p []byte) (r rune, size int)

// 功能同上，只是参数为字符串
func DecodeRuneInString(s string) (r rune, size int)

// 解码p的最后一个字符，返回解码后的字符，和p中被解码的字节数
// 如果p中的最后一个字符，返回解码后的字符，和p中被解码的字节数
// 如果p为空，则返回（RuneError, 0)
// 如果p中编码无效，则返回（EuneError， 1）
func DecodeLastRune(p []byte) (r rune, size int)

// 功能同上，参数为字符串
func DecodeLastRune(p []byte) (r rune, size int)

// FullRune检测p中第一个字符的UTF-8编码是否完整（完整并不代表有效）。
// 一个无效的编码也被认为是完整字符，因为它将被转换为一个RuneError字符。
// 只有“编码有效但长度不够”的字符才被认为是不完整字符。
// 也就是说，只有截去一个有效字符的一个或多个尾部字节，该字符才算是不完整字符。
// 举例：
//       ”好“      是完整字符（首字节无效，可转换为RuneError字符）
//       ”好“ [1:] 是完整字符（首字节无效，可转换为RuneError字符）
//        ”好“ [2:] 是完整字符（首字节无效，可转换为RuneError字符）
//        "好" [:2] 是不完整（编码有效但长度不够）
//        ”好“ [:1] 是不完整（编码有效但长度不够）
func FullRune(p []byte) bool

// 功能同上，参数为字符串
func FullRuneInString(s string) bool

// 返回p中的字符个数
// 错误的UTF8编码和长度不足的UTF8编码将被当作单字节的RuneError处理
func RuneCount(p []byte) int

// 功能同上
func RuneCountInString(s string) (n int)

// Rune返回需要多少字节来编码字符r，如果r是无效的字符，则返回-1
func RuneLen(r rune) int

// 判断b是否为UTF8字符的首字节编码，最高位（bit）是不是10的字节就是首字节
func RuneStart(b byte) bool

// Valid判断p是否位完整有效的 UTF8 编码序列
func Valid(p []byte) bool

// 功能同上，参数为字符串
func ValidString(s string) bool

// ValidRune 判断r能否被正确的转换为UTF8编码
// 超出Unicode范围的码带你或UTF-16代理区中的码点是不能转换的
func ValidRune(r rune) bool
参考：https://www.cnblogs.com/golove/p/3271597.html
go标准库中unicode/utf8包

你可能感兴趣的:(go标准库中unicode/utf8包)