go标准库中unicode/utf8包

// 编码所需的基本数字
const (
        RuneError  = '\uFFFD'        // 错误的Rune或Unicode代理字符
        RuneSelf  = 0x80               // ASCII字符范围
        MaxRune = '\U0010FFFF'  // Unicode 码点的最大值
        UTFMax = 4                        // 一个字符编码的最大长度
)

// 将r转换为UTF-编码写入p中(p必须足够长,通常为4个字节)
// 如果r是无效的Unicode字符,则写入RuneError
// 返回写入的字节数
func EncodeRune(p []byte, r rune) int

// 解码p中的第一个字符,返回解码后的字符和p中被解码的字节数
// 如果p为空,则返回(RuneError,0)
// 如果p中的编码无效,则返回(RuneError,1)
// 无效编码:UTF-8编码不正确(比如长度不够)、结果超出Unicode范围、编码不是最短的
func DecodeRune(p []byte) (r rune, size int)

// 功能同上,只是参数为字符串
func DecodeRuneInString(s string) (r rune, size int)

// 解码p的最后一个字符,返回解码后的字符,和p中被解码的字节数
// 如果p中的最后一个字符,返回解码后的字符,和p中被解码的字节数
// 如果p为空,则返回(RuneError, 0)
// 如果p中编码无效,则返回(EuneError, 1)
func DecodeLastRune(p []byte) (r rune, size int)

// 功能同上,参数为字符串
func DecodeLastRune(p []byte) (r rune, size int)

// FullRune检测p中第一个字符的UTF-8编码是否完整(完整并不代表有效)。
// 一个无效的编码也被认为是完整字符,因为它将被转换为一个RuneError字符。
// 只有“编码有效但长度不够”的字符才被认为是不完整字符。
// 也就是说,只有截去一个有效字符的一个或多个尾部字节,该字符才算是不完整字符。
// 举例:
//       ”好“      是完整字符(首字节无效,可转换为RuneError字符)
//       ”好“ [1:] 是完整字符(首字节无效,可转换为RuneError字符)
//        ”好“ [2:] 是完整字符(首字节无效,可转换为RuneError字符)
//        "好" [:2] 是不完整(编码有效但长度不够)
//        ”好“ [:1] 是不完整(编码有效但长度不够)
func FullRune(p []byte) bool

// 功能同上,参数为字符串
func FullRuneInString(s string) bool

// 返回p中的字符个数
// 错误的UTF8编码和长度不足的UTF8编码将被当作单字节的RuneError处理
func RuneCount(p []byte) int

// 功能同上
func RuneCountInString(s string) (n int)

// Rune返回需要多少字节来编码字符r,如果r是无效的字符,则返回-1
func RuneLen(r rune) int

// 判断b是否为UTF8字符的首字节编码,最高位(bit)是不是10的字节就是首字节
func RuneStart(b byte) bool

// Valid判断p是否位完整有效的 UTF8 编码序列
func Valid(p []byte) bool

// 功能同上,参数为字符串
func ValidString(s string) bool

// ValidRune 判断r能否被正确的转换为UTF8编码
// 超出Unicode范围的码带你或UTF-16代理区中的码点是不能转换的
func ValidRune(r rune) bool

参考:https://www.cnblogs.com/golove/p/3271597.html

你可能感兴趣的:(go标准库中unicode/utf8包)