Lua 最强大的特性之一就是它的字符串处理能力,它支持字符格式化输出,具有可扩展的模式匹配查找功能,以及一些实用的字符操作,例如查询、截取、替换和删除等字符串操作,这些字符串操作函数都封装在一个名为 string 的模块里。
Lua 里的字符索引是从 1 开始,索引值也可以是负数,这种情况将被解释成向后索引,从字符串末尾开始算起。
下面是 Lua 5.2 提供的字符串操作函数:
byte
函数 string.byte 把字符串里的第 i 个字符转为 ASCII 编码,默认是输出第一个字符的编码(只有一个参数的话),用法:
1
|
string.byte
(s [, i [, j]])
|
例子:
1
|
print
(
string.byte
(
"abc"
))
|
1
|
print
(
string.byte
(
"abc"
,
2
))
|
char
函数 string.char 是把一个 ASCII 编码转换为对应的字符,用法:
1
|
string.char
(asc1, ...)
|
例子:
1
|
print
(
string.char
(
97
))
|
1
|
print
(
string.char
(
99
,
100
,
101
))
|
dump
函数 string.dump 返回一个函数二进制形式的字符串,用法:
1
|
string.dump
(
function
)
|
参数 function 是一个 Lua 函数:
1
2
3
4
|
function
test()
print
(
"just a test"
)
end
print
(
string.dump
(test))
|
函数 string.dump 实现了函数的序列化,函数可以很轻松的传递,并在其他作用域调用。函数 string.dump 出来的二进制字符串,可以用 load 函数反序列回来直接调用。
1
2
3
4
5
6
7
8
|
function
test()
print
(
"just a test"
)
end
local
sd =
string.dump
(test)
print
(sd)
local
ls = load(sd)
print
(ls)
ls()
|
find
函数 string.find 查找字符串 s 里第一个符合查找字符 pattern 的位置,用法:
1
|
string.find
(s, pattern [, init [, plain]])
|
如果找到了目标字符 pattern,则返回它的开始和结束位置:
1
2
|
start,
end
=
string.find
(
"just a test"
,
"st"
)
print
(start,
end
)
|
如果没有找到,则返回 nil:
1
|
print
(
string.find
(
"just a test"
,
"dhq.me"
))
|
. 任意字符
%a 字母
%c 控制字符
%d 数字
%l 小写字母
%p 标点字符
%s 空白符
%u 大写字母
%w 字母和数字
%x 十六进制数字
%z 代表0的字符
上面字符类的大写形式表示小写所代表的集合的补集。例如,'%A'非字母的字符:
print(string.gsub("hello, up-down!", "%A", "."))
--> hello..up.down. 4
(数字4不是字符串结果的一部分,他是gsub返回的第二个结果,代表发生替换的次数。下面其他的关于打印gsub结果的例子中将会忽略这个数值。)在模式匹配中有一些特殊字符,他们有特殊的意义,Lua中的特殊字符如下:
( ) . % + - * ? [ ^ $
'%' 用作特殊字符的转义字符,因此 '%.' 匹配点;'%%' 匹配字符 '%'。转义字符 '%'不仅可以用来转义特殊字符,还可以用于所有的非字母的字符。当对一个字符有疑问的时候,为安全起见请使用转义字符转义他。
对 Lua而言,模式串就是普通的字符串。他们和其他的字符串没有区别,也不会受到特殊对待。只有他们被用作模式串用于函数的时候,'%' 才作为转义字符。所以,如果你需要在一个模式串内放置引号的话,你必须使用在其他的字符串中放置引号的方法来处理,使用 '\' 转义引号,'\' 是Lua的转义符。你可以使用方括号将字符类或者字符括起来创建自己的字符类(译者:Lua称之为char-set,就是指传统正则表达式概念中的括号表达式)。比如,'[%w_]' 将匹配字母数字和下划线,'[01]' 匹配二进制数字,'[%[%]]' 匹配一对方括号。下面的例子统计文本中元音字母出现的次数:
_, nvow = string.gsub(text, "[AEIOUaeiou]", "")
在 char-set中可以使用范围表示字符的集合,第一个字符和最后一个字符之间用连字符连接表示这两个字符之间范围内的字符集合。大部分的常用字符范围都已经预定义好了,所以一般你不需要自己定义字符的集合。比如,'%d' 表示 '[0-9]';'%x' 表示 '[0-9a-fA-F]'。然而,如果你想查找八进制数,你可能更喜欢使用 '[0-7]' 而不是 '[01234567]'。你可以在字符集(char-set)的开始处使用 '^' 表示其补集:'[^0-7]' 匹配任何不是八进制数字的字符;'[^\n]' 匹配任何非换行符户的字符。记住,可以使用大写的字符类表示其补集:'%S' 比 '[^%s]' 要简短些。
Lua的字符类依赖于本地环境,所以 '[a-z]' 可能与 '%l' 表示的字符集不同。在一般情况下,后者包括 'ç' 和 'ã',而前者没有。应该尽可能的使用后者来表示字母,除非出于某些特殊考虑,因为后者更简单、方便、更高效。
可以使用修饰符来修饰模式增强模式的表达能力,Lua中的模式修饰符有四个:
+ 匹配前一字符1次或多次
* 匹配前一字符0次或多次
- 匹配前一字符0次或多次
? 匹配前一字符0次或1次
'+',匹配一个或多个字符,总是进行最长的匹配。比如,模式串 '%a+' 匹配一个或多个字母或者一个单词:
print(string.gsub("one, and two; and three", "%a+", "word"))
--> word, word word; word word
'%d+' 匹配一个或多个数字(整数):
i, j = string.find("the number 1298 is even", "%d+")
print(i,j) --> 12 15
'*' 与 '+' 类似,但是他匹配一个字符0次或多次出现.一个典型的应用是匹配空白。比如,为了匹配一对圆括号()或者括号之间的空白,可以使用 '%(%s*%)'。( '%s*' 用来匹配0个或多个空白。由于圆括号在模式中有特殊的含义,所以我们必须使用 '%' 转义他。)再看一个例子,'[_%a][_%w]*' 匹配Lua程序中的标示符:字母或者下划线开头的字母下划线数字序列。
'-' 与 '*' 一样,都匹配一个字符的0次或多次出现,但是他进行的是最短匹配。某些时候这两个用起来没有区别,但有些时候结果将截然不同。比如,如果你使用模式 '[_%a][_%w]-' 来查找标示符,你将只能找到第一个字母,因为 '[_%w]-' 永远匹配空。另一方面,假定你想查找C程序中的注释,很多人可能使用 '/%*.*%*/'(也就是说 "/*" 后面跟着任意多个字符,然后跟着 "*/" )。然而,由于 '.*' 进行的是最长匹配,这个模式将匹配程序中第一个 "/*" 和最后一个 "*/" 之间所有部分:
test = "int x; /* x */ int y; /* y */"
print(string.find(test, "(/%*.*%*/)"))
format
函数 string.format 用于把字符串格式化输出,用法:
1
|
string.format
(formatstring, ···)
|
string.format 函数的第一个参数是用来指定字符串的格式,例如:
1
|
print
(
string.format
(
"%s is %d"
,
"ten"
,
10
))
|
上面例子里的 %s 表示字符串,%d 表示数字,它们是 Lua 的格式化输出符号。
string.format 函数的用法跟 C 语言里的 printf 函数类似,例如它可以像 printf 那样输出指定位数的数字:
1
2
|
Pi =
3.1415926
print
(
string.format
(
"Pi is %.2f"
, Pi))
|
Lua 的字符格式化输出符号列表:
1
2
3
4
5
6
7
8
9
10
11
12
|
. 所有字符
%a 字母
%c 控制符
%d 数字
%D 非数字
%l 小写字母
%p 标点符号
%s 字符串
%u 大写字母
%w 字母数字
%x 十六进制数
%z 用 0 表示的字符
|
gmatch
函数 string.gmatch 会返回一个迭代函数,尅通过该函数遍历到一个字符串 s 中所有出现指定匹配模式 pattern 的地方,用法:
1
|
string.gmatch
(s, pattern)
|
例如下面是找出字符串 s 里的所有单词:
1
2
3
4
|
s =
"just a test"
for w in
string.gmatch
(s,
"%a+"
)
do
print
(w)
end
|
gsub
函数 string.gsub 用于全局字符串替换,字符串 s 里满足匹配模式 pattern 格式的字符都会被替换成 repl 参数的值,用法:
1
|
string.gsub
(s, pattern, repl [, n])
|
例如:
1
|
print
(
string.gsub
(
"just a test"
,
"st"
,
"*"
))
|
匹配模式 pattern 可以是一个正则:
1
2
|
s =
"num is 1234567890"
print
(
string.gsub
(s,
"%d"
,
"*"
))
|
可在函数的最后加上一个可选参数 n,表示指定要替换的次数:
1
2
|
s =
"sethook, setlocal, setmetatable, setupvalue, setuservalue"
print
(
string.gsub
(s,
"s%a+"
,
"S"
,
2
))
|
len
函数 string.len 用于返回字符串 s 的长度,用法:
1
|
string.len
(s)
|
例子:
1
|
print
(
string.len
(
"abcdefg"
))
|
lower
函数 string.lower 用于把字符串 s 里的字母转为小写,用法:
1
|
string.lower
(s)
|
例如:
1
|
print
(
string.lower
(
"AbCdEfG"
))
|
match
函数 string.match 用于查找字符串 s 里第一个匹配对模式 pattern 的值,并返回匹配值,用法:
1
|
string.match
(s, pattern [, init])
|
上面参数 init 是可选, 表示查找过程的起点, 默认从 1 开始:
1
|
print
(
string.match
(
"just a test"
,
"test"
))
|
参数 patter 可以是一个正则模式:
1
2
|
t =
"today is 2003-5-31"
print
(
string.match
(t,
"%d+-%d+-%d+"
))
|
如果 pattern 为空,则返回整个字符串;如果没匹配成功,则返回 nil。
1
|
print
(
string.match
(
"abcdabcd"
,
"a"
))
|
rep
函数 string.rep 返回一个由分隔符 sep 隔开的重复(repeat)n 次字符 s 的字符串,用法:
1
|
string.rep
(s, n [, sep])
|
默认的分隔符 sep 是空字符。
1
|
print
(
string.rep
(
"repeat"
,
3
))
|
reverse
函数 string.reverse 用于倒转一个字符串 s 的排序,用法:
1
|
string.reverse
(s)
|
例如:
1
|
print
(
string.reverse
(
"reverse"
))
|
sub
函数 string.sub 用于从字符串 s 里截取一个从第 i 个字符到第 j 个字符间的子字符串,用法:
1
|
string.sub
(s, i [, j])
|
例如:
1
|
print
(
string.sub
(
"abcdefg"
,
2
,
5
))
|
参数 i 可以是负数,这种情况下,子串的位置从字符串 s 的最后开始算起:
1
|
print
(
string.sub
(
"abcdefg"
, -
4
, -
2
))
|
参数 end 省略的话,则会返回从 i 到字符串末尾的子字符串:
1
|
print
(
string.sub
(
"abcdefg"
,
3
))
|
upper
函数 string.upper 用于把字符串 s 里的字母转为大写,用法:
1
|
string.upper
(s)
|
例如:
1
|
print
(
string.upper
(
"AbCdEfG"
))
|
字符串库中的一些函数是非常简单的:
string.len(s) 返回字符串s的长度;
string.rep(s, n) 返回重复n次字符串s的串;你使用string.rep("a", 2^20)可以创建一个1M bytes的字符串(比如,为了测试需要);
string.lower(s) 将s中的大写字母转换成小写(string.upper将小写转换成大写)。如果你想不关心大小写对一个数组进行排序的话,你可以这样:
table.sort(a, function (a, b) return string.lower(a) < string.lower(b) end)
string.upper(s) 将s中的小写字母转换成大写
string.upper和string.lower都依赖于本地环境变量。所以,如果你在 European Latin-1环境下,表达式:
string.upper("a??o") --> "A??O"
string.sub(s,i,j) 函数截取字符串s的从第i个字符到第j个字符之间的串。Lua中,字符串的第一个字符索引从1开始。你也可以使用负索引,负索引从字符串的结尾向前计数:-1指向最后一个字符,-2指向倒数第二个,以此类推。所以, string.sub(s, 1, j)返回字符串s的长度为j的前缀;string.sub(s, j, -1)返回从第j个字符开始的后缀。如果不提供第3个参数,默认为-1,因此我们将最后一个调用写为string.sub(s, j);string.sub(s, 2, -2)返回去除第一个和最后一个字符后的子串。
s = "[in brackets]"
print(string.sub(s, 2, -2)) --> in brackets
记住:Lua中的字符串是恒定不变的。string.sub函数以及Lua中其他的字符串操作函数都不会改变字符串的值,而是返回一个新的字符串。一个常见的错误是:
string.sub(s, 2, -2)
认为上面的这个函数会改变字符串s的值。如果你想修改一个字符串变量的值,你必须将变量赋给一个新的字符串:
s = string.sub(s, 2, -2)
string.char函数和string.byte函数用来将字符在字符和数字之间转换。string.char获取0个或多个整数,将每一个数字转换成字符,然后返回一个所有这些字符连接起来的字符串。string.byte(s, i)将字符串s的第i个字符的转换成整数;第二个参数是可选的,缺省情况下i=1。下面的例子中,我们假定字符用ASCII表示:
print(string.char(97)) --> a
i = 99; print(string.char(i, i+1, i+2)) --> cde
print(string.byte("abc")) --> 97
print(string.byte("abc", 2)) --> 98
print(string.byte("abc", -1)) --> 99
上面最后一行,我们使用负数索引访问字符串的最后一个字符。
Lua提供了string.format()函数来生成具有特定格式的字符串, 函数的第一个参数是格式(formatstring), 之后是对应格式中每个代号的各种数据. 由于格式字符串的存在, 使得产生的长字符串可读性大大提高了. 这个函数的格式很像C语言中的printf().函数string.format在用来对字符串进行格式化的时候,特别是字符串输出,是功能强大的工具。这个函数有两个参数,你完全可以照C语言的printf来使用这个函数。第一个参数为格式化串:由指示符和控制格式的字符组成。指示符后的控制格式的字符可以为:十进制'd';十六进制'x';八进制'o';浮点数'f';字符串's'。在指示符'%'和控制格式字符之间还可以有其他的选项:用来控制更详细的格式,比如一个浮点数的小数的位数:
格式字符串可能包含以下的转义码:
%c - 接受一个数字, 并将其转化为ASCII码表中对应的字符
%d, %i - 接受一个数字并将其转化为有符号的整数格式
%o - 接受一个数字并将其转化为八进制数格式
%u - 接受一个数字并将其转化为无符号整数格式
%x - 接受一个数字并将其转化为十六进制数格式, 使用小写字母
%X - 接受一个数字并将其转化为十六进制数格式, 使用大写字母
%e - 接受一个数字并将其转化为科学记数法格式, 使用小写字母e
%E - 接受一个数字并将其转化为科学记数法格式, 使用大写字母E
%f - 接受一个数字并将其转化为浮点数格式
%g(%G) - 接受一个数字并将其转化为%e(%E, 对应%G)及%f中较短的一种格式
%q - 接受一个字符串并将其转化为可安全被Lua编译器读入的格式
%s - 接受一个字符串并按照给定的参数格式化该字符串
为进一步细化格式, 可以在%号后添加参数. 参数将以如下的顺序读入:
(1) 符号: 一个+号表示其后的数字转义符将让正数显示正号. 默认情况下只有负数显示符号.
(2) 占位符: 一个0, 在后面指定了字串宽度时占位用. 不填时的默认占位符是空格.
(3) 对齐标识: 在指定了字串宽度时, 默认为右对齐, 增加-号可以改为左对齐.
(4) 宽度数值
(5) 小数位数/字串裁切: 在宽度数值后增加的小数部分n, 若后接f(浮点数转义符, 如%6.3f)则设定该浮点数的小数只保留n位, 若后接s(字符串转义符, 如%5.3s)则设定该字符串只显示前n位.
在这些参数的后面则是上述所列的转义码类型(c, d, i, f, ...).
print(string.format("pi = %.4f", PI))
--> pi = 3.1416
d = 5; m = 11; y = 1990
print(string.format("%02d/%02d/%04d", d, m, y))
--> 05/11/1990
tag, title = "h1", "a title"
print(string.format("<%s>%s%s>", tag, title, tag))
--> a title
第一个例子,%.4f代表小数点后面有4位小数的浮点数。第二个例子%02d代表以固定的两位显示十进制数,不足的前面补0。而%2d前面没有指定0,不足两位时会以空白补足。对于格式串部分指示符得详细描述清参考lua手册,或者参考C手册,因为Lua调用标准C的printf函数来实现最终的功能。
以下是一些例子:
string.format("%%c: %c", 83) 输出S
string.format("%+d", 17.0) 输出+17
string.format("%05d", 17) 输出00017
string.format("%o", 17) 输出21
string.format("%u", 3.14) 输出3
string.format("%x", 13) 输出d
string.format("%X", 13) 输出D
string.format("%e", 1000) 输出1.000000e+03
string.format("%E", 1000) 输出1.000000E+03
string.format("%6.3f", 13) 输出13.000
string.format("%q", "One\nTwo") 输出"One\
Two"
string.format("%s", "monkey") 输出monkey
string.format("%10s", "monkey") 输出 monkey
string.format("%5.3s", "monkey") 输出 mon