string substr ( string $string , int $start [, int $length ] )
返回string中从start位置开始长度为length的字符串
substr函数在截取字符时是按字节来截取的,中文字符在GB2312编码时为2个字节,utf-8编码时为3个字节,所以截取指定长度的字符串时如果截断了汉字,那么返回的结果显示出来便会出现乱码。
查了一下,解决方案归结起来可分两类:
1、改用mb_substr()函数
string mb_substr ( string $str , int $start [, int $length [, string $encoding ]] )
类似substr()函数,只是计数按字符数来计,保证字符安全
使用mb_substr()函数可保证不会出现乱码,但缺点是长度统计变成了字符数统计,而不是按字节数统计。用于显示时,同样长度的中文结果和英文结果会出现较大的显示长度的差别。
2、自建函数增强substr功能
这里提供一个函数可较好地解决substr遇到中文字符的问题。中文字符按2个长度单位来计算,使得中英文混用环境下字符串截取结果最后的显示长度接近;舍弃最后一个不完整字符,保证不会出现显示上的乱码;且兼容了中文字符常用的utf-8编码和GB2312编码,有很好的通用性。
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
|
function
getstr(
$string
,
$length
,
$encoding
=
'utf-8'
) {
$string
= trim(
$string
);
if
(
$length
&&
strlen
(
$string
) >
$length
) {
//截断字符
$wordscut
=
''
;
if
(
strtolower
(
$encoding
) ==
'utf-8'
) {
//utf8编码
$n
= 0;
$tn
= 0;
$noc
= 0;
while
(
$n
<
strlen
(
$string
)) {
$t
= ord(
$string
[
$n
]);
if
(
$t
== 9 ||
$t
== 10 || (32 <=
$t
&&
$t
<= 126)) {
$tn
= 1;
$n
++;
$noc
++;
}
elseif
(194 <=
$t
&&
$t
<= 223) {
$tn
= 2;
$n
+= 2;
$noc
+= 2;
}
elseif
(224 <=
$t
&&
$t
< 239) {
$tn
= 3;
$n
+= 3;
$noc
+= 2;
}
elseif
(240 <=
$t
&&
$t
<= 247) {
$tn
= 4;
$n
+= 4;
$noc
+= 2;
}
elseif
(248 <=
$t
&&
$t
<= 251) {
$tn
= 5;
$n
+= 5;
$noc
+= 2;
}
elseif
(
$t
== 252 ||
$t
== 253) {
$tn
= 6;
$n
+= 6;
$noc
+= 2;
}
else
{
$n
++;
}
if
(
$noc
>=
$length
) {
break
;
}
}
if
(
$noc
>
$length
) {
$n
-=
$tn
;
}
$wordscut
=
substr
(
$string
, 0,
$n
);
}
else
{
for
(
$i
= 0;
$i
<
$length
- 1;
$i
++) {
if
(ord(
$string
[
$i
]) > 127) {
$wordscut
.=
$string
[
$i
].
$string
[
$i
+ 1];
$i
++;
}
else
{
$wordscut
.=
$string
[
$i
];
}
}
}
$string
=
$wordscut
;
}
return
trim(
$string
);
}
// 示例
echo
getstr(
"0一二三四五六七"
,1).
'
;
// 0
echo
getstr(
"0一二三四五六七"
,2).
'
;
// 0
echo
getstr(
"0一二三四五六七"
,3).
'
;
// 0一
echo
getstr(
"0一二三四五六七"
,4).
'
;
// 0一
echo
getstr(
"0一二三四五六七"
,5).
'
;
// 0一二
echo
getstr(
"0一a二b三四五六七"
,1).
'
;
// 0
echo
getstr(
"0一a二b三四五六七"
,2).
'
;
// 0
echo
getstr(
"0一a二b三四五六七"
,3).
'
;
// 0一
echo
getstr(
"0一a二b三四五六七"
,4).
'
;
// 0一a
echo
getstr(
"0一a二b三四五六七"
,5).
'
;
// 0一a
|
此函数由UCHome 1.5中的getstr()函数修改而来。