substr截取中文字符出现乱码的解决方案

PHP中的substr函数:

string substr ( string $string , int $start [, int $length ] )

返回string中从start位置开始长度为length的字符串

substr函数在截取字符时是按字节来截取的,中文字符在GB2312编码时为2个字节,utf-8编码时为3个字节,所以截取指定长度的字符串时如果截断了汉字,那么返回的结果显示出来便会出现乱码。

查了一下,解决方案归结起来可分两类:

1、改用mb_substr()函数

string mb_substr ( string $str , int $start [, int $length [, string $encoding ]] )

类似substr()函数,只是计数按字符数来计,保证字符安全

使用mb_substr()函数可保证不会出现乱码,但缺点是长度统计变成了字符数统计,而不是按字节数统计。用于显示时,同样长度的中文结果和英文结果会出现较大的显示长度的差别。

2、自建函数增强substr功能

这里提供一个函数可较好地解决substr遇到中文字符的问题。中文字符按2个长度单位来计算,使得中英文混用环境下字符串截取结果最后的显示长度接近;舍弃最后一个不完整字符,保证不会出现显示上的乱码;且兼容了中文字符常用的utf-8编码和GB2312编码,有很好的通用性。

01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
function getstr( $string , $length , $encoding  = 'utf-8' ) {
     $string = trim( $string );
 
     if ( $length && strlen ( $string ) > $length ) {
         //截断字符
         $wordscut = '' ;
         if ( strtolower ( $encoding ) == 'utf-8' ) {
             //utf8编码
             $n = 0;
             $tn = 0;
             $noc = 0;
             while ( $n < strlen ( $string )) {
                 $t = ord( $string [ $n ]);
                 if ( $t == 9 || $t == 10 || (32 <= $t && $t <= 126)) {
                     $tn = 1;
                     $n ++;
                     $noc ++;
                 } elseif (194 <= $t && $t <= 223) {
                     $tn = 2;
                     $n += 2;
                     $noc += 2;
                 } elseif (224 <= $t && $t < 239) {
                     $tn = 3;
                     $n += 3;
                     $noc += 2;
                 } elseif (240 <= $t && $t <= 247) {
                     $tn = 4;
                     $n += 4;
                     $noc += 2;
                 } elseif (248 <= $t && $t <= 251) {
                     $tn = 5;
                     $n += 5;
                     $noc += 2;
                 } elseif ( $t == 252 || $t == 253) {
                     $tn = 6;
                     $n += 6;
                     $noc += 2;
                 } else {
                     $n ++;
                 }
                 if ( $noc >= $length ) {
                     break ;
                 }
             }
             if ( $noc > $length ) {
                 $n -= $tn ;
             }
             $wordscut = substr ( $string , 0, $n );
         } else {
             for ( $i = 0; $i < $length - 1; $i ++) {
                 if (ord( $string [ $i ]) > 127) {
                     $wordscut .= $string [ $i ]. $string [ $i + 1];
                     $i ++;
                 } else {
                     $wordscut .= $string [ $i ];
                 }
             }
         }
         $string = $wordscut ;
     }
     return trim( $string );
}
 
// 示例
echo getstr( "0一二三四五六七" ,1). '
'
// 0
echo getstr( "0一二三四五六七" ,2). '
'
// 0
echo getstr( "0一二三四五六七" ,3). '
'
// 0一
echo getstr( "0一二三四五六七" ,4). '
'
// 0一
echo getstr( "0一二三四五六七" ,5). '
'
// 0一二
echo getstr( "0一a二b三四五六七" ,1). '
'
;    // 0
echo getstr( "0一a二b三四五六七" ,2). '
'
;    // 0
echo getstr( "0一a二b三四五六七" ,3). '
'
;    // 0一
echo getstr( "0一a二b三四五六七" ,4). '
'
;    // 0一a
echo getstr( "0一a二b三四五六七" ,5). '
'
;    // 0一a

此函数由UCHome 1.5中的getstr()函数修改而来。


你可能感兴趣的:(php,每日成长,我的收藏,我的经典,工作积累,我的重要隐藏文件)