substr截取中文字符出现乱码的解决方法二则

使用fetch_feed()获取rss数据时,利用substr()函数截取200字节作为内容摘要。但是,substr函数在截取字符时是按字节来截取的,中文字符在GB2312编码时为2个字节,utf-8编码时为3个字节,所以截取指定长度的字符串时如果截断了汉字,那么返回的结果显示出来便会出现乱码。[url='http://www.aduoli.cn']iqr 淘宝[/url][url='http://www.aduoli.cn']iqr 淘宝商城[/url][url='http://www.aduoli.cn']iqr 淘宝女装[/url]

查了一下,网上大多只提到了使用PHP扩展库方法,即利用mb_substr()代替substr()函数。

方法定义:string mb_substr ( string str, int start [, int length [, string encoding]] )

扩展库位置:php.ini中;extension=php_mbstring.dll,去掉前面的分号。

注意:在使用mb_substr()最后要加入多一个参数,以设定字符串的编码,例如,

1
2
3

使用mb_substr()函数可保证不会出现乱码,但缺点是长度统计变成了字符数统计,而不是按字节数统计。用于显示时,同样长度的中文结果和英文结果会出现较大的显示长度的差别。

另外,中文字符常用编码有utf-8和GB2312,一般情况下mb_substr()不能通用于上述两种编码。

枫芸志给我们提供了另外一个方法,转述如下:

这里提供一个函数可较好地解决substr遇到中文字符的问题。此函数由UCHome 1.5中的getstr()函数修改而来。

中文字符按2个长度单位来计算,使得中英文混用环境下字符串截取结果最后的显示长度接近;舍弃最后一个不完整字符,保证不会出现显示上的乱码;且兼容了中文字符常用的utf-8编码和GB2312编码,有很好的通用性。

function getstr($string, $length, $encoding = ‘utf-8′) {
$string = trim($string);

if($length && strlen($string) > $length) {
//截断字符
$wordscut = ”;
if(strtolower($encoding) == ‘utf-8′) {
//utf8编码
$n = 0;
$tn = 0;
$noc = 0;
while ($n < strlen($string)) {
$t = ord($string[$n]);
if($t == 9 || $t == 10 || (32 $tn = 1;
$n++;
$noc++;
} elseif(194 $tn = 2;
$n += 2;
$noc += 2;
} elseif(224 $tn = 3;
$n += 3;
$noc += 2;
} elseif(240 $tn = 4;
$n += 4;
$noc += 2;
} elseif(248 = $length) {
break;
}
}
if ($noc > $length) {
$n -= $tn;
}
$wordscut = substr($string, 0, $n);
} else {
for($i = 0; $i < $length – 1; $i++) { if(ord($string[$i]) > 127) {
$wordscut .= $string[$i].$string[$i + 1];
$i++;
} else {
$wordscut .= $string[$i];
}
}
}
$string = $wordscut;
}
return trim($string);
}

// 示例
echo getstr(“0一二三四五六七”,5).’
‘; // 0一二

你可能感兴趣的:(substr截取中文字符出现乱码的解决方法二则)