ruby1.9的中文处理

# -*- coding: utf-8 -*-


Matz在谈到ruby的m17n的时候说道:

引用
除了字符操作上会出现一些不兼容外,也没什么了,比如”abc”[0]将返回’a’而不是97,并且字符串索引(string indexing)将基于字符而不是字节(译者注:中文及其它一些多字节语言每个字符可能需要占据多个字节),我想如果要说最大的变化,那就是我们可以宣称我们现在支持Unicode了。

但是与Perl或者Python不同,Ruby的M17N不会基于Unicode实现,它将会是字符编码独立的(character set independent ,CSI),它将能够处理Unicode,ISO8859,EUC-JP或者是别的随便什么编码,而不用将他们转换为Unicode。

有些人可能会产生误解,以为我们仇恨Unicode,其实不是这样的,如果条件允许的话,我当然也很乐意使用Unicode,但是由于历史的原因,有很多的编码规范(比如Shift_JIS就有至少5中变化),它们之间只是在某些字符的映射上存在一些小差异,但不幸的是,我们无法区别它们,因此如果强行将它们转换为Unicode,将会造成信息丢失。


果然是因为日文的编码==||

你可能感兴趣的:(python,perl,Ruby)