PB9和PB11.5字符处理实例

pb9 是 ANSI 的单字节字符集版本,只能识别 ANSI 标准中 ascii 码范围在 0~127 的字符,pb 直接将 ascii 码等于 200 的字符交给操作系统,并告知该字符是一个符合 ANSI 标准的字符。操作系统就会使用 ANSI 版本的中文字符集进行解释(例如 GB2312);但由于中文是双字节字符集,无法转换单个 ascii 码为可显示的符号,故以问号代替。

pb10 以上是 Unicode 的多字节字符集版本,可识别 UTF8, UTF16LE(default), UTF16BE 字符集的字符,pb 先把 ascii 码等于 200 的字符补足为两字节(形如 C8 00),然后再交给操作系统,并告知该字符是一个符合 Unicode(比如 UTF16LE)标准的字符,操作系统就会使用 Unicode 版本的中文字符集进行解释(例如 ZHS16GBK);在双字节字符集中,高位字节为 0, 低位字节为 200 的字符是可显示的符号。

Char() 与 CharA() 的差别在于读取被转换的字符串或 blob 时,Char() 读取两个字节,而 CharA() 只读取一个字节,所以返回的结果一个是 C8 00,一个是 C8;但由于 MessageBox() 会自动对 char 类型参数用 String() 进行转换,也就是 MessageBox("", String(CharA(200))),所以 CharA() 返回的 C8 实际上也被自动转换为两字节后再传给操作系统,故而显示是一样的结果。

ps: pb10 之后新增了一种字节数据类型 byte,在需要操作 ANSI 字符集的 blob 场合可以考虑使用。

PB9:

Ansi 到 Unicode 的最大问题在于 Asc()函数,因为 Ansi 字符集的 ascii 码和 Unicode 字符集的 ascii 码除了 0~127 表示相同的字符外,其它的都不相同。所以对于 ascii 扩展字符或汉字,pb9 与之后的版本会取到完全不同的 ascii 码。解决方法是按字节而不是按字符取其 ascii 码,但由于 AscA() 无法转换 ascii 码大于 128 的 Unicode 字符,因为在 Ansi 中没有对应编码(不同国家对扩展 ascii 码的定义不同),所以 AscA() 基本上形同虚设!办法是先把单字节字符转换为双字节字符,再用 Asc() 直接读出。


//Public function pub_f_str_xor (string abl_source) returns string  


long i
long ll_len1
long ll_len2
long ll_key[]
long ll_source
long ll_keychr
blob lbl_source, lbl_text
blob{2} lbl_word // 两个空字节
byte lby_buf
string as_key




as_key = "cntao"
ll_len1 = LenA(as_key)
for i = ll_len1 to 1 step -1
ll_key[i] = AscA(MidA(as_key, i, 1))
next


lbl_source = Blob(as_source, EncodingANSI!)
lbl_text = lbl_source // 初始化变量


ll_len2 = LenA(lbl_source)
for i = 1 to ll_len2
lbl_word = BlobMid(lbl_source, i, 1) // 覆盖第一个字节,第二个字节保持为 0
ll_source = Asc(Char(lbl_word)) // 得到第一个字节的 ascii 码 
ll_keychr = ll_key[1 + (Mod(i - 1, ll_len1))]
SetByte(lbl_text, i, Byte(256 + ll_keychr - ll_source))
next


//messagebox("pb12 [" + as_source + "]", "[" + string(lbl_text, EncodingANSI!) + "]")


return String(lbl_text, EncodingANSI!)

你可能感兴趣的:(杂项)