VB编程中的Unicode vs Ansi

VB编程中的Unicode vs Ansi
━━━━━━━━━━━━━━━━━━━━━━━━━━

作者:枕善居主

Unicode vs Ansi
Visual Basic 32 - bit 版本的字串处理采用 Unicode,也就是说字串在 VB 内部是以
Unicode 的格式来存放。

何谓 Unicode?简单的说,就是每一个字元都是以 2 - Byte 的型式表示,而每个「实
体字元」就是一个「字元」。因此,

Len (" 大家好" )
Len (" abc" )

所传回的值都是 3,因为「大」和「a」都是一个字元。

但是这对一些中文字串处理,例如纯文字的资料档,却是一个大灾难,因为你必须以
Byte 来定位每个字元,可是 Unicode 却把一切的处理全搞砸了。例如:

Len (" Good Morning" 传回 12,而
Len (" 今天天气很好" 传回 6

对初学者而言,好不容易能使用 VB 来写程式已经是件了不起的事了,却马上在中文
处理上挨了一记闷棍,所受到的打击实在不小。但是不要怕,事实上只要再多了解一
些指令,就可以把中文处理的问题解决了。

是什麽指令呢?最重要的莫过於 StrConv 了。StrConv 函式的语法为:

StrConv (待转换字串, 转换格式 )

其中转换格式在这里用到的是:

vbUnicode 将 Ansi 字串转换为 Unicode
vbFromUnicode 将 Unicode 字串转换为 Ansi

将字串转成 Ansi 之後,所有的字串处理指令都要加个 B,例如:LeftB, RightB,
MidB, ChrB, InstrB, LenB, InputB 等。例用这些指令来处理就行了。

当你处理完毕之後,你可以再将它再转回 Unicode,这样就可以使用一般的字串处理
指令了。

这样讲看得懂吗?如果还是不了解,看看下面的实例说明:

[●] 简易使用范例

看看下面的基本范例您应该就会对 VB 的字串处理方式有些概念。

Private Sub Command1_Click  ()
    
Dim sUnicode  As String
    Dim 
sAnsi  As String

    
' Unicode 运算
    
sUnicode  " 王小明,A123456789,651023,台北市中山路100号,(02)2345678"
    Debug. Print Len (sUnicode ' 传回 44
    
Debug. Print Mid$ (sUnicode, 5, 10 ' 传回 A123456789
    
Debug. Print InStr (sUnicode, " 台北市" ' 传回 23

    ' 将 Unicode 字串转成 Ansi
    
sAnsi  StrConv (sUnicode, vbFromUnicode )
    
' Ansi 运算
    
Debug. Print LenB (sAnsi ' 传回 54
    
Debug. Print MidB$ (sAnsi, 8, 10 ' 传回 ?????,因为忘了转回 Unicode
    
Debug. Print StrConv (MidB$ (sAnsi, 8, 10 ), vbUnicode ' 传回 A123456789,请注意转回 Unicode 的动作一定要做
    
Debug. Print InStrB (sAnsi, StrConv (" 台北市", vbFromUnicode ))  ' 传回 23, 不要忘了要把 "台北市 "也转成 Ansi,否则会找不到
End Sub

[
●] 读入文字档

在 VB 的小技巧中,有一个是快速读档法:

Private Sub Command1_Click  ()
    
Dim sFile  As String

    
Open " C:\filename.txtFor Input  As #1
        sFile  Input$ (LOF (1 ), #1 )
    
Close #1
End Sub

但是很不幸地,如果你读取的档案内含中文字,那上面这段程式会出现 Input past
End of file 的错误。因为 LOF 传回的是档案的  Byte 数,而 Input 函式读取的是
字元数,由於档案内含中文,因此档案中的字元数将会小於  Byte 数,於是就发生错
误了。

要解决这个问题,我们就要用到 StrConv 和 InputB 这两个函式了:

Private Sub Command1_Click  ()
    
Dim sFile  As String

    
Open " C:\filename.txtFor Input  As #1
        sFile  StrConv (InputB$ (LOF (1 ), #1 ), vbUnicode )
    
Close #1
End Sub

上面修正程式先用 InputB 将档案读进来,不过使用 InputB 所读入的档案是 Ansi
格式的,所以要再用 StrConv 转成 Unicode 才行。

[●] 随机资料档

许多文字资料档是以固定位元组的位置来加以区格,例如下面的资料格式:

王小民650110台北市中山路100号  (02 )1234567
张大呆660824花莲县大甲镇广东街23号 (03 )9876543
......

像这种类型的档案要如何处理呢?这是就必须用到  Type 以及  Byte  Array 了。

Private Type tagRecord
    Username (5 As  Byte  ' 姓名 6 bytes
    
Birthday (5 As  Byte  ' 生日 6 bytes
    
Address (21 As  Byte  ' 地址 22 bytes
    
TEL (11 As  Byte  ' 电话 12 bytes
    
CrLf (1 As  Byte  ' 换列字元 2 bytes
End Type

Private Sub 
Command1_Click ()
    
Dim uRecord  As tagRecord

    Open " C:\filename.datFor Random  As #Len  LenB (uRecord )
        
Get #1, 2, uRecord  ' 取第二笔资料

        
With uRecord  ' With ... End With 应该会用吧
            
Debug. Print .Username  ' 传回 ???
            
Debug. Print StrConv (.Username, vbUnicode ' 传回  "张大呆 "
        
End With

    Close #
1
End Sub

在这个例子中,一定要用到  Byte array,因为只有  Byte  Array 才能正确地定位到每
个  Byte 的位置。以前使用字串来定位的方法已经不适用了,千万要记住!但是使用
Byte  Array 所读入的资料是 Ansi 格式,若要处理或是做运算的话,记得还要转成
Unicode 格式才行。

[●] 使用  Byte  Array

除了上面必须使用  Byte 精确定位的例子之外,纯文字的处理基本上是用不到  Byte
Array 的。byte  Array 通常是用在处理 binary 资料。这方面的问题我们将另文讨
论。

看吧!只要熟悉使用 StrConv,你就可以在 Unicode 及 Ansi 格式之间自由自在地变
来变去,相信当您看完这篇文章之後,对处理中文应该不再烦恼了吧!
返回

字符串中文的问题
字串中文的问题,起於vb的字串是使用UniCode,而我们一般是使用Ascii Code。

这差别在何处呢?UniCode的每个字元长度是2个byte,而Ascii是一个byte,

如果说,我将们将VB的字串写入档案,有时会有意想不到的结果。例如:

Text1.Text  " 这是一个abc" len5  Len (str5 )
如果我们的Access资料库有一栏位的长度是10个Byte,所以我们在TextBox中设定
MaxLength  10,但是上面的例子得到的len5是7,而不是我们认为的11,因为不管
是中文或英文,vb一律以UniCode来存,所以str5的长度是7个" 字元",而text1最大
的长度限制是10,7没有超过10,故使用者仍可输入,但存档时,11个byte超过10个byte,所以会有错。
可是或许有人发现,使用RS232来传资料时,另一端主机是Ascii编码的机器,在vb中
我们若使用String来传,一样可以通啊,其实那是vb在传送与接收data时,会做转换
,使我们的程式设计较方便,但如果传的资料是Binary时,就头大啦。例如说,以字
串的方式来传送资料,当想传Ascii 大於128时,常有些问题,因为ASC ( Chr (129 )) = 0
,使我们不能用Chr ()的指令来放资料。 (事实上,您可以使用ChrW (129 )来存资料,
和使用AscW ()来取得值,加个W代表是Word的运算 ),这时候,就只有使用Byte Array来做了。

1.UniCode转成ByteAry

Dim byteAry ()  As  Byte  Dim str5  As String Dim As  Long str5  " 这abc"
byteAry  str5  For  LBound (byteAry To UBound (byteAry )
Debug. Print byteAry (i '得 25 144 97 0 98 0 99 0 Next i
Debug. Print Len (str5 ), LenB (str5 '得4 8
所以了,可看出UniCode 的特性,程式应改一下,使用Strconv ()来转换  Dim byteAry ()  As  Byte
Dim str5  As String Dim As  Long str5  " 这abc"
byteAry  StrConv (str5, vbFromUnicode )
For  LBound (byteAry To UBound (byteAry )
    
Debug. Print byteAry (i '得 25 144 97 98 99 Next i
    
Debug. Print LenB (StrConv (str5, vbFromUnicode ))  '得5
    
2.ByteAry转回UniCode 使用Strconv ()转换  Dim byteAry (10 As  Byte  Dim Str5  As String
    
byteAry (0 ) = 25 byteAry (1 ) = 144 byteAry (2 ) = 97 byteAry (3 ) = 98
    byteAry (4 ) = 99 Str5  StrConv (byteAry, vbUniCode )3.一些有用的函式SubStr () 中文化取子字串,相对Mid ()
    
Strlen () 中文化字串长度,相对Len ()
    
StrLeft () 中文化取左字串,相对Left ()
    
StrRight () 中文化取右字串,相对Right ()
    
isChinese () Check某个字是否中文字

Public Function SubStr ( ByVal tstr  As String, start  As  Integer,  Optional leng  As  Variant As String
    Dim 
tmpstr  As String
    If 
IsMissing (leng Then
        
tmpstr  StrConv (MidB (StrConv (tstr, vbFromUnicode ), start ), vbUnicode )
    
Else
        
tmpstr  StrConv (MidB (StrConv (tstr, vbFromUnicode ), start, leng ), vbUnicode )
    
End If
    
SubStr  tmpstr
End Function


 Public Function 
Strlen ( ByVal tstr  As String As  Integer
    
Strlen  LenB (StrConv (tstr, vbFromUnicode ))
End Function

Public Function 
StrLeft ( ByVal str5  As String, ByVal len5  As  Long As String
    Dim 
tmpstr  As String
    
tmpstr  StrConv (str5, vbFromUnicode )
    
tmpstr  LeftB (tmpstr, len5 )
    
StrLeft  StrConv (tmpstr, vbUnicode )
End Function

Public Function 
StrRight ( ByVal str5  As String, ByVal len5  As  Long As String
    Dim 
tmpstr  As String
    
tmpstr  StrConv (str5, vbFromUnicode )
    
tmpstr  RightB (tmpstr, len5 )
    
StrLeft  StrConv (tmpstr, vbUnicode )
End Function

Public Function 
isChinese ( ByVal asciiv  As  Integer As  Boolean
    
If Len ( Hex$ (asciiv )) > Then
        
isChinese  True
    Else
        
isChinese  False
    End If
End Function



    
混合字符串的长度
    在中文环境下,每个字被当做两个  Byte 
     Len (" 汉1" ) = 2
    LenB (" 汉1" ) = 4
    但在许多情况下,我们希望中文字长度为 2,英文字符为 1。可用以下的函数:
    LenB (StrConv (" 汉1" ), vbFormUnicode ))


    清除字符串中指定的字符
    该函数在字符串 s 中清除 Search(注意:如果 s 为 AAABBB,Search 为 AB。如何?) :

Function StringCleaner (As String, Search  As String As String
    Dim 
As  Integer, res  As String
    
res  s
     Do While InStr (res, Search )
        
InStr (res, Search )
        
res  Left (res, i  1 ) &  Mid (res, i  1 )
    
Loop
    
StringCleaner  res
End Function



你可能感兴趣的:(VB_demo)