這份 "常見問題及解答" 是提供使用 XML 來處理中文文件的相關資訊。 關於處理 XML 或 SGML 英文文件的 FAQ 請參考下列網頁:
XML 「可擴展標示語言」(eXtensible Markup Language) 是用於標示具有結構性資訊的電子文件的標示語言。 XML 是根據一個國際標準 -- Standard Generalized Markup Language (SGML) -- International Organization for Standardization (ISO) ISO 8879:1986 所製定而成的. XML 的格式類似 HTML, 但是您可以使用自行定義 的標籤及文件結構. 也可以由資料庫中取得資料,再用 XML 進行 串列化 (serializing) 的工作。
ISO SGML 最初是由 IBM 公司所研發的, 但也接受了許多公司 的建議。 XML 是由 "全球資訊網發展協會" (World Wide Web Consortium, W3C) 所發展的; WWW 的發明人 Tim Berners-Lee 先生是 W3C 的主持人。 昇陽公司 (Sun Microsystems) 的主資訊結構師 (chief Information Architect) Jon Bosak 先生是 XML 計劃主持人。 XML 的規格是由網景公司 (Netscape), 微軟公司 (Microsoft) 的代表及 一個稱為 Text Encoding Initiative (TEI) 的大型學術 研究計劃所共同起草製定。 W3C Special Interest Group (W3C XML SIG) 的成員包含:超過一百個公司及受邀 的專家。
Microsoft, Netscape, Sun, IBM, Corel, Adobe, Oracle, RealAudio... 遍及各大電腦公司。
大多數的 XML 的應用是隱含在系統內部的; 已有許多的應用使用 XML 技術來訂定其專用的標示語言 (specialist markup language). 例如:
可以的. 所有符合 XML 規格的軟體工具一定都支援 ISO 10646 字集. ISO 10646 是一組龐大的字集, 而且是一項 ISO 標準。 其中包含了 Big5 中文碼及 GB2312 中文碼中所有的字.
但是 XML 的應用才剛起步, 所以目前大多數的 XML 軟體工具都尚未針對中文 資料進行測試。 (1998 年 12 月)
可以的. 所有符合 XML 規格的軟體工具一定都可以直接使用 中文的元素名稱 (Han ideographs for element names).
但是請注意上述所提的字集是指 ISO 10646 中的 "統一漢字字集" (unified Han characters)。 例如: 某些字在 GB2312 與 Big5 碼中 有不同的字形 (glyph, form or picture)。 但在 ISO 10646 中卻將 這些字的繁體字及簡體字統一 (unified) 為同一個字形。 註: 正確的 XML 軟體工具應確保將 Big5 或 GB2312 碼的資料轉換為 ISO 10646 時,其中的元素型別名稱 (element type names) 及屬性 (attributes) 等等的 XML 名稱 (names) 是 "正規化" (normalized) 為 "統一形式" (unified form) 而不是 "相容形式" (compatability form)。
對於 Big5 碼還有一個特殊的問題要考慮。 請參閱問題 18.
可能可以. 一個符合 XML 規格的軟體工具一定都支援 UTF-8 及 UTF-16 碼 (Unicode). 但是任何的字碼集 (character set) 都有可能用來編寫 XML 資料。 撰寫剖析器 (parser) 的設計決定其 XML 軟體工具支援那些字碼集。
為何一定要在 XML 文件中加上正確的字碼設定呢 ? 假如您的 XML 文件中沒有標明正確的字碼, XML 系統會拒絕處理這份 文件。 XML 的系統不再使用 HTML 系統的字碼猜測 (guessing) 的處 理方式,而採用明確標示 (explicit markup) 的方式。
對於 Big5 碼還有一個特殊的問題要考慮。 請參閱問題 18.
可能可以. 一個符合 XML 規格的軟體工具一定都支援 UTF-8 及 UTF-16 碼 (Unicode). 但是任何的字碼集 (character set) 都有可能用來編寫 XML 資料。 撰寫剖析器 (parser) 的設計決定其 XML 軟體工具支援那些字碼集。
您必須在每一個使用 GB2312 碼的 XML 文件 (parseable entity) 檔中 一開始的部份加上下列的檔頭 (header):
<?xml version="1.0" encoding="gb2312"?>
在台灣中央研究院的 "Chinese XML Now!" 計劃提供了一些 相關資訊。此外廠商 也可以使用 中文處理能力標誌 (Chinese Numberplate logo) 來標示. 無論其工具 處理的能力如何,您都可以先將 XML 文件轉碼為 UTF-8 碼,則任何一個 XML 軟體工具就都可以使用了。
可以使用 ISO 10646 統一字集 (universal character set) 中的任何的字。 假如是 Big5 或 GB2312 碼中的缺字,您就可以用 "數字字元參引" (numeric character reference) 的方式表示。 例如:
媼
中的 "5ABC" 是 ISO 10646 字集的順序,並以十六進位的方式表示。 您可以用 Windows NT 系統中的 "Character Map" 工具看到 ISO 10646 字集中的所有字形,也可以選用不同的字型。
假如您使用 ISO 10646 字集中的變體 (variant),您可以定義一個 元素型別 (element type) 及屬性 (attribute),就可以達到正確 顯示的目的了。例如您可以借用 HTML 中的 SPAN 元素型別 (element type), 然後使用樣式表 (stylesheet),也就是層級式樣式表 (Cascading Stylesheets: CSS) 就可以依照您的需求來切換字型了。
假如這個字不在 ISO 10646 的字集中,您就需要用造字區 (private-use character area) 了. 這與過去的做法並沒有任何改進 ! 希望將來有更好的系統可以引進到 XML 及 ISO 10646 中。
XML 中文軟體工具中,目前 (1998/12) 最好的可能是 Internet Explorer 5.0 beta 版。 最好的 XML 剖析器 (parser) 可能是 IBM 公司的 XML Parser for Java。 最好的 XML/SGML 剖析器 (parser) 可能是 James Clark 的 SP software (C++)。 還有個使用 perl 語言撰寫的 XML 剖析器正在進行中。
有一些日本的 Web 伺服器 (server), 代理服務 (proxy) 或瀏覽器 (browser) 可以自動進行日文的Shift-JIS 及 EUC-J 碼之間的轉換。同樣也有其他語言 也有自動轉換,例如俄文。但目前我們還不知道有任何 Web 伺服器可自動進行 Big5 及 GB2312 碼之間的繁體簡體轉換。
但問題是無法完整的將 Big5 碼完整的轉換為 GB2312 碼,有些字 因為在 GB2312 碼中不存在,所以轉碼後這些字就會產生錯誤。 所以新一代的瀏覽器應該要使用 可認知 XML 的不掉字轉碼器 (XML-aware lossless transcoders) - 這個轉碼器會將 GB2312 碼中沒有的 字以數字字元參引 (Numeric Character Reference, NCR) 的方式表示。 但因為 XML 規格太新了,目前尚未有瀏覽器支援此項功能。
要避免轉碼 (transcoding),您可以將文件的 MIME 類別設定為 application/xml。這樣可能可以避免文件被轉碼了。 假如您使用 Apache Web 伺服器,您可以做如下的設定:
AddType application/xml XML xml
或
ForceType application/xml
或
DefaultType application/xml
但是對於 HTML 資料,那些常用的瀏覽器 (Web browser) 使用了各種 的技巧來推測網頁是使用那一種字集編碼 (character set encoding)。 這種情形可能會一直持續存在,甚至採用 HTML-in-XML (也稱為 "Voyager") 技術時 也會發生。 所以使用 application/xml 可以避免代理服務 (proxy) 進行 轉碼,但是接受資料的這一端還是可能會隨意 (lossy) 使用內建的轉碼 機制。(請參閱問題 19)
大多數的 Web 伺服器並沒有在 HTTP/MIME 標頭 (header) 中 送出正確的字集資訊。實際狀況是有許多的 Web 伺服器並無法設定字集。
下列是一些原則:
對於 Apache 伺服器,系統中要設定允許 "AllowOverride FileInfo" 的權限。在任何的資料目錄,可以使用名為 .htaccess 的檔案來控制。 [註:在 MIME 的名詞中, "encoding" 代表 "資料壓縮" (compression);在 XML 的編碼標頭 (encoding header) 中, "encoding" 代表 "採用的字集"。] 可參考下列設定:
為何一定要有正確的語言設定呢 ? 因為如此可以幫助全文檢索系統。
為何要將 XML 文件以 MIME 類別設定為 application/xml 送出, 而不以 text/xml 送出呢 ? 因為如此之下,文件就不會被轉碼。 Big5 到 GB2312 的轉碼會導致 有些字會不見。(請參考問題 12)
每個 XML 元素 (element) 都可以有個 xml:lang 屬性, 來設定您的文件使用何種語言。這個屬性可以協助全文檢索系統及排版系統。 請將這個屬性加在您的中文 XML 文件的最前頭。 可以針對中文的設定值如下:
這個屬性看似簡單無奇,但是在您的文件中正確的標示使用何種語言 卻會影響深遠。如此這般,一個中文 Web 搜尋系統 (Web-Robot) 就可以 正確無誤的將您的文件加入其系統中,而西方語言的 Web 搜尋系統就可 以得知這些文件可能不該加入其系統中,或是可以啟動自動的翻譯系統。 因為在不同的地區所使用的中文詞彙有一部份不一樣,所以語言屬性 也可以協助自動翻譯及搜尋系統。
(1998-12-15)
可以的。文件內的每一個 XML 元素 (element) 都可以使用 "xml:lang" 屬性來設定這一個元素是使用何種語言。此處不是指字集編碼 (Big5 或 GB2312), 而是何種語言。例如:
<p xml:lang="zh-TW">...</p>表示這個元素 (element) 是使用台灣的中文。
<p xml:lang="zh-HK">...</p>表示這個元素 (element) 是使用香港的中文。
<p xml:lang="en-SG">...</p>表示這個元素 (element) 是使用新加坡的英文。
<p xml:lang="zh-CN-YUH">...<z xml:lang="en">blah;</z>...</p>表示這個元素 (element) p 是使用中國大陸的廣東話中文。 ("YUH" 是在 SIL Enthnologue 中代表廣東話的代碼,請參考下列網頁: http://www.sil.org/ethnologue/countries/Chin.html) 但是子元素 (subelement) z 是英文。(某些文字是使用拼音的方式表達; 這些部份是用於方言,不懂得這種方言就無法理解其意義。)�
當然,您也可以自訂屬性來達到您的需求:
<p xml:lang="zh-HK-simplified" traditional="OK">...</p>表示這個元素內的資料是使用簡體字的香港中文。 但是也可以使用 traditional="OK" 屬性來表示可以使用 繁體字字形。
使用 XML,您可以用標示 (markup) 來描述文件中所有的資訊。 接著根據標示,您可以寫個程式,或是樣示表 (stylesheet), 或是報表產生程式來完成您的需求。。
Unicode 製定組織 (Unicode Consortium) 是許多的公司聯合決定製定一個包含全世界所有文字 的巨大字集,其中也有亞洲的公司參與。例如:Fujitsu and Fuji Xerox 公司。 該組織取用 ISO 10646 字集然後加入其他的資訊:標準名稱及 特性。 Unicode 包含 GB2312 中所有的字及(可能) Big5 碼中所有的字。 而且加入了許多其他語言的文字。(ISO 10646 有幾種編碼方式: UTF-8 是 8-bit 的,而 UTF-16 是 16-bit。 Unicode 是 UTF-16 的形式。
因此 Unicode 比 Big5 及 GB2312 碼好 - 因為 Unicode 包含較多的字。
但是 ISO 10646 碼有下列問題:
這就是為何 XML 檔不一定要用 UTF-8 或 UTF-16 編碼的原因。 您可以使用 Big5 或 GB2312 碼。但是很少 XML 軟體工具支援 這些中文字碼。所以建議您,以長遠眼光來探討,最好是轉移到 UTF-8 或 UTF-16。
Big5 碼是一個以 "7-bit unsafe" "ASCII-family" 編碼的字集。
這意味著會有許多的 XML 軟體工具可以處理 Big5 碼的文件。但這純屬 意外,因為嚴格來講,一個不認得 XML 標頭中的編碼屬性的 XML 系統, 應該產生錯誤訊息。特別的是,通常這些系統可能無法處理數字字元參引 (numeric character reference) (請參閱問題 10)。當然這些系統雖然 不符合標準,但還是有其用處的。
對於 Big5 碼還有一個特殊的問題要考慮。 請參閱問題 18.
在某些系統中,Big5 碼的第二個 byte 會產生問題。因為 Big5 碼不是 "8-bit safe" (請參閱問題 17)。
這個問題只會在不將 Big5 碼文件轉為 "8-bit safe" 的內部格式 (例如:Unicode,UTF-8 或 UTF-16) 的系統中發生。在這些系統中, Big5 碼的某些位元組 (byte) 會被解譯為錯誤的字。
第一個狀況是您使用本地語言 (Native Language) 的標示 (例如:您使用中文做為元素名稱 (element names),屬性名稱 (attribute names),ID 屬性等等)。這個問題無解。如果您一定要用這類的軟體,您 就要在標示中避免使用第二個 byte 有問題的 Big5 字。
第二個狀況是您在 CDATA 段落 (section) 中使用下列中文字,而且 緊接著 "]>" 這個字串。解決的方法是,將這個 CDATA 段落分割為兩個 CDATA 段落,然後在其間夾雜一個特別的字元。下列 Big5 中文字的第二個 byte 都是 0x5D,也就是 ASCII 中的 "]" 字元。
兡也包因沘氓侷柵苗孫孫財
崧淫設弼琶跑愍窟榜蒸奭稽
霄瓢館縲擻鼕孃魔釁佉沎岠
狋垚柛胅娭涘罞偟惈牻荺傒
焱菏酡廅滘絺赩塴榗箂踃嬁
澕蓴醊獧螗餟燱螬駸礑鎞瀧
鄿瀯騬醹躕鱕
(註:假如您不能看到上述的字,請參閱問題 19)
您不能看到所有的字,可能是:
(1998-12-31)
EUDC (Extended User-defined Characters) 是香港地區製定的一組 標準使用者造字 (user-defined characters)。(日文稱為 gaiji)�這些字包含 R&D EUDC, HKUST EUDC 及 GCCS EUDC。
Big5 碼是在台灣製定的,這些繁體字也在香港使用。但在香港有些字很少在 在台灣使用,因些香港政府將 Big5 字集再加上 3049 個字製定為 "政府中文字 集" (Government Chinese Character Set, GCCS),目前已廣為使用中。
台灣的行政院研究發展考核委員會(研考會)委託中文電腦推廣基金會(中推會) 進行 Big5 碼字集擴編,約為 24,066 字,稱為 Big5+ 碼。
請注意:Big5/GCCS, EUDC 及 Big5+ 碼並未在 IANA 註冊編碼名稱供 在 Internet 上使用。
為了將來可互通使用 (interoperability),請在 WWW 中的 HTML 及 檔中加上正確的標頭。假如您不知道確切的字集,e-commerce 就無法正確 運作了。假如您使用 Big5+ 碼,請在文件的標頭上加上註解或處理指令 (processing instruction)。在 XML 中,我們建議在文件的第二個標示 (tag) 寫上 "ascc-hint" 的處理指令並使用 "non-IANA" 屬性。 <?xml version="1.0" encoding="Big5" ?> <?ascc-hint non-IANA="Big5plus" ?> 及
<?xml version="1.0" encoding="Big5" ?> <?ascc-hint non-IANA="GCCS" ?>
請參考Chinese XML Now! 網頁。
這是一個在中央研究院計算中心進行的計劃。這個計劃的目的是協助 XML 軟體工具發展者測試其軟體是否具有處理中文的能力及 提供 XML 使用者各軟體的中文處理能力的資訊。 對於不使用中文的軟體發展者不容易在網路上找到相關的資訊。在這個 計劃草創之初,也少有針對 XML 的中文資料。
在這個計劃中,各項內容將儘可能以英文及中文 (UTF-8,Big5 和 GB2312 碼) 同步提供資料。
我們竭誠歡迎任何的更正,疑問及建議。英文版請與 Rick Jelliffe: [email protected] 聯絡。中文版請與 張錦堂: [email protected]聯絡。
感謝 Sidney Lu 及 Toshinori Numata 及 John Cowen 的更正。
<DC:TITLE xml:lang="zh-TW">Chinese XML 常見問題及解答 </DC:TITLE> <DC:TITLE xml:lang="en">The Chinese XML FAQ (Chinese version)</DC:TITLE> <DC:CREATOR >Rick Jelliffe </DC:CREATOR> <DC:CONTRIBUTOR xml:lang="zh-TW-Lt">Chin-Tang Chang</DC:CONTRIBUTOR> <DC:CONTRIBUTOR xml:lang="zh-TW"> 張錦堂</DC:CONTRIBUTOR> <DC:SUBJECT xml:lang="en">XML, SGML, Chinese, FAQ, Big5, GB2312, Unicode, ISO 10646, UTF-8, UTF-16, Apache, Voyager </DC:SUBJECT> <DC:DESCRIPTION xml:lang="zh-TW">關於 XML 的常見問題及解答 </DC:DESCRIPTION> <DC:PUBLISHER xml:lang="zh-TW">台灣中央研究院計算中心 </DC:PUBLISHER> <DC:TYPE xml:lang="en">Text.Article </DC:TYPE> <DC:DATE >1998-12-31 </DC:DATE> <DC:RIGHTS >http://www.ascc.net/xml/en/utf-8/legal.html </DC:RIGHTS>