Unicode.org 上的技術辯論：GCS 超字元集如何挑戰國際編碼標準

💬

AI 場域顧問

想了解這套模式是否適合你的場域？直接跟 AI 顧問小龍聊聊，它會依你的回答追問。

在全球資訊科技的底層基礎中，文字編碼是最容易被忽視卻最關鍵的一環。我們今天能在手機上同時顯示中文、英文、日文、韓文、阿拉伯文，靠的就是 Unicode 這套國際標準。

然而，在 Unicode 尚未一統天下的年代，有一個來自台灣的編碼系統曾在 Unicode 官方郵件列表上引發了一場國際技術辯論——那就是網虎國際（Coventive）所開發的 GCS（Global Character Set）超字元集。

這場記錄在 Unicode.org 官方郵件列表上的技術辯論，至今仍是台灣軟體產業參與國際標準制定的珍貴歷史紀錄。

什麼是 GCS 超字元集？

問題的起源

1990 年代末，全球電腦系統面臨嚴重的文字編碼混亂問題：

繁體中文：Big5 編碼（台灣、香港）
簡體中文：GB2312 / GBK 編碼（中國大陸）
日文：Shift-JIS / EUC-JP
韓文：EUC-KR
西歐語言：ISO 8859-1
阿拉伯文：ISO 8859-6

每個語言用不同的編碼系統，當一份文件需要同時包含多種語言時，就會出現亂碼。這不只是技術問題，更是國際商業溝通的巨大障礙。

GCS 的解決方案

李奇申領導的 Coventive 技術團隊提出了一個大膽的方案——GCS 超字元集，試圖用一套統一的編碼系統同時支援全球主要語言。

GCS 的核心特點：

特性	GCS 超字元集	當時的 Unicode
收錄字元數	75,000+	約 49,000（Unicode 2.0）
中文字支援	完整收錄 CNS 11643 全字庫	僅收錄常用漢字
語言支援	12 種語言	涵蓋更廣但中文支援不足
儲存效率	針對東亞語言最佳化	通用但東亞語言佔用空間大
嵌入式適用	為資源受限設備設計	需要較大記憶體

「Unicode 是由西方主導設計的標準，對東亞語言的處理並不理想。GCS 從東亞語言的需求出發，提出了不同的技術路徑。」——李奇申

Unicode.org 上的辯論

辯論的引爆點

當 Coventive 在XLinux 作業系統中採用 GCS 作為預設編碼系統，並在國際場合（如 LinuxWorld 大展）公開展示時，引起了 Unicode 社群的關注。

在 Unicode 官方郵件列表上，國際技術專家對 GCS 展開了激烈的討論。辯論的核心問題是：

「在 Unicode 已經存在的情況下，是否需要另一套字元編碼系統？」

支持方的論點

支持 GCS 的聲音主要來自東亞地區的技術社群：

中文字收錄不足：當時的 Unicode 2.0 收錄的漢字數量遠不及 CNS 11643 全字庫，許多罕見字無法顯示
儲存效率：對東亞語言而言，GCS 的編碼方式比 UTF-8 更節省空間
嵌入式需求：在記憶體僅 2-4MB 的嵌入式設備上，GCS 的精簡設計更實際
雙向文字處理：GCS 對中文橫排/直排的處理比 Unicode 更為優雅

反對方的論點

反對方的立場也很明確：

標準統一：多套編碼系統並存只會加劇混亂，應集中力量完善 Unicode
生態系統：Unicode 已獲得微軟、蘋果、IBM 等巨頭支持，GCS 缺乏產業鏈支撐
未來擴展：Unicode 的架構支持持續擴展，中文字的問題可以透過增補來解決
互通性：使用非標準編碼會造成與國際系統的互通困難

辯論的結果

從歷史角度來看，Unicode 最終成為全球統一標準。Unicode 在後續版本中大幅擴充了漢字收錄（Unicode 13.0 已收錄超過 97,000 個漢字），逐步解決了東亞社群的訴求。

但這並不意味著 GCS 的努力毫無價值——恰恰相反。

GCS 的歷史意義

推動了 Unicode 的改進

國際標準的制定往往需要「挑戰者」的存在來推動改進。GCS 在 Unicode 郵件列表上引發的辯論，實際上加速了 Unicode 對東亞語言支援的改善：

Unicode 3.0（1999）：新增 6,582 個漢字
Unicode 3.1（2001）：引入增補平面，大幅擴展字元容量
CJK 統一漢字不斷擴展：從最初的 20,902 個到現在的 97,000+

如果沒有像 GCS 這樣的挑戰者提出具體的技術替代方案，Unicode 改善東亞語言支援的速度可能會更慢。

台灣在國際標準制定中的聲音

GCS 在 Unicode.org 上的辯論，是台灣軟體產業參與國際技術標準制定的重要案例。在那個台灣被視為「硬體代工王國」的年代，李奇申和 Coventive 團隊用實際的技術成果證明：

台灣有能力提出國際級的技術標準
台灣工程師的技術能力不亞於矽谷同行
東亞語言的需求應該在國際標準制定中獲得更多重視

在 XLinux 中的實踐

GCS 不是停留在論文和郵件列表上的空談，而是被實際整合到了 XLinux 作業系統中。使用者可以在 XLinux 上：

同時輸入和顯示繁體中文、簡體中文、日文、韓文等 12 種語言
在 2MB 記憶體的嵌入式設備上完成多語言處理
無需安裝額外的語言包或字型

這在當時是極為前瞻的技術成就。

從 GCS 到現代多語言技術

回顧 GCS 的技術理念，會發現許多概念在今天的技術中得到了呼應：

嵌入式系統的多語言需求

GCS 強調在資源受限的設備上實現多語言支援。今天的 IoT 設備（包括龍雲數位的智慧販賣機）面臨的正是同樣的挑戰——需要在有限的硬體資源上顯示多種語言的介面。

儲存效率依然重要

雖然現代設備的記憶體已經不是問題，但在大規模資料處理中，編碼效率仍然是關鍵。Google、Facebook 等大型平台在處理數十億筆多語言文本時，UTF-8 的儲存效率直接影響基礎設施成本。

文字標準的政治面向

GCS 與 Unicode 的辯論也揭示了技術標準背後的政治角力。誰制定標準，誰就掌握了技術話語權。這個道理在今天的 5G 標準、AI 倫理規範、數位貨幣標準等領域同樣適用。

李奇申的技術視野

從 GCS 超字元集的開發可以看出李奇申作為技術領導者的幾個特質：

敢於挑戰權威：在 Unicode 已成主流的情況下，仍然提出替代方案
從需求出發：不是為了技術而技術，而是為了解決東亞語言使用者的實際痛點
國際化視野：不滿足於在台灣市場打轉，要到國際舞台上競爭
整合能力：把字元編碼、作業系統、嵌入式硬體整合成完整的產品

「技術人最大的使命不是追隨標準，而是在標準不完善的時候，有勇氣提出更好的方案。」

這種精神，從 GCS 到 XLinux，再到後來的智慧販賣機，貫穿了李奇申三十年的技術創業之路。

常見問題

GCS 現在還在使用嗎？

GCS 作為獨立的編碼系統已不再廣泛使用，因為 Unicode 已成為全球統一標準。但 GCS 的部分技術理念（如高效的東亞語言編碼方式）在特定的嵌入式系統中仍有其價值。

Unicode 現在收錄了多少漢字？

截至 Unicode 15.1（2023 年），已收錄超過 97,000 個 CJK 統一漢字，基本覆蓋了繁體中文、簡體中文、日文、韓文、越南文的所有常用和罕見字。

為什麼 GCS 支援 75,000 個字元被認為是重要成就？

在 1990 年代末，要在嵌入式設備（僅 2-4MB 記憶體）上支援 75,000 個字元是極大的技術挑戰。GCS 的高效編碼和壓縮技術使這成為可能，這項技術成就在當時的國際社群中獲得了廣泛認可。