UCS(ISO10646)とUnicodeの現状

UCS(ISO10646)とUnicodeの現状

《愚者の後知恵》今は解散した電子ライブラリーコンソーシアムの機関誌のために連載していた「電子化文書規格シリーズ」の第1 回。
1996年11月
ELICON「電子化文書規格シリーズ」

独立した全文データベースであれ,ネットワークを経由してアクセスするデータベースであれ,電子化されたテキストの問題を考えるとき,テキストを電子化する際用いられる文字コードを避けて通ることはできない.中でも,我々が電子ライブラリーという言葉で漠然と考えている学術文書や各国各分野の古典的な文書のアーカイブを対象とすると,文字コードの問題は,さらなる広がりを見せてくる.
今号から文字コードを中心に,電子ライブラリーの関係者を対象として,電子化文書の規格に係わる様々なトピックについての解説を試みる.対象読者の限定は難しいけれど,電子化テキストについての全くの素人ではないが情報規格の専門家でもないというレベルを想定する.すなわち,日ごろからコンピューターを通して様々な形で電子化文書に触れているが,その内部で用いられている規格については,名称程度は知っていても内容については知識を持たない,という人たちを想定する.実のところ,筆者も今後折に触れて明らかにしていくが,不可抗力で情報規格の策定にささやかに係わるようになるまでは,そのような人たちの一人だった.そんなわけで,情報規格の本当の専門家がこの解説記事をお読みになり,誤謬を発見されたら是非ご指摘願いたい.また,精確な議論が,時に煩瑣にすぎて理解を妨げると判断した場合は,あえていい加減な議論をする場合もあるかと思われる.これに関しても読者のご寛恕を前もってお願いしておく.

さて,最初は日本人の一部に極度に評判の悪いユニコード.ユニコード,ISO10646, JIS X0221,Universal Multiple-Octet Coded Character Set,国際符号化文字集合,この言葉のどれかをお聞きになったことはあるだろうか.これらの文字列(ほとんど暗号のような記号も含めて)は,実質的にある一つの文字コードの体系を表している.しかし,そのコード体系の成立の経緯を反映して,微妙にその位置づけが異なっている.いずれにせよ,これらの文字列が指し示しているのは,世界中の言語に用いられている文字を統一的なコード(符号)で表そうとする文字コードの体系なのである.
回りくどい書き方になってしまった.身近なところから整理していくこととしよう.
現在,我々日本人は,漢字を含む通常の日本語の文書を電子的に記述するために,JIS(日本工業規格)として3つの文字コードの集合を持っている.すなわち,X0208,X0212,X0221.このうちX0208が,いわゆるJISの第一水準,第二水準などと呼ばれ,通常のパーソナルコンピューターや専用ワープロなどに,組み込まれているもの.X0212は,いわゆる補助漢字と呼ばれているもので,X0208を補完するものとして,策定されたもの.そして,X0221が,「国際符号化文字集合(UCS)-第一部 体系及び基本多言語面」とよばれる規格で,これは,ISO/IEC 10646-1とよばれる国際規格に対応するものなのだ.
X0221は,1000ページを越える大部な規格で,定価も消費税込み25750円と決して安価とは言えないが,赤坂4丁目にある日本規格協会に行けば,だれでも手に入れることができる.
中身は一目瞭然,インターネットなどで日常目にする通常のラテン文字から,ギリシア文字,キリール,アルメニア,ヘブライ等々,凡人には地球上のどこでどのような人たちが用いているかも判然としない記号が,16ビットのコードとアルファベットによる一意的な名前を割り振られて整然と並んでいる.
中で特に目を引くのが,漢字の並んでいるいわゆるCJK統合漢字と呼ばれる部分である.1000ページのうち,実に,430ページ余りが,この統合漢字に割り振られている.総数,2万字強,16ビットのコードで表現できる文字の総数が,6万5千字強だということを考えると,その量に圧倒される.因みに,統合漢字の部分には,他の部分に見られるような,個々につけられたユニークな名前の欄は,存在しない.

CJK統合漢字には,JIS X0208,X0212は,すべて含まれている.さらに,中国,台湾,韓国の主要な文字コード規格の文字を含んでいる.
であるからして,ISO10646もしくはJIS X0221を用いれば,16ビットのコードで,日本語,中国語,韓国語(ハングル)を含め,ここに登録された文字を用いている(用いていた)人々の書き言葉をすべて表現できるはずなのである.
Unicodeとは,このような壮大な目途をもって,策定された希有な規格なのである.

ところで,上の文に,今までの文脈との整合性がないことに,気付かれましたか.
そう,ISO10646もしくはJIS X0221 について議論を進めてきていたのに,突如Unicodeが,出てきましたね.問題は,ここなのですよ.

ISO10646-1は,時にUnicodeと呼ばれる場合がある.そう呼ぶ人が誤解をしている場合,違いは理解していても便宜上,もしくは,無意識のうちにそう呼ぶ場合,ある意図を持って意識的にそう呼ぶ場合,人々の立場の違いによって,ニュアンスは微妙に異なってくる.
実のところ,ISO10646-1と,Unicodeとは,そのコード系の内実は全く同じものを指している.では,Unicodeとは何か.
Unicode Consortiumというアメリカに本拠をおくコンピュータ関連企業の連合体が策定した統一的な国際記号化文字集合,ということになる.あくまでも,いわゆるコンソーシアム方式で,私企業が集まって規格を策定し,デファクトスタンダードを目指そうとしたものなのだ.このUnicode策定の背景には,様々なコンピューター関連製品を英語圏以外の地域に売るための言語的処理の統一化,簡素化という非常に強い,産業的な要請があった.
委細はさておき,ISOの場で検討されていた国際符号化文字集合の議論に,私企業連合体であるUnicode Consortiumの場で議論されていた統合文字集号がマージされ,現在のISO10646-1とUnicodeが成立している.その経緯があって,UCSの策定に係わった人,その経緯を知っている人の中に,UnicodeおよびUnicode Consortiumに対する不満を抱く人は多い.冒頭に,「日本人の一部に極度に評判の悪いユニコード」と記したのは,そのような意味においてである.
批判や不満の背後に,このような政治的感情的な動機があるとはいえ,現状のUCS,Unicodに対する不満には,聞くに値する事実も含まれている.最後に,電子ライブラリーを構築する際に問題になるであろう,現状の問題点をいくつか指摘しておく.
一つ.CJK統合化の問題点.かなり強引に日本,中国,台湾,韓国の漢字を統合化したので,複数の国,地域の言語にまたがる記述をする場合に,無理が生じる.
例:「日本でと表記する漢字は,中国の簡体字では『*』と表記する.」現状のUCS,Unicodeでは,この日本語の『骨』と中国簡体字のの区別が付けられない.
一つ.JIS X0208とX0212の問題点をそのまま引きずっている.特に,日本で現在流通している人名,地名の異体字への対応が不十分.特に書誌的情報の記述に関しては,考慮が必要.理想としては,異体字も含めて検索の対象にでき,かつ,表記はきちんと使い分けられる.
例:斉藤で斉藤,斎藤,齋籐,齊籐のすべての姓を検索し,結果は,それぞれ別のものとして表示する.(これらの「さい」は,すべて,X0208から採ったが,現実には,X208にもX0212にも,すなわちX0221に,含まれない「さい」の字が多く存在する.)

このような問題がいくつか存在するとはいえ,現状で,国際的にある程度通用する多言語の全文データベースを考える際,UCS,Unicode以外の選択肢は現状としてはあり得ない.このような状態の中で,大切なことは,積極的に使いながら,建設的な批判,提言を行って,規格の改良,環境の整備を計っていくことであろう.

カテゴリー: デジタルと文化の狭間で, 文字コードの宇宙, 旧稿再掲 パーマリンク

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です