Unicodeについて,もしくはUCSについて

Unicodeについて,もしくはUCSについて

《愚者の後知恵》文字コード標準化に係わりを持ち始めたごく初期の論考。まあ、今にして思うと、理解の浅い面や誤解もあるけれど、これもぼくが経てきた道程の一部には違いないので、当時のまま再掲する。
1995年
印刷技術協会における講演

今をときめくJAVAは、文字コードを表現するデータタイプとして,Unicode型をサポートしている.
他にも,マイクロソフトを中心にWindows NTにおいて,Unicodeのコードセットをベースにして,その外字拡張の様式を策定したり,文部省や通産省の外郭団体が,それぞれにUCS準拠のフォントセットを発注したりと,UnicodeとUCSを巡る議論が喧しくなっている.
今,筆者は注意深くUnicodeとUCSとを使い分けたが,この2つの言葉は,往々にして混同して使われ,また,その混同が様々な誤解を招く局面が多々ある.インターネットを中心とする情報の国際化が猛烈な勢いで進行している現在,unicodeとUTCの関わりを考え,世上に流布している誤解の依って来る理由を考えてみることも,あながち無意味ではないと思われる.

まず,違いをはっきりさせておこう.Unicodeとは,Unicde Consortiumという,私企業の連合体が策定した文字コードセット,UCS(Universal Multiple-Octet Coded Character Set)とは,1993年にISO/IEC10646-1として発行され,日本でも1995年に,JIS X 0221として発行されている,公的なコードセット.
この2つは,事実上コードの割り振りとしては全く同一である.誰もが入手できるX0221を繙いていただければ一目瞭然のことだが,そこには,情報処理の世界では伝統的なラテンアルファベットから,ハングル,キリル,その他凡人には読むことも弁別することもままならない世界中の記号=文字が集められている.それが,16ビットのコードと一意的な名前を振られて整然と(?)並んでいる.
少々,細かい議論になるが,UCSは,本来32ビットの空間を想定しており(UCS-4),現在は,利用可能な16ビット×16ビットのコード領域のうち,最初の16ビット分のみを用いたBasic Multilingual Plane(UCS-2,BMP)のみが,規定されている.このBMPが,Unicodeと事実上完全に重なっている,というのが正確な言い方になる.そして,Unicodeの語源となったUnified Coded Character SetとUniversal Multiple-Octet Coded Character Setという言葉が,過不足なくこのコードセットの目的を言い表している.これだけ広範に文字を集めた文字集合を,寡聞にして筆者は承知していない.

しかし,この文字集合は,日本の国内では,あまり評判がよろしくない.Unicodeに対して,反対の意思表明をする人が目に付く,と言った方が適切かもしれない.
曰く,UCSは,所詮Unicode Consortiumが作ったものだから.
曰く,強引にUnifyしたものだから,日本のと簡体字のの区別もできなければ,本来由来の異なる「芸」と「藝」の略字の「芸」が,同一のコードに割り振られたりしている.
曰く,日本の人名や地名を正確に記述することができない.
曰く,2万字あまりの漢字しか表現できない.諸橋大漢和辞典の5万字の文字がなければ,日中の古典の文化を電子の世界で継承することができない.
挙げ句の果ては,結局ISO10646は,Unicodeに乗っ取られたのだ.
これらの,批判は,事柄としては,概ね正しいことを言っているが,筆者は,その背後に,ある種の悪意を感じざるを得ない.すなわち,
公的な規格策定に,私企業の連合体が口出しするのはお門違いではないか
西欧人に,日本の伝統的な漢字文化が分かるわけがない
日本のことは,日本で決めるから,外からは口出ししてほしくない
どうも,悪意が先にあって,そのはけ口として,先の批判が出てきているように思えてしかたがないのだ.

Unicodeそれ自体は,単純な16ビットのキャラクターセットなので,技術的には何ら難しいことはない。しかし,それが誤解に基づく非難も含めて,話題に上るのは,複数の言語を統一的に扱うという,ある種バベルの塔的な試みに踏み込んでいるからであり,そこに,抜き差しがたい文化的な軋轢が内包されているからに,他ならない。さらに,そこに様々なレベルでの政治的な問題が関与してくるので,ことはさらに複雑になる.では,文化的な問題とはどういったところにあるのだろうか.また,政治的な問題とはどういったことなのだろうか.以下,筆者の限られた経験と認識からではあるが,一つの視点からの分析を試みる.いささか乱暴な言い方になるが,UnicodeないしはISO10646を理解するとは,ほとんどそれを取り巻く文化的社会的政治的状況を理解することに他ならない.

遅蒔きながら,ここで筆者の立場を明確にしておきたい.後で詳しく触れるが,筆者は,現在,日本企業としては(外資系企業もしくは多国籍企業の日本法人をのぞく)唯一のUnicode ConsortiumのFull MemberであるJUSTSYSTEM Corp.の代表として,UTC(Unicode Technical Committee)に参加している.また,Unicode Consortium(Unicode Inc.)のBoard of Directorsの一員にも,選任されている.さらに,最近のことではあるが,SC2WG2の下のIRG(Ideographic Rapporter Group)に対応する情報企画調査会のSC2漢字WG小委員会の委員の一員に加えていただいている.
このようなわけで,Unicode Consortiumに関しては,日本では,ある程度その利益を代表する立場にあるし,同時に,出身母体企業である株式会社ジャストシステムの利益を代表する立場にある.
同時に,IRGに関しても,微力ではあるが,裨益する立場にある.
しかしながら,筆者自身としては,日本に限定せず,非英語圏の一般の人々,就中,東アジア漢字文化圏に生活する人々が,コンピューターを用いたり,情報通信を行う際に,不便や不利益を感じないような環境を実現するために少しでも役に立ちたいと考えている.

さて,Unicodeに対する,批判に立ち返ろう.
先に挙げた批判の一つに,ISO10646は,所詮はUnicodeだから,というものがあった.実際,ISO10646として策定されたUCSは,その審議段階では様々な可能性を持っており,一度は,現在と全く異なるアーキテクチャのものとして,国際投票にまで持ち込まれ,そこで否決された経緯があるという.その後,ISOの場とは全く別個に策定が進められていたUnicodeを骨子とする案を採用,様々な審議を経て,国際投票でも採択された.
このことから,上記のような批判が生まれてくるわけだが,ISOの場で終始反対の立場を取っていた日本も,最終的には賛成に転じたと聞いている.さらには,このような批判をする人たちがよく指摘する「Unicode Consortiumの西欧人がよく分かりもしないで作った漢字パートを押しつけられた」という批判は,誤解ないしは悪意の曲解としか思われない.審議の過程で,いわゆる漢字パート(CJK Unified Ideograph)は,中国,日本,韓国,それに台湾から委員が出たCJK-JRG(Joint Research Group)によって,審議されているのだ.異議を唱える対象は,Unicode Consortiumではなく,CJK-JRGのメンバーであるべきであって,漢字を使う人たちの間での意見の違い,主義主張の違いと言うことになる.このレベルの争いや議論は,ISO10646ならずとも,JISの中でも数限りなくあり,ことさらISO10646だけをあげつらうべきものではない.急いで,付け加えておくが,だからといって,筆者は,CJKパートが完璧なものであると主張しているのではない.自国ないしはアジアの中の争いを,西欧との争いに転嫁するという構造を指摘しているにすぎない.日本が国として賛成票を投じたものに対して,反対 の立場を取るものが,賛成の立場を取るものとの議論を飛び越して,Unicode Consortiumを非難するのは,お門違いというものであろう.

人名,地名等の日本独自の文字の問題.
これも,Unicodeに対する非難としてよく耳にする.が,この答えは,簡単で,UCSは,JISをそのまま踏襲したから,JISの問題点も踏襲したのであって,それ以上でもそれ以下でもない.国内規格の不備を棚に上げて,国際規格の不備に転嫁するというのもまた,おかしな話である.

では,現在のUnicodeに問題はないのか,残念ながら先に挙げた非難の概ねは,事柄としては現在のUnicodeの問題点の一部を正確に指摘している.正直なところ,CJKパートのユニファイの方法は,実際面としていくつかの破綻を来しているように,筆者には思われる.
先に挙げた「骨」と「*骨*」の問題は,日本,韓国,台湾の2カ国1地域と,中国との実際に用いられる字形の違いを無視して統一を図っている.また,「芸」という文字は,日本では「藝」の略字として用いられるのが常であるが,中国では本来草むらの意味で用いられる「芸」と同じコードを割り振られている.やっかいなことに,日本では,この意味では,草冠に本字の形を用いた「*芸*」という文字を使っており,これは,JISX2028にもZJISX0212にも含まれていない.
CJK-JRGの立場も,UTCの立場も,「芸」については,UCSが文字の形にのみ注目し,意味には踏み込まないという点では,一貫している.これは,考え方の相違としかいいようがなく,この問題を深追いしていくと,やはり,UCSの全否定に行き着かざるを得ない.一方,筆者には,「骨」に関しては,やはり,破綻がかいま見えるとしか言いようがない.他に微少な相違にも係わらず異なったコードを割り振られている漢字が多くあるのに,「骨」だけがなぜ? というのが,正直な印象である.
いずれにしても,筆者としては,CJKのそれぞれのパートを弁別するための何らかの方策が必要ではないかと考えており,具体的な提案もUTCの場で,準備している段階にある.
漢字の数が足りないということについても,諸橋漢和の例を引くまでもなく,足りない人には足りないだろう,というのが正直なところである.中国や日本の古典文学を専攻している人たちを中心に,原典のデータベースを構築する上での文字の不足を訴える声も小さくはない.しかし,欲を言い出したら切りがない.現在,IRGからWG2に対して,BMPへの約6000字の漢字の追加要求が出されているが,BMPとしては,そろそろ限界に達しているし,他の文字の追加などを考えると,BMP以外への漢字のマッピングも考慮すべき時期に来ていると言えるだろう.漢字に関しては,おそらくは,5万字を登録しようが,8万字を登録しようが,永遠に追加要求が続くのではないかと思われる.
先の,Unicodeに対する非難の一つに,今,答えておくと,「Unicodeは,16ビットしか空間がないから,漢字をすべて登録するのは,不可能である」というのは誤解で,先に指摘したように,UCSの32ビットの空間を用いれば,もちろん可能だし,16ビットに拘泥しているUnicode Consortiumの立場を認めたとしても,現在準備中のUnicode Ver.2では,ある種のエスケープシークエンスにより,UCS-4へのマッピングの方法を準備しているので,十分対応することは,可能なのだ.

さて,ここまでのところで,筆者がよく耳にするUnicdeないしはUCSに対する技術的な側面を持つ非難については,ある程度の答えを提供できたのではないかと思う.いよいよ,文化的,感情的な非難の側面に足を踏み入れなければならない.
正直に告白すると,筆者自身も当初は,冒頭に挙げたような非難を目にしたり耳にしていたために,無批判にその非難と同調していた節がある.ところが,ひょんなことからUnicode Technical Committeeに参加することとなり,それらの非難が非常に狭い視野に立った独善的なものであることに気がつくと同時に,より深く深刻な文化的問題が存在していることに,気づかされる結果となった.
昨秋9月,第7回のUnicode Conferenceが,カリフォルニア州のサンノゼで開催された.事実上,筆者のUnicode Consortiumへのデビューだったのだが,非常に刺激的な会議であった.中でも,コンピュータサイエンスの神話上の神々の一人であり,印刷業界の方々には,TeXの生みの親として知られるドナルド・クヌース教授が,キーノートスピーカーとして講演され,その後のセッションにも一番前の机に陣取って参加され,熱心に質問や意見を述べておられたのが,ある種の感動とともに,大変印象に残っている.
その後,12月のUTC,1月のボードミーティングと参加するうちに,だんだんとメンバーたちの識別もつくようになり,今年4月に香港で行われた第8回のコンファレンスでは,コンファレンスチェアを務めたIBMのLisa Mooreに頼み込まれて,キーノートスピーカーとしての紀田順一郎氏の招待,日本からの公式ツアーの手配など,さまざまな下働きを務めるまでになってしまった.
この過程で持ったメンバーたちの印象は,誠意と熱意と善意を持った,とても良い人たち,ということになる.彼らには,日本のみならず東洋の国々に対する敵意など,微塵も見られない.会議のたびに遠路駆けつける筆者に対して,心からのいたわりと感謝を示してくれる.そして,ことあるごとに,日本人としての,また,漢字文化圏の一員としての意見を聞いてくれる.
しかし.
何かが,決定的に異なっている.その何かは,当初から筆者の印象としてはあったのだが,それが明確に意識できるようになるためには,しばしの時間を要した.
しかし,自らが生まれ育った文化の中で培われた世界観は,一朝一夕にはあらためられないのではないか.それが,筆者が現時点で抱いている彼らUTCのメンバーについての感慨である.
もう少し,具体的な例を挙げよう.現在,UTCの2回に1回は,ISO10646対応の米国の国内委員会であるAccredited Standards Committeeの,X3L2と呼ばれる委員会と合同で開催されている.先にも触れたように,現時点でほぼ定常的にUTCに出席しているアメリカ以外に本拠をおく企業のメンバーは,筆者一人(Dayna Lab.のアメリカでの代理人が出席する場合がある)であり,X3L2のメンバーは事実上すべてUTCのメンバーに含まれており,かつ,議題もほぼ完全に重なるので,彼らにとっては,合同で行った方が,スケジュールの調整や移動時間,費用を考えると,実務上圧倒的に便利なのだ.
それは,分かる.しかし,筆者が参加した最初のUTCがX3L2との合同委員会の最初の試みでもあったのだが,意志決定のための投票が当初,UTCとX3L2との区別なしに行われかけたときには,正直,唖然としてしまった.緊急に発言を求めて,UTCの決議とX3L2の決議を別に行うべきことを指摘した.
驚いたことに,筆者の指摘は,彼らに感謝をもって受け入れられた.以後,合同の会議の際は,議事の進行に伴って行われる決議はUTCの意志決定に限定し,X3L2の決議は,X3L2の議決権を持つ者のみで,事後的にまとめて意志決定の確認を行うという習慣が確立された.
このように,UTCが国際的な組織の形態をとっているとはいっても,実際上は,ほとんど意識されることもなく米国の利害を代表してきたというのが,実状だろう.
先のCJKパートの成り立ちについても,同様の無意識の前提が存在するように思われる.すなわち,UCSないしはUnicodeが対象とする情報分野は従来は英語で記述されるべきもので,それをそれぞれのローカルな言語に置き換える際の利便性のためにUCSないしはUnicodeが存在する,という考えである.英語を中心とするスター型のネットワークがあり,周縁に存在するノード同士は直接結びつけられることなく,いったん英語に置き換えられた上で,相互に結びつく構造を想定していただければ良いだろう.彼らの発想の中に,たとえば,現代の中国語と日本語がネットワークの上で混在するという状況は想定されていないのではないか,そう考えると,CJKをUnifyするという考え方も,納得できるような気がする.(ここの部分は,先に触れた,Unicode批判に対する反論と一見矛盾する.しかし,先の筆者の反論は,状況を追認するだけで積極的な反論を行わなかったCJK-JRGにも責任の一半があり,無意識の先入主のもとでの善意の判断を批判するのは筋違いではないか,という点にある)
このような,筆者の印象に対して,メディア論を専門とする水越伸氏(東京大学社会情報研究所)が,「小林さん,それこそまさにPax Americanaそのものですよ」と,喝破された.以後の議論は,若干うがったものであり,異論もあると思われるが,最後にやや踏み込んだ仮定を展開したい.
クリントン・ゴアの情報スーパーハイウェイ構想に係わるスピーチやレポートを集めたものを読んだことがある.ここで展開されている考えのベースにあるのは,次の世紀にまで続く米国の優位性の確保である.情報スーパーハイウェイは,世界の平和でも後進地域の繁栄でもなく,米国の繁栄を目指していることは,明らかである.それを,非常に楽天的に強調しているところに,クリントン・ゴアの問題があるように思われるのだが,UTCのメンバーたちも,実はほとんど意識することなく,Unicodeの普及を通して,クリントン・ゴアのある種の情報覇権主義に荷担することになるのではないか?
先日の香港での会議の際,打ち合わせの合間を縫って,マカオに足をのばした.イエズス会が1600年代に建てた教会の正面のみが残っており,その近くの高台には,これもイエズス会の砲台があった.思えば,当時,フランシスコ・ザビエルを含め,多くの宣教師が,まさに善意で彼らの神をアジアに伝える努力をし,それが,スペインやポルトガルなどの東洋への侵略に荷担したのだった.
UTCの仲間たちが,かつてのイエズス会士の轍を踏まぬように,及ばずながら意見を表明していくことが,筆者なりの彼らに対する誠意であり,日本語を母語とし,日常的に漢字を用いている筆者の責務ではないかと考えている.

カテゴリー: デジタルと文化の狭間で, 旧稿再掲 パーマリンク

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です