文字コードにとって真の国際化とは何か

文字コードにとって真の国際化とは何か

《愚者の後知恵》『マルチリンガル文書処理』というシリーズの第2回として書かれた。芝野耕司氏の批判にもあるように、UCSの各国コラム標記についてなど、一部、誤解があるが、例によって、歴史の改竄を避けるために、そのままで。
1997年11月
bit(共立出版)Vol.29,No.11への寄稿

最初に筆者の対外的な立場を明確にしておく。
職業は、株式会社ジャストシステム デジタル文化研究所勤務。デジタル文化研究所といっても、非常に小規模な組織で、個人的には、広い意味でのデジタル技術が、さまざまな文化状況とどう切り結ぶかを見極めようという大志を持っているが、実体は総務、開発、企画,営業といった明確な分掌から漏れ落ちるさまざまな仕事(標準化対応なども含め)を行っている。
Unicode ConsortiumのFull Member であるジャストシステムの代表として、Unicode Technical Comittee(UTC)に参加している。
ジャストシステムからの推薦を受け、Unicode Inc. のBoard of Directers の一員になっている。Unicode Inc. のDirecterは、属人的なものであり、筆者がジャストシステムの社員であることとは、独立である。
ISO/IEC JTC1/SC2に対応する国内委員会JSC2の委員を委嘱されている。この委員の一員として、ISO/IEC JTC1/SC2 およびJTC1/SC2/WG2 に日本代表団の一員として出席することがある。
ISO/IEC JTC/SC2/WG2/IRG に対応する国内委員会である、漢字ワーキング専門委員会の委員を委嘱されている。また、IRGに日本代表団の一員として出席することがある。
これらは、株式会社ジャストシステムに対する、委員派遣要請を受けてのことである。

【本稿のねらい】
日本でもっとも権威のあるソフトウエア学術誌であるbitとしては、本稿は異質のそしりを免れないことだろう。前もって、本稿の意図を明確にしておく。
本稿では、以下のような情報を読者の皆様にお伝えすることを目標にしている。

  • ISO-10646(UCS)およびUnicodeの現状についての、できるだけ正確な情報
  • UCSおよびUnicodeの制定過程に関して、巷間に流布している誤解の解消
  • 国際的な文字コードを見る観点についての一つの提案
  • 情報関係の国際規格が制定される過程の例示

これらの目標を達成するため、UCSおよびUnicodeに関わる面での筆者の個人史に即して、論を進めていくこととする。その上で、筆者が出会った問題に関しては、その時点での理解に留まらず、現状での筆者の理解、立場を明確にする。
眼高手低。読者諸氏のご寛恕をお願いする次第である。

【ユニコードに係わるようになった経緯】
筆者がユニコードに係わるようになったのは、Unicode Inc. の広告担当副社長でもあるAsmus Inc.のAsmus Freytagの突然の来訪がきっかけだった。どのような経緯で、Asmusがジャストシステムを訪ねてきたかは、つまびらかにはしない。専務の浮川に呼ばれ、Asmusとの面談に同席した。
筆者は、いくつかのJIS原案作成の委員会に参加したり、SGML懇談会というSGMLの普及促進に寄与することを目的とした任意団体に参加したりしており、Unicodeに関するある程度の予備知識を持ち合わせていた。その時点では、日本国内の一般的な風潮もあり、Unicodeに批判的な意見をより多く耳にしていた。
曰く、Unicodeは、16ビットの体系なので、65000字以上の文字は扱えない。他の言語に用いる文字もあるので、到底諸橋漢和に含まれる5万字近くもの文字を扱うことは出来ない。
曰く、Unicodeは、日本、中国、台湾、韓国の漢字について無理なUnifyをしたので、到底純粋な日本語に使えるものではない。
曰く、今度の改訂において、ハングルが約6千文字から1万1千文字に増えて、かつ、コードポイントも変更される。スタンダードとしての一貫性がないのではないか。

筆者は、これらの一つ一つにつき、Asmusに問いただしていった。正直なところ、ほとんど喧嘩腰といっていいような態度だったのではないかと思う。Asmusの返答には、納得できる点も納得できない点もあった。
しかし、もっとも気になったのは、「Unicodeは、これから世界の主流になる」一方、「Asmusは、UTCのコアメンバーとして活躍しており、Unicodeの細部までを知悉している」だから「Unicodeの実装について、Asmus Inc.のコンサルテーションを受けろ」という、自分が経営している企業の売り込みの姿勢が露骨な点だった。筆者には、ジャストシステムがUnicodeにコミットする、ということと、Asmusu Inc.のコンサルテーションを受けるということは、全く別次元のことと思われた。会談は、やや否定的な雰囲気で推移した。

しかし、会談の最後に及んでの、Asmusの発言が流れを大きく変えた。
「Unicodeに批判があるのであれば、Consortiumに参加して、正々堂々と意見を述べればよい。Unicode Consortium は、そのような意見に対しては、常に門戸を開いている。」
結果、浮川の判断は、ジャストシステムのUnicode ConsortiumへのFull Memberとしての参加。筆者は、Unicode Consortium の実体も分からないまま、担当者としての対応を迫られることになった。

【ユニコーダーから見た漢字】
最初の参加は、1995年9月の第7回Unicode Conferenceだった。それまで、ワークショップ形式で、比較的こじんまりとした規模で行っていた催しを、学会のような体裁を採って大がかりに行うように変更した最初の催しだった。
驚かされたのは、日本からの新たなメンバーだということで、オープニングセッションで、わざわざ歓迎の言葉が述べられ、参加者全員からの盛大な拍手を受けたことだった。会それ自体は、どちらかというと、学術分野での学会に近い体裁を採り、発表についても、可能な限り商業性を排し、内容についてもレビューボードが前もって審査をして、公正をはかるという姿勢が明確なものだった。
中でも、TeXで有名なDonald Knuth教授が、キーノートスピーチに招かれており、自身のスピーチの後も、熱心に多くのセッションに参加し、最前列に居座って、盛んに質問、提言をしておられた姿が、印象深かった。
しかし、疑問も残った。議論の多くが、インターナショナライゼーションをいう言葉を用いながらも、英語圏で開発されたシステムやアプリケーションの他言語化という視点に終始していたのだ。一部、中国語における簡体字から繁体字への一対多の対応を扱った中国人による発表などがあったが、多くは、例えば英語対中国語、英語対日本語といった風に、英語を中心としてそれを他の言語に展開するという発想から、一歩も抜けていなかった。このときの最初の印象は、今に至るまで、様々な形で異文化理解の困難さとして、幾度と無く経験させられることとなる。
帰国後、筆者のこの印象を聞いた、東京大学社会情報研究所助教授の水越伸氏は、言下に「小林さん、それこそまさに Pax Americana ですね」と、言ってのけた。確かに、彼等の思考方法の根底に Pax Americana が潜んでいると考えると、日中韓の漢字を、微妙な字形の違いを無視して統合しようという発想は、よく理解できる。彼等にとって必要なのは、英語から日本語、英語から中国語、英語から韓国語という、英語を中心とした個別言語への展開であり、中国語と日本語、韓国語と日本語という、英語から見ると他国語同士の共存や相互理解は、視野に入っていないのだ。Asmus Freytag と会う前に、さんざん聞かされていた日本の骨と中国の*骨*が、同じコードに割り当てられているという問題も、このような視点から見ると、実によく理解できる。以下、Pax Americana をキーワードとして、欧米人にとっての漢字文化圏理解の限界を考えてみたい。

【Interlingual と Multilingual】
日本語で、以下のような陳述を考えてみよう。
「中国語では、骨のことを*骨*と書く」
これは、JCK統合漢字の現在の問題を端的に示している。この陳述は、後述するように今の枠組みの中では、UCS/Unicodeでは、記述不可能なのだ。しかし、彼等には、
Han character “Hone” means bone. And written as “骨”
という言い方は思いつくが、
日本語で
「中国語では、骨のことを*骨*と書く」
という、言い方が存在するということ自体が、発想になかったのだ。
最近の筆者は、このことを、Multilingual ではなく、Interlingual でなければならない、と説明するようになっている。Unicode や ISO10646 の議論が、時に錯綜する背景には、この辺りの問題が明確に整理されていないことによる誤解が、多くあるように思われる。
読者諸賢はすでにお気づきのことと思われるが、先の言い方は二つとも、ある言語から見ると、メタレベルの表現になっている。多言語が共存できる環境を考える際、それぞれが「独立に共存できること」と、「混在できること」は、本質的に意味が異なる。例えば、ISO2022は、多言語を切り替えて「独立に共存させる」機構と考えることが出来る。巷間多く用いられるWWWのブラウザーでも、文字コードを例えばJISであるとかEUCであるとかLatin1とかが切り替えられるスイッチが用意されているが、これらも、多言語を「独立に共存させる」機構と捉えることが出来る。
しかし、これらの機構では、先の
「中国語では、骨のことを*骨*と書く」
という陳述は、表現することが不可能になる。もちろん、強引に
<japanese>「中国語では、骨のことを</japanese><chinese>*骨*</chinese><japanese>と書く」</japanese>
というように、ある陳述の中で、スイッチをこまめに切り替えていけば表現できないことはないが、いかにも煩瑣な手続きを要求される。

一方、当時 Unicode および ISO10646 に対して、従来から日本と中国で意味の異なる漢字に同一のコードを割り振った、という批判があり、「湯」が日本語では、「熱い水」を意味し、中国語では、「スープ」を意味するのにコードが同じだ、という例がよく引かれていた。しかし、これは、Coded Character Set の観点から見ると、おかしな議論で、「湯」という文字が表現できれば、どのようなコード系でも「湯は日本では熱い水を意味し、中国ではスープを意味する」という陳述は記述できる。もちろん、英語で
Han character “湯” means hot water in japanese and soup in chinese.
ということもできるし、中国語で、同様の意味のことを表現することもできる。
逆に、日本語の熱い水を意味する湯と中国語のスープを意味する*湯*に、別なコードを割り振ると、上記の陳述を記述する際に矛盾が生じる。
「湯」は、日本語では「熱い水」を、中国語では「スープ」を意味する。
「*湯*」は、日本語では「熱い水」を、中国語では「スープ」を意味する。
という風に、全く同じ意味の陳述に「湯」に用いるコードによって、二つの表現方法が可能となってしまう。
もちろん、この陳述も各個別言語から見るとメタレベルの陳述になっている。逆にいえば、日本語の湯と中国語の*湯*に、別なコードが割り振られていた場合、このようなメタレベルの陳述は不可能となり、結果的にそれぞれの言語は独立したかたちでしか共存することが出来なくなる。

ここまでの、筆者の議論をまとめておくと、

  • ユニコーダーには、抜き差しならない英語中心の先入主がある
  • その結果、彼等の言う多言語化は、英語と一つの他国語との二言語化が複数集まったものとなり、真の意味での多言語化にはなっていない
  • 真の意味の多言語化とは、複数言語にまたがるメタレベルの陳述が可能なものでなければならない

ということになる。

彼等の名誉のために、急いで付け加えておくが、彼等は決して悪意からそのように思っているのではなく、そのような発想をする習慣がないだけなのだ。だからこそ、この Pax Americana は、根が深いとも言えるのだが。

【UTCでの活動】
その後、筆者は、Unicode Technical Comittee に、日本人としてはただ一人参加していくことになる。その後の委細は省略するが、以下の二つのことを、報告しておく。
筆者が最初に参加したUTCは、ISO10646対応の米国国内委員会であるX3L2と合同で開催された。これは、参加者の大部分が重なることと、参加者の多くが全米に散らばっており、経費、時間の節約の必要性から、無理もないことではあった。
しかし、SC2/WG2に係わる意志決定のための投票の際、UTCとしての立場とX3L2としての立場を明確にせずに、投票に入ったのには、筆者もあきれるやら驚くやら、唖然としてしまった。急遽発言を求め、国際的なコンソーシアムであるUnicode Consortium と、米国のNational Body である X3L2 は、全く性格が異なり、筆者はUTCのメンバーではあるが、X3L2 とは、全く関係がないので、はっきり区別してもらいたいと、強く申し入れた。
申し入れは、驚くほど素直に受け入れられた。指摘に対して、感謝の言葉さえ受けた。
その後の会議では、まず、X3L2の事務的な話し合いを行い、次いで、UTCとしての議論、決議を行う、そして、最後に、個々の決議につきX3L2としての決議を改めて確認する、という方式が確立された。もちろん、筆者は、X3L2としての議論、意志決定の際は、席を外すことにしている。

昨年秋より、オリジナルのメンバーであり、しばらくメンバーから抜けていた Sun Microsystems が、Unicode Consortium に復帰し、Sun Soft の樋浦秀樹氏が、代表として UTC に参加するようになった。アメリカの企業に属しているとはいえ、日本人の仲間が UTC に加わったことは、この上のない味方を得た思いで、たいへん喜ばしいことと考えている。

【IRGへの参加】
UTC のメンバーとして、幾度か会議に参加しているうちに、どうも、Unicode の側からだけ見ているのでは、ISO10646 の動きの全体像が把握できない、という思いが強まってきた。UCSの中で、漢字パートを担当しているIRG に対応する日本の委員会である情報規格調査会漢字ワーキング専門委員会の委員長を務めておられる慶應義塾大学の石崎俊教授を、たまたま存じ上げていたので、お願いして委員会に加えていただいた。
国家同士の正式な条約に基づく、規格策定に係わる委員会に、「お願いして加えていただく」ことが出来る、という事実は、実は、やや意外な思いがあった。
ここでISO対応の委員会が、どのような形で運営されているかについて、簡単に説明しておく。
情報関係のISO規格に対応する国内委員会は、情報処理学会に事務局を置く情報規格調査会が、通産省工業技術院電気情報規格課の指導の下、会員各社の拠出金によって運営している。
各委員会は、会員各社から推薦される委員と、大学人を中心とする学識経験者とから構成され、委員の委嘱就任にあたっては、上位の委員会の承認を得ることになっている。
このこと自体、さまざまな経緯を経て現状に至っていることなので、口を差し挟む筋合いのものではないが、JISも含め、情報規格の多くが、一部の学識経験者と、筆者を含めて業界内の企業関係者とによって、決められていく現状を見ると、ユーザーないしは消費者の視点は、いったいどこで取り入れられるのだろう、という疑問を抱かないわけではない。

この漢字ワーキング専門委員会に加えていただくことにより、ISO10646の現状と、現状に至る過去の経緯が、随分と理解できるようになった。
UCSとUnicodeに関して、非常に分かりにくかったのは、現在のUCSの決定にあたって、Unicode Consortiumという民間団体が大きな影響力を持ち、結果的には、あたかも公的な国際規格が民間団体によって乗っ取られてしまった、といった印象を持たれていることの、事実関係の部分だった。
結論から言うと、問題点は二つ。
一つは、公的規格(デジュアスタンダード)が、民間規格(デファクトスタンダード)に対して、劣勢になりつつあるという事実。
もう一つは、UCSの決定にあたって、手続き上不備と取られても仕方のない事実関係があったということ。
特に後者は、当時日本の関係者として係わっておられた様々な方が、異口同音におっしゃることなので、恐らくは、相当大きな問題だったのではないかと推察できる。
しかし、経緯はどうであれ、日本の反対の投票にも係わらず、結果としては、UCSは、正式なISO規格として制定され、後にJISにもなっている。
上に挙げた二つの問題に即して、規格を用いる側の対応も、二つの局面が考えられる。
一つ。UCSないしはUnicodeを全面否定するか、存在は認めた上で、改正もしくは運用上の改善を求めていくか。
一つ。デファクトスタンダードとしての、Unicodeを取るか、公的規格としてのUCSを取るか。
現在漢字ワーキング専門委員会に参加している委員各氏の立場は、一般的にはUCSの存在は認めた上で、その改善を求めていく、ということになろう。その前提の上で、Unicode Consortiumに反対の立場をとる方、感情的に受け入れられない方が多いのも事実である。Unicode Consortiumが、善意からであれ、無意識であれ、悪意を持ってであれ、過去にこのような反発を招くような行動をとったということも、また、素直に認めなければならないだろう。

漢字ワーキング専門委員に加えていただき、ISO/IEC JTC1/SC2/IRG の香港会議に、日本代表団の一員として、同行したのは、1996年の6月のことだった。
ここで、また、漢字コードに関して、新たな問題が存在することを思い知らされる。現在IRGには、日本、中国、韓国、TCA(台湾)、香港、シンガポール、ヴェトナムという、7つの国と地域と団体、それに、アメリカとユニコードがオブザーバーといった感じで加わっている。しかし、同じ、東アジア漢字文化圏、といっても、それぞれの国や地域によって、漢字に対する考え方が、それぞれ異なる。例えば、ヴェトナムは、歴史的にはチェノムという独特の漢字を用いており、そのVertical Extension への追加要求を出しているが、彼らは必ずしも、チェノムをBMPに入れることを求めてはいない。IRGの大勢ができるだけ多くの文字種をBMPに入れることを、いわば悲願としてきたのとは、対照的である。
また、韓国の場合は、ハングルが基本にあった上での漢字であるし、シンガポールは英語、マレー語を含む多言語国家の中の中国語=漢字ということになる。
しかし、いずれの場合も自国が提案した文字(記号類)や方式を採用させることが、いわば国是となっているので、なかなか論理的に整合性のあるものを全体で話し合って決めるというわけにはいかない。

このような中で、CJKパートの統合の議論もなされたことだろう。いわば、あちら立てればこちら立たず、といった状況の中でぎりぎりの妥協が迫られたことと思われる。
漢字統合の議論にも、いささか不明瞭な経緯があったようだ。すなわち。
WG2で、複数のアーキテクチャが議論されていた。その中で、現在の16ビットないし32ビットの平面に日中韓の漢字を統合化して収録する方式が可能かどうかを、専門家グループを結成して検討することとなった。これが、IRGの前身であるCJK-JRGである。このグループに当初から関わっておられた小池建夫氏によると、当初、漢字統合化については、「統合化するならこのような方式になるだろう」ということで、あくまでも可能性を検討するというはずだったのが、作業を進めているうちに、いつのまにか統合化することが既定の事実になっていたという。
もう一つ、多くある誤解が、統合漢字は漢字のことをろくに知らない Unicode Consortium が強引に作ったものを押しつけられた、という誤解である。これも、どうも経緯としては、CJG-JRGとしてきちんとした提案をしなければ、Unicode案をそのまま採用する、という要請がWG2からJRGに出され、その結果、かなり集中的な作業を強いられた、というのが実状のようである。いずれにしても、限られた時間の中で、多くの妥協を強いられたとはいえ、漢字の統合化は、アジアの漢字国の、それなりの当事者の献身的な努力の成果であることは、改めて確認しておきたい。
結果の問題点を指摘し、今後の改善に資することは、もちろん大切なことだが、誤解に基づく全否定は、厳に戒めなければならない。

【IRGでの現在の議論】
ISO10646は、93年に正式な規格として成立した後も、引き続き改訂作業が行われており、多くのAmendmentが成立している。公的な条約、規約のご多聞に漏れずご多分に漏れず、手続きが非常に煩瑣なので、個々の規格やAmendmentが正式にはどのステージにあるかは、当事者でもなかなか把握しきれるものではない。ましてや、一般の人々にとっては、ISOの規格それもAmendmentが、いったいいくつあり、どのようなステージにあるかは、ほとんど情報を得る機会はないのではないか。
過去成立したアメンドメントの中で、重要な点につきいくつか触れておく。

・UTF16
サロゲートという仕組みをとって、16ビットの平面の中で、面を切り替えてUCS4の一部(16ビットの平面16枚分)を表現する仕組み。Unicode Ver.2でも正式な規格に加えられている。一部に、このUTF16は、Unicode独自のであるとの誤解があるが、ISOでもAmendmentとして正式に成立している。
・ハングルの増強と移動
ハングルが約11000に増え、位置も移動した。
・CJK Vertical Extension A
IRGでは、現在、統合漢字パートに含まれる20902字に追加する漢字につき、継続的に議論している。最近になり、追加約6000字を、BMPの内部でハングルが移動した後に追加するというほうこうで、WG2、SC2も含めて、おおむね了承が得られた。
・部首のコード化と部品による漢字の合成
部首を漢字コードとは独立に登録しようという議論と、漢字を部品を合成することによって表現しようという議論が、継続中である。
・off BMPの議論
BMPがいっぱいになるのはすでに時間の問題なわけで、BMP以外の面の割り振りについての議論が始まっている。

【Unicode Technical Comitteeの現状】
UTCとしては、基本的には、SC2/WG2と共同歩調をとっていくという姿勢に変更はない。
しかし、W3CやJAVAが、Unicodeを積極的に採用、サポートしていることもあり、デファクトベースでのさまざまな、規格化の動きに機敏に対応する必要性が生じている。UTCのメンバーの中には、従来のISOのペースでは、時代の流れに即応していくことが困難なのではないかという危機感が生じている。インターネットの世界の激しい動きは、UTCにとってもある種の驚異になっている。

【結語】
ジャマイカ生まれでイギリスで教鞭を執っている社会学者である、スチュウアート・ホールは、自らをディアスポラ(離散ユダヤ人)的知識人と呼んでいる。開発途上の地域に生まれ、先進地域で教育を受けたために、生まれ故郷ではイギリス文化圏の人間と目され、イギリスではいつまで経ってもジャマイカ生まれの異邦人としてしか遇されない、居場所のなさを、ディアスポラ的と表現したのである。
スチュウアート・ホールには及びもつかないが、日本の企業を代表する日本人として、UTCに参加している筆者も、やはりこのような居場所のなさを感じている。国際的な議論の場に放り出されたとき、日本の立場だけに拘泥していては、だれもこちらの発言に耳を傾けてはくれい。本人としては、可能な限りメタのレベルで議論を展開しようと考えるのだが、それでも、どこか「タツオは日本人だから」とか「コバヤシサンは東洋から来たお客さんで文化が違うから」という先入主が抜けきらない。一方、国内では、下手にユニコードの連中を養護しようものなら、まるで、魂を外国に売り渡してしまった日本人、とでもいった目で見られる。
しかし、複数言語間の完全なコミニュケーションは、原理的にあり得るものではない。であるならば、いたずらな原理主義に立ってコミニュケーションを拒絶するよりも、不完全な中でも、少しでもベターなコミニュケーションを目指すことの方を、選びたいと思う。そのために、今しばらく、現在のディアスポラ的な居場所のなさを甘受しようと考えている。

カテゴリー: デジタルと文化の狭間で, 文字コードの宇宙, 旧稿再掲 パーマリンク

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です