多言語情報処理の社会学

多言語情報処理の社会学

《愚者の後知恵》東京大学の西垣通さんが主査を務めておられたサントリー文化財団の研究会での発表を元にして、同書のために書き直した。さまざまな分野で活躍しておられる知識人に対して、かなり狭い分野の技術的な問題を背景とする話題をぶつけて批判を請えたことは、とても貴重な経験となった。
2000年10月
山崎正和・西垣通編『文化としてのIT革命』(晶文社刊所収)

1.ミャンマーにて
一九九九年一〇月二六日と二七日の両日、ミャンマーの首都ヤンゴンで、Fourth International Symposium on Standardization of Multilingual Information Technology(MLIT4)というシンポジウムが開かれた。
このシンポジウムは、日本の通商産業省、工業技術院、財団法人国際情報化協力センター、ミャンマーのMyanmer Computer Federation(MCF)などの共催で行われたもので、今回が第四回目。アジアとりわけ東南アジア、南アジアの諸国・地域の産業発展・育成に不可欠な情報技術基盤整備を支援することを目的としている。
筆者もここ数年、コンピューターで漢字をはじめとするさまざまな文字を扱うためのISO/IEC 01646という国際規格の策定に係わってきた行きがかり上、どのようにしてコンピューターでさまざまな文字を入力する際の言語や文化に依存した要素を、複数言語が共存する環境と折り合いを付けるべきか、ということについて簡単な報告を行った。
このシンポジウムとプロジェクトについては、他ならぬ本書の編者である西垣通氏が、「世界」に寄稿された当を得た紹介がすでにあるので、多くを繰り返すことはしない。本論の目論見は、今回のシンポジウムで議論された一つの話題の紹介を通して、情報技術の世界で起こっている(と筆者が感じている)近代的「国民国家」の枠組みの綻びについて、論じることにある。

MLIT4では、非漢字の統合、特にタイ文字の統合問題が、大きなテーマとなった。
タイに隣接する中国、ミャンマー、ヴェトナム、ラオス、カンボジアなどの国々には、言語的にはタイ語とは異なっていながら、その表記のためにタイ文字を用いる少数民族が少なからず存在する。やっかいなことに、これらの言語はただ単にタイ文字を用いているのではなく、それぞれの言語の実態にあわせて、文字の追加、変更を行っている。
こういった少数民族の文字を、「統合タイ文字」といった形で大きく括えい、国際的な文字コードに取り込んでいけないか、というのが「タイ文字の統合問題」なのだ。
では、どうしてこのような問題が生じるのか。

この問題を考える前に、簡単にコンピューターで文字を扱う際の問題点と文字コード、なかでもISO/IEC 10646およびUnicodeについて振り返っておく必要がある。

2.ISO/IEC 10646とUnicode:公的な標準と事実上の標準
当初数字や簡単なアルファベットしか扱うことのできなかったコンピューターも、今ではさまざまな文字や記号を扱うことができるようになってきている。一部には、自動翻訳のように、一見言葉の意味を理解したような振る舞いまでできるような技術も登場している。
これら、コンピューターでさまざまな言語の記述を扱うためには、個々の文字に一連の番号を付けたものを用いる。これを文字コード(Coded Character:符号化文字)と言う。符号化文字をある基準で集めたものを符号化文字集合(Coded Character Set)と言う。
たとえば、日本では、JIS X0208:1997「情報交換用符号化漢字集合」(いわゆるJIS漢字)が有名で、平仮名、片仮名、漢字、さまざまな記号類など、約7000種類の文字や記号に、一連の符号が振られている。われわれが、パーソナルコンピューターで論文を書いたり、電子メールのやりとりをするときも、背後でこのような符号化文字集合が用いられている。
逆に言うと、きちんとした符号化文字集合が定まっていないと、コンピューターやネットワークを用いた情報交換が正確には行えない、ということでもある。インターネットを初めとし、コンピューターがネットワークでつながり、コミニュケーションの手段として用いられる現代においては、共通の符号化文字集合を用いることが必須のことである、どういった符号化文字集合を用いるか、ということが、実務的にも政治的にも非常に大きな問題となっている。

現在、さまざまな言語が混在する環境で用いる符号化文字集合として、主流になりつつあるのがISO/IEC 10646 Universal Multiple-Octet Coded Character St(UCS)と呼ばれる国際標準規格である。この規格は、世界中の言語に用いられるあらゆる文字を統一的に扱おう、という壮大な理想の下に開発が開始されたが、いわばコンピューター時代のバベルの塔といった塩梅で、その策定課程でさまざまな技術的政治的問題も内包している。

われわれに身近な漢字のコード化一つをとっても、さまざまな問題がある。
賛否相半ばするもっとも大きな問題は、日本、中国、韓国などの漢字圏の文字をCJK unified ideographsとしてひとまとまりにしてしまったことにある。
漢字圏の国々を旅したことのある方なら一度は経験があることだと思うが、音声としての言葉が通じなくても、漢字の筆談である程度の意志疎通が可能だ。漢字と言われるように、日本語の表記体系は元々は中国古来の文字を借用することから始まっているのだから、当然と言えば当然のことではある。しかし、長い歴史の積み重なりは、日常的に用いられる字形の差違や国字といった日本独自の文字を生み出してきた。
韓国や台湾などにとっても事情は大同小異だが、こういった各国、各地域の事情の異なりにある程度目をつぶり、重なり合う部分を重視して共通の文字コードを作ろう、というのがunified ideographの発想である。
この漢字の統合化に対しては、開発途上から誤解に基づくものや、感情的な反発によるものまで、多くの反対が存在した。

反対意見の具体的な論拠は、大きく分けると二つある。
一つは、歴史の中で異なる発展を遂げてきた日本や中国の漢字を統合すると、日本独自の文化が失われてしまうのではないか、というものである。
この論点としてよく例に挙げられるのが、「骨」という字で、規格票の日本の欄には「骨」という形が用いられているのだが、中国の欄には「*骨*」という形が用いられている。これを、統合してしまうと、日本人の文章であるにもかかわらず、中国の文字を用いなければならなくなる、というわけだ。
規格に関わってきた当事者の立場から申し開きをさせていただくと、この論難には異なる二つのレベルの誤解がある。
一つ。規格は、規格票に現れる微細な字形の相違を束縛するものではなく、ある(社会的な合意に基づく)揺れの範囲の中で、自由に用いればいい。
二つ。「骨」と「*骨*」に関して言えば、この字形の相違は、日本と中国の差違と言うよりも、日本でも中国でも歴史の中で混在して用いられていた一般的な字形の揺れでしかない。
反対意見のもう一つの論拠は、当初、CJK unified ideographsに含まれていた約二万一千字の文字数では、日本の文化資産を表現するに不足する、というものである。
日本の代表的な漢字辞典である諸橋徹次による『大漢和辞典』(大修館書店刊)や中国の康煕字典には、約五万字の親字がある、これらの文字がすべて表現できなければ、日本の文化資産を表現しきることができない、というわけだ。
この論拠についても、文字学の専門家から印刷史の専門家に至るまで、文字数の多さが日常的、学問的な表現行為にとって必ずしも必須のものではないことが縷々述べられている。

CJK unified ideographsに対しては、じつはもう一つ大きな感情的な反対がある。この部分が米国の私企業群の圧力により、日本にとっては不本意な形になっている、というものである。
いささか話が煩瑣になるが。
ISO/IEC 10646は、国際標準化機構(International Organization of Standardization)と、国際電気標準化会議(International Electrotechnical Commission)の合同技術委員会(Joint Technical Committee)によって制定されている。この委員会は、非政府組織とはいえ、国の代表機関(National Bodyと呼ぶ)によって構成され、議決投票権は、一定額の会費を納めたNational Bodyのみが持つ。
従来は、ISOやIECの場で、それぞれの国が、まさに合従連衡を繰り返しながら、利害のぶつけ合いと妥協により、国際規格を制定してきた。
しかし、そこにもある種の官僚組織と外交交渉が存在し、特に情報技術分野では、現代の激しい技術革新にはそぐわない面が生じている。
ISO/IECによる公的な標準(de jure standardという)の間隙を縫って、最近広がっているのが、民間企業や民間の団体によって提唱され、市場に受け入れられることによって多数派となる事実上の標準(de facto standardという)である。
特に、インターネットの世界では、このde facto standard花盛りといった様相がある。
ISO/IECが、UCSの策定作業の途上にあったころ、米国の西海岸に基盤を置く情報技術分野の地球規模民間企業が中心となってUnicodeという符号化文字集合を提唱した。
委細は省略するが、さまざまな議論と妥協の結果、ISO/IEC 10646は、Unicodeと統合された。現在は、ISO/IECの会議に、Unicode Consortiumがオブザーバーを送り、Consortiumの主要な構成メンバーであるアメリカやカナダの代表と連携しながら、規格の制定に大きな影響力を持って活動を行っている。
ISO/IEC 10646の制定当時、公的なものであるISO規格が、Unicode Consortiumという民間企業の連合体の圧力に対して妥協を余儀なくされた、中でもCJK unified ideographsの部分は、当事者ではなく漢字の文化に無知な欧米人のご都合主義によって押しつけられた、といった批判が、日本の国内で多く見受けられた。この視点からの批判は、形を変えながら近ごろの文藝家協会による国語審議会への要望書などにも、影を落としている。
この批判についても、制定当時の当事者たちのお話をうかがうと、CJK unified ideographsの策定作業には、日本、中国、韓国、台湾などの専門家が、ボランティアとして協力したことは明確であり、漢字文化に無知な欧米人のごり押しといった批判は、情報不足による誤解以外のなにものでもない。
ただ、Unicode Consortiumの圧力といった点は、筆者が関係するようになってからも、さまざまに形を変えて存在している。この点については、「国民国家の綻び」という観点から後述する。

3.タイユニフィケーションまたは規格を提案する主体
下準備に、思いの外紙幅を要してしまった。タイ・ユニフィケーションの問題に立ち戻ろう。
タイに隣接する諸国には、独自の言語でありながら、タイ文字に若干の変形・拡張を行って表記に用いている少数民族が少なからず存在する、ということは先に述べた。
一方、開発途上の国家にとって、情報技術分野での産業育成は、いわば悲願という様相がある。
中でも自国で用いられている言葉をコンピューターで扱えるようにする、ということには情報技術の国力を誇示するための象徴的な意味があるように思われる。
ISO/IEC 10646を策定しているグループの基本的なスタンスとしては、少数民族の言葉に用いられる文字でも、実際に使用している集団が存在する限りは、区別なく規格化していこうと考えている。しかし、ある言語に用いられる文字のグループが独立している場合は、単純にその文字のグループを追加するだけですむが、一般的には、ことはそれほど単純ではない。
言語学の素養がある方にとっては当然のことであるが、話される言語と書かれる文字との対抗関係は、必ずしも一対一ではない。例えば、北京語、広東語、福建語などを別の言語と考えたとして、スクリプトとしては漢字があれば事足りるし、モンゴル語などもつい最近まではキリル文字を用いた表記が用いられていた。筆者が見聞きした例を挙げると、マレー語は、アルファベット表記とJawiと呼ばれるアラビア文字表記が存在するが、ともに音写のための借り物であるという点で変わりはない。
欧米でも、英語、フランス語、ドイツ語、スペイン語、ポルトガル語などは、通常のラテン・アルファベットにいくつかのアクセント付きの文字や、写本の表記方法に起源を持つ合字を用意すれば、ことが足りる。
このような事情で、国際符号化文字の世界では、複数の言語を表記するためのスクリプトを統合することが早くから行われている。このやり方は、規格を策定する作業量の点からも、コンピューター資源の点からも、合理的かつ能率的なやり方である。ラテン・アルファベット、アラビア文字、先に挙げた統合漢字などは、その例である。

タイ・ユニフィケーションの問題も、ある文字のグループを用いる複数の言語をひとまとめにして、ISO/IECの規格として制定しようという一連の流れの中に位置づけることができる。
しかし、ここには二重の意味での困難が伴っている。
まず、少数民族故に、その民族が属する「国」の公用語であることは稀であること。
次に、「国」自体が、発展途上である故に、ISO/IEC JTC1において投票権を持っていることは稀であること。
先にも述べたように、ISO/IECの規格は、基本的には一定の会費を払って投票権を持つナショナルボディの議決のよって制定される。ところが、タイ・ユニフィケーションの対象となる少数民族を持つ国家の多くは、ISO/IECの投票権を持っていない。
それでも、自国の公用語あるいは、比較的利用者が纏まっている独立した文字グループであれば、主体的に提案をまとめることもできないわけではないし、ISO/IECの関係者からの提案に対して、国としてのまとまった意見を述べる道も完全に閉ざされているわけでもない。しかし、複数の国家にまたがる複数の言語を表現する文字グループを、新たに一つの提案にまとめ上げ、それをISO/IECというナショナルボディ同士の談合の場に持ち込むとき、提案するのはどうのような主体になるのか。
MLIT4での問題提起は、このような非常に困難な道を、途上国同士が協力と連絡を密にして切り開いていこう、というものだった。
いそいで付け加えておくが、公式な発言は別として、タイのような有力な国がリーダーシップを取ることに対する率直な危惧の発言が、他の国々の代表から漏れ聞こえてきたこともまた事実である。

4.国家の意思と企業の意志
もう一つ、異なる観点から「国民国家の綻び」の例を挙げておきたい。
この規格が制定された1993年当時、漢字部分については、さまざまな曲折があったとはいえ、最終的には、CJK Unified Ideographsという形で、日本、中国、韓国などの代表が協力し合って、共通部分を統合化した文字コードを作り上げたことを、先に述べた。この作業は、当時存在していたそれぞれの国内規格を基に行われた。そのこともあり、規格票には、元になった国内規格を参照するための情報が記載されている。
ところが、ISO/IEC 10646には、このCJK Unified Ideographsとは全く別のところに、JCK COMPATIBILITY IDEOGRAPHSという奇妙な漢字の一群が存在している。
多くは、台湾や韓国などの国内規格にあり、統合化の作業で扱いに苦慮した漢字が、まさにそれぞれの国内規格との互換性維持のために採録されたものなのだが、一部、日本の関係者の間でカナダ文字と呼び慣わされている漢字がある。
筆者が係わる以前のこと故、委細はつまびらかにしないが、当時から係わりのあった方々の話をまとめると、以下のような次第のようである。
IBMの日本法人で、以前から大型機に用いていた文字コードのセットがあり、その中には、一部、当時のJIS X0208にもX0212(補助漢字と呼ばれるもので1990年に制定された)にも含まれない文字が存在した。ISO/IEC 10646の制定にあたり、これらの文字が国際規格に含まれないことになると、IBMグループとしての日本市場における戦略にマイナスの影響を与える可能性がある。そこでCJK統合漢字の策定作業を行っていたグループとは独立に、ISO/IECの会議にカナダの代表として出ていたIBMの社員が、これらの文字の提案を行い、Unicode Consortiumの支援を得て採択された、ということのようである。
ことの是非は措くとして、地球規模の企業が、自企業グループの共通の利害のために国の枠を越えて活動する例は筆者が活動に参加するようになってからも枚挙に暇がない。
実際のところ、筆者もメンバーとして加わっている、Unicode Technical Committee(UTC)の構成メンバーは、まさに多士済々、いわば人種のるつぼのような状況を呈している。ドイツ、オーストリア、フランス、ヨルダン、インド、台湾、日本。そして、筆者を除くすべてのメンバーが、IBMやMicrosoft、Apple Computer、Oracleなどの米国=国際企業の現役社員もしくは元社員である。
彼らは、それぞれが帰属する企業の世界戦略を踏まえた上で、Unicode Consortiumとしての意志決定を少しでも自社の利益に結びつく方向に持っていこうとする。
驚いたことに、筆者がただ一人の(日本国籍を持ち、日本語を母語とする)日本人として参加するようになった一九九五年当時、この委員会はISO/IEC 10646の策定に係わるアメリカ合衆国のナショナルボディであるL2という委員会と合同で会議が持たれ、議決も渾然一体となっていた。この状態については、事実上筆者のみがUTCのメンバーでありながら、L2とは異なる立場(日本の立場)を取るという局面もあって、強く抗議したところ、その抗議が受け入れられ、以後は、UTCの決議とは独立にL2のメンバーだけで、新たに決議の確認を取るという手順にはなった。
それにしても、民間企業の連合体としての意志決定とISO/IECに対応する国家組織の代表としての意志決定の区別に対する意識の低さは、筆者にとってはある種の驚きであった。後に、ことの事情が少しく分かるようになってみると、L2の構成メンバー自体が民間企業であり、ISO/IECに対するアメリカ合衆国としての意志決定も他ならぬ個々の民間企業の利害の集積に他ならないものではあったのだ。

5.国民国家の綻びまたは情報ディアスポラの誕生
本稿の目論見は、情報技術分野での文字コードに係わる国際標準規格策定の現場体験を通して、近代的な「国民国家」の綻びの一端を示すことにあった。
その一つの局面が、タイユニフィケーションを例とする国家語に収まりきらないさまざまな言語に用いる文字の規格化という問題であり、もう一つの局面が、Unicode Consortiumに代表されるような、国家の利害を超えた地球規模企業群の振る舞いという問題だった。
最後に問題点を整理するとともに、「国民国家」を越えた動きの可能性について考えることにしたい。

まず、タイユニフィケーションの議論に含まれる問題は以下のような点に整理できるだろう。

  • 一つの国家で用いられる言語が単一であるとは限らない。
  • ある言語音声言語とそれを表記するための文字グループの対応関係が一対一であるとは限らない。
  • 情報化の波の中にあって、開発途上国の産業発展・育成のためには、情報技術は欠くことができない。
  • 現在のISO/IECの仕組みの中では、規格制定の実質的決定権を握っているのは、一定の会費を払って投票権を持つ一部の国の代表に限られる。
  • このような状況の中で、国家語の枠に収まりきらない言語表記を国際的文字コード標準の中に取り入れていくことには、非常な困難が伴う。

人に貴賎がないと同様、人が母乳とともに母親から獲得した母語にも貴賎があろうはずはない。話される言葉とそれを記述するための文字との差はあれ、自らが日常的に母語として用いている言葉で自らの考えを表現したいという欲求は人にとって根元的なものといえよう。そして、産業技術の発展と引き替えに、それらの欲求を封殺する権利は何人にもない。
しかし、歴史は、時の権力者が常に言葉を支配の手段として用いてきたことを明らかにしている。さらに、新しいメディアの出現は、言語の多様性を少なくする方向に働くことも、同様に歴史が証明している。

こうした中で、お互いの母語を尊重すること、地球上のあらゆる人々の母語=日常的な言葉をインターネットを初めとするコンピューターやネットワーク環境において自由に使えるようにすること、そのために個々人が努力すること、などが必要なように思われる。
しかし、このような個々人はどこに存在するのか。

次に、Unicode Consortiumに代表される地球規模企業の振る舞いはどうか。

  • 現代の地球規模企業の活動は、もはや「国民国家」の枠組みを越えている。
  • こうした企業に所属する人々は、さまざまな母語と国籍を持ちながら、「国民国家」の価値観とは異なる企業の価値判断で行動している。
  • ISO/IECの活動などで、アメリカ合衆国の意志決定は、時にこうした地球規模企業の意志決定に取って代わられる場合がある。

筆者がUnicode Technical Committeeを通して知り合った友人の一人に、日本の国籍を持ちながら、Sun Microsystems米国本社のの幹部技術者として働いている樋浦秀樹氏がいる。
樋浦氏は、ISO/IECの会議には、米国の代表団の一員として参加する。彼の立場はかなり微妙なのだが、筆者が忖度するに、Sun Microsystemsという企業の一員としての立場と母語として日本語を話す人間としての立場との重なり合う部分に判断の基準をおいているのではないかと見受けられる。しかし、彼の活動は、日本人やSun Microsystemsの社員といった枠に収まりきらない部分がある。
近ごろ、情報技術分野で「オープンソースソフトウエア」という言葉をよく耳にするようになっている。オープンソースとは、ソフトウエアをそのソースコード共々無償で公開し、関心を持つボランティアがよってたかって改良していく、とった類のもので、コンピューターのオペレーションシステムとして長い歴史を持つUnixの一種である、Linuxなどがその代表的なものである。
樋浦氏は、まさに、このオープンソースを地で生きているようなところがあり、Unixの世界やインターネットの世界で、企業の枠を越えた広い人脈を背景に、さまざまな活動を行っている。筆者の周辺には、少数ながら、樋浦氏のような「国民国家」や地球規模企業の枠を越えた技術者が現れ始めている。
近ごろ、知的ディアスポラについての議論を度々目にするようになっているが、彼らはいわばディアスポラ的情報技術者とでも名付けてよいのではないかと思われる。
タイユニフィケーションの問題だけではなく、少数民族の言語をコンピューターやネットワークで扱うための技術基盤づくりという困難に立ち向かうことが出来るのは、「国民国家」に機軸を置く人々でもなく、地球規模企業に機軸を置く人々でもなく、自らの母語を大切に思い、他者の母語に対して思いを致すことの出来、かつ、優れた技術力を持つ、樋浦氏を初めとするディアスポラ的情報技術者たちではないか。

カテゴリー: デジタルと文化の狭間で, 文字コードの宇宙, 旧稿再掲 パーマリンク

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です