最近刊行の文字コード関連書を読んで
出版社にとっての文字コード
【リード】
情報処理学会情報規格調査会漢字ワーキング小委員会主査として、また、ユニコードコンソーシアム理事として、国際的な文字コード規格策定の最前線で活動する筆者が、編集現場の経験とアプリケーション開発現場の経験を踏まえて語る文字コードの現在(いま)。
コンピュータで自然言語を扱う困難
先ごろ出版された『漢字問題と文字コード』(小池和夫・府川充男・直井靖・永瀬唯著、太田出版刊)を面白く読んだ。
同書を初めとして、近ごろ文字コードやコンピューターやネットワーク上での漢字の扱いに係わる書物の発行が相次いでいる。
『パソコンにおける日本語処理/文字コードハンドブック』(川俣晶著、技術評論社刊)
『文字コードの世界』(安岡孝一・安岡素子著、東京電機大学出版局)
少し遡ると
『電脳文化の漢字の行方』(平凡社編・発行)
『日本語が危ない』(太田昌孝著、丸山学芸図書刊)
など。
雑誌当の記事に至っては、「ユリイカ」(1998年5月号、青土社)「しにか」(1999年6月号、大修館書店)など枚挙に暇がない。
(興味をお持ちの方は、先般終了した情報処理学会情報規格調査会文字コード標準体系検討専門委員会の報告書[http://www.itscj.ipsj.or.jp/domestic/mojicode/index.html]に、かなり詳細な文献目録が収録されているので参照されたい。)
いずれにしても、このような情報の氾濫は、コンピューターの上で漢字を初めとする自然言語を扱うことの困難さについての議論が、コンピューターやインターネットを初めとするデジタルなネットワークの爆発的な普及に伴って、一部の専門家、関係者内部から、一般のメディア、消費者にまで急激に拡大しつつあることの証左と見ることができよう。
議論の拡がりの過程で、日本文藝家協会名で国語審議会に提出された要望書を初めとして多くの誤解もまた生じることになった。
小池氏らの著書は、これらの誤解に対して、事実関係を正確に捉えた上で、やや一面的ではあるが、当を得た示唆を与えてくれている。
中でも、先般発行され、ベストセラーの一角も占めた井上ひさし氏の『東京セブンローズ』(文藝春秋刊)の組版上の問題に対する指摘は、特に出版業界(と印刷業界)における漢字とコンピューター問題を考える契機となる多くの論点が含まれている。
小池氏の主張を筆者なりの解釈で簡単に纏めると、「写植、オフセット印刷を前提とした現代的な明朝体フォントを基にして、いたずらに細部の字形だけをいわゆる正字に変更しても、井上氏が本来目指したであろう、当時(先の戦争直後)の印刷物の雰囲気は再現できず、むしろ出版物としての美的バランスを欠くことになりますよ」といったことになろうか。
論点を端的に二点に絞ろう。
一つ。手書き文字と活字の関係
二つ。活字設計の時代による変化
以下、これらの問題について、少しく検討してみたい。
手紙文字と活字
小池氏の論点は、井上氏の作品が先の戦争末期から敗戦後の時代を背景とする日記文学の体裁を取って書かれたものであるとしても、日記(=手書き)の書体や字形と、それを活字に組んで書物として発刊することは別の問題であるはずだ、という点にある。
筆者も以前、手書き原稿を基に活字を組み上げる際に、細部の字形に拘ることの愚(現実の印刷現場ではそのような愚が行われていないことは申すまでもないが)を、松尾芭蕉の自筆本に基づく翻刻や新約聖書の初期写本と最も権威のあるテキストとされるネストレ版との関係などを例として指摘したことがある。(「要求する側の責任ということについて」前掲『電脳文化と漢字のゆくえ』所収)
古典や聖典など殊更に厳密性が要求される書物でなくとも、かつての文選工が手書き原稿を基として活字を拾う際には、執筆者のさまざまな略字や癖を把握捨象した上で、自社が持つ一揃いの活字箱(本来のフォント!)から、適当な一本の活字を拾っていた。
森鴎外の「鴎」の字の字形がしばしば話題になるが、自身が手沢本に「×カモメ」を書いていた例を挙げるまでもなく、鴎外が「×カモメ」を書いても、手練れの文選工は何の疑問を抱くことなく「品カモメ」を選んでいたわけだ。
小池氏が顕在化させた『東京セブンローズ』のからくりは、近ごろしばしば話題となる字形への拘りの多くが、手書き文字と活字の違いに対する認識の欠如もしくは希薄さに起因することをはしなくも明らかにしたと言えよう。
活字設計の時代による変化
小池の主張の二つ目は、「時代とともに変化する書物の姿を、字形だけを捉えて切り取ってみても、無意味なことである」ということになろうか。
かつて筆者が駆け出しの編集者であったころ、筆者の周りには、まだ、活版印刷が残っており、写植オフセットの印刷は水っぽいといった風潮が大勢であった。しかし、集英社の女性向け雑誌「MORE」が本文書体として細ナールを使ったことに象徴されるように、時代は本文書体を含め、時機に応じてさまざまな書体を使い分ける方向に進んでいく。いわば、活字の母型を彫る労力が写植時代になって軽減されることにより、多くの書体を開発することが可能となり、それが時代の要求と見事に合致した、という塩梅である。
コンピューターの時代になり、新しい書体の開発はより容易になったが、それとともにデジタルフォントの使用が一般の人々の間にも広まることとなった。
ともあれ、言葉が時代によって変化するものであると同様、好まれる書体も時代によって変化する。言うまでもなく、書体が異なれば字形も変化する。比較的デザインが安定している明朝体といえども、時代とともに変化していく。小池氏が指摘したことは、時代とともに変化していく字の形について、全体のバランスを考えずに、些末をいじることの愚を述べたことのように思われる。
さて、小池氏が指摘したこの二つの問題は、出版業界にとっては、いかなる意味があるのだろうか。
以下、国語審議会、日本工業規格(JIS)、国際標準化機構(ISO)などの最近の動きと関連づけながら、検討しておこう。
それぞれの最近の動きを纏めると、
国語審議会:第21期の審議経過報告で印刷用標準字体表(案)の提示。第22期で継続して審議
日本工業規格:JIS X0208と同時に利用することを前提とした新規格X0213(いわゆる第3水準、第4水準)の策定(現在、審議の最終段階)
国際標準化機構:合計7万字規模の漢字集合の策定作業と、JIS X0213のレパートリーとの関連づけ
といったことになる。
この中で、一部の地名や人名などを除き、一般書籍の編集や印刷に従事する方々に係わるのは、国語審議会の動向と、従来から用いられてきたJIS X0208(最新版は997年改訂)とインターネットを中心に急速に普及してきたUnicodeもしくはISO/IEC 0646との係わり、ということになろう。
国語審議会が第21期に出した審議経過報告の要旨を一言で述べると、「常用漢字表以外の漢字の印刷標準字体は原則的にいわゆる康煕字典体にする」ということになる。そして、これらの方針は、出版業界全体にとっては、従来、一般書籍に対して、それぞれの出版社が印刷会社との関係で独自に採ってきた方針とほとんど一致する。このことは、国語審議会に対して、書協や雑協から、賛意を表す意見書が提出されたことからも明らかである。
問題は、これら従来の出版社の慣行と、作家などの手元で執筆に用いられるワープロソフトや電子メールで用いられる文字コードとの関連のところにある。さらに最近では、インターネットなどを通した表現行為との関連、パーソナルコンピューターを用いたDTPソフトウエアの普及などにより、従来印刷所が吸収してきた手書き文字と活字のずれ、JIS X 0208の規格票に現れる字形と出版・印刷業界の慣行とのずれが著者、編集者のレベルでも顕在化してきている。
結論から言うと、現在のJIS漢字コードでも、1997年版で新たに規格として明示された包摂規準を援用すれば、国語審議会の審議経過報告に沿った字形を表示、印刷できるフォントセットを設計することが可能である。
具体的に述べる。1978年に最初の版が作られたJIS X0208は、1983年の改訂の際、当用漢字字体表に記載されている略体字の考え方を援用し、多くの字体変更および旧字体と新字体の符号位置の変更を行った。これが、現在の混乱の大きな原因となっているのだが、1997年の改訂の際、新たに規格として包摂規準なるものを設け、この中で新旧JISの併存による混乱を追認することとなった。このことにより、先に挙げた「×カモメ」「品カモメ」のように、1978年版と1983年版で字形が異なるものも、同じ符号の異なる表現形態として「包摂」されることとなった。
このような理由で、いわば「品カモメフォント」を用意するだけで、「常用漢字以外の印刷標準字体は康煕字典体とする」という基準をクリアーすることができる。
同様なことは、小池氏も以下のような形で言及しておられる。(前掲書340ページ)
情報伝達の文字と字の形との関係
一方、近年とみに拡がっているUnicodeを用いると、さらに広い範囲で対応することが可能となる。実際、Unicodeには、JISの補助漢字(JIS X0212)が完全に含まれており、さらに現代の中国のみで用いられるいわゆる簡体字を除いても約6000字ほどもの漢字が含まれている。Unicodeは、その最初の時点でも正確には20902文字の漢字を規格化していたが、この数は、白川静氏らの漢字学、中国語学の専門家の言を待つまでもなく、日常的な言語使用には必要十分以上の字数である。そして、一部の例外を除き、ある文字コードを表現する字形として「いわゆる康煕字典体」を用いることは、何らUnicodeの規定に抵触するものではない。当然ながら、ISO/IEC 10646の場合でも同様である。
UnicodeとISO/IEC 10646の関係については、同一視される誤解、過度に別のものと考えられる誤解などこもごもだが、紙幅の関係で本稿ではこの関係の詳細を割愛せざるを得ない。表裏一体の関係で策定が進められており、キャラクターのレパートリーとコードアサインが同一であることだけを認識しておいていただきたい。
また、一部の例外について一言書き添えると、例外となるのはむしろ、本来は同じコードとすべきものが、さまざまな理由(多くは元になった各国の規格で別なコードが振られていたため)により別なコードが振られた場合である。
このようなわけで、Unicodeに準拠した適切なフォントセットを用意すれば、国語審議会の審議経過報告と矛盾しない形で、かつ、インターネット等での汎用的な情報交換性をも保証した形で、(康煕字典や諸橋漢和辞典に記載されている)2万字近くの漢字を自由に用いることが出来るようになっている。
しかし、実のところ、右記の方法では解決できない問題がまだ二点残る。
一点は、文字コードとしては同じだが異なる字形を使い分けたい場合(多くは人名、地名などの異体字)。
もう一点は、どの文字コードにも対応しない全く別個の意味と読みと形を持った字を使いたい場合。
前者については、現在も複数の方法が提案され、さまざまなレベルで検討が進められている。結論が出るまでには、まだ少しの時間がかかると思われるが、大勢としてはいたずらに字形の微細な差異に注目して別個の文字として新たな符号を付与することはせず、音や義が同一のものについては、文字コードとは別のレベルで字形を区別するべきだ、との考えに傾いているように思われる。今後、音と義と形の関わりの中で情報を伝達する文字(character)と、図形としての具体的な字の形(glyph)との関係を明確に意識した上での、具体的積極的な議論が待たれるところだ。
後者については、現在のISOの枠組みでは、使用実態が明確であり、かつ、既存のコードと明らかに異なることが明確であれば、若干時間はかかるものの、ほぼ百パーセント、規格に追加することが可能な状況になっている。JIS X0213として規格化されようとしてる規格のレパートリーについても、何らかの形で完全にISO/IEC 10646との対応関係を取ることが出来るよう、ISO/IEC への新たな文字の追加提案も含めて活動を行っている。
読者諸兄も、規格に明らかな遺漏があると思われる場合は、どうか声を大にして、具体的な提案をいただきたい。
言葉が変化するものであるとするならば、言葉を対象とする規格もまた変化を恐れるべきではない。しかし、過去との整合性を保つこともまた忘れるわけにはいかない。
規格策定の現場では、この二つの相反する原則をいかにして調和させていくかに、日々腐心している。我々にとって最も力になるのは、既存の規格を金科玉条とすることなく、積極的に活用していただいた上で、より現実に即したもの、より利用しやすいものとなるよう、批判や提案をいただくことにある。諸兄のご鞭撻を乞う次第である。