異体字セレクター - 通信用語の基礎知識

Unicodeで用いられる機能文字の一群で、異体字を表わすためのもの。音引きを略して「異体字セレクタ」とも。

概要

モンゴル文字
汎用

特徴

用途
異体字
メリット
問題点

定義される異体字

非漢字
漢字

設計
互換漢字等
異体字がCJK統合漢字にある場合

概要

モンゴル文字

モンゴル文字用の異体字セレクターはUnicode 3.0から追加された。

U+180B ‐ MONGOLIAN FREE VARIATION SELECTOR ONE
U+180C ‐ MONGOLIAN FREE VARIATION SELECTOR TWO
U+180D ‐ MONGOLIAN FREE VARIATION SELECTOR THREE

汎用

汎用の異体字セレクターについては、Unicode 3.2.0から正式に追加された。Unicode 3.1頃から検討され始め、その当時はVariant Tagとも呼ばれていた。

次の256字がある。

U+FE00～FE0F ‐ VARIATION SELECTOR-1～16
U+E0100～E01EF ‐ VARIATION SELECTOR-17～256

具体的には、「<親字><異体字セレクター>」のように後置で用い、先行する親字の異体字を表わす。

256個中、最初の16個はUnicode 3.2.0から、残りはUnicode 4.0.0から追加された。

漢字の異体字は、このうち17番以降(U+E0100以降)を使うことになっている。

特徴

用途

親字となる文字に対し、異体字や俗字などをバリエーション番号と組み合わせて表現するための機構と、それを実現するためのUnicode文字が「異体字セレクター」である。

例えば、「わたなべ」さんの辺の字には多数の異体字があり、一説では65種類もあるとされる。この、それぞれの字に単純に文字番号を付けていたのでは番号が幾つあっても足りず、また検索等の作業も困難である(渡辺、渡邉、渡邊…と、考えうる全ての候補を検索せねばならない)。

Unicodeも、当初は文字の統合を標榜した(例えばCJK統合漢字)。しかし現実には多くの文字を飲み込まざるを得なかったが、やがてこの点が問題となり、原点回帰の意味も込めて再び統合を意識し始めた結果が異体字セレクターだったと見られる。

異体字

親字は「全ての字形が包括された代表」と考え、あとは異体字セレクターでバリエーション番号を付け足して実際の字形を区別方法を用いる。

例えば「葛」の字がある。この字は、東京都葛飾区(かつしかく)や奈良県葛城市(かつらぎし)で自治体の名前として使われている。

葛飾区と葛城市では葛の字体が違っている。具体的には次の通りだが、どちらの字体も、Unicodeでは双方共にU+845Bである。

城市
飾区

漢字としては、の異体字がである。そこで、JIS X 0208とJIS X 0213:2000は共に例示字形をとしていたものを、JIS X 0213:2004で例示字形をに変更した。

それまで、葛飾区は区名が表現できないからとWebでは画像で対応していたが遂に表現可能になった一方、寝耳に水であったのは葛城市である。

Unicodeでも異体字の表現については話し合われており、Adobeにより、この両者は次のように区別可能にされた。

(U+845B U+E0100)
(U+845B U+E0101)

メリット

渡辺さんの例であれば、既にUnicodeに登録されている辺(U+8FBA)、邉(U+9089)、邊(U+908A)に、別途異体字セレクターを付けて文字を表わすことになる。

このようにすると、検索性を損なうことなく多様な異体字を無理なく表現できる。実際に検索処理を行なう際には、この異体字セレクターを無視することで、辺の異体字を全て同一文字として認識可能となる。

また別の考え方として、異体字に対するフォントがシステムに無い場合、代表的な字形を代用で表示することで「お茶を濁す」ことも容易に可能になるという点がある。

問題点

異体字に対する異体字セレクターの割り付けはUnicode社がするもので、ISO/IECの議論を経てなされるものではない。

更なる問題は、異体字はIVCと呼ばれる集合でのみ登録を受け付け、異なるIVCで同じグリフがあっても、別の異体字セレクターを割り付けるという方針である。

Adobe-Japan1しか無かった頃は大きな問題ではなかったが、ここにHanyo-Denshi(汎用電子情報交換環境整備プログラム)が登録申請がなされたことにより、問題が勃発した。

定義される異体字

非漢字

Unicode 5.1.0では、非漢字について次の対応が決められている。

数学記号 ‐ 23種類
パスパ文字 ‐ 6種類
モンゴル文字 ‐ 64種類

漢字

設計

漢字についてはIdeographic Variation Databaseに登録があり、「Version 2007-12-14」ではAdobe-Japan1に登録されている漢字の対応が存在する。

非漢字の場合は親字に対する異体字をセレクターで表わすが、漢字の場合は若干違い、親字は表現可能な異体字全てが包括された状態とし、それに対して異体字セレクターを用いて実際の字形を明確に示すものとなっている。

このため、「一」のように異体字が存在し得ないものでも、一つだけ異体字セレクターが定義されている。

使われる異体字セレクターであるが、Unicode Technical Standard #37(Ideographic Variation Database)により、U+E0100～E01EFの範囲を使うことが示されている。

互換漢字等

CJK統合漢字では包括されるべき文字だが、ラウンドトリップ(往復変換)に配慮するため、「異体字」がCJK互換漢字などとして存在している。

CJK互換漢字には、異体字セレクターは使用できない。CJK互換漢字の符号位置範囲内だが、CJK統合漢字となっている符号位置が12ヶ所あるので注意するべきである。

CJK互換漢字は必要以上に使うべきではないため、それが異体字であるなら、原則としてCJK統合漢字と異体字セレクターで表現することが出来る。但し、現時点では全ての例で定義されているわけではない。

例えば、「塚」(U+585A)の異体字で丶が付くCJK互換漢字「塚」(U+FA10)は、丶の長さに応じて、U+585A U+E0101またはU+585A U+E0102として表現することが出来る。

(U+585A U+E0100)
(U+585A U+E0101) (U+FA10)
(U+585A U+E0102)

異体字がCJK統合漢字にある場合

例えば、高橋さんの高の字は、口高「高」と、はしご高「高」が存在することが知られるが、高はU+9AD8、高はU+9AD9として存在する。

理想的には、高で包括し、高がU+9AD8 U+E0100、高はU+9AD8 U+E0101などとして表現できれば、検索性も良くなり利便は高まると見られるが、現時点ではまだここまでの話には至っていない。

また、同様の例で、吉田さんの吉の字も、士口「吉」(U+5409)と、土口「吉」(U+20BB7)が存在することが知られるが、後者はCJK統合漢字拡張Bにある。

このように既存の文字でも、IVCに含めて登録申請すれば、理論上は異体字セレクターが割り付けられることになる。

リンク