CJK互換漢字

読み：スィージェイケイ・ごかんかんじ
外語：CJK Compatibility Ideographs

品詞：名詞

UnicodeやISO/IEC 10646として実装されている漢字の一種。

概要

集合

CJK互換漢字はCJK統合漢字ではなく、併用される集合である。付属書S(Annex.S)に示される統合規則も適用されない。

にも関わらずCJK互換漢字が存在するのは、特定の国及び地域の様々な国家的、文化的又は歴史的な理由に基づき、それらの文字がある国家又は地域の規格で異なる符号位置に割り当てられているためである。

存在意義

本来ならば、Unicodeの統合(包括)の基準によりCJK統合漢字へと包括されるはずの字だが、既存の規格との互換性(ラウンドトリップ、往復変換性)を担保するために特別に符号位置が用意されている。

従って、この領域の文字は、原規格とのラウンドトリップ(往復変換)専用に用いるもので、他の用途で用いてはならない(JIS X 0221:2007では「他の用途には、強く反対する。」と表現している)。

Unicode 1.0.1でCJK統合漢字と共に追加され、版を重ねるごとに増やされている。

符号位置

一覧

範囲としては、BMPのU+F900〜U+FAFFと、SIPのU+2F800〜U+2FA1Fが予約されている。

実際に文字が定義されているのは、次の範囲である。

U+F900〜U+FA2D (Unicode 1.0.1〜) (302文字)
U+FA2E〜U+FA2F (Unicode 6.1.0〜) (2文字)
U+FA30〜U+FA6A (Unicode 3.2〜) (59文字)
U+FA6B〜U+FA6D (Unicode 5.2〜) (3文字)
U+FA70〜U+FAD9 (Unicode 4.1〜) (106文字)
U+2F800〜U+2FA1D (Unicode 3.1〜) (542文字)

BMPは512字分のうち472字が埋まっている。残は40字である。

SIPは544字分のうち542字が埋まっている。残は2字であるが、これで不足すれば、U+2FA20以降、あるいは他の面などに拡張されるものと思われる。

範囲内のCJK統合漢字

CJK互換漢字の符号位置範囲内であるが、規格上「CJK統合漢字」とされた符号位置が12ヶ所ある。

U+FA0E 﨎
U+FA0F 﨏
U+FA11 﨑
U+FA13 﨓
U+FA14 﨔
U+FA1F 﨟
U+FA21 﨡
U+FA23 﨣
U+FA24 﨤
U+FA27 﨧
U+FA28 﨨
U+FA29 﨩

この12ヶ所の符号位置は「CJK統合漢字」であり、付属書S(Annex.S)に示される統合規則が適用される。異体字セレクターなどもCJK統合漢字と同様に利用される。

特徴

U+F900〜U+FA0B

南鮮の文字コード規格KS X 1001(かつてのKS C 5601)は、漢字4,888字(52区分)を含む。

この規格では、同じ字形であっても、複数の読みがある漢字は読みの数(三つ以上の読みが存在する字もある)だけ重複して登録したため、都合268字が重複している。

Unicodeでは、代表字1字をCJK統合漢字に対応付け、残りは全てCJK互換漢字とした。

この領域の文字は、KS X 1001とのラウンドトリップ(往復変換)専用に用いる。

U+FA0C〜U+FA0D

台湾の文字コード規格Big5は、漢字2字が重複しており、この2文字が互換漢字として登録された。

この領域の文字は、Big5とのラウンドトリップ(往復変換)専用に用いる。

U+FA0E〜U+FA2D

日本の文字コードで使われているIBM拡張文字のうちで、CJK統合漢字として登録されなかった32文字が、CJK互換漢字として登録された。

なお、U+FA0E(﨎)、U+FA0F(﨏)、U+FA11(﨑)、U+FA13(﨓)、U+FA14(﨔)、U+FA1F(﨟)、U+FA21(﨡)、U+FA23(﨣)、U+FA24(﨤)、U+FA27(﨧)、U+FA28(﨨)、U+FA29(﨩)の12文字は、CJK統合漢字の拡張として利用できる、つまり互換漢字としてではなくCJK統合漢字の一部として利用できる、としている。

この領域のその他の文字は、IBM拡張文字とのラウンドトリップ(往復変換)専用に用いる。

U+2F800〜U+2FA1D

Unicode 3.1から、台湾のCNS 11643への対応のために追加された領域である。

包括基準の差異から、Unicodeでは包括されていてCNS 11643では別字となっている文字が多数存在した。

具体的には、CNS 11643-1992の面3、4、5、6、7、15から、合計で542文字が必要となった。

字数があまりにも多くBMPに格納困難だったが、そのままではラウンドトリップ(往復変換)が出来ないため、救済のためにSIP(02面)に新規に領域を作って追加した。

この領域の文字は、CNS 11643とのラウンドトリップ(往復変換)専用に用いる。

U+FA30〜U+FA6A

Unicode 3.2.0から、日本のJIS X 0213に対応するために追加された領域である。

JIS X 0213は、従来のJIS X 0208から包括基準を変更し、多数の文字を追加した。その文字の大半はCJK統合漢字拡張Aに追加されている。

CJK統合漢字は、元となった規格で分離されている文字はUCSでも分離される(包括の対象とならない)という原規格分離規則(source separation rule)が存在するが、JIS X 0213はこの原規格分離規則が適用されなかった。

かくして、残った新規追加漢字は既に登録されている他のCJK統合文字に包括され、そして救済としてこのCJK互換漢字に59文字が追加された。

この領域の文字は、JIS X 0213とのラウンドトリップ(往復変換)専用に用いる。

U+FA70〜U+FAD9

Unicode 4.1.0から、北朝鮮のKPS 10721-2000に対応するために追加された領域である。

106字が互換性のために追加された。

この領域の文字は、KPS 10721-2000とのラウンドトリップ(往復変換)専用に用いる。

U+FA6B〜U+FA6D

Unicode 5.2から、日本のARIB STD-B24に対応するために追加された領域である。

ARIB STD-B24には、多数の拡張漢字や拡張記号があり、その追加が提案されたが、まずISO/IEC 10646:2003/Amd.5:2008で、提案中のうちの3文字が互換性のために追加された。

この領域の文字は、ARIB STD-B24とのラウンドトリップ(往復変換)専用に用いる。

リンク

規格の所属

Unicode

ISO/IEC 10646

ア	イ	ウ	エ	オ
カ	キ	ク	ケ	コ
サ	シ	ス	セ	ソ
タ	チ	ツ	テ	ト
ナ	ニ	ヌ	ネ	ノ
ハ	ヒ	フ	ヘ	ホ
マ	ミ	ム	メ	モ
ヤ		ユ		ヨ
ラ	リ	ル	レ	ロ
ワ	ヰ	ヴ	ヱ	ヲ
ン

通信	電算
科学	国土
鉄道	軍事
文化	萌色
短縮

通信	電算
科学	国土
鉄道	軍事
文化	萌色