KS X 1001

読み：ケイエスエックスいちゼロゼロいち
外語：KS X 1001

品詞：固有名詞

朝鮮語で使われる文字集合(CCS)の一つ。通称はWansung。

概要

由来

ハングルは、部品を組み立てて作られる記号文字であり、全部で11,172個がある。

但し、その全てが使われるわけではなく、日常的に使用されるのは3,000〜4,000個とされる。

Wansungは、よく使うハングルを2,350個(25区×94点)を選び、これを完成(완성、wan seong)した形、つまり完成形として附番し、更に漢字などを加えた文字集合として規格化されたものである。

当初は「KS C 5601」、その後「KS X 1001-1997」となった。

この文字集合を利用した、最も一般的な符号化方法がEUC-KRとその派生である。

収載文字

KS X 1001:2002は、合計で8,227字を含む。各文字数は、次の通りである。

ハングル ‐ 2,350字 (25区分)
漢字 ‐ 4,888字 (52区分)
その他 ‐ 989個

沿革

元々94×94のISO/IEC 2022準拠の仕様だったわけではない。当初のものと、現在のものは、全く異なる。

1974(昭和49)年9月27日: KS C 5601制定(KS C 5601-1974) (7ビット符号)
1982(昭和57)年6月14日: KS C 5601改正(KS C 5601-1982) (16ビット符号の追加)
1987(昭和62)年3月: KS C 5601改正(KS C 5601-1987) (94×94文字集合に仕様変更。7ビット符号と16ビット符号は付属書扱いに)
1989(平成元)年4月22日: KS C 5601改正(KS C 5601-1989)
1992(平成4)年10月15日: KS C 5601改正(KS C 5601-1992) (付属書の16ビット符号を、組合型符号化文字集合(Johab)に改名し、仕様も変更)
1997(平成9)年8月20日: 情報部門(X)新設に伴い規格番号変更、KS C 5601→KS X 1001:1997
1998(平成10)年12月31日: KS X 1001改正(KS X 1001:1998) (€と®を追加)
2002(平成14)年: KS X 1001改正(KS X 1001:2002) (南鮮郵便記号㉾を追加)

通常、KS X 1001(KS C 5601)と呼んだ場合は1987(昭和62)年以降のISO/IEC 2022準拠のものをいう。

特徴

符号の構造

区点

符号は、ISO/IEC 2022に準拠している。そして、2バイトで1文字を表わす。このため、文字表は、94×94の範囲に収まる。

このうち、最初のバイトを「区」(row)と呼び、次のバイトを「点」(cell)と呼び、あわせて「区点」という。区、点、それぞれ範囲は、1〜94の範囲とする。

区点位置、区点番号

区と点で、ある一つの文字領域が表わされるが、その位置のことを「区点位置」(codepoint)という。英語で「コードポイント」と呼ばれることも多い。

また、こうして区点位置を表わすときに使う番号を「区点番号」という。

区、点がそれぞれ1〜94であるため、区点番号は1区1点からはじまり、94区94点まであることになる。

区点番号を書くときには、主に次の方法を用いる。例えば、漢字として最初に現われる「伽」は、次のようになる。

42区1点
42-01

単純計算では、区点位置は94×94=8,836個が存在することになる。

各区の文字

1区 ‐ 記号
2区 ‐ 記号 (69字)
3区 ‐ 全角文字
4区 ‐ ハングル字母
5区 ‐ ローマ数字、ギリシャ文字 (68字)
6区 ‐ 罫線素片 (68字)
7区 ‐ 記号 (79字)
8区 ‐ 発音記号、丸文字など (91字)
9区 ‐ 発音記号、括弧文字など
10区 ‐ 平仮名 (83字)
11区 ‐ 片仮名 (86字)
12区 ‐ キリル文字 (66字)
16区〜40区 ‐ ハングル音節 (2,350字)
41区 ‐ 私用域
42区〜93区 ‐ 漢字 (4,888字、重複分268字、実質4,620字)
94区 ‐ 私用域

漢字

朝鮮語の漢字は、原則として1字1音であるが、中には複数の読みがある字が存在する。

KS X 1001は、漢字を読みの順に並べているが、複数の読みがある字は複数のコードポイントが存在する。

42区〜93区に総計4,888字があるが、重複分は268字であり、実質は4,620字の漢字が存在する。

Unicodeでは、それぞれ代表字がCJK統合漢字に割り当てられ、他の重複分はCJK互換文字領域に割り当てられている。

版

版の種類

ISO/IEC 2022準拠のものは旧規格も含めて7版あるが、文字集合として見ると、3種類である。

KS C 5601-1987
KS C 5601-1989
KS C 5601-1992
KS X 1001:1997
KS X 1001:1998
- 2字追加
KS X 1001:2002
- 1字追加
KS X 1001:2004

追加文字

これまで、追加された文字は、次の3字である。

KS X 1001:1998で追加
- 2区70点 ‐ U+20AC (€)
- 2区71点 ‐ U+00AE (®)
KS X 1001:2002で追加
- 2区72点 ‐ U+327E (㉾)

南鮮の郵便制度は日本の統治時代にもたらされたため「〒」マークが使われていたが、新しいマーク「㉾」が作られたためKS X 1001:2002で追加された。

Unicode/UCSでは、このマークはISO/IEC 10646:2003 Amendment 1:2004 / Unicode 4.1.0から追加されている。

符号

一覧

この文字集合(CCS)を用いた代表的な符号化方法(CES)は、次の通りである。

ISO/IEC 2022系
- ISO-2022-KR
EUC系
- EUC-KR
- UHC
Johab系
- Johab

他のISO登録状況

KSC 5601-1987が登録されている。

1987年版は、ISO-IR 149として登録されている。

ISO-IR 149のISO/IEC 2022におけるエスケープシーケンスは次のとおり。

G0: ESC 2/4 2/8 4/3
G1: ESC 2/4 2/9 4/3
G2: ESC 2/4 2/10 4/3
G3: ESC 2/4 2/11 4/3

1998年版と2002年版は字が増えているため、更新シーケンス(ESC 2/6 4/x)を使用するべきと考えられるが、詳細は定かではない。

リンク

用語の所属

文字コード

朝鮮語

ア	イ	ウ	エ	オ
カ	キ	ク	ケ	コ
サ	シ	ス	セ	ソ
タ	チ	ツ	テ	ト
ナ	ニ	ヌ	ネ	ノ
ハ	ヒ	フ	ヘ	ホ
マ	ミ	ム	メ	モ
ヤ		ユ		ヨ
ラ	リ	ル	レ	ロ
ワ	ヰ	ヴ	ヱ	ヲ
ン

通信	電算
科学	国土
鉄道	軍事
文化	萌色
短縮

通信	電算
科学	国土
鉄道	軍事
文化	萌色