KS X 1001

読み:ケイエスエックスいちゼロゼロいち
外語:KS X 1001 英語
品詞:固有名詞

朝鮮語で使われる文字集合(CCS)の一つ。通称はWansung

目次

由来

ハングルは、部品を組み立てて作られる記号文字であり、全部で11,172個がある。

但し、その全てが使われるわけではなく、日常的に使用されるのは3,000〜4,000個とされる。

Wansungは、よく使うハングルを2,350個(25区×94点)を選び、これを完成(완성、wan seong)した形、つまり完成形として附番し、更に漢字などを加えた文字集合として規格化されたものである。

当初は「KS C 5601」、その後「KS X 1001-1997」となった。

この文字集合を利用した、最も一般的な符号化方法がEUC-KRとその派生である。

収載文字

KS X 1001:2002は、合計で8,227字を含む。各文字数は、次の通りである。

  • ハングル ‐ 2,350字 (25区分)
  • 漢字 ‐ 4,888字 (52区分)
  • その他 ‐ 989個

沿革

元々94×94のISO/IEC 2022準拠の仕様だったわけではない。当初のものと、現在のものは、全く異なる。

  • 1974(昭和49)年9月27日: KS C 5601制定(KS C 5601-1974) (7ビット符号)
  • 1982(昭和57)年6月14日: KS C 5601改正(KS C 5601-1982) (16ビット符号の追加)
  • 1987(昭和62)年3月: KS C 5601改正(KS C 5601-1987) (94×94文字集合に仕様変更。7ビット符号と16ビット符号は付属書扱いに)
  • 1989(平成元)年4月22日: KS C 5601改正(KS C 5601-1989)
  • 1992(平成4)年10月15日: KS C 5601改正(KS C 5601-1992) (付属書の16ビット符号を、組合型符号化文字集合(Johab)に改名し、仕様も変更)
  • 1997(平成9)年8月20日: 情報部門(X)新設に伴い規格番号変更、KS C 5601→KS X 1001:1997
  • 1998(平成10)年12月31日: KS X 1001改正(KS X 1001:1998) (€と®を追加)
  • 2002(平成14)年: KS X 1001改正(KS X 1001:2002) (南鮮郵便記号㉾を追加)

通常、KS X 1001(KS C 5601)と呼んだ場合は1987(昭和62)年以降のISO/IEC 2022準拠のものをいう。

符号の構造

区点

符号は、ISO/IEC 2022に準拠している。そして、2バイトで1文字を表わす。このため、文字表は、94×94の範囲に収まる。

このうち、最初のバイトを「区」(row)と呼び、次のバイトを「点」(cell)と呼び、あわせて「区点」という。区、点、それぞれ範囲は、1〜94の範囲とする。

区点位置、区点番号

区と点で、ある一つの文字領域が表わされるが、その位置のことを「区点位置」(codepoint)という。英語で「コードポイント」と呼ばれることも多い。

また、こうして区点位置を表わすときに使う番号を「区点番号」という。

区、点がそれぞれ1〜94であるため、区点番号は1区1点からはじまり、94区94点まであることになる。

区点番号を書くときには、主に次の方法を用いる。例えば、漢字として最初に現われる「伽」は、次のようになる。

  • 42区1点
  • 42-01

単純計算では、区点位置は94×94=8,836個が存在することになる。

各区の文字

  • 1区 ‐ 記号
  • 2区 ‐ 記号 (69字)
  • 3区 ‐ 全角文字
  • 4区 ‐ ハングル字母
  • 5区 ‐ ローマ数字、ギリシャ文字 (68字)
  • 6区 ‐ 罫線素片 (68字)
  • 7区 ‐ 記号 (79字)
  • 8区 ‐ 発音記号、丸文字など (91字)
  • 9区 ‐ 発音記号、括弧文字など
  • 10区 ‐ 平仮名 (83字)
  • 11区 ‐ 片仮名 (86字)
  • 12区 ‐ キリル文字 (66字)
  • 16区〜40区 ‐ ハングル音節 (2,350字)
  • 41区 ‐ 私用域
  • 42区〜93区 ‐ 漢字 (4,888字、重複分268字、実質4,620字)
  • 94区 ‐ 私用域

漢字

朝鮮語の漢字は、原則として1字1音であるが、中には複数の読みがある字が存在する。

KS X 1001は、漢字を読みの順に並べているが、複数の読みがある字は複数のコードポイントが存在する。

42区〜93区に総計4,888字があるが、重複分は268字であり、実質は4,620字の漢字が存在する。

Unicodeでは、それぞれ代表字がCJK統合漢字に割り当てられ、他の重複分はCJK互換文字領域に割り当てられている。

版の種類

ISO/IEC 2022準拠のものは旧規格も含めて7版あるが、文字集合として見ると、3種類である。

  1. KS C 5601-1987
  2. KS C 5601-1989
  3. KS C 5601-1992
  4. KS X 1001:1997
  5. KS X 1001:1998
    • 2字追加
  6. KS X 1001:2002
    • 1字追加
  7. KS X 1001:2004

追加文字

これまで、追加された文字は、次の3字である。

  • KS X 1001:1998で追加
    • 2区70点 ‐ U+20AC (€)
    • 2区71点 ‐ U+00AE (®)
  • KS X 1001:2002で追加
    • 2区72点 ‐ U+327E (㉾)

南鮮の郵便制度は日本の統治時代にもたらされたため「〒」マークが使われていたが、新しいマーク「㉾」が作られたためKS X 1001:2002で追加された。

Unicode/UCSでは、このマークはISO/IEC 10646:2003 Amendment 1:2004 / Unicode 4.1.0から追加されている。

一覧

この文字集合(CCS)を用いた代表的な符号化方法(CES)は、次の通りである。

他のISO登録状況

KSC 5601-1987が登録されている。

1987年版は、ISO-IR 149として登録されている。

ISO-IR 149のISO/IEC 2022におけるエスケープシーケンスは次のとおり。

  • G0: ESC 2/4 2/8 4/3
  • G1: ESC 2/4 2/9 4/3
  • G2: ESC 2/4 2/10 4/3
  • G3: ESC 2/4 2/11 4/3

1998年版と2002年版は字が増えているため、更新シーケンス(ESC 2/6 4/x)を使用するべきと考えられるが、詳細は定かではない。

用語の所属
文字コード
朝鮮語
関連する用語
UHC
Johab
ハングル
KPS 9566

コメントなどを投稿するフォームは、日本語対応時のみ表示されます


KisoDic通信用語の基礎知識検索システム WDIC Explorer Version 7.04a (27-May-2022)
Search System : Copyright © Mirai corporation
Dictionary : Copyright © WDIC Creators club