通信用語の基礎知識 IPv4
戻る
全国のICカードこれひとつ

KPS 9566

辞書:通信用語の基礎知識 通信技術文字集合編 (CTCHRS)
読み:ケイピーエス・きゅうごーろくろく
外語:KPS 9566 英語
品詞:固有名詞
2009/10/17 作成
2016/07/14 更新

朝鮮語で使われる文字集合(CCS)の一つ。北朝鮮で使われており、「國規 9566」(국규 9566)と呼ばれる。

北朝鮮が独自に制定した規格で、北朝鮮でのみ使われている。

但し、北朝鮮内ですらどれだけの実装が存在するのか定かでない。北朝鮮製Linuxディストリビューションの一つ「Red Star OS」ではこの規格が採用されている。

他の一般的なOSはどうかというと、例えばMicrosoft Windowsはライセンス上、北朝鮮への輸出を禁じているので、北朝鮮版Windowsというものは無い。よって、不正に入手して使うのであれば南鮮版になるだろうと見込まれるため、WindowsにおいてKPS 9566を公式に実装した製品は存在していない。

種類

大きく、次の版があることが知られる。

  • KPS 9566-93
  • KPS 9566-97
  • KPS 9566-2000
  • KPS 9566-2003
  • KPS 9566-2012? (正確には不明)

差違

93は、97以降と大幅に仕様が違うため、今では殆ど使われていないとされている。また実際の仕様についても定かではない。

97と2000の仕様差は定かではないが、EUCに準じて実装されており、「EUC-KP」と呼ぶ向きがある。公式な呼称は不明。

2003は、南鮮のUHCのようにコードレンジを拡張し文字数を増やし、また若干の文字の入れ換えをしたものである。つまりEUCではない。

2003と2012?の仕様差も定かではないが、最高指導者が3代目に交代したため「例の文字」が3文字追加されている。

「例の文字」

仕様が広く知られるようになったのはKPS 9566-97以降であるが、ここに興味深い特徴があったため、文字コードマニアたちを興奮させた。

KPS 9566-97/2000/2003までのバージョンには、今なおUnicodeに含まれていない「重複」したハングルが6文字存在した。これは、0x2468から0x246dまでに配列されたハングル(、つまり金日成、金正日)である。この文字コードを知る者の間では、この6字を「例の文字」と呼んでいる。

金正日没後、後継者として金正恩が就任。当然、全世界(の文字コードマニアという狭い範囲)では、「例の文字」がどうなるか注目した。

KPS 9566-2012?バージョン(2012(平成24)年頃に更新されたと思われるが、全てにおいて不明瞭)では、当然Unicodeに含まれていない「重複」したハングルが新たに3文字追加された。これが0x246eから0x2470までに配列されたハングル(、つまり金正恩)である。この文字コードを知る者の間では、この3字も従来通り「例の文字」と呼んでいる。

従って現時点では「例の文字」は全てで9文字あり、次の通りである。

  • 0x2468‐0x246a (金日成)
  • 0x246b‐0x246d (金正日)
  • 0x246e‐0x2470 (金正恩)

領域の予備と思われるのは次の領域。

  • 0x2471‐0x2473
  • 0x2474‐0x2476
  • 0x2477‐0x2479
  • 0x247a‐0x247c
  • 0x247d‐0x247e ※2文字分

7代目まではこのまま追加できる。8代目は領域が足らないため別の領域に新たに専用領域を確保する必要がある。

KPS 9566-2000

1997(平成9)年に制定され、2000(平成12)年に改訂されたものがKPS 9566-2000である。

ISO/IEC 2022に準じ、94×94で規格化されており、EUCで符号化できる。これはEUC-KPと呼ばれている。文字集合が違う以外は、南鮮のEUC-KRと同様である。しかし北朝鮮内でも処理系は殆ど無いらしく、現実には南朝鮮用の実装つまりEUC-KRを使うことが多いとされている。

文字集合の特徴は以下の通り。

  • 0x21‐0x2C: 特殊文字領域 (記号、絵文字、ハングル字母、ひらがな、カタカナ、ギリシャ文字、キリル文字など)
  • 0x2F: ユーザー定義領域A (外字領域A)
  • 0x30‐0x4C: ハングル領域 (よく使われる2,679字を北朝鮮字母順に配列)
  • 0x4C 0x50列‐: ユーザー定義領域B (外字領域B)
  • 0x4D‐0x7E: 漢字領域 (4,653字を朝鮮語発音順に配列)
  • 0x7E 0x50列‐: ユーザー定義領域C (外字領域C)

KPS 9566-97には8,259字が規定されており、うち83字が当時のUnicodeに含まれていなかった。83字中、77字は特殊文字で、残る6字は0x2468から0x246dまでに配列された重複ハングル(、つまり金日成、金正日)である。この文字コードを知る者の間では、この6字を「例の文字」と呼んでいる。

KPS 9566-2003

KPS 9566-2000を拡張した規格であり、次のような特徴がある。

  • ISO/IEC 8859-1にありKPS 9566-2000に無い全文字を0x2e行(14区)に追加
  • Unicode 4.0.0で幾つかの未収録文字が新規収録されたため、変換表を更新
  • 幾つかの文字について変更、削除、追加
    • 0x2826(8区6点) ケルビン記号をユーロ通貨記号に変更
    • 0x2c4f(12区47点) 記号(▽の中に〒)削除
    • 0x2c61(12区65点) ®記号追加

また符号化の面でも拡張されており、EUCだったもののコードレンジを拡張し収録文字数を増やした。基本文字集合内にない現代ハングル8,493字を、拡張された符号位置中に追加している。

符号範囲は次の通り。

  • 0x81xx‐0xc2xxは、xx=41‐5a、61‐7a、81‐fe (178種)
  • 0xc3xx‐0xfexxは、xx=a1‐fe (94種)

2バイト目に0x41‐0xa0を追加するのが基本的な拡張法だが、UHCと同様に、ASCIIに相当する範囲内は英大文字、英子文字の範囲内に限定し、記号部分は飛ばしているのが特徴。日本語のシフトJISのように、\が2バイト目になって支障を来たすようなことがないよう配慮されている。

KPS 9566-2003には16,776字が規定されているが、うち22字がUnicode 5.2の段階でもなお含まれていない。22字中、16字は特殊文字で、残る6字はKPS 9566-97/2000と同様の「例の文字」である。

このため、現在でもKPS 9566-2003はUnicodeとの往復変換(ラウンドトリップ)が実現されていない。

KPS 9566-2012?

大きくは変化していないが、2011(平成23)年に金正日は没し、後継者として金正恩が就任したことにより、この3文字が追加された。この重複ハングルはは0x246eから0x2470である。この文字コードを知る者の間では、この3字を「例の文字」と呼んでいる。

更新が2012(平成24)年なのかどうか不明確なため「?」を附して呼ばれているが、この文字コードを採用している北朝鮮のRed Star OS 3.0では、前の6文字と合わせて全9文字の重複ハングルが確認できる。

一覧

この文字集合(CCS)を用いた代表的な符号化方法(CES)は、次の通りである。

他のISO登録状況

KPS 9566-97が登録されている。

1997年版は、ISO-IR 202として登録されている。

ISO-IR 202のISO/IEC 2022におけるエスケープシーケンスは次のとおり。

  • G0: ESC 2/4 2/8 4/14
  • G1: ESC 2/4 2/9 4/14
  • G2: ESC 2/4 2/10 4/14
  • G3: ESC 2/4 2/11 4/14

1997年版、2000年版、2003年版、2012?年版の差は不明瞭だが、文字集合に差異があるため、更新シーケンス(ESC 2/6 4/x)も併用するべきである。

用語の所属
文字コード
朝鮮語
関連する用語
KS X 1001
UHC
ハングル

コメントなどを投稿するフォームは、日本語対応時のみ表示されます


KisoDic通信用語の基礎知識検索システム WDIC Explorer Version 7.03 (16-May-2019)
Search System : Copyright © Mirai corporation
Dictionary : Copyright © WDIC Creators club