Johab

読み:チョハブ
外語:Johab 英語 , 조합 朝鮮語(南)
品詞:名詞

朝鮮語で使われる文字コードの一つ。

目次

由来

KS C 5601-1982(後のKS X 1001)で「16ビット符号」として規格化された文字集合が由来となる符号である。

KS C 5601-1987の改正で付属書扱いになり、KS C 5601-1992で「組合型符号化文字集合」(Johab)に改名され仕様も変更され、現在に至っている。

全てのハングルを扱うことができ、かつKS X 1001にある全ての文字をも扱うことができる。

組み合わせ

ハングルは、部品を組み立てて作られる記号文字であり、全部で11,172個がある。

ハングルには基本的な14個の子音字(C)と10個の母音字(V)があり、それぞれを字母という。1文字はC+VかC+V+Cの組み合わせで形成される。

そこで、3種類の字母に5ビットを割り当て、最上位ビットを常に1とした16ビットの符号が発案された。これが、組合(조합、co hap)である。

符号の構造

Johabは、1バイトと2バイトが混在する符号である。

1バイト文字はKS X 1003(ISO-646-KR)相当である。

先頭バイトのMSBが1(0x80以上)となるものが2バイト文字である。

ハングルを格納し、余った領域にはKS X 1001のうちハングルを除いた全文字が割り当てられている。

符号配置

第1バイトごとに、次の文字が配置される。

  • 0x84〜0x88 ‐ ハングル字母
  • 0x88〜0xd3 ‐ ハングル(Johab)
  • 0xd8 ‐ KS X 1001 (外字領域、188字分)
  • 0xd9〜0xde ‐ KS X 1001 (1区〜12区)
  • 0xf0〜0xf9 ‐ KS X 1001 (42区〜93区)

ハングル部分とKS X 1001では、使用する第2バイトが異なる。

  • 1バイト目 0x84〜0xd3
    • 0x41〜0x7e
    • 0x81〜0xfe
  • 1バイト目 0xd8〜0xde、0xe0〜0xf9
    • 0x31〜0x7e
    • 0x91〜0xfe

ハングル

下位ビットから0〜4ビットが終声、5〜9ビットが中声、10〜14ビットが初声となる。

この方法は、8ビット文字2文字分にした時、1バイト目が0x88〜0xd3、2バイト目が0x41〜0xfdの範囲に収まるため、扱いも容易である。

番号初声中声終声
1  (ゼロ終声)
2k k
3kkakk
4naeks
5tyan
6ttyaenc
7leonh
8m t
9p l
10ppelk
11syeolm
12ssyelp
13(ゼロ)ols
14cwalth
15ccwaelph
16ch lh
17kh m
18thoe 
19phyop
20hups
21 weos
22 wess
23 wing
24  c
25  ch
26 yukh
27 euth
28 yiph
29 ih

KS X 1001

KS X 1001のハングルを除いた部分がシフトして格納されている。

2バイト目が188字分(2区分)あるため、一つの1バイト目ごとに2区が格納可能で、必要な1バイト目は半分で済む計算になる。

第1バイトごとに、次の区が格納されている。

  • 0xd9〜0xde ‐ KS X 1001 (1区〜12区)
  • 0xf0〜0xf9 ‐ KS X 1001 (42区〜93区)
用語の所属
文字コード
朝鮮語
関連する用語
EUC-KR
UHC
ハングル

コメントなどを投稿するフォームは、日本語対応時のみ表示されます


KisoDic通信用語の基礎知識検索システム WDIC Explorer Version 7.04a (27-May-2022)
Search System : Copyright © Mirai corporation
Dictionary : Copyright © WDIC Creators club