通信用語の基礎知識 IPv4
戻る
参加者募集中

JIS X 0208

辞書:通信用語の基礎知識 通信技術文字集合編 (CTCHRS)
読み:ジス・エックス・ゼロにーゼロはち
外語:JIS X 0208 英語
品詞:固有名詞
1999/01/21 作成
2014/08/23 更新

日本語用の漢字文字やかな文字、記号類を情報交換で用いるための文字集合を規定する工業規格の一つ。規格名は、版ごとに少しずつ違っている。

収載文字

日本で使われる、漢字や非漢字(記号など)など、合計6,879文字(JIS X 0208:1997)が収められている。

いわゆる日本語の文字コードにおいて最も普及しているもので、日本語の文字を電子計算機で扱う際の、最も基本的なものとなっている。

従って、JIS X 0208で規定されている文字は、日本語対応の電子計算機の全てで読むことができると考えられる。

沿革

  • 1978(昭和53)年1月1日: JIS C 6226制定 (JIS C 6226-1978 情報交換用漢字符号系)
  • 1983(昭和58)年9月1日: JIS C 6226改正 (JIS C 6226-1983 情報交換用漢字符号系)
  • 1987(昭和62)年3月1日: JISの情報部門(X)新設に伴い規格番号変更、JIS C 6226-1983→JIS X 0208-1983
  • 1989(昭和64)年1月1日: 確認
  • 1990(平成2)年9月1日: JIS X 0208改正 (JIS X 0208-1990 情報交換用漢字符号)
  • 1997(平成9)年1月20日: JIS X 0208改正 (JIS X 0208:1997 7ビット及び8ビットの2バイト情報交換用符号化漢字集合)
  • 2002(平成14)年7月20日: 確認
  • 2007(平成19)年9月20日: 確認
  • 2012(平成24)年2月20日 改正 (JIS X 0208:1997/AMENDMENT 1:2012 (7ビット及び8ビットの2バイト情報交換用符号化漢字集合(追補1))

符号の構造

区点

符号は、ISO/IEC 2022に準拠している。そして、2バイトで1文字を表わす。このため、文字表は、94×94の範囲に収まる。

このうち、最初のバイトを「区」(row)と呼び、次のバイトを「点」(cell)と呼び、あわせて「区点」という。区、点、それぞれ範囲は、1〜94の範囲とする。

区点位置、区点番号

区と点で、ある一つの文字領域が表わされるが、その位置のことを「区点位置」(codepoint)という。英語で「コードポイント」と呼ばれることも多い。

また、こうして区点位置を表わすときに使う番号を「区点番号」という。

区、点がそれぞれ1〜94であるため、区点番号は1区1点からはじまり、94区94点まであることになる。

区点番号を書くときには、主に次の方法を用いる。例えば、漢字として最初に現われる「亜」は、次のようになる。

  • 16区1点
  • 16-01

単純計算では、区点位置は94×94=8,836個が存在することになる。

包括

漢字には、様々な異体字等が存在し、その全てを収めていたのでは、8,836個の領域では足りない。

そこで、字形の差などは「包括」し、同じ区点位置を与えている。

例えば、くちだか「高」と、はしごだか「髙」は同じ文字であるとして包括され、JIS X 0208では共に同じ25区66点の区点位置を与えている。タカシマヤの(株)髙島屋は、後者「はしごたか」であるが、一般的なJIS X 0208の実装ではくちだかなので、正確に表現できていないように見える。

牛丼チェーンで有名な吉野家も、正確には士口(吉)ではなく土口(𠮷)と書かれるが、同様にどちらの字体も21区40点であるため、正確に表現できていないように見える。

ビット組合せ

JIS規格では「ビット組合せ」という表現が使われているが、この区点番号を電子計算機で扱えるようにするための表現方法である。

ISO/IEC 2022では、原則として7ビット2バイトの符号で表現する。この2バイトは、「列番号/行番号」と表現される。

7ビットで表現される中には制御文字も含まれるため、実際の文字は2/1〜7/14の範囲内である。結果として94個あり、これが2バイトとなるわけである。1バイト目が面、2バイト目が区に、それぞれ対応し、1面1区が2/1 2/1に符号化される。

例えば「亜」の場合、16面1区であるので、3/0 2/1と符号化されることになる。

版の種類

現在は、旧規格も含めて5版ある。

  1. JIS C 6226-1978 (第一次規格)
    • 初版
  2. JIS C 6226-1983、JIS X 0208-1983 (第二次規格)
    • 非漢字71字、漢字4字の追加
    • 拡張新字体などへの字形変更
  3. JIS X 0208-1990 (第三次規格)
  4. JIS X 0208:1997 (第四次規格)
  5. JIS X 0208:2012 (第五次規格)

版ごとの差異

表中の「タグ」は、TrueTypeフォントにおいて字形を識別するために使われるIDである。

参考までに、JIS X 0212(補助漢字)と、JIS X 0213を併記した。

 漢字非漢字タグ
第1水準第2水準補助漢字第3水準第4水準
JIS C 6226-19782,965字3,384字   453字jp78
JIS C 6226-19832,965字3,388字   524字jp83
JIS X 0208-1983
JIS X 0208-19902,965字3,390字   524字jp90
JIS X 0212-1990  5,801字  266字hojo
JIS X 0208:19972,965字3,390字   524字 
JIS X 0213:20002,965字3,390字 1,249字2,436字1,183字 
JIS X 0213:20042,965字3,390字 1,259字2,436字1,183字jp04

他のISO登録状況

JIS C 6226-1983(後のJIS X 0208-1983)と、JIS X 0208-1990の二種類が登録されている。

1983年版は、ISO-IR 87として登録されている。

ISO-IR 87のISO/IEC 2022におけるエスケープシーケンスは次のとおり。

  • G0: ESC 2/4 4/2
  • G1: ESC 2/4 2/9 4/2
  • G2: ESC 2/4 2/10 4/2
  • G3: ESC 2/4 2/11 4/2

1990年版は、ISO-IR 168として登録されている。

ISO-IR 168のISO/IEC 2022におけるエスケープシーケンスは次のとおり。

  • G0: ESC 2/6 4/0 ESC 2/4 4/2
  • G1: ESC 2/6 4/0 ESC 2/4 2/9 4/2
  • G2: ESC 2/6 4/0 ESC 2/4 2/10 4/2
  • G3: ESC 2/6 4/0 ESC 2/4 2/11 4/2

差は僅かであるので、終端文字はそのままで、更新シーケンス(ESC 2/6 4/0)が追加された。

コメントなどを投稿するフォームは、日本語対応時のみ表示されます


KisoDic通信用語の基礎知識検索システム WDIC Explorer Version 7.01d (17-May-2017)
Search System : Copyright © Mirai corporation
Dictionary : Copyright © WDIC Creators club