ISO/IEC 2022 - 通信用語の基礎知識

1973(昭和48)年7月1日: ISO 2022制定 (ISO 2022:1973、対応邦訳JIS C 6228:1975)
1982(昭和57)年12月15日: ISO 2022改正 (ISO 2022:1982、対応邦訳JIS C 6228:1984→JIS X 0202:1984)
1986(昭和61)年5月1日: ISO 2022改正 (ISO 2022:1986、対応邦訳JIS X 0202:1991)
1994(平成6)年: ISO 2022改正、ISO/IEC 2022に改名 (ISO/IEC 2022:1994、対応邦訳JIS X 0202:1998)

メカニズム

基本

7ビットだけ使うものと、8ビット全てを使うものとがある。

7ビット符号は、32個の制御文字基本集合の領域(C0)、および94個または96個の図形文字集合の領域(CL領域)を持つ。

8ビット符号はこれに、32個の制御文字補助集合の領域(C1)、および94個または96個の図形文字集合の領域(CR領域)を追加する。

領域の構成

ASCIIとの互換性を維持しながら拡張するため、ASCIIの7ビットコードを拡張した形式を取る。

8ビットある領域は4つの領域に分けられ、次のようにする。

CL(0/0～1/15)
GL(2/0～7/15)
CR(8/0～9/15)
GR(10/0～15/15)

制御文字はCL/CR、図形文字はGL/GRである。

制御文字は、CLは常にバッファーC0、CRは常にバッファーC1に固定されており、変更できない。

図形文字は、4つのバッファー(G0、G1、G2、G3)があり、それぞれに任意の文字集合を指示(designate)あるいは割り当て(assign)ができ、割り当てられたバッファーは上のGLまたはGRに呼び出す(invoke)ことで利用出来る。

初期状態ではG0がGLに、G1がGRに呼び出されている。

具体的なメカニズム

まず、いくつかの文字集合表の文字を混在して使うためには、文字集合表を適時切り替えて使う必要がある。

そのためには、これからどの文字集合表を使うかを指定しなければならないが、これは一般的に二段構えのしくみを取っている。

バッファーに符号を指示した後は、そのバッファーをGLまたはGRに割り当てる必要がある。これらは全て、エスケープシーケンスで行なわれる。

この符号列は、エスケープで始まり、中間文字を挟み、最後は終端文字で終わる。つまり、ESC<0個以上の中間文字><終端文字>となる。

中間文字は、2/0～2/15の範囲とされ、必要に応じて挿入される。

終端文字は俗にFや<F>や(F)と書かれ、範囲は3/0～7/15とされている。そのうち3/0～3/15は情報交換当事者間の合意がある場合にのみ使えるプライベート文字集合用、4/0～7/15はEcma Internationalにより割り当てが行なわれる符号である。

但し、ASCIIとの互換性を意識した関係から7/14～7/15は使用せずに保留されている。

7ビット符号の利用法

構造

まず、いくつかの文字集合表の文字を混在して使うためには、文字集合表を適時切り替えて使う必要がある。そのためには、これからどの文字集合表を使うかを指定しなければならないが、これは一般的に二段構えのしくみを取っている。

7ビット符号図解

使う文字表とバッファー

7ビット符号ではCLおよびGLのみを使う。つまり左だけしか使わない。

CLは常にC0であり変更できないため、CL=C0である。0/0～1/31の32個の領域には、常に制御文字基本集合の領域(C0)が割り当てられている。

図形文字のバッファーはG0～G3まで4つ用意され、それぞれ任意の文字集合表を割り当てておくことができる。一度に利用できるのはそのうちの一つである。

文字集合表は二種類ある。

2/1～7/14の範囲で定義されている94図形文字集合
2/0～7/15の範囲で定義されている96図形文字集合

94図形文字集合では2/0と7/15はそれぞれ空白とDEL(削除の制御文字)として固定的に使用される。

また96図形文字集合はGR領域(後述)に限定されるためバッファーG0にマッピングすることはできない。つまり7ビット符号で利用するためには、後述するLocking Shiftなどの手法が必要である。

7ビット実例

例えば、JIS X 0201 ローマ字を指示する終端文字は4/10である。実際にはESC 2/8 4/10でG0に呼び出せる。

なお、JIS X 0208-1983をG0に指示するにはESC 2/4 2/8 4/2となるはずだが、歴史的事情から終端文字が4/0～4/2の場合はESC 2/4 <F>を使うという例外があり、実際はESC 2/4 4/2となる。これに対応するASCII文字で表示すると ESC $ B となる。

次に、実際に表示処理を行なうためには、バッファーに選び出された図形文字集合を7ビットの図形文字表に持ち込む必要がある。後述する8ビット符号では図形文字表はGL/TRの二つあるが、7ビット符号では一つしかないので、GL/GRの区別をする必要はない。

バッファーから呼び出すには、G0からはSI(0/15)、G1からはSO(0/14)、G2からは1/11 6/14、G3からは1/11 6/15を使用する。

実例として、G0にJIS X 0201ローマ字を、G1にJIS X 0201カナ(通称半角カナ)を指示したとする。ここでSIによってG0を呼び出すと、4/1 4/2 4/3はローマ字の "ABC" を、SOによってG1を呼び出すとカナの "アイウ" を意味することになる。

このようにして、SI/SOで両者を切り換えながら使うことが可能となる。

以上の拡張法は、1バイトのうち下位7ビットだけが使われるビット符号の拡張法で、ASCIIとの互換性と親和性が高い。一方、最上位ビットも使った8ビット符号の拡張法もある。

8ビット符号の利用法

8ビット符号拡張法は、7ビット符号と大差は無いが、図形文字表が左と右の二つある点が異なる。以降、左をGL、右をGRと呼ぶ。

8ビット符号図解

図形文字表とバッファー

指示するためのシーケンスは、左の図形文字表に対しては7ビット符号の場合と全く同じである。そして右の図形文字表に指示するための符号が新たに用意される。

各バッファーから右の図形文字表(GR)に呼び出すには、G1からは1/11 7/14、G2からは1/11 7/13、G3からは1/11 7/12を使用する。G0を右の文字集合を割り当てることはできない。この制御文字は以後再び切り換えるまで効果が続くためLocking Shift(ロッキング・シフト)と呼ばれる。

8ビット符号拡張法では、左の図形文字表に呼び出された文字は7ビット符号と同様にそのままの符号で使用する。右の図形文字表に呼び出された文字を使うには符号の最上位ビットを1に変えて表わす。

エスケープシーケンスの仕様

さて、こうすることでG0～G3のバッファーのうち最大2バッファーを同時に利用することができるが、状況によっては3ないし4つ全てを利用したい場合も出てくる。

しかし例え1文字だけの場合でもいちいちエスケープで再呼び出しするのは冗長だし不便である。そこで、次の1文字だけをG2またはG3から呼び出す制御文字が用意されている。これは前述のLocking Shiftに対してSingle Shift(シングル・シフト)と呼ばれている。

具体的にはSS2(8/14)およびSS3(8/15)という機能文字を使うと、その次の1文字分だけ、右の図形文字表にG2やG3から呼び出すことができる。

8ビット範囲を7ビット互換条件で使う

この8ビット符号の拡張法は1バイト中の8ビット全てを使う。8/0～9/15の領域はC1領域と呼ばれ、0/0～1/15のC0領域とは別の機能文字として使われる。

ところで上で述べたSS2(8/14)およびSS3(8/15)はC1領域の制御文字であるため、これでは7ビット符号で表現できない。そこで代用の方法を用いる。

7ビット符号でC1制御文字を表現するには、C1領域8/0～9/15の代わりにエスケープシーケンス1/11 4/0～5/15が使える。SS2/SS3は1/11 4/14と1/11 4/15で表現可能である。

8ビット実例

実例として、G1にJIS X 0208、G3にJIS X 0212補助漢字を指示し、G1をGRに呼び出したとする。ここでそのままGRを用いればJIS X 0208、SS3を使うと1文字のみGRがG3(JIS X 0212)となり、補助漢字をたまに用いつつ、普段はJIS X 0208として文書を作成できる。ちなみにこれはEUC-JPと呼ばれている方法でもある。

森鴎外の鴎を補助漢字にある正字で書く例

エスケープシーケンス

エスケープの仕様

書式

エスケープシーケンスは、ESC(1/11)に始まり、0字以上の中間バイトを挟み、終端バイトに終わる。従って長さはまちまちである。

中間バイトは2/0～2/15の16種類であり、で表わす。

終端バイトは3/0～7/14の79種類であり、<F>で表わす。

中間バイト/終端バイト問わず、エスケープシーケンス中に0/0～1/15と、7/15を含んではならない。また8ビット符号の場合、8/0～15/15も含めてはならない。もし万一、これらを含むシーケンスを受け取った場合、処理系は何らかのエラー処理を要するだろうが、規格としてはその動作については未定義である。

型の指示

「エスケープシーケンスの型」は、エスケープの直後に来る中間バイトによって決定される。中間バイトは16種類なので、エスケープシーケンスは16型あるといえる。

エスケープシーケンスの各バイトの意味は、この後に述べるように定義される。但し、エスケープシーケンスの意味は、個々のバイトに与えられた意味に関係なく、バイト列全体で規定される。

ESC(1/11)に続く文字は、2/0～7/14である。

ESC nF (nF = 2/0～2/15) nF型エスケープシーケンス (後述)
ESC Fp (Fp = 3/0～3/15) 私用制御機能
ESC Fe (Fe = 4/0～5/15) C1制御機能 (8ビット符号の8/0～9/15に対応する)
ESC Fs (Fs = 6/0～7/14) 標準単一制御機能

nFは、、いわゆる「中間文字」で、その先頭バイトである。

Fp/Fe/Fsの第2バイトは終端バイト、つまり「終端文字」でもある。

nF型エスケープシーケンス

nF型エスケープシーケンスは、制御機能を有する3F型を除き、各種の符号識別機能を表現するために用いられる。

終端文字Fに応じて、二つの副型に分けられる。

ESC … Fp (Fp = 3/0～3/15) 私用のために保留
ESC … Ft (Ft = 4/0～7/14) 標準の目的

先頭のの機能は、次の通りである。

型	先頭のIバイト		2番目のIバイト		機能
型	文字	コード	規則	用法	機能
0F型		2/0	N	‐	アナウンサ・コード・ストラクチャ
1F型	!	2/1	O	R	C0に終端文字<F>を指示する
2F型	"	2/2	O	R	C1に終端文字<F>を指示する
3F型	#	2/3	O	R	単独制御機能
4F型	$	2/4	Y	R	複数バイト図形文字集合(94ⁿ/96ⁿ)
5F型	%	2/5	O	R、S	ISO-2022以外の文字集合の指示
6F型	&	2/6	N	‐	改訂版の識別
7F型	'	2/7	N	‐	(将来の標準化のために保留)
8F型	(	2/8	O	R、S	G0に終端文字<F>の94文字集合を指示する
9F型	)	2/9	O	R、S	G1に終端文字<F>の94文字集合を指示する
10F型	*	2/10	O	R、S	G2に終端文字<F>の94文字集合を指示する
11F型	+	2/11	O	R、S	G3に終端文字<F>の94文字集合を指示する
12F型	,	2/12	N	‐	(将来の標準化のために保留)
13F型	-	2/13	O	R、S	G1に終端文字<F>の96文字集合を指示する
14F型	.	2/14	O	R、S	G2に終端文字<F>の96文字集合を指示する
15F型	/	2/15	O	R、S	G3に終端文字<F>の96文字集合を指示する

それぞれ、「規則」に応じて継続するバイトを決める。

終端バイトがFpの場合の2番目(および後続)のIバイトは、規格では定義しない。

終端バイトがFtの場合、「規則」と「用法」の欄は、2番目(および後続)のIバイトに関連し、次のように規定される。

「規則」は次の通りとする。

N ‐ 2番目のバイトなし (将来の標準化のために保留)
O ‐ 「用法」に示すような2番目(および後続)のIバイトを含んでもよい
Y ‐ 「用法」に示す目的で私用する2番目のバイトを含む

「用法」は次の通りとする。

R ‐ 登録手続きは、<F>で使用可能なビット組み合わせの数を追加するために、2/1～2/3を組み合わせに用いて良い。さらに、2/0～2/15の範囲のバイトを同様の目的で使用して良い。
S ‐ 次に示すように、基準の意味を一つ以上のビット組み合わせに割り当てる。
- 4F型 ‐ (2番目のバイトは後述する)
- 4F型 ‐ 3番目のバイトは2/0 (DRCSの場合)
- 5F型 ‐ 2番目のバイトは2/15 (DOCSの場合)
- 8F型～11F型、13F型～15F型 ‐ 2番目のバイトは2/0 (DRCSの場合)

4F型エスケープシーケンス

4F型のエスケープシーケンスの2番目のバイトと、その機能は、次の通りである。

2/8 ‐ G0に終端文字<F>の94文字集合を指示する
2/9 ‐ G1に終端文字<F>の94文字集合を指示する
2/10 ‐ G2に終端文字<F>の94文字集合を指示する
2/11 ‐ G3に終端文字<F>の94文字集合を指示する
2/13 ‐ G1に終端文字<F>の96文字集合を指示する
2/14 ‐ G2に終端文字<F>の96文字集合を指示する
2/15 ‐ G3に終端文字<F>の96文字集合を指示する

但し、<F>が4/0、4/1、または4/2の場合は、2番目のバイトの2/8は使用しない。

複数バイト集合の大きさ

複数バイト集合、つまり94ⁿ文字、96ⁿ文字の図形文字集合の大きさは、指示する際に使う終端バイト<F>によって決定される。

<F>の範囲は3/0～7/14であり、次の通りとする。

3/0～3/15 ‐ 2バイト以上 (私用領域)
4/0～5/15 ‐ 2バイト
6/0～6/15 ‐ 3バイト
7/0～7/14 ‐ 4バイト以上

動的再指定可能文字セット(DRCS)

動的再指定可能文字セット(DRCS)とは、いわゆる「ユーザー定義外字」のことである。視覚的外観をあらかじめ指定しておくことで、文字集合とする。

一度指定されると、DRCSは、適切なエスケープシーケンスでG0～G3の符号要素として指示できる、文字集合のレパートリーの一つとしてみなされる。

DRCSの指示は、1バイトの図形文字表(GnDm機能、後述)では2番目のバイトに、複数バイトの図形文字表(GnDMm機能、後述)では3番目のバイトに、2/0を挿入することで行なう。

この場合、DRCS自体は、<F>バイト(存在するなら後続するバイトも含めて)で識別する。<F>バイトは利用者が割り当て、情報交換当事者間の合意に基づいて利用する。

<F>バイトは、4/0から順番に割り当てて使うことが推奨されている。4/0～7/14まで利用可能なため、94/94ⁿ、96/96ⁿ、おのおので63個までは、バイトを使用しなくても<F>バイトだけで識別できる。

指示エスケープの例

指示のエスケープシーケンスの使用例は次の通りである。

1バイトのものを総じてGnDm機能、複数バイトのものを総じてGnDMm機能という。

略号	文字集合	指示先	エスケープ
GZD4	1バイト94図形文字集合	G0	1/11 2/8 <F>	ESC ( <F>
G1D4		G1	1/11 2/9 <F>	ESC ) <F>
G2D4		G2	1/11 2/10 <F>	ESC * <F>
G3D4		G3	1/11 2/11 <F>	ESC + <F>
G1D6	1バイト96図形文字集合	G1	1/11 2/13 <F>	ESC - <F>
G2D6		G2	1/11 2/14 <F>	ESC . <F>
G3D6		G3	1/11 2/15 <F>	ESC / <F>
GZDM4	94ⁿ図形文字集合	G0	1/11 2/4 2/8 <F>	ESC $ ( <F>
G1DM4		G1	1/11 2/4 2/9 <F>	ESC $ ) <F>
G2DM4		G2	1/11 2/4 2/10 <F>	ESC $ * <F>
G3DM4		G3	1/11 2/4 2/11 <F>	ESC $ + <F>
G1DM6	96ⁿ図形文字集合	G1	1/11 2/4 2/13 <F>	ESC $ - <F>
G2DM6		G2	1/11 2/4 2/14 <F>	ESC $ . <F>
G3DM6		G3	1/11 2/4 2/15 <F>	ESC $ / <F>
他の符号系			1/11 2/5(2/15)<F>	ESC ( <F>

アナウンス機能

手順

ISO/IEC 2022で文字を使う時の、最も基本的な使い方は、次のようになる。

図形文字集合をバッファーに指示する
バッファーを図形文字表に呼び出す
使う

指示は当該のエスケープシーケンスで行ない、呼出は基本的にはロッキングシフトで行なうことになる。

しかし、この手順は面倒であるため、それを省略する手順が用意されている。

用例

具体的には、特定のバッファーを図形文字表に直結しておき、「指示しただけで自動的に呼び出され即使用できる」ようにする。

この目的のために「アナウンサ」と呼ばれる符号列を使用し、ESC 2/0 <F>という符号列で機能を指定する。

ISO/IEC 2022:1994(JIS X 0202:1998)では、途中に抜けはあるが4/0～5/12まで、多彩な利用方法が規定されている。

省略も可能

情報交換当事者間の合意があれば、アナウンサさえも省略してよいことになっている。

例えば、ISO-2022-JPなどでは、初期状態としてG0にASCII、さらに1/11 2/0 4/1というアナウンサが先行していると考え、情報交換当事者間の合意があったものとしてそれを略している。

F=4/1

ISO-2022-JPで使用しているESC 2/0 4/1を例とする。

この場合、バッファーはG0しか使わないが、その代わりG0へ指示したものはすぐGL領域へ呼び出す。ロッキングシフトは使用しない。

また、8ビット符号では、GR領域は使用しない。

主要な符号

ISO/IEC 2022に準拠した、または非互換の独自拡張をした等の、主な符号系は次の通りである。言語ごとに分類する(順不同)。

日本語(ja)
- 7ビット符号
- 8ビット符号
  - EUC-JP
  - EUC-JISX0213
  - EUC-JISX0213-plane1
  - EUC-JIS-2004
  - EUC-JIS-2004-plane1
  - eucJP-open
    - eucJP-0201
    - eucJP-ascii
    - eucJP-ms
支那語(簡体字/正体字)(zh)
- 7ビット符号
  - ISO-2022-CN
  - ISO-2022-CN-EXT
- 8ビット符号
  - EUC-CN (簡体字)
  - EUC-TW (正体字)
朝鮮語(ko)
- 7ビット符号
  - ISO-2022-KR (南鮮)
  - ISO-2022-KP (北鮮)
- 8ビット符号
  - EUC-KR (南鮮)
  - EUC-KP (北鮮)

終端文字一覧表

1バイト領域94図形文字集合

番号	図形文字集合	終端文字	ASCII例
2	ISO-646IRV:1983	4/0	ESC ( @
4	ISO-646-GB 英国 (BS 4730)	4/1	ESC ( A
6	ISO-646-US 米国 (ASCII) (X.3.4-1968)	4/2	ESC ( B
8-1	NATS-SEFI (フィンランド・スウェーデン)	4/3	ESC ( C
8-2	NATS-SEFI-ADD (フィンランド・スウェーデン)	4/4	ESC ( D
9-1	NATS-DANO (デンマーク・ノルウェー)	4/5	ESC ( E
9-2	NATS-DANO-ADD (デンマーク・ノルウェー)	4/6	ESC ( F
10	ISO-646-SE スウェーデン基本文字	4/7	ESC ( G
11	ISO-646-SE2 スウェーデン名前文字	4/8	ESC ( H
13	JIS X 0201片仮名 (通称半角カナ)	4/9	ESC ( I
14	JIS X 0201ローマ字	4/10	ESC ( J
21	ISO-646-DE ドイツ(DIN 66 003)	4/11	ESC ( K
16	ISO-646-PT ポルトガル(ECMA, 1976)	4/12	ESC ( L
39	アフリカ語文字集合(DIN 31625, ISO 6438)	4/13	ESC ( M
37	基本キリル文字集合(ECMA, ISO 5427:1981)	4/14	ESC ( N
38	書誌用拡張図形文字集合(DIN 31624)	4/15	ESC ( O
53	書誌用拡張図形文字集合(ISO 5426)	5/0	ESC ( P
54	拡張キリル文字集合(ISO 5427:1981)	5/1	ESC ( Q
25	ISO-646-FR フランス(NF Z 62-010-1973) [廃止]	5/2	ESC ( R
55	書誌用ギリシャ文字集合(ISO 5428-1980)	5/3	ESC ( S
57	ISO-646-CN 支那ローマ文字(GB 1988-80)	5/4	ESC ( T
27	ラテン・ギリシャ文字集合(ECMA)	5/5	ESC ( U
47	ビューデータテレテクスト英国	5/6	ESC ( V
49	INIS IRV サブセット	5/7	ESC ( W
31	書誌用ギリシャ文字集合(ISO 5428-1974)	5/8	ESC ( X
15	ISO-646-IT イタリア(ECMA) (UNI 0204-70)	5/9	ESC ( Y
17	ISO-646-ES スペイン(ECMA)	5/10	ESC ( Z
18	ギリシャ文字集合(ECMA)	5/11	ESC ( [
19	ラテン・ギリシャ文字集合(ECMA)	5/12	ESC ( \
50	INIS 非標準拡張	5/13	ESC ( ]
51	INIS キリル拡張	5/14	ESC ( ^
59	アラビア文字集合(CODAR-U)	5/15	ESC ( _
60	ISO-646-NO ノルウェー(NS 4551 Version 1)	6/0	ESC ( `
61	ISO-646-NO2 ノルウェー (NS 4551 Version 2) [廃止]	6/1	ESC ( a
70	ビデオテックス追加集合(CCITT)	6/2	ESC ( b
71	ビデオテックス Mosaic 第2追加(CCITT)	6/3	ESC ( c
72	ビデオテックス Mosaic 第3追加(CCITT)	6/4	ESC ( d
68	APL文字集合	6/5	ESC ( e
69	ISO-646-FR フランス(NF Z 62-010-1982)	6/6	ESC ( f
84	ISO-646-PT ポルトガル(ECMA, 1984)	6/7	ESC ( g
85	ISO-646-ES2 スペイン(ECMA)	6/8	ESC ( h
86	ISO-646-HU ハンガリー(MSZ 7795/3)	6/9	ESC ( i
88	ギリシャ文字集合(ELOT) [廃止]	6/10	ESC ( j
89	アラビア(ASMO 449,ISO 9036)	6/11	ESC ( k
90	ISO 6937/2 補助集合	6/12	ESC ( l
91	OCR-A図形文字集合(JIS C 6229:1984) [廃止]	6/13	ESC ( m
92	OCR-B図形文字(JIS C 6229 OCR-B) [廃止]	6/14	ESC ( n
93	OCR-B追加図形文字集合(JIS C 6229) [廃止]	6/15	ESC ( o
94	OCR用基本手書き図形文字集合(JIS C 6229) [廃止]	7/0	ESC ( p
95	OCR用追加手書き図形文字集合(JIS C 6229) [廃止]	7/1	ESC ( q
96	OCR用片仮名手書き図形文字集合(JIS C 6229)[廃止]	7/2	ESC ( r
98	E13B 図形文字集合(ISO 2033-1983)	7/3	ESC ( s
99	ビデオテックス・テレテクスト [廃止]	7/4	ESC ( t
102	T.61 テレテクスト基本図形文字集合	7/5	ESC ( u
103	T.61 テレテクスト追加図形文字集合	7/6	ESC ( v
121	ISO-646-CA カナダ図形集合 No.1(CSA Z 243.4-1985)	7/7	ESC ( w
122	ISO-646-CA2 カナダ図形集合 No.2(CSA Z 243.4-1985)	7/8	ESC ( x
137	T.101 データ構文 I Mosaic 1 集合	7/9	ESC ( y
141	ISO-646-YU セルボクロアチア・スベロニアラテン文字	7/10	ESC ( z
146	セルボクロアチアキリル文字(JUS I.B1.003)	7/11	ESC ( {
128	T.101 データ構文 III 追加文字集合	7/12	ESC ( \|
147	マケドニアキリル文字(JUS I.B1.004)	7/13	ESC ( }

1バイト領域第2中間文字2/1の94図形文字集合

番号	図形文字集合	終端文字	ASCII例
150	CCITT ギリシャ基本集合	4/0	ESC ( ! @
151	ISO-646-CU キューバ文字集合(NC 99-10:81)	4/1	ESC ( ! A
170	ISO/IEC 646-1992 invariant 文字集合	4/2	ESC ( ! B
207	アイルランド・ゲール語 (I.S. 433:1996)	4/3	ESC ( ! C
230	トルコ語アルファベット (TDS 565)	4/4	ESC ( ! D
231	ANSI/NISO Z39.47 (ANSEL)	4/5	ESC ( ! E
232	トルコ語アルファベット (TDS 616-2003)	4/6	ESC ( ! F

1バイト領域 96図形文字集合

番号	図形文字集合	終端文字	ASCII例
111	ECMA-94 ラテン/キリルアルファベット右部分	4/0	ESC - @
100	ISO-8859-1:1987 Latin alphabet No.1 右部分	4/1	ESC - A
101	ISO-8859-2:1987 Latin alphabet No.2 右部分	4/2	ESC - B
109	ISO-8859-3:1988 Latin alphabet No.3 右部分	4/3	ESC - C
110	ISO-8859-4:1988 Latin alphabet No.4 右部分	4/4	ESC - D
123	カナダ標準 Z 243.4一般用補助図形文字	4/5	ESC - E
126	ISO-8859-7:1987 Latin/Greek alphabet(ECMA-118)	4/6	ESC - F
127	ISO-8859-6:1987 Latin/Arabic alphabet	4/7	ESC - G
138	ISO-8859-8:1988 Latin/Hebrew alphabet	4/8	ESC - H
139	チェコ標準〓SN 36 91 03 右部分	4/9	ESC - I
142	追加図形文字集合(ISO 6937/2 plus Addendum 1)	4/10	ESC - J
143	技術用集合	4/11	ESC - K
144	ISO-8859-5:1988 Latin/Cyrillic alphabet	4/12	ESC - L
148	ISO-8859-9:1989 Latin alphabet No.5 右部分	4/13	ESC - M
152	ISO 6937-2:1983 残余文字	4/14	ESC - N
153	8ビット基本キリル文字集合(ST SEV 358-88)	4/15	ESC - O
154	ラテンアルファベット No.1,2,5 追加集合	5/0	ESC - P
155	基本ボックス用集合	5/1	ESC - Q
156	ISO/IEC 6937:1992 補助集合	5/2	ESC - R
164	CCITT ヘブライ補助集合	5/3	ESC - S
166	タイ語(TIS 620-2533 1990)	5/4	ESC - T
167	アラビア語/フランス語/ドイツ語文字集合	5/5	ESC - U
157	ISO-8859-10:1992 Latin alphabet No.6 右部分	5/6	ESC - V
158	ISO-8859-10:1992 Latin alphabet No.6 補助集合	5/8	ESC - X
179	ISO-8859-13(ISO 4873)	5/9	ESC - Y
180	ベトナム語(TCVN 5712:1993, VSCII-2)	5/10	ESC - Z
181	技術文字集合 No.1:IEC Publication 1289	5/11	ESC - [
182	ラテンアルファベットNo.1 Welsh 版	5/12	ESC - \
197	サーミ語補助ラテン集合	5/13	ESC - ]
198	Latin/Hebrew alphabet	5/14	ESC - ^
199	ISO-8859-14 ケルト語補助ラテン文字集合	5/15	ESC - _
200	ウラル諸語補助キリル文字集合	6/0	ESC - `
201	ヴォルガ川沿岸フィン諸語補助キリル文字集合	6/1	ESC - a
203	ISO-8859-15 補助ラテン文字集合 (Latin-9)	6/2	ESC - b
204	Latin-1補助集合 (ISO-8859-1+ユーロ通貨符号)	6/3	ESC - c
205	Latin-4補助集合 (ISO-8859-4+ユーロ通貨符号)	6/4	ESC - d
206	Latin-7補助集合 (ISO-8859-13+ユーロ通貨符号)	6/5	ESC - e
226	ISO-8859-16 情報交換用ルーマニア語文字集合	6/6	ESC - f
208	情報交換用オガム文字集合	6/7	ESC - g
209	サーミ語補助ラテン文字集合2	6/8	ESC - h
227	ISO-8859-7:2003 Latin/Greek	6/9	ESC - i
234	ISO-8859-8:1999 Latin/Hebrew	6/10	ESC - j
129	CCITT Rec.T.101 データ構文III Mosaic 補助集合	7/13	ESC - }

複数バイト領域94×94図形文字集合

番号	図形文字集合	終端文字	ASCII例
42	日本語漢字(JIS C 6226-1978)[廃止]	4/0	ESC $ @
58	支那語漢字(GB 2312-80)	4/1	ESC $ A
87,168	日本語漢字(JIS X 0208-1990)	4/2	ESC $ B
149	朝鮮語図形文字集合(KS X 1001)	4/3	ESC $ ( C
159	日本語補助漢字集合(JIS X 0212-1990)	4/4	ESC $ ( D
165	CCITT 支那語漢字(ISO-IR-165)	4/5	ESC $ ( E
169	Blissymbol 図形文字集合	4/6	ESC $ ( F
171	台湾正体字漢字(CNS 11643-1)	4/7	ESC $ ( G
172	台湾正体字漢字(CNS 11643-2)	4/8	ESC $ ( H
183	台湾正体字漢字(CNS 11643-3)	4/9	ESC $ ( I
184	台湾正体字漢字(CNS 11643-4)	4/10	ESC $ ( J
185	台湾正体字漢字(CNS 11643-5)	4/11	ESC $ ( K
186	台湾正体字漢字(CNS 11643-6)	4/12	ESC $ ( L
187	台湾正体字漢字(CNS 11643-7)	4/13	ESC $ ( M
202	北朝鮮情報交換用標準朝鮮語図形文字集合	4/14	ESC $ ( N
228	日本語漢字(JIS X 0213:2000) 第一面	4/15	ESC $ ( O
229	日本語漢字(JIS X 0213:2000) 第二面	5/0	ESC $ ( P
233	日本語漢字(JIS X 0213:2004) 第一面	5/1	ESC $ ( Q

複数バイト領域96×96図形文字集合

現在は一つも定義されていない.

登録済みの他の符号系(ISO-2022 とは異なる他の符号系)

エスケープシーケンスはESC 2/5 (2/15) <Ft>である。

なお、ESC 2/5 <Ft>の符号は、ESC 2/5 4/0で再びISO/IEC 2022に戻れることになっている(間に2/15を挟むものは戻らない)。

これは、ISO/IEC 2022のDOCS(DESIGNATE OTHER CODING SYSTEM)という他の符号化システムと併用するための機能の一つである。

番号	図形文字集合	終端文字	ASCII例
	ISO/IEC 2022	4/0	ESC % @
108	NAPLPS 構文(CSA T 500-1983)	4/1	ESC % A
178	UTF-1	4/2	ESC % B
131	CCITT Rec.T.101 データ構文I	4/3	ESC % C
145	CCITT Rec.T.101 データ構文II	4/4	ESC % D
160	CCITT Rec.T.101 フォトビデオテックス	4/5	ESC % E
161	CCITT Rec.T.101 オーディオデータ構文	4/6	ESC % F
196	UTF-8	4/7	ESC % G
188	ITU-T Rec.T.107 VEMMI データ構文	4/8	ESC % H
162	ISO/IEC 10646:1933,UCS-2,Level 1	2/15 4/0	ESC % / @
163	ISO/IEC 10646:1933,UCS-4,Level 1	2/15 4/1	ESC % / A
125	Virtual Terminal service Transparent Set	2/15 4/2	ESC % / B
174	ISO/IEC 10646:1933,UCS-2,Level 2	2/15 4/3	ESC % / C
175	ISO/IEC 10646:1933,UCS-4,Level 2	2/15 4/4	ESC % / D
176	ISO/IEC 10646:1933,UCS-2,Level 3	2/15 4/5	ESC % / E
177	ISO/IEC 10646:1933,UCS-4,Level 3	2/15 4/6	ESC % / F
190	UTF-8 Level 1	2/15 4/7	ESC % / G
191	UTF-8 Level 2	2/15 4/8	ESC % / H
192	UTF-8 Level 3	2/15 4/9	ESC % / I
193	UTF-16 Level 1	2/15 4/10	ESC % / J
194	UTF-16 Level 2	2/15 4/11	ESC % / K
195	UTF-16 Level 3	2/15 4/12	ESC % / L

版ごとの差異

これを著している時点では、この規格には総じて4種類の版がある。それぞれの特徴を下記する。

ISO 2022:1973

初版

最初の版である。

バッファーはG0とG1しかなく、94文字集合と94ⁿ文字集合しかなかった。

また、複数バイト文字集合はG0にしか指示できない。このため、ESC 2/4 <F>という3バイトのシーケンスで指示した。<F>は4/0、4/1、4/2までが割り当てられたが、以降の更新でG1以降にも指示可能になっても、互換性のためこの仕様は残された。

8ビット符号

この頃、バッファーが二つしかなく、またそれらは符号表の今で言うGL/GRと一致していた。従って、この版ではGL、GRというものはなかった。つまり、C0、G0、C1、G1である。

94文字集合のみであったため、2/0は常にSP、7/15は常にDELであり、10/0と15/15は未定義である。

この頃のエスケープシーケンスは次の通りである。

符号列		用途
ESC 2/8 <F>	ESC ( <F>	94文字集合をG0に指示し、呼び出す
ESC 2/12 <F>	ESC , <F>	94文字集合をG0に指示し、呼び出す
ESC 2/9 <F>	ESC ) <F>	94文字集合をG1に指示し、呼び出す
ESC 2/13 <F>	ESC - <F>	94文字集合をG1に指示し、呼び出す
ESC 2/4 <F>	ESC $ <F>	複数バイト文字集合をG0に指示し、呼び出す

指示と呼び出しが二つあるのは、片方が尽きた時にもう片方を使うための予約だったと考えられる。

7ビット符号

7ビット符号環境では、0/0から7/15の範囲内で用いる。

G0、G1はともに符号表の外部にあり、SI・SOという符号で呼び出して用いることになっていた。

SHIFT IN(0/15)でG0が呼び出され、SHIFT OUT(0/14)でG1が呼び出された。この名前からは、G0は内側(IN)のものであり、G1は外側(OUT)にあるものだ、という思想が見え隠れする。

ISO 2022:1982

改訂

初の改定版であり、第二版と言える。

ここでバッファーとしてG2、G3が追加された。まだ96文字集合は存在しない。

複数バイト文字集合に対し、G1～G3までに指示可能になった。

追加機能

追加されたエスケープシーケンスは次の通りである。

符号列		用途
ESC 2/10 <F>	ESC * <F>	94文字集合をG2に指示する
ESC 2/14 <F>	ESC . <F>	94文字集合をG2に指示する
ESC 2/11 <F>	ESC + <F>	94文字集合をG3に指示する
ESC 2/15 <F>	ESC / <F>	94文字集合をG3に指示する
ESC 2/4 2/12<F>	ESC $ , <F>	複数バイト文字集合をG0に指示する
ESC 2/4 2/9 <F>	ESC $ ) <F>	複数バイト文字集合をG1に指示する
ESC 2/4 2/13 <F>	ESC $ - <F>	複数バイト文字集合をG1に指示する
ESC 2/4 2/10 <F>	ESC $ * <F>	複数バイト文字集合をG2に指示する
ESC 2/4 2/14 <F>	ESC $ . <F>	複数バイト文字集合をG2に指示する
ESC 2/4 2/11 <F>	ESC $ + <F>	複数バイト文字集合をG3に指示する
ESC 2/4 2/15 <F>	ESC $ / <F>	複数バイト文字集合をG3に指示する

また、G2、G3を用いるため、呼び出し符号が多数新規に追加された。この版から、この規格は混迷を深め始めたといえる。

LS0 (G0をGLに呼び出す) (0/15、いわゆるSI)
LS1 (G1をGLに呼び出す) (0/14、いわゆるSO)
LS2 (G2をGLに呼び出す) (1/11 6/14)
LS3 (G3をGLに呼び出す) (1/11 6/15)
LS1R (G1をGRに呼び出す) (1/11 7/14)
LS2R (G2をGRに呼び出す) (1/11 7/13)
LS3R (G3をGRに呼び出す) (1/11 7/12)
SS2 (次の1文字だけG2をGL/GRに呼び出す) (8/14または1/11 4/14)
SS3 (次の1文字だけG3をGL/GRに呼び出す) (8/15または1/11 4/15)

LS0Rは存在しないが、これはG0がGL(2/1～7/14)と密接な結び付きがあることを意識したものと思われる。

ISO 2022:1986

二回目の改定版であり、第三版と言える。

特徴

この版から、96文字集合が追加され、これに中間文字として2/13、2/14、2/15が充てられた。

この中間文字は、従来は94文字集合用の中間文字であったが、この仕様は廃止されたことになる。なお、ESC 2/4 2/12 <F>は削除された。

96文字集合導入に伴い、10/0と15/15が利用可能になった。

追加/変更されたエスケープシーケンスは次の通りである。

符号列		用途
ESC 2/13 <F>	ESC - <F>	96文字集合をG1に指示する
ESC 2/14 <F>	ESC . <F>	96文字集合をG2に指示する
ESC 2/15 <F>	ESC / <F>	96文字集合をG3に指示する
ESC 2/4 2/8 <F>	ESC * ( <F>	複数バイト文字集合をG0に指示する

符号に統一性を持たせるためか、互換性はこのさい目をつむり、従来のESC 2/4 <F>に代えるESC 2/4 2/8というエスケープシーケンスが追加された。

しかしこの時点で、ESC 2/4 <F>の<F>には4/0、4/1、4/2の三つが追加されていたため、これはこのまま使用されることになった。

96文字集合

96文字集合はG1～G3にのみ指示することができ、G0には指示出来ない。そのための中間文字がないからである。

この仕様からは、G0はGL(2/1～7/14)である、という強い意識がここから読み取れる。つまり、G0～G4というのは決して対等なものではないという考えがあると思われる。

しかし、7ビット符号で96文字集合を永続的に使うとなると、G1～G3に指示したものをLS1～LS3で2/0～7/15に呼び出して使うことになる。そうなれば、どのみち聖域である2/0と7/15が潰れてしまうのは自明だろう。

そうであるなら、G0に96文字集合が指示出来てもおかしくないということになり、この件については様々な議論を巻き起こすことになった。

ISO/IEC 2022:1994

三回目の改定版であり、第四版と言える。この版からISO/IEC 2022になり、規格書は全面的に刷新された。

Single Shift後の文字がGLでもGRでも良いことが明記された。もって、EUCでSS2/SS3の後でGRを使うことが問題なくなった。

ISO/IEC 4873を基にした実装水準が規定された。

ASN.1構文による表現が規定された。

登録済み集合に対する更新シーケンスが新たに規定された。これは、文字集合の改定ごとに新たな終端文字を作らずに済ませるための配慮である。

終端文字が変わると実装の変更も必要な上、貴重なリソースである終端文字の領域の残も減ってしまい、宜しくないことから、この結論に至ったと思われる。

例えば、JIS X 0208-1990とJIS X 0208-1983は終端文字が同じだが、1990が1983の改定版と見なされるよう、更新シーケンスとしてESC 2/6 4/0を付加することが必要となった。

リンク