EUC-TW

読み:イーユースィー・ティーダブリュー
外語:EUC-TW 英語
品詞:名詞

ISO/IEC 2022のサブセットで、8単位の拡張法を用いているEUCの一種。

目次

用途

EUC-TWが想定する文字集合CNS 11643は、台湾の公的規格である。

このため政府関係などが用いているらしいが、一般には殆ど使われていない。

方法と集合

EUC-TWはあくまで符号化方法(CES)であり、文字集合(CCS)の規定ではない。

文字集合には支那語・台湾正体字のCCSが使われるが、全てが慣例に基づくもので、RFCすらも無い。

基本仕様

8ビットで文字を表現する8ビット符号である。つまり、CL/GL/CR/GRの全てを用いる。

それぞれに、C0/G0/C1/G1が呼び出しされた状態で固定されており、変更はできない。

G2の文字を使う場合は、SSを使う。

G3は使用しない。

  • 0x00〜0x7f: G0文字(ASCII)
  • 0xa1〜0xfe 0xa1〜0xfe: G1文字(CNS 11643-1)
  • 0x8e(SS2) 0xa2〜0xb0 0xa1〜0xfe: 0xa1〜0xfe: G2文字(CNS 11643-2〜16〜80)

符号範囲

EUC-TWは、2バイト文字に対し、次の範囲を使う。

  • 1バイト目 ‐ 10/1〜15/14 (94種)
  • 2バイト目 ‐ 10/1〜15/14 (94種)

必要に応じ、SS2が先行して計4バイト(注、3バイトではない)となることがあるが、続くバイトの範囲は維持される。

指示

EUC-TWは、文字集合が各バッファーに呼び出し指示された状態で開始される。

ごく一般的な実装では、次の通り。

  • G0: ASCII
  • G1: CNS 11643-1
  • G2: CNS 11643-2字面以降
  • G3: 未使用

この場合、GLには常にG0、GRには常にG1が呼び出されている。

G2の扱い

G2は、シングルシフト(SS2)を含めて4オクテットとなる。

SS2に続き、字面番号が1オクテット、符号位置が2バイトとなる。つまり、G2には、CNS 11643の第2字面以降の全ての文字集合が集まっているように見える。

仕様上は、EUC-TWによりCNS 11643の全字面を扱えることになる。

当初の仕様では、字面番号として10/2〜11/0(0xa2〜0xb0)の2字面から16字面までを扱った。CNS 11643:2004からは80字面までに拡張され、字面番号として10/2〜15/0(0xa2〜0xf0)の2字面から80字面までを扱う。

用語の所属
EUC
ISO/IEC 2022
CES
関連する用語
CCS
CNS 11643
Big5
EUC-CN

コメントなどを投稿するフォームは、日本語対応時のみ表示されます


KisoDic通信用語の基礎知識検索システム WDIC Explorer Version 7.04a (27-May-2022)
Search System : Copyright © Mirai corporation
Dictionary : Copyright © WDIC Creators club