通常PC用 / 人気 更新 今日 カテ |
電子計算機 > 符号 > 文字 > 符号 > 文字符号(CES) > 支那語・台湾語 |
EUC-TW |
辞書:通信用語の基礎知識 通信技術文字符号編 (CTCHRE) |
読み:イーユースィー-ティーダブリュー |
外語:EUC-TW |
品詞:名詞 |
ISO/IEC 2022のサブセットで、8単位の拡張法を用いているEUCの一種。
|
概要 |
用途 |
EUC-TWが想定する文字集合、CNS 11643は、台湾の公的規格である。
このため政府関係などが用いているらしいが、一般には殆ど使われていない。
方法と集合 |
EUC-TWはあくまで符号化方法(CES)であり、文字集合(CCS)の規定ではない。
文字集合には支那語・台湾正体字のCCSが使われるが、全てが慣例に基づくもので、RFCすらも無い。
仕様 |
基本仕様 |
8ビットで文字を表現する8ビット符号である。つまり、CL/GL/CR/GRの全てを用いる。
それぞれに、C0/G0/C1/G1が呼び出しされた状態で固定されており、変更はできない。
G3は使用しない。
符号範囲 |
EUC-TWは、2バイト文字に対し、次の範囲を使う。
必要に応じ、SS2が先行して計4バイト(注、3バイトではない)となることがあるが、続くバイトの範囲は維持される。
指示 |
EUC-TWは、文字集合が各バッファーに呼び出し指示された状態で開始される。
ごく一般的な実装では、次の通り。
この場合、GLには常にG0、GRには常にG1が呼び出されている。
G2の扱い |
G2は、シングルシフト(SS2)を含めて4オクテットとなる。
SS2に続き、字面番号が1オクテット、符号位置が2バイトとなる。つまり、G2には、CNS 11643の第2字面以降の全ての文字集合が集まっているように見える。
仕様上は、EUC-TWによりCNS 11643の全字面を扱えることになる。
当初の仕様では、字面番号として10/2〜11/0(0xa2〜0xb0)の2字面から16字面までを扱った。CNS 11643:2004からは80字面までに拡張され、字面番号として10/2〜15/0(0xa2〜0xf0)の2字面から80字面までを扱う。
リンク |
通信用語の基礎知識検索システム WDIC Explorer Ver 7.04a (27-May-2022) Search System : Copyright © Mirai corporation Dictionary : Copyright © WDIC Creators club |