EUC-CN

読み:イーユースィースィーエン
外語:EUC-CN 英語
品詞:名詞

簡体字支那語向けのISO/IEC 2022のサブセットで8ビット符号の拡張法を用いている、EUCの一種。

目次

用途

UNIXなどで、簡体字支那語を表現するときに用いられる。

最近のLinuxではUTF-8が使われ始めているが、古いUNIXシステムではEUC-CNが主流であった。

方法と集合

EUC-CNはあくまで符号化方法(CES)であり、文字集合(CCS)の規定ではない。

文字集合には支那語のCCSが使われるが、全てが慣例に基づくもので、RFCすらも無い。RFC 1922には「CN-GB」と称される8ビット符号が述べられているが、これは慣例として用いられるEUC-CNと同等である。

亜種

EUC-CNには、次のような亜種がある。

基本仕様

8ビットで文字を表現する8ビット符号の符号である。つまり、CL/GL/CR/GRの全てを用いる。

それぞれに、C0/G0/C1/G1が呼び出しされた状態で固定されており、変更はできない。

G2G3の文字を使う場合は、SSを使う。

  • 0x00〜0x7f: G0文字(ASCII)
  • 0xa1〜0xfe 0xa1〜0xfe: G1文字(GB 2312)
  • 0x8e(SS2) 0xa1〜0xfe: G2文字
  • 0x8f(SS3) 0xa1〜0xfe 0xa1〜0xfe: G3文字

符号範囲

基本的なEUC-CNは、2バイト文字に対し、次の範囲を使う。

  • 1バイト目 ‐ 10/1〜15/14 (94種)
  • 2バイト目 ‐ 10/1〜15/14 (94種)

必要に応じ、SS2やSS3が先行し3バイトとなることがあるが、続く2バイトの範囲は維持される。

但し、ISO/IEC 2022に違反するが2バイト目を拡張したものもあり、代表例として「GBK」がある。GBKは、次のようになっている。

  • 1バイト目 ‐ 8/1〜15/14 (126種)
  • 2バイト目 ‐ 4/0〜7/14、8/0〜15/14 (190種)

指示

EUC-CNは、文字集合が各バッファーに呼び出し指示された状態で開始される。しかし、どの文字集合が初期状態であるかは、実装によりまちまちである。

ごく一般的な実装では、次の通り。

G2とG3は通常未使用だが、ISO-2022-CNの仕様上は、次の何れかの選択が可能となっている。それぞれ、左が簡体字、右が正体字である。

  • G0: ASCII
  • G1: GB 2312-80、GB/T 12345-90
  • G2: GB 7589-87、GB 13131-91
  • G3: GB 7590-87、GB 13132-91

拡張に、EUCに準拠しない代わりコードレンジを広げて文字数を増やした符号系GBKと、その更なる拡張GB 18030があり、支那大陸においては、現行のパソコン等ではこの拡張符号系が主に用いられている。

台湾では、EUCとは全く異なる独自のBig5が主流で、EUCはあまり使われていない。

用語の所属
EUC
ISO/IEC 2022
CES
関連する用語
CCS
GB 2312
CNS 11643
EUC-TW

コメントなどを投稿するフォームは、日本語対応時のみ表示されます


KisoDic通信用語の基礎知識検索システム WDIC Explorer Version 7.04a (27-May-2022)
Search System : Copyright © Mirai corporation
Dictionary : Copyright © WDIC Creators club