UTF-EBCDIC

読み:ユーティーエフ・エビシディック
外語:UTF-EBCDIC
品詞:名詞

ISO/IEC 10646およびUnicode文字を8ビットの不定長として表現できるように変換したものの一つ。

仕様

これは、UTF-8の亜種の一つで、このため、「UTF-8m」や「UTF-8-Mod」などの別名がある。仕様は「Unicode Technical Report #16」で提案されている。

この符号は、名前の通りEBCDICとの親和性を高めた符号で、EBCDICに埋め込んで用いることができるとされている。

符号化方法

仕様は明確ではないが、次のように符号化される。

UCS-4 (16進)UTF-8 (2進)
00000000〜0000007F0xxxxxxx
00000080〜000003FF110xxxxx 101xxxxx
00000400〜00003FFF1110xxxx 101xxxxx 101xxxxx
00004000〜0003FFFF11110xxx 101xxxxx 101xxxxx 101xxxxx
00040000〜003FFFFF111110xx 101xxxxx 101xxxxx 101xxxxx 101xxxxx
00400000〜03FFFFFF1111110x 101xxxxx 101xxxxx 101xxxxx 101xxxxx 101xxxxx
04000000〜3FFFFFFF11111110 101xxxxx 101xxxxx 101xxxxx 101xxxxx 101xxxxx 101xxxxx
40000000〜7FFFFFFF11111111 101xxxxx 101xxxxx 101xxxxx 101xxxxx 101xxxxx 101xxxxx

UTF-EBCDICはUTF-8と同様、文字が次の範囲に限定されるため、途中の1文字を読むだけで、それが1文字目か2文字目以降かが識別可能である。

  • 1文字目: 0x00〜0x7F,0xC0〜0xFF
  • 2文字目以降: 0xA0〜0xBF

また、0x80〜0x9Fは使用されない。