UTF-1

読み:ユーティーエフ・ワン
外語:UTF-1: Unicode Transformation Format-1 英語
品詞:名詞

ISO/IEC 10646およびUnicode文字を8ビットの不定長(1、2、3、5バイト)として表現できるように変換したものだった。不人気のため現在は仕様から破棄されている。

目次

これは、ASCIIの上位互換となるよう変換するものの一つである。

0x00〜0x9f(CL、GL、CR)は1バイト文字として維持し、1バイト目が0xa0〜0xff(GR)から始める。

2バイト目以降は0x21〜0x7eと0xa0〜0xffの190種類を使い、制御文字は避けるように設計されている。

標準化

ISO/IEC 10646-1:1993の附属書Gに掲載されたが、すぐにISO/IEC 10646からは削除された。IANAには次の名前で登録されている。

  • ISO-10646-UTF-1
  • csISO10646UTF1

ISO-IR 178として登録されている。ISO/IEC 2022におけるエスケープシーケンスは次のとおり。

  • ESC 2/5 4/2

UTF-1からISO/IEC 2022に戻るには、次のエスケープシーケンスを用いる。

  • ESC 2/5 4/0

符号化方法

変換には、除算と剰余計算が含まれるため、処理が重くなりがちである。

2バイト目は190種類ある。次の計算式を、マクロT(z)として定義する(後の2行は原則として未使用)。

  • z=0x00-0x5d → z + 0x21
  • z=0x5e-0xbd → z + 0x42
  • z=0xbe-0xde → z - 0xbe
  • z=0xdf-0xff → z - 0x60

次に、文字番号の範囲に応じて、次のように算出する。UCS-4の文字番号をU、除算記号(÷)を/、剰余演算記号を%とする。

UCS-4 (16進)UTF-7
00000000〜0000009F0xxxxxxx
000000A0〜000000FF11000000 1xxxxxxx
00000100〜00004015y = U - 0x00000100
0xA1+y/190 T(y%190)
00004016〜00038E2Dy = U - 0x00004016
0xF6+y/1902 T(y/190%190) T(y%190)
00038E2E〜7FFFFFFFy = U - 0x00038E2E
0xFC+y/1904 T(y/1903%190) T(y/1902%190) T(y/190%190) T(y%190)

符号化の問題

UTF-8とは違い、同じ文字を複数の方法で変換できないという利点はあったが、次のような決定的な問題が存在した。

  • 2文字目に/や\が含まれ、パス名/ファイル名に使用できない (重要)
  • 文字列の途中を見ると、1文字目なのか2文字目なのか分からない
  • 除算、剰余算などが入るため計算処理が重くなる

特に1番目が重大で、結局実用化されることなく廃れた。

UTF-1の後継はUTF-2として検討され、これが現在のUTF-8となったのである。

用語の所属
UTF
関連する用語
ISO/IEC 10646
Unicode
UTF-8
UCS-2
UCS-4

コメントなどを投稿するフォームは、日本語対応時のみ表示されます


KisoDic通信用語の基礎知識検索システム WDIC Explorer Version 7.04a (27-May-2022)
Search System : Copyright © Mirai corporation
Dictionary : Copyright © WDIC Creators club