UTF-5

読み:ユーティーエフ・ファイブ
外語:UTF-5: Unicode Transformation Format-5
品詞:固有名詞

国際化ドメイン名を実現するためにJames Seng、Martin Duerst、Tin Wee Tanにより提案された符号法の一つ。最終的には不採用となった。

基本的なコンセプトはUTF-8などと同様で、1ビットの符号部と4ビットのデータ部の不定長となる。

先頭1バイトの最上位ビット(MSB)が1となり、続くバイトのMSBは0としている。

UCS-4 (16進)UTF-5 (2進)
00000000〜0000000F1xxxx
00000010〜000000FF1xxxx 0xxxx
00000100〜00000FFF1xxxx 0xxxx 0xxxx
00001000〜0000FFFF1xxxx 0xxxx 0xxxx 0xxxx
 
10000000〜7FFFFFFF1xxxx 0xxxx 0xxxx …… 0xxxx

こうして得られた5ビットの符号は、次のように文字に割り当てる。

  • 0x0〜0x9: 0〜9
  • 0xa〜0x1f: A〜V