通信用語の基礎知識 IPv4
戻る
全国のICカードこれひとつ

UTF-9 (I-D)

辞書:通信用語の基礎知識 通信技術文字符号編 (CTCHRE)
読み:ユーティーエフ・ナイン
外語:UTF-9: Unicode Transformation Format-9 英語
品詞:名詞
2005/11/21 作成
2006/12/20 更新

Unicodeの表現方法の一つとして提出されたI-Dの一つ。しかしRFCとなることなく破棄された。

出典

1997(平成9)年12月24日に提案されたI-Dである。

RFC 4042として同名(UTF-9)の仕様が公開されているが、それとこれは全くの別物である。

コンセプト

このUTF-9は、UTF-8に似ているが、Latin-1(ISO-8859-1)文字のうち0/0〜7/15と、10/0〜15/15までをそのままの値で扱える点にある。

8/0〜9/15は2バイト以上の表現となるが、そもそもここはC1制御文字の領域であり実際としてあまり使われていない。従ってUTF-9はLatin-1圏にとってはソフトウェアを殆ど変更せずに済むため、とても都合が良い。

多すぎる欠点

しかしUTF-9は、Latin-1圏以外では、全く都合が良くなかった。

そもそもUTF-8が既に普及しつつある中での提案だったため劣勢感は否めず、その上に山ほど欠点を加えてあるのが痛かったといえる。

UTF-9はUTF-8と違い10/10〜15/15の文字が1バイトである可能性があるため、途中のバイトを見ても先頭か途中かの判断を付けることができず、判断のためには前に戻らなければならないという欠点がある。

また1バイト目に8/0〜9/15を使うため、ソートをするのに不便という点も見逃せない。

表現方法

UTF-9ではUnicodeのU+0000〜U+007F、U+00A0〜U+00FFは1バイトで表現される。

U+0080〜U+00FFとU+0100以上は、2バイト以上で表現する。

UCS-4 (16進)UTF-9 (2進)
00000000〜0000007F0xxxxxxx
00000000〜0000007F0xxxxxxx
000000A0〜000000BF101xxxxx
000000C0〜000000FF11xxxxxx
00000100〜000007FF1000xxxX 1xxxxxxx
00000800〜0000FFFF100100Xx 1xxxxxxX 1xxxxxxx
00010000〜007FFFFF100101xx 1xxxxxXx 1xxxxxxX 1xxxxxxx
00800000〜7FFFFFFF10011xxx 1xxxxXxx 1xxxxxXx 1xxxxxxX 1xxxxxxx

上記Xはオクテットごとの先頭MSBである.

先頭バイトが8/0〜8/15だと2バイト長、9/0〜9/3だと3バイト長、9/4〜9/7だと4バイト長、9/8〜9/15だと5バイト長となる。2バイト目は8/0〜15/15である。

関連するリンク
https://datatracker.ietf.org/public/idindex.cgi?command=id_detail&id=3058
用語の所属
I-D
UTF
文字集合
ISO/IEC 10646
Unicode
ISO-8859-1
関連する符号化方法
UTF-9 (RFC)

コメントなどを投稿するフォームは、日本語対応時のみ表示されます


KisoDic通信用語の基礎知識検索システム WDIC Explorer Version 7.03 (16-May-2019)
Search System : Copyright © Mirai corporation
Dictionary : Copyright © WDIC Creators club