UTF

読み:ユーティーエフ
外語:UTF: Unicode Transformation Format , UCS Transformation Format
品詞:名詞,+規格

UnicodeISO/IEC 10646を、実際に計算機で利用できるように変換した形式の符号化のこと。

Unicodeなどは文字集合(CCS)の規格で、これを実際に符号化する仕様(CES)がUTFである。

ASCIIなどの7ビット文字などと共存可能なように工夫したものが良く使われているが、必ずしもそれが全てでは無い。

16ビット長または32ビット長のUnicodeやISO/IEC 10646を、1バイト以上の不定長に変換する仕様として、主に7ビットを基準とするUTF-7と、8ビットを基準とするUTF-8がある。

また、Unicode専用としては、サロゲートを使い16ビット単位の可変長で符号化するUTF-16、32ビット固定長で符号化するUTF-32などがある。

RFCなどで定義されているものに、次のようなものがある。

符号長は「バイト単位」だが、このバイトが8ビット(オクテット)とは限らない。

名称最大値符号長特徴等典拠
UTF-10x7FFFFFFF1〜5現在は破棄されたISO/IEC 10646-1:1993 Annex G
UTF-20x7FFFFFFF1〜6後にUTF-8となった 
UTF-50x7FFFFFFF1〜8国際化ドメイン名用、しかし不採用draft-jseng-utf5-01.txt外部リンク
UTF-60x0000FFFF 国際化ドメイン名用、しかし未完成draft-ietf-idn-utf6-00.txt外部リンク
UTF-70x0010FFFF 電子メールRFC 2152外部リンク
UTF-80x7FFFFFFF1〜6ファイルシステムや文書ファイル用RFC 3629外部リンク、(RFC 2279外部リンク)
UTF-EBCDIC0x7FFFFFFF1〜7EBCDICと親和性の高い符号化Unicode TR16外部リンク
UTF-9 (I-D)0x7FFFFFFF1〜5ファイルシステムや文書ファイル用draft-abela-utf9-00
UTF-9 (RFC)0x7FFFFFFF1〜4エイプリルフールの冗談RFC 4042外部リンク
UTF-160x0010FFFF1〜2 RFC 2781外部リンク
UTF-18 1エイプリルフールの冗談RFC 4042外部リンク
UTF-320x0010FFFF1 Unicode TR19外部リンク