UTF-32

読み：ユーティーエフ・さんじゅうに
外語：UTF-32: Unicode Transformation Format-32

品詞：名詞

Unicodeを32ビット(4オクテット)固定長で表現する符号化方法(CES)の一つ。

概要

由来

Unicode Standard Annex #19(Unicode標準付則 #19)によって定義されている。

UTF-32においては、32ビット=4オクテットが1バイトとなる。

目的

電子計算機で処理するときには、可変長であるUTF-16などよりも固定長である方が扱いやすい。そこで、処理系内部では32ビット長であるUTF-32として処理することが多い。

一方、ファイル化したり、通信電文として使うには非効率である。UTF-16で2オクテットで表現できない文字は、日常では殆ど使われていない。そのために32ビットも日常的に使うのは効率が悪い。

このため、ファイル化、通信電文といった用途では、UTF-32はUCS-4と共に、殆ど使われていない。

特徴

仕様

これは、Unicode標準の一つである。UTF-32でもISO/IEC 10646の全領域を表現することは不可能ではないが、あくまでUnicode用である。

ISO/IEC 10646のUCS-4との違いはこの点で、UTF-32は32ビット(符号があるため、有効31ビット)あるが、使うのはU+0〜U+10FFFFまでの範囲だけとなる。

つまり、UTF-32⊆UCS-4、ということが出来る。

BOM

符号化された文書がUTF-32であるかどうかを識別するためと、エンディアンネスを識別するために、文書の先頭にはBOMと呼ばれる文字0xFEFFが付加される。

UnicodeでU+FEFFという文字は、ZERO WIDTH NO-BREAK SPACE(幅の無い改行しない空白)という記号である。見えないし改行もされない、存在自体を無視できる文字である。

それぞれ、先頭の4オクテットは次の通りとなる。

リトルエンディアン ‐ 0xFF、0xFE、0x00、0x00
ビッグエンディアン ‐ 0x00、0x00、0xFE、0xFF

BOMの無い文書

BOMが定義される以前の文書には、BOMが無いものもある。

現在それはUTF-32LEやUTF-32BEと呼ばれ、名称でエンディアンネスを識別するようになっている。

なお、BOMがなく、エンディアンネスの指定も無いUTF-32の場合、その文書はビッグエンディアン(いわゆるネットワークバイトオーダー)として処理される。

リンク

用語の所属

UTF

文字集合

ISO/IEC 10646

Unicode

ア	イ	ウ	エ	オ
カ	キ	ク	ケ	コ
サ	シ	ス	セ	ソ
タ	チ	ツ	テ	ト
ナ	ニ	ヌ	ネ	ノ
ハ	ヒ	フ	ヘ	ホ
マ	ミ	ム	メ	モ
ヤ		ユ		ヨ
ラ	リ	ル	レ	ロ
ワ	ヰ	ヴ	ヱ	ヲ
ン

通信	電算
科学	国土
鉄道	軍事
文化	萌色
短縮

通信	電算
科学	国土
鉄道	軍事
文化	萌色

UTF-32

目次

概要

由来

目的

特徴

仕様

BOM

BOMの無い文書

リンク

広告

ア	イ	ウ	エ	オ
カ	キ	ク	ケ	コ
サ	シ	ス	セ	ソ
タ	チ	ツ	テ	ト
ナ	ニ	ヌ	ネ	ノ
ハ	ヒ	フ	ヘ	ホ
マ	ミ	ム	メ	モ
ヤ		ユ		ヨ
ラ	リ	ル	レ	ロ
ワ	ヰ	ヴ	ヱ	ヲ
ン

A	B	C	D	E
F	G	H	I	J
K	L	M	N	O
P	Q	R	S	T
U	V	W	X	Y
Z	数字		記号

ア	イ	ウ	エ	オ
カ	キ	ク	ケ	コ
サ	シ	ス	セ	ソ
タ	チ	ツ	テ	ト
ナ	ニ	ヌ	ネ	ノ
ハ	ヒ	フ	ヘ	ホ
マ	ミ	ム	メ	モ
ヤ		ユ		ヨ
ラ	リ	ル	レ	ロ
ワ	ヰ	ヴ	ヱ	ヲ
ン

ア	イ	ウ	エ	オ
カ	キ	ク	ケ	コ
サ	シ	ス	セ	ソ
タ	チ	ツ	テ	ト
ナ	ニ	ヌ	ネ	ノ
ハ	ヒ	フ	ヘ	ホ
マ	ミ	ム	メ	モ
ヤ		ユ		ヨ
ラ	リ	ル	レ	ロ
ワ	ヰ	ヴ	ヱ	ヲ
ン