UCS-4
読み:ユースィーエス-フォー
外語:UCS-4: Universal Multiple-Octet Coded Character Set-4

 ISO/IEC 10646の全領域を、4オクテットで符号化する符号化方法(CES)。
目次

概要
 32ビット(実際に使われるのは、最上位ビットを除いた31ビット)の全てを用いる仕様で、理論上21億以上の文字種を表現できる。
 そして一部にはUnicodeのコード体系が採用されている。

特徴

由来
 ISO/IEC 10646にあった二つの符号化方法の一つで、ISO/IEC 10646の全領域が表現できるのが特徴だった。
 しかし、Unicodeでは既に採用されていない。Unicodeは00群00面〜00群16面の計17面のみを使用しており、「この制限を加えたUCS-4」とも言えるUTF-32を採用している。
 このため、既にUCS-4という符号は、殆ど使われていないものと思われる。

サロゲート
 初期のISO/IEC 10646とUnicodeにはサロゲートというものはなかった。
 Unicodeでは、UCS-2で表現できないUCS-4の範囲を表わすのに、サロゲートという機能文字を用意することになった。
 Unicodeの00群01面〜00群16面の文字を、UCS-4でどのように表わすべきかは定かではない。一般的な実装では、そのまま目的の符号位置をUCS-4で表わすことになるが、サロゲート文字二つをそのまま符号化(4オクテット×2で計8オクテット)という方法も不可能ではない。

再検索