UCS-2

読み：ユースィーエス・トゥー
外語：UCS-2: Universal Multiple-Octet Coded Character Set-2

品詞：名詞

Unicodeのうち、BMP(00群00面)を2オクテットで符号化する符号化方法(CES)。

概要

ISO/IEC 10646(32ビット)で考えると、上位16ビットが0となる領域。

この領域を基本多言語面(BMP)と呼び、Unicodeのコード体系をそのまま割り当てている。

UCS-2は、このBMPのみを符号化できる、古い符号化方法である。

ISO/IEC 10646誕生の経緯から、Unicodeに配慮してこの「UCS-2」という用語が生まれたが、Unicode用語としては既に廃止されている。

UCS-2自体は完全な16ビットのコード体系であり、16ビットを越える範囲の文字を扱うことができないからである。

可決寸前だったISO/IEC 10646の案DIS 10646 1.0を潰し、16ビットで全てを賄うとしたUnicodeであったが、UCS-2では領域が不足するため、UCS-2は捨てることになった。

そこで、このUCS-2にサロゲートペアと呼ばれる技術を併用した符号法が提唱され、これはUTF-16と呼ばれている。Unicode 2.0以降でこの仕様が採用された。

現在一般にUnicodeと称した場合、このUTF-16のことを指すことが多いと思われる。

UCS-2ではサロゲートペアの機能が定義されていないので、現在UCS-2で当該の文字をどのように扱うべきかは実装上の課題として残されている。

なお、昨今普及しつつあるUTF-8を用いればサロゲートペアなどのアドホックな拡張を用いずとも自然にISO/IEC 10646を扱うことができる。

つまり、UCS-2⊆UTF-16⊆(UCS-4=UTF-8)、である。

但し、UTF-8はUCS-4の全領域を表現する潜在能力があるが、現行の標準仕様RFC 3629では、UTF-16の範囲内のみ(U+000000〜U+10FFFF)に制限されている。またISO/IEC 10646自体も、UTF-16の範囲外には文字を定義しないことになった。

報道機関用にUCS-2を拡張した独自の2オクテット符号が、U-PRESSである。

その仕様は定かではないが、符号化方法(CES)と、符号化文字集合(CCS)が一つになった仕様と見られる。