UnicodeやISO/IEC 10646を、サロゲートペアという方法でUCS-4の文字を使えるようにした符号化方法。RFC 2781
で情報提供扱いで規定されている。
新たに出来た領域をUCS-4の1面〜16面として割り当て、UCS-4の0〜16面の計17面、最大1,114,112文字種まで利用可能となった。
この技術をサロゲートペアといい、このサロゲートペアを併用するUnicodeの符号化方法をUTF-16という。つまりUTF-16とは16ビットを基準とする可変長エンコードである。
ISO/IEC 10646のUCS-2との差は、このサロゲートペアの機能の有無である。
UTF-16では、0〜16面の計17面しか扱えない。しかし、このRFCを書いたFrancois Yergeauは、これで充分だと考えた。
その根拠は、UCS-4の全領域を表現する方法は、実現はできても需要がないからである。UTF-16でさえ100万字の容量があるが、それを全て埋め尽くすほどコードポイントの需要があるとは考えにくい。
また、いずれUTF-16のエリアのコードポイントに文字がマッピングされるようになれば、徐々に可変長のUTF-16ライブラリより、固定ピッチのUCS-4のライブラリが増えるに違いないと考えられた。
UTF-16の存在意義は、16ビット固定長という従来の枠を破ることのみにあったと言える。
Unicodeが普及した現在、この予測を改めて考えると、結果は外れたと言える。文書ファイルなどでは、UCS-4ではなく可変長のUTF-8が普及することになった。そして、WindowsのAPIではUTF-16が使われているため、ある意味UTF-16はUTF-8より普及している。
予想のとおりに、UTF-16は廃れ、UCS-4になることは、当分は無さそうである。