ISO/IEC 10646およびUnicode文字を8ビットの不定長として表現できるように変換したものの一つ。
仕様は明確ではないが、次のように符号化される。
| UCS-4 (16進) | UTF-8 (2進) |
|---|---|
| 00000000〜0000007F | 0xxxxxxx |
| 00000080〜000003FF | 110xxxxx 101xxxxx |
| 00000400〜00003FFF | 1110xxxx 101xxxxx 101xxxxx |
| 00004000〜0003FFFF | 11110xxx 101xxxxx 101xxxxx 101xxxxx |
| 00040000〜003FFFFF | 111110xx 101xxxxx 101xxxxx 101xxxxx 101xxxxx |
| 00400000〜03FFFFFF | 1111110x 101xxxxx 101xxxxx 101xxxxx 101xxxxx 101xxxxx |
| 04000000〜3FFFFFFF | 11111110 101xxxxx 101xxxxx 101xxxxx 101xxxxx 101xxxxx 101xxxxx |
| 40000000〜7FFFFFFF | 11111111 101xxxxx 101xxxxx 101xxxxx 101xxxxx 101xxxxx 101xxxxx |
UTF-EBCDICはUTF-8と同様、文字が次の範囲に限定されるため、途中の1文字を読むだけで、それが1文字目か2文字目以降かが識別可能である。
また、0x80〜0x9Fは使用されない。