UTF-9 i UTF-18: Różnice pomiędzy wersjami

Usunięta treść Dodana treść

Jednokolumnowy

Wersja z 00:18, 21 cze 2009

UTF-9 - system kodowania unikodu, wprowadzony dokumentem RFC 4042. Specyfikację UTF-9 opracował Mark Crispin (wynalazca protokołu IMAP). RFC 4042 został upubliczniony 1 kwietnia 2005 Nie jest standardem i nie jest promowany przez konsorcjum Unicode.

System ten wprowadzony został (wraz z UTF-18) z myślą o 18- i 36-bitowych architekturach komputerów, w których obsługa systemów UTF-8 czy UTF-16 zbudowanych wokół 8-bitowych bajtów (tj. oktetów) byłaby nieefektywna obliczeniowo i pamięciowo.

Szczegóły

UTF-9 (Unicode Transformation Format) jest formatem kodowania znaków o zmiennej długości. Najstarszy bit każdego nonetu (tj. 9-bitowego bajtu) używany jest jako flaga kontynuacji, pozostały oktet to kod znaku w standardzie ISO-10646. Dla znaków 0x0-0xFF oznacza to pełną wsteczną kompatybilność. W UTF-9 możliwe jest zakodowanie wszystkich znaków Unikodu, więc nie ma potrzeby stosowania kodów zastępczych z przedziału U+D800 - U+DBFF

Znak	Kod UNICODE	kod UTF-9 (hex)	kod UTF-8 (dla porównania)
Przykłady kodowań UTF-9
A	U+0041	101	101
Ą	U+0104	401-004	304-204
가	U+AC00	654-000^[1]	352-260-200
𝌌	U+1D30C	401-323-014	360-235-214-214

Zalety i wady

Zalety:

potencjalnie lepsza efektywność na architekturach 18- i 36- bitowych

Wady:

dodatkowe problemy dla architektur 16-, 32- i 64-bitowych.
większość protokołów komunikacyjnych i tak jest opartych na oktetach, więc systemy używające UTF-9 w dalszym ciągu musiały by dokonywać konwersji

Przypisy

↑ UWAGA: te zera nie są błędem, i nie oznaczają "końca łańcucha"

Linki zewnętrzne

Dokument RFC 4042.

[1] UWAGA: te zera nie są błędem, i nie oznaczają "końca łańcucha"

[1]