Rakstzīmju kodējums

Rakstzīmju kodējums jeb rakstzīmju kopa (angļu: Character encoding jeb character set) ir sistēma, kas paredzēta rakstzīmju kodēšanai noteiktā secībā. Rakstzīmes var būt alfabēta burti, cipari, dažādi simboli. Rakstzīmju kopas visplašāk izmanto datu elektroniskā apstrādē, uzglabāšanā un pārsūtīšanā. Piemēram, Morzes kods, kurā latīņu alfabēta burtus kodē ar gariem un īsiem telegrāfa signāliem, vai ASCII, kurā burtus, ciparus, un citus simbolus kodē ar 7 bitu skaitļiem.

Datoru ēras sākumā radās vajadzība standartizēt teksta rakstzīmju un citu simbolu izmantošanu elektroniskajās sistēmās; ASV izveidoja ASCII (1963.) un EBCDIC (1964.). Drīz vien šīs kopas izrādījās ierobežotas, un tika izgudrotas dažādas metodes, kā tās paplašināt. Daudzo rakstību, tai skaitā ķīniešu, korejiešu un japāņu, atbalstam ir izstrādātas īpašas sistēmas rakstzīmju kodēšanai.

Vienkāršās rakstzīmju kopas

Tradicionāli termini "rakstzīmju kopa" un "rakstzīmju kodējums" bija sinonīmi, tā kā viens standarts noteica gan to, kādas rakstzīmes ir pieejamas, gan to, kā tās kodējamas koda vienību plūsmā (parasti viens simbols vienai koda vienībai).

Modernie kodēšanas modeļi

Unikods un tā paralēlais standarts ISO/IEC 10646 (Universal Character Set) novirzījās no šīs idejas. Tie izvirzīja sekojošus jautājumus: kādas rakstzīmes ir pieejamas, to secības, kā šie secības numuri kodējami kā "koda vienības" un visbeidzot kā šīs vienības kodētas kā oktetu (baitu) plūsma. Šī sadalījuma pamatideja ir izveidot universālu rakstzīmju kopu, kuru varētu kodēt dažādos veidos.

Pazīstamākie rakstzīmju kodējumi

ISO 646
- ASCII
EBCDIC
- CP930
ISO 8859:
- ISO 8859-1, ISO 8859-2, ISO 8859-3, ISO 8859-4, ISO 8859-5, ISO 8859-6, ISO 8859-7, ISO 8859-8, ISO 8859-9, ISO 8859-10, ISO 8859-11, ISO 8859-13, ISO 8859-14, ISO 8859-15, ISO 8859-16
- CP437, CP737, CP850, CP852, CP855, CP857, CP858, CP860, CP861, CP863, CP865, CP866, CP869
Microsoft Windows rakstzīmju kopas:
- Windows-1250 Centrāleiropas valodām, kuras lieto latīņu alfabētu
- Windows-1251 kirilicai
- Windows-1252 Rietumeiropas valodām
- Windows-1253 grieķu valodai
- Windows-1254 turku valodai
- Windows-1255 ivritam
- Windows-1256 arābu valodai
- Windows-1257 Baltijas valodām
- Windows-1258 vjetnamiesu valodai
Mac OS Roman
KOI8-R, KOI8-U, KOI7
MIK
Korkas kodējums
ISCII
VISCII
Big5 (pazīstamākais variants ir Microsoft Code page 950)
- HKSCS
Guobiao
- GB2312
- GBK (Microsoft Code page 936)
- GB18030
Shift JIS japāņu valodai (Microsoft Code page 932)
EUC-KR korejiešu valodai (Microsoft Code page 949)
ISO-2022 un EUC Austrumāzijas rakstzīmju kopām
Unikods (un tā apakškopas). Skatīt UTF-8
ANSEL vai ISO/IEC 6937