En datamaskin lagrer hver bokstav og symbol på teksten som en sekvens av biter - binære enere og nuller . Systems koding av alfabetet , tegnsetting og andre symboler utviklet seg i det 20. århundret, med ANSI og Unicode. ANSI , som oppsto tidligere, bruker færre biter, men plass til ikke-europeiske språk med vanskeligheter ; Unicode omfatter mange asiatiske og Midt-Østen tegn samt den romerske sett brukes for engelsk og andre europeiske språk. Størrelse
ANSI sett koder tegn ved hjelp av åtte biter, eller en byte av data , slik at den håndterer opptil 256 forskjellige symboler på en gang . Unicode -systemet bruker 16 bits , eller to bytes, imøtekommende 256 x 256 eller 65.536 symboler. I tillegg har Unicode 17 kodende plan , slik at et totalt mer enn 1.000.000 symboler. For språk med ikke -latinske tegnsett , bruker ANSI en ekstra 16 - biters tall som kalles en kode siden. En datamaskin lagrer dette tallet en gang, ikke med hver karakter , noe som gir mer fleksibilitet til ANSI koding ordningen.
Språk
ANSI sett kjent som " 1252 Windows" der " 1252 " refererer til koden sidenummer , er de mest populære , som dekker engelsk og flere europeiske språk. Andre kodesett definere flere språk , for eksempel 1254 for tyrkisk og 1255 for hebraisk. Unicode, på grunn av sin større skriftstørrelse , iboende plass til flere symboler , inkludert de for Thai, blindeskrift, Cherokee og gammelpersisk .
Platforms
ANSI vokste fra Microsofts Windows -operativsystem , etter å ha blitt utviklet av Microsoft og IBM. Forskere fra Apple og Xerox samarbeidet om Unicode , som Microsoft senere vedtatt. På tidspunktet for publisering, støtter Windows både ANSI og Unicode. Mac OS X bruker sin egen åtte -bits tegn kode , i likhet med ANSI, og støtter også Unicode. Linux-operativsystemet gir også støtte for Unicode .
Sortering
romerske tegnsett har tradisjonelt tillot brukere å organisere og sortere informasjon ved hjelp av rekkefølgen på sine karakterer . ANSI koder fulgt romerske karakter rekkefølge , slik at verdien av en "T" er større enn den til en "B ", noe som gjør datamaskinen oppgaver som sortering nesten automatisk . Selv Unicode kan også sortere informasjon basert på karakteren orden, er det en mer komplisert prosess . De første 127 Unicode-tegn inkluderer øvre - og nedre -sak latinske bokstaver , slik at sortering for engelsk og andre europeiske språk. Hver ikke -romerske språk har sin egen form formel eller algoritme.