Reprezentarea în informații de text calculator - studopediya

Computer orice text - este o secvență lineară de simboluri. Și nu este vorba doar de caractere obișnuite, dar, de asemenea, spațiile dintre cuvinte, precum și alte caractere speciale: trecerea la linia următoare, trecerea la pagina următoare, etc. Fiecare simbol al secvenței corespunde unui cod binar specific.

Pentru a transfera informații de la o reprezentare calculator a tabelelor de codificare a caracterelor esențiale ale omului - tabel de corespondență între simbolurile unei anumite coduri de limbă și de caractere. Ele sunt, de asemenea, numite pagini de cod (pagina de cod, sau abr. CP), cunoscut sub numele de limba engleză setul de caractere pe termen (uneori scurtat la charset).

Cel mai faimos codificare tabel este un cod ASCII - American Standard Code pentru schimbul de informații. Acesta a fost proiectat inițial pentru transmiterea de texte telegrafice, iar la momentul în care a fost pe 7 biți, T. E. Pentru codificarea de limba engleză caracter, de serviciu și de caractere de control utilizate doar 128 combinații semibitovyh. In dezvoltarea primelor calculatoare IBM, acest cod a fost folosit pentru a reprezenta caractere în calculator. Deoarece codul sursă ASCII a fost de numai 128 de caractere pentru a le codifica valori octet suficient (al optulea bit setat la zero). O listă a acestor personaje și corespunzătoare lor de opt biți binare (de ex., E. Compus din opt cifre binare) constituie principalul tabel cod ASCII (de bază).

Când au început să se adapteze calculatoare în alte țări și limbi, cameră pentru personaje noi nu mai era de ajuns. În scopul de a sprijini pe deplin adăugarea în engleză și în alte limbi, IBM a introdus utilizarea de mai multe tabele de codificare, specifice fiecărei țări. Tabelul 864 (în limba arabă), Israel - - tabelul 862 (Israel), etc. În tabelele din codurile din a doua jumătate a setului de caractere (de exemplu, astfel încât la tabelul scandinav 865 (nordic), a fost propusă țările arabe .. . cele pentru care optulea bit este unul) a fost folosit pentru a reprezenta caracterele alfabete naționale (prin excluderea anumitor pseudo-simboluri). varianta charset utilizate în SUA și majoritatea țărilor europene, numit cod pagina 437 (CP437).

Evident, caracterul de înlocuire în a doua jumătate a tabelului de cod poate fi făcută în diferite moduri. În România, punct de vedere istoric, că limba română, există mai multe tabele diferite de codificare alternative de caractere chirilice: KOI8-R, IBM CP866, CP1251, ISO-8551-5. Toate acestea descriu aceleași personaje din prima jumătate a tabelului (0-127) și diferite reprezentarea caracterelor alfabetului și caractere grafice românești.

Codificare alternativă - bazată pe pagina de cod CP437, în cazul în care toate caracterele europene specifice în a doua jumătate a fost înlocuit cu alfabetul chirilic, lăsând intacte de caractere Pseudographic. În consecință, aceasta nu strica programele de vizualizare folosind pentru casete de text, și oferă, de asemenea utilizarea lor de caractere chirilice. tabelul de cod alternativ numit codificare IBM CP866, în cazul în care suportul a fost adăugat în versiunea MS-DOS 6.22. Această codificare este utilizat în consola sistemelor de familie rusificată Windows NT.

Tabel. 4.4 și 4.5 pentru fiecare simbol specificând codul zecimal, rândul și coloana dă codul hexazecimal. Exemplu: simbolul „I“ are codul 15910 și 9F16

Tabelul 4.4. set de caractere Alternativ (CP866)

Reprezentarea în informații de text calculator - studopediya

Tabelul 4.5. Ferestre (CP1251) tabelul de coduri

Exemplul 4.6. Așa va arăta ca cuvântul „știință“ în diverse codificări in hexa:

Pagina generata pentru: 0,002 sec.