Informații de text Codare

Codificarea informațiilor în computer

Fiecare mașină are binar cifre cantitatea de informații egală cu un bit.

Această concluzie se poate face prin luarea în considerare cifrele mașinii alfabetului sunt evenimente la fel de probabile. Când scrieți cifre binare pot fi realizate selecta doar una din cele două stări posibile, și, prin urmare, are cantitatea de informație egală cu 1 bit. În consecință, două cifre transporta informația de 2 biți, patru biți și t biți --4. D. Pentru a determina cantitatea de informații în biți este suficientă pentru a defini numărul de cifre din codul binar mașină.

În prezent, majoritatea oamenilor folosesc o procese de calculator text, care este format din caractere: litere, cifre, semne de punctuație, etc ..

Pe baza capacității de informare a unei celule de 1 bit poate codifica numai două stări distincte. Pentru fiecare caracter, care pot fi introduse de la tastatură în registrul latină, pentru a primi un cod binar unic necesită 7 biți. Pe baza secvenței de 7 biți, în conformitate cu formula Hartley, se pot obține prin N = 7 februarie = 128 combinații diferite de zero-uri și altele, adică coduri binare. Atribuirea fiecărui caracter de cod binar, obținem un tabel de codificare. Omul operează caractere, calculatorul - codurile lor binare.

Pentru Latină aspect de tastatură un astfel de tabel de codificare este unul pentru întreaga lume, astfel încât textul tastat cu aspect latin, va fi afișată în mod corespunzător pe orice computer. Acest tabel este numele ASCII (American Standard Code de informații), în limba engleză este pronunțat [Eski] în limba rusă este pronunțat [Asuka]. Mai jos este întregul tabel ASCII în care codurile sunt date în formă zecimală. Pe aceasta poate fi determinat că atunci când introduceți de la tastatură, de exemplu, „*“ caracter, calculatorul său primește codul 42 (10), la rândul său, 42 (10) = 101,010 (2) - Acesta este codul binar al caracterului „* “. Codurile de 0-31 din acest tabel nu sunt utilizate.

Tabel de caractere ASCII

Pentru a codifica un singur caracter este utilizat cantitatea de informații de 1 octet, T. E. I = 1 octet = 8 biți. Cu ajutorul unei formule care se referă la numărul de evenimente posibile la cantitatea de informații și cu mine, putem calcula cât de multe caractere diferite pot fi codificate (presupunând că personajele - este evenimente posibile):

K = 2, I = 2 8 și + = 256,

t. e. să reprezinte informațiile textuale, puteți utiliza puterea alfabetului de 256 de caractere.

Esența codare este că fiecare caracter este plasat într-un cod binar corespunzător 00000000 - 11111111 și codul zecimal corespunzător între 0 și 255.

Trebuie amintit faptul că în prezent pentru codificarea literelor românești utilizate cinci seturi diferite de caractere (KOI - 8, SR1251, SR866, Mac, ISO), textele sunt codificate utilizând același tabel nu va fi afișat corect într-o codificare diferită. Intuitiv, aceasta poate fi reprezentată ca un fragment dintr-un tabel de codificare caracter unitar.

Codul binar același este asociată cu o varietate de caractere.

Cu toate acestea, în cele mai multe cazuri de conversie a documentelor de text în care utilizatorul nu este în cauză, și programe speciale - convertoare, care sunt construite în aplicație.

Unicode include aproape toate literatura modernă, inclusiv: arabă, armeană, bengali, birmaneză, greacă, georgiană, Devanagari, ebraică, chirilică, coptă, khmeră, Latină, Tamil, Hangul, Han (China, Japonia, Coreea), Cherokee, etiopian, japoneză (Katakana, hiragana, kanji), și altele.

În Unicode, o gamă largă de simboluri și pictograme matematice și muzicale.

Pentru caractere chirilice în intervalul Unicode a două coduri alocate:

Chirilic (# 0400 - # 04FF)

Supliment chirilic (# 0500 - # 052F).

Dar introducerea tabelului Unicode în forma sa cea mai pură este constrânsă, pentru motivul că în cazul în care codul de un caracter se va ocupa mai mult de un octet și doi octeți, care pentru a stoca textul va avea nevoie de două ori mai mult spațiu pe disc, precum și pentru transmisia prin intermediul canalelor de comunicare - de două ori mai mult timp.

Deci, acum practica este o reprezentare mai frecventă a Unicode UTF-8 (Unicode Transformation Format). UTF-8 oferă cea mai bună compatibilitate cu sisteme care utilizează caractere pe 8 biți. Textul format din numai simboluri cu numărul mai mic de 128 este convertit într-un text ASCII obișnuit atunci când scrieți în UTF-8. Caracterele Unicode rămase sunt reprezentate de secvențe de lungime de la 2 la 4 octeți. În general, cea mai frecventă în lumea simbolurilor - simboluri ale alfabetului latin - ocupă încă 1 octet de codificare este mai economic decât Unicode pur UTF-8.

Pentru a determina codul numeric al caracterului, puteți utiliza fie tabelul de coduri. Pentru a face acest lucru, selectați meniul „Insert“ - „simbolul“, apoi ecranul afișează un caracter caseta de dialog. În caseta de dialog, există un tabel de caractere pentru fontul selectat. Simbolurile din acest tabel sunt aranjate linie cu linie, de la stânga la dreapta, începând cu un caracter spațiu.