sistem de recunoaștere, sau OCR-sistem de text

recunoaștere a textului sistem sau OCR-sistem (Optical Character Recognition) sunt proiectate pentru a introduce în mod automat într-un document de calculator. Acest lucru poate fi o pagină a unei cărți, reviste, dicționar, orice document - ceva care a fost deja publicată, și trebuie să fie convertite înapoi în format electronic.

OCR-sistem va recunoaște textul și diversele sale elemente (imagini, tabele) cu imagine electronică. Imaginea este de obicei obținută prin scanarea unui document și cel puțin - fotografia lui. Imagine de intrare este procesat de un algoritm OCR-program evidențiază domeniile de text, imagini, tabele, gunoi este separat de datele dorite.

În pasul următor, fiecare caracter este comparat cu dicționarul caracter special, și dacă există un meci, atunci acest caracter este considerată a fi recunoscută. Ca rezultat, veți obține un set de caractere recunoscute, adică, textul de căutare.

Modern OCR-sisteme sunt destul de soluții software complexe. La urma urmei, textul poate fi presărat, distorsionat, murdar, iar programul ar trebui să ia în considerare acest lucru și să fie capabil să se ocupe în mod corespunzător astfel de situații. În plus, OCR-sisteme moderne pot obține, de asemenea, o copie a unui document tipărit în format electronic, cu formatare, stiluri, dimensiuni și fonturi de text, etc.

1. Pre-procesare a imaginii.

2. Recunoașterea obiectelor de niveluri mai ridicate.

3. Character Recognition

4. ipoteze Structurarea. Dicționar cec.

5. Sinteza unui document electronic.

Cele mai multe software-ul OCR (OCR Optical Character Recognition) sunt de lucru cu un bitmap, care se obține printr-un modem de fax, scanner, aparat de fotografiat digital sau alt dispozitiv. În prima etapă OCR trebuie să rupă blocuri de text pe o pagină, în funcție de caracteristicile din stânga și din dreapta alinierea și prezența mai multor vorbitori. Apoi, unitatea recunoscută este împărțită în linii. În ciuda simplității sale aparente, acest lucru nu este o sarcină atât de evidentă, deoarece, în practică, nealinierea inevitabilă a imaginilor de pagină sau fragmente de pagini pe îndoitură. Chiar și înclinație mică duce la faptul că marginea din stânga a unui rând scade sub marginea din dreapta a următoarei, în special la o distanță mică. Vrezultate line definirea problemei la care una sau cealaltă porțiune a imaginii. De exemplu, pentru literele j, J, g, cu o pantă mică este dificil să se determine care linia se referă parte superioară (separată) a caracterului (în unele cazuri poate fi confundat cu o virgulă sau punct).

Apoi, liniile sunt împărțite în zone continue ale imaginii, care de obicei corespund literelor individuale; Algoritmul de recunoaștere a face presupuneri cu privire la conformitatea acestor simboluri de domeniu; și apoi face o alegere pentru fiecare simbol, rezultând într-o pagină este restaurată cu caractere de text și de regulă, în formatul corespunzător. OCR-sistem poate realiza cea mai mare precizie de detectare de peste 99,9% pentru imagini pure compuse din fonturi convenționale. La prima vedere, acest lucru pare a fi acuratețea recunoașterii perfectă, dar rata de eroare este în continuare dezamăgitoare, pentru că în cazul în care există aproximativ 1500 de caractere pe pagină, chiar dacă rata de succes de 99,9%, se obține o recunoaștere a uneia sau a două erori pe pagina. cazuri VTAK vine la metoda de verificare a dicționarului. Adică, în cazul în care unele cuvinte nu în dicționarul sistemului, este de reguli speciale cum ar fi încercarea de a găsi. Dar încă nu permite corectă 100% din erorile care necesită rezultate de testare umane.

În prezent, cel mai larg distribuite. Ambalează integrat cu Microsoft Office. Principalul scop-pentru a crea și edita documente de tip text. Ea are capacități largi. Programul este ușor de a lucra cu documente mari disponibile prin aceasta înseamnă crearea unor indici, tabele de conținut, anteturi și subsoluri, anteturi ierarhice, etc.

2. Procesoarele Word pentru a crea documente compuse; documentele care constituie tabelele de texte, imagini, grafice.

3. Programe pentru texte (tipografie) culegere

· Modul Normal - este utilizat pentru informații de text de imprimare

· Pagina Aspect

· Vizualizarea Schiță - sistem de documente defalcare în afară. Conceput pentru a lucra cu text mare și având un număr de titluri, subtitluri.

Scrierea și editarea textului:

1. Nu imprimați martor la începutul propozițiilor. Un spațiu este considerat un simbol.

2. Nu apăsați pe tasta Enter pentru a începe o nouă linie. Dar aveți grijă să apăsați introduceți în noul alineat.

3. Înainte de simbolurile“. „Nu-mi pot pune un spațiu după caracterul necesar pentru a pune un spațiu.

4. Este necesar să se selecteze mai întâi textul, și apoi doar pentru a efectua o lucrare.

Formatarea documentului includ:

Formatarea 1. Page

2. Punctul Formatarea

4. Formatul tabelului

5. Formatarea model.

1. Pe baza modelului finit

2. Pe baza unui document existent.

A doua metodă plantației, dar primul este mai corect metodic. Când creați un document pe baza unui document existent sau pentru a deschide un document existent, salvați-l sub un nume nou, apoi eliberați-l pentru a elimina toate conținuturile și toate, atunci avem un document gol cu ​​nume propriu și se salvează toate setările făcute anterior la documentul original.

-- auto-substituție pentru a corecta automat erorile comune de tastare;

-- Verificarea automată a ortografiei include verificarea ortografia și gramatica. Utilizatorul are posibilitatea de a dezactiva oricare dintre tipurile de controale sau chiar să efectueze un audit numai după introducerea întregului document;

-- auto-format la intrarea pentru formatarea automat un document direct la intrarea sau după finalizarea acestuia;

-- Asistent, proiectat pentru a oferi în mod automat consiliere și să furnizeze informații de fond, care ar putea fi necesare în timpul sarcinii.

De exemplu, în cazul în care asistentul decide că aveți de gând să înceapă să creeze scrisoarea, el va propune să înceapă Letter Wizard.

În Word, există instrumente care simplifică lucrul cu tabele limitele (cadru) și umplutura:

-- cu mouse-ul pot fi trase tabele de diferite forme (o singură celulă din tabel poate avea orice lățime și înălțime). celulă la frontieră, rând sau coloană din tabel pot fi îndepărtate cu ușurință, are același efect ca și unirea celulelor. În Word, aveți posibilitatea să îmbinați orice celule adiacente atât pe orizontală cât și pe verticală;

-- conținutul celulelor din tabel pot fi aliniate la partea de sus sau de jos sau în mijlocul celulei. Textul din interiorul celulei poate fi poziționată vertical (cu 90 grade rotit);

-- Word incluse în mai mult de 150 de tipuri diferite de limite, care ajuta decora orice document și să-l aranja profesional;

Cuvântul oferă un set de mijloace grafice prin care se poate îmbogăți și decorează text și imagini prin adăugarea cantității de umbră și textură transparentă umpleri, auto-forme.

Lista de caracteristici Microsoft Word

Editarea textului se face folosind următoarele funcții:

Numerele § inserați pagină din documentul, data și ora, notele de subsol, caractere speciale, etc.;

§ Posibilitatea de a găsi, muta, înlocuiți cuvântul pe care doriți linia de text, secțiune, pagina, etc.;

§ posibilitatea de a repeta sau anularea ultimei acțiuni a produs cu textul;

§ formatare îmbunătățită a documentului. Spre deosebire de Word Pad, document Word admite aliniere pe ambele margini, layout multi-coloană;

stiluri de utilizare § pentru a formata rapid un document.

În plus față de aceste caracteristici ale programului oferă un set de funcții de servicii, cum ar fi:

§ verificarea ortografiei și a gramaticii, inclusiv fundalul - ca introducerea textului;

§ selecție de cuvinte sinonime (element de meniu „tezaur“);

§ despărțirea în silabe în document;

statistici de documente definiție § (numărul de caractere, cuvinte, linii, paragrafe, pagini);

§ Lucrul cu macro-uri și șabloane de documente.

Programul are, de asemenea, un set mare de funcții pentru lucrul cu tabele și grafice, sistemul de ajutor de volum (de sistem de ajutor) și mult, mult mai mult.