Cum de a recunoaște textul din DjVu (djv) fișier, softmixer
Pentru a face acest lucru, trebuie mai întâi convertit într-un format care se înțelege recognizere text, de exemplu, la imagini TIFF. O condiție necesară pentru recunoașterea corectă ar trebui să fie o bună calitate a fișierului original.
Vom proceda după cum urmează: deschide fișierul original în program, care lucrează cu fișiere djv. Am folosit pentru a face acest editor DjV. Pentru un fișier text nu uitați să treceți la modul alb-negru (figura nu este inclus). Ce sa întâmplat, puteți vedea mai jos.
Deschideți meniul „Print“ și selectați imprimanta virtuală de la MS Office. El este de obicei instalat în mod implicit.
În „print“ (partea de sus a figurii) și selectați numărul de pagini necesare pentru a converti și faceți clic pe butonul „Properties“.
Pe "Advanced" tab-ul (fereastra de jos) set format TIFF cu o rezoluție de 300 dpi. Apăsați OK și OK din nou.
imprimantă virtuală salvează paginile selectate într-un multi-pagini tiff destul de compact - fișier (o pagină are 35 de Kbytes), care înțeleg acum programul necesar.
Din moment ce a terminat transformarea. Acum puteți deschide fișierul de recunoaștere, și apoi salvați-l ca text. Un astfel de program ar putea fi construit în MS Ofice "Document Imaging" sau "ABBYY Fine Reader". Cum de a face acest lucru se poate observa din figură.
Faceți clic pe fișierul primit de-clic dreapta noastră și din meniul contextual, selectați „deschis cu“. MS Ofice Document Imaging și ABBYY Fine Reader, în funcție de obiectivele pe care ni le-am stabilit. Am deschis documentul în MS Office. I a lua următoarea imagine:
Avantajul acestui program este că puteți selecta fragmentul de text dorit
și faceți clic dreapta pentru a selecta „Copiere ca text“.
Programul recunoaște selecția și
copiați în clipboard. În semn de recunoaștere a textului se pare ca acest lucru:
OCR de calitate este acceptabilă, deși o mulțime de greșeli. Cu imagini poate fi o problemă. Prin urmare, pentru a face o mai bună utilizare a paginilor complexe Fine Reader.