Un exemplu de implementare a imaginii-director SPSTL

Crearea de imagini de catalog în România înseamnă SPSTL Irbis

directoare imagine sunt unul dintre cele mai eficiente mijloace de conversie retrospectivă a cataloage de cărți pentru bibliotecile cu mare retrofondom (de exemplu, fondul, care nu se reflectă în catalogul electronic complet) și este un model electronic de „hârtie“ tradiționale directoarele care sunt bazate pe digitizate (scanate ) cartele index imagini.

În SPSTL România pentru a crea o imagine a directoarelor utilizate de decizia solicitată IRBIS Library Automation System (dezvoltare ELNIT de asociere) - și anume, IRBIS Imagine de catalog (care este o versiune specializată a IRBIS64 baze de date text întreg - [2]). Această decizie se bazează în primul rând pe baza unei transmisii automate ( „on the fly“) cartele index OCR. Ca software-ul ( „motor“) pentru tehnologia de recunoaștere a textului utilizează OCR ABBYY -technology companie. Datorită acestei:

În primul rând, realizat de căutare full-text (cu clasarea rezultatelor, ținând cont de proximitatea cuvintelor, morfologie, etc.), care, inclusiv posibilitatea de căutare bibliografică pentru profesioniști, oferă utilizatorului final, cu o cercetare tematică bogată;

În al doilea rând, nu există cerințe stricte la procedura de scanare și postarea de imagini a cartelelor. În cazul respectării prezentului ordin se realizează pe deplin model de „hârtie“ Căutare pentru separatoare de card.

Dar principala caracteristică a IRBIS Image Catalog este faptul că baza de date de imagine-catalog nu funcționează separat, nu ca un sistem de sine stătător și integrate în automate completă tehnologie catalog electronic - și anume, stații de lucru tehnologie de catalogare și sistem de circulație bibliotecă automatizare IRBIS64 [3 ], care permite introducerea de date structurate (de exemplu, pictat retrofonda produce copii), datele de corecție recunoscute, șterge înregistrări, de debit și de fond rezervat set, o subvenție, o extensie de rambursare și așa mai departe.

IRBIS Image Catalog include trei module:

- Administrator - pentru a crea propria lor bază de date de catalog imagine bazată pe imaginile scanate de carduri de index (operație lot), le-a construit-in „motor“ de ABBYY;

- clientul original, pentru directorul final imaginea utilizatorului;

- Web-Gateway pentru a accesa imaginea-catalog prin Internet / Intranet.

În plus, pentru a menține imaginea directorul bazei de date poate fi folosit Armagh de catalogare, achiziții și IRBIS64 Circulație.

De fapt, procesul de creare directorul de imagine este format din două etape (care pot fi realizate în serie sau în paralel cu un anumit decalaj în timp):

- scanarea catalogului de card;

- dezvoltarea unei baze de date de catalog imagine bazată pe imaginile scanate de carduri de index, inclusiv recunoașterea automată a procesului textelor lor.

etapa de scanare este în special sarcina de producție și implică utilizarea unor echipamente speciale, care permite scanarea de carduri de index cu viteză mare.

În SPSTL folosite în acest scop scanere de mare viteză „Elar skamaks 2600m“ și „Kodak I 1440“, cu o capacitate de până la 30 de carduri pe minut.

Imaginea inițială când se creează directoare utilizate catalog oficial alfabetic. cartele index scanate pe două fețe cu o rezoluție de 200 dpi în paleta de tonuri de gri (8 Bit GrayScale). Formatul JPEG este utilizat ca un format grafic. Imaginea unui card format ca două fișiere cu nume asociate: Qnnnn. JPG - partea din față, Wnnnn. partea din spate (în cazul în care nnnn - - numărul de serie al cardului în caseta de catalog) JPG. Mărimea medie a părții din față a fișierului de card - 20-30 KB, spate - 10-20 KB. Imagini (fișiere) carti de la unul din caseta de catalog plasate în același director (purtătorul de motor) cu același nume ca caseta separator alfabetic (distanțiere din interiorul cutiei nu este utilizat). De exemplu:

Trebuie remarcat faptul că, în numele directorului (și, prin urmare, în numele separatoarele) Nu puteți utiliza simboluri, cum ar fi „:“ „?“, „\“, „/“, „*“, Duble citate. De asemenea, nu se poate folosi „Punctul de plecare“ și „spațiu“ la sfârșitul numelui.

Este acest sistem de denumire directoare vă permite să organizați de căutare în catalogul de imagine pentru separatoare (care vă permite să creați un model literală a catalogului tradițional). Necesitatea de a căuta delimitatori (de exemplu, necesitatea unei astfel de model) este dictat de următoarele considerente:

- Card de proces de recunoaștere a textului nu dă rezultate absolute, din cauza stării lor precare sau de calitate slabă de imprimare nu este recunoscut de tot textul sau o parte din text este recunoscut în mod incorect, pot exista cazuri în care cardul nu este recunoscut de text în toate; (Trebuie subliniat faptul că placa scrise de mână sau etichetele scrise de mână pe carduri, strict vorbind, nu sunt recunoscute). Aceasta conduce la faptul că, dacă căuta text (de exemplu, în cuvintele textului recunoscut), unele cărți vor fi. Dacă nu furnizați (ca o copie de siguranță) separatoare de căutare, cele mai rele carduri de index detectate nu vor fi găsite în catalogul de imagine. Cu alte cuvinte - de căutarea unui separator în catalog imagine poate renunța numai în cazul calității absolute a recunoașterii (care este aproape imposibil de atins);

- Există situații - în principal legate de căutarea bibliografică - atunci când caută separatorul poate fi mai eficientă decât căutarea cuvintele textului. De exemplu, o căutare carte de pe un periodic (revista) numit „Life“: căutare pentru un cuvânt, cum ar fi „viață“ în catalogul de imagine pentru un volum suficient de mare va avea ca rezultat o problemă foarte mare, care va fi dificil de a găsi cartea de dreapta; mult mai repede va fi găsit pe delimitator alfabetică;

- Există cu siguranță utilizatori - printre care pot exista cititori și bibliotecari - care, din diverse motive, preferă să acționeze „în vechi“, adică, căutare conform textului care aleg pentru a căuta separatoare de card. Nu există nici un motiv pentru a le priva de o astfel de posibilitate.

Când scanați un card de cataloage în mod inevitabil apare întrebarea: dacă să excludă de la cartele index de scanare corespunzătoare „noi“, adică edițiile acele ediții care sunt deja reflectate în catalogul complet electronic. Aderarea la o logică strictă, ar trebui să fie făcut pentru a evita duplicarea datelor în catalog imagine și catalog electronic; pe de altă parte - procesul de selecție a cartele index (indepartarea „noi“ cărți din casetele înainte de a scana și de a le introduce înapoi după scanare) este extrem de laborioasă. În SPSTL pentru toate directoarele (cu excepția director „carte internă“) a decis să prevină duplicarea, mai degrabă decât să crească complexitatea și, prin urmare, - executarea tuturor procesului de scanare, adică, „Noile“ cartele index nu au fost excluse de la scanare.

În conformitate cu structura serviciului director scanat în mod independent, următoarele directoare (și astfel - pentru a crea imagini separate de matrice de carduri de index):

Cea de a doua etapă de lucru - procesul de formare directorul bazei de date de imagine - reprezintă un sistem complet de lot (singur) calculator, adică Aceasta nu implică operații manuale. Pentru a realiza acest lucru este stația de lucru de administrator din baza de date IRBIS64 Full-text cu funcție de recunoaștere. a timpului de muncă este determinată de volumul original carduri index de matrice și cărți audio rata de recunoaștere. Recunoașterea timp carte audio de pe mediile de calculator (2 GB RAM, 2,4 GHz) este de aproximativ 1,5-2 secunde. (De exemplu, pentru a detecta 10000 carduri are nevoie de aproximativ 6 ore). În SPSTL carduri de index dezavantaj nu au fost supuse recunoașterii (ca cuprinde în principal date cu caracter scrise de mână de serviciu).

Astfel, directorul de cinci imagine (vezi. Tabelul de mai sus) au fost create în SPSTL România.

Pentru a lucra cu imaginea-directorul de către utilizatorul final (cititor) este oferit două posibilități:

- aplicație client original pe baza IRBIS Navigator;

- Web -locks pentru a accesa catalogul de imagine prin intermediul bazei de date Internet / Intranet (de exemplu, folosind un browser web).

Interfața utilizator a aplicației client originale pe baza IRBIS Navigator (vedere generală) este prezentată în Fig. 1.

Elementul principal este caseta de interfață ( „Eu caut“), în cazul în care utilizatorul introduce o interogare de căutare în limbaj natural. rezultat al căutării apare în ordinea relevanței documentelor găsite (adică afișate primele cărți care sunt cele mai relevante pentru cererea) descendent. Fiecare document este reprezentat ca un card de catalog imagine, în care roșu subliniat cuvântul de text care corespunde cererii inițiale (fig. 2).

Directorul este abilitatea de a căuta documente similare. Similitudinea căutarea se realizează pe baza unui algoritm original, care constă din următoarele etape logice (care rulează, desigur, în mod automat):

- selectat toate cuvintele din textul documentului original (carte);

- excluse cuvinte non-semnificative (uninformative), în conformitate cu o listă fixă ​​de stop-cuvinte;

- cuvintele sunt clasificate în funcție de ordinea frecvenței de apariție în dicționar general al cuvintelor de bază de date de director de imagine ascendent;

- ca fiind cel mai informativ luat primele zece cuvinte ale unei liste ordonate și pe baza lor este format dintr-o cerere de căutare sau documente similare.

Figura 1 - Vedere generală a cererii clientului, pe baza IRBIS Navigator în imaginea de căutare catalog.

Atunci când un utilizator mare problemă suficient este oferit posibilitatea de a rafina căutarea lor, și anume, efectua specificând căutare printre documentele găsite pe ultima solicitare.

Opțional, utilizatorul final poate fi oferit pe un navigator de căutare tematică. Sub tema navigatorul înțeles sistem de clasificare verbală este de tip ierarhic și interfața cu utilizatorul construit pe baza sa (navigator). Utilizarea de căutare navigator tematic permite, pe de o parte, pentru a simplifica căutarea în cazul unor interogări tematice generale, iar pe de altă parte, - pentru a compensa căutare deficiențele cunoscute folosind lexiconul liber (non-normalizat) ( „zgomot“ și inexacte). -vezi. Fig. 3.

Figura 2 - Rezultate pentru directorul de imagine.

Pentru a crea un sistem de clasificare a propus model structural de construcții. Algoritmul de căutare pe un navigator tematic este că textul interogării este format nu numai pe baza coloanelor selectate de utilizator pentru a ciclonului, dar, de asemenea, cu toate rubricile subordonate și cuvinte cheie asociate (care sunt „invizibile“ pentru utilizator sunt prezente în structura clasificator).

Această caracteristică IRBIS Image Catalog (Tema Navigator) SPSTL în România nu a fost încă folosit.

Interfață la imagine-director (prin -locks Web) Online SPSTL România este prezentată în Fig. 4. -locks Web permite să realizeze aceeași funcție ca și clientul original pe baza IRBIS Navigator.

După cum sa menționat mai sus, caracteristica distinctivă a IRBIS Imagine de catalog este că permite gestionarea integrată a tehnologiei de baze de date de imagine-director în tehnologii de automatizare catalog electronic complet, oferind astfel posibilitatea de a efectua în catalogul de imagine de lucrări, cum ar fi anularea și literatura de specialitate în mișcare , Circulation și colab. Figura 5 prezintă interfața AWP de catalogare (IRBIS64 de compoziție), cu care se pot efectua operațiuni de întreținere a catalogului de imagine în baza de date complet automat atizirovannyh tehnologie catalog electronic, în special - să conducă descrierea structurare a publicațiilor din imagine bazată pe card catalog (dacă este necesar) sau pentru a efectua ajustări la textul recunoscut.

Fig. 3 - Tema navigator

ARM circulație (Fig. 6) vă permite să lucrați cu ordine de electronice, care sunt formate de către directorul final imaginea utilizatorului. cititorilor Comenzile depuse sub formă de imagini de carduri catalog publicații corespunzătoare. Mod special se propune, care permite să descrie instanță Publicarea la scoasă la ieșire în momentul emiterii ( „on the fly“). Pe această bază, este posibil să se efectueze pictura copii ale catalogului de imagine în circulație (în loc de a face acest lucru anterior în întregime AWP de catalogare).

În concluzie, trebuie remarcat faptul că crearea directoarelor de imagine este practic singura modalitate de a conversia retrospectivă a cataloagelor de volume mari (sute de mii de carduri). Retroconversion „Manual“ de intrare de la tastatură - chiar și cu împrumut de tehnologii - este inacceptabilă atât pentru complexitatea, și în termeni de performanță. Singurele „cu rambursare a“ cataloage de imagine sunt costuri financiare semnificative asociate cu crearea lor (deși se poate presupune că costul de intrare „manual“, având în vedere intensitatea lui extremă a muncii, rezultatul va fi comparabil cu costul catalogului de imagine). Trebuie înțeles faptul că cea mai mare parte a costurilor atunci când crearea catalogului de imagine (aproximativ 90%) au loc în soluție singura problemă de producție - scanarea efectivă a cartele index. În acest sens, trebuie spus că SPSTL România, având în instalațiile de producție respective - scanere de înaltă performanță și de personal calificat - preparat pe bază de contract pentru a efectua munca pe katalogoa carte scanate pentru alte biblioteci și cooperare cu Asociația ELNIT - pentru a efectua lucrările privind crearea imaginii cataloage " la cheie. "

Fig. 4 - Accesul la Image Catalog Online SPSTL România

Fig. 5 - Acces la imagini prin intermediul catalogului AWS catalogatorului

Fig. 6 - cu imaginea de catalog prin Circulație RM.