Tipurile de limbaj de regăsire a informațiilor

Tipuri și IRL

Cum se setează unitățile lexicale

Controlate - limbi, dintre care vocabularul este definit și controlate prin utilizarea de dicționare și tabele. Acestea includ un sistem de clasificare diferit (CZU, BBK, clasificarea Dewey).

Limba rubrici subiect. Pe baza clasificării ierarhice a construi cataloage sistematice. Pe baza limbii care fac obiectul pozițiilor construi cataloage subiect. Catalog alfabetic - Căutare manuală.

Descriptor IRL, precum și cuvinte cheie limbă - Căutare automată.

Necontrolat - Vocabular nu este definit de dicționar, și se bazează pe alegerea termenilor unui limbaj natural. O astfel de IRL a început să fie utilizat pe scară largă în ultimii ani.

Ordinea de intrare a unităților lexicale [edita | editarea textului wiki]

limbi necoordonate - nu este permis să-și coordoneze unitățile lor lexicale (nu există nici o legătură între ele) sau în procesul de indexare, orice proces de căutare. (Amenajarea sistemului de cărți din colecția bibliotecii, pentru numerele de inventar).

Limbile în care unitățile lexicale legate, coordonate între ele sau în procesul de indexare, sau în timpul utilizării - IRL coordonate.

Predkoordiniruemye - relația dintre unitățile lexicale sunt stabilite înainte de căutare.

Postkoordiniruemye - în cazul în care comunicarea între unitățile lexicale sunt instalate numai în căutare.

43. Tezaur juridic.

Tezaurul juridic - o colecție logico-semantică a cuvintelor cheie și descriptori utilizate ca limbă și utilizarea informațiilor juridice SAPI.

Informații de limbă regăsire. Tezaur juridic.

Una dintre cele mai importante sarcini ale informaticii juridice este un proces legislativ de suport lingvistic. Dreptul nu există în afara limbii.

Articolul 2 din Legea privind informațiile se referă la mijloacele sistemelor informaționale automatizate, și, de asemenea, mijloace lingvistice.

Sistemul mijloacelor lingvistice de asigurare a AIRS este pe primul loc de regăsire a informațiilor limba (IRL).

În general limbajul - acesta este un sistem semn utilizat pentru colectarea, stocarea, prelucrarea și transmiterea informațiilor.

IRL - un limbaj artificial oficial conceput pentru a indexa documentele, cererile de informații și descrierea faptelor în vederea depozitării lor ulterioare și recuperare.

IRL în conformitate cu legislația ar trebui să asigure:

Formalizarea efectivă a normelor și reglementărilor legale

Informații de mare viteză de căutare pe computer

Traducere optimă a textului normativ al limbajului juridic pentru computere disponibile

Minimal „zgomot“, adică pentru a minimiza computerul emitent prea multe informații

Integralitatea de regăsire a informațiilor, și anume, obținerea tuturor informațiilor necesare pentru a rezolva problemele specifice de legiferare

Orice informație care urmează să fie convertite, sunt codificate în mod corespunzător, și anume traduse în limba de caractere speciale sau semnale.

Teoria informației Regăsirea distinge între următoarele tipuri de limbaje de regăsire informații:

Limba de obiect - acest Index alfabetic pentru colecționari și reglementări separate și pe scară largă poziție subiect alfabetic.

Când se utilizează această limbă tema principală a documentului este exprimat de către unul sau mai multe tipuri de cuvinte - titluri. De exemplu, există indicii-subiect în ordine alfabetică în Constituție, la Codul civil.

Limba de clasificare - este o ramuri de calificare ale legislației.

Limba de tip descriptor - are o „forță semantică“, adică mare, capabil să transmită pe deplin sensul reglementărilor exprimă combinația de descriptori (cuvânt-cheie - reunește un grup de cuvinte-cheie), orice concept, un grad ridicat de reflexie a semnificației documentelor prezența cuvintelor cheie.

Descriptor IRL împărțit în:

limbi, care nu diferă în relațiile logice-semantice între concepte

limbi care conțin în compoziția lor relațiile logice-semantice.

(În special), tezaurul juridic - o colecție logică-semantică a cuvintelor cheie și descriptori utilizate ca limbă și utilizarea informațiilor juridice SAPI.

Sarcina - de a organiza și conduce în lexicală înseamnă un sistem utilizat în procesul legislativ.

În informatică tezaur îndeplinește următoarele funcții:

utilizat pentru organizarea de regăsire a informațiilor (informații de regăsire tezaur)

Este folosit ca mijloc de măsurare sensul mesajului (Tezaur utilizator - un set de informații disponibile pentru utilizator)

Acesta acționează ca un mijloc important de regăsire a informațiilor latente

Există diferite tipuri de tezaure:

drept comun (102.000 de cuvinte și fraze). Cine nu se aplică.

Tezaur, specializat pe domeniile de drept. (De exemplu, Eurovoc).

44. Indexarea și informații juridice rubritcirovanie. 45. Metrization și codificare.

Pregătirea de informații juridice pentru prelucrare:

metrization; de codificare; indexare și rubritcirovanie.

Într-un sens larg, metrization înțeles descrierea unei multitudini predeterminate de caracteristici numerice. În funcție de ceea ce este utilizat ca caracteristici metrization sunt două tipuri: a) numărul de; b) măsurarea.

La măsurarea și calcularea, ca mijloc de exprimare folosind numere naturale. unitatea de măsură utilizată în măsurarea.

proprietate de măsură poate fi orice obiecte ale lumii materiale, care au oricare dintre proprietățile care pot fi măsurate sau caracterizate prin date cantitative.

astfel încât procedura de prelucrare pentru a fi înțeleasă de metrization informații juridice ca urmare a care face obiectul acțiunii legale pentru a obține caracteristici cantitative ale anumitor parametri ai obiectului cunoașterii.

Caracteristicile obținute din măsurătorile pot fi exprimate atât în ​​termeni absoluți, cât și relativi.

Coding informații juridice - este o astfel de operațiune, în care anumite date sunt înlocuite cu simboluri abreviate (numere, numere). Operația inversă se numește decodare.

combinație de simboluri numite cod, iar numărul de caractere incluse în codul numit operațiune lungimea codului.

Pentru a codifica informația juridică se utilizează mai multe metode: punct, contur, punct-zonă.

Rubritcirovanie - o procedură de atribuire a unui regulament anumit subiect sau poate solicita indicele corespunzător al titlului, care este fixat pentru fiecare subiect indexul său.

45. Metrization și codificare.

Metrization. Pe larg metrization înțelese prin descrierea unui obiect printr-o multitudine de caracteristici predeterminate numerice. Metrization complement direct, în special, măsurarea este întotdeauna una sau alta cantitate fizică, de obicei menționată ca parametru un obiect al cunoașterii. Acesta este motivul pentru care datele obținute în urma acestei proceduri, numit pe bună dreptate, informații sau parametri de măsurare.

În acest sens, în conformitate cu metrization informații juridice ar trebui înțeleasă astfel încât procedura de prelucrare, care a avut ca rezultat obiectul unor acțiuni legale pentru a obține caracteristicile cantitative ale anumitor parametri ai obiectului cunoașterii.

În funcție de ceea ce este selectat ca o caracteristică și că dorește să-și exprime, există două tipuri de metrization:

- Numărarea. Atunci când numărare ca un mijloc de exprimare a datelor ne interesează folosind numere naturale (de exemplu, indică faptul că în această regiune pentru această perioadă au fost identificate 20 de cazuri de încălcări ale legii în cauzele civile în instanțele de judecată).

- Măsurarea. În măsurătorile ca mijloc de exprimare a datelor obținute, împreună cu numărul natural luate pentru a utiliza acest tip de măsurare corespunzătoare unității de măsură.

Metrization efectuate folosind instrumente [2].

- Codificare. In sensul cel mai larg, se înțeleg operație de codificare pentru a înlocui orice date (de exemplu, text) simboluri abreviate, de obicei, cifre sau simboluri [9, p. 251]. Operația inversă se numește decodare. De obicei, aceste operațiuni sunt utilizate ca un mijloc de a furniza informații care caracterizează caracteristicile individuale ale obiectului testat sau eveniment, într-o formă de secvențial aranjate caractere abstracte alfabet. O combinație de simboluri numite cod, iar numărul unui anumit cuvânt de cod, - lungimea sa. Simbolurile de cod pot avea diferite forme. Cel mai adesea este numere, litere de orice alfabet, precum și diverse tipuri de simboluri si combinarea acestora (puncte și linii, simboluri matematice, și așa mai departe. N.).