de preluare a documentului

de preluare a documentului

- Wikipedia, enciclopedia liberă
extragerea de informații (regăsire Eng informații.) - procesul de căutare de informații documentare nestructurate și știința de ea.

Informații de căutare ca un proces

Căutarea de informații este procesul de identificare într-un set de documente (texte) a tuturor celor care sunt dedicate temei specificate (subiect), să îndeplinească o condiție de căutare prestabilită (interogare) sau conțin necesar (corespunzător nevoilor de informare a) faptelor. date și informații.

Procesul de căutare include o serie de operațiuni care vizează colectarea, prelucrarea și furnizarea informațiilor necesare pentru părțile interesate.

În general, căutarea de informații este împărțit în patru etape:

  • definiție (specificație) a necesităților de informare și formularea unei cereri de informații;
  • set de definiții posibile matrici de date deținători (surse);
  • extragerea informației din seturile de date identificate;
  • familiarizarea cu informațiile și evaluarea rezultatelor căutării.

Căutare text întreg - căutare întregul conținut al documentului. Exemplu de căutare full-text - orice motor de căutare pe Internet, cum ar fi www.yandex.ru. www.google.com. De obicei, căutarea full-text pentru a accelera căutările folosind indicii de pre-construite. Cea mai comună tehnologie pentru indecși de căutare full-text sunt inversate indecși.

Documentele procesului de căutare din motive pur formale specificate în cerere.
Pentru punerea în aplicare a următoarelor condiții sunt necesare:

Documentele procesului de căutare prin conținutul lor.
Termeni și condiții:

  • Traducerea conținutului documentelor și interogări de regăsire a informațiilor cu limbaj natural și elaborarea unei interogări de căutare și imaginile documentului.
  • Elaborarea descrierii de căutare care specifică starea de căutare suplimentară.

Procesul de căutare în sistemul de regăsire de informații de stocare a documentelor primare și a documentelor secundare în baza de date datele corespunzătoare la cererea utilizatorului.

Două tipuri de căutare documentare:

  1. Biblioteca are drept scop găsirea unei documente primare.
  2. Bibliografică are drept scop găsirea de informații cu privire la documentele prezentate sub formă de înregistrări bibliografice.

Procesul de constatare a faptelor care corespund unei cereri de informații.
Prin date factographical include informații extrase din documente, primare și secundare și obținute direct de la sursa de origine a acestora.

Există două tipuri:

  1. Documentar și de fapt, este de a căuta documente de fragmente de text care conțin faptele.
  2. Fapt (descrierea faptelor), care implică crearea de noi descrieri faptice în procesul de căutare prin prelucrarea logică a informațiilor de fapt găsite.

extragerea de informații ca știință

căutare de informații - procesul de identificare a unui șir de înregistrări de informații care îndeplinesc o condiție predeterminată de căutare sau cerere.

Există o anumită confuzie în legătură cu conceptele de regăsire a datelor, căutarea documentelor, regăsire de informații și de căutare de text. Cu toate acestea, fiecare dintre aceste zone are propriile metode de cercetare, experiența practică și literatura.

Cererea și obiectul cerere

Vorbind de sisteme IP folosesc interogarea termeni și obiect de interogare.

Anchetă - este un mod formal de exprimare a nevoilor de informații ale utilizatorului sistemului. Pentru a exprima nevoile de informare ale limbii folosite de interogări de căutare. sintaxa variază de la un sistem la altul. În plus, un limbaj special de interogare. motoarele de căutare moderne vă permit să introduceți o cerere în limbaj natural.

Obiectul de solicitare - o entitate de informații care sunt stocate în sistemul de căutare automată. În ciuda faptului că cele mai frecvente cerere obiect este un document text. nu există limitări fundamentale. În special, puteți căuta imagini, muzică și alte informații multimedia. Procesul de introducere a obiectelor de căutare în IPA numit indexare. Nu este întotdeauna IRS păstrează o copie exactă a obiectului, substitut de multe ori în schimb este stocat.

sarcini de recuperare a informației

Sarcina IP central - pentru a ajuta utilizatorul pentru a satisface nevoile lor de informare. Deci, cum să descrie nevoile de informare ale utilizatorului este dificil punct de vedere tehnic, acestea sunt formulate ca o anumită interogare este un set de cuvinte cheie care descriu ceea ce utilizatorul caută.

Sarcina IP clasică, care a început să se dezvolte acest domeniu - o căutare pentru documente care satisfac cererea, într-o colecție de documente statice. Dar lista de sarcini IP în continuă expansiune și acum include:

Există mai multe modalități de a evalua cât de bine documentele găsite de IRS, vi se solicită. Din păcate, conceptul de gradul de conformitate cu cererea, sau cu alte cuvinte relevante. Este un termen subiectiv și un grad de conformare depinde de individ, evaluarea rezultatelor interogării.

Este definită ca raportul dintre numărul de documente relevante găsite de IRS, numărul total de documente găsite:

,

în cazul în care Drel - un set de documente relevante în baza de date, și Dretr - un set de documente, găsit de către sistem. Conform rezultatelor studiilor de evaluare a relevanței principalilor indicatori ai motoarelor de căutare românești și străine.

Raportul dintre numărul de documente relevante găsite, numărul total de documente relevante în baza de date:

,

în cazul în care Drel - un set de documente relevante în baza de date, și Dretr - un set de documente, găsit de către sistem.

Pierderea caracterizează probabilitatea de a găsi un non-resurse relevante și este definit ca raportul dintre numărul de documente găsite irelevante pentru numărul total de documente irelevante în baza de date:

,

în cazul în care Dnrel - acest set nu este documente relevante în baza de date, și Dretr - un set de documente, găsite de sistem.

F-măsură (F-măsură, Van Rizbergena măsură)

Uneori este util să se combine acuratețea și caracterul complet într-o valoare medie. În acest scop, media aritmetică nu este potrivit ca, de exemplu, o întoarcere motor de căutare este suficientă, în general, toate documentele pentru a asigura caracterul complet egal cu unul la aproape de zero, exact, iar media aritmetică a acurateței și completitudinii nu este mai mică de 1/2. Media armonică nu are acest dezavantaj, pentru că diferența mare în medie valori apropiate de minimul lor.

Prin urmare, o măsură bună pentru evaluarea comună a acuratețea și caracterul complet este un F-măsură. care este definită ca ponderată armonică medie acuratețe și completitudine P R:

De obicei, F -măsură scris ca

Când α = 1/2 sau β = 1 F-măsură dă greutate egală cu precizia și caracterul complet numit -măsură echilibrate sau F1 (luate pentru a indica p valoare în subscriptului), expresia simplifică

Folosind un echilibru F-măsură nu este necesară: la 0 <β <1 предпочтение отдаётся точности, а при β> 1 greutate mare capătă plenitudine.