Tehnologia informatiei de regăsire în Internet
Dupa ce a studiat acest subiect, vei învăța și de a repeta:
- Care sunt motoarele de căutare;
- Există patru părți principale ale motoarelor de căutare;
- ce tipuri de regăsire informații există pe internet;
- Reguli de bază pentru interogarea într-un motor de căutare Yandex.
Motoare de cautare
un număr foarte mare de documente, sa pus pe Internet. Pentru a face mai ușor de a găsi informații, crearea unor motoare de căutare speciale.
Motoarele de căutare - acest sistem automat sondaje serverul conectat la rețeaua de arie largă și o stochează în baza de date cu informațiile sale disponibile pe serverul de baze de date. Potrivit unui motoare de cerere de căutare special formulate furnizează informații cu privire la cazul în care pentru a obține datele necesare.
Ca regulă generală, motoarele de căutare format din trei părți: un program de procesare a robotului, și indicele de interogare.
♦ program de procesare a cererii - un program care, în conformitate cu cererea de utilizator „arată“ index pentru prezența informațiilor solicitate, și returnează o referință la documentele găsite. Multe referiri la ieșirea sistemului este distribuit de program în ordinea relevanței descrescătoare în sensul că este din link-urile cele mai relevante pentru cea mai mică cerere.
În prezent, cel mai popular pentru utilizatorii de internet din Romania sunt trei majore de tip motoare de căutare index:
Aceste sisteme iau în considerare caracteristicile gramaticale ale limbii române, astfel încât rezultatele căutării lor în resurse vorbitoare de limba rusă de o calitate mai mare decât cele ale sistemelor occidentale.
Motoarele de căutare diferă în sfera de aplicare a resurselor informaționale:
♦ motoarele de căutare subiecte generale au o bază de date a tuturor domeniilor cunoașterii și diferite indice larg și volumul mare de informații acumulate;
♦ motoare de căutare cu destinație specială parcurge doar site-urile de pe un anumit subiect, cum ar fi muzica sau muzeu.
Principalele caracteristici ale motoarelor de căutare sunt:
♦ numărul de documente în index;
♦ informații de actualizare de frecvență;
♦ spațiu de informații, care include un motor de căutare robot, și o varietate de tipuri de documente pentru care sunt colectate informații;
♦ prelucrarea de cerere a ratei;
♦ criteriu relevanță pentru determinarea (documentul găsit de potrivire interogarea de căutare);
♦ posibilitatea de detaliere și pentru a clarifica cererea.
Căutare după categorie de motoare de căutare
Directoarele de căutare sunt o colecție sistematică (de colectare a) link-uri către alte resurse pe Internet. Link-uri sunt organizate într-o poziție tematică, care este o structură ierarhică, în mișcare pe care o puteți găsi informații relevante.
Aici, ca un exemplu de structură o căutare pe Internet director Yandex. Acesta este un director de uz general, deoarece acesta oferă link-uri către resurse de Internet în aproape toate direcțiile posibile. B acest catalog marcat cu următoarele subiecte:
♦ Afaceri și economie;
♦ Referințe și link-uri;
♦ Societate și politică;
♦ Acasă și Familiei;
♦ Știință și educație;
♦ Activități;
♦ Computere și telecomunicații;
♦ Cultură și Artă.
Fiecare temă include un număr de subsecțiuni, și ei, la rândul lor, conțin rubrici, și așa mai departe. D.
Această metodă de căutare este destul de rapid și eficient. La final sunteți invitați la toate cele 5 meciuri, printre care există link-uri către site-uri cu cântece de rapsozi celebre. Rămâne doar pentru a găsi arhiva site-ul cu versuri Okudzhava și selectați textul dorit.
Căutare după cuvinte cheie
Cele mai multe motoare de căutare au capacitatea de a căuta după cuvinte cheie. Aceasta este una dintre cele mai comune tipuri de căutare. Pentru a căuta un cuvânt cheie trebuie să introduceți într-o cutie specială, un cuvânt sau câteva cuvinte care ar trebui să fie căutate și faceți clic pe butonul de căutare. motor de căutare găsește în documentele sale de baze de date și de afișare care conțin aceste cuvinte. Aceste documente pot fi multe, dar mult nu înseamnă neapărat că în acest caz este bun.
Realizăm mai multe experimente cu oricare dintre motoarele de căutare. Să presupunem că am decis să avem un acvariu, și suntem interesați în orice informații despre acest subiect.
La prima vedere, cel mai simplu - este căutarea pentru „acvariu“. Verificați-l, de exemplu, într-un motor de căutare Yandex. Rezultatul căutării va fi mai mult de 460000 de pagini de 3500 site-uri - un număr foarte mare de link-uri. Și, dacă te uiți atent, ele vor fi printre site-urile care menționează grupul B. Grebenshchikov „Aquarium“, centre comerciale și asociații informale cu același nume, și mai mult, nu au legătură cu pești de acvariu.
Nu este greu de ghicit că o astfel de căutare nu poate satisface chiar utilizatorul umil. Prea mult timp va trebui să-și petreacă pe el pentru a selecta dintre toate documentele propuse sunt cele care ne privesc subiectul dorit, și chiar și cu atât mai mult faptul că familiarizați cu conținutul lor.
Putem concluziona imediat că căutați un cuvânt, de regulă, este inadecvată, pentru că un cuvânt este foarte dificil de a determina o temă, care este dedicat documentului, pagina web sau site-ul web. Excepțiile sunt cuvinte rare și termeni care sunt aproape niciodată utilizate în afara zonei lor subiect.
Să încercăm să rafinați căutarea și introduceți expresia „pești de acvariu“. Rezultatul căutării va fi puțin mai mult de 20 de pagini și compania de aproximativ 650 de site-uri. După cum puteți vedea, numărul de link-uri a scăzut cu mai mult de 20 de ori. Acest rezultat ne convine mai mult, dar încă printre link-urile oferite pot apărea, de exemplu, seturi de suveniruri romanesti de etichete se potrivesc cu imagini de pește, precum și o colecție de economizoare de ecran pentru computer desktop și cataloage cu imagini de pești de acvariu, accesorii acvariu si magazine.
Este evident că noi ar trebui să continue să se miște în direcția rafinați căutarea.
Pentru a face căutarea mai productivă în toate motoarele de căutare au un limbaj special de interogare cu sintaxa. Aceste limbi sunt similare în multe feluri. Exploreaza-le pe toate este dificil, dar fiecare motor de căutare are un sistem de ajutor care vă va permite să învețe o limbă.
Aici sunt zece reguli simple pentru formarea unei interogări într-un motor de căutare Yandex.
1. Cuvintele cheie în cerere trebuie să fie scrise cu litere mici (mici). Acest lucru va asigura că căutare pentru toate cuvintele, nu numai pentru cele care încep cu o literă de capital.
2. Căutarea de calcul a tuturor formelor de cuvinte în conformitate cu regulile limbii române, indiferent de forma cuvintele din interogare. De exemplu, în cazul în care cererea a fost dată cuvântul „știu“, care va satisface condiția de căutare, iar cuvântul „știu“, „știu“ și așa mai departe. N.
3. Pentru a căuta o frază durabilă ar trebui să fie pus cuvinte în ghilimele, cum ar fi „China“.
5. Pentru a găsi într-o singură propoziție cuvintele din spatiul social interogare sau „Aventura roman“ sau „priklyuchencheskiyroman“. Mai multe tastat în cuvinte de interogare separate prin spații, înseamnă că acestea ar trebui să fie incluse în propunerea documentului dorit.
6. Dacă doriți să fi selectat numai acele documente, intrunite pentru fiecare cuvânt în interogare, pus în fața fiecăreia dintre ele semnul plus „+“. Dacă, dimpotrivă, doresc să excludă unele cuvinte din rezultatele căutării, preceda minus cuvântul „-“. Semnul „+“ și „-“ trebuie să fie scris prin decalajul față de cel precedent și împreună cu cuvântul următor. De exemplu, căutarea documentelor „Volga -CAR“ vor fi găsite care conțin cuvântul „Volga“ și nu există nici un cuvânt „mașină“.
7. Atunci când căutați sinonime sau legate în sensul cuvintelor între cuvintele pot fi puse linie verticală «|». De exemplu, căutarea „copil | copii | copil „va fi găsit documente cu oricare dintre aceste cuvinte.
8. În loc de un singur cuvânt într-o interogare, puteți înlocui întreaga expresie. În acest scop, este necesar să se ia în paranteze, cum ar fi „(copil | copii | copii | pentru copii) +. (Îngrijire | educație)“
„(Tildă) vă permite să găsiți documente cu propunerea care conține primul cuvânt, dar nu include un al doilea. De exemplu, la cerere „cărți
magazin „toate documentele care conțin cuvântul“ carte „va fi găsit, lângă care (în teză) nu este cuvântul“ magazin“.
10. În cazul în care operatorul se repetă o dată (de exemplu, sau
), Căutarea se efectuează într-o propoziție. Operatorul dual (-) definește o căutare în cadrul documentului. De exemplu, căutarea „Rac - Astrologie“ va fi găsit documente cu cuvântul „cancer“ nu este legat de astrologie.
Cu un anumit set de termenii cei mai frecvent utilizate în zona din dreapta, puteți utiliza căutare avansată. Fig. 3.3 prezinta caseta de căutare avansată pe un motor de căutare Yandex. În acest mod, caracteristicile lingvistice de interogare sunt implementate într-o formă. Un astfel de serviciu, inclusiv filtre lexicale, oferite de aproape toate motoarele de căutare.
Fig. 3.3. Exemplu de sistem de căutare avansată Yandex
Cu selectarea adecvată a cuvintelor dorite și obligatorii și să excludă termeni nedorite, o astfel de căutare poate da rezultate bune.
Revenind la exemplul de pește de acvariu. Dupa ce a citit un motor de căutare sugerat câteva de documente este clar că căutarea de informații pe Internet nu ar trebui să înceapă cu selecția de pește de acvariu. Acvariul - un sistem biologic complex, stabilirea și menținerea care necesită cunoștințe de specialitate, timp și investiții serioase.
Pe baza informațiilor persoanei care a primit, generând o căutare pe Internet, se poate schimba dramatic strategia de căutare în continuare prin decizia de a studia literatura tehnică referitoare la acest subiect de test.
Pentru documentele de căutare literatura de specialitate sau full-text disponibil următoarea interogare:
După procesare de o interogare motor de căutare a produs rezultat: Pagina - 195 site-uri - nu mai puțin de 43.
După cum se poate observa din statisticile de căutare, rezultatul a fost foarte mare succes. Deja primele linkuri duce la documentele necesare:
Acum este posibil să se rezume rezultatele, pentru a trage anumite concluzii și de a decide cu privire la acțiunile posibile:
căutare profesională
Pentru cercetători și specialiști au abordare mai atent la organizațiile de cercetare. Atunci când un profesionist caută informații pe internet trebuie să respecte următoarele cerințe:
♦ de mare viteză de căutare;
♦ fiabilitatea informațiilor primite;
♦ completitudinea de acoperire atunci când caută resurse.
Viteză. Viteza de căutare depinde în principal de doi factori: căutarea de planificare competentă (alegerea serviciilor de căutare și instrumente) și abilități în lucrul cu resursa preselectată (abilitatea de a înțelege rapid structura și metodele de navigare sale). Pentru a asigura indicii de căutare viteza de căutare nu este suficient. În plus față de ei pe Internet, există o serie de resurse de căutare, a căror utilizare asigură căutarea profesională.
Autenticitatea. Problema fiabilității informațiilor obținute de pe Internet, este foarte relevant, deoarece oricine poate posta acolo orice informații, fără nici un control al conformității realității. Aceasta, la rândul său, duce la un număr mare de surse de încredere, care sunt, de exemplu, eseuri și referatelor inundate Internet.
Există servicii de căutare speciale, pentru a evalua fiabilitatea sursei de informații pe internet.
Integralității. O condiție necesară pentru succes colectarea pe scară largă a informației este o cunoștințe de bază a tipurilor existente în prezent de resurse și utilizarea diferitelor servicii de căutare. Nici un motor de căutare nu poate acoperi toate resursele de pe Internet.
Ca regulă generală, în scopul de a obține un rezultat pozitiv, utilizatorul trebuie să folosească serviciile mai multor motoare de căutare. Poti sa o faci singur, mergând de la un sistem la altul, și poate fi încredințată cu opera unuia dintre sistemele metasearch (meta - prima componentă a cuvintelor compuse care desemnează sistemul pentru descrierea și studiul altor sisteme).
Fig. 3.4. Sisteme de metasearch pentru Windows
Motoarele metacăutare nu au propriile lor baze de date și motoarele de căutare atunci când caută resurse folosind o varietate de alte motoare de căutare. Ca urmare, probabilitatea de a găsi informații corecte este foarte mare. Locuri de munca metapois- sisteme postglaciare efectuate de aceleași reguli care lucrează în motoarele de căutare. Acest lucru se datorează faptului că motoarele metasearch sunt un fel de suprastructură la motoarele de căutare și să le utilizeze în baza lor de date indicele de lucru. Metacăutare aspectul sisteme seamănă cu apariția motoarelor de căutare bine-cunoscute. Fig. 3.4 este un myweb.ru sisteme de ferestre metasearch și metabot.ru.
Experiența a arătat că, în cele mai multe cazuri, cel mai bun rezultat este atins prin utilizarea mai multor indici de căutare independente decât atunci când se utilizează un sistem metacăutare.
întrebări de control și sarcini
1. Care este programul browser-scop?
2. Ce browsere programe știi?
4. Care este tehnologia de căutare de către motorul de căutare categorii?
5. Care este tehnologia de căutare de cuvinte cheie?
6. Care sunt cerințele care trebuie respectate într-un profesionist caută informații pe Internet?
7. Atunci când trebuie să fie stabilite criteriile de căutare la „+“ sau „-“?
8. Care sunt criteriile de căutare Yandex specificate de fraza următoare:
9. Care este semnul de dublare (∼∼ sau ++) în formarea unei interogări complexe?
10. Care este relevanța căutare?
11. Care este motoarele de metasearch scop?