Yandex roboți, în special site-uri de indexare

Yandex roboți, în special site-uri de indexare
Yandex este în prezent cel mai popular motor de căutare pe Internet vorbitoare de limba rusă, în cazul în care mai mult de un milion de oameni folosim în fiecare zi. O astfel de popularitate se datorează faptului că Yandex bază de date conține un număr foarte mare de pagini web indexate, care conține informațiile cele mai diverse și, uneori, unic. Cuplat cu algoritmul de căutare conduce la o mare relevanță a documentelor găsite la cererea utilizatorului și, în cele din urmă, pentru satisfacerea nevoilor de informații ale utilizatorului.

Pe 17.07.09 de Yandex au indexat 3,558,614,259 pagini web. Obținerea de informații de la site-uri de pe Internet și trimiterea la baza de date a motorului de căutare - sarcină specială de robot indexator. În mare parte datorită vitezei mari a activității sale până în prezent, Yandex are o astfel de bază de date extinsă de documente care urmează să fie căutate.

Istoric Yandex roboți

Acum, a anunțat oficial 11 Yandex roboți, fiecare dintre care este specializat într-o anumită sarcină.

Yandex roboți

Robot fiecare motor de căutare are numele său propriu. De exemplu, Belle - «StackRambler / 2.0», de la Google -. «Googlebot / 2.1» Yandex în componența sa are un număr de roboți specializați care execută sarcini bine definite. Aici sunt niște roboți Yandex pot fi îndeplinite:

Spre deosebire de primul grup de roboți, aceste lucrări nu iau conținutul paginii, și repara răspuns doar serverului. Prin urmare, ei fac mai multe alte cereri la server. De exemplu, explorarea Dyatel robotului pot fi înregistrate în jurnalele serverului ca un șir de caractere urmează:

După cum se poate observa, folosit Directiva Cap care solicită doar antetele de server. În acest caz, site-ul este disponibil, locul de muncă, așa cum pentru a da un cod de stare 200 OK.

Procesul de indexare document

În cazul în care site-ul se adaugă la prima dată, Yandex va afișa un mesaj:

În cazul în care site-ul a fost deja vizitat de indexatorul robot, apare un mesaj:

După adăugarea unui site nou prin matriță, aceasta vizita imediat robotul Yandex / 1.03.003 (compatibile; Win16; D). Aceasta va determina accesibilitatea site-ului care urmează să fie indexat, și, de asemenea, determină dacă site-ul îndeplinește cerințele Yandex, a căror principal este cerința de resurse de limbă rusă. Prin urmare, ca un exemplu, o situație poate apărea:

Dacă totul este bine, linia poate fi găsită în jurnalele site-ului:

Se poate observa că primul robot a apelat la fișierul robots.txt pentru a determina dacă site-ul este interzisă de indexare. Apoi am apelat la pagina principală.

Posibile obstacole pentru indexarea unui document

Există mai multe motive care împiedică indexarea corectă a site-ului dvs. în Yandex.

  1. Dificultăți tehnice:
      a. Funcționarea incorectă a serverului returnează o eroare 404. b. mare de timp de răspuns server (de exemplu, din cauza sarcinii sale grele. De asemenea, o caracteristică mare de răspuns timp de găzduire gratuită)
  2. Artificială indexare interdicție:
      a. interzice anumite pagini indexate într-un fișier robots.txt b. interzicerea Indexarea folosind meta-tag-uri
  3. Altele:
      a. o dimensiune de pagină foarte mică (Yandex nu creează fișiere index mai puțin de 1 kb) b. resursă nu conține text în limba română

Trebuie remarcat faptul că Yandex indexează nu numai documente html. Pe langa ele disponibile pentru indexare sunt următoarele tipuri de documente: PDF (Adobe Acrobat fișier), DOC (MS Word), RTF (Reach format text). De asemenea, Yandex indexează site-uri cu tehnologie pe bază de Flash. Dar indexurile Rambler numai fișiere, htm, shtml și pagini dinamice și site-uri flash html indexate rău.

  1. Mai întâi trebuie să vă asigurați că pagina a venit la extrădare. Cel mai simplu mod de a utiliza „căutare avansată Yandex“. Intră în câmpul „sunt pe site-ul“ url Nu site-ul, de exemplu, www.seonews.ru și apoi, în caseta de căutare, introduceți cuvântul cu pagina dorită, de exemplu, „master-class“.
  2. Găsiți în pagina cu rezultatele căutării dorite și faceți clic pe link-ul „a găsit expresie.“
  3. Pe lângă partea de sus a documentului, faceți clic pe link-ul „Cache“:
  4. O nouă fereastră se va deschide asa-numitele „Yandex Cache“. Puteți vedea și compara documentul original. Este posibil ca unele cuvinte nu sunt indexate de Yandex.

Neindeksatsiya unele elemente de pagină poate fi cauzată de mai mulți factori:

concluzie

Toți cei care se află pe internet este un proiect serios, este necesar să se înțeleagă principiile de bază ale robotice indexatorii motor de căutare. Știind când robotul vine la un site care indecși care nu sunt indexate, se va evita multe probleme, în primul rând tehnice, deja în etapa de creare a site-ului și apoi - atunci când este însoțit.

Pentru a nu mă întreb de ce, din nou, site-ul a dispărut de la emiterea unei anumite cereri, în primul rând, este necesar să se analizeze ceea ce este în prezent indexarea robotului pe site? Ar putea fi faptul că unele dintre informațiile au devenit disponibile la robot dintr-un motiv sau altul?

Cunoașterea aspectelor de bază ale procesului de indexare a documentului va produce în mod corect înregistrarea resurselor în motorul de căutare și competent să efectueze avans în continuare a acesteia, astfel încât utilizatorii întotdeauna găsi site-ul de pe Internet.