site-ul de management de indexare prin intermediul, pentru promovarea unui site într-un limbaj simplu
Probabil ca majoritatea dintre voi a citit articolul meu oamenii știu deja despre existența acestui, în general dosar, nepretențioasă. Faptul că el a fost modest și simplu poate specifica destul de corect, motorul de căutare, care sunt toate la fel pentru a indexa site-ul dvs., și ceea ce ar trebui să fie lăsat „în umbră“.
Paradoxul tuturor este că aceasta este o anumită sintaxă simplă fișier robots.txt ascunde o mare problemă în cazul în care nu este îmblânzi, t. E. Nu învăța să se pregătească în mod corespunzător. Pentru că orice greșeală te poate costa foarte mult. În acest articol vă voi spune cum să folosească un astfel de fișier cu mintea și pentru a evita eventualele probleme.
Mai târziu, acest standard a început în orice mod posibil de a modifica o varietate de companii de căutare care introduc o nouă funcționalitate la standardul stabilit anterior.
adăugat recent capacitatea de a utiliza un alt domeniu.
Ce este robots.txt?
Robots.txt - este special conceput pentru fișier text în rădăcina site-ului, care conține directiva, după care un motor de căutare poate înțelege strategia de indexare a informațiilor de pe site.
Structura unui robots.txt:
Fișierul conține câmpuri. Structura câmpurilor este după cum urmează: în primul rând există informații cu privire la care motorul de căutare ar trebui să urmeze instrucțiunile din directiva următor vine câmpul Disallow (șirul conține User-Agent de căutare bot, sau * ca o recomandare pentru toate motoarele de căutare.). care indică numele obiectului pe care doriți să le ascundeți din index.
Cele mai bune practici între instrucțiunile pentru un motor de căutare este recunoscută din secțiunea de recomandări pentru alte motoare de căutare printr-o linie goală, iar secțiunea, la rândul său, format cimpul User-Agent. Într-o secțiune pot fi mai multe domenii User-Agent, începând cu o nouă linie.
linie fișier robots.txt sunt sensibile la litere (primer.html și Primer.html - diferite fișiere).
Trebuie remarcat faptul curios că fișierul robots.txt este creat și este creat cu scopul principal - interzicerea indexare. în consecință, toate câmpurile din prescris, indică în mod clar interdicția de indexare a site-ului. Cu toate acestea, motoarele de căutare sunt introduse treptat în câmpul Acceptare, care ar trebui să fie întotdeauna utilizate pentru a Disallow directivă. dar atâta timp cât aceasta nu a recunoscut în mod oficial, deși este folosit de unele motoare de căutare (de exemplu, „prin Yandex“, Google și Bing).
Unele motoare de căutare folosesc de proprietate „informații“ directivă. În Bing Live și „Yandex“ prin robots.txt implementat valori de setare de indexare viteză ale documentului. Iată cum:
User-agent: msnbot
De crawl-întârziere: în care n - cantitatea de întârziere în secunde înainte de indexare pagina următoare.
User-agent: Yandex
De crawl-întârziere: în care n - cantitatea de întârziere în secunde înainte de indexare pagina următoare.
Un exemplu de unul dintre fișier robots.txt compus:
User-agent: *
Disallow: / User-agent: Googlebot
Disallow: / text /
Este important de știut:
1) fișier robots.txt ar trebui să fie numai în directorul rădăcină al unui site, numai atunci va fi luată în considerare de către motoarele de căutare.
2) Apelați fișierul trebuie să robots.txt. Robots.txt este deja o greșeală.
3) Pe fiecare rând trebuie să fie câmp Disallow. care interzice indexarea un singur obiect. Dacă doriți să împiedicați mai multe directoare sau fișiere, atunci acest domeniu a scrie Interdicție pe fiecare linie nouă. Înregistrarea trebuie să fie de cel puțin Interdicție de același sex. De asemenea, nu uitați despre câmpul User-Agent - nu trebuie lăsat necompletat (sau * sau numele robotului). Dacă utilizați directiva permite, atunci ar trebui să fie întotdeauna utilizate pentru Disallow.
4) Notă combinația simplă:
7) În cazul în care instrucțiunile sunt date pentru un număr de motoare de căutare, câmpul User-Agent
Vi se administrează prin intermediul liniei de transfer (tasta Enter).
User-Agent: msnbot
User-Agent: Slurp
Disallow: / admin /
Erori în fișierul robots.txt:
1) ordine greșită a câmpurilor: