Cum de a găsi Google nestaditizat - pagina

14/10/16 10/14/16 nr 1172

Aflați cât de multe pagini au fost indexate de Google, poate fi prin intermediul Search Console. Dar cum să găsească acele adrese URL. lipsesc din indexul motorului de căutare? Pentru a face față acestei sarcini va ajuta la un script special în Python.

căutare organică cuprinde trei componente principale: scanare, indexare și clasare. Când crawler vine la site-ul dvs., se scanează toate link-urile gasite. Aceste informații sunt apoi transmise la indexul motorului de căutare, după care este determinată de ordinea de afișare în rezultatele căutării.

SEO-experți sunt concentrându-se pe componente ale clasamentului. Dar, în cazul în care motorul de căutare nu a fost în măsură să acceseze cu crawlere și pagini de index de pe site-ul, acesta nu primește trafic de la Google. Asigurarea de scanare corectă și site-ul de indexare - o parte importanta a optimizarea motorului de căutare.

Cum știu cât de multe pagini sunt indexate

Atunci când Google Search Console pentru a accesa disponibile, puteți vedea cât de multe pagini sunt conținute în fișierul XML Sitemap și cât de multe dintre ele au fost indexate. În acest caz, serviciul nu specifică ce fel de URL-ul nu este prins în indexul motorului de căutare.

Cum de a găsi Google nestaditizat - pagina

Pentru a obține aceste informații, este necesar să se verifice manual fiecare adresă URL. Dar această sarcină poate fi automatizat.

Cum de a verifica dacă URL-ul a fost indexat de Google

Pentru a afla dacă o anumită adresă URL a fost indexat de Google, puteți utiliza operatorul de căutare «informații:». De exemplu:

Dacă URL-ul este indexat, rezultatul va fi:

Cum de a găsi Google nestaditizat - pagina

În caz contrar, Google va returna o eroare:

Cum de a găsi Google nestaditizat - pagina

Cum să utilizați Python pentru paginile de testare de stare de indexare în masă

Acum, că știi cum să verificați o adresă URL separată. Dar cum să efectueze controale în masă? Utilizați următorul script în Python.

Pentru a utiliza acest script, computerul trebuie să fie instalat Python 3. De asemenea, trebuie să instalați biblioteca BeautifulSoup. Pentru a face acest lucru, deschideți un prompt de comandă și executați următoarea comandă:

Pip instalați beautifulsoup4

Apoi, aveți posibilitatea să încărcați script-ul la computer. În același director ca și script-ul, creați un fișier text care listează URL-ul. Fiecare adresă URL trebuie să meargă la o linie separată.

Acum, că script-ul este gata pentru a merge, trebuie să instalați și să configurați Tor să-l folosească ca un server proxy gratuit. Pe Windows, descărcați Tor Expert Bundle. Scoateți dosarul din arhiva într-un director local pe PC-ul și începe tor.exe. Fereastra poate fi redusă la minimum.

Cum de a găsi Google nestaditizat - pagina

Apoi, trebuie să instalați Polipo pentru convertirea șosete-proxy http-proxy. Descărcați cea mai recentă versiune de Windows binare (acesta va fi numit «polipo-1.x.x.x-win32.zip») și scoateți dosarul din arhiva.

Deschideți un prompt de comandă și să navigați la folderul Polipo. Executați următoarea comandă:

polipo.exe -c config.txt

Cum de a găsi Google nestaditizat - pagina

Python-script poate fi rulat în această etapă:

Script-ul vă solicită pentru numărul de secunde de așteptare între controale fiecare adresă URL.

Apoi El vă cere să introduceți numele fișierului (fără extensie) pentru a încărca rezultatele în format CSV.

În cele din urmă, el cere numele unui fișier text care conține o listă de URL-uri pentru verificare.

Introduceți aceste informații și executați scriptul.

Rezultatul final va fi prezentat sub forma unui fișier CSV, care este, puteți deschide cu ușurință în Excel.

În tabelul de URL finală indexată va fi setat la TRUE. nestaditizat - FALS.

Cum de a găsi Google nestaditizat - pagina

În cazul în care script-ul nu funcționează, Google, eventual, blocarea Tor. În acest caz, utilizați propriul server proxy prin modificarea următoarea linie de script:

concluzie

Care dintre pagini au fost indexate de Google, este esențial pentru SEO. Tu nu va fi capabil de a obține de trafic de căutare, în cazul în care site-ul dvs. nu este în indexul motorului de căutare.

Din păcate, Google nu furnizează informații despre adresa URL care nu a fost indexat. Dar această problemă este rezolvată. Folosind un script, puteți obține cu ușurință aceste informații descrise mai sus.