Unde pot găsi o listă de nedescoperite (!) Proxy

Esența este simplu. Există deja un set de link-uri și informații cu privire la ele este același tip. Unul dintre proprietarii surselor de venit - sunt agenți, și cum vreau să fiu. Ie Vreau să adune informații, să emită o serie de măsuri care nu includ proprietarii și să le prezinte într-o formă interesantă mine. Link-uri de la resursa mea la resursa țintă vine cu codul de afiliat. Cred că totul este clar, că dacă voi fi bine, atunci proprietarii de resurse țintă va fi un pic mai bine.

Best-proxies.ru plătit săptămână și până când se transformă cu succes ocazional. Se pare chiar mai frecvent, dacă excludem chinezii. Nu știu de ce este, dar probabil caracteristicile Internetului. Ei bine, apoi a obține o listă de proxy-uri pentru fiecare dintre proxy trimite o singură solicitare, apoi cere o listă de proxy-uri din nou și din nou, pentru o singură interogare pe un proxy. Încet, deși, doar 1 interogare timp de 12 secunde în medie, și 1 ori de 8 interogări eșuează, dar cel puțin o anumită mișcare.

> Și ce împiedică să facă doar 500 de cereri, fiecare în propriul său proxy?

--
> Verificare performanță JS poate fi eludate. Executat sau nu, a verifica afară nu este posibil, puteți controla doar rezultatul muncii sale.
> Un browser real, pentru parsarea nu este folosit, de obicei este un script, cum ar fi Python, ceea ce face să pară că el a fost browser-ul Firefox.
> Ele sunt mai ușor de gestionat, iar resursele el mănâncă nu este un exemplu mai puțin. În Derivatoare normale, chiar nu este nevoie pentru a rula o mulțime de script-uri, deoarece parserul este capabil de a lucra în mai multe fire.

Artem. N-am scris un interpretor, așa că trebuie să mă lovi.

site-ul Trust foloseste Incapsula, nu doar ocoli. Există un site, care este, de asemenea, Analizează la fel ca mine, dar el nu folosește browser-ul pentru a analiza. Și el este în mod constant confruntat cu problemele pe care le dă incapsula el. Prin urmare, sa decis să utilizeze un browser pentru a elimina cumva unele dintre problemele. Captcha Desigur, nu contează, pentru că există deathbycaptcha.

Python? Nu știam că pe el ceva de făcut :) În timp ce încearcă să facă un rubin, folosind Nokogiri și Watir.

verificare a performanțelor JS pot fi ocolite. Executat sau nu, a verifica afară nu este posibil, puteți controla doar rezultatul muncii sale.
Un browser real, pentru parsarea nu este utilizat, acesta este de obicei un script, cum ar fi Python, ceea ce face să pară că el a fost browser-ul Firefox.
Ele sunt mai ușor de gestionat, iar resursele el mănâncă nu este un exemplu mai puțin. În Derivatoare normale, chiar nu este nevoie pentru a rula o mulțime de script-uri, deoarece parserul este capabil de a lucra în mai multe fire.

Am înțeles Incapsula este o încrucișare între un CDN cu antivirus. Nu-mi pot imagina ce probleme ar putea crea pentru parsare. Ei bine, alegerea limbii - cazul În al treilea rând, se poate face orice. Python este că eu știu mai mult sau mai puțin, și el are o bibliotecă confortabilă pentru parsare.

Nokogiri Watir și acest lucru nu este subiect. Acestea sunt concepute pentru a analiza documente.
Adică, este necesar pentru a obține prima pagină, folosind apoi această pagină pentru aceste biblioteci.
Ei fac doar jumătate din locuri de muncă, și nu cel mai dificil.
Ai nevoie de o bibliotecă, care în primul rând se poate pretinde că browser-ul.
Adică, trimite, primi răspunsuri, pentru a lucra cu cookie proxy, rețea și să se angajeze în alte activități.

De obicei, totul este simplu - du-te la site-ul corect în browser-ul, face investigațiile necesare, și uite ce trimite browser-ul, și apoi se repetă scenariul de proces.

Deși, desigur, sunt de acord cu tine. Acum, ceea ce fac ca și cum ar sta pe un flotor camera de cauciuc pe apă, linguri cu vâsle. Plyvosh cum ar fi, dar în fund. Și este necesar să se construiască o barcă, taie copacul, și așa mai departe. Acest lucru este de înțeles.

Un alt lucru este că până în prezent este, probabil, abordarea ta, deși este dreptul, dar nu și dreptul. I se bazează pe faptul că pentru a face un produs și apoi va fi în măsură să prezinte proprietarului de resurse. Dacă el este mulțumit, atunci pur și simplu va face ca lista albă, și apoi păcăli cu Derivatoare nu neapărat. Ondularea mai departe =)