Ce este herpesul zoster Forum Despre Internet Marketing

Alegeți o astfel subșir pot fi diferite. În primul rând, este posibil să se facă un pas diferit, de exemplu: caracterul, cuvânt, propoziție. În al doilea rând, să decidă modul în care acestea ar trebui să meargă - suprapunere (doar astfel obținut este „zona zoster“), sau cap la cap. În al treilea rând, este necesar să se înțeleagă, ce dimensiune ar trebui să fie subșir: dimensiunea selectată ar trebui să reducă la minimum repetiții accidentale, adică ar trebui să fie suficient de mare. În acest caz, el ar trebui să rămână și să fie suficient de mici încât modificările tipice din text nu sunt distruse de cele mai multe semnături. Cifrele exacte aici, nu-mi aduc, ei nu ar trebui să faceți publicitate din motive evidente. În al patrulea rând, este necesar să se decidă dacă să facă dimensiunea lor fixă. Și, în al cincilea rând, din cauza posibilei podstrochek în text prea mult, trebuie să alegeți - ce să-și amintească și ce să arunce departe.

Dacă vă amintiți checksum pentru o lungime fixă ​​de linii care merg înapoi la spate, apoi se introduce și șterge un caracter (mai ales la începutul textului) îi va distruge pe toți, deoarece acestea nu sunt selectate. Acest lucru este cu siguranta cea mai rea opțiune.

Cu toate acestea, în cazul în care anula lungimea de fixare și să preia subscriptului dintr-un punct caracteristică în text la altul (de exemplu, litera „w“ la litera „w“ sau dvuhbukviya, suma valorilor numerice ale simbolurilor (caractere) care este un multiplu de 50, la următorul de aceeași ), inserția (sau excizia) poate distruge numai șindrila unde a avut loc.

Atunci când în mod evident conștient de faptul că documentul este schimbat, deși puternic, dar într-un număr mic de locații, se aplică cu succes acest tip de semnătură. De exemplu: transferul de același tip de HTML-fișiere, servere proxy, sau sincroniza magazia de cod sursă.

Din păcate, în acest exemplu de realizare, semnătura este prea mult, cu excepția cazului, desigur, nu de a alege anumite puncte, distanțate, în medie, de departe. Dar atunci liniile sunt prea mari, iar algoritmul devine prea instabil pentru mici modificări în text. Pentru o comparație probabilistă a celor două documente vor trebui în continuare să taie eșantion, și pe care mai târziu.

La început, se pare că checksum conta pe toate liniile se suprapun - o idee ciudată. De asemenea, avem nevoie de a reduce cantitatea de date pentru comparații și în această versiune este crește înfricoșător? Cu toate acestea, că este modul în care garantăm că nu ratează nici o subșir a textului (lungime specificată) și, cu condiția ca va fi capabil de a veni cu un mod durabil de a lua zona zoster, suntem capabili de a identifica cu exactitate documentele care fac parte din potrivire.
Prelevarea de probe. Care sunt zona zoster să-și amintească?

Clasic Broder algoritm ofera o selectat sau aceeași sumă pentru valoarea minimă a zonei zoster, zona zoster, sau toate, ale căror sensuri sunt împărțite în unele număr mic (10-30). În primul caz, avem o dimensiune fixă ​​de probă (care uneori este convenabil) și un set de dimensiuni decente de zona zoster, chiar și pentru documente relativ scurte, dar astfel nu va fi judecat de seturi de plăci pe atașarea documentelor unul de altul. În al doilea caz numărul de șindrile proporțional cu dimensiunea documentului, adică este o variabilă, care este incomod, dar este posibil de a recruta șindrile evalua astfel de lucruri interesante ca document atașat într-un altul sau procentul de intersecție a acestora. În cele din urmă, ultimul, cel mai algoritm „la modă“ generează o dimensiune a eșantionului fixă ​​este determinată de un anumit număr (85 pentru documente Web) diferite funcții aleatoare independente, fiecare dintre acestea fiind stocate exact o șindrilă, valoarea minimă a sumei de control. Această abordare combină avantajele celor două precedente.

documente scurte. Ce se poate face?

Ce se poate face cu un document foarte scurt, pentru care șindrilele algoritmul de selecție (de exemplu, a doua) nu poate alege orice potrivită? Sau alege prea puțin? Știu două alternative: una dintre ele: spiralate în textul documentului, care este practic continua început după sfârșitul anului pentru a realiza obtinerea numărul necesar de zona zoster, chiar și în astfel de condiții. A doua abordare, utilizată în Yandex-Mail, este de a utiliza un eșantion, mărimea căreia are o dependență logaritmică de dimensiunea documentului.

Dacă fiecare literă pentru a selecta mai mult de o șindrilă, ne confruntăm cu sarcina de a documentelor de identificare, cu doar câteva șindrile potrivite. Nu contează cât am tăiat numărul de zona zoster, este încă o sumă non-triviale de muncă: o mulțime de date, chiar dacă picătură zona zoster prea rare și prea frecvente; Nu există nici o rulează instantaneu solicita pentru identificarea unui document, etc.

Prin urmare, în practică, de multe ori pe un set de documente herpesul zoster este considerat o altă sumă de control, așa-numitele „supershingl“. Evident, atunci coincidente vor fi luate în considerare numai acele documente cu un complet coincidente seturi de zona zoster. Cu toate acestea, cu selectarea corespunzătoare a algoritmului și parametrii săi, care nu poate fi suficient pentru corespondență detector destul de bune. Sarcina va fi limitată la calcularea un singur număr și găsi într-o bază de date simplă.

Înlocuirea supershingla: semnături lexicale

Nu este necesar să se uite documente foarte similare de control și subscriptului complicat. Destul de bine (cel puțin în sarcinile de căutare pe web) de lucru și lexicală (pe baza cuvintelor) metode. Toate varietate de metode sunt acum împărțite în două grupe: semnături lexicale locale și globale.

__________________
Cu stimă, Jaroslav Derevyagin
„S-au găsit“ agenție de web