legea lui Zipf

legea lui Zipf

Legea lui Zipf: Program pentru cuvintele frecvente ale articolelor VI rusești cu clasele 3-170

Legea lui Zipf ( „Rank-frecvență“) - o lege empirică de distribuție a frecvenței cuvintelor limbaj natural. în cazul în care toate cuvintele limbii (sau pur și simplu textul lung) ordine descrescătoare după frecvența de utilizare, frecvența n cuvânt-lea în această listă va fi de aproximativ invers proporțională cu numărul ordinal n (așa-numita rangul al cuvântului, a se vedea. ordinea scalei). De exemplu, al doilea cel mai folosit cuvânt apare aproximativ de două ori la fel de des ca și primul, al treilea - de trei ori mai mică decât prima, și așa mai departe.

legea lui Zipf descris matematic printr-o distribuție Pareto. Este una dintre legile de bază utilizate în infometrii.

Dzhordzh Tsipf în 1949 a arătat în primul rând distribuția veniturilor persoanelor în funcție de mărimea lor: cel mai bogat om are de două ori mai mulți bani decât următorul om bogat, și așa mai departe. Această afirmație sa dovedit valabil pentru mai multe țări (Anglia, Franța, Danemarca, Olanda, Finlanda, Germania, Statele Unite) în perioada 1926-1936. [2]

Această lege este, de asemenea, lucrează la sistemul de distribuție urbane: orașul cu cea mai mare populație din orice țară din cele două ori mai mare decât următorul oraș mare, și așa mai departe [2]. Dacă vom aranja toate orașele unei țări în lista în ordinea descrescătoare a populației, atunci fiecare oraș poate fi atribuită la un anumit rang, adică, numărul pe care el devine pe listă. În același timp și populație rang subordonat la modele simple, exprimate prin formula [4]:

unde P n> - populația orașului a n-lea rang; P 1> - populația din principalele orașe ale țării (locul 1).

Studiile empirice confirmă această afirmație [5] [6] [7] [8] [9].

Conform constatărilor cercetătorilor în legătură cu așezarea urbană din România. în conformitate cu legea lui Zipf [11]:

  • majoritatea orașelor din România se află peste curba ideală Zipf, așa că se așteaptă ca tendința - a continuat reducerea numărului și a mărimii populației medii și mici orașe din cauza migrației către marile orașe;
  • respectiv 7 megacities (București, Novosibirsk, Ekaterinburg, Nizhny Novgorod, Kazan, Chelyabinsk, Omsk), situate sub curba ideala Zipf, au o rezervă de creștere semnificativă a populației și creșterea populației de așteptat;
  • există riscuri de depopulare primul oraș în rangul (Moscova), ca al doilea oraș (București) și următoarele orașe mari sunt mult în urmă de curba ideală Zipf din cauza scaderii cererii de forță de muncă cu o creștere simultană a costului de trai, inclusiv, mai presus de toate, costul de cumpărare și de închiriere de locuințe.

În termeni generali, dovada acestei teorii este după cum urmează. Probabilitatea de apariție aleatorie a unui cuvânt de lungime n într-un șir de caractere aleatoare descrește pe măsură ce n crește în aceeași proporție ca și în creștere la același rang al cuvântului din lista de frecvență (scală ordinală). Deoarece produsul de cuvinte de rangul pe frecvența lui este constantă.