Erori de eșantionare - Teoria Statistica

erori de eșantionare

Între indicii de probă și parametrii căutate (parametrii) din totalul populației, în mod tipic, există unele diferențe, care sunt numite erori de eșantionare. O greșeală comună este caracteristicile selective ale celor două tipuri de erori: erori de eșantionare și erorile de reprezentativitate.

erorile de înregistrare inerente în orice observație statistică și aspectul lor pot fi cauzate de calcule inexacte registratori neatentia, instrumente imperfecte, etc.

erori de reprezentativitate unice pentru observarea selectivă și datorită însăși natura sa, deoarece nu contează cât de atent și nu se realizează în mod corect selectarea unităților și performanța medie relativă a eșantionului va fi întotdeauna într-o oarecare măsură diferite de cele din populația generală.

Distinge între erorile sistematice și aleatoare de reprezentativitate. erori sistematice de reprezentativitate - nu funcționează corect, care apar din cauza nerespectării condițiilor de eșantionare din eșantion, nu a furnizat oportunități egale pentru fiecare unitate a populației eșantionate. marja de eroare aleatoare - aceasta este eroarea care apar din cauza faptului că setul eșantion nu reproduce cu exactitate caracteristicile populației Având în vedere natura discontinuă a studiului (adică, fracția și colab dispersie.).

Respectând principiul selecției aleatorii de mărimea erorii de eșantionare depinde în primul rând de mărimea eșantionului. Cu cât numărul de eșantioane celelalte condiții fiind egale, cea mai mică eroare de eșantionare. Atunci când un număr mare de probe se manifestă în mod clar legea numerelor mari, potrivit cărora: cu probabilitate arbitrar aproape de una, se poate argumenta că, pentru o mărime a eșantionului suficient de mare și dispersia limitată a caracteristicilor de probă (cota medie) va fi în mod arbitrar puțin diferite de cele ale caracteristicilor generale .

eroare Dimensiunile de eșantionare este legată direct de gradul de variație a trăsăturii studiate, iar gradul de variație, așa cum sa menționat mai sus, caracterizat prin aceea dispersie dimensiune statistică (împrăștiere) fi mai reduse dispersia, mai mică eroarea eșantionului, concluziile statistice mai fiabile. Prin urmare, în practică, dispersia este identificată cu eroarea de eșantionare.

Deoarece parametrul populației este valoarea dorită și nu este cunoscută, nu trebuie să fie ghidat într-o eroare specifică și media tuturor eșantioanelor posibile.

În cazul în care populația selectați mai multe seturi de probe, fiecare dintre probele obținute vor da valori diferite eroare particulară.

Valoarea efectivă a / și calculate din toate valorile posibile ale erorilor specifice (;) vor fi:

în cazul în care * și - proba mijloace; x - media generală; )] - numărul de eșantioane mari є1 =

Abaterea standard a eșantionului înseamnă eroarea medie medie generală se numește eșantionare.

Dependența de eroare de eșantionare de dimensiunea și gradul de variație caracteristic este exprimat în formula eroarea medie de eșantionare / u.

Eroarea pătratică medie (dispersie mediu selectiv) este direct proporțională sută varianței și invers proporțională cu numărul eșantionului n:

în cazul în care - variația caracteristică în populație.

Prin urmare, eroarea medie în forma generală dată de:

Astfel, identificând deviația standard a eșantionului, poate fi setat la eroarea medie de eșantionare, valoarea care, după cum rezultă din formula, cu atât mai mare cu cât variația variabilei aleatoare și mai mici, este mai mare dimensiunea eșantionului.

Prin urmare, cu dimensiunea medie a creșterii volumului eșantionului de eroare este redusă. De exemplu, în cazul în care aveți nevoie pentru a reduce eroarea medie de eșantionare de două ori, mărimea eșantionului ar trebui să fie crescută la patru ori, dacă este necesar, pentru a reduce eroarea de eșantionare de trei ori, apoi mărimea eșantionului ar trebui să fie crescută la nouă ori, și așa mai departe. D.

În calculele practice utilizate două formule eroarea medie de eșantionare pentru media și proporție.

formula medie de eroare este în studiul selectiv al mediilor:

Cand au studiat indicii relative (atribute private) cu formula medie de eroare este:

unde r - împart caracteristica în populație.

Aplicând formulele de mai sus, eroarea medie implică faptul că variația și cunoscută proporția generală generală. În realitate, cu toate acestea, aceste cifre nu sunt cunoscute și nu poate fi calculată din cauza lipsei de date cu privire la întreaga populație. Prin urmare, este necesar să se înlocuiască variația populației și cota generală a persoanelor apropiate acestora, valori.

În statistica matematică demonstrează că aceste valori pot fi proba varianța (v) și fracția de eșantionare (w).

Având în vedere formula precedentă eroarea medie poate fi scrisă astfel:

Aceste formule permit să determine o eroare medie atunci când reeșantionare. Aplicații simplu reeșantionare aleatoriu în practică este limitată. În primul rând, nu este practic și uneori imposibil de a re-examinarea acelorași unități. Utilizați în loc de re-eșantionare fără selecție de înlocuire este, de asemenea, dictată de cerința de a crește acuratețea și fiabilitatea eșantionului. Prin urmare, în practică, cele mai des utilizate metode de selecție aleatorie de prelevare a probelor, fără înlocuire. Prin această selecție unitate metoda agregată, selectată în eșantion, selecție suplimentară nu este implicată. Unitățile selectate din populația generală, redusă cu numărul de elemente selectate anterior. Prin urmare, din cauza modificărilor numărului populației după fiecare selecție de selecție și probabilități pentru unitățile care au rămas în formulă se introduce factorul de corecție a erorilor de eșantionare medie

unde N - numărul de populație; n - numărul eșantionului. Pentru valori suficient de mari de N pot fi neglijate în numitorul unității. atunci

Prin urmare, formula pentru erorile medii de eșantionare de eșantionare fără mediu de înlocuire pentru selectarea și proporția au respectiv forma:

Deoarece n este întotdeauna mai mică decât M, factorul suplimentar este întotdeauna mai mică decât unitatea. Prin urmare, valoarea absolută a erorii de eșantionare cu selecție nonrepetitive va fi întotdeauna mai mică decât la repetat.

În cazul în care dimensiunea eșantionului este suficient de mare, atunci valoarea de 1 ^ este aproape de unitate, și, prin urmare, poate fi neglijată. Apoi, eroarea medie de eșantionare fără selecție aleatorie de înlocuire este determinată prin formula de reeșantionare auto aleatoare.

Calculat pentru exemplul nostru, eroarea medie pentru randamentul și proporția locurilor cu un randament de 25 t / ha sau mai mult.

Eroarea medie de eșantionare

a) Randamentul mediu de orz

Randamentul mediu de orz în populația x -T ^ = 25,1 ± 0,12 t / ha, adică în intervalul de la 24,98 la 25,22 kg / ha.

porțiuni raport cu un randament de 25 dt / ha sau mai mult în populația totală p

= T ^ r = 0,80 ± 0,07, adică Este în intervalul de 73-87%.

Eroarea medie a eșantionului prezintă caracteristicile posibile de deviere ale eșantionului din caracteristicile populației. Cu toate acestea, în timpul observării probei cercetatorii de multe ori sarcina nu numai calcularea erorii medii, dar definiția limitei de posibile erori de eșantionare. Cunoscând eroarea medie, puteți defini limitele pentru care valoarea va veni de eroare de eșantionare. Cu toate acestea, afirmația că aceste abateri nu depășesc o valoare prestabilită, nu se poate cu certitudine absolută, ci numai cu un anumit grad de probabilitate. nivel de probabilitate, care este adoptată atunci când se determină în măsura posibilului, care conțin valorile parametrilor populației se numește probabilitatea nivel de încredere.

Nivel de încredere - este destul de mare și astfel încât presupune, practic, să aibă loc în fiecare caz, probabilitatea ca garantează o concluzii statistice fiabile. Noi o notăm cu T și probabilitatea de a depăși acest nivel - a.Itak, a = 1 - nivel RVeroyatnostanazyvayut de semnificație (semnificație), care caracterizează numărul relativ de concluzii eronate în numărul total de constatări și definite ca diferența între unu și un nivel de încredere a ceea ce este acceptat.

Nivelul de încredere stabilește cercetătorul pe baza gradului de responsabilitate și natura problemelor care trebuie rezolvate. Studiile statistice în economie de multe ori acceptat nivel de încredere veroyatnostiG = 0,95; P = 0,99 (respectiv nivel de semnificație a = 0,05, a = 0,01) mai puțin r = 0,999. De exemplu, nivelul de încredere este r = 0.99 înseamnă că estimează eroarea în 99 de cazuri din 100 nu va depăși valoarea stabilită și numai într-un caz din 100 se poate ajunge la valoarea calculată sau să-l depășească.

Eroarea de eșantionare calculată cu un anumit grad de probabilitate de fiabilitate se numește eroare marginală proba Ep.

Luați în considerare modul în care valoarea limită set de posibile erori de eșantionare. Valoarea asociată cu ep și o deviație normalizat, care este definită ca raportul dintre limitarea ep eroarea de eșantionare la eroarea medie și:

Pentru comoditate, aleatoare calcul deviere variabilă de la valoarea medie a acestuia este de obicei exprimat în unități de deviație standard. expresie

numit abaterea standard. Într-o literatură statistică și numit coeficient de încredere, sau o eroare de eșantionare medie multiplicitate coeficient.

Astfel, abaterea medie standard a eșantionului poate fi determinată conform formulei:

Din expresia 1 poate găsi o posibilă limită de eroare de eșantionare

Substituind în importanța sa, vom da formula de limitare a erorii de eșantionare pentru media și proporția de repetiție liberă cu o selecție aleatoare:

În consecință, eroarea maximă de eșantionare depinde de mărimea erorii medii și abaterea normalizate și este un multiplu de media ± erori de eșantionare.

Eroare medie și marginală de eșantionare - valori numite și sunt exprimate în aceleași unități ca medie aritmetică și deviația standard.

Deviația normalizată asociat funcțional cu o probabilitate. Pentru a găsi znacheniyisostavleny mese speciale (Suppl.2), pe care le găsiți valoarea la un nivel de încredere dat și valorile de probabilitate pentru o cunoscută și.

Aici sunt valorile și și probabilitatea corespunzătoare pentru eșantioane cu chislennostyup> 30, care este cel mai des utilizat în calcule practice:

Prin urmare, atunci când u = 1, probabilitatea de deviere a caracteristicilor eșantion din valoarea medie unică generală pentru eroarea de eșantionare este 0,6827. Acest lucru înseamnă că, în medie, la fiecare 1000 de probe pentru a 683 da caracteristici generalizate, care vor fi diferite de caracteristicile generale generalizate nu mai mult decât o singură valoare a erorii medii. Când n = 2 probabilitatea este 0.9545. Acest lucru înseamnă că în fiecare 1000 cu probe de 954 vor generaliza caracteristici care diferă de caracteristicile generale generalizate nu mai mult de două ori eroarea medie de eșantionare, etc.

Cu toate acestea, datorită faptului că, de regulă, se efectuează doar o singură probă, atunci spunem că, de exemplu, cu o probabilitate de 0.9545 este posibil să se asigure că eroarea marginală nu a depășit eroarea de eșantionare medie de două ori.

Matematic, se dovedește că raportul dintre eroarea de eșantionare, la o eroare medie, de obicei, nu depășește ± 3d, la un număr n suficient de mare, în ciuda faptului că eroarea de eșantionare poate dobândi orice valoare. Cu alte cuvinte, se poate spune că o probabilitățile de judecată suficient de mare (P = 0.9973), care limitează eroarea de eșantionare, de obicei, nu depășește trei erori de eșantionare medie. Prin urmare, valoarea Ep = 3d poate fi luată ca limita posibilelor erori de eșantionare.

Noi definim de exemplul nostru, limita de eroare de eșantionare pentru randamentul mediu și proporția de site-uri cu un randament de 25 t / ha sau mai mult. Probabilitatea de nivel de încredere egal pentru a accepta P = 0.9545. Conform tabelului (adj .2) găsesc valori u = 2. Eroarea medie de eșantionare pentru randamentul și proporția de site-uri cu un randament de 25 dt / ha și mai mult au fost găsite anterior și, respectiv, au fost: D

Limitarea erorii de randament mediu de orz:

Deci, diferența dintre randamentul mediu al unui mediu selectiv și general, nu este mai mare de 0,24 kg / ha. Limitele randamentului mediu în populație: x = ± acolo

= 25,1 + 0,24, adică 24.86-25.34 t / ha.

Eroarea limita proporția de site-uri cu un randament de 25 t / ha sau mai mult:

În consecință, eroarea maximă în determinarea proporției regiunilor cu un randament de 25 dt / ha și mai mare de 14%, adică proporția porțiunilor menționate, obținându-se în populația generală variază: r = a> ± ep = 0,80 ± 0,14 , adică 66-94%.