corelare biserial

corelare biserial

26.30 Să presupunem acum că avem o masă este dihotomia unor factori calitativi și clasificarea fie o valoare numerică, sau, de asemenea, prin atribute, care pot fi comandate atât și neordonate.

Tabelul 26.7 prezintă tipul materialului în cauză. Se clasifică în 1426 de către criminali, ei erau alcoolici sau nu, și. natura infracțiunii pentru care au fost închiși.

Tabelul 26.7 (a se vedea. Scanare) 1426 criminali clasificate de crima si spre alcoolism.

(Datele Goriyga citate K. Pearson, 1909)

Deși coloanele de masă sunt într-o ordine aleatorie (le avem în ordinea de conectare a criminalității cu inteligență, dar această ordine este destul de relativă), putem, cu toate acestea, pentru a primi o estimare pentru presupunând că subiectul distribuției bidimensional este normal. Într-adevăr, atunci când o astfel de distribuție atât de regresie liniară și, după cum se menționează în 26.21, este invariantă în raport cu permutare secțiuni statistici. Ne întoarcem, prin urmare, la evaluarea

Vom lua în considerare fiecare coloană a tabelului 26.7 ca o secțiune transversală. Etc Să indica numărul de observații în secțiunea transversală, media și varianța în această secțiune; media și varianța valorilor y. Să presupunem că toate măsurătorile se fac pe la valoarea de a fi

punctul dihotomie; fără a pierde din generalitate, ca invariante în ceea ce privește modificările de origine. Apoi, estimează relația de corelare între valoarea este

Dar pentru distribuția normală bidimensională (a se vedea punctul. 16,23)

astfel încât prin înlocuirea în ecuația pentru a obține

Rezolvarea cu privire pentru a găsi evaluare

Această estimare se numește coeficient de biserial datorită asemănării sale cu raportul de corelație. În conformitate cu acordul nostru sub care literele sunt utilizate pentru statistici, valoarea eșantionului a acestui coeficient este notat

Folosind ecuația (26.70) este posibilă, deoarece valorile care îi aparțin, poate fi evaluată prin eșantionare. Din ipoteza sursă bivariată distribuție normală, mărimea, potrivit căreia o dihotomie făcută (în exemplul nostru - alcool) pot fi reprezentate prin anumite exemple de realizare având o distribuție normală și că fiecare secțiune transversală este dihotomie dimensională distribuție normală. Astfel, relația poate fi estimată prin utilizarea tabelelor integrale normale. De exemplu, Tabelul 26.7 frecvențele alcoolicii și nonalcoholics, în coloana „Arderea“ egal cu 50 și 43. Prin urmare, frecvența relativă

este alcoolici și abaterea normală corespunzătoare acestei frecvențe, este, conform tabelului, 0.0944, adică valoarea determinată pentru această secțiune.

Pentru datele din tabelul 26.7 sunt în raport cu frecvența, evaluarea relațiilor și a valorilor:

Acum, (26.70), obținem

care pot fi luate, în conformitate cu ipotezele noastre pentru evaluarea coeficientului de corelație.

26,31 Deoarece tetrachoric coeficient Coeficientul biserial de distribuție a probei este necunoscut. Pearson (1917) a găsit o expresie asimptotică pentru variația ei de probă, dar nu se știe cât de mare trebuie să fie faptul că această expresie poate fi folosită.

Nu te poți aștepta sau poate fi foarte eficient pentru evaluare, deoarece ei folosesc prea puține informații despre variabile. Este demn de amintit, de asemenea, că ipoteza unei surse de distribuție normală bivariată (deși nu a fost întotdeauna făcut, evident) a fost decisiv pentru ambele metode. Fără ipoteza de normalitate nu este cunoscută, în general, această estimare.

26.32 Dacă tabelul de clasificare de grup specifica anumite variante de realizare (în opoziție cu clasificarea dezordonate ca în tabelul 26.7), în schimb, pot fi evaluate în mod direct într-adevăr, suntem acum

mai multe informații sunt disponibile, care vă permite să estimați variația numărului de variante sale și media pentru fiecare dintre părțile din dihotomia în ceea ce privește y. Deoarece regresia lui x la y este liniară, atunci avem (a se vedea. (26.12))

În 26.27, este de a fi găsit

în care numărul total de persoane care poartă o caracteristică în clasă (valori „superioare“ ale numărului de persoane cu o altă caracteristică. Valoarea este un punct de distribuție normală dihotomie a y.

De la (26.71) pe care mediile fiecare parte dihotomie se va afla pe linia de regresie (26.71). Astfel, pentru o dihotomie parte care cuprinde „mai mare“ valoare y (notat au

Prin urmare, ca o estimare a raportului poate lua

unde x valori medii la observații „superioare“ y și din tabel, respectiv, proba varianța x peste masă. Numitorul în (26,73), în conformitate cu (26,72) are forma

Dacă obțineți o estimare a ordonata indică densitatea distribuției normale într-un punct după ce pentru

Estimarea dată de această ecuație, am identificat indicele indicând numele său: numit „coeficientul biserial

Ultima egalitate este de obicei scrisă în formă mai simetrică. deoarece

Notând diferența este egal cu raportul pentru a găsi un alt tip (26.74):

Exemplul 26.13 (Pearson, 1909)

Tabelul 26.8 conține distribuția vârstei candidatului (un total de 6156 de persoane), care au trecut și nu au trecut examenele de admitere la Universitatea din Londra, la două grupe de vârstă mai mari sunt date evaluarea medie de vârstă.

Tabelul 26.8 (a se vedea. Scan)

Folosind indicele 1 pentru candidații de succes, avem

Pentru toți candidații împreună

Ecuația (26.72) oferă și vom găsi în consecință, de la (26.74)

Corelația estimată între vârstă și succes este scăzută.

26,33 Ca și în cazul ipotezei normalității inițiale a fost decisiv în distribuția de ieșire factor biserial este necunoscut, dar Soper (1914) a obținut o expresie pentru eroarea standard în cazul normale

și a arătat că o bună aproximare a (26.76) este

Coeficientul de mai târziu, un studiu detaliat a fost efectuat Maritz (1953) și Tate (1955), care a arătat că asimptotic normală cu media și varianța este distribuită în probele normale (26,76). În plus, ei au considerat estimarea probabilității maxime de date atunci când biserial. Sa dovedit, cum ar fi de așteptat ca pentru valori fixe ale varianței minimă atunci când dihotomie este făcută în mijlocul intervalului dihotomiziruemoy Dacă variabila este eficientă estimarea coeficientul dar dacă randamentul tinde spre zero. Tate tabelate, de asemenea, formula Soper (26,76) pentru a vedea. Exercitii 26.10-26.12.