măsură a distanței
Similaritatea sau diferență între etichetarea obiectelor este determinată în funcție de distanța între acestea metrice selectate. Dacă fiecare obiect este descris de proprietăți (atribute), atunci acesta poate fi reprezentat ca un punct în spațiu n-dimensional, și similitudine cu alte obiecte vor fi determinate ca distanță corespunzătoare. Atunci când sunt utilizate clasificări diferite măsuri distantele dintre obiecte.
1. distanța euclidiană
Aceasta este, probabil, măsura cea mai frecvent utilizate de la distanță. Este distanța geometrică în spațiul multidimensional și se calculează după cum urmează:
- - distanța între obiect și;
- - obiect de valoare de proprietate;
- - valoarea obiectului-proprietate.
Natural, din punct de vedere geometric, măsura distanța euclidiană poate fi lipsită de sens, în cazul în care semnele sunt măsurate în unități diferite. Pentru a remedia situația, a recurs la Raționalizarea fiecare caracteristică. Folosirea distanței euclidiene este justificată în următoarele cazuri:
- proprietăți (atribute) ale obiectului sunt omogene în sensul fizic și sunt la fel de importante pentru clasificarea;
- spațiu caracteristică coincide cu spațiul geometric.
2. pătrat distanța euclidiană
Această măsură a distanței este utilizată în acele cazuri în care este necesar pentru a da o mai mare valoare mai îndepărtate de la fiecare alte entități. Această distanță se calculează după cum urmează:
3. Distanța euclidiană ponderată
Acesta este utilizat în cazurile în care fiecare -Properties a reușit să atribuie unele „greutate“, proporțional cu gradul de importanță a caracteristicii în problema de clasificare:
Determinarea greutățile sunt în general asociate cu studii suplimentare, cum ar fi organizarea de anchetă de experți și prelucrarea opiniilor lor.
4. Hamming distanta
De asemenea, numit Manhattan, distanța de oraș-bloc sau geometria taxiului. Această distanță este diferența în coordonatele. In majoritatea cazurilor, această măsură a distanței duce la aceleași rezultate ca și pentru distanța euclidiană convențională. Rețineți, totuși, că această măsură impactul diferențelor mari individuale (emisii) scade (deoarece acestea nu sunt la pătrat). distanța Hamming este calculată conform formulei:
5. Cebîșev distanta
Ia valoarea modulului maximă a diferenței dintre valorile proprietăților relevante (atribute) includ
6. Procentul de dezacord
De exemplu, primul indiciu al obiectului - podea, al doilea - vârsta, a treia - la locul de muncă. Reprezintă valorile proprietăților (caracteristicilor) ale obiectului ca vector al valorilor. Primul vector - (de sex masculin, în vârstă de 20 de ani, profesor), al doilea vector - (de sex masculin, 28 de ani, manager). Procentul de dezacord este 2/3. Acești vectori diferă cu 66,6%.
Alegerea măsurilor distanțelor și scări de clasificare a proprietăților - o etapă foarte importantă, deoarece aceste proceduri variază în compoziția și cantitatea de clase generate, precum și gradul de similitudine a obiectelor din cadrul claselor.