Cum de a construi un arbore de decizie

Să presupunem că avem un T set de formare, care conține obiecte (ca exemple), fiecare dintre acestea fiind caracterizate m atribute (atribute), dintre care una indică un obiect aparținând unei clase.

Ideea de a construi o multitudine de arbori de decizie T, exprimat în primul rând Hunt, R. prezent pe Kuinlenu (R. Quinlan).

Să prin 1. C2. Ck> denota clasa (etichete cu valoare de clasă), atunci există 3 situații:

set T cuprinde una sau mai multe exemple care aparțin aceleiași Ck de clasă. Apoi, arborele de decizie pentru T - o listă care definește clasa Ck;

o pluralitate de T nu conține un singur exemplu, că vidă. Atunci este din nou foaie, iar clasa asociată cu o foaie este selectată dintr-un alt set de excelent pe T, de exemplu, din setul asociat cu părintele;

set T conține exemple din diferite clase. În acest caz, rupe setul T la unele subset. În acest scop este selectat unul dintre atributele care au două sau mai multe valori distincte O1. O2. Pe. T este împărțit în subseturi T1. T2. Tn. Ti unde fiecare subset conține toate exemplele care au o valoare Oi pentru caracteristica selectată. Această procedură este recursiv continuă atâta timp cât un set finit va consta din exemplele referitoare la aceeași clasă.

Procedura de mai sus constituie baza multor algoritmi moderne pentru construirea arborilor de decizie, această metodă cunoscută încă numită de separare și de captare (divide și cucerește). Este evident că, prin utilizarea acestei metode, construirea unui arbore de decizie merge de sus în jos.

Din moment ce toate obiectele au fost pre-alocate claselor cunoscute la noi, procesul de construire a unui arbore de decizie este numit de învățare cu profesorul (de învățare supravegheat). Procesul de învățare este, de asemenea, numit de învățare inductivă sau arbore de inducție (inducție copac).

Astăzi, există un număr semnificativ de algoritmi care să pună în aplicare arborii de decizie CART, C4.5, NewId, ITrule, CHAID, CN2, etc. Dar cele mai populare pe scară largă și a primit următoarele două:

CUMPARATURI (Clasificare și de regresie copac) - un algoritm pentru construirea unui arbore de decizie binar - model de clasificare dihotomică. Fiecare nod al arborelui în diviziunea are doar doi copii. Ca numele algoritmului rezolvă problemele de clasificare și de regresie.

C4.5 - un algoritm pentru a construi un arbore de decizie, numărul de descendenți ai nodului nu este limitat. Nu este capabil de a lucra cu un domeniu țintă continuă, prin urmare, rezolvă doar problema clasificării.

Cele mai multe dintre algoritmii cunoscuți sunt „algoritm greedy“. În cazul în care un timp a fost selectat atribut și distribuiri în subseturi au fost făcute pe ea, algoritmul nu poate merge înapoi și selectați un alt atribut, care ar da cea mai bună separare. Și astfel în etapa dacă atributul selectat nu va fi spus, în cele din urmă, partiția optimă.

Etapele de arbori de decizie

Atunci când construirea unui arbore de decizie se concentrează pe următoarele aspecte: criterii de selecție de atribute pe care se vor separa, opri formarea și ramurile cut-off. Luați în considerare aceste întrebări în ordine.