Avgjørelse trær er gjenstand for intens akademiske studier innen områdene drift forskning og informatikk . Selv om ikke nødvendigvis den beste måten å strukturere informasjon nødvendig for å nå en konklusjon, beslutning trær fungerer godt med vanlige datamaskinalgoritmer for beslutningsstøtte. I tillegg gir de en metode for å uttrykke forretningsregler på en måte som personer uten tidligere erfaring med beslutningstrær er i stand til å følge. En beslutningstre er likt som et flytskjema , som tillater navigasjon gjennom en bane av valg inntil en endelig konklusjon er nådd. Du trenger
datasett for " læring" de trestruktur
datasett for å teste resulterer treet
Vis flere instruksjoner
en
Innhent datasettene som vil bli brukt for analyse og kontroll av den endelige treet. Flere data som brukes i analysen vil gi en mer nøyaktig tre representasjon av beslutningsprosessen . Det er mange forskjellige måter å skape og strukturere en beslutning treet. ID3- algoritmen er en tidlig tilnærming hvorpå mer sofistikerte variasjonene har vært basert på.
2
List alle attributtene som brukes av datasettet. For eksempel , i et sett med banklån søknaden data , vil rekorden for hver søker inkludere attributter som navn , adresse, telefonnummer , inntekt , hjem verdi , boliglån , bank-og kredittkort mellomværende.
P Hvis manuelt skape en beslutning treet, naturligvis utelukke attributter som navn, som du ikke ville forvente å påvirke beslutningen om å innvilge et lån. Når du bruker datamaskinen data mining teknikker , er alle attributter vurderes, forlater dataprogram for å finne ut hvilke som ikke har noen relevans til endelig utfall .
3
Angi hvilken attributt er målet attributtet . I eksempelet med en lånesøknad , er målattributtet den som indikerer om lånet ble innvilget eller avslått .
4
Velg attributtet for å gi størst informasjonen gevinst for bruk som rotnoden . Treet består av beslutnings noder og blad noder. Ved beslutning noder , er en gren opprettet for hver mulig verdi av målet attributtet . Hver gren representerer data poster som deler samme valuta for målattributtet .
Et blad node er nådd når alle postene behandles på gjeldende node har samme resultat for målattributtet . I lån eksempel, hvis alle som søker om et lån er godkjent , er hele beslutningstre det trivielle tilfelle av et enkelt blad node uten grener. Det er mer sannsynlig at dataene vil bli delt inn i to grener : . Godkjent og nektet
Beregningsmetoder velge attributtet til å bruke på noe tre node er ekstremt kompleks . Se etter attributt som sterkest spår målet resultat . Intuitivt , "inntekt " ville være en bedre kandidat for rotnoden enn "fornavn ".
5
Fjern roten attributtet fra listen over potensielle egenskaper til bruk for grenen noder. Velg den gjenværende attributt med den største informasjonen gevinst å tildele til bankkontorene noder.
I dagens eksempel grenen noder på hvert punkt i treet skape grener av godkjente og nektet lån. Det kan være en rekke grener stammer fra en beslutning treet node, avhengig av hvor mange mulige verdier kan tildeles målattributtet .
6
Gjenta prosessen sammen hver gren før du har nådd et blad node hvor alle data har samme verdi for målattributtet . Den maksimale dybden av treet på noe tidspunkt vil være det totale antallet attributter identifisert i starten.
P Det er sannsynlig at ikke alle attributt er relevant for beslutningen i hver gren og så noen grener vil bli kortere . Når du har fullført tre , gå gjennom den for å finne de regler som det har utledet . For eksempel kan du finne at " et lån vil bli godkjent hvis du har en høy inntekt , høy sparing og ingen gjeld . "
7
Bruk testdata satt til å validere treet opprettet. Treet bør nøyaktig forutsi resultatene i de nye dataene .