Decision Trees / Entscheidungsbäume

In diesem Beispiel verwenden wir zur Vorhersage die CART (classification and regression trees) Methode.

CART wurde in den siebziger Jahren von Leo Breiman entwickelt.

Wir verwenden in dem unten erstellten Entscheidungsbaum den rpart Algorithmus welcher als software packet in der Programmiersprache R zur Verfügung steht.

Der rpart-Algorithmus arbeitet durch rekursives Aufteilen des Datensatzes, was bedeutet, dass die aus einer Aufteilung resultierenden Teilmengen weiter aufgeteilt werden, bis ein vorbestimmtes Beendigungskriterium erreicht ist. Bei jedem Schritt wird die Aufteilung auf der Grundlage der unabhängigen Variablen vorgenommen, die zu einer größt möglichen Verringerung der Heterogenität der abhängigen (vorhergesagten) Variablen führt.

Im Beispiel verwenden wir einen stark vereinfachten und angepassten Datensatz, der helfen soll vorherzusagen, ob jemand mehr als 50.000 USD Einkommen im Jahr verdient.

Die Ergebnisse des angewendeten Algorithmus sind folgende:

n= 32560 

node), split, n, loss, yval, (yprob)
      * denotes terminal node

 1) root 32560 7841  <=50K (0.75918305 0.24081695)  
   2) Beziehungsstand= Divorced, Married-spouse-absent, Never-married, Separated, Widowed 17561 1139  <=50K (0.93514037 0.06485963) *
   3) Beziehungsstand= Married-AF-spouse, Married-civ-spouse 14999 6702  <=50K (0.55317021 0.44682979)  
     6) Akademiker=No 10938 3830  <=50K (0.64984458 0.35015542) *
     7) Akademiker=Yes 4061 1189  >50K (0.29278503 0.70721497)  
      14) Stunden< 31 318  139  <=50K (0.56289308 0.43710692)  
        28) Geschlecht= Male 223   73  <=50K (0.67264574 0.32735426) *
        29) Geschlecht= Female 95   29  >50K (0.30526316 0.69473684) *
      15) Stunden>=31 3743 1010  >50K (0.26983703 0.73016297)  
        30) Alter< 28.5 227  108  <=50K (0.52422907 0.47577093) *
        31) Alter>=28.5 3516  891  >50K (0.25341297 0.74658703)

Die Informationen sind relativ schwer zu interpretieren, allerdings lassen sich die Ergebnisse sehr schön graphisch abbilden und dadurch logisch nachvollziehen. Bitte klicken Sie auf die Entscheidungsbäume für eine größere Auflösung.

 

Entscheidungsbaum I

 

Entscheidungsbaum II