K-means Cluster Analyse

Auf dieser Seite stellen wir Ihnen kurz eines der bekanntesten und wahrscheinlich am häufigsten angewendeten Cluster Methoden vor.

Der K-means algorithmus ist bereits seit mehreren Jahrzehnten im Einsatz. Durch den Einsatz des K-means algorithmus werden innerhalb eines Datensatzes Gruppierung gesucht, die ähnliche Eigenschaften besitzen, bzw. keine oder kaum Ähnlichkeiten miteinander haben.

Er wird auch gerne verwendet um Marktsegmentierungen durchzuführen und Kunden in relevante Segmente einzuteilen.

Wir verwenden in unserem Beispiel den state.x77 Datensatz, welcher teil der R basis Installation ist.

Die Quellen der Daten sind:

U.S. Department of Commerce, Bureau of the Census (1977) Statistical Abstract of the United States.

U.S. Department of Commerce, Bureau of the Census (1977) County and City Data Book.

Nach Aufbereitung der Daten, werden diese anhand einer Distanzmatrix untersucht. Wir verwenden für die Messung den Euklidischen Abstand.

Die Distanz Matrix hilft erste Erkenntnisse zu gewinnen, über die Ähnlichkeit bzw. Unähnlichkeit der Daten. Hier zeichnen sich erste Zugehörigkeiten ab.

Als nächster Schritt wird der K-means Algorithmus angewendet und die Ergebnisse werden graphisch dargestellt.

Es folgt eine Graphik der Principal Component Analyse. Wenn es mehr als zwei Dimensionen (variablen) gibt, erhält man durch die PCA einen Überblick der Komponenten welche die Mehrzahl der Varianzen erklärt.

Die Cluster / Gruppierungen der einzelnen Bundesstaaten wurden durch den K-means Algorithmus erstellt. Der Algorithmus hat Ähnlichkeiten in den Daten gefunden, und diese in Gruppen zusammengefasst.

Durch Streudiagramme lassen sich die Daten und die darin liegenden Gruppierungen näher untersuchen:

Das erste Streudiagramme stellt einen Bezug zwischen Analphabetentum und der Mordrate in den betreffenden Staten her. Die vom K-means Algorithmus erstellten Gruppierungen kann man als sinnvoll und nachvollziehbar betrachten, wenn man das Streudiagramm näher betrachtet.

Das zweite Streudiagramm oben, stellt einen Bezug zwischen Anzahl der High School Abschlüssen und dem Einkommen dar. Hier sind die Gruppierung auch sinnvoll, allerdings verschwimmen hier einige Gruppen untereinander.