5 Beispiele für Visualisierungen

R ist ein mächtiges Werkzeug für Datenvisualisierungen. Es gibt in R eine Vielzahl von Paketen und Funktionen, welche helfen Daten in eine sinnvolle Art und Weise Darzustellen. Of lassen sich dadurch wichtige Muster in Daten erkennen. Im folgenden stelle ich 5 kurze Beispiele vor, wie sich in R Daten visuell darstellen und auswerten lassen. In R kann man mit wenig code sehr wertvolle Datenvisualisierungen erstellen.

1. Einfaches Streudiagramm mit ggplot2

Diese Visualisierungsmethode eignet sich hervorragend, um die Beziehung zwischen zwei kontinuierlichen Variablen zu erkunden. Sie kann Aufschluss darüber geben, wie zwei Merkmale zusammenhängen, wie zum Beispiel der Kraftstoffverbrauch auf der Autobahn im Verhältnis zum Hubraum eines Fahrzeugs.

Der Code:

library(ggplot2)
data(mpg) 
ggplot(mpg, aes(x = displ, y = hwy)) +  
geom_point(aes(color = class)) +  
labs(title = "Engine Displacement vs. Highway MPG",        
x = "Engine Displacement (Liters)",        
y = "Highway MPG")

Heraus kommt dabei folgendes Streudiagramm:

Diese Visualisierungsmethode eignet sich hervorragend, um die Beziehung zwischen zwei kontinuierlichen Variablen zu erkunden. Sie kann Aufschluss darüber geben, wie zwei Merkmale zusammenhängen, wie zum Beispiel der Kraftstoffverbrauch auf der Autobahn im Verhältnis zum Hubraum eines Fahrzeugs.

2. Heatmap mit pheatmap

Eine Heatmap zeigt die Korrelation oder Intensität zwischen verschiedenen Variablen und ist besonders nützlich, um die Stärke der Beziehungen in einer Datenmatrix zu visualisieren.

Der Code:

library(pheatmap) 
cor_data <- cor(mtcars)
pheatmap(cor_data, display_numbers = TRUE, 
main = "Correlation Matrix Heatmap")

Hier hat man mit sehr wenig code eine tolle heatmap erstellt:

Hier werden Abhängigkeiten farblich und numerisch angezeigt.

3. Interaktives Streudiagramm mit plotly

Interaktive Plots ermöglichen eine tiefere Datenexploration und sind ideal für Präsentationen, bei denen Benutzer Details auf Abruf untersuchen können.

Der Code:

library(plotly)
data(mpg) 
plot_ly(data = mpg, x = ~displ, y = ~hwy, type = 'scatter', 
mode = 'markers',        
marker = list(size = 10, color = ~class),        
hoverinfo = 'text',        
text = ~paste("Make:", manufacturer, 
"<br>Model:", model, 
"<br>Class:", class))

Durch das verwenden von plotly bekommt man in interaktives Dashboard. Bitte auf den Link klicken, damit sich die Graphik öffnet.

4. Paarweise Beziehungen mit GGally::ggpairs

Diese Methode eignet sich zur Untersuchung aller paarweisen Scatterplots und Histogramme zwischen mehreren Variablen, was sehr nützlich ist, um komplexe multivariable Interaktionen zu verstehen.

Der Code:

library(GGally)
data(iris)
ggpairs(iris, columns = 1:4, ggplot2::aes(color = Species))

Der Code hier ist wieder sehr klein mit einem tollen Ergebnis:

5. Violin Plot

Als letztes Beispiel folgt ein Violin Plot. Ähnlich wie bei einem Dichtediagramm zeigt der Violin-Plot die Dichteschätzung der Daten, was eine glattere und kontinuierliche Darstellung der Verteilung ermöglicht. Die Breite eines „Violins“ an einem bestimmten Punkt entspricht der Dichte der Daten an dieser Stelle.

Der Code:

library(gapminder)
library(ggplot2)

latest_data <- gapminder %>%  group_by(country) %>%  
filter(year == max(year))
ggplot(latest_data, aes(x = continent, y = lifeExp, fill = continent)) +  geom_violin(trim = FALSE) +   
geom_boxplot(width = 0.1, fill = "white") +   
labs(title = "Distribution of Life Expectancy Across Continents",       
x = "Continent",       
y = "Life Expectancy") +  
theme_minimal() + 
theme(legend.position = "none")

Dadurch wird folgende Graphik erstellt:


Diese Beispiele sollen Einblicke in die Visualisierungs Möglichkeiten von R geben. Es handelt sich um relativ kleine Beispiel die zeigen sollen, dass man mit sehr wenig code bereits sehr sinnvolle Graphiken erstellen kann.