Multiple lineare Regression: Überblick

Einleitung

Motivation und Beispiel–Fragestellung

Daten: gebrauchtwagen.csv aus Eurotax-Liste (Kauf/Verkauf von Gebrauchtwagen in Europa)

  • Preis: Verkaufspreis (in Euro)

  • Kilometer: Kilometerstand (in km)

  • Service: Anzahl der Serviceintervalle (metrisch = reelle Zahlen)

  • Garage: Garagennutzung (nominal, dichotom: ja/nein = 0/1 Codierung)

  • Farbe: Farbe 1–3 (nominal)

  • Besteht ein Zusammenhang zwischen Kilometerstand und Preis?

  • Analyse im Rahmen einer Regressionsanalysenicht Korrelationsstudie

  • Streudiagramm / Scatterplot:

Figure 1: Abbildung

Idee und Notation

  • abhängige Variable \(Y\)

  • Erweiterung: mehrere (multiple) unabhängige Variablen / Kovariate

  • unabhängigen Variable(n) = Regressore(n) = Kontrollvariable(n) = Kovariate = Prädiktoren

  • dieselben Bezeichnungen für \(X\) auf der rechten Seite!

  • stochastischer Störterm / Fehlerterm \(\varepsilon\): zufälliger Fehler führt zu Abweichungen in der linearen Beziehung zwischen \(Y\) und \(X\)

  • \(Y = \alpha + \beta_1 \cdot X_1 + \ldots + \beta_k \cdot X_k + \varepsilon_i\)

    \(Preis = \alpha + \beta_{1} \cdot Kilometer + \beta_{2} \cdot Service + \beta_{3} \cdot Garage + \varepsilon_i\)

  • Erklärung der Variablenbezeichnung:

    • \(Y\): abhängige Variable (Preis), auch Responsevariable genannt
    • \(1, X_1, \ldots, X_k\): Achsenabschnitt & unabhängige Variable(n) / Kovariate
    • \(\alpha, \beta_1, \ldots, \beta_k\): Regressionskoeffizienten
  • Bestimmtheitsmaß \(R^2=\frac{TTS-RSS}{TTS}\)
    \(\hookrightarrow\) Gesamtquadratensumme (Total Sum of Squares = TTS)
    \(\hookrightarrow\) Residuenquadratensumme (Residual Sum of Squares = RSS)
    \(\hookrightarrow\) Anteil der durch die Regression erklärten Varianz an der Gesamtvarianz der abhängigen Variable \(Y\)

Multiple lineare Regression: Beispiel

Syntax: \(\hookrightarrow\) Ergänze mit + die weiteren Regressoren

data_gw <- read.csv("../data/gebrauchtwagen.csv")
model <- lm(Preis ~ Kilometer + Service + Garage, data = data_gw)
summary(model)

Call:
lm(formula = Preis ~ Kilometer + Service + Garage, data = data_gw)

Residuals:
    Min      1Q  Median      3Q     Max 
-97.343 -30.205  -1.084  26.777  97.323 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  6.187e+03  2.585e+01 239.379   <2e-16 ***
Kilometer   -3.114e-02  6.359e-04 -48.966   <2e-16 ***
Service      1.345e+02  3.867e+00  34.793   <2e-16 ***
Garage       1.901e+01  8.461e+00   2.247    0.027 *  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 40.64 on 96 degrees of freedom
Multiple R-squared:  0.9754,    Adjusted R-squared:  0.9746 
F-statistic:  1267 on 3 and 96 DF,  p-value: < 2.2e-16

Interpretation:

  • \(R^2=0.9754\): 97.54 % der Varianz (im Preis) wird durch das Modell (Achsenabschnitt und alle 3 Regressoren) erklärt \(\hookrightarrow\) sehr hoher Wert nahe Obergrenze 1 ! \(R^2 \in [0,1]\)
  • Kilometer/Service: \(p<2e-16\) \(\rightarrow\) hoch signifikant: Sternchen ***
  • Garage: \(p=0.027\) \(\rightarrow\) signifikant auf Niveau 5 %: Sternchen *

F-Wert:

  • letzte Zeile des summary outputs: p-Wert p-value: <2.2e-16 der F-Statistik zeigt sehr hohe Signifikanz aller drei gemeinsamen Kovariate auf den Preis

\(Preis = 6187 - 0.003114 \cdot Kilometer + 134.5 \cdot Service + 19.01 \cdot Garage\)

  • Steigt der Kilometerstand um 1 (eine kleine/marginale Einheit), so sinkt der Preis um \(\beta\) Einheiten:
  • Achsenabschnitt 6187 EUR: Basispreis eines Gebrauchtwagens
  • Pro gefahrenem Kilometer: erwarteter Verkaufspreis sinkt um ca. 3 Cent
  • Pro getätigtem Service: erwarteter Verkaufspreis steigt um ca. 134.5 EUR
  • Garagennutzung (vs. draußen Parken): Verkaufspreis steigt um 19 EUR
Back to top