Universit¨at Bielefeld Fakult¨at f¨ ur Wirtschaftswissenschaften Lehrstuhl Statistik Nadeshda Kaufmann
Wintersemester 2010/2011
Generalisierte lineare Modelle Probeklausur
Aufgabe 1 Der folgende Datensatz wurde von “The Independent” am 08. M¨arz 1994 nach Angaben der Metropolitan Police ver¨ offentlicht. Die Variable report gibt die Anzahl der Vermisstenmeldungen in London zwischen M¨ arz 1992 und M¨ arz 1993 wieder. Die Variable miss enth¨alt die Anzahl der davon bis zum Dezember 1993 nicht aufgekl¨arten F¨alle. Diese sind weiterhin nach Geschlecht (sex) und Alter (age) aufgeschl¨ usselt. sex age miss report 1 male =19 157 5065 4 female =19 159 3520 Es wurde das folgende Modell gesch¨ atzt: Call: glm(formula = miss ~ offset(log(report)) + sex + age, family = poisson, data = miss) Deviance Residuals: 1 2 3 -0.13831 0.16512 -0.03991
4 0.13085
5 -0.12474
6 0.03974
Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -4.2021 0.1255 -33.484 < 2e-16 *** sexmale -0.3702 0.0857 -4.320 1.56e-05 *** age14-18 -0.1950 0.1415 -1.378 0.168 age>=19 1.1017 0.1313 8.387 < 2e-16 *** --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 217.081353 Residual deviance: 0.082248 AIC: 45.21
on 5 on 2
degrees of freedom degrees of freedom
Number of Fisher Scoring iterations: 3 1
1. Erkl¨aren Sie, warum es m¨ oglich ist, an den vorliegenden Datensatz ein Poisson-Modell anzupassen, obwohl binomialverteilte Daten vorliegen? Warum ist die Verwendung eines Offsets zwingend erforderlich? (4 Pkt.)
2. Welches Modell (g(E(Y )) = η) entspricht der glm-Formel? (Zur Vereinfachung k¨onnen Sie die ANOVA-Notation verwenden.) (3 Pkt.)
2
3. Interpretieren Sie das Modell anhand des R-Outputs auf der Seite 1.
(6 Pkt.)
4. Welche Vermissten-Zahlen ergeben sich aus dem obigen Modell? (Berechnen Sie die gefitteten Werte f¨ ur die Zielvariable miss. Runden Sie gegebenenfalls auf zwei Stellen nach dem Komma.) Beachten Sie, dass der kanonische Link verwendet wurde: g(µ) = log(µ). (6 Pkt.) sex
age
female
=19
[ miss
3
5. Ein Vergleich zweier hierarchischer Modelle liefert den folgenden R-Output. Nennen Sie die Null- und Gegenhypothese und Ihre Entscheidung f¨ ur ein Signifikanzniveau von α = 5%. (3 Pkt.) Analysis of Deviance Table Model 1: miss ~ offset(log(report)) + sex * age Model 2: miss ~ offset(log(report)) + sex + age Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 0 4.53e-14 2 2 0.08225 -2 -0.08225 0.95971
4
Aufgabe 2 Ein Hersteller von Erfrischungsgetr¨ anken analysiert die Effizienz seines Nachf¨ ullservices f¨ ur Getr¨ankeautomaten. Die Bef¨ ullung eines Automaten schließt nicht nur das Nachlegen der Getr¨ anke ein, sondern auch kleinere Reparatur- und Reinigungsarbeiten. Der zust¨andige Vertriebsleiter hat vorgeschlagen, dass die Zeit, die ein Angestellter ben¨oigt, um eine Automatenf¨ ullung durchzuf¨ uhren, im Wesentlichen von zwei Faktoren abh¨ angt: der Anzahl der Getr¨ankekisten (Cases), die einger¨ aumt werden m¨ ussen, und von der Strecke, die der Angestellte zu Fuß zur¨ ucklegt (Distance in Fuß). Der Datensatz beginnt wie folgt: Time Cases Distance 1 16.68 7 560 2 11.50 3 220 3 12.03 3 340 4 14.88 4 80 5 13.75 6 150 6 18.11 7 330 ... Aufgrund der Beschaffenheit der Daten scheint ein Gamma-Modell die geeignete Wahl zu sein. Dieses liefert den folgenden R-Output: Call: glm(formula = Time ~ Cases + Distance, family = Gamma(link = "identity"), data = softdrink) Deviance Residuals: Min 1Q Median -0.21727 -0.09179 -0.01096
3Q 0.04846
Coefficients: Estimate Std. Error t value (Intercept) 4.397334 0.781149 5.629 Cases 1.551714 0.169412 9.159 Distance 0.010069 0.002855 3.526 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01
Max 0.27785
Pr(>|t|) 1.17e-05 *** 5.82e-09 *** 0.0019 ** ’*’ 0.05 ’.’ 0.1 ’ ’ 1
(Dispersion parameter for Gamma family taken to be 0.01700199) Null deviance: 7.70597 Residual deviance: 0.36610 AIC: 121.13
on 24 on 22
degrees of freedom degrees of freedom
Number of Fisher Scoring iterations: 5
5
1. Welches Modell (g(E(Y )) = η) entspricht der glm-Formel? (3 Pkt.)
2. Geben Sie ein f¨ ur βCases an. Allgemein ist dies gegeben durch q 95%-Konfidenzintervall d βˆj ) . βˆj ± 1.96 · Var( (4 Pkt.)
6
0.3
Residuals vs Fitted
Normal QïQ
4
1
9
ï1
0
Std. deviance resid.
0.1 0.0 ï0.2
Residuals
0.2
2
4 9
1 1
10
20
30
40
50
60
ï2
ï1
0
Predicted values
1.5
ScaleïLocation
2
Cook’s distance
4
0.30
4
0.20
10
9
0.0
0.00
0.5
1.0
Cook’s distance
9
0.10
1
Std. deviance resid.
1
Theoretical Quantiles
10
20
30
40
50
60
5
Predicted values
10
15
20
25
Obs. number
Abbildung 1: Diagnoseplots.
3. Beurteilen Sie die Anpassung des Modells anhand der Diagnoseplots in Abb.1 und des ROutputs auf der Seite 5. (8 Pkt.)
7
Aufgabe 3 Der folgende Datensatz enth¨ alt die Anzahl von m¨annlichen (Males) und weiblichen (Females) Kandidaten bei der britischen general election vom 9. April 1992 aufgeschl¨ usselt nach Region und Partei (Party). Letztere Variable hat die Auspr¨agungen Cons (Conservatives), Labour (Labour Party), LibDem (Liberal Democrats), Green (Green Party) und Others. Region Party Females Males 1 SouthEast Cons 8 101 2 SouthWest Cons 3 45 3 GreaterLondon Cons 8 76 4 EastAnglia Cons 1 19 5 EastMidlands Cons 3 39 6 Wales Cons 2 36 ...
Es wurde das folgende Modell gesch¨ atzt: Call: glm(formula = cbind(Females, Males) ~ Region + Party, family = binomial, data = cand) Deviance Residuals: Min 1Q Median -2.90141 -0.65644 -0.08551
3Q 0.68537
Max 1.87828
Coefficients: Estimate Std. Error z value (Intercept) -2.149858 0.280348 -7.669 RegionEastMidlands -0.290185 0.328773 -0.883 RegionGreaterLondon 0.026406 0.275470 0.096 RegionNorth -0.688325 0.378977 -1.816 RegionNorthWest -0.152550 0.285605 -0.534 RegionScotland -0.230528 0.286904 -0.804 RegionSouthEast 0.003418 0.271543 0.013 RegionSouthWest -0.149735 0.298106 -0.502 RegionWales -0.484195 0.331904 -1.459 RegionWestMidlands -0.120337 0.303328 -0.397 RegionYorksHumbers -0.352533 0.313047 -1.126 PartyGreen 1.110611 0.203864 5.448 PartyLabour 0.924070 0.171132 5.400 PartyLibDem 1.025541 0.169567 6.048 PartyOther 0.891233 0.170023 5.242 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05
Pr(>|z|) 1.74e-14 0.3774 0.9236 0.0693 0.5933 0.4217 0.9900 0.6155 0.1446 0.6916 0.2601 5.10e-08 6.67e-08 1.47e-09 1.59e-07
on 54 on 40
.
*** *** *** ***
’.’ 0.1 ’ ’ 1
(Dispersion parameter for binomial family taken to be 1) Null deviance: 115.32 Residual deviance: 48.23 AIC: 274.01
***
degrees of freedom degrees of freedom
Number of Fisher Scoring iterations: 4
8
Normal QïQ
ï2.0
0
10
29
ï10
Std. deviance resid.
0 ï1
Residuals
ï2 ï3
ï30
18
ï2.5
14
20
14
1
29
ï20
2
Residuals vs Fitted
ï1.5
18
ï1.0
ï2
ï1
0
Predicted values
ScaleïLocation
2
Cook’s distance 18
0.30
18
0.20
1.0
Cook’s distance
14 14 29
0.00
0.10
1.5
29
0.5
|Std. deviance resid.|
1
Theoretical Quantiles
ï2.5
ï2.0
ï1.5
ï1.0
0
10
20
Predicted Values
30
40
50
Obs. number
Abbildung 2: Diagnoseplots.
1. Beurteilen Sie die Anpassung des Modells anhand der Diagnoseplots in Abb.2 und des ROutputs auf der Seite 8. (8 Pkt.)
9
2. Welches Modell (g(E(Y )) = η) entspricht der glm-Formel? (Zur Vereinfachung k¨onnen Sie die Anova-Notation verwenden.) (3 Pkt.)
3. Interpretieren Sie das Modell anhand des R-Outputs auf Seite 8. (8 Pkt.)
10
4. Berechnen Sie die gesch¨ atzten Modellwerte f¨ ur die angegebenen Faktor-Kombinationen. Es 1 gilt: g −1 (η) = 1+exp(−η) . (6 Pkt.) Region
Party
Greater London
Green Party
East Anglia
Liberal Democrats
West Midlands
Conservatives
g −1 (η)
5. Es wurde ein χ2 -Test durchgef¨ uhrt. Nennen Sie Null- und Gegenhypothese. F¨ ur welches Modell w¨ urden Sie sich entscheiden, wenn ein Signifikanzniveau von α = 5% vorgegeben ist. (4 Pkt.) Analysis of Deviance Table Model 1: Model 2: Resid. 1 2
cbind(Females, Males) ~ Region + Party cbind(Females, Males) ~ Party Df Resid. Dev Df Deviance P(>|Chi|) 40 48.230 50 60.824 -10 -12.594 0.247
11