Universität Bielefeld Wintersemester 2010/2011 Fakultät ...

Universität Bielefeld. Wintersemester 2010/2011. Fakultät für Wirtschaftswissenschaften. Lehrstuhl Statistik. Nadeshda Kaufmann. Generalisierte lineare ...
212KB Größe 5 Downloads 40 Ansichten
Universit¨at Bielefeld Fakult¨at f¨ ur Wirtschaftswissenschaften Lehrstuhl Statistik Nadeshda Kaufmann

Wintersemester 2010/2011

Generalisierte lineare Modelle Probeklausur

Aufgabe 1 Der folgende Datensatz wurde von “The Independent” am 08. M¨arz 1994 nach Angaben der Metropolitan Police ver¨ offentlicht. Die Variable report gibt die Anzahl der Vermisstenmeldungen in London zwischen M¨ arz 1992 und M¨ arz 1993 wieder. Die Variable miss enth¨alt die Anzahl der davon bis zum Dezember 1993 nicht aufgekl¨arten F¨alle. Diese sind weiterhin nach Geschlecht (sex) und Alter (age) aufgeschl¨ usselt. sex age miss report 1 male =19 157 5065 4 female =19 159 3520 Es wurde das folgende Modell gesch¨ atzt: Call: glm(formula = miss ~ offset(log(report)) + sex + age, family = poisson, data = miss) Deviance Residuals: 1 2 3 -0.13831 0.16512 -0.03991

4 0.13085

5 -0.12474

6 0.03974

Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -4.2021 0.1255 -33.484 < 2e-16 *** sexmale -0.3702 0.0857 -4.320 1.56e-05 *** age14-18 -0.1950 0.1415 -1.378 0.168 age>=19 1.1017 0.1313 8.387 < 2e-16 *** --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 217.081353 Residual deviance: 0.082248 AIC: 45.21

on 5 on 2

degrees of freedom degrees of freedom

Number of Fisher Scoring iterations: 3 1

1. Erkl¨aren Sie, warum es m¨ oglich ist, an den vorliegenden Datensatz ein Poisson-Modell anzupassen, obwohl binomialverteilte Daten vorliegen? Warum ist die Verwendung eines Offsets zwingend erforderlich? (4 Pkt.)

2. Welches Modell (g(E(Y )) = η) entspricht der glm-Formel? (Zur Vereinfachung k¨onnen Sie die ANOVA-Notation verwenden.) (3 Pkt.)

2

3. Interpretieren Sie das Modell anhand des R-Outputs auf der Seite 1.

(6 Pkt.)

4. Welche Vermissten-Zahlen ergeben sich aus dem obigen Modell? (Berechnen Sie die gefitteten Werte f¨ ur die Zielvariable miss. Runden Sie gegebenenfalls auf zwei Stellen nach dem Komma.) Beachten Sie, dass der kanonische Link verwendet wurde: g(µ) = log(µ). (6 Pkt.) sex

age

female

=19

[ miss

3

5. Ein Vergleich zweier hierarchischer Modelle liefert den folgenden R-Output. Nennen Sie die Null- und Gegenhypothese und Ihre Entscheidung f¨ ur ein Signifikanzniveau von α = 5%. (3 Pkt.) Analysis of Deviance Table Model 1: miss ~ offset(log(report)) + sex * age Model 2: miss ~ offset(log(report)) + sex + age Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 0 4.53e-14 2 2 0.08225 -2 -0.08225 0.95971

4

Aufgabe 2 Ein Hersteller von Erfrischungsgetr¨ anken analysiert die Effizienz seines Nachf¨ ullservices f¨ ur Getr¨ankeautomaten. Die Bef¨ ullung eines Automaten schließt nicht nur das Nachlegen der Getr¨ anke ein, sondern auch kleinere Reparatur- und Reinigungsarbeiten. Der zust¨andige Vertriebsleiter hat vorgeschlagen, dass die Zeit, die ein Angestellter ben¨oigt, um eine Automatenf¨ ullung durchzuf¨ uhren, im Wesentlichen von zwei Faktoren abh¨ angt: der Anzahl der Getr¨ankekisten (Cases), die einger¨ aumt werden m¨ ussen, und von der Strecke, die der Angestellte zu Fuß zur¨ ucklegt (Distance in Fuß). Der Datensatz beginnt wie folgt: Time Cases Distance 1 16.68 7 560 2 11.50 3 220 3 12.03 3 340 4 14.88 4 80 5 13.75 6 150 6 18.11 7 330 ... Aufgrund der Beschaffenheit der Daten scheint ein Gamma-Modell die geeignete Wahl zu sein. Dieses liefert den folgenden R-Output: Call: glm(formula = Time ~ Cases + Distance, family = Gamma(link = "identity"), data = softdrink) Deviance Residuals: Min 1Q Median -0.21727 -0.09179 -0.01096

3Q 0.04846

Coefficients: Estimate Std. Error t value (Intercept) 4.397334 0.781149 5.629 Cases 1.551714 0.169412 9.159 Distance 0.010069 0.002855 3.526 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01

Max 0.27785

Pr(>|t|) 1.17e-05 *** 5.82e-09 *** 0.0019 ** ’*’ 0.05 ’.’ 0.1 ’ ’ 1

(Dispersion parameter for Gamma family taken to be 0.01700199) Null deviance: 7.70597 Residual deviance: 0.36610 AIC: 121.13

on 24 on 22

degrees of freedom degrees of freedom

Number of Fisher Scoring iterations: 5

5

1. Welches Modell (g(E(Y )) = η) entspricht der glm-Formel? (3 Pkt.)

2. Geben Sie ein f¨ ur βCases an. Allgemein ist dies gegeben durch   q 95%-Konfidenzintervall d βˆj ) . βˆj ± 1.96 · Var( (4 Pkt.)

6

0.3

Residuals vs Fitted

Normal QïQ

4

1

9

ï1

0

Std. deviance resid.

0.1 0.0 ï0.2

Residuals

0.2

2

4 9

1 1

10

20

30

40

50

60

ï2

ï1

0

Predicted values

1.5

ScaleïLocation

2

Cook’s distance

4

0.30

4

0.20

10

9

0.0

0.00

0.5

1.0

Cook’s distance

9

0.10

1

Std. deviance resid.

1

Theoretical Quantiles

10

20

30

40

50

60

5

Predicted values

10

15

20

25

Obs. number

Abbildung 1: Diagnoseplots.

3. Beurteilen Sie die Anpassung des Modells anhand der Diagnoseplots in Abb.1 und des ROutputs auf der Seite 5. (8 Pkt.)

7

Aufgabe 3 Der folgende Datensatz enth¨ alt die Anzahl von m¨annlichen (Males) und weiblichen (Females) Kandidaten bei der britischen general election vom 9. April 1992 aufgeschl¨ usselt nach Region und Partei (Party). Letztere Variable hat die Auspr¨agungen Cons (Conservatives), Labour (Labour Party), LibDem (Liberal Democrats), Green (Green Party) und Others. Region Party Females Males 1 SouthEast Cons 8 101 2 SouthWest Cons 3 45 3 GreaterLondon Cons 8 76 4 EastAnglia Cons 1 19 5 EastMidlands Cons 3 39 6 Wales Cons 2 36 ...

Es wurde das folgende Modell gesch¨ atzt: Call: glm(formula = cbind(Females, Males) ~ Region + Party, family = binomial, data = cand) Deviance Residuals: Min 1Q Median -2.90141 -0.65644 -0.08551

3Q 0.68537

Max 1.87828

Coefficients: Estimate Std. Error z value (Intercept) -2.149858 0.280348 -7.669 RegionEastMidlands -0.290185 0.328773 -0.883 RegionGreaterLondon 0.026406 0.275470 0.096 RegionNorth -0.688325 0.378977 -1.816 RegionNorthWest -0.152550 0.285605 -0.534 RegionScotland -0.230528 0.286904 -0.804 RegionSouthEast 0.003418 0.271543 0.013 RegionSouthWest -0.149735 0.298106 -0.502 RegionWales -0.484195 0.331904 -1.459 RegionWestMidlands -0.120337 0.303328 -0.397 RegionYorksHumbers -0.352533 0.313047 -1.126 PartyGreen 1.110611 0.203864 5.448 PartyLabour 0.924070 0.171132 5.400 PartyLibDem 1.025541 0.169567 6.048 PartyOther 0.891233 0.170023 5.242 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05

Pr(>|z|) 1.74e-14 0.3774 0.9236 0.0693 0.5933 0.4217 0.9900 0.6155 0.1446 0.6916 0.2601 5.10e-08 6.67e-08 1.47e-09 1.59e-07

on 54 on 40

.

*** *** *** ***

’.’ 0.1 ’ ’ 1

(Dispersion parameter for binomial family taken to be 1) Null deviance: 115.32 Residual deviance: 48.23 AIC: 274.01

***

degrees of freedom degrees of freedom

Number of Fisher Scoring iterations: 4

8

Normal QïQ

ï2.0

0

10

29

ï10

Std. deviance resid.

0 ï1

Residuals

ï2 ï3

ï30

18

ï2.5

14

20

14

1

29

ï20

2

Residuals vs Fitted

ï1.5

18

ï1.0

ï2

ï1

0

Predicted values

ScaleïLocation

2

Cook’s distance 18

0.30

18

0.20

1.0

Cook’s distance

14 14 29

0.00

0.10

1.5

29

0.5

|Std. deviance resid.|

1

Theoretical Quantiles

ï2.5

ï2.0

ï1.5

ï1.0

0

10

20

Predicted Values

30

40

50

Obs. number

Abbildung 2: Diagnoseplots.

1. Beurteilen Sie die Anpassung des Modells anhand der Diagnoseplots in Abb.2 und des ROutputs auf der Seite 8. (8 Pkt.)

9

2. Welches Modell (g(E(Y )) = η) entspricht der glm-Formel? (Zur Vereinfachung k¨onnen Sie die Anova-Notation verwenden.) (3 Pkt.)

3. Interpretieren Sie das Modell anhand des R-Outputs auf Seite 8. (8 Pkt.)

10

4. Berechnen Sie die gesch¨ atzten Modellwerte f¨ ur die angegebenen Faktor-Kombinationen. Es 1 gilt: g −1 (η) = 1+exp(−η) . (6 Pkt.) Region

Party

Greater London

Green Party

East Anglia

Liberal Democrats

West Midlands

Conservatives

g −1 (η)

5. Es wurde ein χ2 -Test durchgef¨ uhrt. Nennen Sie Null- und Gegenhypothese. F¨ ur welches Modell w¨ urden Sie sich entscheiden, wenn ein Signifikanzniveau von α = 5% vorgegeben ist. (4 Pkt.) Analysis of Deviance Table Model 1: Model 2: Resid. 1 2

cbind(Females, Males) ~ Region + Party cbind(Females, Males) ~ Party Df Resid. Dev Df Deviance P(>|Chi|) 40 48.230 50 60.824 -10 -12.594 0.247

11