Arithmetisches Mittel

1.07. Das gleiche Guthaben ergibt sich über den Zeitraum von 3 Jahren bei einem konstanten Zinssatz durch: (1 + p)3 · G = G · 1.02 · 1.05 · 1.07, daher. 1.07.
550KB Größe 303 Downloads 498 Ansichten
Statistik „ „ „ „ „ „ „

Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression

Lageparameter (Mittelwerte) und Streuungsparameter Mittelwerte: Geben die zentrale Tendenz der Verteilung der Daten wider. Streuungsparameter: Geben die Variation der Daten wider.

Mittelwerte Arithmetisches Mittel: Das arithmetische Mittel x ist die Summe aller Messwerte, geteilt durch deren Anzahl n: n 1 x = ∑ xi = ⋅ ( x1 + x2 + ... + x n ) n i =1 Eigenschaften: • Ist eindeutig bestimmt, wird für metrische Skalen verwendet. • Die Summe der Abweichungen der Einzelwerte von ihrem gemeinsamen Mittelwert ist gleich Null (Schwerpunktseigenschaft). n ∑ ( x − x) = 0 i i =1 • Die Summe der quadratischen Abweichungen vom Mittel ist kleiner als die Summe der quadratischen Abweichungen von einem beliebigen anderen Wert xj der Stichprobe. n n ∑ ( x − x ) 2 ≤ ∑ ( x − x ) 2 für x ∈{x |1 ≤ j ≤ n} i i j j j i =1 i =1

Mittelwerte Arithmetisches Mittel: Das arithmetische Mittel x ist die Summe aller Messwerte xi, geteilt durch die Anzahl n der Messwerte: 1 n 1 x = ⋅ ∑ xi = ⋅ ( x1 + x2 + ... + xn ) n i =1 n Eigenschaften: • Das arithmetische Mittel ist besonders aussagekräftig, wenn sich die Werteverteilung eng um den Mittelwert konzentriert, d.h. eine starke zentrale Tendenz aufweist. Ist dies nicht der Fall, d.h. ist die Stichprobe sehr inhomogen und dispers verteilt, sind andere Mittelwerte von höherer Aussagekraft. • Berücksichtigt alle enthaltenen Informationen, Minimum und Maximum können starken Einfluss besitzen. • Allerdings treten verschiedene Verteilungen bei gleichem Mittel auf. Daher werden auch andere Ortsparameter benötigt.

Mittelwerte Verschiedene Verteilungen bei gleichem Mittel

Mittelwerte Modus: Der Modus Mo (Modalwert, Dichtemittel) ist derjenige Variablenwert, der in einer Verteilung am häufigsten vorkommt, die Häufigkeitsverteilung erreicht hier also ihr absolutes Maximum:   yk − yk − 1  ⋅b Mo =U +    2 yk − yk − 1 − yk + 1 

mit U untere Grenze und yk Anzahl der Elemente in der am häufigsten besetzten Klasse, yk-1, yk+1 Anzahl der Elemente in den Nachbarklassen, b Klassenbreite

Verschiedene Ergebnisse: Abhängig von fk-1 und fk+1.

  yk − yk − 1    2y − y  −  k k − 1 yk + 1 

z = 0, wenn yk = yk-1 damit ist

z = 1, wenn yk = yk+1 z = 0.5, wenn yk-1 = yk+1

=z yk

Mittelwerte Eigenschaften: • Der Modus gewichtet den häufigsten Wert entsprechend yk-1 und yk+1. • Kann bei allen Skalentypen verwendet werden. • Ausnahmewerte mit geringeren als die maximale Häufigkeit beeinflussen den Modus nicht.

• Für klassifizierte Daten ist der Modus stark von der Klasseneinteilung abhängig. • Keine Berücksichtigung der Verteilung der Werte. • Auch bimodale oder multimodale Verteilungen können erfasst werden.

Mittelwerte 10

Modus Mo = 6.56

9 8 Häufigkeiten

7 6 5 4 3 2 1 0 0

1

2

3

4

5

6

7

8

9

10

Einkommen

10

Modus Mo = 6.5

9

Häufigkeiten

8 7 6 5 4 3 2 1 0 0

2

4

6 Einkommen

8

10

Mittelwerte Median: Der Median Me (Zentralwert) ist derjenige Variablenwert, der eine nach der Größe geordnete Rangfolge von n Messwerten genau halbiert, unterhalb und oberhalb des Medians liegen also jeweils 50% der Messwerte: Unklassifizierte Daten Me = x( n+1) / 2 Me =

x n / 2 + x n / 2 +1 2

für ungerades n und x1 x2 x3 x4 x5 x6 x7 für gerades n bei unklassifizierten Daten x1 x2 x3 x4 x5 x6 x7 x8

Mittelwerte Median: Der Median Me (Zentralwert) ist derjenige Variablenwert, der eine nach der Größe geordnete Rangfolge von n Messwerten genau halbiert, unterhalb und oberhalb des Medians liegen also jeweils 50% der Messwerte: Klassifizierte Daten  n / 2 − H k −1   ⋅ b Me = U +  − H H  k k-1 

mit Hk kleinster Summenhäufigkeit (absolut oder relativ) ≥ n/2, U untere Klassengrenze des zu Hk gehörenden Intervalls, Hk - Hk-1 Häufigkeit der Klasse Hk b Klassenbreite Summenhäufigkeit 25

Hk n/2

Median Me = 6.34

20 15

Hk-1 10 5 0

0

1

2

b

3

4

5

6

7

8

9

10

Einkommen

U

Mittelwerte Eigenschaften: • Berechnung des Median setzt Ordnung der Variablenwerte voraus, daher kann Median nur auf ordinale und metrisch Variablen angewendet werden. • Unterhalb und oberhalb des Medians liegen Summenhäufigkeitsdarstellungen leicht ablesbar.

50%

der

Messwerte,

in

• Eine Verschiebung des Minimum und des Maximum hat bei größerem n keine Auswirkungen, daher besteht eine Resistenz gegenüber Ausreißern. • Der Median muss selber nicht zur Datenmenge der Stichprobe gehören. • Der Median hat die Eigenschaft, dass er derjenige Wert ist, dessen Summe der absoluten Abstände zu allen Messdaten minimal ist. Damit eignet er sich bei Fragestellungen der Standortoptimierung. n ∑ | x − Me | = minimal i i =1

Mittelwerte Quartil: Wert, bei denen ein bestimmter Prozentsatz der Daten oberhalb und unterhalb dieses Wertes liegen. Die Bestimmung des Quartils erfolgt entsprechend dem des Median. Q1: 25% der Daten liegen unterhalb und 75% oberhalb davon (betrachtet wird n/4). Q2: 50% der Daten liegen unterhalb und 50% oberhalb davon (= Me, n/2). Q3: 25% der Daten liegen oberhalb und 75% unterhalb davon (3n/4).

Summenhäufigkeiten

25 20

Q3 = 7.58

15

Q2 = 6.34

10 Q1 = 4.42 5 0 0

1

2

3

4

5

6

Einkommen

7

8

9

10

Mittelwerte Box-Whisker-Plot

Mittelwerte Kenndaten für Einkommensverteilung: Arithmetisches Mittel: 6.12 Modus: 6.7 Modus, klassifiziert: 6.52 Median: 6.5 Median, klassifiziert: 6.31 Q1: 4.9 Q3: 7.5 Interquartilsabstand: 2.6 Spannweite: 8.2

Mittelwerte Beispiel: Vergleich des arithmetischen Mittels, dem Modus und dem Median bei unklassifizierten Daten.

X1

X2

X3

X4

X5

X6

Modus

Median

Arith. Mittel

1

1

1

2

7

8

1

1.5

3.3

1

1

1

2

7

10

1

1.5

3.6

1

1

1

2

7

30

1

1.5

7

Mittelwerte Beispiel: Vergleich des arithmetischen Mittels, dem Modus und dem Median bei klassifizierten Daten. Symmetrische Glockenkurve x = Mo = Me

Linksgipflige Glockenkurve Mo ≤ Me ≤ x

Rechtsgipflige Glockenkurve x ≤ Me ≤ Mo

Mittelwerte Gewichtetes arithmetisches Mittel: Das gewichtete arithmetische Mittel xg wird für n Messwerte berechnet durch: n

∑ xi g i

i =1 xg = n

∑ gi

=

x1 g1 + x 2 g 2 + ... + xn g n g1 + g 2 + ... + g n

mit xi Wert der i-ten Variable, gi Gewicht der i-ten Variable

i =1

Eigenschaften: • Anwendung bei Abschätzung von fehlenden Variablenwerten durch gewichtetes Mittel aus seinen Nachbarwerten. • Glättung von empirischen Reihen zur Erfassung von Trends oder Perioden mit jeweils stärkerer Gewichtung des Glättungspunktes gegenüber seinen Nachbarn.

Mittelwerte Beispiel: Anwendung bei Niederschlags-Messdaten von Klimastationen A, B, C, D die unterschiedlich große Gebiete repräsentieren. Einen mittleren Niederschlagswert wird dadurch bestimmt, dass größere Gebiete stärker berücksichtigt werden sollen, daher wird eine Gewichtung des Gebietes vorgenommen. Zur Vereinfachung soll g1 + g2 + . . . + gn = 1 sein. Daher ist gi =

Fläche i n

∑ Fläche i

i =1

Mess-Station

Messwert (mm)

Fläche (km2)

gi

A

21

12

0.44

B C D Summe

13 12 4

6 4 5 27

0.22 0.15 0.19

Damit beträgt der gewichtete mittlere Niederschlag xg = 14.66 mm

Mittelwerte Beispiel: Anwendung etwa bei Ozon-Messdaten von Klimastationen A, B, C, D die unterschiedlich weit von einem zu betrachtenden Ort P entfernt liegen. Da zu P nähere Klimastationen stärker berücksichtigt werden sollen, wird eine inverse Gewichtung der Distanz vorgenommen. Zur Vereinfachung soll g1 + g2 + . . . + gn = 1 sein. Daher ist n

g*

i

∑ Dist. i

=

i =1

Dist.i

und damit g i =

g*i n

∑ g*i

i =1

MessStation

Messwert (mg/l)

Dist. zu P (km)

gi

A

210

8

0.17

B

180

6

0.23

C

40

4

0.35

D

150

6

0.23

Damit beträgt am Ort P der gewichtete Ozon-Mittelwert xg = 128.8 mg/l

Mittelwerte Geometrisches Mittel: Das geometrische Mittel G wird für n Messwerte berechnet als die n-te Wurzel aus dem Produkt der n Variablenwerte durch: G=n

x1 ⋅ x2 ⋅...⋅ xn

1 n bzw. ln(G ) = ⋅ ∑ ln( xi ) n i =1

Eigenschaften: • Wird bei verhältnisskalierten Merkmalswerten verwendet, wenn diese ein exponentielles Wachstum zeigen (Verhältnisse, Wachstumsraten). Auch bei Stichproben mit einzelnen Ausreißern. • Anwendung etwa bei Bevölkerungsentwicklung exponentiellem Verlauf einer Entwässerungskurve.

einer

Stadt

oder

bei

• Reagiert weniger empfindlicher gegenüber Ausreißern als das arithmetische Mittel.

Mittelwerte Beispiel: Das Mittel aus einer Verdoppelung und einer nachfolgenden Verachtfachung etwa einer Bakterienkultur ist eine Vervierfachung (nicht eine Vervielfachung um den Faktor 5).

20 18 16 14 12 10 8 6 4 2 0 0

1

2

3

4

Mittelwerte Beispiel: Ein Guthaben G wird im 1. Jahr mit 2%, im 2. Jahr mit 5% und im 3. Jahr mit 7% verzinst. Aufgrund der Wachstumsfaktoren ergibt sich nach 3 Jahren daher ein Guthaben von G · 1.02 · 1.05 · 1.07. Das gleiche Guthaben ergibt sich über den Zeitraum von 3 Jahren bei einem konstanten Zinssatz durch: (1 + p)3 · G = G · 1.02 · 1.05 · 1.07, daher 1 + p = 3 1.02 ⋅ 1.05 ⋅ 1.07

Mittelwerte Harmonisches Mittel: Das geometrische Mittel H wird für n Messwerte berechnet durch: H=

n n = n 1 1 1 1 + + ... ∑ x1 x2 x n i = 1 xi

Eigenschaften: • Der Kehrwert des harmonischen Mittels ist das arithmetische Mittel der Kehrwerte. • Wird in Ausnahmefällen anstelle des arithmetischen Mittels verwendet. Voraussetzung ist, dass die Bezugseinheiten eine einheitliche Länge besitzen. • Anwendung etwa gleich lange Streckenabschnitte eines Flusses in denen unterschiedliche Fließgeschwindigkeiten auftreten, oder etwa bei Fahrgeschwindigkeiten.

Mittelwerte Beispiel: Fährt man 100 km mit 50 km/h und dann 100 km mit 100 km/h, dann legt man 200 km in 3h zurück. Die Durchschnittsgeschwindigkeit ist das harmonische Mittel und beträgt ~66.6 km/h. Dabei erfolgt der Bezug auf die Teilstreckenlängen. H=

2 1 1 + 50 100

= ~66.6

Im Unterschied dazu würde man das arithmetische Mittel verwenden wenn die Angabe auf die Teilgeschwindigkeiten bezogen wäre, dass man also 2 h mit 50 km/h fährt und dann 1 h mit 100 km/h. Da man 200 km in 3 h zurücklegt beträgt die Durchschnittsgeschwindigkeit entsprechend ~66.6 km/h.

Streuungsmaße Spannweite: Die Spannweite R bezeichnet die Different zwischen dem maximalen und dem minimalen Wert einer Verteilung: R = xmax - xmin

Eigenschaften: • Beschreibt die Größe des Intervalls, nicht aber die Verteilung der Daten.

Streuungsmaße Durchschnittliche Abweichung: Die durchschnittliche Abweichung d bezieht sich auf den arithmetischen Mittelwert und wird für n Messwerte berechnet durch: d =

1 n ⋅ ∑ |x − x | n i =1 i

Eigenschaften: • Dient als Charakterisierung der Aussagekraft des arithmetischen Mittels für die Häufigkeitsverteilung einer Stichprobe. • Die Aussagekraft ist daher um so größer, je besser das arithmetische Mittel zur Charakterisierung der Zentraltendenz geeignet ist.

Streuungsmaße Beispiel: Bezug zum arithmetischen Mittel für Häufigkeiten.

Streuungsmaße Standardabweichung: Die Standardabweichung σ bezeichnet die Streuung um den arithmetischen Mittelwert und wird für n Messwerte berechnet durch: 1 n σ = ⋅ ∑ ( xi − x ) 2 n i =1 Eigenschaften: • Die Standardabweichung lässt sich auch als Maß für die mittlere Abweichung der Werte voneinander auffassen. Allerdings werden durch das Quadrieren extreme Werte bei der Standardabweichung stärker berücksichtigt als bei der mittleren Abweichung. • Die Standardabweichung ist zwar das gebräuchlichste Maß für die Angabe der Streuung einer Verteilung um das Mittel, bei Vergleichen von unterschiedlichen Verteilungen kann sie jedoch nur verwendet werden, wenn die arithmetischen Mittel der Verteilungen in etwa gleich sind.

Streuungsmaße Standardabweichung: Die Standardabweichung σ bezeichnet die Streuung um den arithmetischen Mittelwert und wird für n Messwerte berechnet durch: 1 n σ = ⋅ ∑ ( xi − x ) 2 n i =1 Eigenschaften: • Innerhalb des Bereichs der doppelten Standardabweichung 2σ um das arithmetische Mittel x liegen bei einer normalverteilten Stichprobe ~95% aller Werte.

Streuungsmaße Varianz: Die Varianz σ2 wird für n Messwerte berechnet durch: 1 n σ = ⋅ ∑ ( xi − x ) 2 n i =1 2

Eigenschaften: • Stellt die durchschnittliche quadratische Abweichung der Einzelwerte vom arithmetischen Mittelwert dar. • Je kleiner die Varianz ist, desto enger streuen die Einzelwerte um das arithmetische Mittel.

Streuungsmaße Vergleich der Eigenschaften der verschiedenen Streuungsmaße: • Mittlere Abweichung und Standardabweichung haben gegenüber der Varianz den Vorteil, dass sie die Streuung der Variablenwerte in der ursprünglichen Einheit messen und somit inhaltlich leichter zu interpretieren sind. Ist m (oder °C) z.B. die Maßeinheit der Variablen, so werden die mittlere Abweichung und die Standardabweichung ebenfalls in m (oder °C) angegeben, die Varianz dagegen in m² (oder °C²). • Diese Maße eignen sich besonders zur Charakterisierung unimodaler, symmetrischer Verteilungen. Je schiefer eine Verteilung ist, desto notwendiger ist die Benutzung von Häufigkeitstabellen und -diagrammen. • Varianz und Standardabweichung haben in der Statistik insgesamt eine größere Bedeutung als die mittlere Abweichung, weil sie sich leicht für theoretische Verteilungen berechnen lassen. Relative Streuungsmaße • Die bisherigen Streuungsmaße sind absolute Größen und dann für Vergleiche kaum einsetzbar, wenn man etwa die Streuung mehrerer Stichproben mit verschiedenen Mittelwerten vergleichen will. Dazu werden relative Streuungsmaße betrachtet.

Streuungsmaße Variationskoeffizient: Der Variationskoeffizient υ wird berechnet durch:

υ=

σ | x|

⋅100 für x ≠ 0

Eigenschaften: • Stellt die relative Standardabweichung dar, wird meist in % angegeben. • Wird verwendet falls unterschiedliche Verteilungen vorliegen und diese miteinander verglichen werden sollen. • Die Verwendung des Variationskoeffizienten besitzt Voraussetzungen, die in der geowissenschaftlichen Praxis von großer Bedeutung sind: Die verwendete Skala muss einen absoluten Nullpunkt (Verhältnisskala) oder konstante Klassengrößen haben. Daraus folgt z.B., dass Temperaturmessungen in °C erst in K umgerechnet werden müssen, bevor ihre Streuungen ausgedrückt als Variationskoeffizient vergleichend interpretiert werden können.

Streuungsmaße Beispiel: Körpergrößen in unterschiedlichen Altersgruppen.

Körpergröße

Anzahl

Arithm. Mittel

Gruppe A Gruppe B

77 51

112.6 162.6

Stand. abw.

Variationskoeffizient

4.64 5.12

4.12% 3.15%

Streuungsmaße Kenndaten für Einkommensverteilung: Arithmetisches Mittel: 6.12 Modus: 6.7 Modus, klassifiziert: 6.52 Median: 6.5 Median, klassifiziert: 6.31 Q1: 4.9 Q3: 7.5 Spannweite: 8.2 Durchschnittliche Abweichung: 1.79 Varianz: 5.12 Standardabweichung: 2.26 Variationskoeffizient: 36.95% Interquartilsabstand: 2.6

Streuungsmaße Skalentyp

Mittelwerte

Streuungsmaße

Nominal

Modus

Ordinal

Median Modus Quartil

Spannweite Interquartilsabstand

Intervall

Median Modus Quartil Arithmetisches Mittel

Spannweite Interquartilsabstand Standardabweichung Varianz

Verhältnis

Median Modus Quartil Arithmetisches Mittel Geometrisches Mittel

Spannweite Interquartilsabstand Standardabweichung Varianz Variationskoeffizient

Standardisierung Standardisierung: Die für die Variable x mit n Elementen standardisierte Variable z wird berechnet durch: zi =

xi − x

σx

für 1≤ i ≤ n

, wobei x das arithmetische Mittel und σx die Standardabweichung der Variablen x ist.

Eigenschaften: • Ziel der Standardisierung metrischer Variablen ist es, die Messwerte so zu transformieren, dass sie das arithmetische Mittel x = 0 und die Standardabweichung (und Varianz) σ = 1 aufweisen. Damit werden verschiedene Variablen vergleichbar. n 1 n 1 n xi − x 1 = ⋅ = ⋅ = ⋅ z ∑ zi ∑ ∑ (xi − x) = 0 σ ⋅ σ n i =1 n i =1 x n x i =1 n

2

1 n 1 n  xi − x 1 n xi − x  1 1 2 − ⋅∑ σ z = ⋅ ∑ ( zi − z ) = ⋅ ∑  = ⋅ n i =1 n i =1  σ x n i =1 σ x  n σ x2

∑ ( xi − x ) 2

n 1 i =1 = 1 =1 ∑ ( xi − x ) 2 = ⋅ n ⋅ n n i =1 ∑ ( xi − x ) 2 i =1

Standardisierung Beispiel: Körpergrößen in unterschiedlichen Altersgruppen.

Arithm. Mittel Standardabw.

Gruppe A 1.73 1.69 1.90 1.92 1.88 1.77 1.78

Gruppe A, Standardisiert -0.96 -1.44 1.08 1.32 0.84 -0.48 -0.36

Gruppe B 1.56 1.44 1.65 1.63 1.61 1.49 1.60

Gruppe B, Standardisiert -0.12 -1.80 1.14 0.86 0.58 -1.10 0.44

1.81 0.08

0.00 1.00

1.57 0.07

0.00 1.00

Standardisierung Beispiel: Körpergrößen in unterschiedlichen Altersgruppen. Gruppe B

Gruppe A 2,00

x+σ

1,90 1,80

2,00 1,90 1,80

1,70

x-σ

1,60

1,70 1,60

1,50

1,50

1,40

1,40

1,30

1,30

1

2

3

4

5

6

1

7

2

3

4

Gruppe A, Standardisiert

Gruppe B, Standardisiert

1,50

1,50

1,00

1,00

0,50

0,50

0,00

0,00

-0,50

1

2

3

4

5

6

7

-0,50

-1,00

-1,00

-1,50

-1,50

-2,00

-2,00

1

2

3

4

5

6

5

6

7

7