SS SS S S

muestral (s xy. ). Para Galápagos S xy. =0.41. ∑. = −. = n i i. Y. YY. SS. 1. 2. ) (. Si SS y se divide por (n-1) se obt
1MB Größe 6 Downloads 138 Ansichten
Regresión y diagnosis

Al graficarse los datos de riqueza específica vs área se observan valores extremos (outliers). Se aconseja la transformación de las variables (log).

Modelo de regresión y residuos

Yi = β o + β 1 X i +ε i

d i = yi − yˆ i

n

RSS = ∑ (Yi − Yˆi ) 2 i =1

Pares de observaciones con extracción de medición en X (valor Xi) e Y (valor Yi). Modelo fijado con i=1,2,…n réplicas. Buscando el mejor modelo que fije los datos observados implica menor residuo (di). El residuo es la diferencia entre valor observado (yi) y el predicho por la ecuación de regresión ( yˆ )

La línea de regresión debe fijar a todos los datos en cjto y por eso surge la suma residual de cuadrados (RSS). Minimizar RSS para encontrar la línea que resulte en el promedio más pequeño de diferencias entre cada y e yˆ

1 n s xy = ( X i − X )(Yi − Y ) ∑ n − 1 i =1

n

SSY = ∑ (Yi − Y )

n

2

i =1

βˆ1 =

Recordando lo que significa covarianza muestral (sxy). Para Galápagos Sxy=0.41.

S XY SS XY = 2 S x SS X

SS x = ∑ ( X i − X ) i =1

2

Si SSy se divide por (n-1) se obtiene la varianza muestral de la variable y. SSx es var de la variable X.

Estimación de parámetros por mínimos cuadrados. Designa nuestra estimación de la pendiente.βˆ1En Islas Galápagos βˆ1 =0.41/1.24=0.331. Pendiente en unidades de ΔY / ΔX . El cambio en log(cantidad de especies) /el cambio en log (área de isla).

βˆ0 = Y − βˆ1 X

Estimación de la ordenada al origen o intercepto (cuanto vale Y(log abundancia sps) cuando X vale cero (log (area)=0 implica que X=1 km2.

Hasta el momento no se determinó ningún supuesto de distribución en cjto de valores de Y. Pero los errores deben presentar una distribución normal con media cero y varianza (σ2). Si σ2 es grande, los datos observados estarán ampliamente distribuidos alrededor de la línea de regresión. Entonces pretendemos un σ2 pequeño. n

RSS = σˆ = n−2 2

∑ [Y n

σˆ 2 =

i =1

i

∑ (Y i =1

i

− Yˆi ) 2

n−2

2 − ( βˆ0 − βˆi X i )]

n−2

gl (grados de libertad)=n-2 porque son dos parámetros a estimar: intercepto βˆ0 y pendiente (βˆ1 ). En islas Galápagos σ2=0.32.

SCT= suma cuadrados totales, variabilidad total de Y (SSy) SCE= suma cuadrados debida a regresión, componente sistemático (SSreg) SCR= suma cuadrados residual que es lo aleatorio que no responde el modelo lineal simple (RSS)

Componentes de la Varianza y su partición SSy representa el total de variación de Y que tratamos de particionar en componente aleatorio (muestreo aleatorio de distribución normal, RSS) y componente sistemático que se debe a la relación de regresión (SSreg). Lo que se espera con el modelo es que SSreg>>RSS. Así la mayor variación o cambios en la variable respuesta se debe a la regresión. SSy=SSreg+RSS SSreg=SSy-RSS

r2 =

SS reg SS y

=

SS reg SS reg + RSS

Coeficiente de determinación (r2): la proporción de variación de en Y que puede ser atribuida a X a través de una regresión lineal simple. r2 varía entre 0 y 1porque es proporción. Si RSS es pequeño implica que σ2 es pequeño y r2 será grande por lo que más estrechamente los datos se acercan a la línea de regresión fijada.

r=

SS xy ( SS x )( SS y )

=

S xy Sx Sy

Coeficiente de correlación producto-momento (Pearson),r: positivo si β1>0 y negativo si βo