Regresión y diagnosis
Al graficarse los datos de riqueza específica vs área se observan valores extremos (outliers). Se aconseja la transformación de las variables (log).
Modelo de regresión y residuos
Yi = β o + β 1 X i +ε i
d i = yi − yˆ i
n
RSS = ∑ (Yi − Yˆi ) 2 i =1
Pares de observaciones con extracción de medición en X (valor Xi) e Y (valor Yi). Modelo fijado con i=1,2,…n réplicas. Buscando el mejor modelo que fije los datos observados implica menor residuo (di). El residuo es la diferencia entre valor observado (yi) y el predicho por la ecuación de regresión ( yˆ )
La línea de regresión debe fijar a todos los datos en cjto y por eso surge la suma residual de cuadrados (RSS). Minimizar RSS para encontrar la línea que resulte en el promedio más pequeño de diferencias entre cada y e yˆ
1 n s xy = ( X i − X )(Yi − Y ) ∑ n − 1 i =1
n
SSY = ∑ (Yi − Y )
n
2
i =1
βˆ1 =
Recordando lo que significa covarianza muestral (sxy). Para Galápagos Sxy=0.41.
S XY SS XY = 2 S x SS X
SS x = ∑ ( X i − X ) i =1
2
Si SSy se divide por (n-1) se obtiene la varianza muestral de la variable y. SSx es var de la variable X.
Estimación de parámetros por mínimos cuadrados. Designa nuestra estimación de la pendiente.βˆ1En Islas Galápagos βˆ1 =0.41/1.24=0.331. Pendiente en unidades de ΔY / ΔX . El cambio en log(cantidad de especies) /el cambio en log (área de isla).
βˆ0 = Y − βˆ1 X
Estimación de la ordenada al origen o intercepto (cuanto vale Y(log abundancia sps) cuando X vale cero (log (area)=0 implica que X=1 km2.
Hasta el momento no se determinó ningún supuesto de distribución en cjto de valores de Y. Pero los errores deben presentar una distribución normal con media cero y varianza (σ2). Si σ2 es grande, los datos observados estarán ampliamente distribuidos alrededor de la línea de regresión. Entonces pretendemos un σ2 pequeño. n
RSS = σˆ = n−2 2
∑ [Y n
σˆ 2 =
i =1
i
∑ (Y i =1
i
− Yˆi ) 2
n−2
2 − ( βˆ0 − βˆi X i )]
n−2
gl (grados de libertad)=n-2 porque son dos parámetros a estimar: intercepto βˆ0 y pendiente (βˆ1 ). En islas Galápagos σ2=0.32.
SCT= suma cuadrados totales, variabilidad total de Y (SSy) SCE= suma cuadrados debida a regresión, componente sistemático (SSreg) SCR= suma cuadrados residual que es lo aleatorio que no responde el modelo lineal simple (RSS)
Componentes de la Varianza y su partición SSy representa el total de variación de Y que tratamos de particionar en componente aleatorio (muestreo aleatorio de distribución normal, RSS) y componente sistemático que se debe a la relación de regresión (SSreg). Lo que se espera con el modelo es que SSreg>>RSS. Así la mayor variación o cambios en la variable respuesta se debe a la regresión. SSy=SSreg+RSS SSreg=SSy-RSS
r2 =
SS reg SS y
=
SS reg SS reg + RSS
Coeficiente de determinación (r2): la proporción de variación de en Y que puede ser atribuida a X a través de una regresión lineal simple. r2 varía entre 0 y 1porque es proporción. Si RSS es pequeño implica que σ2 es pequeño y r2 será grande por lo que más estrechamente los datos se acercan a la línea de regresión fijada.
r=
SS xy ( SS x )( SS y )
=
S xy Sx Sy
Coeficiente de correlación producto-momento (Pearson),r: positivo si β1>0 y negativo si βo