introducción a la estadística descriptiva para economistas

Formentera. La información correspondiente a los turistas llegados a la isla en temporada alta se recoge en el cuadro 10
957KB Größe 43 Downloads 183 Ansichten
Universitat de les Illes Balears Col.lecció Materials Didàctics

INTRODUCCIÓN A LA ESTADÍSTICA DESCRIPTIVA PARA ECONOMISTAS

Joaquín Alegre Martín Magdalena Cladera Munar

Palma, 2002

ÍNDICE

1

INTRODUCCIÓN: ¿Qué es...?

1 2 2 4 4 6

¿Qué es una variable? ¿Qué es la estadística descriptiva? ¿Cuál es el ámbito de la estadística descriptiva en el análisis económico? ¿Qué son la población y la muestra? ¿Qué es un parámetro? ¿Qué es un estadístico? ¿Qué es una muestra aleatoria? Estructura del libro.

7

CAPÍTULO I. Descripción de Variables Cualitativas.

7 8 11 12 14 15 16

Variables cualitativas nominales y ordinales. Distribución de frecuencias. Frecuencia relativa y frecuencia relativa acumulada. Diagrama de barras. Moda. Mediana. Pictograma. Diagrama de Pareto.

19

CAPÍTULO II. Distribución de Frecuencias e Histograma.

19 19 19 23 26

Escala de intervalo y de cociente. Variables discretas y continuas. Distribución de frecuencias. Diagrama de barras. Histograma. Cómo trabajar con los histogramas.

35

CAPÍTULO III. Estadísticos Descriptivos de una Variable Cuantitativa.

35 35

Medidas de posición central. Moda y mediana.

36 38 38 40 43 43 45 48

79 81 89 89 91 91

Media aritmética. Propiedades de la media. Media ponderada. Media ponderada y muestreos complejos. Representatividad de la media. Media cortada (trimmed mean). Media geométrica. Utilización de la media, moda y mediana para detectar la asimetría de una distribución. Cuartiles, deciles y percentiles. Medidas de dispersión: rango, rango intercuartílico, varianza, desviación estándar, coeficiente de variación. Discusión y propiedades de la varianza, desviación estándar y coeficiente de variación. Relación entre la media y la desviación estándar: Desigualdad de Chebychev. El Diagrama de caja. Diagrama de caja. Ayudas para su interpretación. Medidas de asimetría y curtosis. Medida de asimetría de Fisher. Medida de asimetría de Pearson. Medida de apuntamiento o curtosis.

101

CAPÍTULO IV. Análisis Bivariante de Variables Cualitativas.

101 108 113 119

Distribución conjunta de variables. Tabla de contingencia. Chi-cuadrado y C de contingencia. Lambda. Gamma, Tau-b y Tau-c.

133

CAPÍTULO V. El Coeficiente de Correlación.

133 134 137 144 145 148 148 149 153

Asociación lineal entre dos variables. Asociación lineal positiva o negativa. Estadístico de covarianza. Propiedades de la covarianza. Coeficiente de correlación lineal. Propiedades del coeficiente de correlación. Matriz de correlaciones. Algunos errores en la interpretación del coeficiente de correlación. El coeficiente de correlación de rangos de Spearman.

51 57 58 76

177

CAPÍTULO VI. Ajuste de una Recta.

179 182 186 189 195 196 198 198 201 204 205 205

De la propuesta de causalidad a la recta de regresión. Obtención de a y b por mínimos cuadrados ordinarios. Derivación de las expresiones de mco para a y b. Ejemplos de cálculo de la recta de regresión. Ajustes no lineales. ¿Siempre es posible un buen ajuste? Algunas propiedades del error del ajuste. Medida de bondad del ajuste: Coeficiente de determinación R2. Límites del coeficiente de determinación. Análisis gráfico de los errores del ajuste. ¿Existe alguna relación entre el coeficiente de correlación y el coeficiente de determinación? Dos ejemplos numéricos sobre el coeficiente de determinación.

231

BIBLIOGRAFÍA.

INTRODUCCIÓN: ¿Qué es...?

¿Qué es una variable?

En estadística, como en matemáticas o economía, se emplea el concepto de variable para referirnos a cualquier característica, que toma valores diferentes en un conjunto de observaciones. En economía, por ejemplo, definimos la renta como una variable. Al hacerlo podemos estar pensando en los ingresos anuales de las familias de una región, en la que cada familia tendrá un volumen de ingresos distinto. También podemos pensar en los ingresos agregados de la región, medidos a lo largo del tiempo (cada trimestre o cada año), y considerar que la región es el individuo sobre el que se mide la variable. Las dos interpretaciones del concepto de renta que apuntamos son correctas, utilizándose en ámbitos distintos. Lo que es esencial en su definición es la posibilidad de medir el nivel de ingresos de una manera sistemática (sea para un conjunto de familias en un momento del tiempo, sea para un único individuo, familia o región a lo largo de un periodo), obteniendo observaciones de una cantidad variable. En el caso de la renta estamos considerando una variable de tipo cuantitativo. Hablamos de una variable cuantitativa cuando la característica que se mide toma valores numéricos. Muchas de las variables económicas son de este tipo, pero también hay variables económicas de tipo cualitativo. Entendemos por variable cualitativa aquella que toma valores no numéricos. La característica que se mide en el individuo sería, en este caso, una cualidad (un atributo) del mismo. Por ejemplo, la distinción de los consumidores por sexo, el tipo de familia (su composición), el nivel de estudios o la categoría profesional son variables de tipo cualitativo que forman parte de los análisis de los patrones de consumo. La pertenencia a un sector industrial concreto, el tipo de mercado (nacional o internacional) en el que se opera, la existencia de barreras de entrada son características que se estudian en economía industrial. La distinción entre variables cuantitativas y cualitativas es importante desde el punto de vista estadístico porque las técnicas que pueden emplearse en uno u otro caso son diferentes.

¿Qué es la estadística descriptiva? ¿Cuál es el ámbito de la estadística descriptiva en el análisis económico?

La estadística descriptiva es un conjunto de métodos cuyo objetivo es ordenar las observaciones, resumir la información disponible y obtener las medidas cuantitativas que describen sus características. La descripción es cuantitativa y pretende ser lo más sintética posible. La teoría económica se suele interesar por variables económicas en un nivel alto de abstracción. Los campos de la macroeconomía y microeconomía, la economía del consumo y economía de la producción, la economía financiera, etc. toman como referencia agentes económicos, sobre los que se definen modelos de comportamiento. Estos agentes, definidos como referencias abstractas tienen, sin embargo, su conexión con la realidad económica. El ámbito de la estadística se aplica a esos individuos reales, estudiando variables como el gasto familiar, los beneficios empresariales o el índice de paro de un país. Las técnicas estadísticas también se aplican al control de calidad de la producción, a la gestión de carteras de acciones, etc., campos de menor abstracción, en los que las variables a estudiar pueden ser tan concretas como la producción diaria de una máquina o el precio de una acción. En cualquiera de los campos en los que se aplique, la estadística descriptiva pretende ayudar a plantear y resolver los problemas de la economía.

¿Qué son la población y la muestra?

Al conjunto de individuos objetivo del análisis se le denomina población. Una muestra es una parte de la población. Cuando se trabaja con una muestra las conclusiones que se obtienen deben restringirse, inicialmente, a ésta. Extraer conclusiones más generales, aplicables a toda la población, sólo puede hacerse de una manera limitada, siendo necesario entre otras cosas que la muestra sea representativa y que la generalización de las conclusiones se haga de una forma prudente y rigurosa. Las técnicas de la estadística inferencial facilitan esa generalización desde la muestra a la población. Las técnicas descriptivas se pueden aplicar a toda la población, si esta se conoce, o a una muestra. En el caso de disponer únicamente de información muestral se deberán aplicar las técnicas de la estadística inferencial si se quieren generalizar las conclusiones obtenidas.

El trabajo con muestras es usual es economía. Uno de los ejemplos más conocidos para justificar el uso de las muestras se encuentra en el terreno del control de calidad. Una empresa dedicada a la producción de bombillas, las habrá diseñado garantizando un tiempo de vida determinado. Antes de servir su producto la empresa deseará comprobar la fiabilidad real de su oferta realizando algún tipo de prueba, pero obviamente esto no lo podrá hacer con toda la producción, puesto que la destruiría. Una muestra representativa permitirá a la empresa comprobar el tiempo de duración real de sus bombillas. Ejemplos de situaciones similares no son difíciles de encontrar. Piense, por ejemplo, en las empresas de auditoría contable cuando acceden a la información de una empresa. Si la empresa auditora se viera obligada a seguir cada una de los procesos de la empresa (desde el primer movimiento contable al archivo de la última factura) se vería metida en una labor inabordable. La selección, al azar, de una muestra de algunos movimientos contables puede ser suficiente para verificar la corrección de la toda la gestión.

La necesidad de trabajar con muestras responde en muchas ocasiones a un ahorro en los costes de obtención de la información. Si puede obtenerse información esencial y generalizable a partir de una muestra no será preciso acceder a toda la población.

En ocasiones, el recurrir a las muestras no obedece a una cuestión de costes, sino a la imposibilidad de acceder a todas las observaciones. Esta situación es frecuente en economía cuando se recoge la evolución temporal del valor de una variable. Algunos modelos económicos consideran que, en un momento del tiempo, la población de interés son todos los valores posibles que puede tomar una observación. Por ejemplo, imagine que está siguiendo la evolución diaria del precio de una acción en un mercado bursátil a lo largo de un año. Cada día usted observará el precio de la acción a la hora del cierre de la sesión de bolsa, de manera que si el mercado abre durante doscientos días, dispondrá de doscientos precios. Respecto al año, ese conjunto de doscientas observaciones, ¿se considera una población o una muestra del precio de la acción? Se dispone de todos los precios de cierre observados a lo largo del año, pero no de todos los precios que ha tomado la acción. En un día concreto, el precio de la acción puede tomar distintos valores y es hasta cierto punto una cuestión de azar el que a la hora del cierre se observe un precio determinado. Las doscientas observaciones pueden entenderse como una muestra de todos los precios que puede haber tomado la acción (que definirían la población). En este caso, los posibles valores de una variable en un momento del tiempo definirían la población, el valor observado se consideraría una realización muestral.

El empleo de información muestral obedece a veces a la imposibilidad de observar toda la población.

¿Qué es un parámetro? ¿Qué es un estadístico?

Cuando queremos entender lo que ocurre con unos datos, lo más adecuado es resumir los valores individuales. Estaremos interesados en conocer cuál es el valor representativo de un grupo o hasta qué punto las observaciones se alejan de ese valor. Cuando se está estudiando una población, estas medidas que describen las características de los datos se denominan parámetros poblacionales. El valor medio de una variable en una población sería un parámetro, también lo es la proporción de individuos de la población que tienen una característica. La discusión de algunos de estos parámetros es parte de la estadística. En general, daremos el nombre de estadístico a cualquier fórmula aplicada en la información muestral. Muchos de los estadísticos que se utilizan pretenden ser estimaciones de los parámetros de la población. Si sólo disponemos de una muestra, podemos calcular el valor medio de las observaciones y suponer que esa media muestral puede ser una buena aproximación al valor del parámetro, la media poblacional. La relación entre el parámetro y su estimación en la muestra es parte esencial de la estadística inferencial. No obstante, los términos parámetro y estadístico son palabras de uso frecuente también en la estadística descriptiva.

¿Qué es una muestra aleatoria?

Para que las muestras sean útiles deben ser representativas de la población. Una manera de garantizar la representatividad de una muestra consiste en obtenerla mediante procedimientos aleatorios. Los muestreos aleatorios garantizan la representatividad de la muestra al basarse en el azar. Si se desea extraer una muestra de cien observaciones de una población de mil individuos, parece razonable seleccionar aleatoriamente los cien individuos entre toda la población. La selección aleatoria más sencilla es el muestreo aleatorio simple (m.a.s.) En su diseño ideal, el m.a.s. consistiría en asignar un número a cada uno de los elementos de la población y seleccionar al azar (con igual probabilidad para cada número) el conjunto de individuos que formarán parte de

la muestra. Puede imaginar que este diseño “ideal”, para ser operativo necesita en ocasiones de otros criterios que lo complementen (qué ocurre cuando la población no puede numerarse, por ejemplo), pero queremos destacar ahora la idea de que mediante diseños muestrales aleatorios se pretende conseguir muestras lo más representativas posibles de la población.

Los diseños de obtención de las muestras son a veces más complejos que el muestreo aleatorio simple. Si sabemos que una población se distribuye aproximadamente igual entre los dos sexos, podría interesarnos que ese porcentaje se mantuviera en la muestra. Por azar, sería posible obtener una muestra en la que la mayoría de los individuos perteneciera a uno de los dos sexos. Un diseño muestral más rico podría dividir la población en dos (según su sexo), realizando un m.a.s. en cada una de las partes, es decir, seleccionando al azar la mitad de la muestra entre la población masculina y la otra mitad entre la población femenina. El diseño ya no es puro azar, puesto que éste se sacrifica parcialmente para garantizar la máxima representatividad. La complejidad estadística del diseño muestral puede aumentar rápidamente, cuando se imponen más criterios. Lo que resulta esencial es que bajo diseños más o menos complejos, siempre aparece finalmente un procedimiento de selección basado en el azar.

El estudio y diseño de los diferentes tipos de muestreo es una parte de la estadística inferencial y no se discuten en este libro. Sólo en un punto del análisis descriptivo se produce un cruce con la idea de población y es cuando a cada individuo de la muestra se le asocia un factor de elevación poblacional. El factor de elevación poblacional indica el número de individuos de la población a los que representa cada uno de los individuos de la muestra. Imaginemos una población con 1000 individuos, de la cual se quiere extraer una muestra de diez observaciones. ¿A cuántos individuos de la población representa cada uno de los individuos de la muestra? Si se trata de un m.a.s., cada uno de los individuos de la muestra ha tenido igual oportunidad de ser elegido y cada individuo representará a 1000/10=100 individuos en la población. El factor de elevación de cada elemento de la muestra será igual a 100. El Instituto Nacional de Estadística, por ejemplo, realiza gran parte de su trabajo basándose en muestras, aunque ofrece sus resultados al nivel de la población. Para ello utiliza los factores de elevación calculados previamente (en función del particular diseño muestral). Si se quiere “describir la población” empleando la muestra, puede resultar útil emplear estos factores.

Estructura del libro

El libro se estructura en seis capítulos. Los tres primeros tratan el análisis descriptivo de una única variable (análisis descriptivo univariante): se dedica un corto capítulo al tratamiento de variables cualitativas y dos capítulos a las variables de tipo cuantitativo. Los capítulos siguientes se centran en el análisis de las relaciones entre dos variables (relaciones bivariantes). En el capítulo cuarto se estudian las relaciones bivariantes entre variables cualitativas, mientras que el quinto y sexto están dedicados a las relaciones bivariantes entre variables cuantitativas. En cada capítulo los conceptos teóricos están acompañados de un número amplio de ejemplos.

CAPÍTULO I. Descripción de VARIABLES CUALITATIVAS

En este capítulo se exponen las técnicas más sencillas que se utilizan para describir una variable cualitativa. Definiremos las variables cualitativas nominales y ordinales, los conceptos asociados a la distribución de frecuencia y los limitados estadísticos que pueden emplearse en la descripción. El capítulo se cierra con algunos de los procedimientos gráficos empleados para representar las distribuciones de estas variables.

Variables cualitativas nominales y ordinales. En una encuesta sobre el gasto turístico se pregunta a los visitantes de una autonomía cuál es la impresión que han obtenido de su viaje. La pregunta y las posibles respuestas son las siguientes: • • • •

⇒ La impresión que ha tenido de su viaje ha sido: Muy buena. Buena. Normal. Mala.

También se pregunta cuál es la categoría socio-profesional en la que se sitúa el encuestado: • • • • • • • • •

⇒ Su profesión es: Profesional liberal. Directivo o empresario. Administrativo. Trabajador manual. Trabajador Autónomo. Funcionario. Jubilado. Estudiante Otras.

Las anteriores variables son de tipo cualitativo, calificándose como de tipo ordinal (la primera) y nominal (la segunda). La distinción entre ellas es clara. En la pregunta sobre la impresión del viaje, la respuesta “muy buena” indica un nivel de satisfacción mayor que “buena”, ésta última respuesta estaría a su vez por encima de “normal” y “mala” señalaría en nivel mínimo de satisfacción. Las respuestas pueden, en algún sentido, ordenarse de menos a más.

En cambio, no es posible ordenar de menos a más las respuestas de una variable como la categoría profesional. Las variables cualitativas nominales únicamente ponen nombre a una característica, las variables ordinales llevan asociadas un orden en las respuestas. Las categorías de una variable nominal, al contrario de las de una variable ordinal, no pueden ordenarse de menos a más.

Distribución de frecuencias. Frecuencia relativa y frecuencia relativa acumulada. La principal herramienta de análisis de una variable de tipo cualitativo es el simple recuento del número de los casos dentro de cada categoría. Además de referirnos a las categorías de una variable, emplearemos también el término “valores” de la variable. Supongamos que tenemos una variable A, que puede tomar las categorías A1, A2,…, AI. El primer objetivo es conocer cuántos individuos tienen cada característica. La principal herramienta de análisis de una variable de tipo cualitativo es el simple recuento del número de los casos dentro de cada categoría.

En estadística, el número de veces que se repite una de las categorías o valores de la variable se denomina frecuencia o, de manera más precisa, frecuencia absoluta (que denotaremos ni). Por distribución de frecuencias se entiende el registro de todos las posibles categorías o valores de la variable, junto con sus frecuencias asociadas. Además de las frecuencias absolutas se suelen presentar las frecuencias relativas de cada categoría. La frecuencia relativa se define como la frecuencia absoluta dividida por el total de observaciones:

fi =

ni , n

i = 1 ,K , I

Cuando se trabaja con una variable de tipo ordinal (cuyas categorías se pueden ordenar de menor a mayor) se pueden calcular las frecuencias acumuladas. La idea de acumulación facilita conocer rápidamente el número de observaciones que están por debajo de un determinado valor o categoría. Se distingue entre frecuencias acumuladas absolutas y relativas. La frecuencia absoluta acumulada se define como:

i

Ni = ∑ n j

,

i = 1,K I .

j =1

Y la frecuencia relativa acumulada como: i

Fi =

∑n j =1

n

j

=

Ni , i = 1,K,I n

Recuerde que tiene sentido hablar de valores acumulados cuando las respuestas de la variable se han ordenado de menor a mayor, lo que sólo es posible si la variable cualitativa es de tipo ordinal.

La imagen estándar de una distribución de frecuencias es tan sencilla como la que se muestra en el cuadro 1. En la misma aparecerían, para el total de n observaciones, los I distintos atributos de la variable, sus frecuencias absolutas, las frecuencias relativas y las frecuencias relativas acumuladas.

Cuadro 1

Categorías A1 A2 … AI

Distribución de frecuencias Frecuencias Frecuencias Frecuencias Absolutas Relativas Relativas acumuladas n1 n1 /n n1 /n n2 n2 /n (n1+n2) /n … … … nI nI /n (n1+…+nI) /n

Ejemplo 1. Régimen de propiedad de la vivienda. El régimen de propiedad de la vivienda familiar puede considerarse como una variable cualitativa, distinguiendo tres posibles categorías: la vivienda está en alquiler, la vivienda es de propiedad con la hipoteca pendiente o la vivienda es de propiedad sin hipoteca. Ante una muestra concreta de familias, podemos describir de una manera cuantitativa su relación con la propiedad de su vivienda. En el cuadro 2 se muestra la distribución de frecuencias de una muestra de 4791 declarantes de IRPF. Aunque no es estrictamente necesario suele ser cómodo, cuando se graban los datos, convertir las categorías en etiquetas numéricas. En nuestro ejemplo se ha definido una variable denominada “vivienda” que toma un valor igual a 0 cuando la vivienda es de alquiler, igual a 1

cuando la vivienda es de propiedad pero tiene la hipoteca aún vigente y valor 2, si la vivienda es de propiedad y sin hipoteca.

Cuadro 2 VIVIENDA

POSESIÓN VIVIENDA HABITUAL(0,1,2)

Value Label

Value

Alquiler Hipoteca vigente Propiedad

0 1 2 Total

Valid cases

4791

Frequency 1764 960 2067 ------4791

Missing cases

Percent 36,8 20,0 43,1 ------100,0

Cum Percent 36,8 56,9 100,0

0

En el cuadro 2 aparecen los siguientes conceptos:

• Los valores que toma la variable (Value). Para esta variable los valores 0, 1 y 2 reflejan las categorías de alquiler, vivienda con hipoteca vigente y vivienda de propiedad (en la columna Value Label se muestran las “etiquetas” de la variable).

• La Frecuencia absoluta (Frequency). El número de individuos que tiene cada una de las categorías.

• La frecuencia relativa (Percent) . Definida como el cociente entre la frecuencia absoluta y el número total de observaciones.

• La frecuencia relativa acumulada (Cum Percent). La frecuencia relativa acumulada se define como la suma acumulada de los porcentajes relativos de las categorías anteriores y hasta la propia categoría.

La vivienda en propiedad y ya pagada, con un 43.1% de los declarantes tiene el mayor porcentaje de individuos. La segunda es la categoría de vivienda en alquiler, con un 36.8% de declarantes. Finalmente, la categoría con menos individuos corresponde a la de declarantes que viven en vivienda de propiedad, aún no pagada. La importancia de cada una de las categorías es fácil de percibir cuando el número de categorías de la variable es muy pequeño.

Los porcentajes acumulados no tienen una interpretación “inocente” cuando se tratan variables de tipo cualitativo. La información de que el 56.9% de los individuos viven en régimen de alquiler o en vivienda propia con hipoteca puede ser una información sin sentido.

• La frecuencia relativa se define como la frecuencia en cada clase dividida por el total de observaciones:

fi =

ni n

• La frecuencia relativa acumulada en cada clase se define, una vez ordenadas las respuestas desde la categoría inferior a la superior, como: i

Fi = •

∑n j =1

n

j

=

Ni n

En variables de tipo cualitativo nominal el porcentaje acumulado de frecuencias no debe leerse de manera automática, puesto que al no existir un orden en las categorías, el sentido de la acumulación puede ser confuso.

Diagrama de barras. Los resultados de la distribución de frecuencias se pueden acompañar de ayudas gráficas que facilitan la lectura de la información. El diagrama de barras representa, para cada una de las categorías de la variable (indicada en uno de los ejes de la gráfica), su frecuencia absoluta o relativa (que se muestra en un segundo eje). Su objetivo es disponer de una visualización clara y rápida de la importancia de cada una de las categorías de la variable. En la gráfica 1 se muestra el diagrama de barras correspondiente al ejemplo anterior.

El diagrama de barras representa gráficamente las frecuencias (absolutas o relativas) de la variable.

Gráfica 1 Gráfica de barras 2200

2000

1800

1600

1400

Frecuencia

1200

1000 800 0

1

2

POSESIÓN VIVIENDA (0=Alquiler,1=Hipoteca,2=Propiedad)

Moda. En el Ejemplo 1 sobre el régimen de propiedad de la vivienda uno de los resultados obtenidos era que la categoría con un porcentaje mayor de individuos era la 2 (vivienda en propiedad sin hipoteca). Esta percepción puntual puede convertirse en el primer estadístico de resumen, ya que saber cuál es la categoría más frecuente de una variable dice algo del comportamiento general del grupo de individuos. Conocer el valor con mayor frecuencia permite disponer de una medida sintética de cuál es la tendencia general de las observaciones. A este valor se le denomina moda de la distribución.

La moda de una distribución es el valor de la variable con mayor frecuencia.

En ocasiones, las distribuciones de frecuencias se pueden caracterizar en función de la moda, distinguiendo entre distribuciones con una única moda (distribuciones unimodales) y distribuciones en las que son dos o más de dos los valores que alcanzan la máxima frecuencia (distribuciones bimodales o multimodales, respectivamente). Es difícil encontrar distribuciones empíricas que sean multimodales en el sentido estricto en que aquí se han definido, es decir, que de manera exacta varios valores tengan la misma frecuencia. Sin embargo, resulta interesante detectar distribuciones en las que dos o más valores tienen frecuencias más altas que los

demás. En la práctica estas distribuciones se denominan también multimodales. La explicación de esta flexibilidad puede encontrarla en la comparación de las gráficas 2 y 3. Ambas representan dos distribuciones ficticias de una variable que tomaría ocho categorías. En la primera distribución se observa una doble moda, con las categorías A3 y A7 con superior e igual frecuencias absolutas. En la segunda distribución la moda se encuentra en la categoría A3, pero resulta obvio que cualquier comentario sobre la distribución que ignorase la categoría A7 “falsearía” la imagen de conjunto que se desea transmitir. Hablar de una distribución bimodal, con una primera moda situada en la categoría A3 y una segunda moda en la categoría A7 resultaría ser un retrato más fiel de las observaciones. Gráfica 2 120

100

80

60

Frecuencias

40

20

0 A1

A2

A3

A4

A5

A6

A7

A8

A3

A4

A5

A6

A7

A8

Variable Cualitativa

Gráfica 3 120

100

80

60

Frecuencias

40

20

0 A1

Variable Cualitativa

A2

Mediana. En el caso de variables cualitativas ordinales la moda no es el único estadístico con significado. Puesto que en las variables ordinales existe un sentido de orden en sus categorías, si éstas se ordenan de “menos” a “más”, la distribución de frecuencias acumuladas tendrá una interpretación. La mediana es aquella característica de la distribución que ocupa la posición central de la misma. Ordenados los valores de la variable (de menor a mayor), la mediana define aquel punto que deja por debajo de sí mismo el 50% de la distribución.

Ordenados los valores de la variable (de menor a mayor) la mediana es aquel valor de la distribución que ocupa el valor central de la misma.

Ejemplo 2. Investigación comercial de un nuevo producto. Las empresas, antes de lanzar un producto nuevo, realizan pruebas para medir su aceptación. Una práctica habitual es ofrecer una muestra del producto a algunos consumidores potenciales. Una encuesta posterior permitirá conocer el nivel de satisfacción del consumidor y las modificaciones que podrían resultar adecuadas. Supongamos que una empresa productora de un abrillantador de muebles reparte de manera aleatoria 236 unidades de un nuevo producto entre un número igual de posibles consumidores, realizando después una encuesta sobre el nivel de satisfacción respecto al producto. En el cuadro 3 se reproducirían los resultados obtenidos. Cuadro 3 Value Label

Value

Frequency

Nada satisfactorio Poco satisfactorio Bastante satisfactorio Muy satisfactorio No lo ha probado

1 2 3 4 5 ------Total

6 31 96 90 13 ------236

Percent

Valid Percent

2,5 2,7 13,1 13,9 40,7 43,0 38,1 40,4 5,5 Missing ------100,0 100,0

Cum Percent 2,7 16,6 59,6 100,0

La variable cualitativa presenta cuatro posibles respuestas, indicando cada una de ellas el nivel de satisfacción del consumidor. Existe una quinta opción que recoge la categoría de aquellas personas que finalmente no han empleado el producto y que, en este ocasión, se han definido como “valores perdidos” (missing). En los resultados del programa aparecen dos columnas de porcentajes. En la primera, el total de observaciones (hayan empleado o no el producto) se recoge como referencia para calcular las frecuencias. En la

segunda columna (valid percent) se calculan lo que se denominan “porcentajes válidos”, calculándose las frecuencias con referencia al número de individuos que han empleado el producto. Las características más relevantes de la distribución serían una moda para la categoría de “bastante satisfactorio” (43% de las respuestas válidas) y un valor mediano en la misma categoría, al acumularse dentro de ella el 50% de consumidores. Además, en los porcentajes acumulados puede leerse que sólo el 16,6% de los consumidores consideran el producto “nada” o “poco” satisfactorio. El diagrama de barras de la distribución se representa en la gráfica 4, apareciendo esta vez en el eje vertical las frecuencias relativas. Destaque de los resultados anteriores el hecho de que la lectura de los porcentajes acumulados (y, por tanto de la mediana) tiene sentido al tratarse de una variable cualitativa de tipo ordinal. Gráfica 4

Gráfica de barras 50

40

30

Porcentaje

20

10

0 Muy satisf actorio

Bastante satisfact.

Poco satisf actorio

Nada satisf actorio

Satisfacción con respecto al producto

Pictograma. Junto a los diagramas en barra es posible representar la importancia de cada una de las categorías usando otro tipo de gráficas. El pictograma no es más que un círculo en el que se representan las categorías de la variable proporcionalmente a su frecuencia. La regla de proporcionalidad se consigue definiendo los ángulos proporcionalmente a las frecuencias. Así, una categoría con una frecuencia relativa del 40.4% debería cubrir un ángulo igual a 0.404 ⋅ 360 0 = 145.44 0 . En la gráfica 5 se representan las frecuencias relativas del ejemplo anterior por medio de un pictograma.

Gráfica 5

Frecuencias relativas Nada satisf echo 2,7% Poco satisf echo 13,9%

Muy satisf echo 40,4%

Bastante satisf echo 43,0%

Diagrama de Pareto. Si se quiere resaltar la distribución de frecuencias acumuladas puede emplearse el denominado diagrama de Pareto. Éste no es más que un diagrama en barras en el que las categorías se ordenan de mayor a menor frecuencia, dibujando sobre las barras una línea indicativa de la frecuencia acumulada hasta esa categoría. La gráfica se puede realizar tanto sobre variables nominales como ordinales.

El diagrama de Pareto es un diagrama de barras en el que las categorías se ordenan de mayor a menor frecuencia, dibujando una línea indicativa de la frecuencia acumulada hasta esa categoría.

Ejemplo 3. Control de producción. Una empresa sufre continuas paradas en su cadena de producción. Dada la importancia de las consecuencias económicas de estas paradas se decide controlar durante un mes cuáles son las razones que las ocasionan. Para ello se solicita de los operarios que anoten el tipo de percance y el tiempo que tarda en arreglarse, desde que se detecta hasta que se soluciona el problema. Las causas detectadas (seis causas particulares a este proceso de producción) así como su frecuencia y el tiempo de parada se reproducen en el cuadro 4.

Cuadro 4

Causa

Frecuencia Tiempo de parada (en minutos) Rotura de tornillos 10 70 Rotura de arandelas 10 10 Rotura o bloqueo de cintas 4 41 Rotura de aros de sujeción 2 20 Rotura de otras piezas 2 10 Desajustes de temperatura 11 53

1 2 3 4 5 6

En total, como consecuencia de 39 paradas, se han perdido 204 minutos en un mes de trabajo. El tiempo de parada y el número de paradas se pueden analizar a partir de los correspondientes diagramas de Pareto. En la gráfica 6 se observa que las tres causas más frecuentes de parada son la sexta, primera y segunda, por este orden. Estas tres primeras causas, tal como se observa en la línea continua del diagrama, representan un porcentaje alto del total de paradas, en concreto un 79,5% de éstas, (11+10+10)/39. En la gráfica 7 se puede observar, sin embargo, que no todas las paradas tienen igual importancia en cuanto al tiempo de interrupción. Las tres primeras causas (primera, sexta y tercera) suponen un 80,4% del tiempo de parada, (70+53+41)/204. Si el interés de la empresa se encuentra en reducir al máximo el tiempo de parada (y no tanto el número de veces en que la producción se detiene) debería centrarse en los determinantes de la rotura de tornillos, los desajustes de temperatura y la rotura o bloqueo de cintas. Gráfica 6 Porcentaje

50

40

100

Número de paradas

30

20

10

50

11

10

10 4

0 6,00

Causa de la parada

1,00

2,00

3,00

0 4,00

5,00

Gráfica 7

Tiempo de parada

Porcentaje

300

200

100

100

50

70 53 41 20

0 1,00

Causa de la parada

6,00

3,00

4,00

0 2,00

5,00

CAPÍTULO II. Distribución de frecuencias e histograma

Las variables de tipo cuantitativo son aquellas que toman, en lugar de categorías, valores numéricos. Las categorías de las variables cualitativas pueden relacionarse con valores numéricos, pero eso no las convierte en cuantitativas, puesto que el número, en su caso, no es más que una “etiqueta”, careciendo de sentido operar matemáticamente con ellos.

Escala de intervalo y escala de cociente. Desde un punto de vista teórico se distingue entre variables cuantitativas medidas en escala de intervalo y en escala de cociente. Las variables cuantitativas tienen una escala de intervalo si se pueden ordenar sus valores y, además, se pueden realizar con ellos las operaciones de suma y resta. La primera característica la comparte con las variables cualitativas ordinales, pero al contrario que en aquéllas, en la escala de intervalo puede medirse la distancia entre distintas observaciones. Permite afirmar, por ejemplo, que un individuo tiene un valor que supera en diez unidades al que toma otro individuo, o que entre dos individuos hay una diferencia de veinte unidades. Las variables con escala de cociente añaden a estas características la de incorporar un origen no arbitrario. La diferencia esencial es que este segundo tipo de variable admite un cero verdadero (toneladas consumidas o número de empleados, por ejemplo, donde el cero se entiende como inexistencia) y permite el cálculo de proporciones entre los distintos valores (una observación toma un valor que es el doble que el de otra). Normalmente, desde el punto de vista práctico, no siempre se realiza una distinción entre ellas.

Variables discretas y continuas. También se suele distinguir en la estadística descriptiva entre variables de tipo discreto (si la variable toma un número finito o infinito numerable de observaciones) y de tipo continuo (infinito no numerable). De nuevo, desde el punto de vista práctico esta distinción no es importante en muchas ocasiones.

Distribución de frecuencias. Diagrama de barras. La idea de recuento, es decir, la idea de crear una distribución de frecuencias debe ser, como en el caso de las variables cualitativas, el primer paso del análisis. Observar los distintos valores que toma una variable, ordenarlos de menor a mayor y contar el número de veces que aparece cada valor nos dará una idea de su comportamiento. El único problema que se plantea con una variable de tipo cuantitativo es que suele tomar un número de valores mucho mayor que las posibles categorías de una

variable cualitativa. La imagen general que se pretende dar con la distribución de frecuencias puede ser entonces poco útil, porque la información está poco resumida. El trabajo con intervalos de la variable, en lugar de con cada uno de sus posibles valores, es el procedimiento normal para conseguir una imagen sintética de la distribución. Ejemplo 1. Distribución de frecuencias del número de hijos. En este primer ejemplo vamos a obtener la distribución de frecuencias y el diagrama de barras del número de hijos de una muestra de familias españolas. La muestra de 1254 familias está formada por una selección aleatoria de declarantes del IRPF que ya hemos analizado anteriormente. La distribución de frecuencias para una muestra de esta variable Número de hijos del hogar aparece en el cuadro 1 y su representación en un diagrama en barras en la gráfica 1. Cuadro 1

Niños 0 1 2 3 4 5

Gráfica 1

Número de hijos del hogar Cumulative Frequency Percent Frequency 562 307 301 59 23 2

44.8 24.5 24.0 4.7 1.8 0.2

562 869 1170 1229 1252 1254

Cumulative Percent 44.8 69.3 93.3 98.0 99.8 100.0

600 562 500

400

Frecuencias absolutas

300

307

301

200

100 59 0 0

1

2

3

4

5

Número de hijos del hogar

El primer resultado interesante de la distribución es el disponer de los valores que toma la variable, información que a priori no conocíamos. El número de hijos en la muestra toma únicamente valores 0, 1, 2, 3, 4, 5. Se trata de una variable de tipo cuantitativo discreta. Como en el caso de una variable cualitativa podríamos detectar la moda y mediana de la distribución. La moda corresponde al valor 0, ya que el 44.8% de las familias no tienen ningún hijo en el hogar. La mediana de la distribución es el hijo único, ya que es en el valor 1 en donde se acumulan el 50% de las observaciones. Se puede resaltar, además, la importancia de los tres primeros valores para describir el comportamiento de la muestra: el 93.3% de las familias tendría un número igual o inferior a dos hijos.

Un problema diferente se enfrenta cuando la variable toma diversos valores numéricos, pero con un número mayor de posibilidades. Pensemos en la distribución de la edad del perceptor principal de rentas de una familia (sustentador principal) en la misma muestra de declarantes. En concreto, si solicitásemos la distribución de frecuencias en una muestra de 1460 familias, para la variable Edad del sustentador principal, nos encontraríamos ahora con la distribución del cuadro nº 2. Cuadro 2 EDAD del sustentador principal Value 16,00 17,00 18,00

Frequency Percent 1 ,1 4 ,3 13 ,9 ,9 1,2

Valid Percent ,1 ,3

Cum Percent ,1 ,3

19,00 20,00 21,00 22,00 23,00 24,00 25,00 26,00 27,00 28,00 29,00 30,00 31,00 32,00 33,00 34,00 35,00 36,00 37,00 38,00 39,00 40,00

9 20 18 33 34 37 36 42 33 31 33 32 27 34 45 31 32 31 26 31 31 25

,6 1,4 1,2 2,3 2,3 2,5 2,5 2,9 2,3 2,1 2,3 2,2 1,8 2,3 3,1 2,1 2,2 2,1 1,8 2,1 2,1 1,7

,6 1,4 1,2 2,3 2,3 2,5 2,5 2,9 2,3 2,1 2,3 2,2 1,8 2,3 3,1 2,1 2,2 2,1 1,8 2,1 2,1 1,7

1,8 3,2 4,5 6,7 9,0 11,6 14,0 16,9 19,2 21,3 23,6 25,8 27,6 29,9 33,0 35,1 37,3 39,5 41,2 43,4 45,5 47,2

34 2,3 27 1,8 34 2,3 31 2,1 40 2,7 32 2,2 35 2,4 23 1,6 20 1,4 28 1,9 ,8 68,8 34 2,3 32 2,2 28 1,9 21 1,4 25 1,7 30 2,1 38 2,6 25 1,7 15 1,0 15 1,0 12 ,8 18 1,2 11 ,8 17 1,2 14 1,0 12 ,8 20 1,4 10 ,7 9 ,6

2,3 1,8 2,3 2,1 2,7 2,2 2,4 1,6 1,4 1,9

49,5 51,4 53,7 55,8 58,6 60,8 63,2 64,7 66,1 68,0

2,3 2,2 1,9 1,4 1,7 2,1 2,6 1,7 1,0 1,0 ,8 1,2 ,8 1,2 1,0 ,8 1,4 ,7 ,6

71,1 73,3 75,2 76,6 78,4 80,4 83,0 84,7 85,8 86,8 87,6 88,8 89,6 90,8 91,7 92,5 93,9 94,6 95,2

(Continuación Cuadro 2) 41,00 42,00 43,00 44,00 45,00 46,00 47,00 48,00 49,00 50,00 51,00 11 52,00 53,00 54,00 55,00 56,00 57,00 58,00 59,00 60,00 61,00 62,00 63,00 64,00 65,00 66,00 67,00 68,00 69,00 70,00

,8

71,00 72,00 73,00 74,00 75,00 76,00 77,00 78,00 79,00 80,00 81,00 82,00 83,00 84,00 85,00 86,00 87,00 88,00

6 8 5 7 8 4 1 5 5 5 5 5 1 1 1 1 1 1 ------1460

Total

,4 ,5 ,3 ,5 ,5 ,3 ,1 ,3 ,3 ,3 ,3 ,3 ,1 ,1 ,1 ,1 ,1 ,1 ------100,0

,4 ,5 ,3 ,5 ,5 ,3 ,1 ,3 ,3 ,3 ,3 ,3 ,1 ,1 ,1 ,1 ,1 ,1 -----100,0

95,6 96,2 96,5 97,0 97,5 97,8 97,9 98,2 98,6 98,9 99,2 99,6 99,7 99,7 99,8 99,9 99,9 100,0

Gráfica 2 50

40

Frecuencias absolutas

30

20

10

0 16

20 18

24 22

28 26

32 30

36 34

40 38

44 42

48 46

52 50

56 54

60 58

64 62

68 66

72 70

76 74

80 78

84 82

88 86

EDAD del sustentador principal

La lectura de esta distribución ya no resulta tan cómoda como cuando la variable toma un número escaso de valores. La creación de la tabla sigue siendo una ayuda para comprender el comportamiento de la variable (moda, mediana, porcentajes acumulados hasta un determinado valor), pero resulta algo más difícil hacerse una idea general de la distribución. La representación gráfica del diagrama en barras (gráfica 2) nos ayuda a simplificar la imagen, pero también presenta un exceso de información. Uno de los principales objetivos de las

técnicas estadísticas es facilitar la comprensión de la información numérica, sacrificando volumen de información (menor precisión) por una mejor comprensión de la misma (mayor eficiencia).

Histograma. Para tratar variables que toman gran cantidad de valores el procedimiento usual es el de agrupar los valores en intervalos. Tomemos la variable edad del sustentador principal con la que hemos trabajado en el apartado anterior. De una manera arbitraria, podemos pensar en crear intervalos de edad de 8 años: de los 16 a los 24 años, de los 24 a los 32, etc. En el cuadro 3 se recoge el resultado de esta agrupación de la variable y en la gráfica 3, la representación correspondiente de las frecuencias relativas de cada intervalo. Aunque ahora no dispone de información sobre el número de individuos de la muestra que tienen una edad concreta, los rasgos generales de la distribución de la edad es más clara.

Cuadro 3 Valid

Cum

EDAD Frequency Percent Percent Percent 16 24 32 40 48 56 64 72 80

a a a a a a a a a

24 32 40 48 56 64 72 80 88

Total

169 268 252 256 199 164 96 40 16 ------1460

11,6 18,4 17,3 17,5 13,6 11,2 6,6 2,7 1,1 ------100,0

11,6 18,4 17,3 17,5 13,6 11,2 6,6 2,7 1,1 ------100,0

11,6 29,9 47,2 64,7 78,4 89,6 96,2 98,9 100,0

Gráfica

3

300

200

100

0 16 - 24

24 - 32

32 - 40

40 - 48

48 - 56

56 - 64

64 - 72

72 - 80

80 - 88

EDAD del sustentador principal

La representación realizada para la variable “Edad del sustentador principal” se denomina histograma. Aunque se parece al diagrama de barras, se diferencian en que en el diagrama, la altura de la barra es proporcional a la frecuencia, mientras que en el histograma es el área del rectángulo la que es proporcional a la frecuencia. Formalmente pueden establecerse otras diferencias entre el diagrama en barras y el histograma. En el diagrama, cada barra representa la frecuencia de un atributo de la variable, mientras que en un histograma, cada uno de los rectángulos representa las frecuencias de diversos valores de la variable (intervalos de valores). Además, debe tenerse en cuenta que en los histogramas, cuando aparece un intervalo con frecuencia cero, no se omite por ello su representación, mientras que en un diagrama de barras no se incluye ningún espacio para aquellos valores con frecuencia nula.

En el histograma se representan las frecuencias de la variable definida en intervalos. El área del rectángulo es proporcional a la frecuencia en el intervalo.

El histograma se construye de manera que el área correspondiente al rectángulo que se dibuja sobre el intervalo sea proporcional a su frecuencia. Carecería de sentido proceder como en el diagrama de barras. Puesto que los intervalos en los que se puede dividir cualquier variable continua son de una

amplitud y número arbitrario, si dibujásemos barras con alturas proporcionales a las frecuencias para cada intervalo, los resultados serían absurdos. Haciendo el área proporcional a la frecuencia relativa para el intervalo iésimo se tendrá:

Area i = basei * alturai =

ni n

donde la base es la amplitud del intervalo y, por tanto, la altura del rectángulo es igual a:

alturai =

ni 1 n basei

Si un intervalo tiene una gran amplitud tenderá en principio a ofrecer un mayor número de frecuencias, no obstante en el histograma se seguirá manteniendo un área total proporcional. La altura del rectángulo, de acuerdo con su definición, se conoce como densidad de frecuencia. Para identificar cada intervalo se emplea en ocasiones sus puntos medios, denominados marcas de clase:

marca de clase =

Límite superior del intervalo + Límite inferior del intervalo 2

En muchos histogramas es la marca de clase el valor que identifica los intervalos. En general, se emplea el histograma: (i) cuando se trata de variables que contienen muchos valores diferentes; (ii) cuando tiene sentido construir intervalos, agrupando valores adyacentes.

Cómo trabajar con los histogramas. El histograma pretende facilitar la comprensión de la forma de la distribución de la variable. Al estudiar un histograma se debe estar dispuesto a descubrir cuáles son los valores más frecuentes, los valores que ocurren con poca frecuencia, la simetría o asimetría de la distribución, su dispersión y forma. La moda y la mediana que utilizábamos para describir una variable cualitativa pueden usarse con la misma definición sobre las variables

cuantitativas. La moda es el valor con mayor frecuencia. La mediana es aquel valor que (ordenada la variable de menor a mayor) deja por debajo de sí mismo el 50% de las observaciones. Estos estadísticos pueden calcularse sobre la distribución original de la variable, aunque puede ser recomendable obtener la moda y la mediana en los intervalos de la variable. Existen fórmulas para obtener la moda y la mediana a partir de la información agregada en intervalos, pero es también correcto detectar la moda y mediana en el propio intervalo y hablar, por ejemplo, del intervalo modal cuando en una distribución se detecta un intervalo con un área (una frecuencia) mayor que los restantes. Uno de los problemas de los histogramas es decidir con cuántos intervalos construirlos y si los intervalos deben ser todos de la misma amplitud. Normalmente los histogramas se construyen con intervalos de igual amplitud, de manera que o bien se define el número de intervalos y de ahí se deduce (a partir del rango de la variable) la amplitud de cada intervalo, o bien se decide arbitrariamente la amplitud del intervalo y luego se deduce el número de intervalos. Estas decisiones están sujetas a una cierta arbitrariedad. Una regla frecuentemente utilizada es la de definir intervalos de la misma amplitud, en un número igual al entero más próximo a n . Es normal definir intervalos de diferente amplitud en las colas de la distribución (valores superiores e inferiores de la distribución), en donde además se suelen emplear intervalos abiertos. El intervalo inferior se define tomando los valores por debajo de una cantidad (menos de __ ) y el intervalo superior, por encima de una cantidad (más de __ ). El propósito de estos intervalos abiertos es evitar histogramas en los que “pesen” demasiado la representación de los valores extremos, que pueden estar muy alejados del comportamiento común.

Ejemplo 2. Efecto del número de intervalos en la construcción del histograma. La decisión sobre el número de intervalos que deben tomarse para construir un histograma puede ser decisiva para la comprensión de la distribución. Como ejemplo se ofrecen en los gráficos 4 a 7 cuatro histogramas de la variable ingresos familiares de una muestra de familias de la Encuesta de Presupuestos Familiares (EPF-90). En la gráfica 4 se ofrece un histograma basado en 27 intervalos (número seleccionado según criterios formales por un programa informático de estadística), siendo la amplitud de cada intervalo de 20000 ptas. La gráfica 5 se basa en 10 intervalos (amplitud 54000), la gráfica 6 en 25 intervalos (amplitud 21600) y, finalmente, la gráfica 7 con 50 intervalos de amplitud igual a 10800, cada uno de ellos.

Gráfica 4

Gráfica 5

400000

600000

500000 300000 400000

200000

300000

200000 100000 100000

0 200000

0 1000000 600000

1800000 1400000

2600000 2200000

3400000 3000000

4200000 3800000

5000000 4600000

370000 5400000

1450000 910000

Ingresos percibidos. Muestra EPF

2530000 1990000

3610000 3070000

4690000 4150000

5230000

Ingresos percibidos. Muestra EPF

Gráfica 6

Gráfica 7

300000

200000

200000

100000

100000

0 208000

1504000 856000

2800000 2152000

Ingresos percibidos. Muestra EPF

4096000 3448000

5392000 4744000

0 154000

1234000 694000

2314000 1774000

3394000 2854000

4474000 3934000

5014000

Ingresos percibidos. Muestra EPF

Observe que ni siquiera las gráficas 4 y 6 (con 27 y 25 intervalos) proporcionan una imagen idéntica, detectándose una moda más señalada en el primer histograma. En la gráfica 5 (con 10 intervalos) se recoge la imagen básica de la distribución, siendo incluso suficiente para captar las grandes líneas de la misma, caracterizada por ser una distribución asimétrica hacia la derecha. Sin embargo, si uno está interesado en detectar posibles modas y submodas (o modas relativas) parecería más adecuado el histograma basado en 50 intervalos.

Cuando se trabaja con histogramas, resulta recomendable experimentar con el número de intervalos.

Ejemplo 3. Distribución de los porcentajes de gasto en alimentación y vestido. En este ejemplo se consideran dos partidas del gasto en consumo de una muestra de familias españolas. Se van a analizar los histogramas y las distribuciones de frecuencias de las proporciones de gasto del consumo en alimentos y en vestido y calzado. Cada uno de estos agregados tienen características distintas, que se reflejan en las formas de sus distribuciones.

La muestra que seleccionamos corresponde a 271 hogares, provenientes de la Encuesta Continua de Presupuestos familiares (ECPF). La ECPF es una encuesta realizada por el INE desde el primer trimestre de 1985, efectuándose cada trimestre desde ese año. La encuesta recoge el origen y cuantía de las rentas familiares y su concreción en gastos de consumo (gastos trimestrales de más de 200 bienes). La unidad básica de la encuesta son los hogares, de los que se seleccionan alrededor de 3200 de manera aleatoria, renovándose cada trimestre el 12.5% de la muestra (como consecuencia de ello, un hogar permanece en la encuesta como máximo ocho trimestres). Las 271 familias de nuestro ejemplo son las que cumplen su último trimestre en la encuesta en el cuarto trimestre de 1991. Las variables son proporciones de gasto (en alimentación, y en vestido y calzado). Estas se han calculado, para cada bien y en cada familia como:

proporción del gasto en el bien i =

gasto del hogar en el bien i ⋅100 consumo total del hogar

En las gráficas 8 y 9 (alimentación y vestido y calzado, respectivamente) aparecen conjuntamente las distribuciones de las proporciones de gasto y sus histogramas. Estos resultados se han obtenido utilizando un programa informático de estadística y el número de intervalos en los que debían dividirse las variables ha sido calculado por el propio programa. En los resultados se ofrecen el histograma (con las frecuencias relativas en el eje horizontal) y la distribución de frecuencias: FREQ. es la frecuencia absoluta, CUM. FREQ. la frecuencia absoluta acumulada, PCT. la frecuencia relativa y CUM. PCT. la frecuencia relativa acumulada. Los intervalos se definen por medio de su marca de clase; recuerde que la marca de clase de un intervalo es su punto medio, de manera que un valor de 4 al lado de uno de los rectángulos del histograma indica que el intervalo correspondiente está entre 0 y 8.

La primera impresión que se obtiene de los dos histogramas es la de su diferente forma. Ambas son distribuciones unimodales (con un intervalo definiendo la máxima frecuencia), aunque la distribución correspondiente a alimentación presenta esa moda en el centro de los valores que toma la variable, mientras que vestido y calzado tiene la moda bastante desplazada del centro de la variable, muy cerca de sus

valores mínimos. Las distintas formas de las distribuciones son importantes cuando se trata de describir el comportamiento de una variable. Aunque más adelante volveremos sobre ello, puede ya retener que un tipo de distribución como la de alimentos se conoce en estadística como distribución simétrica, mientras que la de vestido y calzado se conoce como distribución asimétrica por la derecha, al tener muchos más valores alejados de la moda por la parte superior de la variable (una distribución asimétrica por la izquierda tendría la imagen contraria).

¿Qué nos aporta la información de las distribuciones? Centrémonos en el gasto en alimentación. El intervalo mínimo de la variable tiene una marca de clase del 4% y el intervalo más alto es igual al 84%. El intervalo más frecuente, que definiría la moda, se sitúa en el 28% del gasto, cifra que identificaría el 23.99% de las familias de la muestra. Al tratarse del consumo de alimentos, parece que sería lógico esperar que el porcentaje de gasto que éstos representan en un hogar no fuera muy elevado. La moda, con un valor alrededor del 28%, nos ofrece una buena referencia de cuál puede ser la proporción esperada. Sin embargo, en la distribución destacan las observaciones que se sitúan en la parte superior de la variable. El porcentaje de familias que dedican algo más del 50% de su presupuesto a la alimentación resulta significativo. En concreto, por encima del intervalo cuya marca de clase es 44 (40% a 48%) se sitúa el 100-90.04=9.96%, es decir que alrededor de un 10% de las familias, consumen más del 48% de su gasto total en alimentación. La mayoría de hogares, sin embargo, limitan este porcentaje, destacando que el 60.52% de los hogares tiene un porcentaje de gasto inferior al 32%.

La descripción de la segunda variable puede hacerse en términos parecidos. La moda, con un valor del 5%, nos define el valor más frecuente. La distribución de este tipo de gasto es diferente a la de alimentación. El recorrido de la variable es bastante menor, situándose teóricamente entre el 0 y el 47.5% (valores inferior y superior del primer y último intervalo, respectivamente). El intervalo inferior tiene como punto medio 0, y debe interpretarse como definido entre 0 y 2.5%, al no ser posible definir un porcentaje de gasto negativo (intervalo entre –2.5 y 2.5). En este intervalo se sitúa el 22.88% de los hogares, de manera que destaca de la distribución el que el 50.18% de los hogares gasten menos del 7.5% de su consumo trimestral en vestido y calzado. Los valores superiores de la variable, sin embargo, no muestran frecuencias tan altas. Por encima del 25% del gasto (y hasta un máximo del 47.5%) se encontrarían nada más que alrededor del 7% de los hogares.

Gráfica 8 P r o p o r c i ó n d e g a s t o e n a l i me n t a c i ó n FREQ.

CUM. FREQ.

PCT.

CUM. PCT.

4

12

12

4. 4 3

4. 4 3

12

31

43

11. 44

15. 87

20

56

99

20. 66

36. 53

28

65

164

23. 99

60. 52

36

51

215

18. 82

79. 34

44

29

244

10. 70

90. 04

52

13

257

4. 8 0

94. 83

60

8

265

2. 9 5

97. 79

68

1

266

0. 3 7

98. 15

76

2

268

0. 7 4

98. 89

84

3

271

1. 1 1

100. 00

0

10 Fr e c u e n c i a s r e l a t i v a s ECP F .

20

30

I V t r i me s t r e 1 9 9 1

Gráfica 9 Pr o p o r c i ó n g a s t o e n v e s t i d o y c a l z a d o

FREQ.

CUM. FREQ.

PCT.

CUM. PCT.

0

62

62

22. 88

22. 88

5

74

136

27. 31

50. 18

10

52

188

19. 19

69. 37

15

37

225

13. 65

83. 03

20

14

239

5. 17

88. 19

25

12

251

4. 43

92. 62

30

14

265

5. 17

97. 79

35

1

266

0. 37

98. 15

40

4

270

1. 48

99. 63

45

1

271

0. 37

100. 00

0

10 Fr e c u e n c i a s r e l a t i v a s ECP F .

20

30

I V t r i me s t r e 1 9 9 1

Ejemplo 4. La influencia del salario mínimo en la desigualdad salarial. El impacto que tiene el salario mínimo sobre la distribución de los salarios ha sido analizado con datos de la economía portuguesa por Rute (1997). La legislación sobre salario mínimo impone un efecto de tipo igualitario en la estructura de salarios, al imponer restricciones en los

salarios pagados por los empleadores. En su trabajo discute diversos histogramas que muestran la distribución de los salarios en distintos años. El análisis de los mismos se dirige especialmente a la detección de los picos (modas o submodas) del salario mínimo, clarificando además la estructura de salarios que quiere describirse. En todos los histogramas se señala la posición de los salarios mínimos correspondientes a la agricultura y al conjunto de actividades económicas, excluyendo en este caso la agricultura y el trabajo doméstico (estas posiciones se identifican en el eje horizontal con las letras A y M, respectivamente). En la gráfica 18 se muestra el histograma de los salarios del año 1983. En el mismo puede detectarse una moda en el salario mínimo agrícola y una moda, más importante, en el salario mínimo del resto de la economía. Hasta 1986 (gráfica 19), las relaciones económicas se endurecieron, contrayéndose el nivel de empleo y aumentando el cierre de empresas. La legislación sobre salario mínimo hizo que éste fuera mayor en relación al salario medio en la economía. Esto tuvo un efecto igualitario sobre la distribución, al acercar los salarios más bajos a los del resto de trabajadores. Este efecto se dio también sobre los salarios inferiores al mínimo legal, que se vieron arrastrados por el aumento del salario mínimo. El histograma de los salarios del año 1992 se muestra en la gráfica 20. En ese año no se permitieron salarios legales por debajo del mínimo, el pico correspondiente todavía se detecta, pero la concentración por encima del mínimo aumenta. Los picos detectados en las distribuciones ilustran la importancia de la legislación sobre salario mínimo y, en consecuencia, la importancia de los factores institucionales en la distribución de los salarios. Gráfica 18

.078947

Fraction

0 3000

A

M

39990 salarios base 1983

Gráfica 19 .102424

Fraction

0 4000

A M

68992 salarios base 1986

Gráfica 20 .101049

Fraction

0 117000

176900

A=M salarios base 1992

Las variables de tipo cuantitativo permiten un tratamiento más completo que el visto para las variables cualitativas. Además de las distribuciones de frecuencias, sus representaciones gráficas y estadísticos como la moda y la mediana, es posible calcular otras medidas numéricas que de manera sencilla y sintética faciliten información de la distribución de la variable. En el siguiente capítulo se van a discutir algunos de estos estadísticos.

CAPÍTULO III. ESTADÍSTICOS DESCRIPTIVOS de una VARIABLE CUANTITATIVA

De manera tradicional se distingue entre los estadísticos básicos que intentan describir la posición de la variable y los que miden su dispersión. También se presentan en un grupo diferenciado los estadísticos de forma, que describen la asimetría o apuntamiento de la distribución. Mantendremos aquí esta distinción. Denotaremos la variable a describir como X y a las observaciones de la misma, desde i igual a 1 hasta n, como Xi.

Medidas de posición central

Moda y Mediana. Entre las medidas básicas de posición central se encuentran la moda y la mediana, que ya han sido utilizadas en el anterior capítulo. La moda es aquel valor que presenta una frecuencia mayor. La mediana es aquel valor que se sitúa en el punto medio de la distribución, cuando los valores están ordenados de menor a mayor. Supongamos que disponemos de los días de vacaciones que han disfrutado nueve turistas: 16, 29, 13, 15, 25, 14, 26, 17, 26. Para calcular la mediana de estas observaciones, primero deben ordenarse los valores de menor a mayor: 13, 14, 15, 16, 17, 25, 26, 26, 29. En segundo lugar, debe localizarse el valor que se sitúa en el centro de la distribución, que en este caso sería el valor 17, que deja cuatro observaciones por debajo de él y cuatro observaciones por encima. Si n, el número de observaciones, es impar, como en este ejemplo, siempre será inmediato detectar el valor de la mediana; bastará con localizar el valor situado en el lugar (n + 1) 2 . En el ejemplo anterior, con nueve observaciones, la mediana es el valor situado en el quinto lugar. Si el número de observaciones es par esta regla necesita modificarse. Supongamos que tenemos diez observaciones: 13, 14, 15, 16, 17, 25, 26, 26, 29, 31. Ninguna de ellas queda ahora exactamente en el centro de la distribución. El valor 17 deja por debajo cuatro observaciones y por encima cinco, mientras que el valor 25 deja cinco por debajo y cuatro por encima. En el caso de tener un número n de observaciones par, se puede considerar que la

mediana es el promedio de estos dos valores: (17 + 25) 2 = 21 . Una posible regla, cuando el número de observaciones es par es promediar los valores situados en las posiciones n 2 y (n 2 ) + 1 . No obstante, existen también otras formas de determinar el valor concreto de la mediana. Otras medidas de uso común son la media (aritmética y geométrica) y los cuartiles y percentiles (éstos últimos como medidas generales de posición).

Media Aritmética: Como estadístico de posición central se distingue de la mediana en que utiliza en su cálculo todas las observaciones de la muestra. Su fórmula para una variable X es la siguiente: n

x=

∑X i =1

i

n

Es decir, la suma de los valores de todas las observaciones de la variable dividida por el número total de observaciones. La fórmula de la media se modifica si de trabaja con datos agrupados, que provienen de una distribución de frecuencias. Entonces se tienen los distintos valores que toma la variable y la frecuencia con la que lo hacen: X1 X2 X3

n1 n2 n3

M

M

Xp

np

En estas circunstancias, la media se expresa (para p valores diferentes) como: p

x=

∑n i =1

i

Xi

n

Las dos expresiones de la media son equivalentes, puesto que en ambos casos en el numerador aparece la suma de todos los valores de la variable.

Ejemplo 1. A una muestra de 100 turistas de una zona se les pregunta cuántas veces la han visitado. La distribución de la variable se muestra en el siguiente cuadro. Se desea calcular el valor medio y la mediana de la distribución. Número visitas Frecuencia absoluta Frecuencia acumulada

1 48 48

2 30 78

3 15 93

4 4 97

5 0 97

6 3 100

El valor medio será:

x=

48 ⋅1 + 30 ⋅ 2 + 15 ⋅ 3 + 4 ⋅ 4 + 0 ⋅ 5 + 3 ⋅ 6 =1,87 48 + 30 + 15 + 4 + 0 + 3

Dado que hay 100 observaciones (número par), la mediana será el promedio de los valores en las posiciones 50 y 51. En la distribución de frecuencias acumuladas las dos posiciones corresponden a 2 visitas, que será por tanto la mediana de la distribución. Ejemplo 2. En ocasiones la información disponible de una variable está únicamente en intervalos. Por ejemplo, la información sobre el número de días de estancia en el lugar de vacaciones puede presentarse agrupada en intervalos: Días de estancia 1-7 8-14 15-21 22-30 Frecuencia absoluta 1991 2422 172 24 Si se desea conocer los días medios de estancia, se calcula la media tomando como valores de la variable las marcas de clase (los puntos medios de los límites de cada intervalo: 4, 11, 18 y 26):

x=

1991 ⋅ 4 + 2422 ⋅11 + 172 ⋅18 + 24 ⋅ 26 = 8,3 1991 + 2422 + 172 + 24

También para la mediana debe aplicarse alguna regla especial. La mediana debe estar en el intervalo 8-14. Si se quiere dar un valor concreto se aplica la siguiente fórmula:

Mediana = Linferior

n − N inferior 2 + ⋅ amplitud nintervalo

donde:

Linferior = límite inferior del intervalo que acumula el 50% de

observaciones. N inferior = frecuencia acumulada hasta el intervalo anterior al que contiene la mediana.

nintervalo = frecuencia absoluta del intervalo que contiene la mediana. amplitud = amplitud del intervalo que contiene la mediana. En nuestro ejemplo:

4609 − 1991 Mediana = 8 + 2 ⋅ 6 = 8,8 2422 Propiedades de la media (1) Como estadístico de posición central la media tiene como principal característica la siguiente: n

∑( X i =1

i

− x )=0

Es decir, la suma de las desviaciones de los valores con respecto a la media es igual a cero. (2) Si a los valores de la variable se les suma una constante ( c + X i ) , la media de los valores transformados se incrementa en esa cantidad: n

xc+ X =

∑(c+ Xi ) i =1

n

=

n

n

i =1

i =1

∑ c + ∑ Xi n

n

=

nc + ∑ Xi i =1

n

n

=c+

∑X i =1

n

i

=c+ x

(3) Si los valores de la variable se multiplican por una constante ( c X i ) , la media de los valores transformados es la media de la variable original multiplicada por la misma constante: n

x cX =

∑c X i =1

n

n

i

=

c∑ Xi i =1

n

= cx .

Media ponderada. Es frecuente trabajar también con la media ponderada, en la que los valores promediados son ponderados mediante un peso determinado. Si tenemos p valores distintos de la variable Xi y a cada uno de ellos se le da un peso wi, la media ponderada se define como: p

xw =

∑w X i

i =1

i

p

∑w

i

i =1

Si, por ejemplo, las observaciones de una variable se ponderan por sus frecuencias relativas: wi = ni n , es decir, por la importancia relativa de cada valor en la distribución, se tendría (suponiendo p valores distintos): p

xw =

i =1

p

ni ∑ i =1 n

p

p

ni

∑nX

i

=

∑n X i

i =1

p

∑n i =1

i

=

∑n X i =1

i

i

n

i

que es la fórmula que hemos empleado para la media en el caso de datos agrupados. En ocasiones, la ponderación tiene que ver con el peso en la población de las distintas observaciones. Suponga, por ejemplo, que dispone de la renta familiar per capita mensual de tres familias pertenecientes cada una de ellas a uno de los tres municipios de una región. Las rentas son de 2000, 2000 y 1000 euros y los tamaños de los municipios son: 10000, 20000 y 1000000 habitantes, respectivamente. Si se le pidiese estimar la renta familiar per capita media para toda la región una opción directa sería la siguiente:

x=

2000 + 2000 + 1000 = 1666,67 3

El inconveniente de este cálculo es que no tiene en cuenta que cada familia representa un municipio de diferente tamaño. Resultaría lógico utilizar una media ponderada, donde la renta de cada familia fuera representativa de todas las familias de su municipio:

x=

2000 ⋅10000 + 2000 ⋅ 20000 + 1000 ⋅1000000 = 1029,13 10000 + 20000 + 1000000

Tiene sentido ponderar, porque cada observación es representativa de un número de familias distinto. Imagine, por ejemplo, que la información censal le permite conocer la distribución de una población en zonas rurales y urbanas (60% y 40%). El resultado de una muestra aleatoria simple no tiene por qué respetar esta distribución, especialmente si el tamaño muestral no es muy elevado. Una alternativa podría ser seleccionar una m.a.s. y ponderar las observaciones según provengan de una zona rural o urbana. Lo normal, en este caso, sería calcular dos medias, una con las n rural observaciones rurales y otra con las nurbana observaciones urbanas, calculando la media global como:

x = 0,60 x rural + 0,40 xurbana Esto sería lo mismo que ponderar las observaciones de manera diferente, según sea su origen rural ( n rural ) o urbano ( nurbana ), empleando como ponderaciones de la zona rural 0,60 / nrural y de las urbanas 0,40 / nurbana :

0,60 (x1,rural + x2,rural + K + xn,rural ) + 0,40 (x1,urbana + x2,urbana + K + xn,urbana ) n nurbana x w = rural = 0,60 0,40 n rural + nurbana n rural nurbana =

0,60 (x1,rural + x2,rural + K + xn,rural )+ 0,40 (x1,urbana + x2,urbana + K + xn,urbana ) = n rural nurbana

 x1, rural + x 2 ,rural + K + x n , rural = 0,60  nrural 

+ x 2,urbana + K + x n ,urbana x   + 0,40  1, urbana nurbana  

  = 

= 0,60 x rural + 0,40 xurbana Media ponderada y muestreos complejos. Comentaremos a continuación el empleo de la media ponderada cuando se dispone de información proveniente de muestreos complejos. Cuando se trabaja con información muestral se dispone, por ejemplo para una variable, de los valores de n individuos. Si el muestreo realizado es del tipo denominado muestreo aleatorio simple (m.a.s.) cada uno de los individuos de la población ha tenido igual probabilidad de ser seleccionado para formar parte de la muestra. Supongamos que el tamaño de la población es de

N = 100 y se toma una muestra aleatoria simple de 20 observaciones. La probabilidad de aparecer en la muestra es la misma para todos los individuos e igual a 20/100. Otra manera de expresar esta información es decir que cada individuo de la muestra, al ser seleccionado, representa a cinco individuos de la población (100/20, ya que cada uno de los 20 elementos de la muestra representa por igual a 5 individuos de la población). Si queremos calcular la media de la variable podríamos plantearnos ponderar cada observación por el número de elementos a los que representa en la población: p

xw =

∑w X i

i =1

p

∑w i =1

i

=

5 X 1 + 5 X 2 + 5 X 3 +... +5 X 20 X 1 + X 2 + X 3 +... + X 20 = 20 ⋅ 5 20

i

El resultado, como puede comprobarse, no modifica el que se obtendría si empleáramos la fórmula de x , sin ponderar las observaciones, ya que al ser las ponderaciones iguales las fórmulas son equivalentes. Sin embargo muchas muestras se elaboran de manera que cada elemento representa un número distinto de individuos en la población. Para mejorar la representatividad de la muestra y también para reducir los costes, muchas encuestas modifican el esquema de m.a.s. de manera que los individuos de la población ya no tienen la misma probabilidad de ser seleccionados. La existencia de diversas categorías (conglomerados o estratos) en la población, se suele aprovechar para seleccionar las muestras con el mínimo número de individuos y la máxima representatividad. Es normal que las grandes encuestas ofrezcan junto a la información de interés de los individuo un factor de elevación poblacional, que indica a cuántos elementos representa ese individuo a nivel de la población.

El factor de elevación poblacional indica a cuántos individuos de la población representa cada uno de los individuos de la muestra. El factor de elevación poblacional se calcula como la inversa de la probabilidad de ser seleccionado en la muestra y debería utilizarse como peso del individuo al calcular los estadísticos representativos de la población. Si se trabaja con un muestreo aleatorio simple, para una población de N individuos y una muestra de tamaño n, cada uno de los elementos muestrales será representativo de N/n individuos en la población. Por tanto, cada individuo muestral tendría el mismo factor de elevación poblacional. Si el diseño muestral

es más complejo, cada uno de los individuos tendrá un factor de elevación poblacional distinto.

Suponga, por ejemplo, que debe extraer una muestra de tamaño 10 de una población dividida en dos clases, la primera consta de 100 individuos y la segunda de 40. Rechaza hacer un m.a.s. puesto que en ese caso podría ocurrir que las diez observaciones correspondieran a individuos de la primera clase, perdiéndose con ello la información del segundo grupo. Decide hacer dos selecciones aleatorias, una en cada grupo. Por cuestiones de coste se seleccionan 6 elementos en la primera subpoblación y 4 en la segunda. Supongamos que los resultados son los que aparecen en el cuadro 1. En la primera fila aparece la clase a la que pertenecen las observaciones, en la segunda los valores que ha tomado la variable. Cuadro 1 Muestra:

Clase 1

Variable:

110 120 130 140 150 160

Clase 2 70

80

90

95

Si calculase la media únicamente a partir de los valores muestrales, el resultado es el siguiente: n

x=

∑X i =1

n

i

110 + 120 + 130 K + 90 + 95 = = 114,5 10

La alternativa es ponderar las observaciones teniendo en cuenta la probabilidad de selección. Cada uno de los elementos del primer grupo tenía una probabilidad igual a 6/100 de ser seleccionado, mientras que los del segundo grupo tenían una probabilidad de 4/40. La propuesta es multiplicar cada valor por la inversa de esa probabilidad (16,67 y 10, respectivamente), con el siguiente resultado: n

xw =

∑w X i

i =1

n

∑w i =1

i

=

16,67 ⋅ (110 + 120 + K + 160) + 10 ⋅ (70 + 80 + K + 95) = 120,36 140

i

Cuando se pondera una observación por la inversa de la probabilidad de selección, se está multiplicando esa observación por lo que representa al nivel de la población.

Ejemplo 3. Los resultados que se obtienen según se utilicen o no los factores de elevación pueden implicar una diferencia relevante. Basándonos en información de 21155 familias de la EPF-90 se ha calculado la media del gasto familiar, empleando y sin emplear los factores de ponderación que elabora el INE y que acompañan a los resultados de la encuesta. En el primer caso, la media es igual a 2527105, mientras que sin ponderar las observaciones, la media es de 2419553. Si al analizar una encuesta no dispone de los factores de elevación o desconoce las probabilidades de selección de los individuos, puede calcular la media no ponderada. No obstante, si su análisis quería referirse a toda la población, sus conclusiones pueden verse limitadas.

Representatividad de la media. La media es muy sensible a la presencia en la muestra de observaciones extremas. Cuando existen observaciones extremas (también llamadas atípicas), la mediana o la moda son buenas alternativas al empleo de la media, al tratarse de estadísticos que no son tan sensibles a la presencia de valores en los límites de la distribución. La siguiente representación ejemplifica de una manera visual y clara el impacto de una sola observación extrema sobre la media. __X1____X2__X3_____X4_ x ______X5___X6_________X7__________________ _

↑ __X1____X2__X3_____X4_________X5_ x X6_______________________X7____ _

↑ La media es el centro de gravedad del conjunto de valores, por lo que el desplazamiento de una única observación hacia la derecha arrastra el valor medio en esa dirección. Sin embargo, la mediana de la distribución no se alterará. En ambos casos X4 sería la mediana, el valor que deja por debajo igual número de observaciones que por encima de él. La media es un estadístico muy sensible a la existencia de valores extremos. La moda y la mediana son una buena alternativa cuando existen observaciones atípicas, al verse menos afectadas por su presencia.

Media cortada (Trimmed Mean). Algunos programas estadísticos incorporan un cálculo de la media menos sensible a las observaciones extremas. La media cortada es un cálculo más “robusto” de la posición central de las observaciones. El calificativo de “robusto” debe entenderse en este caso como una menor sensibilidad, como medida de posición, a los valores atípicos. La media cortada se calcula según la expresión conocida de la media, pero suprimiendo un número previo de observaciones en las colas superior e inferior de la variable. Pueden suprimirse bien un número concreto de observaciones (1, 2, 3, …, en cada una de las colas) o bien un porcentaje del tamaño de la muestra (0,5%, 1%, …, en cada cola). Si existen observaciones atípicas que “corrompen” el cálculo de la media, el empleo de la media recortada puede ser una solución.

Ejemplo 4. Gasto familiar medio en energía eléctrica. Una muestra del impacto que tienen las observaciones extremas nos lo ofrece el análisis de una variable que puede obtenerse de la EPF-90. Se ha construido una variable que pone el gasto en energía eléctrica en relación al gasto familiar total. La variable, que denominaremos intensidad del consumo eléctrico (ice) se calcula como:

ice =

Gasto familiar en electricidad ⋅100 Gasto familiar total

La variable se ha construido como un porcentaje, multiplicando el cociente de ambas cantidades por 100. En la gráfica 1, además del histograma aparecen las frecuencias, frecuencias acumuladas, frecuencias relativas y frecuencias relativas acumuladas. La mayor parte de la distribución se acumula en los intervalos con puntos medios de 1.25 y 3.75, presentándose en ellos prácticamente el 90% de las observaciones. El histograma queda sin embargo distorsionado por la necesidad de representar valores extremos, del orden del 20% hasta el 46% de gasto.

Gráfica 1

EEINMIDPOINT -3.75 -1.25 1.25 3.75 6.25 8.75 11.25 13.75 16.25 18.75 21.25 23.75 26.25 28.75 31.25 33.75 36.25 38.75 41.25 43.75 46.25 0

2000

4000

6000

8000

10000

12000

FREQ.

CUM. FREQ.

PCT.

CUM. PCT.

0 0 13357 5562 1323 449 180 90 42 18 14 8 9 7 0 2 2 0 2 1 0

0 0 13357 18919 20242 20691 20871 20961 21003 21021 21035 21043 21052 21059 21059 21061 21063 21063 21065 21066 21066

0.00 0.00 63.41 26.40 6.28 2.13 0.85 0.43 0.20 0.09 0.07 0.04 0.04 0.03 0.00 0.01 0.01 0.00 0.01 0.00 0.00

0.00 0.00 63.41 89.81 96.09 98.22 99.07 99.50 99.70 99.79 99.85 99.89 99.93 99.97 99.97 99.98 99.99 99.99 100.00 100.00 100.00

14000

FREQUENCY

Vamos a comprobar el efecto que las observaciones extremas tienen en la media. En el cuadro 2 aparece, en primer lugar, la media calculada para todas las observaciones (21066 familias) y a continuación diversas medias cortadas: suprimiendo 1 observación, 2, 3, 10 (en cada una de las colas) y 105 (el 0.5% de cada una de las colas). El porcentaje de gasto pasa de un 2.6% a un 2.52% cuando en el cálculo se suprimen 210 individuos con valores extremos. Aunque el efecto no es importante, muestra la influencia de unas pocas observaciones en la descripción del conjunto.

Cuadro 2 Media Medias cortadas

2.6010

Observaciones suprimidas (en cada cola):

1 2 3 10 105

2.5992 2.5974 2.5957 2.5867 2.5219

Media Geométrica. La media geométrica de n observaciones se define como:

g = n X 1 X 2 ... X n Si se emplea la notación para valores agrupados según su frecuencia, la media geométrica se define como:

g = n X 1n1 X 2n2 ... X p p n

La media geométrica debe emplearse cuando se quieren promediar porcentajes, tasas, tipos de interés, números índices, etc., es decir valores que representan variaciones acumulativas, de un período respecto al anterior. Como medida de posición central, la media geométrica es más representativa que la media aritmética cuando la variable se define como variaciones acumulativas. Para valorar la importancia de este criterio vamos a discutir un ejemplo basado en tasas de variación. Supondremos que las observaciones de la variable se realizan para un individuo a lo largo del tiempo, midiéndose el valor de la variable en el momento 0, en el momento 1, ..., hasta el final del periodo, en el momento T. Dada una serie de valores de base temporal: X 0 , X 1 , X 2 ,..., X T , la tasa de variación de un período a otro se define como:

x[ t , t −1] =

X t − X t −1 X t −1

De manera que los valores de X t verifican:

X t = ( 1 + x[ t , t −1] ) X t −1 denominándose a 1 + x[ t , t −1] factor de variación unitaria. La relación entre el último valor, XT, y el primero, X0 , se puede obtener si sustituimos de manera recurrente:

X T = ( 1 + x[ T , T −1] ) X T −1 = ( 1 + x[ T , T −1] ) (1 + x[ T −1, T − 2 ] ) X T − 2 =... =

= ( 1 + x[ T , T −1] ) ( 1 + x[ T −1, T − 2 ] )...(1 + x[ 2 , 1] ) ( 1 + x[1, 0] ) X 0 Si quisiéramos definir una tasa media de variación, x[ TMV ] , ésta debería satisfacer también la anterior relación:

X T = (1 + x[ TMV ] )(1 + x[ TMV ] )...(1 + x[ TMV ] ) X 0 = = (1 + x[ TMV ] ) T X 0 La conclusión es, por tanto, que la tasa media debe verificar:

( 1 + x TMV ) T = ( 1 + x[ T , T −1] ) ( 1 + x[ T −1, T − 2 ] )...(1 + x[1, 0] ) O, en otros términos, la tasa media de variación debe ser igual a la media geométrica de los factores de variación unitarios, menos la unidad:

x TMV = T ( 1 + x[ T , T −1] ) ( 1 + x[ T −1, T − 2 ] )...(1 + x[1, 0] ) − 1 Tenga en cuenta que este mismo valor puede obtenerse más fácilmente cuando se dispone de los valores inicial y final de la serie, ya que a partir de la relación: X T = (1 + x[ TMV ] ) T X 0 , se tiene:

x[ TMV ] = T

XT −1 XO

Ejemplo 5. Tasa media de variación. En el cuadro 3 aparecen el número de horas trabajadas en la industria española de extracción de hullas, en el período 1987-1992. Se han calculado también las tasas de variación anuales y los factores de variación unitaria y se desea obtener la tasa de variación media acumulativa. Cuadro 3 Año 1987 1988 1989

Horas Trabajada s 43088 43387 42222

Tasa de variación 0,0069 -0,0268

Factor de variación unitaria 1,0069 0,9731

1990 40453 -0,0419 0,9581 1991 33936 -0,1611 0,8389 1992 32126 -0,0533 0,9467 Media Geométrica (factores de variación unitaria): 0,057 Media Aritmética (tasas de variación): -0,055

Dado que se dispone de los valores inicial y final de la serie, el cálculo puede basarse en la expresión: ,

x[ TMV ] = T

XT −1 XO

En nuestro caso:

x[TMV ] =5

32126 −1 = − 0,057 43088

Si calcula la media aritmética de las tasas de variación el valor que obtiene es igual a -0,055, algo diferente del valor buscado.

Si sólo dispone de información de las tasas de variación o de los factores de variación unitaria y debe calcular la tasa media de variación lo correcto es emplear la fórmula de la media geométrica sobre los factores de variación unitarios (sin olvidar además restar la unidad).

Ejemplo 6. Rentabilidad media de una acción. Veamos otro caso en el que también resulta adecuado el empleo de la media geométrica. En el cuadro 4 se recoge la rentabilidad mensual de una acción, definida como una tasa de variación mensual del precio de la acción:

r[ t , t −1] =

p t − p t −1 , p t −1

t = 1,...,12.

Cuadro 4 Mes 1 2 3 4 5 6 7 8 9 10 11 12 Rentabilida -0,13 0,00 0,29 0,06 0,19 -0,03 0,05 0,04 0,00 0,04 0,00 0,04 d

La característica acumulativa de los datos hace que de nuevo para obtener un valor promedio, sea más adecuado el empleo de la media geométrica:

rTMV = 12 ( 1 + r[12 , 11] ) ( 1 + r[11, 10] )...(1 + r[1, 0] ) − 1 La rentabilidad media de ese año será, por lo tanto, igual a un 4,13%:

rTMV =12 (1− 0,13)(1+ 0,00)(1 + 0,29)...(1+ 0,04) − 1 = 4,13%

Utilización de la media, moda y mediana para detectar la asimetría de una distribución. Las distribuciones de frecuencias se pueden caracterizar por su forma, distinguiéndose bajo un criterio de simetría entre distribuciones simétricas (como la representada en la gráfica 2), asimétricas por la derecha (gráfica 3) y asimétricas por la izquierda (gráfica 4). Las distribuciones representadas muestran un único intervalo modal, aunque también podríamos contemplar la simetría (asimetría) en distribuciones con más de una moda. Se entiende que la distribución es simétrica si respecto a un eje vertical situado sobre la mediana de la distribución, su figura puede doblarse coincidiendo ambas partes. La distribución es asimétrica por la derecha si aparecen un número mayor de valores de la variable en ese lado, mientras que la asimetría por la izquierda acumularía un número mayor de valores en el lado izquierdo de la distribución.

Gráfica 2 FREQUENCY 200 190 180 170 160 150 140 130 120 110 100 90 80 70 60 50 40 30 20 10 0

Gráfica 3 FREQUENCY 3000

2000

1000

0

Gráfica 4 FREQUENCY 300

200

100

0

Según su forma, las distribuciones pueden dividirse en simétricas, asimétricas por la derecha y asimétricas por la izquierda. Las distribuciones simétricas tienen la misma forma a izquierda y derecha de la mediana. Las distribuciones unimodales asimétricas por la derecha tienen más valores a la derecha del intervalo modal que a su izquierda. Una distribución con la forma contraria es asimétrica por la izquierda. Como veremos, aunque existen estadísticos que describen la simetría (o asimetría) de la distribución, los valores de la media, mediana y moda de la variable facilitan también esta información. En una distribución simétrica la media, la mediana y la moda tienden a coincidir, mientras que en las distribuciones asimétricas se dispersan. Cuando la distribución es asimétrica por la derecha la relación entre los estadísticos es la siguiente:

Moda ≤ Mediana ≤ Media

Y cuando la distribución es asimétrica por la izquierda:

Media ≤ Mediana ≤ Moda En función de su simetría o asimetría en las distribuciones unimodales se verifican las siguientes relaciones: • Distribución simétrica: Moda = Mediana = Media . • Distribución asimétrica por la derecha: Moda ≤ Mediana ≤ Media . • Distribución asimétrica por la izquierda: Media ≤ Mediana ≤ Moda .

Ejemplo 7. En el cuadro 5 se muestran la media y la mediana de tres distribuciones. En la distribución A coinciden el valor de la media y la mediana, por lo que puede suponerse que se trata de una distribución simétrica. La distribución B tiene la media a la derecha de la mediana, por lo que en principio puede ser una distribución asimétrica por la derecha. La última distribución es también asimétrica, al no coincidir media y mediana, y por sus posiciones, la asimetría se produce por la izquierda. Cuadro 5 Distribución A B C

Media -4 101 -212

Mediana -4,3 71 -62

Cuartiles, Deciles y Percentiles. Se ha definido la mediana como una medida de posición: se trata de aquella observación que (cuando los valores se ordenan de menor a mayor) se sitúa en el centro de la muestra. La mediana es, por tanto, el valor que en la distribución acumulada de frecuencias se sitúa en el 50%. Al analizar una distribución también se leen otros valores definidos por intervalos de frecuencias distintos al 50%. Los cuartiles (primer, segundo y tercer cuartil) son los valores que (con la variable ordenada de menor a mayor) dejan por debajo de su posición el 25%, 50% y 75% de las frecuencias acumuladas, respectivamente. Los cuartiles dividen la variable en cuatro grupos con igual número de observaciones (el 25% de valores más bajos, el 25% siguiente,…). Para obtener los valores nos basaríamos en una regla semejante a la aplicada para la mediana. Así, si el número de observaciones es impar, el primer

cuartil ocupará la posición (n + 1) 4 ; el segundo cuartil ocupará la posición

2 ⋅ (n + 1) 4 ; y el tercer cuartil la posición 3 ⋅ (n + 1) 4 .

Con los siguientes siete datos (ya ordenados de menor a mayor): 9, 23, 25, 28, 32, 47 y 50, obtendremos los tres cuartiles. El primer cuartil es igual a 23 (el valor en el lugar 8 4 = 2 ); el segundo cuartil es 28 (ocupa la posición

16 4 = 4 ); y el tercer cuartil es 47 (posición 24 4 = 6 ). Con los siguientes ocho datos (un número par de observaciones): 9, 23, 25, 28, 32, 47, 50 y 51 obtendremos de nuevo los cuartiles. El primer cuartil será el promedio de las posiciones n 4 y (n 4 ) + 1 , en este caso el promedio de las posiciones 2 y 3, que será el valor 24. El segundo cuartil será el promedio de las posiciones 4 y 5, siendo igual a 30. El tercer cuartil promedia los lugares 6 y 7, siendo igual a 48,5. Los deciles dividen la muestra en porcentajes del 10, 20, ..., hasta el 90 por ciento. El primer decil ocupará la posición n 10 ; el segundo decil ocupará la posición 2 ⋅ n 10 ; ... y el noveno la posición 9 ⋅ n 10 . Los percentiles amplían esta idea para definirse sobre porcentajes del 1, 2, 3, …, hasta el 99 por ciento. El primer percentil ocupará la posición n 10 0 ; el segundo percentil la posición 2 ⋅ n 10 0 ; ... y el 99 percentil la posición

99 ⋅ n 10 0 . Dadas las definiciones anteriores, en el cuadro 6 se ofrecen las obvias equivalencias de definición entre cuartiles y percentiles. Cuadro 6 Mediana = Segundo Cuartil = 50 Percentil Primer Cuartil = 25 Percentil Tercer Cuartil = 75 Percentil

Ejemplo 8. Distribución de la renta en España. Pena et al. (1996) son autores de un estudio sobre la distribución personal de la renta en España en el que analizan los niveles de renta, su distribución y la desigualdad de la misma. De este estudio, en el cuadro 7 se recogen los cálculos de algunos percentiles de la renta per capita disponible para toda España en el año 1990/1991 (Pena et al., 1986, pág. 503). En la gráfica 5 se representan los percentiles de la renta per capita. Excluyendo la renta mínima, desde el 5o percentil hasta el 60o se tiene

una relación de acumulación de la distribución distinta de la que se observa a partir de ese tramo, en el que para acumular iguales porcentajes de población los incrementos en los valores de las rentas son mucho mayores. Una distribución asimétrica por la derecha acumula más observaciones en los valores inferiores de la variable, mientras que los valores superiores serían menos frecuentes. Cuadro 7 Percentil

Renta p.c. disponible Renta mínima 0 5 270903 10 345497 15 403034 20 454221 25 501457 30 542498 35 585791 40 631359 45 681373 50 732524 55 781361 60 839756 65 904918 70 974001 75 1061552 80 1173166 85 1322099 90 1544322 95 1992821 Renta máxima 168572662 Fuente: Pena et al. (1996) Gráfica 5

percentiles 90 80 70 60 50 40 30 20 10 0 0

200000

400000

600000

800000

1000000

1200000

1400000

1600000

1800000

2000000

Renta p.c.

En ocasiones los percentiles de una variable se utilizan como referencia sobre la que analizar el comportamiento de una segunda variable. Los percentiles no se emplearían propiamente como estadísticos descriptivos de una variable, sino que servirían para seguir el comportamiento de otra variable. Se trata, por tanto, de definir relaciones bivariantes entre los percentiles (de una variable) y otras variables. Los dos ejemplos siguientes ilustran este empleo de los percentiles.

Ejemplo 9. La teoría de Keynes sobre el consumo plantea una relación positiva entre el consumo y la renta disponible; esta relación debería cumplir diversas restricciones, entre ellas que la propensión marginal al consumo (variaciones en el consumo consecuencias del incremento en la renta) sea inferior a la unidad:

0
0 : Asimetría positiva o por la derecha. g1 < 0 : Asimetría negativa o por la izquierda.

Medida de asimetría de Pearson. Recuerde que hemos planteado una relación entre media, moda y mediana que permitía definir la simetría o asimetría de una distribución. En una distribución simétrica los tres valores tienden a coincidir, mientras que en una distribución asimétrica se presentan con un orden distinto. Pearson propuso el siguiente estadístico:

AS = • • •

x − Moda sx

AS = 0 , la distribución es simétrica. AS > 0 , la distribución es asimétrica por la derecha. AS < 0 , la distribución es asimétrica por la izquierda.

Medidas de apuntamiento o curtosis. Se aplican a distribuciones simétricas y unimodales, pretenden medir hasta qué punto las observaciones de la variable se acumulan en la parte central de la distribución. Para medir esta acumulación de las frecuencias se emplea como medida cuantitativa la siguiente: n

Curtosis =

∑(X i =1

i

− x)4 / n s

4 x

=

m4 s x4

donde m4 definiría el momento de orden cuatro respecto a la media. El empleo de este estadístico (o el equivalente si los datos se presentan agrupados) se justifica porque facilita la comparación con lo que sería una imagen que se consideraría la referencia de una distribución ni muy “achatada” ni muy “picuda”. La distribución utilizada es la de una variable denominada normal, que será el punto de referencia para la comparación. En la gráfica 29 se representan los histogramas de cuatro variables que siguen este tipo de distribución (superpuesta aparece la forma idealizada del histograma). Es con referencia a esta imagen con respecto a la que se compara el apuntamiento de la distribución de una variable. Si se calcula el coeficiente de curtosis en una distribución de tipo normal el valor que se obtiene es igual a 3, como consecuencia de la relación que existe en esta distribución concreta entre el valor m4 y sx:

m4 = 3 s x4

Este tipo de distribución normal se estudia desde un punto de vista matemático dentro de la estadística no descriptiva, en un marco en el que las distribuciones de las variables se analizan desde su idealización matemática.

Gráfica 29 .089626

0

.089626

0

Histogramas Normal

Las distribuciones básicas que se pretenden detectar se corresponden a tres tipos de imagen. La primera sería la de una distribución normal, la segunda la de una distribución algo más achatada y la tercera la correspondiente a distribuciones con mayor frecuencia en los valores centrales. Las distribuciones se califican de una manera específica según este criterio, las distribuciones parecidas a la normal se denominan mesocúrticas, las distribuciones “achatadas” se denominan platicúrticas (vea las gráficas 30 y 31), y aquellas que muestran más “apuntamiento” se denominan leptocúrticas (vea las gráficas 32 y 33). En los histogramas correspondientes suele dibujarse en ocasiones la forma teórica que correspondería a una distribución normal, con respecto a la cual se está haciendo la comparación.

Gráfica 30

.057

0 -.1

2.6

Gráfica 31 .08

0 -2.38555

5.84201

Gráfica 32 .1403

0 -16.758

16.5001

Gráfica 33 .1142

0 -7.59041

8.28189

Es frecuente en los programas estadísticos que el coeficiente de curtosis que se ofrezca en los resultados sea el siguiente:

g2 =

m4 −3 s x4

que permite la comparación directa con la distribución normal Con ello se tiene el siguiente criterio:

g 2 = 0 , distribución mesocúrtica (normal). g 2 < 0 , distribución platicúrtica (“achatada”). g 2 > 0 , distribución leptocúrtica (“apuntada”).

• • •

Ejemplo 32. A partir de la información del cuadro 23 sobre la distribución de la variable X, obtendremos los valores de la desviación estándar y del coeficiente de asimetría de Fisher. Cuadro 23

Xi

ni

X i ni

X i −x

( X i −x ) 2

( X i − x )2 n i

( X i − x )3 ni

0 1 2 3 4

4 5 2 2 1

0 5 4 6 4

-1,36 -0,36 0,64 1,64 2,64

1,84 0,13 0,41 2,70 6,98

7,37 0,64 0,83 5,40 6,98

-10 -0,23 0,53 8,87 18,46

4

n=14

∑ X n =19 i =1

i

4

∑( X −x) n =21,21 ∑( X − x ) n =17,63

i

i =1

x =1,357

4

2

i

i

La desviación estándar será, por tanto: p

sx =

∑ (X i =1

− x ) ni 2

i

n

=

21,21 =1,231 14

Y el coeficiente de asimetría de Fisher:

i =1

3

i

i

g1 =

m3 17,63 14 = = 0,67 s x3 (1,231)3

Ejemplo 33. A partir de la información de la distribución de la variable X que se muestra en el cuadro 24 obtendremos los valores del coeficiente de curtosis. Cuadro 24

Xi

ni

X i ni

X i −x

( X i − x )2 n i

( X i − x )4 n i

0 1 2 3 4

4 5 2 2 1

0 5 4 6 4

-1,36 -0,36 0,64 1,64 2,64

7,37 0,64 0,83 5,40 6,98

13,57 0,08 0,34 14,57 48,79

n=14

∑ X n =19

4

i =1

i

x =1,357 p

sx =

∑ (X

g2 =

i =1

4

4

i =1

i =1

∑( Xi −x)2 ni =21,21 ∑ ( Xi −x )4 ni =77,35

i

− x ) ni 2

i

n

=

21,21 =1,231 14

m4 77,35 14 −3= − 3 = − 0,59 4 sx (1,231)4

Ejemplo 34. En un estudio del índice de ocupación de la isla de Tenerife se analizan las variaciones del índice desde enero de 1978 hasta abril de 1996, calculando las variaciones mensuales del mismo. En el cuadro 25 aparece un análisis descriptivo de la Variación del índice de ocupación. El histograma de la serie de variaciones del índice se reproduce en la gráfica 34.

Cuadro 25 Variación índice de

n

x

sx

Mínimo

Máximo

Asimetría

Curtosis

índice de ocupació n

219

0,009

0,136

-0,381

0,452

0,351

0,60

Gráfica 34 40

30

Frequency 20

10

-40

-20

0 20 Variación índice de ocupación

40

Las conclusiones que pueden extraerse de esta información son las siguientes: • La media de las tasas de variación está próxima a cero,

indicando con ello que la serie no ha sufrido en el período analizado un crecimiento (o decrecimiento) sistemático. • El valor de la desviación estándar de la Variación del Índice de

ocupación es elevado. • El coeficiente de asimetría está cercano a cero, coincidiendo

con el valor esperado en una distribución simétrica de tipo normal. • El coeficiente de curtosis, con un valor también cercano a cero,

indica que la distribución tiene el mismo tipo de apuntamiento que correspondería a la distribución normal.

• La semejanza de la distribución a la de tipo normal queda

también confirmada gráficamente con el histograma y la estilización correspondiente a la distribución teórica normal. Ejemplo 35. El histograma de la gráfica 35 corresponde al gasto (per capita y día) de una muestra de turistas de nacionalidad española en una zona turística.

Gráfica 35 nacionalidad española 70

60

50

40

30

Frecuencia

20

10 0 10,0

50,0 30,0

90,0 70,0

130,0 110,0

170,0 150,0

210,0 190,0

La distribución no se aleja demasiado de la que correspondería a una normal, aunque aparece algo más apuntada en los valores centrales y con una cierta asimetría por la derecha. El cálculo de los coeficientes de asimetría y curtosis confirma esta impresión, con valores iguales a 1,348 (ligera asimetría positiva) y 3,035 (distribución leptocúrtica).

Ejemplo 36. Características distribucionales de los rendimientos de los mercados emergentes. Bekaert et al. (1998) analizan los beneficios que se obtienen como consecuencia de invertir en nuevos mercados. Se trata de mercados con gran variabilidad, poco ligados a los mercados desarrollados, propios de inversiones que proporcionan altos beneficios con un horizonte temporal a más largo plazo. Este tipo de mercado es también más sensible a las crisis políticas, devaluaciones de la moneda y

regulaciones legislativas. Los mercados emergentes no pueden caracterizarse únicamente mediante la media y la desviación estándar de los rendimientos, sino que deben contemplarse además la asimetría y la curtosis de la distribución. Como caso particular Bekaert et al. (1998) comparan los histogramas de la distribución de los beneficios del mercado argentino y del mercado americano (gráficas 36 y 37, respectivamente). El período seleccionado para recoger la información es desde abril de 1987 a marzo de 1997. En el histograma de los rendimientos del mercado argentino resalta una cierta asimetría, así como una curtosis elevada. Las cifras de EEUU, por el contrario, están más próximas a la imagen idealizada de la distribución normal. Como parte de su análisis Bekaert et al. (1998) ofrecen diversos estadísticos descriptivos de los rendimientos totales en distintos mercados emergentes. Parte de esta información se reproduce en el cuadro 26. Sobre estas cifras, los autores destacan que de veinte países, diecisiete muestran una asimetría positiva, mientras que diecinueve tienen un exceso de curtosis. La idea de una distribución de tipo normal (simétrica y con curtosis cero) en la distribución de los rendimientos no parece, por tanto, adecuada. Estos parámetros de simetría y curtosis deberían tenerse en cuenta al decidir las inversiones, puesto que, por ejemplo, puede suponerse que los inversores preferirán rendimientos que presenten asimetría por la derecha que por la izquierda. La principal propuesta de los autores se realiza en el ámbito del diseño de una cartera de inversiones, proponiendo un método por el que la información sobre los momentos de tercer y cuarto orden de la distribución entran a formar parte de los parámetros del problema de asignación.

Gráfica 36

.174051

Fraction

0 -70

-50

-30

-10 10 30 50 70 90 ARGENTINA, rendimientos mensuales

110

130

150

170

Gráfica 37 .223881

Fraction

0 -30

-10 10 EEUU, rendimientos mensuales

30

50

Cuadro 26 País Argentina Brasil Chile Colombia Grecia India Jordania Malasia Méjico Nigeria Paquistán Filipinas Portugal Corea del Sur Taiwan Tailandia Turquía Venezuela Zimbaue

Media aritmética (%) 56.8 42.6 32.2 32.7 21.6 11.7 5.9 17.3 29.2 32.6 14.7 23.4 15.7 6.6 30.4 20.5 41.9 23.9 25.4

Media Desviación Asimetrí geométric Curtosis estándar a a (%) 27.2 87.9 3.32 20.22 22.1 63.9 0.25 1.09 28.2 27.6 0.28 -0.07 28.0 31.5 1.63 4.14 14.0 41.2 1.76 6.33 6.3 33.8 0.72 1.11 4.6 15.9 0.17 1.53 13.9 25.2 -0.86 2.79 17.2 45.4 -1.01 5.41 18.1 52.3 1.49 19.64 11.1 27.4 1.23 4.27 17.7 34.1 0.67 3.69 9.0 39.2 2.35 12.91 2.8 28.0 0.59 0.42 17.2 52.4 0.59 1.45 15.0 32.7 -0.19 1.81 19.7 70.5 0.97 1.04 12.9 46.9 0.25 2.23 21.0 29.3 0.02 1.25

CAPÍTULO IV. Análisis BIVARIANTE de VARIABLES CUALITATIVAS

El análisis del comportamiento de una variable casi siempre implica discutir sobre su relación con otras variables. A continuación se estudiarán dos tipos de relaciones bivariantes. El primer tipo comprende la relación entre dos variables de tipo cualitativo, incluyendo en ellas variables cuantitativas cuyo tratamiento efectivo la asimila una variable cualitativa ordinal. El segundo, en el próximo capítulo, se refiere a la relación entre dos variable cuantitativas. En ambos contextos se estudia la asociación entre dos variables, añadiendo a la cuestión de su detección y medición, la posible determinación de una relación de dependencia. La definición estadística de una relación de dependencia entre dos variables (sean éstas cualitativas o cuantitativas) intenta establecer cuál es la variable (independiente) que influye en la otra (dependiente). En el lenguaje estadístico también se habla de una variable explicativa y una variable explicada. La idea de causalidad supone algo más que la asociación entre ellas, puesto que impone una relación de dependencia entre las variables, debiendo plantear qué variable es dependiente y qué variable es independiente. Desde el punto de vista estadístico existen técnicas para establecer la dirección e importancia cuantitativa de la causalidad, pero su aplicación adquiere pleno sentido cuando se acompaña de algún tipo de hipótesis teórica, aunque sea al nivel puramente exploratorio de los datos.

Distribución conjunta de variables. Tabla de contingencia

Al tratar de describir la relación entre dos variables cualitativas, que denotaremos A y B, la principal herramienta de análisis es la tabla de frecuencias conjunta o tabla de contingencia. Se considera que cada una de las variables puede tomar una serie de valores mutuamente excluyentes, de manera que sobre cada individuo de la muestra puede observarse cuáles son las categorías a las que pertenece en cada una de las variables. Como en el caso de la estadística univariante, la primera manera de resumir la información es el puro cómputo. Empleando una tabla de doble entrada se muestran todas las posibles combinaciones de las categorías de las dos variable, anotando en cada una de las celdas resultantes el número de casos que pertenecen a las dos categorías. La presentación usual de este tipo de tablas, representando su distribución conjunta, se muestra en el cuadro 1.

Cuadro 1 B1 B2 A1 n11 n12 A2 n21 n22 … … … AI nI1 nI2

… … … … …

BJ n1J n2J … nIJ

En la anterior tabla se relacionan las dos variables indicadas como A y B, cada una de ellas con un número de atributos o categorías igual a I y J, respectivamente (Ai, i=1,…,I; Bj, j=1,…, J); nij indica el número de observaciones que presentan simultáneamente las características i y j de las variables A y B. El tratamiento más elemental de esta información es la obtención de las distintas frecuencias. En las tablas de contingencia se muestran las frecuencias (absolutas o relativas) en las que ocurren las categorías de filas y columnas. La notación empleada no debe provocarle ninguna dificultad, aunque dado que la lectura de los subíndices siempre resulta algo engorrosa piense que lo que se está definiendo como tratamientos de la tabla de distribución conjunta es la formalización de una lectura natural de la tabla: como frecuencias absolutas, como frecuencias relativas respecto al total de observaciones y como frecuencias relativas respecto a cada uno de los lados de la tabla. (i) Distribuciones marginales. Son las frecuencias (absolutas y relativas) de cada una de las variables. Para ello es suficiente con sumar todas las celdas correspondientes a cada una de las filas o de las columnas. En el cuadro 2 se muestra la tabla de contingencia cuando se incluyen las distribuciones marginales. En la misma, J

ni . = ∑ nij , j =1

I

n. j = ∑ nij i =1

Cuadro 2

n11 n12 n21 n22 … … nI1 nI2

… n1J … n2J … … … nIJ

Distribución marginal de A n1. n2. … nI.

n.1

… n.J

n

B1 A1 A2 … AI Distribución marginal de B

B2 … BJ

n.2

(ii) Distribución de frecuencias relativas. Son las frecuencias relativas de cada una de las celdas respecto al total de observaciones (cuadro 3). Cuadro 3 B1

B2 … BJ

Distribución marginal de A

A1

n1J n11 n12 K n n n

n1. n

A2

n2 J n21 n 22 K n n n

n2. n

M M K M n IJ n I1 n I 2 K n n n

M nI . n

n.1 n.2 n. J K n n n

1

… AI Distribución marginal de B

(iii) Perfiles fila. Corresponde a la tabla en la que aparecen las frecuencias relativas de cada una de las celdas con respecto al total de las filas (cuadro 4). Cuadro 4 B1

B2

… BJ

A1

n n11 n12 K 1J n1. n1. n1.

1

A2

n 21 n 22 n 2. n 2.

1



M

AI

nI1 nI .

Distribución marginal de B

K

n 21 n 2.

M K M nI 2 n IJ nI . K nI .

n.1 n.2 n K .J n n n

M 1

1

(iv) Perfiles columna. Muestra las frecuencias relativas de cada una de las celdas con respecto al total de las columnas (cuadro 5). Cuadro 5 B1 B2 A1 A2 … AI

Distribución … BJ marginal de A

n n11 n12 K 1J n.1 n.2 n. J

n1. n

n n21 n22 K 2J n.1 n.2 n. J M M K M n nI1 nI 2 K IJ n.1 n.2 n. J

n2. n M nI . n

1

1



1

1

Ejemplo 1. Diferencias en el tamaño de las empresas industriales. Para el sector industrial español se desea analizar si existe alguna relación entre el tamaño de las empresas y el sector concreto al que pertenecen. Empleando un año de la Encuesta Industrial se ha recogido para 610 empresas, información consistente en el sector al que pertenece la empresa (Metal, Química, Alimentación, Confección, Madera, Papel, Minerales no metálicos, Construcción) y su tamaño, medido en tres intervalos: de 20 a 99 empleados, de 100 a 499 y de más de 500. Los resultados del cruzamiento de estas dos variables (sector y tamaño) se ofrecen en el cuadro 6 (frecuencias absolutas). Cuadro 6 20/99 100/499 más 500 Totale s Metal 50 73 90 213 Química 13 31 15 59 Alimentación 14 15 9 38 Confección 33 48 8 89 Madera 20 3 1 24 Papel 9 10 4 23 Minerales 11 9 5 25 Construcció 80 31 28 139 n

Totales

230

220

160

610

En el cuadro 7 se muestran los porcentajes, respecto al total de empresas considerado en la muestra, de cada una de las celdas de la tabla. La tabla puede representarse en un espacio de tres dimensiones para facilitar su lectura. En la gráfica 1 se ofrece esa representación, indicándose con la serie numérica 1 a 8 los sectores productivos correspondientes. Cuadro 7 20/99 100/499 más 500 Metal 8,20 11,97 14,75 Química 2,13 5,08 2,46 Alimentación 2,30 2,46 1,48 Confección 5,41 7,87 1,31 Madera 3,28 0,49 0,16 Papel 1,48 1,64 0,66 Minerales 1,80 1,48 0,82 Construcción 13,11 5,08 4,59 Totales 37,70 36,07 26,23

Totales 34,92 9,67 6,23 14,59 3,93 3,77 4,10 22,79 100,00

Gráfica 1 15,00 10,00 5,00 más 500 100 a 499 20 a 99

0,00 1

2

3

4

5

6

7

8

Sea a través de la tabla de frecuencias conjunta o por medio de su representación puede obtenerse una visión de la importancia de cada de los sectores y su distribución en función del tamaño de las empresas. En un problema como el planteado aquí, en el que interesa destacar la

distribución de cada sector según el tamaño, sería de más ayuda la tabla de perfiles fila que se muestra en el cuadro 8. En la misma es fácil detectar que el sector del metal sería el representativo de las grandes empresas, mientras que los sectores de la madera, construcción y minerales no metálicos estarían caracterizados por un mayor número de empresas pequeñas. El sector de la confección y el químico se caracterizarían por tener empresas de tamaño mediano, mientras que el sector del papel acumularía empresas pequeñas y medianas. El sector de la alimentación, por último, sería el que mantendría un equilibrio mayor entre los tres tipos de tamaño. La conclusión general es, por tanto, que efectivamente existen claras diferencias en el tamaño de las empresas según el sector productivo, habiendo ayudado la estructura de perfiles fila a describir la distribución particular de cada uno de los sectores. Cuadro 8 Metal Química Alimentación Confección Madera Papel Minerales Construcción Totales

20 a 99 100 a 499 más 500 Totales 23,47 34,27 42,25 100,00 22,03 52,54 25,42 100,00 36,84 39,47 23,68 100,00 37,08 53,93 8,99 100,00 83,33 12,50 4,17 100,00 39,13 43,48 17,39 100,00 44,00 36,00 20,00 100,00 57,55 22,30 20,14 100,00 37,70 36,07 26,23 100,00

Advierta, sin embargo, que la lectura de la tabla en términos de los perfiles fila, no anula los comentarios que pueden realizarse cuando se toma la tabla en la dirección de las columnas. Aunque resulta obvio, el hecho de que el sector de la madera sea representativo de las empresas de pequeño tamaño, su menor número en el total de la muestra hace que en términos de la distribución de las empresas de este tamaño entre sectores (perfiles columna) su importancia sea pequeña (véase cuadro 9). Si se quisiese incidir de manera global en este tipo de empresas los sectores de la construcción y el metal serían los de mayor peso. Una discusión similar podría realizarse para las restantes columnas. Cuadro 9 Metal Química

20/99 21,74 5,65

100/499 más 500 Totales 33,18 56,25 34,92 14,09 9,38 9,67

Alimentación Confección Madera Papel Minerales Construcción Totales

6,09 14,35 8,70 3,91 4,78 34,78 100,00

6,82 21,82 1,36 4,55 4,09 14,09 100,00

5,63 5,00 0,63 2,50 3,13 17,50 100,00

6,23 14,59 3,93 3,77 4,10 22,79 100,00

La interpretación de los resultados de una tabla de contingencia obliga a una lectura cuidadosa de los porcentajes de filas y columnas, al ofrecer diferentes perspectivas de la misma información. Ejemplo 2. Baleares como segunda residencia. Con el objetivo de conocer la evolución y estructura del gasto turístico, el Govern Balear realiza anualmente una encuesta sobre el gasto turístico en las Islas Baleares. Entre la información que se publica para el año 1990 aparece el deseo que los turistas tienen de seleccionar Baleares como una posible segunda residencia. Considerando que este deseo puede estar en función de la zona en donde se ha realizado la estancia, las respuestas a la cuestión “¿desearía escoger Baleares como segunda residencia?” se han cruzado con el lugar de estancia. Las posibles respuestas a la pregunta son: (i) no; (ii) sí, en los próximos años; (iii )sí, cuando me jubile, (iv) no lo sabe. Los lugares de estancia se han clasificado en las siguientes zonas: (1) Palma; (2) Costa de Ponent; (3) Costa de Tramuntana; (4) Badia de Pollença; (5) Badia d’Alcudia; (6) Costa de Llevant; (7) Platja de Palma-S’Arenal; (8) Menorca; (9) EivissaFormentera. La información correspondiente a los turistas llegados a la isla en temporada alta se recoge en el cuadro 10. La distribución de porcentajes fila y columna se muestran en los cuadros 11 y 12, respectivamente. Cuadro 10 zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales No Sí, próx.años Sí, jubilación NS/NC Totales

88 25 16 34 163

524 143 148 211 1026

36 8 8 19 71

97 37 48 39 221

395 100 167 212 874

593 182 233 249 1257

358 120 102 118 698

200 94 90 115 498

520 148 157 181 1006

2812 856 968 1178 5814

Cuadro 11 zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales

No Sí, próx.años Sí, jubilación NS/NC Totales

3,13 2,92 1,65 2,89 2,80

18,63 16,71 15,29 17,91 17,65

1,28 0,93 0,83 1,61 1,22

3,45 4,32 4,96 3,31 3,80

14,05 11,68 17,25 18,00 15,03

21,09 21,26 24,07 21,14 21,62

12,73 7,11 18,49 14,02 10,98 17,29 10,54 9,30 16,22 10,02 9,76 15,37 12,01 8,57 17,30

100 100 100 100 100

Cuadro 12 zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales

53,99 Sí, próx.años 15,34 Sí, jubilación 9,82 NS/NC 20,86 Totales 100 No

51,07 13,94 14,42 20,57 100

50,70 11,27 11,27 26,76 100

43,89 16,74 21,72 17,65 100

45,19 11,44 19,11 24,26 100

47,18 14,48 18,54 19,81 100

51,29 17,19 14,61 16,91 100

40,16 18,88 18,07 23,09 100

51,69 14,71 15,61 17,99 100

48,37 14,72 16,65 20,26 100

En el cuadro 11 puede observarse la distinta afluencia de turistas según las zonas, las que reciben mayor afluencia de visitantes son la zona 2 (Costa de Ponent, 18%) zona 5 (Badia d’Alcudia, 15%), zona 6 (Costa de Llevant, 22%) y zona 9 (Eivissa-Formentera, 17%), mientras que la zona 3 (Costa de Tramuntana, 1%) y la zona 4 (Badia de Pollença, 4%) son las que menos turistas reciben. En el cuadro 12 pueden leerse los porcentajes totales de aceptación: el 48% de los encuestados no elegirían las islas como segunda residencia, mientras que el 32% sí lo haría, el 15% en los próximos años y el 17% en la jubilación. Los porcentajes según el lugar de estancia no varían en exceso, aunque pueden observarse dos zonas en las que claramente se supera el valor medio de aceptación: la zona 4 (Badia de Pollença, para la que el 39% de los turistas visitantes de la zona escogerían las Islas) y la zona 8 (Menorca, con el 37% de sus visitantes). Entre las zonas donde se observa un rechazo a esta selección destaca la ciudad de Palma (54% de respuestas negativas). En los siguientes apartados se tratan algunos estadísticos de asociación para variables de tipo cualitativo. Los dos primeros se centran en algunos coeficientes de asociación para variables nominales u ordinales (Chi-cuadrado, C de contingencia y lambda), mientras que en el tercero se explican algunas medidas de asociación para cualitativas ordinales (gamma, tau-b y tau-c).

Chi-Cuadrado y C de contingencia

La lectura de los porcentajes de una tabla de frecuencias permite averiguar si existe algún tipo de asociación entre las diversas categorías de las variables, verificando si el hecho de pertenecer a alguna de las categorías de una de las variables permite asegurar una frecuencia mayor o menor de la esperada respecto a las categorías de la otra variable. Retomemos el ejemplo anterior en el que se analiza las respuestas de los turistas de Baleares a la pregunta “¿desearía escoger Baleares como segunda residencia?”, teniendo en cuenta la zona en la que han pasado sus vacaciones en las islas. El total de turistas que contestan “No” a esta pregunta es aproximadamente del 48%. En el caso de que el lugar de estancia no tuviese una especial influencia en esta opinión, el porcentaje de “noes” esperado sería el mismo independientemente de la zona de vacaciones. Es decir, tanto en la zona 1 como en la zona 2, etcétera, esperaríamos un porcentaje de respuestas negativas muy cercano al 48%. Al observar una zona con un porcentaje distinto (sea mayor o menor) que el calculado sobre toda la muestra es cuando se detecta una asociación entre las dos variables cualitativas. Si la distribución de frecuencias se modifica en función de la zona de estancia podemos hablar de una asociación entre las dos variables. Una medida sintética del grado de asociación se calcula a partir de la comparación entre los valores observados y los valores que uno esperaría encontrar en el caso de inexistencia de asociación. Si no se esperase ninguna asociación entre el lugar de estancia y la posible segunda residencia, la distribución de frecuencias relativas en términos de los perfiles columna sería la reproducida en el cuadro 13. Cuadro 13 zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales

48,37 Sí, próx.años 14,72 Sí, jubilación 16,65 NS/NC 20,26 Totales 100 No

48,37 14,72 16,65 20,26 100

48,37 14,72 16,65 20,26 100

48,37 14,72 16,65 20,26 100

48,37 14,72 16,65 20,26 100

48,37 14,72 16,65 20,26 100

48,37 14,72 16,65 20,26 100

48,37 14,72 16,65 20,26 100

48,37 14,72 16,65 20,26 100

48,37 14,72 16,65 20,26 100

Es decir, todos los perfiles columna serían iguales a la distribución marginal. En términos de las frecuencias absolutas los resultados que esperaríamos encontrar (frecuencias esperadas, eij) serían los del cuadro 14. Cuadro 14 zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales No Sí, próx.años Sí, jubilación

79 24 27

496 151 171

34 10 12

107 33 37

423 129 145

608 185 209

338 103 116

241 73 83

487 148 167

2812 856 968

NS/NC Totales

33 163

208 1026

14 71

45 221

177 874

255 1257

141 698

101 498

204 1006

1178 5814

Cada una de las celdas de la tabla se obtiene aplicando el porcentaje de los totales de la última columna al número de personas que han estado en cada zona, por ejemplo:

e11 =

2812 163 = 79 5814

;

e12 =

2812 1026 = 496 5814

; ...

e21 =

856 163 = 24 5814

;

e22 =

856 1026 = 151 5814

; ...

Si las cifras observadas son parecidas a las esperadas suponiendo independencia de las respuestas, las diferencias entre los valores observados nij y los esperados eij estarían próximas a cero. El estadístico de asociación chicuadrado, χ 2 , resume esta posible discrepancia para el conjunto de las celdas de la tabla: I

J

χ2 =∑∑

(n

ij

i =1 j =1

− eij

)

2

eij

Este estadístico suma para todas las celdas la discrepancia, elevada al cuadrado, entre la frecuencia observada y la esperada; normalizando esa cifra mediante el valor esperado. Si no existe ningún grado de asociación entre las variables cualitativas los valores esperados serían iguales a los valores observados, con lo que el valor del estadístico en este caso sería igual a cero.

Inexistencia de asociación entre las variables ⇒ χ 2 =

I

J

∑∑ i =1 j =1

(n

ij

− eij

)

2

eij

En el cuadro 15 se leen las cifras correspondientes a las diferencias

(n

ij

− eij eij

)

2

≅0

del ejemplo de segunda residencia. Cuadro 15 zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 No Sí, próx.años Sí, jubilación NS/NC

1,1 0,0 4,6 0,0

1,6 0,4 3,1 0,0

0,1 0,6 1,2 1,5

0,9 0,6 3,4 0,7

1,8 6,4 3,1 6,9

0,4 0,1 2,6 0,1

1,3 2,9 1,8 3,9

7 5,7 0,6 1,9

2,3 0,0 0,7 2,5

La suma de todas estas cantidades proporciona el valor del estadístico chi-cuadrado, que en este caso es igual a 71,87. Dado que este valor no está cercano a cero, puede afirmarse que existe algún tipo de asociación entre las dos variables. Dicho de otra manera, puede afirmarse que lo que se opina sobre Baleares como segunda residencia tiene algún tipo de relación con la zona de estancia de las vacaciones. El problema de este estadístico es que aunque tiene un límite inferior con una interpretación muy clara, tal como está definido no proporciona un límite superior que permita referirnos al grado de asociación existente. Como ya se ha comentado, muchos estadísticos tienen una mayor utilidad si definen límites a los que tomar como referencia. En este caso, el límite inferior es cero e indica la ausencia total de dependencia entre las dos variables, pero desconocemos el límite superior que puede tomar y, por tanto, no podríamos afirmar si la asociación detectada es fuerte o débil. Como una opción al estadístico chi-cuadrado, K. Pearson propuso el coeficiente C de contingencia definido como:

C=

χ2 n+χ2

El límite superior de este estadístico no está, sin embargo, libre de problemas. El coeficiente C toma su valor mínimo cuando χ 2 es cero, es decir si entre las dos variables no existe asociación. El valor máximo del coeficiente, que se da cuando existe una asociación completa entre las variables, depende del número de modalidades de las variables. El máximo que puede alcanzar el coeficiente es uno (correspondiente a dos variables con infinitas modalidades), pero no siempre se alcanza. Por ejemplo, cuando se trata de una tabla cuadrada I x I (igual número de filas que de columnas), el límite superior es igual a

(I −1)

I . En general, el límite máximo del coeficiente es igual a:

1−

1 , mín(I , J )

mín (I , J ) ≥ 2

El coeficiente C de contingencia toma valores entre 0 y 1. Valores de C cercanos a cero indican un grado de asociación pequeño. Valores cercanos a uno serían síntoma de asociación entre las variables.

Ejemplo 3. Características de los hogares unipersonales. Se desea conocer si los hogares unipersonales son característicos de las zonas urbanas. Para ello y utilizando datos de la EPF-90 se cruza información sobre estas dos características del hogar. La variable denominada unipersonal toma dos posibles atributos según el hogar sea o no sea unipersonal; la variable zona indica si el hogar pertenece al medio rural o al medio urbano. Los resultados del cruzamiento se ofrecen en los cuadros 16 (frecuencias observadas) y 17 (porcentajes de filas, columnas y sobre el total, en este orden). Puede observar que los hogares unipersonales representan el 10,2% de los hogares de la EPF-90, los porcentajes de este tipo de hogar según se distinga entre su pertenencia a zona rural o urbana no son muy distintos (10,5% y 10%, respectivamente). Una información similar se obtiene analizando los perfiles fila. Los hogares urbanos representan el 51,9% del total de hogares, siendo el porcentaje igual a 50,6% cuando se consideran únicamente los hogares unipersonales. La lectura de estos porcentajes, por lo tanto, no parece indicar una asociación importante entre las variables tipo de hogar (unipersonal o no) y zona de residencia (rural o urbana).

Cuadro 16 Unipersonal: No Sí Totales

Zona: Rural Urbana 9070 9840 1065 1091 10135 10931

Totales 18910 2156 21066

Cuadro 17 Unipersonal: No

Zona: Rural Urbana 48% 52% 89,5% 90% 43,1% 46,7%

Totales 89,8%

49,4% 10,5% 5,1% 48,1%

Sí Totales

50,6% 10% 5,2% 51,9%

10,2%

Cuadro 18 Zona: Unipersonal: No Sí

Rural

Urbana

18910 10135 = 9097,73 21066 2156 10135 =1037,27 21066

18910 10931= 9812,27 21066 2156 10931=1118,7 21066

10135

10931

Totales

Totales 18910 2156 21066

Para conocer el valor del estadístico de asociación chi-cuadrado deben obtenerse los valores esperados de cada celda, calculados según se muestra en el cuadro 18, siendo el valor del estadístico: χ2 =

(9070 − 9097,73)2 (9840 − 9812,27)2 (1065 − 1037,27)2 (1091 − 1118,7 )2 9097,73

+

9812,27

+

1037,27

+

1118,7

= 1,59

Y el valor del coeficiente C:

C=

χ2 1,59 = = 0,0087 2 21066 + 1,59 n+χ

El coeficiente C, al estar tan próximo a cero apunta la ausencia de asociación entre las dos variables.

Lambda

Este coeficiente se define tomando como base el concepto de predicción. Supongamos que queremos predecir la respuesta de un individuo a la pregunta de una encuesta. Si no sabemos nada de ese individuo, una predicción razonable sería suponer que su respuesta coincidirá con la opción que más gente haya contestado. Al adoptar este criterio interpretaríamos como valor más probable

aquel que en la muestra se ha descubierto como el más frecuente. Así, por ejemplo, si tuviéramos que asignar una familia española a la categoría de hogar urbano o rural, empleando la información del cuadro 16, este criterio aconsejaría asignarlo a la categoría más frecuente, en este caso el hogar urbano. Obviamente, existe la posibilidad de cometer un error. ¿Puede medirse la importancia del error? Si aplicásemos este criterio a las 21066 familias de la muestra EPF-90 realizaríamos una predicción correcta en 10931 casos (las familias que efectivamente pertenecen a la opción mayoritaria), mientras que cometeríamos un error en las 10135 familias restantes (las familias que no pertenecen a la moda de la distribución). En el caso de disponer de información adicional, la predicción podría intentar mejorarse. Por ejemplo, si supiéramos que la familia que queremos asignar como hogar rural o urbano tiene alguna otra característica, podríamos utilizar esa información en el proceso de asignación. Supongamos que, efectivamente, se conoce si en ese hogar existen o no personas con más de 60 años. ¿Podríamos mejorar el número de aciertos si utilizásemos esta información? En los cuadros 19 (frecuencias absolutas) y 20 (porcentajes fila) se muestra el cruzamiento de las dos variables.

Cuadro 19 mayores de 60 años: No Sí Totales

Zona: Rural Urbana 5318 6726 4817 4205 10135 10931

Totales 12044 9022 21066

Zona: Rural Urbana 44,2% 55,8% 53,4% 46,6% 48,1% 51,9%

Totales 100% 100% 100%

Cuadro 20 mayores de 60 años: No Sí Totales

Si sabemos que en la familia hay miembros mayores de 60 años modificaríamos la predicción. La distribución de la fila correspondiente a este tipo de hogar entre rural y urbano es del 53,4% y 46,6%, respectivamente,

cuando en el total el porcentaje era del 48,1% y 51,9%. La predicción, si mantenemos el criterio de asignar la familia al atributo más frecuente es distinta ahora, al ser la característica de hogar rural la más frecuente entre aquellos hogares con familias que tienen algún miembro mayor de 60 años. ¿Cuál será el error que se cometería si se aplica la predicción a todas las familias de la muestra? Por un lado, si en la familia hay mayores de 60 años, se asignarían erróneamente a zonas rurales las 4205 familias que viven en zonas urbanas. Por otro lado, si sabemos que en la familia no existe ningún miembro de 60 años, cualquier familia para la que hagamos la predicción la situaríamos en zona urbana, al tratarse de la categoría más frecuente (55,8% de los casos). El error que cometeríamos en este caso sería de 5318 familias. En total, por tanto, el error global sería de 4205+5318 familias, igual a 9523. Al considerar dos variables puede utilizarse una de ellas para facilitar la predicción de la otra. La predicción de la variable dependiente se realiza condicionada a los valores de la variable independiente. ¿Se ha mejorado la predicción al tener en cuenta la variable mayores de 60 años? Manteniendo siempre como criterio de predicción la asignación de un individuo a la característica más frecuente, cuando no se ha tenido en cuenta esta variable el error global era de 10135 familias y cuando se ha considerado, el error global ha sido de 9523. En consecuencia, se ha mejorado la predicción en sólo 612 familias que ahora se asignarían correctamente. Porcentualmente puede valorarse si se ha producido una mejora mediante la siguiente medida de reducción proporcional del error:

λ =

10135 − 9523 = 0,06038 10135

¿Cómo debe leerse este estadístico? El valor obtenido indica que sabiendo que en la familia viven una o más personas por encima de los 60 años el error de la predicción se reduciría un 6,04%, en este caso una cifra pequeña. En general, el estadístico lambda se define como:

λ = donde:

error no condicionado - error condicionado error no condicionado

⇒ error no condicionado, es el error de predicción cometido cuando las predicciones para los atributos de la variable dependiente no están condicionadas a otra variable.

⇒ error condicionado, es el error de predicción cometido cuando las predicciones para los atributos de la variable dependiente se hacen condicionadas a los atributos de una variable independiente. El valor mínimo de lambda es cero y se dará cuando el error no condicionado = error condicionado, es decir, cuando el error de la predicción no se mejora al tener información de la segunda variable. El valor máximo es igual a 1 y se da cuando el error condicionado se hace cero, es decir, cuando la predicción condicionada reduce el error totalmente. El estadístico lambda toma valores entre cero y uno: 0 ≤ λ ≤ 1 . Un valor de lambda igual a cero quiere decir que la variable independiente no ayuda a predecir la variable dependiente: no se reduce el error de predicción cuando se usan los valores de una variable para predecir la otra; el valor de lambda igual a 1 indica una predicción condicionada que reduce el error original en un 100%. Al cruzarse dos variables, el estadístico lambda puede calcularse de dos maneras distintas, alternando la definición de cuál de las dos variables se considera independiente. Es decir, que se obtiene un valor de lambda distinto según se considere la predicción de una u otra variable. En el ejemplo numérico al que estamos haciendo referencia hemos planteado la predicción de las frecuencias de la variable urbano condicionadas a la variable mayores de más de 60 años. De una forma alternativa podríamos haber planteado la predicción de mayores de 60 años condicionada a los valores de la variable urbano. Como veremos a continuación, el valor de lambda que se obtiene es distinto. La predicción no condicionada nos llevaría a un error (error no condicionado) igual a 9022. Al darse una mayor frecuencia de familias con ningún miembro de más de 60 años (12044 familias) frente a las que tienen uno o más de uno (9022 familias) el criterio de predicción que hemos definido nos conduciría a asignar a una familia al grupo mayoritario, lo que supondría (en caso de aplicarse en la propia muestra) realizar una asignación incorrecta en 9022 familias. El error que cometemos al predecir de manera condicionada es la suma de dos cantidades: si supiésemos que el hogar está en una zona rural predeciríamos para cualquier familia que no hay ningún individuo de más de 60 años, cometiendo un error en la muestra de 4817 familias; si consideramos que el hogar está en una zona urbana, la predicción (al ser también la frecuencia mayoritaria) es la misma y el error igual a 4205 familias. El estadístico lambda será por tanto:

λ =

9022 − ( 4817 + 4205 ) =0 9022

En consecuencia, tener información sobre la variable mayores de 60 años no mejora en nada la predicción de la variable urbano. El estadístico lambda ofrece resultados distintos según cuál de las dos variables de la tabla de contingencia se utilice como variable dependiente. Una síntesis de los dos estadísticos lambda es el denominado lambda simétrico definido como una combinación de los dos anteriores. En nuestro ejemplo tomaría el siguiente valor:

λ =

( 10135 − 9523 ) + ( 9022 − 9022 ) = 0,03195 10135 + 9022

El estadístico lambda simétrico se define como la combinación de los lambdas simples y resume la reducción del error de predicción cuando no existe ninguna razón para considerar a una de las dos variables como dependiente. Ejemplo 4. Nivel de estudios y categoría socioeconómica. El nivel de estudios alcanzado por un individuo puede entenderse como una inversión en capital humano que debe tener su recompensa en su nivel de ingresos o en la categoría social en la que se inserta. Como una manera de valorar esta hipótesis se han cruzado dos variables de la EPF-90, la primera recoge el nivel de estudios del sustentador principal (SP), la segunda recoge su categoría socioeconómica. Las categorías de las variables se recogen a continuación: Nivel de estudios del SP: 1. 2. 3. 4. 5.

Analfabeto o sin estudios. Primarios, EGB o FP-1. BUP, COU, FP-2. Diplomado universitario o equivalente. Estudios superiores o equivalentes. Categoría socioeconómica:

1. Empresarios y directivos agrarios. 2. Resto de trabajadores y miembros de cooperativas agrarias. 3. Empresarios, profesionales y trabajadores independientes no agrarios. 4. Directores profesionales y jefes administrativos por cuenta ajena.

5. Resto del personal de servicios y profesionales de las Fuerzas Armadas. 6. Contramaestres, operarios cualificados y miembros de cooperativas no agrarias. 7. Operarios sin especialización, no agrarios. 8. No clasificables. Los resultados del cruzamiento de estas dos variables se muestran en el cuadro 21 (frecuencias absolutas, porcentajes fila, columna y totales). El cálculo de algunos de los estadísticos de asociación de esta tabla son los siguientes: chi-cuadrado igual a 11231,389; coeficiente C de contingencia igual a 0,58970; lambda simétrica igual a 0,07016; lambda con categoría socioeconómica como variable dependiente 0,04047; lambda con nivel de educación como dependiente 0,09137. ¿Qué conclusiones pueden obtenerse de estas cifras?

El cálculo de los estadísticos muestra que efectivamente existe una asociación importante entre las dos variables, mostrando el coeficiente C de contingencia un valor alejado del cero y relativamente próximo al valor teórico máximo del estadístico (igual a uno). Este grado de asociación, sin embargo, no se ve reflejado en el estadístico lambda. En concreto, dado que la relación de dependencia que nosotros hemos planteado a priori implica una dependencia de la categoría socioeconómica del nivel de estudios del individuo, debemos leer la cifra correspondiente a lambda con la categoría socioeconómica como variable dependiente, que es igual a 0,04047. El error de predicción se reduce, por tanto, sólo en un 4,05% cuando se emplea el nivel de estudios como variable dependiente.

Cuadro 21 Categoría socioeconómica del sustentador principal (SP): Nivel de estudios del SP: 1 2

1 259 4,8 33,2 1,2 489

2

3

383 247 7,0 4,5 50,6 11,7 1,8 1,2 345 1434

4 3 0,1 0,2 0,0 228

5

6

7

256 645 113 4,7 11,8 2,1 8,2 14,8 30,9 1,2 3,1 0,5 1828 3252 235

8

9

44 3500 0,8 64,2 26,3 44,8 0,2 16,6 98 3693

Totales

5450 25,9 11602

3

4

5

Totales

4,2 62,7 2,3 22 1,1 2,8 0,1 6 0,6 0,8 0,0 4 0,4 0,5 0,0 780 3,7

3,0 12,4 45,6 67,9 1,6 6,8 22 253 1,1 12,3 2,9 12,0 0,1 1,2 6 78 0,6 7,4 0,8 3,7 0,0 0,4 1 99 0,1 10,9 0,1 4,7 0,0 0,5 757 2111 3,6 10,0

2,0 14,4 1,1 276 13,5 17,4 1,3 506 48,1 31,9 2,4 573 62,9 36,1 2,7 1586 7,5

15,8 58,5 8,7 751 36,6 24,0 3,6 191 18,2 6,1 0,9 99 10,9 3,2 0,5 3125 14,8

28,0 2,0 74,6 64,2 15,4 1,1 402 13 19,6 0,6 9,2 3,6 1,9 0,1 51 3 4,9 0,3 1,2 0,8 0,2 0,0 12 2 1,3 0,2 0,3 0,5 0,1 0,0 4362 366 20,7 1,7

0,8 31,8 58,7 47,3 0,5 17,5 16 297 0,8 14,5 9,6 3,8 0,1 1,4 7 203 0,7 19,3 4,2 2,6 0,0 1,0 2 119 0,2 13,1 1,2 1,5 0,0 0,6 167 7812 0,8 37,1

55,1

2052 9,7

1051 5,0

911 4,3 21066

Estos resultados son llamativos puesto que mientras que, por un lado, se detecta una asociación de dependencia mediante el estadístico chi-cuadrado, por otro, el estadístico lambda sugiere la ausencia de mejora en la predicción cuando se utiliza una de las variables como dependiente. Si se invierte la relación de dependencia tampoco mejoraría el resultado, al calcularse lambda igual a 9,14%. La razón de esta aparente contradicción es que ambos estadísticos miden el grado de asociación con un objetivo diferente. Los valores observados y los valores esperados bajo la hipótesis de independencia pueden ser muy distintos, detectándose por ello un grado de asociación alto mediante el estadístico chi-cuadrado, pero ello no tiene por qué suponer que el conocimiento de una de las variables mejore la predicción de los valores de la otra, al menos bajo el criterio utilizado en el estadístico lambda. Para ilustrar esta circunstancia, Norusis (1991, pág. 320) presenta el ejemplo que reproducimos en el cuadro 22. Cuadro 22 variable independiente: 1 2 3 Totales

variable dependiente: 1 2 3 19 20 1 10 20 10 1 20 19 30 60 30

Totales 40 40 40 120

El valor del estadístico chi-cuadrado en esta tabla es igual a 32,4, con una C de contingencia igual a 0,46, lo que sugiere algún grado de asociación. Para calcular el estadístico lambda con respecto a la variable dependiente observemos que la predicción no condicionada llevaría a un error global igual a 30+30=60, al ser la categoría más frecuente la 2. Para realizar la predicción condicionada debemos considerar para cada uno de sus atributos cuál es la categoría más frecuente. En los tres casos coincide que se trata de la 2. El error total que se cometería sería, por tanto, la suma de las frecuencias en las categorías menos frecuentes (19+1)+(10+10)+(1+19)=60. El estadístico lambda, por tanto, proporciona un valor igual a cero. Con ello se señala que el conocimiento de la variable independiente, bajo el criterio establecido de predicción, no disminuiría el error. Puede existir una asociación entre dos variables (medido por el estadístico chi-cuadrado), sin que el conocimiento de la variable independiente disminuya el error en la predicción (medido por el estadístico lambda).

Gamma, Tau-b y Tau-c

Se trata de estadísticos de asociación para variables cualitativas de tipo ordinal. Cuando se trabaja con variables ordinales las categorías de las variables pueden ordenarse, en algún sentido, de menos a más. Las medidas a las que se hace referencia aquí permiten detectar además si la asociación existente es positiva o negativa. Los estadísticos gamma, tau-b y tau-c se utilizan como medidas de asociación de variables cualitativas ordinales. Pares concordantes y discordantes. Para definir los nuevos estadísticos se deben emplear los conceptos de par concordante y par discordante. Utilizaremos para ello un ejemplo con dos variables cualitativas de tipo nominal, que recogerían la edad y los ingresos de una muestra de individuos. Tanto la edad como los ingresos se pueden medir en escala continua o en escala ordinal, considerándose en este caso como variables cualitativas. Supongamos que la edad está definida en 9 intervalos (1, desde 20 a 25 años; 2, de 25 a 30; 3, de 30 a 35; …; 8, de 55 a 60; 9, más de 60), los ingresos en 10 intervalos (1, menos de un millón; 2, de uno a dos millones; …; 10, más de 10 millones) y que disponemos de nueve observaciones, con los valores del cuadro 23.

En el ejemplo aparecen nueve individuos, cada uno en un intervalo de edad distinto (desde 1 hasta 9) y distintos niveles de ingresos. La muestra se puede ordenar en función de los valores de una de las dos variables, por ejemplo la edad. El resultado sería el que se observa en el cuadro 24. Cuadro 23 individuo edad 1 4 2 2 3 3 4 5 5 1 6 6 7 9 8 8 9 7

ingresos 4 3 2 5 2 10 9 4 1

Cuadro 24 individuo edad 5 1 2 2 3 3 1 4 4 5 6 6 9 7 8 8 7 9

ingresos 2 3 2 4 5 10 1 4 9

Dos individuos de la muestra se definen como pares concordantes si los valores que toma uno de los individuos en las dos variables son mayores que los que toma el otro individuo. Así el individuo 5 y el 2 forman un par concordante, al tomar el individuo número 2 en las variables edad e ingresos valores iguales a 2 y 3, mayores que 1 y 2, del individuo 5. El siguiente par que puede detectarse como concordante sería el correspondiente a los individuos 5 y 1, ya que los valores que toma este último son superiores en ambas variables a los del individuo 5. Dos individuos definen un par discordante si los valores que toma uno de los individuos en una de las variables son mayores que los del otro, pero esa

relación se invierte en la segunda variable. Así, el par formado por los casos 5 y 9 sería discordante, al tomar el individuo 9 un valor mayor en la variable edad, pero un valor menor en los ingresos. Los individuos 2 y 3, por ejemplo, serían también un par discordante al invertirse el orden de los valores en las dos variables. En el caso de que los valores de una o ambas variables coincidieran el par no se consideraría ni concordante ni discordante. El par 5, 3, por ejemplo, sería un par igualado, ni concordante ni discordante, al tomar el mismo valor en la variable ingresos. Un par de observaciones se considera como un par concordante si los valores que toma una de las observaciones en las dos variables son mayores que los que toma la otra observación. Un par de observaciones se considera como un par discordante si los valores que toma una de las observaciones en una de las variables son mayores que los de la otra observación, pero esa relación se invierte en la segunda variable. En el caso de que los valores de una o ambas variables coincidieran, el par se consideraría como un par igualado.

Al comparar dos casos pueden darse, por tanto, cinco posibilidades: concordancia, discordancia, igualdad en la primera variable, igualdad en la segunda variable o igualdad en ambas variables. Para todas las parejas de observaciones puede definirse el par como concordante, discordante o igualado. Si muchas de las parejas son concordantes la relación entre las dos variables deberá interpretarse como positiva, mientras que la abundancia de pares discordantes indicará que la asociación es negativa. Si ninguno de estos dos tipos de pareja es preponderante supondremos que no existe asociación entre ambas variables. Cuando se trabaja con una tabla de doble entrada es fácil controlar el número de pares concordantes o discordantes. Imaginemos una tabla como la que aparece en el cuadro 25, en la que A, B, …, I simbolizan las frecuencias absolutas en cada celda. Cuadro 25 X 1 2 3

1 A D G

Y 2 B E H

3 C F I

Los individuos cuyos valores son (X=1, Y=1) mostrarían valores inferiores a aquellos individuos con valores (X=2, Y=2), (X=2, Y=3), (X=3, Y=2), (X=3, Y=3), según se indica en el cuadro 26. Para todos los pares de individuos formados a partir de alguno perteneciente al conjunto con valores (X=1, Y=1) ‘ ∗ ’ y otro con valores en el rango (X ≥ 2, Y ≥ 2) ‘ ∗∗ ’ nos encontraremos pares concordantes. Cuadro 26 X 1 2 3

1



Y 2

3

∗∗ ∗∗

∗∗ ∗∗

El número de pares concordantes detectados en este caso sería igual a:

A⋅ E + A⋅F + A⋅ H + A⋅ I

Otros pares concordantes se darán para otros rangos de valores. Los individuos con valores (X=1, Y=2) tendrían valores estrictamente inferiores a aquellos individuos con (X=2, Y=3) o (X=3, Y=3), según se indica en el cuadro 27, formando también pares concordantes. Cuadro 27 X 1 2 3

1

Y 2



3

∗∗ ∗∗

Aquí el número de pares concordantes sería:

B⋅F + B⋅I

Para acabar contabilizando todos los pares concordantes deberíamos además contar los pares que se reflejan en los cuadros 28 y 29.

Cuadro 28 X 1 2 3

1



Y 2

3

∗∗

∗∗

Cuadro 29 X 1 2 3

1

Y 2



3

∗∗

De igual manera pueden calcularse fácilmente los pares discordantes y los igualados. Medidas basadas en pares concordantes y discordantes. Hemos señalado cómo la detección de un número proporcionalmente elevado de pares concordantes será indicativa de una asociación positiva: cuando los valores de una variable crecen, también lo hacen los valores de la otra variable. Un razonamiento similar sirve para detectar una asociación negativa o la ausencia de asociación. Para obtener medidas de asociación basadas en estos conceptos se consideran las diferencias entre el número de pares concordantes (C) y el número de pares discordantes (D). ⇒ Gamma. El estadístico gamma (debido a Goodman y Kruskal) se define como:

γ=

C− D C+ D

Si todas las parejas son concordantes ( D = 0 ), el valor de gamma sería igual a 1, coincidiendo con el grado de asociación positivo más alto entre las dos variables. En el caso contrario, cuando todos los pares son discordantes ( C = 0 ), el estadístico nos proporcionaría un valor igual a -1, que coincidiría por tanto con el grado de asociación más alto de tipo negativo. Si el número de parejas concordantes y discordantes estuviese igualado, el estadístico estaría cercano a cero.

El estadístico gamma proporciona valores entre -1 y 1. El grado más alto de asociación positiva entre dos variables se da cuando γ = 1 . El grado más alto de asociación negativa se da cuando γ = − 1 . Finalmente, γ = 0 se interpreta como la ausencia de asociación.

⇒ Tau-b. Trata de normalizar el mismo numerador que el coeficiente gamma pero incluyendo en el denominador el número de pares igualados (ni concordantes ni discordantes) en una de las dos variables (no considera los pares en los que se da la igualdad en ambas variables). Su expresión es:

τb =

C− D

(C + D + T X ) ⋅ (C + D + TY )

indicando TX , TY el número de pares igualados en las variable X o Y. Tau-b toma valores -1 o 1 sólo en tablas cuadradas. ⇒ Tau-c. Se define como:

τc=

2m(C − D) n 2 (m−1)

donde n es el tamaño de la muestra y m es el número menor de las filas y columnas de la tabla. El estadístico puede alcanzar los valores límites de -1 y 1 en tablas de cualquier tamaño.

Ejemplo 5. ¿Existe relación entre la rentabilidad y el riesgo empresarial? En una muestra de empresas se ha obtenido su rentabilidad media y la desviación estándar de su rentabilidad en los últimos diez años (esta última como una medida de riesgo). Las empresas se han clasificado en cuatro grupos, según los rendimientos y riesgo de la empresa sean inferiores o superiores a la mediana de toda la muestra. En el cuadro 30 se muestran la tabla de contingencia que se correspondería con la definición de los cuatro grupos. Cuadro 30 Rendimiento inferior Rendimiento superior Total

Riesgo inferior 66

Riesgo superior 68

Total 134

68

65

133

134

133

267

La información de los cuatro grupos puede analizarse como el resultado del cruzamiento de dos variables cualitativas, rendimiento y riesgo, con dos categorías cada una de ellas. Aunque la información de la tabla muestra claramente la ausencia de relación entre el rendimiento

y el riesgo, calcularemos los estadísticos chi-cuadrado y gamma. Para obtener el estadístico chi-cuadrado en el cuadro 31 se calculan las frecuencias esperadas. Cuadro 31 Riesgo superior

134 = 67,2509 267 133 134 ⋅ = 66,749 267

134 = 66,749 267 133 133 ⋅ = 66,2509 267

134

133

Rendimiento inferior 134 ⋅ Rendimiento superior Total

Tota l

Riesgo inferior

133 ⋅

134 133 267

Los estadísticos de asociación Chi-cuadrado y C de contingencia se muestran a continuación: I

J

χ =∑∑ 2

(n

ij

)

eij

i =1 j =1

+

− eij

2

=

(66 − 67,2509) 2 (68 − 66,749) 2 67,2509

+

(68 − 66,749) 2 (65 − 66,2509) 2 66,749 C=

+

66,2509

66,749

+

= 0,09378

χ2 0,09378 = = 0,01874 2 267 + 0,09378 n+ χ

El estadístico gamma en esta tabla de orden 2x2 es muy rápido de calcular:

γ=

C − D 66⋅65−68⋅68 = =− 0,03747 C + D 66⋅65+68⋅68

Cuadro 32

Chi-cuadrado 0,09378

C de contingencia 0,01874

gamma -0,03747

Los resultados del cuadro 32 confirman la impresión de la tabla de contingencia, no detectándose en la muestra ninguna asociación entre la rentabilidad y el riesgo empresarial. Ejemplo 6. Beneficios empresariales y nivel de concentración. En el campo de la economía industrial es objeto de discusión la relación existente entre los beneficios empresariales y los niveles de concentración sectorial. Según algunos autores, los beneficios empresariales serían mayores en mercados con unos pocos productores responsables de las ventas, que podrían ponerse de acuerdo al margen de los mecanismos del mercado (hipótesis de colusión), favoreciendo precios y beneficios más altos. Con una muestra de empresas se intenta detectar la existencia de una asociación entre los niveles de concentración y los beneficios empresariales. Las empresas se clasifican en tres niveles de beneficios (bajo, medio y alto) y en tres niveles de concentración de su mercado (bajo, medio y alto). Entre las dos variables se efectúa un cruzamiento obteniéndose la tabla de contingencia que se muestra en el cuadro 33.

Cuadro 33 Nivel de Beneficios

Nivel de concentración Bajo Medio Alto Total

Bajo

Medio

Alto

Total

120 64 68 252

114 74 44 232

46 88 137 271

280 226 249 755

Dado que las dos variables son de tipo ordinal puede calcularse el estadístico gamma, para ello deben obtenerse el número de pares concordantes y de pares discordantes:

C = 120 ⋅ (74 + 88 + 44 + 137 ) + 114 ⋅ (88 + 137 ) + 64 ⋅ (44 + 137 ) + 74 ⋅137 = 88532 D = 46 ⋅ (64 + 74 + 68 + 44) + 114 ⋅ (64 + 68) + 88 ⋅ (68 + 44) + 74 ⋅ 68 = 41436 Y, por tanto:

γ =

C − D 88532 − 41436 = = 0,3624 C + D 88532 + 41436

El valor de gamma es igual a 0.36, al tratarse de un valor positivo se estaría detectando un grado de asociación positiva entre ambas variables. El valor máximo se da cuando gamma es igual a 1, por lo que puede aceptarse una asociación positiva moderada. El estadístico lambda, tomando como variable dependiente el nivel de beneficios, sería:

error no condicionado - error condicionado = error no condicionado [252 + 232]− [(114 + 46) + (64 + 74) + (68 + 44)] = 484 − 410 = 0,15 = [252 + 232] 484 λ beneficios =

También puede calcularse el estadístico lambda invirtiendo la relación de dependencia, es decir, planteando como variable dependiente el nivel de concentración, que sería consecuencia de los niveles de beneficio alcanzado por algunas empresas:

error no condicionado - error condicionado = error no condicionado [226 + 249]− [(64 + 68) + (74 + 44) + (46 + 88)] = 475 − 384 = 0,19 = [226 + 249] 475 λ concentración =

Los valores de lambda indican que el error de predicción del nivel de beneficios si se tiene información del nivel de concentración del mercado, se reduciría en un 15% e invirtiendo la relación de dependencia el error de predicción se reduciría en un 19%. El estadístico lambda simétrico sería igual a:

λ simétrico =

(484 − 410) + (475 − 384) = 0,172 484 + 475

confirmando la existencia de una relación de dependencia moderada entre las dos variables. Ejemplo 7. Satisfacción y calidad del establecimiento hotelero. En una encuesta realizada a una muestra de turistas en un municipio turístico se les ha solicitado cuál es el nivel de satisfacción de su estancia. La respuesta podía establecerse en tres niveles: baja satisfacción, media y alta. Se desea analizar el grado en el que la

categoría del hotel en el que se ha alojado ha podido influir en el nivel de satisfacción. Para ello se realiza el cruzamiento de las dos variables, obteniéndose las frecuencias que se muestran en el cuadro 34. ¿Existe asociación entre el nivel de satisfacción y la categoría del hotel? Para responder a esta pregunta se calculan los estadísticos de asociación chicuadrado y gamma. Cuadro 34 Categoría Hotel

Nivel de Satisfacción Bajo Medio Alto Totales

*

**

***

****

Totales

43 12 8 63

36 25 23 84

48 57 22 127

63 67 40 170

190 161 93 444

Para calcular el estadístico chi-cuadrado deben obtenerse, en primer lugar, los valores esperados bajo la hipótesis de que no hay asociación (véase el cuadro 35).

Cuadro 35 Categoría Hotel

Nivel de Satisfacción

*

**

***

****

Totale s

190 190 63 = 26,96 84 = 35,95 444 444

190 190 127 = 54,35 170 = 72,75 444 444

190

Medio

161 63 = 22,84 444

161 84 = 30,46 444

161 161 127 = 46,05 170 = 61,64 444 444

161

Alto

93 63 =13,20 444

93 84 =17,59 444

93 93 127 = 26,60 170 = 35,61 444 444

93

Totales

63

84

Bajo

127

170

444

Teniendo en cuenta estos valores, el estadístico chi-cuadrado se calcula:

χ

2

2 2 2 2 ( ( 43 − 26,96) (36 − 35,95) 22 − 26,60) (40 − 35,61) = + +K+ + = 25,83

26,96

35,95

26,60

35,61

Y el estadístico C de contingencia:

C=

25,83 χ2 = = 0,234 2 444 + 25,83 n+χ

El valor máximo de este estadístico podía llegar a ser:

1−

1 1 = 1 − = 0,816 mín(I , J ) 3

por lo que C alcanza en este análisis el 28,7% de su posible máximo, señalando con ello que existe una relación moderada entre el nivel de satisfacción y la categoría del hotel de estancia.

El cálculo del estadístico gamma confirma que la asociación es moderada y, además, que es de tipo positivo:

γ=

C − D 26744 − 18763 = = 0,1754 C + D 26744 + 18763

Finalmente, puede intentar establecerse la capacidad de predicción que tiene la categoría del hotel en el nivel de satisfacción del turista:

error no condicionado - error condicionado = error no condicionado [161 + 93]− [(12 + 8) + (25 + 23) + (48 + 22) + (63 + 40)] = = [161 + 93] 254 − 241 = = 0,0512 254

λ satisfacción =

El bajo valor de lambda señala que la categoría hotelera no ayuda a la predicción del nivel de satisfacción, puesto que el error de predicción empleando esta información sólo se reduciría en un 5%.

Ejemplo 8. Toma de decisiones familiares en la adquisición de bienes de consumo. En un estudio se intenta determinar quién o quiénes son los responsables de las decisiones de consumo dentro de las familias. Se realiza, para ello, una encuesta a 557 matrimonios, preguntándoles a cada miembro de la pareja quién toma las decisiones sobre los productos que se compran. Las posibles respuestas a esta pregunta eran que las decisiones las toma el hombre, la mujer o ambos. En el cuadro 36 se cruzan el sexo del encuestado con la respuesta de quién influye más en la compra de los automóviles. Cuadro 36 Las decisiones las toma:

Miembro de la pareja: Hombre Mujer Total

Hombre

Ambos

Mujer

Total

179 356 535

356 178 534

22 23 45

557 557 1114

Para el conjunto de encuestados, el 48% consideraba que las decisiones las tomaban los hombres, el 48% que la decisión era conjunta y sólo un 4% afirmaba que la decisión la tomaba la mujer. Sin embargo, si se consideran separadamente las respuestas dadas por los hombres y las mujeres, estos porcentajes difieren radicalmente. ¿Existe relación entre la respuesta dada a la pregunta y el sexo del individuo que la contesta? El estadístico chi-cuadrado se basa en los valores esperados que se muestran en el cuadro 37. Cuadro 37 Las decisiones las toma:

Miembro de la pareja:

Hombre

Ambos

Mujer

Total

Hombre

557 535 = 267,5 1114

557 534 = 267 1114

557 45 = 22,5 1114

557

Mujer

557 535 = 267,5 1114

557 534 = 267 1114

557 45 = 22,5 1114

557

Total

535

534

45

1114

El valor del estadístico chi-cuadrado será:

χ2 =

(179 − 267,5)2 + (356 − 267)2 + K + (178 − 267)2 + (23 − 22,5)2 = 117,91 267,5

267

267

22,5

Y el estadístico C de contingencia:

χ2 117,91 C= = = 0,31 2 1114 + 117,91 n+χ El máximo de C podría ser:

1−

1 1 = 1 − = 0,707 mín(I , J ) 2

por lo que alcanza el 44% de su posible valor máximo, mostrando que la opinión sobre quién influye más en la compra de un automóvil es muy dependiente de cuál es el sexo de la persona que responde. El cálculo del estadístico lambda será:

error no condicionado - error condicionado = error no condicionado [534 + 45]− [(179 + 22) + (178 + 23) ] = 579 − 402 = 0,30 = [534 + 45] 579 λ decisión =

El valor de lambda señala que el sexo del miembro de la pareja ayuda a la predicción de la respuesta a quién toma la decisión, con una reducción en el error de predicción del 30%. Ejemplo 9. Especialización de los tour operadores. Para valorar el grado de especialización de tres tour operadores de una zona turística, se han recogido las ofertas que realizan en sus catálogos en función de las distintas categorías hoteleras (una a cuatro estrellas). En el cuadro 38

se muestra la tabla de contingencia que cruza la información de estas dos variables cualitativas y entre paréntesis los valores esperados bajo la hipótesis de inexistencia de asociación. Cuadro 38 Categoría Hotel Tour Operador A B C Total

*

**

***

****

Total

21 37 137 49 244 (17,84) (28,96) (126,29) (70,91) 32 52 179 113 376 (27,49) (44,63) (194,61) (109,26) 24 36 229 144 433 (31,66) (51,40) (224,11) (125,83) 77 125 545 306 1053

Los resultados de aplicar el estadístico chi-cuadrado:

χ

2

2 2 2 2 ( ( 21 − 17,84) (37 − 28,96) 229 − 224,11) (144 −125,83) = + +K+ + = 22,997

17,84

28,96

224,11

125,83

Lo que lleva a un estadístico C de contingencia:

C=

χ2 22,997 = = 0,146 2 1053 + 22,997 n+χ

El máximo de C podría ser:

1−

1 1 = 1 − = 0,816 mín(I , J ) 3

alcanzando, por tanto, el 18% de su valor máximo. En consecuencia, no parece, existir asociación entre los tour operadores y la categoría de la oferta que realizan.

CAPÍTULO V. EL COEFICIENTE DE CORRELACIÓN

Cuando se dispone de dos variables cuantitativas y continuas basadas en escala de intervalo o de cociente (en adelante variables cuantitativas) las medidas de asociación estudiadas hasta ahora suelen ser inaplicables, esencialmente porque el número de valores que toman este tipo de variable hace que carezca de sentido el cómputo de frecuencias de todas las combinaciones posibles. Aunque siempre es posible convertir estas variables cuantitativas en variables cualitativas ordinales (construyendo intervalos), resulta adecuado utilizar otro tipo de coeficientes de asociación. El estadístico más comúnmente empleado es el coeficiente de correlación lineal simple (o abreviadamente, el coeficiente de correlación). Se trata de una medida sintética del grado de asociación lineal entre dos variables cuantitativas. El coeficiente de correlación lineal simple mide el grado de asociación lineal entre dos variables. Se aplica sobre variables cuya escala es de intervalo o cociente. Existe una segunda idea que destaca en el propio nombre del estadístico, se trata de la palabra simple. Circunscrito al concepto de linealidad el calificativo de simple se opone a la idea de asociación múltiple entre variables. Mediante este coeficiente se analiza la relación entre dos variables X e Y, sin considerar la existencia de otras variables que puedan estar relacionadas con ellas, ni la posible incidencia de las mismas en esa relación. Por ejemplo, supongamos que tanto la variable X como la variable Y varían cuando lo hace una tercera variable Z. El coeficiente de correlación entre la variable X e Y revelaría una asociación entre estas dos variables, pero nada dirá el coeficiente de la existencia de la tercera variable, ni de su capacidad de explicar las variaciones de X e Y. El coeficiente de correlación lineal simple refleja de manera directa la asociación entre dos variables y no tiene en cuenta que esa relación pueda enmarcarse en un entorno de relaciones más complejo.

Asociación lineal entre dos variables Cuando se habla de una relación lineal entre dos variables se está haciendo referencia a una relación que puede representarse aproximadamente como una línea recta. Denotando a las dos variables como X e Y, la existencia de una relación lineal exacta entre las dos variables podría ser la siguiente:

Yi = a + b X i

i =1, ..., n

donde a y b son constantes que pueden tomar cualquier valor, excluyendo para b el valor de 0. No debe confundirse la existencia de una relación lineal con la existencia de una relación causal. La relación lineal entre dos variables es compatible tanto con una relación causal en la que se enuncie que “X es causa de Y”, como con la relación contraria, en la que “Y es causa de X” o incluso con la inexistencia de una relación causa-efecto. El coeficiente de correlación sólo detecta la existencia (y grado) de la asociación entre dos variables, sin implicar la presencia de algún tipo de relación causal. Podemos, por tanto, detectar una relación lineal entre dos variables sin que exista una relación causal entre ellas: “X no es causa de Y” y tampoco “Y es causa de X”. Simplemente existiría una relación lineal entre ellas, no estando definida la dirección causal.

La detección de una asociación lineal entre dos variables no implica que entre ellas exista una relación causal.

Asociación lineal positiva o negativa Entre dos variables pueden detectarse dos tipos de asociación lineal: positiva y negativa. Visualmente estas dos situaciones quedan reflejadas en las gráficas 1 y 2. Gráfica 1 3

2

1

0

-1

-2

Y -3 -3

X

-2

-1

0

1

2

3

Gráfica 2 3

2

1

0

-1

-2

Y -3 -3

-2

-1

0

1

2

3

X

Las dos gráficas anteriores muestran relaciones lineales exactas entre dos variables, X e Y. Cuando se da una relación positiva la pendiente de la recta es positiva, mientras que una relación negativa entre las dos variables se refleja en una pendiente de la recta negativa. El signo del valor del parámetro b de la recta reflejaría, por tanto, el sentido de la asociación (positiva o negativa) entre las dos variables. También pueden existir relaciones exactas entre dos variables que sean de tipo no lineal, como por ejemplo las representadas en las gráficas 3 y 4. En estas gráficas se muestran relaciones exactas de tipo cuadrático y cúbico, respectivamente. La asociación entre las dos variables es exacta en ambas gráficas. El coeficiente de correlación no tiene por qué detectar este tipo de relación, puesto que está diseñado con la intención de medir asociaciones lineales. Gráfica 3 10

0

-10

-20

Y -30 -3

X

-2

-1

0

1

2

3

Gráfica 4 40 20 0 -20 -40 -60 -80

Y -100 -3

-2

-1

0

1

2

3

X

Aunque los ejemplos anteriores se refieren a relaciones exactas entre variables, el coeficiente de correlación no sólo sirve para detectar si la asociación es positiva o negativa, sino que también mide el grado, la importancia, de la misma. Las relaciones exactas señalan los grados máximos de correlación, pero existen otros niveles menores de asociación. Por ejemplo, si se calcula el coeficiente de correlación para las variables de la gráfica 5, éste nos informará de la existencia de una asociación positiva, permitiéndonos valorar hasta qué punto esa asociación está cercana a la definida por una relación exacta. Gráfica 5 6000 5000

4000 3000 2000 1000 0

Y

-1000 -2000 -1000

X

0

1000

2000

3000

4000

5000

6000

Estadístico de covarianza El coeficiente de correlación se puede definir a partir de otro estadístico, el coeficiente de covarianza. En general, se habla de la covarianza entre dos variables, X e Y, y se define formalmente como: n

s XY =

∑( X i =1

i

− x )(Yi − y ) n

(o dividiendo por n-1). El sentido del estadístico resultará más claro si utilizamos la representación gráfica de una base de datos concreta. Para ello hemos simulado cien observaciones de dos variables X e Y, representándolas en el gráfico 6. La asociación entre las dos variables, aunque no es exacta, es de tipo positivo: cuando los valores de una de las dos variables aumentan, también lo hacen los de la otra variable. Las medias de las variables X e Y son iguales a 10,09 y 13,14, respectivamente. En la gráfica 7 se han marcado dos líneas de referencia que corresponden a estos valores medios. ¿Qué ocurre si en lugar de expresar los valores de las variables en sus cifras originales ( X i , en niveles), las expresamos en diferencias respecto a la media ( X i − x )? Las líneas de referencia que aparecían dibujadas en la gráfica 7 serán ahora los nuevos ejes de coordenadas. El punto medio (10,09; 13,14) será ahora el punto (0;0) y un punto cualquiera ( X i ; Yi ) será ahora el punto ( X i − x ; Yi − y ). Gráfico 6. 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3

Y

2 1 0 0

X

1

2

3

4

5

6

7

8

9

10

11

12

13

Gráfico 7. 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3

Y

2 1 0 0

1

2

3

4

5

6

7

8

9

10

11

12

13

X

El empleo de las variables en desviaciones respecto a la media equivale a una traslación de los ejes de coordenadas, que pasan de estar centrados en el punto (0;0) a estarlo en el punto ( x ; y ). Al expresar los valores de las variables en desviaciones, el centro de coordenadas se sitúa ahora en el centro de la nube de puntos. En la gráfica 8 se muestra la apariencia de la nueva representación (con las variables en desviaciones). El nuevo punto (0;0) en las antiguas coordenadas es el punto ( x ; y ). Volvamos ahora al estadístico de covarianza. El signo y valor de este estadístico depende, esencialmente, de la suma de los productos

(X

i

− x )(Yi − y ) , para todas las observaciones (i=1,…,n). Centrémonos en el

signo. En el producto, el signo final depende la posición de la observación en los cuadrantes de los ejes de coordenadas. Las observaciones que se sitúan en los cuadrantes I y III (véase la gráfica 9) proporcionarán productos positivos (+ por + en el primer cuadrante y – por – en el tercero). En el primer cuadrante, esto coincide con las observaciones que tienen un valor superior a la media en ambas variables, mientras que en el tercero se encuentran las observaciones con valores inferiores a la media, en las dos variables. Las observaciones que se sitúan en los cuadrantes II y IV tendrán un

producto negativo (− por + en el segundo cuadrante y + por − en el cuarto). En el segundo cuadrante, esto coincide con las observaciones que tienen un valor inferior a la media en la variable X y superior a la media en la variable Y. En el cuarto cuadrante, la relación se invierte.

Gráfico 8. 4

3

2

1

0

Y en desviaciones

-1

-2

-3 -4 -3

-2

-1

0

1

2

3

2

3

X en desviaciones

Gráfico 9. 4 3

II

I

III

IV

2 1 0 -1 -2 -3 -4 -3

-2

-1

0

1

El signo (y valor) de la covarianza depende del número de observaciones que aparezcan en cada uno de los cuadrantes. Un número de observaciones relativamente elevado en los cuadrantes I y III proporcionará, en la suma global, una covarianza positiva; mientras que una mayoría de las observaciones en los cuadrantes II y IV conducirá a una covarianza negativa. En la gráfica 10 se muestra la imagen de dos variables asociadas negativamente, es decir, cuya covarianza sería negativa como consecuencia de la acumulación de puntos en los cuadrantes II y IV. Debe entenderse que en el signo de la covarianza se refleja la relación existente entre las dos variables. Si la covarianza es positiva, sabemos que cuando un individuo tiene un valor por encima de la media en una de las dos variables será fácil que también se encuentre por encima de la media en la otra variable. En el caso de una covarianza negativa, este estadístico de asociación nos indica que el ubicarse por encima del valor medio en un variable implicará, en general, estar por debajo en la otra (o viceversa). Gráfica 10 4

3

2

1

0

Y en desviaciones

-1

-2

-3 -4 -3

-2

-1

0

1

2

3

X en desviaciones

Junto a la existencia de asociación positiva o negativa, cabe la posibilidad de que no exista una asociación clara entre las dos variables. Esta sería la situación que se describe visualmente en la gráfica 11, en la que el conjunto de observaciones se dispersa de manera más o menos homogénea sobre los cuatro cuadrantes.

Gráfica 11 1,5

1,0

,5

0,0

Y

-,5

-1,0 -4

-3

-2

-1

0

1

2

3

X

Entre dos variables X e Y pueden establecerse cualquiera de las siguientes asociaciones: Covarianza positiva ⇔ s XY > 0 ⇔ Asociación lineal positiva. Covarianza negativa ⇔ s XY < 0 ⇔ Asociación lineal negativa. Covarianza nula ⇔ s XY = 0 ⇔ Asociación lineal inexistente.

Resaltemos de nuevo la idea de linealidad. Cuando se utiliza el estadístico de covarianza se mide el grado de asociación lineal entre dos variables. Si existe una relación no lineal entre dos variables, ésta no tiene por qué detectarse mediante el estadístico de covarianza. El valor del coeficiente de covarianza depende, entre otras cosas, de las unidades de medida de las variables. En el cuadro 1 se muestra el cálculo del coeficiente de covarianza de dos variables, de las que se dispone de diez observaciones. Su representación se ofrece en la gráfica 12. La covarianza es igual a 11,67; la asociación entre las dos variables es, por lo tanto, positiva. El valor absoluto, sin embargo, no nos añade en este caso más información. ¿Es el

grado de asociación alto o bajo? O dicho de otra manera, ¿la asociación se acerca mucho o poco a lo que sería una asociación positiva de tipo exacto? El problema de la covarianza como medida de asociación es que depende de las unidades de medida de las variables, no pudiéndose comparar rápidamente con una cifra estándar que permita hablar de “mucha” o “poca” asociación.

Cuadro 1

(X

− x )(Yi − y )

i

Xi

Yi

Xi − x

Yi − y

1 2 3 4 5 6 7 8 9 10

12 10 11 13 15 14 12 11 19 20

14,55 12,85 13,3 13,53 18,18 18,94 16,11 13,82 23,53 23,02

-1,7 -3,7 -2,7 -0,7 1,3 0,3 -1,7 -2,7 5,3 6,3

-2,233 -3,933 -3,483 -3,253 1,397 2,157 -0,673 -2,963 6,747 6,237

x

y

s XY

13,7

16,783

11,67

i

3,7961 14,5521 9,4041 2,2771 1,8161 0,6471 1,1441 8,0001 35,7591 39,2931

Gráfica 12 24 22 20 18 16 14 12 10 8 6 4

Y

2 0 0

X

2

4

6

8

10

12

14

16

18

20

22

Si multiplicamos las variables del cuadro 1 por una constante (dos, por ejemplo) y calculamos la nueva covarianza, tal como aparece en el cuadro 2, la cifra de la nueva covarianza se ha multiplicado por cuatro, siendo ahora igual a 46,68. ¿Implica esta cifra un mayor grado de asociación? La respuesta es negativa. Observe la representación de las dos nuevas variables que se ofrece en la gráfica 13. La forma de la nube de puntos es la misma que en la gráfica 12, no presentando una asociación más fuerte entre las nuevas variables. Cuadro 2

i

X i*

Yi *

1 2 3 4 5 6 7 8 9 10

24 20 22 26 30 28 24 22 38 40

29,1 25,7 26,6 27,06 36,36 37,88 32,22 27,64 47,06 46,04

x*

y*

X i* − x * Yi * − y * -3,4 -7,4 -5,4 -1,4 2,6 0,6 -3,4 -5,4 10,6 12,6

(X

-4,466 -7,866 -6,966 -6,506 2,794 4,314 -1,346 -5,926 13,494 12,474

* i

− x * )(Yi * − y * ) 15,1844 58,2084 37,6164 9,1084 7,2644 2,5884 4,5764 32,0004 143,0364 157,1724

s X *Y *

27,4 33,566

46,68

Gráfica 13 50

40

30

20

Y*

10

0 0

X*

10

20

30

40

50

La covarianza, como medida de asociación lineal tiene el inconveniente de estar afectada por las unidades de medida de las variables. Un mayor valor absoluto de la covarianza no puede, en consecuencia, interpretarse de manera automática como sinónimo de mayor asociación. Deberá tenerse en cuenta el valor medio de las variables y las unidades en las que son medidas.

Propiedades de la covarianza (1) La covarianza puede calcularse a partir de la siguiente equivalencia de su numerador:

∑( X

− x )(Yi − y ) = ∑ X i Yi − n x y .

n

i =1

n

i

i =1

(2) Si se suma a la variable X una constante b y a la variable Y una constante c, la covarianza entre las dos nuevas variables transformadas será igual a la covarianza original:

∑( (X n

s X +b , Y + c =

i =1

i

+ b) − ( x + b )

) ( (Y + c) − ( y + c) ) ∑ ( X n

i

=

n

i =1

i

− x )( Yi − y ) n

= s XY

(3) Si se multiplica la variable X por una constante b y la variable Y por una constante c, la covarianza entre las dos nuevas variables transformadas será igual a la covarianza original multiplicada por las constantes bc:

∑ ( bX n

sbX , cY =

i =1

− bx )( cYi − cy ) bc∑ ( X i − x )( Yi − y ) = i =1 = b c s XY n n n

i

(4) La covarianza entre una variable y una constante es cero: n

sX a =

∑( X i =1

i

− x )( a − a ) n

=0

Coeficiente de correlación lineal El coeficiente de correlación lineal, también llamado coeficiente de correlación de Pearson, lo notaremos como rXY y se define como:

∑( X n

rXY

s = XY = s X sY

i =1

∑(X n

i =1

i

i

− x )( Yi − y )

− x)

∑ (Y − y ) n

2

2

i

i =1

El coeficiente de correlación lineal entre dos variables es, por tanto, igual a su covarianza dividida por el producto de desviaciones estándar de las dos variables. El signo del coeficiente de correlación será igual al signo de la covarianza. Si entre dos variables existe una asociación lineal positiva el coeficiente de correlación será positivo. En el caso de una asociación negativa, el coeficiente de correlación será negativo. En el caso de ausencia de asociación, el coeficiente de correlación será cero: Asociación lineal positiva entre las dos variables ⇔ s XY > 0 ⇔ rXY > 0 . Asociación lineal negativa entre las dos variables ⇔ s XY < 0 ⇔ rXY < 0 . Ausencia de asociación lineal entre las dos variables ⇔ s XY = 0 ⇔ rXY = 0 . Al estandarizar la covarianza mediante las desviaciones estándar se suprime el problema de las unidades de medida. En el caso de multiplicar las variables por cualquier constante, el numerador de rXY se multiplicará por esas constantes, pero también en el denominador se producirán transformaciones:

∑ ( bX n

rbX , cY =

i =1

∑ ( bX n

i =1

i

i

− bx )( cYi − cy )

− bx )

2

∑ ( cY − cy ) n

i =1

i

= 2

∑ b( X

− x ) c ( Yi − y )

n

i =1

=

∑b ( X

−x )

n

2

i =1

i

i

∑c (Y − y ) n

2

2

= 2

i

i =1

bc∑ ( X i − x )( Yi − y ) n

i =1

=

∑( X n

b

i =1

i

−x )

∑( Y − y ) n

2

c

= 2

bc s XY =r b s X c sY XY

i

i =1

El valor numérico del coeficiente de correlación entre dos variables no se modifica si una (o ambas) variables se multiplica por una constante. Una de las consecuencias más importantes de esta estandarización de la covarianza es que el coeficiente de correlación toma valores en el intervalo –1 y 1. Los límites superior o inferior se alcanzan cuando entre las dos variables se da una relación exacta del tipo:

Yi = a + b X i

i =1, ..., n .

Se puede comprobar fácilmente que si entre dos variables se da una relación lineal exacta, su coeficiente de correlación será igual a uno (en valor absoluto), sustituyendo esa relación en la propia definición del coeficiente. Supongamos, en primer lugar que el parámetro b de la relación lineal es positivo: n

rXY

∑( X

s = XY = s X sY

i =1

n

∑( X i =1

∑( X n

=

i =1

∑(X n

i =1

i

i

i

i

− x )( Yi − y )

− x)

n

∑ (Y − y )

2

i =1

(

i

− x ) a + b X i − (a + b x )

− x)

2

= 2

)

∑ (a + b X − (a + b x )) n

i =1

i

= 2

∑( X

− x )b ( X i − x )

n

i =1

=

∑(X

− x)

n

i =1

i

i

∑b ( X n

2

2

i =1

n

b ∑( Xi − x )

i

− x)

= 2

2

i =1

=

n

∑( X

b

i =1

− x)

i

n

∑( X

2

i =1

i

− x)

=1 2

En el caso de que el parámetro b sea negativo, podemos definir la relación lineal como: Yi = a − b X i , con lo cual se tendría: n

∑( X

s = XY = s X sY

rXY

i =1

n

∑( X i =1

∑( X n

=

i =1

∑(X

i

i =1

∑(X i =1

i

∑ (Y − y )

− x )( − b)( X i − x )

− x)

∑ ( − b) ( X n

2

2

i =1

n

i

− x)

b

∑( X i =1

i

− x)

2

n

∑( X i =1

= 2

2

i =1

n

= 2

i

( − b) ∑ ( X i − x )

=

)

∑ (a − b X − (a − b x )) i =1

i

= 2

i

i =1

n

2

∑( X n

− x)

n

2

(

n

=

− x )( Yi − y )

− x ) a − b X i − (a − b x )

− x)

n

i =1

i

i

i

i

− x)

=−1 2

Cuando el coeficiente toma un valor igual a +1 o –1 se habla de correlación exacta entre las dos variables. En el primer caso de correlación positiva exacta, en el segundo de correlación exacta negativa. Entre los dos límites, -1 y 1, el coeficiente puede tomar cualquier valor. Valores cercanos a los

límites indicarán la existencia de asociaciones fuertes o altas entre las variables. El valor que toma el coeficiente de correlación cuando no existe una relación lineal entre las variables será el mismo que el que toma la covarianza en igual situación: cero. Valores del coeficiente de correlación cercanos a cero, por tanto, señalan la ausencia de asociación lineal entre las variables.

rXY = + 1 rXY = − 1 rXY = 0

⇔ ⇔ ⇔

− 1 ≤ rXY ≤ + 1 Asociación lineal exacta de tipo positivo. Asociación lineal exacta de tipo negativo. Ausencia de asociación lineal.

Propiedades del coeficiente de correlación

(1) El valor numérico del coeficiente de correlación entre dos variables no se modifica si una (o ambas) variables se multiplica por una constante. (2) El coeficiente de correlación toma valores en el intervalo –1 y 1. Los valores máximo y mínimo se alcanzan cuando se da una relación lineal exacta entre las dos variables, de tipo positivo o de tipo negativo, respectivamente. (3) Valores del coeficiente próximos a 1 indican la existencia de una asociación positiva fuerte entre las variables; valores cercanos a –1 indican la existencia de una asociación negativa fuerte entre las variables; valores cercanos a cero señalan la ausencia de una asociación lineal. (4) El coeficiente de correlación puede calcularse como: n

rXY =

∑X i =1

n

∑X i =1

2 i

i

Yi − n x y

−n x2

n

∑Y i =1

i

2

−n y2

Matriz de correlaciones Es frecuente analizar la relación existente entre un conjunto de variables, de manera que estemos interesados en las correlaciones entre todos los pares

posibles. Una forma de presentar estos resultados es una matriz de correlaciones, R, definida como una matriz simétrica, con la siguiente presentación:

1 r12  1  R=   

r13 K r1k  r23 K r2 k   1 K r3k   O M  1 

donde rij indica la correlación entre la i-ésima y la j-ésima variables. Algunos errores en la interpretación del coeficiente de correlación

Aunque el resultado del cálculo de un coeficiente de correlación resulta fácil de interpretar, debe tenerse cuidado de no emplearlo de manera errónea. En este apartado se hace hincapié en algunas incorrecciones que pueden cometerse en un uso poco riguroso del coeficiente. •

La detección de asociaciones lineales entre dos variables NO SUPONE la existencia de una relación causal.

Una correlación alta (positiva o negativa) entre dos variables no es indicativa de una relación causal entre ellas. Son muchos los pares de variables para los cuales pueden calcularse coeficientes de correlación altos, mostrando con ello la existencia de algún grado de asociación y que, sin embargo, sería disparatado intentar vincular por medio de algún tipo de relación causa-efecto. Incluso aunque la relación causal pueda existir, este estadístico descriptivo no pretende detectar ni su existencia ni la dirección de la causalidad. •

El coeficiente de correlación lineal TAMBIÉN PUEDE detectar la existencia de relaciones no lineales entre dos variables.

Es cierto que los valores (absolutos) máximos del coeficiente de correlación se alcanzan cuando se da una relación lineal exacta, sin embargo, es posible encontrar coeficientes de correlación entre dos variables distintos de cero (incluso próximos a la unidad) que reflejen la existencia de una relación no lineal. En la gráfica 14 reproducimos una relación no lineal exacta entre dos variables. Resulta evidente que si se calcula la correlación lineal, el coeficiente tendrá un valor cercano a la unidad (de hecho, el coeficiente de correlación entre esas dos variables es igual a 0,9139). La explicación se encuentra en la propia definición del coeficiente de correlación, por lo que debe tenerse en cuenta que aunque una asociación lineal implica un coeficiente de correlación alto (en valor

absoluto), lo contrario no es cierto: un coeficiente de correlación alto no siempre se corresponde con una relación lineal entre las variables. Gráfica 14 30000

20000

10000

Y

0

-10000 0

10

20

30

X



El coeficiente de correlación entre dos variables SE VE AFECTADO por la existencia de otras variables.

Cuando se mide el grado de asociación entre un par de variables se debe tener en cuenta que el “movimiento” conjunto que puede detectarse en ellas puede ser consecuencia de una tercera variable (o terceras variables). Esta situación se denomina de correlación espuria, caracterizada por la existencia de una tercera variable (o terceras), que influiría simultáneamente en los valores de las variables analizadas. En situaciones de correlación espuria debe tenerse en cuenta que la asociación se mide correctamente, pero que tendrá mayor capacidad explicativa cualquier discusión que incida en las verdaderas relaciones de dependencias entre las variables. •

NO SIEMPRE tiene sentido calcular el coeficiente de correlación entre una variable X y otras variables compuestas del tipo X + Y o X Y .

Por ejemplo, si se calcula el coeficiente de correlación entre una variable X y otra variable W, definida como W = X +Y , puede ocurrir que aun cuando las variables X e Y no estén correlacionadas, obtengamos valores altos de la

correlación entre X y X+Y. El resultado depende de las varianzas de las variables X, Y: cuanto mayor sea la varianza de X en relación a la de Y, mayor será el coeficiente de correlación entre X y X+Y. Un fenómeno parecido de correlación espuria se produce cuando se calcula el coeficiente entre la variable X y un cociente como X/Y. Un caso usual, por ejemplo, es la definición de cantidades per capita, en las que las cifras de dos variables X, Y medidas por ejemplo a nivel nacional, se dividen por el número de individuos en la población. En general, si calculamos proporciones de la forma X/Z, Y/Z, fácilmente se producirán correlaciones espurias entre las dos variables transformadas. Incluso si las variables X e Y no estuviesen correlacionadas, el coeficiente de correlación sería significativo, como consecuencia del papel de la variable del denominador. También es posible el fenómeno contrario: entre dos variables con un cierto grado de asociación, la estandarización puede disminuirla. Por ello, debe tenerse un cierto cuidado cuando se trabaja con cocientes o índices, para tener en cuenta estos posibles efectos perversos. •

El coeficiente de correlación NO ES VÁLIDO si las observaciones procedan de POBLACIONES DIFERENTES.

Existe una tendencia a aplicar las técnicas estadísticas de manera más o menos automática: si se dispone de información de dos variables para un conjunto de individuos, nada impide calcular el coeficiente de correlación entre ambas. En ocasiones, sin embargo, es necesario tener en cuenta el origen de esas observaciones. Al estar interesados en la relación entre las dos variables, es deseable que las observaciones provengan de un conjunto homogéneo de individuos, ya que lo contrario puede provocar una distorsión de la relación entre las variables. Una imagen explicará claramente el problema. En la gráfica 15 se muestran la situación en el plano X, Y de 30 observaciones. Puede ver que existen dos grupos diferentes de observaciones: respecto a los valores medios de las variables, uno se situaría en el segundo cuadrante, mientras que el otro grupo se localiza en el cuarto cuadrante. Obviamente el coeficiente de correlación, calculado sobre el conjunto de 30 observaciones, será negativo (concretamente es igual a –0,9413). Si conociéramos que el origen de las observaciones no es una población homogénea, sino dos poblaciones diferentes, estaríamos más interesados en calcular dos coeficientes de correlación, uno para el primer grupo de observaciones y otro para el segundo. De hecho, si se calculan los coeficientes de correlación separadamente, las cifras que se obtienen son iguales a 0,763 y 0,686 (segundo y cuarto cuadrantes, respectivamente), es decir, que presentarían correlación positiva de parecida intensidad. El problema que se plantea es importante, puesto que, si se tiene en cuenta la existencia de dos tipos de observaciones, entre las dos variables se da una asociación de tipo positivo,

mientras que cuando se agrupan todas ellas sin distinción, se consigue un coeficiente negativo. Gráfica 15 140

120

100

80

60

Y

40

20 10

20

30

40

50

60

70

X

Piense que situaciones como la descrita pueden ser muy comunes. Por ejemplo, suponga que estudia la relación entre superficie de la vivienda y su precio. Para ello toma información de diversas viviendas, sin distinguir si éstas se encuentran en una zona rural o urbana. Es posible que la posición de las observaciones sea similar a la representada en la gráfica 15, siendo X la superficie de la vivienda e Y el precio de la misma. El grupo del primer cuadrante respondería a las viviendas de tipo urbano (con una baja superficie media y alto precio), mientras que en el cuarto cuadrante aparecerían las viviendas de tipo rural, con una mayor superficie y un menor precio medio. Sin distinción de su ubicación, la asociación entre las dos variables sería negativa: a mayor superficie, menor precio; sin embargo, con ello se ocultaría la relación fundamental entre las dos variables: cuanto mayor es la superficie, mayor es el precio de la vivienda, aunque deba tenerse en cuenta la situación geográfica para entender que los niveles en los que se establece esa relación difieren según se trate de zonas urbanas o rurales. Situaciones similares pueden darse combinando diversas posiciones de los grupos. Puede existir una relación esencial negativa entre las variables y que por la existencia de grupos de individuos se detecte una correlación positiva, o no existir asociación y detectarse con cualquier signo, etc. Como un segundo ejemplo, observe la gráfica 16. En la misma aparecen dos grupos de observaciones. Si se calcula el coeficiente de correlación, sin distinción de

grupos, se obtendrá un valor positivo y posiblemente elevado. Sin embargo, las formas de las dos nubes en el gráfico hacen sospechar que la asociación entre las dos variables, en el caso de análisis separados, sería nula. Gráfica 16 60

50

40

30

Y

20

10 10

20

30

40

50

60

X

El coeficiente de correlación de rangos de Spearman El coeficiente de correlación se puede calcular para cualquier tipo de variable cuantitativa de tipo continuo. Una aplicación común del mismo, sin embargo, es sobre el el cálculo del coeficiente sobre dos variables que indican, cada una de ellas, cuál es la posición de la observación en el conjunto de la muestra, cuando la variable se ordena de menor a mayor. Por ejemplo, los valores de la variable X en la segunda columna del cuadro 4, ordenados de menor a mayor proporcionarían el orden que aparece en la cuarta columna (rango de X). El valor menor es el correspondiente a la observación 4, el siguiente a la observación 1, etcétera. La misma ordenación se puede realizar para la variable Y. Entre estas dos ordenaciones se puede calcular el coeficiente de correlación. Con ello se obtiene una medida de asociación en los posicionamientos de las dos variables. Mientras que el coeficiente de correlación sobre las variables originales X e Y indica el grado de asociación en los valores de las dos series de observaciones, el coeficiente de correlación de rangos (o coeficiente de correlación de Spearman) mide el grado de asociación del orden de las observaciones en las dos variables.

Cuadro 4

i 1 2 3 4 5

X 4 5 7 3 8

Y 10 11 9 15 13

Rango de X 2 3 4 1 5

Rango de Y 2 3 1 5 4

¿Difiere el grado de asociación según se utilice el coeficente de Pearson (el coeficiente calculado sobre los valores originales) o el coeficiente de Spearman (sobre los rangos de las observaciones)? En el cuadro 5 se muestran las cifras necesarias para calcular ambos estadísticos. Cuadro 5

Valores originales de las variables

Xi

Yi

X i Yi

X

4 5 7 3 8

10 11 9 15 13

40 55 63 45 104

16 25 49 9 64

x

y

n

5,4 11,6

∑X i =1

2 i

Xi

Yi

X i Yi

X i2

Yi 2

2 3 4 1 5

2 3 1 5 4

4 9 4 5 20

4 9 16 1 25

4 9 1 25 16

i

x

y

∑X

696

3

3

42

Yi

100 121 81 225 169

n

n

∑ X ∑Y

i Yi

i =1

307

Rangos de las variables

2

2 i

163

i =1

n

2

i =1

n

i Yi

∑X i =1

55

n

2 i

∑Y i =1

2

i

55

El coeficiente de correlación de Pearson será: n

rPearson =

∑ X Y −nx y i =1 n

i i

∑X i =1

2 i

−n x

=

2

Y el coeficiente de Spearman:

307 − 5⋅ 5,4 ⋅11,6 163 − 5⋅ 5,4 2

696 − 5⋅11,6 2

= − 0,3104

n

rSpearmn =

∑ X Y −n x y i i

i =1 n

∑X i =1

2 i

−nx

2

=

42 − 5⋅ 3⋅ 3 55 − 5⋅ 32

55 − 5⋅ 32

= − 0,3

En este caso, por tanto, ambos coeficientes proporcionan valores similares. Esta concidencia, sin embargo, no siempre se mantiene. Por ejemplo, los datos del cuadro 6 mantienen la misma relación de rangos que el ejemplo anterior, pero con distintos valores de las variables. El coeficiente de correlación de Pearson es ahora igual a –0,153, valor ya alejado del –0,3 del coeficiente de Spearman. Cuadro 6

i 1 2 3 4 5

X Y Rango de X 19 73 2 55 110 3 110 9 4 3 230 1 220 150 5

Rango de Y 2 3 1 5 4

Si existen observaciones empatadas (dos valores de X idénticos) sus rangos se obtendrían promediando las observaciones empatadas. Por ejemplo, si aparecen tres valores iguales a 19, y los rangos que le corresponden son 2, 3 y 4, asignaríamos el rango 3 a todas ellas. La siguiente observación tendría un valor del rango igual a 5. Si dos observaciones toman un valor igual y sus rangos son 2 y 3, se les asignaría el rango 2,5 y a la siguiente observación se le asignaría el rango 4. Dadas las características numéricas del coeficiente de Spearman (por ejemplo, las sumas de cuadrados de las desviaciones son iguales en ambas variables) en ocasiones (y si no hay empates en las observaciones) se utiliza como fórmula de cálculo la siguiente: n

rSpearman = 1 −

( )

( )

donde d i = Rango X i − Rango Yi .

6 ∑ d i2 i =1

n (n 2 − 1)

,

Ejemplo 1. La fiscalidad sobre el trabajo y el desempleo en la OCDE. Bajo este título Doménech et al. (1997) analizan la relación entre las tasas de desempleo en los países de la OCDE y el crecimiento de la fiscalidad sobre el trabajo. La coincidencia entre las altas tasas de desempleo y los impuestos sobre el trabajo han llevado a estudiar la posible reducción del paro al disminuir estos impuestos. Como parte de su trabajo estudian la relación entre la tasa de desempleo de diversos países y la brecha entre el coste laboral real (a precios de producción) y el salario real neto (a precios de consumo). La diferencia esencial entre los dos conceptos salariales es lo que los autores denominan cuña fiscal, que incluye los tipos efectivos de las cotizaciones sociales del empleador y a cargo del asalariado, la imposición indirecta y la imposición directa sobre el factor trabajo (la cuña fiscal se define, por tanto, como la suma de estos cuatro tipos impositivos). Para diversos países, en el cuadro 7 se muestran los valores medios en el período 1965-1992 de la tasa de paro y de la cuña impositiva (fuente: Doménech et al. 1997). Los datos de los valores medios de las dos variables se han reproducido en la gráfica 17. Puede observar que no existe una relación clara entre la cuña fiscal y la tasa de desempleo. Como indican Doménech et al. (1997, pág. 183 y siguientes): •

Los países no europeos de la OCDE presentan una cuña fiscal inferior a la de los países europeos, sin que, sin embargo, se detecten tasas de desempleo sistemáticamente inferiores.



EEUU con una cuña fiscal inferior a la de Francia o Dinamarca, tiene una tasa de desempleo promedio muy similar.



Dos de los países con mayor cuña fiscal (Suecia y Noruega) tienen unas tasas de desempleo menores que las de otros países con menor cuña fiscal.



España tiene una cuña fiscal similar a la de Portugal o Nueva Zelanda, pero su tasa de desempleo es muy superior.



Si se excluyen de la gráfica las observaciones de Japón, Suiza y Nueva Zelanda, la imagen de una relación negativa entre las variables parece que se refuerza.

De hecho, una manera sintética de medir la asociación entre las dos series de valores es el coeficiente de correlación, que pasamos a calcular a partir de la información del cuadro 8.

Cuadro 7 País

Alemania Austria Bélgica Canadá Dinamarca EEUU España Francia Grecia Holanda Irlanda Italia Japón Noruega Nueva Zelanda

Portugal Suecia Suiza UK

Gráfica 17

Tasa de desempleo 2,6 5,6 7,3 7,9 6,4 6,6 10,6 6,4 5,5 5,2 10,4 8,4 2,4 2,7 3,3 5,8 2,4 0,8 6

Cuña impositiva 0,8 0,35 0,87 0,53 1 0,4 0,47 0,85 0,63 0,89 0,61 0,62 0,31 1,03 0,46 0,45 1,1 0,39 0,52

12 España

Irlanda

tasa de desempleo

10 Italia Canadá

8

Bélgica EEUU

6

Austria

Francia

Portugal

Dinamarc

UK Grecia

Holanda

4 Nueva Ze Noruega Suecia

Alemania

Japón

2 Suiza

0 .2

.4

.6 .8 cuña impositiva

1

1.2

Cuadro 8

Xi

Yi

X i2

Yi 2

X i Yi

2,6 5,6 7,3 7,9 6,4 6,6 10,6 6,4 5,5 5,2 10,4 8,4 2,4 2,7 3,3 5,8 2,4 0,8 6

0,8 0,35 0,87 0,53 1 0,4 0,47 0,85 0,63 0,89 0,61 0,62 0,31 1,03 0,46 0,45 1,1 0,39 0,52

6,76 31,36 53,29 62,41 40,96 43,56 112,36 40,96 30,25 27,04 108,16 70,56 5,76 7,29 10,89 33,64 5,76 0,64 36

0,64 0,1225 0,7569 0,2809 1 0,16 0,2209 0,7225 0,3969 0,7921 0,3721 0,3844 0,0961 1,0609 0,2116 0,2025 1,21 0,1521 0,2704

2,08 1,96 6,351 4,187 6,4 2,64 4,982 5,44 3,465 4,628 6,344 5,208 0,744 2,781 1,518 2,61 2,64 0,312 3,12

n

∑ Xi i =1

n

∑ Yi i =1

n

∑ X i2 i =1

n

∑ Yi 2 i =1

n

∑X i =1

i

Yi

106,3

12,28

x

y

727,65 9,0528

5,5947

0,64632

67,41

El coeficiente de correlación es: n

rXY =

∑X i =1

n

∑X i =1

=

2 i

i

−n x

Yi − n x y =

n

2

∑Y i =1

i

2

−n y

2

67,41 − 19 ⋅ 5,5947 ⋅ 0,64632 727,65 − 19 ⋅ 5,5947 2

9,0528 − 19 ⋅ 0,64632 2

= − 0,1062

Entre las dos variables, por tanto, no parece existir ningún tipo de asociación, pudiéndose incluso hablar de una pequeña asociación negativa, cuando se utiliza la información promedio del período 1965-1992.

Ejemplo 2. Los costes del despido en Europa. Los costes del despido en los países de la Unión Europea (UE) se contabilizan por meses de salario, que varían en función de la antigüedad del trabajador en la empresa. En el cuadro 9 se muestran los costes de despido en los diversos países de la UE en 1996, para un trabajador con veinte años de antigüedad (Fuente: Layard et al., 1996), distinguiendo entre despidos procedentes y despidos improcedentes. A partir de esta información se desea conocer si en el conjunto de países de la UE existía (los costes se han modificado para algunos países, entre ellos España) algún tipo de asociación entre los costes de despido procedente e improcedente. Cuadro 9

Austria Belgica Dinamarca Finlandia Francia Alemania Irlanda

Costes de despido Despidos Despidos procedentes improcedentes 14 20 9 12,5 5,2 9 5,2 6 4,2 15 3,4 18 5,4 24

Italia 19,6 Holanda 4 Portugal 16,1 España 8,3 Suecia 5 UK 6,7 UE 8,1 Fuente: Layard et al. (1996)

32,5 5,3 20 30 16 11 16,8

La representación de los costes de despido para el conjunto de países se muestra en la gráfica 18. En la imagen ya se detecta la asociación positiva entre ambos tipos de costes: los países con un coste alto en los despidos procedentes tienen, en general, costes también relativamente altos en los despidos improcedentes. Destaca la posición de Italia, con costes muy elevados en ambos tipos de despido, y de España, con un alto coste en el despido improcedente (segundo mayor coste) pero con un coste en el despido procedente similar al de la media de la UE.

Gráfica 18 Italia

19.6

Portugal

despidos procedentes

Austria

Belgica España

UE UK Finlandi

Dinamarc

Irlanda

Suecia Francia

Holanda

Alemania

3.4 5.3

32.5 despidos improcedentes

Cuadro 10

Xi

Yi

X i2

Yi 2

X i Yi

14 9 5,2 5,2 4,2 3,4 5,4 19,6 4 16,1 8,3 5 6,7

20 12,5 9 6 15 18 24 32,5 5,3 20 30 16 11

n

∑X i =1

196 81 27,04 27,04 17,64 11,56 29,16 384,16 16 259,21 68,89 25 44,89

n

n

∑Y

i

∑X

i

i =1

106,1

219,3

x

y

8,1615

16,8692 3

400 156,25 81 36 225 324 576 1056,25 28,09 400 900 256 121

i =1

n

∑Y

2 i

1187,59

n

2

i

i =1

280 112,5 46,8 31,2 63 61,2 129,6 637 21,2 322 249 80 73,7

∑X i =1

4559,59

i

Yi

2107,2

Para calcular el coeficiente de correlación entre las dos variables aplicaremos explícitamente la expresión: n

rXY =

∑X i =1

n

∑X i =1

2 i

i

Yi − n x y

−n x2

n

∑Y

2

i

i =1

−n y2

Utilizando los valores que aparecen en el cuadro 10, el coeficiente de correlación entre los dos tipos de costes confirma numéricamente la asociación que detectábamos al visualizar los datos: n

rXY =

∑X i =1

n

∑X i =1

=

2 i

i

Yi − n x y

−n x2

=

n

∑Y i =1

i

2

−n y2

2107,2 − 13⋅ 8,1615 ⋅16,86923 1187,59 − 13⋅ 8,16152

4559,59 − 13⋅16,869232

= 0,6034

La correlación entre ambos tipos de costes es positiva y relativamente alta, aunque su valor implica que cualquier comentario sobre la importancia de los costes de despido en estos países debe distinguir entre los despidos procedentes y los improcedentes. Ejemplo 3. Transformación de variables. Para dos variables X e Y se conoce su coeficiente de correlación lineal, siendo igual a 0,9. Se desea conocer el coeficiente de correlación lineal entre las variables X* = 3X-4 e Y* = 4Y-3. El coeficiente de correlación entre las variables transformadas de definirá a partir de las reglas que se aplican para sus covarianzas y desviaciones estándar, por lo que se tendrá:

rXY =

sX*Y* s X * sY *

=

3 ⋅ 4 s XY s = XY = rXY = 0,9 3 s X 4 sY s X sY

Es decir, que la correlación entre dos variable que se han modificado a partir de transformaciones lineales directas de otras dos, no modifica el valor del coeficiente. Ejemplo 4. Beneficios de las compañías aéreas. Se desea conocer si existe relación entre el volumen de ventas de las compañías aéreas y su nivel de beneficios. Para ello tiene la información del cuadro 11, donde aparecen los valores medios de diversas compañías norteamericanas en el periodo 1987-1996 (en miles de dólares).

Cuadro 11

Xi

Yi

Ventas

Beneficios

1239 13212 6867 9023 6286 10258 9854 4200 10199 7736

31,3 18,1 9 379,4 503 14,8 55,4 71 115,1 42,3

X i Yi

X i2

38781 1535121 239137 174556944 61803 47155689 3423326 81414529 3161858 39513796 151818 105226564 545912 97101316 298200 17640000 1173905 104019601 327233 59845696

Yi 2 980 328 81 143944 253009 219 3069 5041 13248 1789

5272 5485 1799 4603 3826 12242 6442

96,1 912,1 103,8 567,5 212,8 128,9 171,5

506639 27793984 5002869 30085225 186736 3236401 2612203 21187609 814173 14638276 1577994 149866564 1104803 41499364 n

6973

n

∑ X i Yi

y

x

9235 831926 10774 322056 45284 16615 29412 n

∑ X i2

i =1

∑Y

i =1

i =1

2

i

2122738 101631667 9 9 1687012

202

El coeficiente de correlación será: n

rXY =

∑ X Y −n x y i =1

n

∑X i =1

=

2 i

i

−n x 2

i

=

n

∑Y i =1

2

i

−n y 2

21227389 − 17 ⋅ 6973 ⋅ 202 1016316679 −17 ⋅ 69732 1687012 − 17 ⋅ 202 2

= − 0,197

Es decir, que cuanto mayor es el volumen de ventas, menor parece ser el nivel de beneficios. Ejemplo 5. Riqueza y consumo turístico. En una discusión sobre la importancia de las vacaciones en las familias europeas, se defiende que los determinantes del consumo turístico no son sólo económicos, sino culturales. Para justificar este argumento se calcula la correlación entre un indicador de riqueza y la proporción de la población que hace vacaciones. En el cuadro 12 se muestra la información utilizada (datos de 1990). Cuadro 12 País

Xi

Yi

Consumo per capita (euros)

% población que hace vacaciones

X i Yi

X i2

Yi 2

España UK Holanda Italia Bélgica Francia Alemani a

6172 8440 8646 9199 9872 9977

53,4 61 69,9 57,2 56 59,1

329585 514840 604355 526183 552832 589641

38093584 71233600 74753316 84621601 97456384 99540529

2852 3721 4886 3272 3136 3493

10141

68,2

691616

102839881

4651

n

y

x 8921

n

∑ X i Yi

∑ X i2

i =1

i =1

n

∑Y i =1

2

i

3809051,9 26010,4 568538895 0 6

60,69

El coeficiente de correlación es igual a: n

rXY =

∑ X Y −n x y i =1

n

∑X i =1

=

2 i

i

−n x

i

=

n

2

∑Y i =1

i

2

−n y

2

3809052 − 7 ⋅ 8921⋅ 60,69 568538895 − 7 ⋅ 89212

26010 − 7 ⋅ 60,69 2

= 0,38

Del resultado se deduce que existe una relación entre el nivel de riqueza del país y la cantidad de personas que hacen vacaciones, aunque el bajo valor del coeficiente señala que deben influir también otros factores. Ejemplo 6. Correlaciones de los gastos familiares. Sobre una muestra de 271 familias españolas se desea analizar las asociaciones existentes entre su gasto familiar total, sus ingresos familiares y varias categorías de gasto. Para cada familia se ha tomado como periodo de referencia el trimestre anterior a la encuesta. Se han agregado los gastos familiares correspondientes a las siguientes categorías: alimentación, vestido y calzado, bienes no duraderos (‘vivienda, calefacción y alumbrado’, ‘medicinas’, ‘seguros’, ‘enseñanza’, etcétera) y bienes duraderos (‘muebles y accesorios fijos’, ‘aparatos de calefacción y cocina’, ‘vehículo de transporte’, ‘aparatos de radio y televisión’, etcétera). La matriz de correlaciones entre estas partidas de gasto, el gasto total y el ingreso familiar se muestra en el cuadro 13. Cuadro 13

Aliment. Vestido No durad. Durad. Gasto Ingresos

Alimentación

Vestido

1 0,22 0,25 0,09 0,50 0,26

0,22 1 0,43 0,13 0,60 0,34

No duraderos Duraderos

0,25 0,43 1 0,14 0,86 0,61

0,09 0,13 0,14 1 0,51 0,16

Gasto

Ingresos

0,50 0,60 0,86 0,51 1 0,59

0,26 0,34 0,61 0,16 0,59 1

La relación entre los ingresos y los gastos totales es, obviamente, positiva (en la gráfica 19 se muestra la relación entre las dos variables) y relativamente alta (con un valor igual a 0,59). Esa relación, sin embargo, no se mantiene cuando se desglosan las diversas componentes del gasto total. Mientras que la relación entre ingresos y los gastos no duraderos proporciona un valor similar, la relación de los niveles de ingreso y el gasto en alimentación es muy bajo (0,25), siendo el valor del coeficiente del gasto en vestido y calzado algo mayor (0,34). Estos valores se corresponden con los valores esperados: tanto la partida de alimentación como la de vestido pueden considerarse bienes de consumo necesarios y, en consecuencia, resulta lógico que, aunque con una asociación positiva, unos mayores ingresos no supongan un gasto en alimentación proporcional. Es, sin embargo, llamativo el que el coeficiente de correlación entre los ingresos y el gasto en bienes duraderos sea tan bajo. Lo que parecería normal esperar es que, al tratarse de un tipo de bien no necesario, un nivel alto de ingreso estuviera asociado a un alto nivel de consumo. O dicho de otra manera, que al ir situándonos en niveles de renta más altos, también se observarán niveles de consumo en bienes duraderos por encima de la media. Esto ocurre así, por ejemplo, con el gasto en bienes no duraderos, para el que el coeficiente de correlación con los ingresos es igual a 0,61. Por el contrario, el coeficiente asociado a los bienes duraderos es el más bajo de todos (0,16). La visualización de los datos nos ayudará a entender lo que ocurre. En la gráfica 20 se puede observar que un importante número de familias, en cualquier nivel de ingresos, no realizan ningún consumo de bienes duraderos. La razón es que muchos de sus productos tienen una frecuencia de compra que no abarca el trimestre. Muchas de las 271 familias encuestadas no han realizado en ese trimestre ningún gasto en este tipo de bienes, por lo que su respuesta en esta partida es de consumo cero. Como consecuencia de ello, el valor medido del coeficiente de correlación no recoge la expectativa a priori sobre el mismo. El problema de frecuencia de compra es uno de los que deben

enfrentarse cuando se desean analizar los patrones de consumo individuales.

Gráfica 19 Gasto familiar total

3000000

2000000

1000000

0 0

1000000

Ingresos familiares

2000000

3000000

2000000

3000000

Gráfica 20 Gasto en bienes duraderos 1300000 1200000 1100000 1000000 900000 800000 700000 600000 500000 400000 300000 200000 100000 0 0

1000000

Ingresos familiares

Ejemplo 7. ¿Por qué son más pobres los pensionistas más viejos? En Johnson y Stears (1998) se estudia la relación que existe entre los ingresos de los pensionistas y su edad. En muchas economías los pensionistas aparecen entre los grupos más pobres, pero también entre ellos parecen existir fuertes diferencias. Uno de los fenómenos más

curiosos es la relación negativa que existe entre la edad y los ingresos de los pensionistas. Se ha comprobado que cuanto mayor es la edad del pensionista, menores son sus ingresos. Una primera explicación ha justificado esta relación por el hecho de que entre los pensionistas de mayor edad el porcentaje de mujeres es mayor (al tener una mayor esperanza de vida). Para comprobar la validez de esta explicación, los autores han analizado los ingresos de los pensionistas de sexo masculino, con relación a su edad. Los autores emplean información de una encuesta anual de gastos familiares en el Reino Unido (Family Expenditure Surveys, FES), que recoge información sobre ingresos y gastos de unas 7000 familias. En el cuadro 14 se recogen los ingresos totales medios de los pensionistas varones entre 65 y 85 años, en 1992/1993. Se trata de ingresos semanales, medidos en libras constantes de enero de 1995. Cuadro 14 66 Edad 65 Renta 197 193 77 Edad 76 Renta 153 149

67 184 78 144

68 172 79 143

69 166 80 138

70 177 81 139

71 72 172,5 164 82 83 130 130,5

73 74 75 150 152 156 84 85 125 124

En la gráfica 21 se ilustra la relación entre las dos series. Resulta evidente a partir de la misma que la asociación entre ambas variables es negativa y alta en valor absoluto. El coeficiente de correlación proporciona el siguiente resultado: n

rXY =

∑X i =1

n

∑X i =1

=

2 i

i

−n x

Yi − n x y =

n

2

∑Y i =1

i

2

−n y

2

241825 − 21⋅ 75⋅155,1905 118895 − 21⋅ 752

Gráfica 21

515066,5 − 21⋅155,19052

= − 0,9716

200

180

renta media

160

140

120 65

70

75

80

85

edad del pensionista

El cálculo del coeficiente confirma la impresión visual, con un alto valor negativo igual a –0,9716, dado que los datos sólo incluyen a los varones pensionistas, no parece que la relación negativa entre edad e ingresos dependa del sexo. Ejemplo 8. Correlación en el mercado mundial de acciones. Las carteras internacionales de acciones se caracterizan hoy por su diversificación. La diversificación internacional de la inversión supone una reducción del riesgo y un aumento de los beneficios esperados. Estos estímulos a la diversificación dependen, no obstante, del grado de correlación de los distintos mercados, ya que si los mercados siguen una evolución similar, los incentivos de la diversificación disminuyen. Debe tenerse en cuenta, además, la estabilidad a lo largo del tiempo de esas asociaciones, ya que si éstas son constantes el inversor tendrá una garantía adicional. Michaud et al. (1996) analizan el grado de correlación existente entre el mercado de acciones de EEUU y distintos mercados mundiales, calculando los coeficientes de correlación entre un índice representativo de la evolución del mercado de EEUU e índices de 15 países. Los índices empleados son los de Morgan Stanley Capital International (MSCI) para los distintos países. Las correlaciones se han calculado con información de dos períodos de tiempo, el primero entre 1959 y 1973, el segundo entre 1976 y 1995. En el cuadro 15 se reproducen los resultados que ofrecen los autores, junto con el orden en función del valor del coeficiente (desde el valor más alto del coeficiente hasta el valor menor), para cada período.

Cuadro 15

Mercado

Australia

Correlaciones con el mercado de EEUU 197619591995 1973 0,40 0,23

Austria Bélgica Canadá Dinamarca Francia Alemania Italia Japón Holanda Noruega España Suecia Suiza UK Del análisis de los conclusiones: •





0,12 0,40 0,68 0,32 0,42 0,33 0,20 0,23 0,58 0,47 0,29 0,39 0,46 0,50 coeficientes

Orden de la correlación (de mayor a menor) 19591976-1995 1973 7 9

0,12 15 0,46 8 0,80 1 0,04 11 0,25 6 0,38 10 0,21 14 0,13 13 0,61 2 0,17 4 0,04 12 0,33 9 0,49 5 0,29 3 de correlación se extraen

13 4 1 14 8 5 10 12 2 11 14 6 3 7 las siguientes

Los mercados con las correlaciones más altas en el período 19591973 (Canadá, Holanda y Suiza) tienen correlaciones numéricamente inferiores en el segundo período. Por el contrario, mercados como el de España y Dinamarca, apenas correlacionados con el de EEUU en la primera etapa, presentan correlaciones algo más altas en las últimas dos décadas. Si se calcula el coeficiente de correlación entre los rangos de las correlaciones de los dos períodos se obtiene un valor igual a 0,71. Esto es indicativo de que efectivamente parece haberse dado una continuidad importante en las relaciones a largo plazo entre estos mercados de acciones. No parece existir evidencia, por lo tanto, de cambios importantes en la correlación del mercado de EEUU con los principales mercados mundiales. Este resultado entraría en contradicción con la creencia de que los mercados de acciones han incrementado su sincronización, siendo más sensibles a la influencia de factores comunes.

Ejemplo 9. Correlación entre Bolsas Mundiales ¿A quién sigue el IBEX? Martínez y Cabezas (1997) intentan contestar a esta pregunta calculando los coeficientes de correlación entre el índice IBEX y seis índices internacionales, empleando para ello datos diarios de cierre durante el período 1/1/1985 al 1/1/1996. Los índices considerados son los siguientes: • • • • •

DAX 30 (Alemania). CAC 40 (Francia). FT SE 100 (Inglaterra). S&P 500 (EEUU). NIKKEI 225 (Japón).

Los coeficientes de correlación no se calculan directamente sobre los índices, sino sobre las rentabilidades logarítmicas, definidas como:

 p  log t   p t −1  donde pt indica el valor del índice en el día t. Los coeficientes de correlación se calculan separadamente en cuatro períodos: • Primer período: Enero de 1985 a octubre de 1987. En octubre de 1987 se produce una importante crisis bursátil. • Segundo período: Octubre de 1987 a agosto de 1990. En agosto de 1990 tiene lugar la guerra de Kuwait, que provocó una crisis en las bolsas. • Tercer período: Agosto de 1990 a junio de 1992. Este período abarca desde la crisis de Kuwait al no danés a Maastricht. • Cuarto período: Junio de 1992 a diciembre de 1996. Abarca desde el referéndum danés hasta la última fecha analizada. En el cuadro 16 se muestran los coeficientes de correlación obtenidos por los autores, entre el IBEX y los cinco restantes índices mundiales. Cuadro 16

Correlaciones con el IBEX Período

DAX 30

85-87 -0,1

87-90 0,3

90-92 0,4

92-96 0,5

CAC 40

-0,1

0,3

0,4

0,6

FT SE 100 S&P 500 NIKKEI 225

0,0 0,0 0,0

0,1 0,0 0,2

0,3 0,3 0,2

0,5 0,2 0,2

Los autores obtienen las siguientes conclusiones: • • • •

Coincidiendo con las crisis bursátiles más importantes de los últimos 12 años, la correlación del IBEX con las restantes bolsas ha ido aumentando con el tiempo. La crisis de octubre de 1987 inicia la conexión del mercado bursátil español con los de Alemania y Francia. La crisis de 1992 relaciona el mercado español con el mercado europeo. Las bolsas que mantienen una mayor relación con la española son la francesa y alemana, estando más alejadas las bolsas de Japón y EEUU. Este proceso sería resultado del proceso de convergencia de la unión monetaria europea.

Ejemplo 10. Riesgo de una cartera. La rentabilidad de un activo de renta variable puede definirse de distintas maneras. Hemos utilizado anteriormente un concepto habitual de rentabilidad simple:

rit =

Precioit − Precioit −1 Precioit −1

que supone que en los precios ya se incorporan dividendos, derechos y otras remuneraciones. Cuando se trabaja con una única acción, una medida del riesgo la constituye la varianza de su rentabilidad. Se trata ahora de generalizar el concepto de riesgo de un activo al de una cartera de activos. Para ello, definiremos en primer lugar la rentabilidad de una cartera. Una cartera es una combinación de títulos, en la que cada uno de ellos participa con un porcentaje determinado. La rentabilidad de la cartera se define como una media ponderada de las rentabilidades individuales, en la que la ponderación viene dada por el porcentaje que representa en el valor total de la cartera. Así, si definimos por wi el porcentaje que representa un activo i en el valor total de la cartera, la rentabilidad de la cartera será (teniendo en cuenta que la suma de las ponderaciones es la unidad):

∑w r = =∑w r ∑w i

Rct

it

i

i

i

it

i

i

El riesgo de una cartera se puede definir empleando de nuevo el concepto de varianza. Para T observaciones de la rentabilidad de la cartera:

∑ (R T

var( Rct ) =

ct

t =1

− Rc )

2

T

donde Rc indica la media de la rentabilidad de la cartera en el período:

∑ Rct t =1

Rc =

T

T

T

T

=

∑ ∑ wi rit t =1

i

T

=

∑ wi ∑ rit t =1

i

T

T

= ∑ wi

∑r

it

i =1

T

i

= ∑ wi ri i

Supongamos que la cartera está compuesta únicamente de dos activos, cada uno de ellos con una importancia wi y verificando: w1 + w2 = 1 . El numerador de la varianza podría reescribirse de la siguiente manera: T

∑(R

ct

t =1

T

(

)

2

− Rc ) = ∑ w1 r1t + w2 r2 t − ( w1 r1 + w2 r2 ) = 2

t =1

T

(

)

= ∑ w1 (r1t − r1 ) + w2 ( r2 t − r2 ) = t =1

(

T

2

))

(

= ∑ w12 ( r1t − r1 ) + w22 ( r2 t − r2 ) + 2 w1 w2 ( r1t − r1 )(r2 t − r2 ) = 2

t =1 T

2

T

(

T

)

= ∑ w ( r1t − r1 ) + ∑ w (r2 t − r2 ) + 2 ∑ w1 w2 (r1t − r1 )(r2 t − r2 ) = t =1 T

2

2 1

t =1 T

2

2 2

t =1

T

= w12 ∑ ( r1t − r1 ) + w22 ∑ ( r2 t − r2 ) + 2 w1 w2 ∑ 2

t =1

2

t =1

t =1

(( r

1t

− r1 )( r2 t − r2 )

)

Como consecuencia, la varianza de la rentabilidad de la cartera será:

∑ (R T

var( Rct ) = T

∑ (r1t − r1 )

2 t =1 1

=w

2

T

t =1

∑ (r2 t − r2 )

2 t =1 2

ct

− Rc )

T 2

2

=

∑ ((r T

t =1

1t

− r1 )( r2 t − r2 )

+w + 2 w1 w2 T T T 2 2 = w1 var (r1 ) + w2 var (r2 ) + 2 w1 w2 covar(r1 r2 )

)

=

Denotando var(a) la varianza de a y covar(a,b) la covarianza entre a y b. La expresión anterior puede generalizarse a carteras de más de dos activos. Para k activos: k −1 k

( )

var ( Rc ) = ∑ wi2 var (ri ) + 2 ∑ ∑ wi w j covar ri r j k

i =1

i =1 j = 2 i< j

O si se quiere, puede expresarse en función del coeficiente de correlación (indicando en esta notación correl(a,b) la correlación entre los rendimientos de los activos a y b)1: k

( )

k −1 k

( )

var ( Rc ) = ∑ wi2 var ( ri ) + 2 ∑ ∑ wi w j var ( ri ) var r j correl ri r j i =1

i =1 j = 2 i< j

Fíjese que el riesgo de la cartera depende de k varianzas y de k(k1)/2 covarianzas. De manera que cuanto mayor es el valor de k, mayor será la importancia relativa de las covarianzas para determinar el riesgo de la cartera. Si k=6, el número de covarianzas distintas será de 15; si k=12, el número de covarianzas es de 66. Al aumentar el número de activos de la cartera, el riesgo global se aproxima a una media ponderada de las covarianzas. De nuevo para únicamente dos activos:

var ( Rc ) = w12 var (r1 ) + w22 var (r2 ) + 2 w1 w2 var (r1 ) var (r2 ) correl (r1 r2 ) Este resultado permite observar que el riesgo global de una cartera depende del riesgo de cada uno de los activos que la forman (ponderados según la importancia de su participación) y de un riesgo común. Esta última componente del riesgo de la cartera juega un papel importante para lograr disminuir el riesgo global. La situación ideal será aquella en la que la correlación sea negativa, pues con ello disminuirá la varianza del rendimiento de la cartera definida por la ponderación simple de las varianzas:

1

Teniendo en cuenta que el coeficiente de correlación entre dos variables X e Y se define como:

rXY =

s XY

s X sY

var( Rc ) = w12 var (r1 ) + w22 var (r2 ) − 2 w1 w2 var (r1 ) var (r2 ) correl (r1 r2 ) Sin embargo, la correlación de tipo positivo entre los activos será el valor más frecuente, al incidir el riesgo de mercado sobre todas ellas. Respecto a una correlación positiva exacta, una correlación positiva e inferior a la unidad, disminuirá comparativamente el riesgo global de la cartera. Ejemplo 11. Valoración de una cartera con dos acciones. En este ejemplo vamos a aplicar directamente lo explicado en el ejemplo anterior a una cartera con dos acciones. En el cuadro 17 se muestran las cotizaciones de las dos series durante 12 períodos. A partir de las mismas se han calculado los rendimientos de cada período, los valores medios y desviaciones estándar, la covarianza y el coeficiente de correlación de las dos series de rendimientos. Cuadro 17 t

p At

p Bt

0 1 2 3 4 5 6 7 8 9 10 11

11 12 13 12,5 13 13,5 14 14,7 15 16 16,3 16,4

12 10 9,5 10 9 10 12 13 15 16 17 16,5

rA

rB

0,0375

0,0349

-0,001395

-0,38

covar(rA rB ) correl(rA rB )

rAt =

p At − p A t −1 p A t −1

rBt =

p Bt − p B t −1 p B t −1

0,091 0,083 -0,038 0,04 0,038 0,037 0,05 0,021 0,067 0,019 0,006

-0,167 -0,05 0,053 -0,1 0,111 0,2 0,083 0,154 0,067 0,063 -0,029

0,0348

0,1052

var(rA )

var (rB )

Mediante los estadísticos de resumen podemos observar que las dos acciones tienen un rendimiento similar, aunque superior para la acción A. El riesgo de la acción B (medido por su desviación estándar) es

mayor que el de la acción A. El signo negativo de la correlación entre las dos series de rendimientos indica que su combinación en una cartera puede resultar adecuada, aunque su valor absoluto, sin embargo, está alejado de una correlación exacta. Con la anterior información podemos ahora calcular los rendimientos medios y el riesgo global de una cartera que combine de manera diferente ambas acciones. En el cuadro 18 se muestran posibles combinaciones de las dos acciones (en las columnas w1 , 1 − w1 ). Para cada una de ellas se ha calculado el rendimiento medio de la cartera y el riesgo global, según las fórmulas:

Rc = w A rA + w B rB var( Rc ) = w 2A var(rA ) + wB2 var(rB ) + 2 w A wB var(rA ) var(rB ) correl(rA rB ) Cuadro 18 Orden

Orden

Rendimiento Rendimiento w1 1 − w1 medio de la (más a cartera menos) 0,75 0,25 0,0369 4 1 0 0,0376 1 0 1 0,0349 12 0,9 0,1 0,0373 2 0,8 0,2 0,0370 3 0,7 0,3 0,0368 5 0,6 0,4 0,0365 6 0,5 0,5 0,0362 7 0,4 0,6 0,0359 8 0,3 0,7 0,0357 9 0,2 0,8 0,0354 10 0,1 0,9 0,0352 11

Riesgo global 0,00084 0,00121 0,01107 0,00084 0,00077 0,00100 0,00153 0,00237 0,00351 0,00495 0,00669 0,00873

Riesgo

(menos a más) 3 5 12 2 1 4 6 7 8 9 10 11

La opción de mayor rendimiento (1, 0) sería la que opta por invertir todo en la acción A, que es la que tiene mayor rendimiento individual y menor riesgo. Sin embargo, esta opción no la sitúa entre las mejores a nivel del riesgo global. Respecto a este concepto, esta combinación sería la quinta mejor opción. La explicación de ello se encuentra en la correlación negativa entre las dos series, que hace que algunas de las

combinaciones de las dos acciones permitan reducir el riesgo global por debajo de lo que individualmente pueda alcanzar cualquiera de las dos acciones. Una opción que ponderase en (0,90 y 0,1) o (0,80 y 0,20) parecería adecuada para mantener una buena combinación de beneficio y riesgo. Ejemplo 12. Actividades de los turistas. En el cuadro 19 se muestran el porcentaje de turistas que han realizado distintas actividades durante sus vacaciones en una región. La información distingue entre turistas que han estado por primera vez y turistas que repiten sus vacaciones en el lugar.

Cuadro 19 % % rango rango activida participación primeros participació repetidore visitante n visitantes d primeros s s repetidores visitantes A 58,8 1 34,7 1 B 58,6 2 27,3 3 C 51,7 3 31,7 2 D 47 4 18,9 7 E 42,1 5 17 8 F 39,6 6 21,4 6 G 37,3 7 13,8 10 H 34,1 8 25,2 4 I 31,2 9 16,4 9 J 28,1 10 12,5 11,5 K 26,1 11 11,4 13 L 24,9 12 12,5 11,5 M 24,1 13 22,6 5 N 13,2 14 10,3 14 Ñ 12,9 15 6,9 15

Los porcentajes de participación en las diferentes actividades son muy elevados en el caso de los primeros visitantes, mientras que entre los repetidores se detecta una limitación en las actividades. Adicionalmente, se desea conocer si las actividades en las que los turistas participan son muy diferentes, para lo que se han obtenido los rangos de cada grupo. Una información útil en este contexto es la

obtención del coeficiente de correlación de rangos entre ambas variables: n

rSpearman =1−

6∑ d i2 i =1 2

n(n −1)

=1−

6 ⋅115,5 = 0,794 15 15 2 − 1

(

)

Aunque la importancia de la participación en las actividades sea diferente entre los dos tipos de turistas la importancia relativa en las mismas es bastante parecida, dado el elevado valor del coeficiente de correlación de rangos. Ejemplo 13. Segmentación e inversión internacional en los mercados de valores. El caso de Benetton. Los inversores internacionales han buscado mercados poco integrados con el resto del mundo. Las razones para ello son, en primer lugar, porque las oportunidades de obtener beneficios, en ocasiones, son mayores en estos mercados aislados; en segundo lugar, porque invirtiendo en ellos se puede reducir el riesgo de una cartera de inversión. Akdogan (1997) analiza el valor de las acciones de la empresa Benetton, una compañía italiana dedicada a la producción y distribución de artículos de moda. Akdogan discute el grado de asociación que tiene la evolución del precio de las acciones de este grupo con la de diversos mercados nacionales (incluyendo el propio mercado italiano). Con ello desea valorar, desde el punto de vista del impacto que el mercado mundial puede tener en ella, el nivel de seguridad de esta acción. Entre otros análisis, Akdogan calcula la matriz de correlaciones entre las variaciones del precio de las acciones de Benetton y las variaciones de los índices de cotizaciones de diversos países. En el cuadro 20 aparecen las correlaciones de las cotizaciones del grupo Benetton (BEN.) y los índices de mercado de Bélgica, Europa, Francia, Alemania, Italia, Holanda, España, Suecia, Suiza, UK, EEUU y un índice mundial, calculadas con información diaria del año 1994. Las correlaciones entre las cotizaciones de la empresa y los distintos mercados nacionales son muy bajas, lo que también ocurre incluso con respecto a la propia bolsa italiana. Dos de las correlaciones (con los índices de Japón y Suiza) presentan signos negativos. Si nada más tuviésemos en cuenta estos resultados, podría aceptarse que las cotizaciones de Benetton son una buena opción para diversificar una cartera de inversiones, al encontrarse su cotización aislada de la evolución de los mercados internacionales.

Cuadro 20

Bélg.

BEN.

Italia

1,00 0,04 0,65 0,53 0,58 0,11

Japón

0,17

Holanda

0,61 0,40 0,45

Bélgica BENETTON Europa Francia Alemania

España Suecia Suiza UK EEUU Mundo

1,00 0,06 0,10 0,03 0,03 0,19 0,02 0,00 0,03 0,09 0,12

Euro.

Fran.

Alem.

Italia

Japón Holanda

1,00 0,82 1,00 0,80 0,60 1,00 0,07 0,06 0,03 1,00 0,28 0,14 0,33 0,02 1,00

0,32 0,15 0,15 0,06 0,02 0,40 0,15 0,07 0,15 0,15 0,00 0,03 0,03 0,06 0,35 0,66 0,49 0,54 0,05 0,73 0,05

0,86 0,70 0,71 0,02 0,69 0,67 0,45 0,10 0,67 0,53 0,47 0,08 0,01 0,22 0,02 0,00 0,81 0,65 0,45 0,08

Cuadro 20 (continuación) Suecia

Suiza

UK

EEUU

Mundo

Bélgica BENETTON Europa Francia Alemania Italia Japón Holanda España Suiza

1,00 0,03

UK

0,48

EEUU

0,11

Mundo

0,42

Suecia

España

1,00 1,00 0,03 0,29 1,00 0,07 0,55 0,49 0,07

1,00

1,00 0,56 0,56

1,00 0,54

0,00

0,01

0,63

0,56

0,11

0,29

0,62

0,52

CAPÍTULO VI. AJUSTE DE UNA RECTA

El coeficiente de correlación mide la asociación existente entre dos variables continuas. Hemos insistido en que la asociación entre dos variables no implica causalidad entre ellas y que proponer una relación causal supone añadir una hipótesis adicional a la descripción de las variables. Esta hipótesis puede plantearse, especialmente, apoyándose en algún tipo de argumentación teórica. Si disponemos de una hipótesis de causalidad, cuando escribimos la relación:

Yi = a + b X i

i =1,..., n

ya no sólo se tratará de una manera de describir la forma de una nube de puntos. Ahora, además, deberá entenderse que esa expresión matemática tácitamente está afirmando que “cuando la variable X varía, ocasiona variaciones en la variable Y”, o, de manera más breve, que “X causa Y”. La relación Yi = a + b X i nos definirá a partir de ahora una relación causal entre las variables X e Y.

Yi = a + b X i

X→ →Y

La variable Y se denomina variable endógena, variable explicada o variable dependiente, mientras que la variable X se denomina variable exógena, variable explicativa o variable independiente. Si se dispone de n > 2 observaciones de X e Y es posible ajustar una recta como la definida por Yi = a + bX i a esos puntos. Ajustar una recta supone determinar de alguna manera los valores de a y b. La recta que se quiere ajustar se conoce en estadística como recta de regresión simple. La idea de “ajustar” una recta lleva implícito el supuesto de que los puntos no se encontrarán de una manera exacta sobre ella. Al aceptar la existencia de una relación causal entre dos variables debemos suponer que la situación normal será que la relación no sea exacta. Las observaciones se pueden llegar a situar “más o menos” sobre una recta, aunque difícilmente lo harán de manera perfecta. Esto hace que en el modelo debamos distinguir entre los valores observados de Yi y los valores que le corresponderán en el ajuste: a + bX i , que

no tienen por qué coincidir. La diferencia entre el valor observado y el valor ajustado define el error del ajuste:

ei = Yi − a − b X i

En función de este criterio de aproximación (de ajuste) de la recta al conjunto de los puntos, la relación causal la podemos escribir con mayor sentido de la realidad como:

Yi = a + bX i + ei donde el último término define la discrepancia entre el valor observado y la recta ajustada. En este marco de causalidad resulta necesario disponer no sólo de una medida del grado de asociación (el coeficiente de correlación lineal), sino además de los valores numéricos de a y b. Estos parámetros tienen un interés especial en las relaciones económicas, especialmente el segundo. La pendiente de la recta, b, mide el impacto que una variación en una unidad de la variable X tiene sobre la variable Y. Matemáticamente podemos escribir:

∂ Yi =b . ∂ Xi En términos discretos, se entiende que b, la pendiente de la recta, mide la variación que sufre Y, como consecuencia de la variación en una unidad de X. El valor de a no es más que el valor que toma la variable Y cuando el valor de X es cero. Se conoce como término independiente de la regresión. En la gráfica 1 se muestra, para una recta con pendiente positiva, cuáles son las interpretaciones gráficas de a y b. El término independiente es la distancia desde el centro de coordenadas al punto de corte del eje de ordenadas. La pendiente de la recta mide la importancia de los cambios de Y consecuencia de las variaciones de X. En el caso de una asociación negativa entre las dos variables, el valor de b sería inferior a cero, para proporcionar una pendiente negativa. En este caso, al aumentar en una unidad el valor de X, Y disminuiría en una cantidad igual a b. Si la pendiente de la regresión tomara un valor igual a cero, la relación causal no existiría, puesto que variaciones de la variable exógena no afectarían a la variable endógena y la recta adoptaría una posición horizontal.

Gráfica 1

100 90 80 70 60

b

50 40 30 20 10

Y

a

0 0

2

4

6

8

10

12

14

16

18

20

22

24

26

28

30

32

X

De la propuesta de causalidad a la recta de regresión. El ejemplo más utilizado en economía para ilustrar una relación causal sencilla es la existente entre consumo y renta. La teoría del consumidor más básica propone una relación del tipo:

Consumoi = f ( Renta i ) ,

en la que se enuncia que, para un consumidor i, sus niveles del consumo dependen de su nivel de renta. Esta relación puede desear medirse. El primer paso será definir una forma funcional concreta. Si se visualizan los datos para distintas observaciones puede comprobarse si una forma lineal resulta adecuada. En ese caso (y sólo en ese caso) la relación entre las variables podrá escribirse empleando la recta de regresión:

Consumoi = a + b Rentai El coeficiente b es, en este caso, la propensión marginal al consumo (pmgc), que tendrá el mismo valor para todas las observaciones:

pmgc =

∂ consumoi =b ∂ renta i

Desde la perspectiva de la teoría económica, la pmgc de un bien normal debe ser positiva, e inferior a la unidad. Con ello se afirma que al incrementar en una unidad la renta, el consumo también aumentará, pero lo hará en menos de una unidad, es decir, que el incremento es menos que proporcional. Para un economista, disponer de estimaciones de la pmgc (del cálculo de b en una

muestra de observaciones) resultará interesante por diversas razones. Confirmará, por ejemplo, si sus expectativas teóricas sobre el valor del parámetro se cumplen. Le permitirá hacer predicciones sobre en cuánto aumentará el consumo de un bien si aumenta la renta. O le permitirá clasificar los bienes en función del valor calculado de b. Veamos otros ejemplos. • Un analista puede estar interesado en valorar cómo afectan a las ventas de su empresa las fluctuaciones cíclicas de la economía. La hipótesis de causalidad que establece es que el ciclo económico tiene un efecto directo en las fluctuaciones de las ventas de su empresa. Esta relación causal la puede establecer relacionando las variaciones de las series del pib nacional y las tasas de variación de las ventas:

 pibt − pibt −1  ventast − ventast −1  =f ventast −1 pibt   De nuevo, una manera de valorar esta relación causal puede ser la de concretarla en una forma lineal:

 ventast − ventast −1   pibt − pibt −1    =a +b  ventast −1 pibt     De manera que b definiría el impacto, si es que efectivamente existe, de las fluctuaciones de la economía en la evolución de las ventas de la propia empresa. • Otra relación a la que los economistas prestan especial atención es la existente entre la cantidad consumida de un bien y el precio del mismo. La teoría establece que la relación causal es la siguiente:

q dA = f ( p A )

en donde q dA indicaría la cantidad demandada del bien A y p A el precio del mismo. La relación funcional es de tipo inverso: a mayor precio del bien, menor será la cantidad demandada del mismo. Normalmente, la representación teórica de esta relación es la de una curva como la de la gráfica 2. Con ello se quiere reflejar que las respuestas a variaciones en los precios no son uniformes. Si el precio es muy bajo, las cantidades demandadas son altas y pequeños aumentos en los precios producirán importantes disminuciones de la demanda. Por el contrario, cuando el precio es muy alto, fuertes variaciones en el mismo provocarán impactos relativamente poco importantes en las cantidades demandadas. Desde el punto de vista de nuestro actual planteamiento estadístico, deberíamos conformarnos con ajustar una línea recta a esta curva. Se trata de una aproximación incorrecta, pero que puede ser válida en el tramo central de la curva. Este intervalo será probablemente para el que dispondremos de observaciones muestrales reales.

Gráfica 2

q

p

Puede ser aceptable, por tanto, ajustar en una muestra concreta de observaciones la relación lineal:

q dA = a + b p A El parámetro b medirá ahora el impacto que una variación unitaria en el precio tiene sobre la cantidad demandada. La medida de este efecto es importante como información del comportamiento del propio mercado de una empresa, a la vez que el ajuste puede permitir hacer predicciones de cuál es la cantidad demandada que uno puede esperar para un nivel determinado del precio. • Una empresa puede estar interesada en analizar la relación existente entre los costes en uno de sus inputs productivos y el volumen de producción. En general, los costes en un input pueden descomponerse en una parte fija, que no depende del nivel de producción, y de una parte variable, que dependería del volumen de actividad:

costes = CF + CV

donde CF indicaría los costes fijos y CV los costes variables. Esta última cantidad podría, por tanto, expresarse como:

CV = f ( producción ) Si la relación entre costes variables y el volumen de producción es proporcional, es decir, si al aumentar la producción los costes variables aumentan proporcionalmente, se tendrá:

CV =CVMe⋅ producción ,

siendo CVMe un parámetro constante, que definiría los costes variables medios (los costes variables por unidad de producto, que serían constantes fuese cuál fuese la cantidad producida). Bajo esta hipótesis, podría calcularse la siguiente regresión:

costes = a + b ⋅ producción

en donde a serían los costes fijos y b estimaría los costes variables medios. Esta información le facilitará (siempre que realmente los costes variables medios sean constantes) el impacto que futuros aumentos en la producción ocasionarán en los costes variables asociados a cada uno de los inputs.

Obtención de a y b por mínimos cuadrados ordinarios. Mínimos cuadrados ordinarios (mco) es un criterio estadístico que permite obtener valores de a y b en una muestra concreta. La idea de este criterio, en general, es que si se desea calcular el valor de un parámetro, y se dispone únicamente de una muestra de observaciones, se utilizará como una aproximación a ese parámetro (una estimación del parámetro) aquel valor que, de alguna manera, minimice el error global (el error al cuadrado o la suma de errores elevados al cuadrado) que se comete. En este apartado explicaremos la aplicación de esta criterio en el caso de la regresión lineal simple. Suponga que disponemos de una muestra con n=10 observaciones de las variables X e Y, y que a partir de ella queremos averiguar los valores de a y b. Para seguir nuestra argumentación nos basaremos en las observaciones recogidas en el cuadro 1. La nube de puntos que forman estas observaciones es la que se muestra en la gráfica 3. Cuadro 1 X 17 20 Y 59 71

Gráfica 3

23 72

24 79

24 77

25 81

25 79

26 89

28 95

30 93

100

90

80

70

60

Y

50 16

18

20

22

24

26

28

30

32

X

Si calculamos el coeficiente de correlación entre las dos variables X, Y el resultado que se obtiene muestra la fuerte correlación positiva, con un valor igual a 0,9567. La forma de la nube y el alto coeficiente de correlación sugieren que sería apropiada una relación lineal entre las dos variables. Supongamos que establecemos la existencia de una relación causal entre X e Y, en la que X causa Y:

Yi = a + b X i

i =1 ,...,10

¿Cómo podemos calcular los valores de a y b? La manera de hacerlo es establecer un criterio estadísticamente lógico para ajustar la recta y derivar a partir de él las expresiones matemáticas, que podrán aplicarse en cada muestra concreta. El criterio que se va a exponer aquí se conoce como mínimos cuadrados ordinarios y aunque puede justificarse de manera más o menos formal, emplearemos aquí una argumentación muy sencilla. Si queremos ajustar una recta en la nube de puntos de la gráfica 3 podríamos imaginar por dónde debería pasar esa recta. De una manera visual, si tuviéramos que trazar una recta sobre los puntos, intentaríamos que la recta se asentara de manera equilibrada sobre ellos. En la gráfica 4 se dibujan tres posibles rectas. Resulta obvio que ni la recta 1 ni la 2 son alternativas atrayentes. Ninguna de ellas es representativa de la nube de puntos, al contrario que la 3, que parece ajustarse razonablemente bien a la nube.

Esta impresión visual puede formalizarse algo más. Lo que hace que una de las rectas resulte mejor que las otras es la impresión que uno recibe de que pasa más cerca de la mayoría de los puntos. Si los puntos no están alineados de manera exacta sobre una recta, ningún ajuste conseguirá pasar por todos ellos, pero puede ajustarse una recta que pase lo más cerca posible de todos los puntos.

Gráfica 4 100

90

3 80

1

70

2 60

Y

50 16

18

20

22

24

26

28

30

32

X

Para concretar esta idea de máxima proximidad de la recta al conjunto de los puntos retomemos el concepto de error del ajuste. Para una observación concreta, el error del ajuste lo hemos definido como la distancia desde un punto a la recta, en el sentido en que se representa en el gráfico 5, en el que ei indicaría el error en el ajuste de la observación i-ésima.

Si para la observación i-ésima se observa el par

regresión asignaría a esa observación el par ( X i , a +b X i ) .

(X

i

, Yi ) , la recta de

El error del ajuste, ei , se define como la distancia entre el valor observado de la variable endógena para un individuo, Yi , y el valor que la recta asignaría a ese individuo: a + b X i .

Gráfica 5 100

ei 90

80

ei 70

60

Y

50 16

18

20

22

24

26

28

30

32

X

Para las n observaciones se producirá un error. Nuestro objetivo es que, globalmente, el conjunto de los errores sea mínimo. Formalmente: Una manera de reducir el error global de un ajuste es emplear los valores de a y b que minimizan la siguiente expresión:

∑ ei2 = ∑ (Yi − a − b X i ) n

n

i =1

i =1

2

Este es un problema que, matemáticamente, no resulta difícil de resolver. Se trata de obtener el mínimo de una función. Los parámetros a y b deben elegirse para que se alcance el mínimo de la suma de cuadrados de los errores: n

n

i =1

i =1

mínimo ∑ ei2 = ∑ (Yi −a−b X i )

2

a, b Derivando la función con respecto a los parámetros a y b, igualando a cero y resolviendo el sistema obtendremos los valores que minimizan la suma de los errores elevados al cuadrado. Este principio se denomina de mínimos cuadrados ordinarios (mco) y las fórmulas para a y b se conocen, en un contexto estadístico más amplio que el que contemplamos ahora, como estimadores por mínimos cuadrados ordinarios.

(Un paréntesis para la recta de regresión poblacional. En la introducción de este libro hemos discutido brevemente la diferencia entre un parámetro y un estadístico. Por parámetro, decíamos, se entiende cualquier característica numérica de una población que la determina en algún sentido: indicando su posición central, su dispersión, simetría, etc. Estas características numéricas pueden calcularse también en una muestra, en un conjunto de observaciones representativas de la población, calificándolas normalmente como estadísticos. Estos estadísticos (por ejemplo la media o la varianza muestrales) pretenden ser buenas aproximaciones a los valores de los parámetros, de manera que muchas veces nos referimos a los estadísticos del análisis muestral como estimadores de los parámetros poblacionales. La media muestral sería un estimador de la media poblacional, la varianza muestral lo sería de la varianza poblacional. De la misma manera, la recta de regresión que ajustamos en un conjunto de observaciones muestrales podría considerarse como una “estimación” de una recta poblacional. Dicho de otra manera, si dispusiéramos de todas las observaciones de la población podríamos establecer los valores de a y b válidos para toda la población. Si sólo disponemos de una muestra nos deberemos contentar con estimar esos parámetros. En este sentido se ha empleado en el párrafo anterior la palabra estimadores para referirnos a los valores de a y b que minimizan la suma de cuadrados de los errores).

Derivación de las expresiones de mco para a y b. Obtendremos ahora las expresiones de a y b que verifican el objetivo de minimizar la suma de cuadrados de los errores: n

n

mínimo ∑ ei2 = ∑ (Yi −a−b X i ) i =1 i =1 a,b

2

La suma anterior se puede expresar como: n

n

∑ e = ∑ (Y − a − bX ) 2 i

i =1

i =1

i

i

2

=

n

= ∑ ( Yi 2 + a 2 + b 2 X i2 − 2aYi − 2bX i Yi + 2abX i ) = i =1

n

= ∑ Yi + na + b 2

i =1

2

n

2

∑X i =1

2 i

n

n

n

i =1

i =1

i =1

− 2a ∑ Yi − 2b ∑ X i Yi + 2ab ∑ X i

Las condiciones de primer orden para un mínimo serán: n

∂ ∑ ei2 i =1

∂a

n

∂ ∑ ei2

=0

i =1

∂b

=0

Que se concretan en el siguiente sistema: n  ei2 ∂ ∑  n n i =1  = 2 n a − 2 ∑ Yi + 2 b ∑ X i = 0 ∂a  i =1 i =1  n  ∂ ∑ ei2 n n n  i =1 2  ∂ b = 2 b ∑ X i − 2 ∑ X i Yi + 2a ∑ X i = 0 i =1 i =1 i =1 

Este sistema se conoce como sistema de ecuaciones normales. A partir de la primera ecuación podemos obtener el valor de a en función del aún desconocido b: n

n

2na − 2∑ Yi + 2b∑ X i = 0 i =1 n

i =1

n

na − ∑ Yi + b∑ X i = 0 i =1 n

a−

∑Y i =1

i

i =1 n

∑X i =1

i

+b =0 n n a − y +b x =0 a = y −b x

La solución depende de un valor de b. Para obtenerlo sustituiremos la anterior solución en la segunda ecuación: n

n

n

i =1

i =1

2 b ∑ X − 2 ∑ X i Yi + 2 a ∑ X i = 0 i =1

2 i

Dividiendo por dos: n

n

n

i =1

i =1

i =1

b ∑ X i2 − ∑ X i Yi + a ∑ X i = 0 Sustituyendo el valor de a = y − b x : n

n

n

i =1

i =1

b ∑ X − ∑ X i Yi + ( y − bx ) ∑ X i = 0 i =1

2 i

Reordenando términos y sacando factor común de b: n

n

n

n

i =1

i =1

b ∑ X i2 − ∑ X i Yi + y ∑ X i − b x ∑ X i = 0 i =1

i =1

n   b  ∑ X i2 − x ∑ X i  − ∑ X i Yi + y ∑ X i = 0  i =1  i =1 i =1 i =1 n

n

n

n n  n  n b  ∑ X i2 − x ∑ X i  = ∑ X i Yi − y ∑ X i  i =1  i =1 i =1 i =1 n

Y teniendo en cuenta que

∑X i =1

=n x :

i

n  n 2 2  b  ∑ X i − n x  = ∑ X i Yi − n y x  i =1  i =1

Se obtiene: n

b=

∑ X Y −n y x i =1 n

i i

∑X i =1

2 i

−n x2

Las expresiones mco de a y b son: n

a = y −b x ;

b=

∑ X Y −n y x i =1 n

i i

∑X =

2 i

−n x2

Una expresión alternativa para b es la siguiente:

∑( X n

i =1

b=

i

− x )(Yi − y )

∑(X

− x)

n

i =1

i

2

Que se deriva inmediatamente a partir de las equivalencias de los siguientes sumatorios:

∑ ( X i − x )(Yi − y ) = ∑ X i Yi − n x y n

n

i =1

i =1

∑( X n

i =1

− x ) = ∑ X i2 − nx 2 2

i

n

i =1

Advierta que b puede también escribirse en relación a dos estadísticos conocidos, la covarianza entre las variables X e Y y la varianza de la variable X:

∑( X n

b=

i =1

i

− x )(Yi − y ) n

∑(X n

i =1

i

− x)

2

n

=

covar ( X , Y ) var ( X )

=

s xy s x2

(Para que efectivamente estemos obteniendo expresiones de a y b que minimizan la suma de cuadrados de los errores, deberíamos también demostrar que efectivamente se trata de un mínimo, es decir, que las segundas derivadas son mayores que cero. Este resultado queda como ejercicio para el lector interesado).

Ejemplos de cálculo de la recta de regresión. Retomemos los datos del cuadro 1 para aplicar las fórmulas que hemos obtenido de a y b. Fíjese que tal como se han definido las fórmulas, primero será preciso calcular b y, a partir de su valor, aplicar la fórmula para a. Con las observaciones originales precisaremos calcular n

previamente: x , y ,

∑ X i Yi , i =1

Cuadro 2

n

∑X i =1

2 i

.

Xi

Yi

X i Yi

X i2

17 20 23 24 24 25 25 26 28 30

59 71 72 79 77 81 79 89 95 93

1003 1420 1656 1896 1848 2025 1975 2314 2660 2790

289 400 529 576 576 625 625 676 784 900

n

n

n

n

∑ X ∑Y ∑ X Y ∑ X i

i =1

i =1

i

242

795

x

y

24,2

79,5

i =1

i i

19587

i =1

2 i

5980

Una vez obtenidos los sumatorios y valores medios, la aplicación de las expresiones es inmediata: n

b=

s xy s

2 x

=

∑ X Y −n x y i =1 n

i i

∑X i =1

2 i

−nx2

=

19587 − 10 ⋅ 24,2 ⋅ 79,5 = 2,815534 5980 − 10 ⋅ 24,2 2

a = y − b x = 79,5 − 2,815534 ⋅ 24,2 = 11,36408 En la gráfica 6 se muestra el ajuste de la recta, manteniendo idéntica escala en los dos ejes. El punto de corte de la recta con el eje de coordenadas es aproximadamente igual a 11, siendo el valor de la pendiente de la recta alto, cercano a tres. Una recta que definiera un ángulo de 45º describiría una relación causal en la que el aumento de una unidad en la variable exógena supondría el aumento de una unidad en la variable exógena. Un valor de 2,8, como el calculado aquí, supone que la respuesta en la variable endógena será comparativamente más fuerte. La mayor pendiente de la recta refleja esa reacción superior. Gráfica 6

Y 100 90 80 70 60 50 40 30 20 10 0 0

10

20

30

40

50

60

70

80

90

100

X

Para familiarizarnos con las expresiones de cálculo de la recta de regresión se presentan a continuación un par de ejercicios numéricos adicionales. •

Nuestro primer ejemplo utiliza los datos del cuadro 3. Cuadro 3 X 17 20 23 24 24 25 25 26 28 30 Y -21 -20 -23 -24 -30 -31 -25 -18 -27 -29

Es recomendable representar los datos, para valorar si es adecuado ajustar una recta. En la gráfica 7 se puede observar la representación de los puntos. La relación entre las dos variables muestra una pendiente negativa, aunque el ajuste de una recta no parece tan adecuado como en el anterior ejemplo. Los datos necesarios para calcular a y b aparecen en el cuadro 4. Gráfica 7 -16 -18 -20 -22 -24 -26 -28 -30

y

-32 16

x

18

20

22

24

26

28

30

32

Cuadro 4

Xi

Yi

X i Yi

X i2

17 20 23 24 24 25 25 26 28 30

-21 -20 -23 -24 -30 -31 -25 -18 -27 -29

-357 -400 -529 -576 -720 -775 -625 -468 -756 -870

289 400 529 576 576 625 625 676 784 900

n

n

n

∑ Xi

∑ Yi

∑ X i Yi

242

-248

-6076

x

y

24,2

-24,8

i =1

i =1

i =1

n

∑X i =1

2 i

5980

A partir de los mismos: n

b=

s xy s

2 x

=

∑ X Y −nx y i =1 n

i i

∑X i =1

2 i

−n x2

=

− 6076 − 10 ⋅ 24,2 ⋅ ( − 24,8) = − 0,60194 5980 − 10 ⋅ 24,2 2

a = y − b x = − 24,8 − ( −0,60194) ⋅ 24,2 = − 10,233 El ajuste de la recta se visualiza en la gráfica 8. La pendiente estimada es negativa e inferior, en valor absoluto, a la unidad. Un incremento en una unidad en la variable exógena disminuiría en –0,6 unidades el valor de la variable endógena. Sin embargo, como se intuía al representar las observaciones, la imagen final no presenta un ajuste lineal tan apropiado como en el caso anterior.

Gráfica 8

0

- 10

Y - 20

- 30

- 40 0

10

20

30

40

X

• El siguiente ajuste se realiza sobre los datos del cuadro 5, representados en la gráfica 9. Cuadro 5 X 17 20 Y 2 6

23 6

24 2

24 7

25 5

25 3

26 4

28 6

30 6

Gráfica 9 8

7

6

5

4

3

2

y

1 16

x

18

20

22

24

26

28

30

32

La nube de puntos hace poco apropiado el ajuste lineal. Las estimaciones del modelo se obtienen a partir del cuadro 6: n

b=

s xy s

2 x

=

∑ X Y −n x y i i

i =1 n

∑X i =1

2 i

=

−n x2

1160 − 10 ⋅ 24,2 ⋅ 4,7 = 0,182848 5980 − 10 ⋅ 24,2 2

a = y − b x = 4,7 − 0,182848 ⋅ 24,2 = 0,275081

Cuadro 6

Xi

Yi

X i Yi

X i2

17 20 23 24 24 25 25 26 28 30

2 6 6 2 7 5 3 4 6 6

34 120 138 48 168 125 75 104 168 180

289 400 529 576 576 625 625 676 784 900

n

n

n

n

∑ X ∑Y ∑ X Y ∑ X i =1

i

i =1

242

47

x

y

24,2

4,7

i

i =1

i i

1160

i =1

2 i

5980

La pendiente de la recta tiene un valor cercano a cero, indicando con ello que las variaciones en la variable exógena no afectan de una manera importante a la variable endógena. En la gráfica 10 se muestra la imagen del ajuste.

Gráfica 10 35 30 25 20 Y 15 10 5 0 0

5

10

15

20

25

30

35

X

Ajustes no lineales. A pesar de la insistencia en la forma lineal del modelo de regresión, es posible ajustar relaciones no lineales utilizando este modelo lineal. Esta aparente paradoja es sencilla de deshacer si pensamos en que las variables X, Y del modelo pueden ser cualquier valor numérico. Si definimos X como la inversa de una variable, por ejemplo Z:

X=

1 Z

la relación lineal que calcularemos:

Yi = a + b X i

expresaría tácitamente la siguiente:

 1 Yi = a + b   .  Zi  Una relación de económica de este tipo es la denominada curva de Phillips, que relaciona las tasas de variación de los salarios con las tasas de población en paro:

 1 Tasa de variación salarios t = a + b   Tasa de parot

  , b < 0 

La relación indicaría que a medida que crece la tasa de desempleo, la tasa de variación de los salarios disminuiría (ya que se supone una pendiente negativa), hasta alcanzar un valor mínimo, situado en a. Otros ejemplos de relaciones no lineales, que pueden linealizarse de manera inmediata son los siguientes:

• Yi = a ⋅ X ib



log ( Yi ) = log (a ) + b ⋅ log ( X i )

• Yi = e a + b ⋅ X i



log ( Yi ) = a + b ⋅ X i



log ( Yi ) = a + b ⋅

• Yi = e

a + b⋅

1 Xi

1 Xi

¿Siempre es posible un buen ajuste? Un buen ajuste responde a la idea de conseguir una recta que genere un error global reducido. El criterio de mco garantiza que el dibujo de la recta pasa “lo más cerca posible” de todos los puntos, pero, aún así, el error que se comete puede ser importante. Es preciso medir de alguna manera si el ajuste es correcto, es decir, si la recta ha conseguido una descripción suficiente de la nube de puntos. Antes de hacerlo, sin embargo, resulta conveniente considerar algunas de las razones por las que no siempre se consigue una descripción adecuada: (1) La existencia de una relación no lineal. Antes de realizar el cálculo de la recta es necesario representar los datos para valorar si un ajuste lineal tiene sentido. Si la relación es no lineal (cuadrática, cúbica, etc.) no será lógico ajustar una recta. (2) Elementos que perturban la relación causal. Al iniciar el modelo de ajuste lineal ya hemos aceptado que difícilmente encontraremos los puntos sobre una recta y que, por ello, era preciso definir una forma de aproximarnos a ella. Las observaciones se sitúan de una manera más o menos errática con referencia a lo que sería la relación “determinista” definida por el ajuste. El error del ajuste (la diferencia entre el valor observado y el valor ajustado) proviene de diversas fuentes: el hecho de que la relación entre las variables no es exacta, el trabajar con una muestra y no con la población, la aproximación a la forma funcional, etc. Como consecuencia de todo ello, el ajuste no es todo lo bueno que uno podría desear. (3) La existencia de otras variables exógenas. La regresión lineal que hemos estudiado la hemos denominado regresión lineal simple. El calificativo pretende incidir en que se supone que únicamente una variable es la causa de las variaciones de la variable endógena. Es obvio que esto no será cierto en muchas ocasiones. El modelo más general que uno puede encontrar definirá diversas variables causales. En un contexto de linealidad hablaríamos de un modelo de regresión múltiple en el que k variables influirían en la endógena:

Yi = a 0 + a1 X 1i + a 2 X 2i + ... + a k X ki

Y X1 X2



Xk

Si la relación causal es más compleja de la que se diseña en el modelo simple, el ajuste resultará incompleto, ya que todas las variables causa no contempladas pasarían a formar parte del “ruido” de la relación, produciendo una descripción insuficiente de la asociación causal.

Y X1 X2



Xk

De las tres causas responsables de un mal ajuste, tanto la primera (la forma funcional es no lineal) como la última (hay más variables causales) serían fruto de una equivocación y, por tanto, deben eludirse. La forma de evitar el primer error puede ser plantear algún ajuste no lineal entre las variables. Si el problema es la existencia de múltiples causas, la alternativa debería ser el ajuste de una regresión múltiple. El modelo de regresión lineal simple supone la existencia de una relación causal de tipo lineal entre únicamente dos variables. Si la relación causal incluye más variables o si la relación no es lineal, el modelo está incorrectamente especificado y, en consecuencia, las conclusiones que se extraigan del ajuste no serán fiables. Aceptando que los factores de “ruido” en el modelo son de carácter no sistemático y que por su propio contexto siempre van a estar presentes, se hace precisa una medida de la bondad del ajuste, un estadístico que nos permita valorar hasta qué punto la recta que dibujamos es aceptable en cuanto a la descripción que hace de los datos. Antes de centrarnos en esta medida destacaremos algunas características del error del ajuste.

Algunas propiedades del error del ajuste. El error del ajuste se ha definido como:

ei = Yi − a − bX i . Si los valores de a y b se obtienen por mco, el error tiene dos características especiales. La primera es que la media del error, para todas las observaciones muestrales, es cero. La segunda, que la covarianza entre la variable exógena y el error es también igual a cero. Las dos propiedades se deducen del sistema de ecuaciones normales, a partir del cuál se han obtenido las expresiones de mco. Las características del error del ajuste cuando a y b se calculan basándonos en mco son: (1) La media del error del ajuste es cero: n

e=

∑e

i

i =1

n

=0.

(2) El error del ajuste tiene covarianza nula con la variable exógena:

∑(X n

s xe =

i =1

i

− x )(ei − e ) n

=0.

Medida de bondad del ajuste: Coeficiente de determinación R2 La medida más común de bondad del ajuste es el coeficiente de determinación o coeficiente de bondad del ajuste y se simboliza como R 2 . Este estadístico mide hasta qué punto la variable exógena de la regresión determina la evolución de la variable endógena. Su definición se basa en los conceptos de variación total, variación explicada y variación no explicada.

∑ (Y − y ) n

La variación total ( VT ) se define como

i =1

i

2

, y es la variación

total de la variable dependiente. Esta cantidad se puede descomponer en dos partes: (1) la variación explicada ( VE ), que es la parte de la variación total que

el modelo de regresión es capaz de explicar; (2) la variación no explicada ( VE ), que es aquella parte de la variación total que la relación causal no es capaz de explicar:

VT = VE + VE La interpretación de esta descomposición es la siguiente. La variable endógena presenta una variación total (una dispersión respecto a su valor medio), que se desea explicar mediante una relación causal. El modelo supone que las variaciones de la variable exógena explican las variaciones de la endógena. De hecho, el modelo se puede escribir:

Yi = a + bX i + ei   y = a + bx



Yi − y = b ( X i − x ) + ei

Cuando X varía (respecto a su valor medio) se produce como efecto una variación en Y (también medida respecto a su media). El valor y signo del impacto dependerá del valor y signo de b. Junto a esta variación explicada por la relación causal, en ei existe una parte de la variación total de Y que no puede explicarse por las variaciones de X: es la variación no explicada por el modelo. En la gráfica 11 se muestran los datos del cuadro 1. Las líneas de referencia en el espacio de coordenadas se corresponden a la media de cada una de las variables X e Y. La idea que subyace a la relación causal es la de que cuando una observación se sitúa, por ejemplo, por encima de la media de la variable exógena, la consecuencia de ello será que la variable endógena se alejará también de su valor medio. Si la asociación entre las variables es positiva (pendiente positiva), un valor por encima (por debajo) de la media en X se acompañará de un valor por encima (por debajo) de la media en Y. Si la pendiente es negativa, un valor por encima (por debajo) de la media de X se acompañará de un valor por debajo (por encima) de la media de Y.

Gráfica 11

100

Yi − y

90

80

y

Xi − x

70

60

y

x 50 16

18

20

22

24

26

28

30

32

x

El modelo de regresión estructura una relación lineal sobre la nube de puntos, pudiéndose distinguir entre la distancia vertical desde el punto a la recta de ajuste y la distancia desde la recta al punto medio. La distancia desde el punto al valor medio, Yi − y , se vería así descompuesta, como se muestra en la gráfica 12, en un componente de error, ei , y una parte de la variación explicada por la recta, b( X i − x ) . Gráfica 12 100

ei

90

b( X i − x ) 80

70

60

y

50 16

x

18

20

22

24

26

28

30

32

El coeficiente de determinación se define como la proporción entre la variación explicada y la variación total:

VE VT

R2 =

O dicho de otra manera, como el porcentaje en que el ajuste de la recta explica las variaciones de la endógena. Así, por ejemplo, un valor del R 2 igual a 0,60, indicará que el ajuste explica el 60% de la variación total de la variable endógena. El cálculo de la variación explicada y de la variación no explicada se basa en la siguiente igualdad (que no demostraremos aquí), que relaciona la VT , la VE y la VE . n

∑ (Y − y ) i =1

i

2

n

n

= b 2 ∑ ( X i − x ) + ∑ ei2 2

i =1

i =1

donde las variaciones explicada y no explicada son:

VE = b

n

2

∑( X i =1

i

− x)

n

VE = ∑ ei2

2

i =1

El coeficiente de bondad del ajuste puede calcularse, por tanto, como:

b2 ∑ ( Xi − x) n

R2 =

VE = VT

i =1 n

∑ (Y − y ) i =1

2

2

i

También se expresa en función de la variación no explicada:

R2 =

VE VT − V E VE = =1 − VT VT VT

Límites del coeficiente de determinación. Por la propia definición del coeficiente de determinación, éste tiene como límites 0 y 1. Se trata de dos situaciones extremas: el límite inferior R 2 = 0 corresponde a un modelo en el que

la variación explicada sería cero, mientras que el límite superior R 2 = 1 correspondería a un modelo capaz de explicar toda la variación de la endógena.

0 ≤ R 2 ≤1 R 2 = 0 ⇔ El modelo NO es EXPLICATIVO R 2 =1 ⇔ El modelo EXPLICA toda la variación de Y La interpretación de estos límites resulta clara si tenemos en cuenta la definición del coeficiente. Si la variable X no explica las variaciones de Y será porque el parámetro b es igual a cero:

Yi − y = b ( X i − x ) + ei Yi − y = 0 ( X i − x ) + ei Yi − y = ei

De manera que toda la variación respecto al valor medio quedaría definida como error del ajuste: la recta no tiene pendiente y las variaciones de X no van acompañadas de variaciones de Y. Si las variaciones de X explican completamente las variaciones de Y será porque no existe error del ajuste:

Yi − y = b ( X i − x )

Y, como consecuencia, la variación total será igual a la variación explicada:

∑ (Y − y ) n

i =1

i

2

=b

∑(X n

2

i =1

i

− x)

2

El siguiente cuadro resume estas conclusiones.

{ VE = 0 ↔ VT = V E } ⇒ { V E = 0 ↔ VT =VE } ⇒

R2 =0 R 2 =1

La imagen de un ajuste que “no explica nada” es la de una recta “plana”, con pendiente nula, en la que las variaciones de X no causarían variaciones en Y.

En las gráficas 13 y 14 se muestran dos ajustes que presentarían una pendiente nula y cuyo coeficiente de determinación sería cero.

Gráfica 13

Gráfica 14

26

26

24

24

22

22

20

20

18

18

16

y

16

y

14 16

18

20

22

24

26

28

30

32

x

14 16

18

20

22

24

26

28

30

32

x

El coeficiente de determinación igual a 1 se dará cuando los puntos estén situados de manera exacta sobre una recta con pendiente distinta de cero. No importa si la pendiente de la recta es positiva o negativa. Lo que es importante es que se trataría de situaciones en las que de manera exacta se cumpliría:

Yi = a + b X i ,

b≠0

siendo los errores de ajuste igual a cero, para todas las observaciones. Ya hemos indicado que esta circunstancia de correlación exacta es difícil encontrarla con variables económicas reales, aunque no es extraño encontrarse con variables que mantienen una relación casi perfecta. De hecho es en los valores intermedios del intervalo 0 ≤ R 2 ≤ 1 en donde nos encontraremos normalmente el coeficiente de determinación de nuestros modelos. Cuanto más cerca de cero se encuentre el valor del coeficiente, peor consideraremos el ajuste realizado. Cuanto más cerca se encuentre el R 2 de la unidad, mejor será el ajuste. Existe una cierta ambigüedad con relación al valor del R 2 a partir del cuál considerar que el modelo tiene un buen ajuste. ¿Es suficiente con que el modelo explique un 40% de la variación total de Y, o es necesario que como mínimo explique un 70%? ¿Un porcentaje de variación explicada igual al 10%, debe interpretarse como que el modelo es inservible? En principio, como para otros estadísticos, no se debe pretender que éstos puedan dar más información que la que contienen. El porcentaje de variación que el analista puede considerar como “suficiente” (tanto para declarar que tiene un “buen” ajuste, como para decidir que se trata de un “mal” ajuste) depende del problema y de la muestra que se esté analizando.

Análisis gráfico de los errores del ajuste. Si se está interesado en comprobar que el ajuste de una recta ha sido adecuado, la representación de los errores del ajuste, con respecto a la variable exógena puede ayudar a ello. La idea es que si una recta es una forma funcional adecuada, los errores del ajuste se comportarán de una manera no sistemática, mientras que si la forma funcional no es correcta o si existen otras variables causales que se han omitido, el error del ajuste tendrá un comportamiento sistemático. En las gráficas 15 a 18 se muestran varias gráficas que relacionan los errores con la variable exógena de diversas regresiones. Advierta que en las dos últimas se puede detectar un comportamiento sistemático en la posición de los errores. La presencia de errores “sistemáticos” debería ponernos en la pista de algún error en los supuestos del modelo (bien en la forma funcional, bien en la existencia de otras variables causales).

Gráfica 15

Gráfica 16

6

8 6

4

4 2 2 0

Errores del ajuste

Errores del ajuste

0 -2

-4

-6 16

18

20

22

24

26

28

30

-2 -4 -6

32

16

x

18

20

22

24

26

28

30

32

28

30

32

x

Gráfica 17

Gráfica 18

60

4

2

40

0

20

0

-20

-40 16

x

18

20

22

24

26

28

30

32

Errores del ajuste

Errores del ajuste

-2

-4

-6

-8 16

x

18

20

22

24

26

¿Existe alguna relación entre el coeficiente de correlación y el coeficiente de determinación? El coeficiente de determinación mide la bondad del ajuste de una recta a una nube de puntos. El coeficiente de correlación lineal mide el grado de asociación lineal entre dos variables. Un coeficiente de correlación lineal igual a 1 o –1 indica que los puntos están situados sobre una recta (con pendiente positiva o negativa, respectivamente) y esta situación se reflejaría en el coeficiente de determinación con un valor igual a 1 (ajuste perfecto de la recta). Si el coeficiente de correlación lineal o el coeficiente de determinación son iguales a 0, no existirá una relación lineal entre las dos variables. Se da, por lo tanto, una relación entre rxy y R 2 , que formalmente es la siguiente:

R 2 = rxy2



R 2 = rxy

• Si no existe una relación lineal entre X e Y : rxy = 0 y R 2 = 0 . • Si se da una relación positiva exacta: rxy =1 y R 2 = 1 . • Si se trata de una relación negativa exacta: rxy = − 1 y R 2 = 1 .

Dos ejemplos numéricos sobre el coeficiente de determinación •

En el cuadro 7 aparecen los datos sobre los que queremos ajustar la recta de regresión. Cuadro 7 X 17 20 23 24 24 25 25 26 28 30 Y 48 60 68 71 66 70 74 83 83 89

La imagen de las observaciones se muestra en la gráfica 19. Dada su posición en el plano, la intención de ajustar una recta a estos datos resulta apropiada. Los datos necesarios para realizar el ajuste y obtener la medida del coeficiente de determinación se ofrecen en el cuadro 8.

Gráfica 19

90

80

70

60

50

y

40 16

18

20

22

24

26

28

30

x

Cuadro 8

Xi

Yi

X i2

Yi 2

X i Yi

17 20 23 24 24 25 25 26 28 30

48 60 68 71 66 70 74 83 83 89

289 400 529 576 576 625 625 676 784 900

2304 3600 4624 5041 4356 4900 5476 6889 6889 7921

816 1200 1564 1704 1584 1750 1850 2158 2324 2670

n

n

n

∑ X ∑Y ∑ X i =1

i

i =1

i

242

712

x

y

24,2

71,2

i =1

n

2 i

5980

∑Y i =1

n

2

i

52000

∑X Y i =1

i i

17620

32

El cálculo de los parámetros de la recta será:

∑( X n

b=

i =1

i

− x )(Yi − y )

∑( X n

i =1

i

− x)

2

n

=

∑ X Y −n x y i i

i =1 n

∑X i =1

2 i

−n x2

=

17620 − 10 ⋅ 24,2 ⋅ 71,2 389,6 = = 3,1521 123,6 5980 − 10 ⋅ 24,2 2

a = y − b x = 71,2 − 3,1521⋅ 24,2 = − 5,0809

Empleando el valor de b puede obtenerse la variación explicada y el coeficiente de determinación: n  n  2 VE =b 2 ∑ ( X i − x ) =b 2  ∑ X i2 − n x 2 =3,15212 ⋅ 5980−10⋅24,2 2 =1228,06 i =1  i =1 

(

n

)

n

VT =∑ (Yi − y ) =∑ Yi 2 −n y 2 =52000−10⋅71,2 2 =1305,6 2

i =1

i =1

R2 =

1228,06 = 0,9406 1305,6

El R 2 indica que la variación explicada en el ajuste representa una proporción del 94,06% de la variación total, por lo que debe concluirse que la recta describe bien el comportamiento de la variable endógena. La pendiente de la recta es positiva y mayor que uno: un aumento en una unidad en la variable exógena ocasionará un incremento en algo más de tres unidades en la endógena. Para comprobar que no nos pasa desapercibida alguna irregularidad en la regresión se han representado los errores del ajuste en la gráfica 20, no detectándose en ellos ningún comportamiento de tipo sistemático. Gráfica 20 8

6

4

2

Errores del ajuste

0

-2

-4

-6 16

x

18

20

22

24

26

28

30

32



Realizaremos un nuevo cálculo numérico con los datos del cuadro 9. La representación de las variables (en la gráfica 21) ilustra una relación negativa. Dada la dispersión de los datos, el ajuste no deberá ser especialmente correcto, puesto que los puntos se alejan de la imagen ideal de la recta. En el cuadro 9 se muestran también los valores precisos para realizar los cálculos del modelo. Cuadro 9

Xi

Yi

X i2

Yi 2

X i Yi

17 20 23 24 24 25 25 26 28 30

35 34 32 30 31 33 35 33 31 28

289 400 529 576 576 625 625 676 784 900

1225 1156 1024 900 961 1089 1225 1089 961 784

595 680 736 720 744 825 875 858 868 840

n

n

n

∑ X ∑Y ∑ X i =1

i

i =1

i

242

322

x

y

24,2

32,2

i =1

n

∑Y

2 i

i =1

5980

n

2

i

10414

∑X Y i =1

i i

7741

Gráfica 21 36

34

32

30

28

y

26 16

18

20

22

24

26

x

El cálculo de los parámetros de la recta será:

28

30

32

∑ ( X i − x )(Yi − y ) n

b=

i =1

∑( X n

i =1

i

− x)

2

n

=

∑ X Y −nx y i i

i =1 n

∑X i =1

2 i

=

−n x2

7741 − 10 ⋅ 24,2 ⋅ 32,2 − 51,4 = = − 0,41586 123,6 5980 − 10 ⋅ 24,2 2

a = y − b x = 32,2 + 0,41586 ⋅ 24,2 = 42,264

Y para obtener la variación explicada, la variación no explicada y el coeficiente de determinación: n  n  2 2 VE =b 2 ∑ ( X i − x ) =b 2  ∑ X i2 − nx 2 =(− 0,41586) ⋅ 5980−10⋅24,2 2 =21,3753 i =1  i =1 

(

n

)

n

VT =∑ (Yi − y ) =∑ Yi 2 −n y 2 =10414−10⋅32,2 2 =45,6 2

i =1

i =1

VE = VT − VE = 45,6 − 21,3753 = 24,225 21,375 R2 = = 0,4687 45,6 El modelo explica el 46,87 % de la variación total de la endógena. La representación de los errores aparece en la gráfica 22. La imagen muestra una cierta componente sistemática, al aparecer dos series de errores continuas con el mismo signo (primero negativos y después positivos). Esta forma de los residuos podría señalar la omisión de alguna variable causal que no se ha tenido en cuenta en el modelo simple. Gráfica 22 4

3

2

1

Errores del ajuste

0

-1

-2

-3 16

x

18

20

22

24

26

28

30

32

Ejemplo 1. En la gráfica 23 se muestra la serie de turistas alemanes que han visitado una determinada zona turística durante los últimos once años. En la gráfica además de la serie histórica se muestra el ajuste de una recta por mco. La serie muestra una clara tendencia lineal, que aunque no pueda extrapolarse hacia un futuro lejano, permite realizar una predicción para el año siguiente. Para ello deben, en primer lugar, calcularse los valores a y b de la recta de regresión. En el cuadro 10 aparece la información necesaria. Gráfica 23

Número de turistas alemanes (en miles)

5000

4000

3000

2000

1000 1

2

3

4

5

6

7

8

9

10

11

año

Cuadro 10

Xi

Yi

X i Yi

X i2

Yi 2

1 2 3 4 5 6 7 8 9 10 11

1897,6 2054,3 2063,2 2231,2 2682,2 2868,3 3130,7 3339,4 3635,5 4008 3934,2

1897,6 4108,6 6189,6 8924,8 13411 17209,8 21914,9 26715,2 32719,5 40080 43276,2

1 4 9 16 25 36 49 64 81 100 121

3600885,76 4220148,49 4256794,24 4978253,44 7194196,84 8227144,89 9801282,49 11151592,4 13216860,3 16064064 15477929,6

x

y

n

∑X i =1

n

i Yi

∑X i =1

n

2 i

∑Y i =1

i

2

6

2894,96

216447,2

506

98189152,4

Los coeficientes de la recta serán: n

n

∑ ( X i − x )(Yi − y ) ∑ X iYi −n x y

b= i =1

n

∑ (X i =1

i

−x )

2

= i =1n

∑X i =1

=

2 i

−n x 2

=

216447,2 −11 ⋅ 6 ⋅ 2894,96 = 506 − 11 ⋅ 6 2

25379,84 = 230,726 110

a = y −b x =2894,96 − 230,726 ⋅ 6 = 1510,604 Y las variaciones explicada, total y el coeficiente de bondad del ajuste: n  n  2 VE =b 2 ∑ ( X i − x ) =b 2  ∑ X i2 −n ⋅ x 2 = i =1  i =1  2 2 =(230,726) ⋅ 506 −11 ⋅ 6 = 5855793,6

(

n

)

n

VT =∑ (Yi − y ) =∑ Yi 2 −n y 2 =98189152,4−11 ⋅2894,96 2 = 6000424,983 i =1

2

i =1

R2 =

VE 5855793,6 = = 0,976 VT 6000424,983

El alto valor del coeficiente de determinación confirma el buen ajuste de la tendencia lineal. La predicción para el año siguiente, el año 12, será:

Y12predicción = 1510,604 + 230,726 ⋅12 = 4279,316 Que el resultado de la predicción sea correcto dependerá del mantenimiento de la tendencia. Normalmente métodos de predicción de este tipo pueden ser útiles si la predicción es a corto plazo, pero no tendría sentido hacer predicciones a medio o largo plazo con esta técnica.

Ejemplo 2. En la gráfica 24 se relaciona el número de turistas de una nacionalidad llegados al Reino Unido con la evolución del tipo de cambio entre sus monedas. El índice del tipo de cambio se ha definido con base 100 en 1990, respecto al mismo, un valor de 90 indicaría que la libra está más barata para los turistas, mientras que un valor de 110 correspondería a una libra más cara. En la gráfica se representa el ajuste lineal, mostrando cómo cuando la libra se fortalece el número de turistas disminuye. Gráfica 24 1200000

1100000

Número Turistas

1000000

900000

800000 90

100

110

120

130

Índice del tipo de cambio

Cuadro 11

Xi

Yi

X i Yi

X i2

Yi 2

100 95,12 92,68 97,56 109,76 124,39 129,27 126,83 114,63 109,76

1176 1117 1137 1058 1019 1039 901 862 862 823

117600,00 106249,04 105377,16 103218,48 111845,44 129241,21 116472,27 109327,46 98811,06 90332,48

10000,00 9047,81 8589,58 9517,95 12047,26 15472,87 16710,73 16085,85 13140,04 12047,26

1382976 1247689 1292769 1119364 1038361 1079521 811801 743044 743044 677329

n

n

n

n

∑ X ∑Y

∑X Y

1100 9994

1088474,60

i =1

i

i =1

i

∑X

i i

i =1

i =1

n

∑Y

2 i

i =1

122659,356

2

i

10135898

y

x

110 999,4 Si se quiere cuantificar cuál es el efecto de las variaciones del tipo de cambio, podemos aproximar la relación mediante un ajuste lineal y discutir el valor de su pendiente. En el cuadro 11 se ofrecen los datos necesarios y sus transformaciones (el número de turistas se presenta en miles). n

b=

∑ (X i =1

− x )(Yi − y )

n

∑ (X i =1

=

i

i

−x )

2

n

=

∑ X Y −n x y i =1 n

i i

∑X i =1

2 i

−n x

=

2

1088474,6 −10 ⋅110 ⋅ 999,4 − 10865,4 = = − 6,54796 1659,356 122659,356 − 10 ⋅110 2

a = y −b x =999,4 + 6,54796 ⋅ 110 = 1719,6756 VE =b 2

n





n

∑ ( X i − x )2 =b 2  ∑ X i2 −n ⋅ x 2 = i =1

 i =1



=(− 6 ,54796) ⋅(122659 ,356 −10 ⋅110 ) = 71146 ,183 2

n

2

n

VT =∑ (Yi − y ) =∑ Yi 2 −n y 2 =10135898−10 ⋅999,4 2 = 147894,4 i =1

2

i =1

R2 =

VE 71146,183 = = 0,48 VT 147894,4

El incremento en una unidad del índice del tipo de cambio supone una disminución de 6,55 en la variable endógena o, dado que el número de turistas está medido en miles, de 6547 turistas de esa nacionalidad.

Ejemplo 3. Para valorar el servicio de restaurante de un hotel, se ha realizado una pequeña encuesta en la que se ha solicitado el nivel de satisfacción respecto al servicio de restaurante (1-nada satisfactorio, 10-

muy satisfactorio) y el número de veces que lo habían utilizado. Se desea valorar si existe una relación positiva entre el nivel de satisfacción y el grado de repetición. En el cuadro 12, X es el número de veces que ha usado el restaurante e Y el nivel de satisfacción. Se propone realizar el ajuste de una recta.

Cuadro 12

Xi

Yi

X i Yi

X i2

Yi 2

3 2 3 3 1 1 1 1 2

9 7 8 7 7 5 5 7 5

27 14 24 21 7 5 5 7 10

9 4 9 9 1 1 1 1 4

81 49 64 49 49 25 25 49 25

n

n

n

n

∑ X ∑Y ∑ X Y ∑ X i

i =1

i =1

i

17

60

x

y

1,889

6,667

i =1

i i

120

i =1

n

2 i

39

∑Y i =1

2

i

416

El cálculo de los parámetros de la recta será: n

n

∑ ( X i − x )(Yi − y ) ∑ X iYi −n x y

b= i =1

n

∑ (X i =1

i

−x )

2

= i =1n

∑X i =1

2 i

−n x 2

=

120−9⋅ 1,889⋅6,667 6,6543 = = 0,967 6,8851 39−9⋅ 1,889 2

a = y −b x =6,667 − 0,967⋅1,889=4,84

Aunque la regresión no puede interpretarse como una relación causal estricta, el valor de la pendiente permite una descripción útil de lo que ocurre en la muestra. La pendiente indica que la relación entre las dos variables es

positiva, puesto que el aumento en una unidad del número de visitas incrementa en casi un punto el nivel de satisfacción de la estancia. La variación explicada, variación no explicada y el coeficiente de determinación serán: n  n  2 2 VE =b 2 ∑ ( X i − x ) =b 2  ∑ X i2 −n ⋅ x 2 =(0,967 ) ⋅ 39−9 ⋅1,889 2 =6,438 i =1  i =1 

(

n

)

n

VT =∑ (Yi − y ) =∑ Yi 2 −n y 2 =416−9 ⋅6,667 2 =15,96 2

i =1

i =1

V E =VT −VE =15,96−6,438= 9,522 R2 =

6,438 =0,403 15,96

El modelo explica el 40,3 % de la variación total de la endógena, señalando con ello que el grado de satisfacción estaría asociado al nivel de repetición, pero que sería preciso tener en cuenta otros factores explicativos.

Ejemplo 4. Análisis de las características de los mercados bursátiles emergentes. Las distribuciones de los beneficios de los nuevos mercados bursátiles presentan formas más asimétricas y con mayor curtosis que las de los mercados consolidados. Bekaert et al. (1998), con información de distintos mercados (véase el cuadro 13), plantean la relación entre el coeficiente de asimetría y dos variables que pueden explicar su evolución: el crecimiento de la economía del país (medido por el PIB, 1987:04-1997:03) y el valor de su mercado de capitales (millones de $ USA, 1987:03).

Cuadro 13 País Argentina Brasil Chile Colombia Grecia India Jordania Malaisia

Tasa de Coeficiente de Crecimiento Asimetría PIB 3,30 0,30 0,20 3,70 0,30 3,40 1,60 4,10 1,80 1,90 0,70 4,50 0,20 6,90 -0,90 5,50

Mercado Capitales 1,214 6,555 2,219 0,677 0,824 5,373 1,240 11,969

-1,00 3,70 5,611 México 1,50 -0,60 0,576 Nigeria 1,20 6,50 0,643 Paquistán 0,70 1,80 1,495 Filipinas 2,40 2,80 1,591 Portugal 0,60 7,70 6,490 Corea sur 0,60 8,60 7,267 Taiwan -0,20 6,40 2,004 Tailandia 1,00 4,10 0,487 Turquía 0,20 0,70 1,298 Venezuela 0,00 3,00 0,200 Zimbabwe Para describir las relaciones se utiliza el modelo de regresión simple. En las gráficas 25 y 26 se muestran las nubes de puntos y la línea ajustada por mco.

Gráfica 25 4 argentina 3 portugal 2

grecia colombia

nigeria 1

filipinas

corea sur taiwan

chile brasil zimbabwe

venezuela 0

asimetría

paquistán

turquia india

jordania tailandia

méxico

-1

malaysia

-2 -2

crecimiento pib

Gráfica 26

0

2

4

6

8

10

4 argentina 3 portugal 2

grecia colombia nigeria paquistán turquia 1 f ilipinas

india

corea surtaiwan

asimetría

venezuela jordania chile babwe 0 tailandia

brasil

malasia

méxico

-1

-2 0

2

4

6

8

10

12

14

mercado de capitales

Los valores de la pendiente de las regresiones simples y los coeficientes de determinación se derivan empleando las cantidades del cuadro 14.

Cuadro 14 Coeficiente Mercado ∆ PIB asimetría Capitales

Yi 3,3 0,2 0,3 1,6 1,8 0,7 0,2 -0,9 -1 1,5 1,2 0,7 2,4 0,6 0,6 -0,2

Xi

0,3 3,7 3,4 4,1 1,9 4,5 6,9 5,5 3,7 -0,6 6,5 1,8 2,8 7,7 8,6 6,4

Zi 1,214 6,555 2,219 0,677 0,824 5,373 1,240 11,969 5,611 0,576 0,643 1,495 1,591 6,490 7,267 2,004

X i Yi

X i2

0,99 0,74 1,02 6,56 3,42 3,15 1,38 -4,95 -3,7 -0,9 7,8 1,26 6,72 4,62 5,16 -1,28

0,09 13,69 11,56 16,81 3,61 20,25 47,61 30,25 13,69 0,36 42,25 3,24 7,84 59,29 73,96 40,96

Z i Yi

Zi2

Yi 2

4,006 1,474 10,89 1,311 42,968 0,04 0,666 4,924 0,09 1,083 0,458 2,56 1,483 0,679 3,24 3,761 28,869 0,49 0,248 1,538 0,04 -10,772 143,257 0,81 -5,611 31,483 1 0,864 0,332 2,25 0,772 0,413 1,44 1,046 2,235 0,49 3,818 2,531 5,76 3,894 42,120 0,36 4,360 52,809 0,36 -0,401 4,016 0,04

1 0,2 0

4,1 0,7 3

0,487 1,298 0,2

4,1 0,14 0

n

n

y

x

∑X

z

i =1

0,74737

3,94737

3,0386

16,81 0,49 9

i

Yi

36,23

∑X i =1

0,487 0,260 0

0,237 1,685 0,04 n

n

2 i

411,76

∑Z Y ∑Z i =1

i

i

11,275

i =1

1 0,04 0 n

2 i

362,068

∑Y i =1

2

i

30,9

Los cálculos correspondientes a las respectivas pendientes serán: n

bx =

∑ X Y −nx y i i

i =1 n

∑X i =1

2 i

=

−n x2

36,23 − 10 ⋅ 3,94737 ⋅ 0,74737 = − 0,1713 411,76 − 19 ⋅ 3,94737 2

n

bz =

∑Z Y −nz y i i

i =1 n

∑Z i =1

2 i

=

−nz2

11,275 − 10 ⋅ 3,0386 ⋅ 0,74737 = − 0,17077 362,068 − 19 ⋅ 3,0386 2

Y los de los coeficientes de determinación:

 n  b 2  ∑ X i2 −n x 2  2 2 VE  = (− 0,1713) (411,76−19⋅3,94737 )= 3,396 =0,16739 R x2 = =  ni =1 20,287 VT 30,9−19⋅0,74737 2 ∑ Yi 2 −n y 2 i =1

VE = R = VT 2 z

  n b 2  ∑ Z i2 − n z 2    i =1 n

∑Y i =1

i

2

−n y2

=

(− 0,17077) 2 ( 362,068 − 19 ⋅ 3,0386 2 ) 30,9 − 19 ⋅ 0,74737 2

=

5,4428 = 0,2683 20,287

Como conclusión, parece que, efectivamente, la característica de asimetría de los rendimientos es específica de un tipo de mercado. Al aumentar el grado de desarrollo del país y/o aumentar la importancia del mercado de capitales, la asimetría de la distribución se corrige, aproximándose a coeficientes de asimetría cercanos a cero o incluso negativos. Una información que ofrecen los autores es que en el período 1971-1977, la media del coeficiente de asimetría en todos los mercados mundiales era igual a –0,23. La tendencia de los mercados emergentes debería ser, por tanto, hacia esta ligera asimetría negativa. Esta tendencia

estaría marcada, entre otros, por factores como el crecimiento económico del país y del propio mercado de capitales.

Ejemplo 5. Estructura del paro femenino: empleo a tiempo parcial. El aumento del número de trabajadores con dedicación parcial puede haber tenido un efecto positivo en la reducción del paro en la Unión Europea (UE). Esta hipótesis puede ser cierta especialmente en el caso de las mujeres, las principales demandantes de este tipo de empleo. Las diferentes regulaciones del empleo a tiempo parcial (sobre todo en cuanto a su nivel de protección frente al despido) no permiten, a priori, asegurar la validez de esta hipótesis. Moltó y Uriel (1997) analizan la relación entre la tasa de paro y la tasa de empleo a tiempo parcial, en ambos casos para la población femenina, empleando información del período 19871995. La relación entre las dos variables y el ajuste por mco se muestra en la gráfica 27.

Gráfica 27 30 España

20 Italia

Irlanda Francia Bélgica

tasa paro femenino

Grecia

Holanda 10

Dinamarca Alemania Reino Unido

Portugal

0 0

10

20

30

tasa empleo tiempo parcial

La recta ajustada es la siguiente:

40

50

60

70

(Tasa Paro Femenino) = 16,66 − 0,1513⋅ (Tasa empleo femenino a tiempo parcial ) El valor del coeficiente de determinación es igual a 0,20, es decir, que las variaciones de las tasas de paro femenino vendrían explicadas en un 20% por las variaciones en la tasa de empleo con dedicación parcial. Una conclusión que parece desprenderse del anterior análisis es la de que un aumento de la flexibilidad del mercado laboral, favoreciendo el empleo a tiempo parcial, tendría un impacto positivo, al reducir la tasa de paro femenina.

Ejemplo 6. Relación entre el crecimiento del PIB de las Comunidades Autónomas y el crecimiento español y comunitario. Raymond (1994) analiza la evolución del PIB de las Comunidades Autónomas españolas (CCAA) con relación al crecimiento del PIB nacional y europeo. Una de las cuestiones que plantea en su trabajo es hasta qué punto la evolución de las CCAA es más sensible a lo que sucede en la Unión Europea, que a lo que ocurre en el conjunto nacional. Su hipótesis inicial es que debería darse un esquema causal en el que los shocks de crecimiento en el ámbito europeo se trasladarían a la economía española de una manera global. En una segunda etapa, la definición de una política coyuntural española afectaría a las diecisiete autonomías. Su propuesta para valorar esta hipótesis es la de realizar dos regresiones simples para cada autonomía. En cada regresión, la variable endógena sería el crecimiento del PIB (a precios constantes) de cada comunidad y, como variable explicativa, aparecerían bien el crecimiento del PIB nacional, bien el europeo (también a precios constantes). En el caso de que su hipótesis sea cierta, el crecimiento de las CCAA estaría mejor explicado por el crecimiento español que por el europeo. Los resultados que obtiene se reproducen en el Cuadro 15.

Cuadro 15

Crecimiento PIB CCAA CCAA Andalucía Aragón Asturias Baleares Canarias Cantabria Castilla-La Mancha Castilla-León Catalunya

f (Crecimiento PIB español )

Pendiente 0,92 0,96 0,83 1,24 0,98 0,70 0,99 0,81 1,21

Correlación 0,92 0,89 0,91 0,74 0,66 0,79 0,90 0,79 0,98

f (Crecimiento PIB europeo )

Pendiente 1.36 1,43 1,18 2,34 2,11 1,13 1,45 1,03 1,72

Correlación 0,79 0,77 0,75 0,82 0,84 0,75 0,77 0,58 0,81

C. Valenciana Extremadura Galicia Madrid Murcia Navarra País Vasco La Rioja

0,82 0,55 0,74 1,23 0,95 1,04 1,18 0,67

0,81 0,49 0,92 0,92 0,86 0,90 0,88 0,73

1,41 0,91 1,13 1,66 1,56 1,46 1,44 1,16

0,83 0,48 0,82 0,73 0,82 0,74 0,62 0,74

Como principales conclusiones Raymond (1994) apunta las siguientes: • Las CCAA, en general, presentan un alto grado de dependencia, tanto del PIB nacional como europeo. • Las correlaciones entre el crecimiento del PIB de las CCAA y el crecimiento del PIB español son superiores a las mantenidas con respecto a la Unión Europea. • Baleares y Canarias son las únicas excepciones claras. Su dependencia del turismo justificaría este efecto específico. • Entre las regresiones sobre el PIB español, las de Baleares, Catalunya, Madrid, Navarra y el País Vasco presentan un coeficiente b superior a la unidad. Esto debe interpretarse como que el efecto del crecimiento nacional tiene en estas comunidades un impacto aún mayor. Raymond (1994, pág. 56) sugiere que para cada una de estas comunidades existe una explicación individualizada. Así, en el caso del País Vasco puede ser la existencia de un fuerte sector industrial ligado a la industria pesada; en Catalunya, la importancia de un sector industrial muy sensible a la coyuntura económica; en el caso de Madrid, la existencia de un sector servicios dependiente de la evolución del sector industrial.

En consecuencia, puede afirmarse que las CCAA son altamente dependientes de las fluctuaciones económicas a escala nacional y europea. Al ser las correlaciones con España superiores, debe interpretarse que este es el efecto principal, aunque ello no implica que el crecimiento europeo no deba ser también una referencia en la evolución de las CCAA.

Ejemplo 7. El crecimiento de los países de la OCDE. Con datos de los países de la OCDE en el período 1960-1990, en este ejemplo se analiza si existe alguna relación entre el crecimiento del PIB y la posición inicial de riqueza de la

que se parte. Aunque en este período se ha dado un proceso de convergencia en los niveles de riqueza, no todos los países han crecido con igual intensidad. Son precisamente algunos de los países que partían de posiciones no especialmente buenas en el índice PIB pc del año 1960, los que han conseguido las mejores tasas de crecimiento. En el cuadro 16 se recoge un índice del PIB per cápita del año 1960 y las tasas de crecimiento de esta variable entre 1960 y 1990. El índice del PIB per capita toma como referencia a EEUU, siendo el resultado de dividir el PIB per capita de cada país por el correspondiente a EEUU (ambos en dólares). Para valorar la relación entre la posición relativa de riqueza y el crecimiento económico, se ajusta la siguiente regresión simple:

Tasa ∆ PIB pc = a + b ⋅ PIB pc Los datos necesarios para el cálculo se presentan en el cuadro 17.

Cuadro 16

país Alemania Australia Austria Bélgica Canadá Dinamarca España Finlandia Francia Grecia Holanda Irlanda Islandia Italia Japón Luxemburgo

PIB per capita 1960 (USA=100) 67,73 67,25 52,03 53,27 66,59 63,17 31,76 48,57 58,81 18,97 63,50 31,22 50,05 47,23 29,91 75,18

Tasa crecimiento PIB per capita 1960-1990 2,65 2,22 3,21 3,08 2,84 2,56 3,75 3,45 2,94 3,96 2,40 3,49 3,44 3,44 5,39 2,62

75,13 50,10 20,77 67,85 67,26 97,20 17,43 100

N. Zelanda Noruega Portugal Reino Unido Suecia Suiza Turquía EEUU

1,31 3,23 4,08 2,16 2,40 1,89 2,96 1,94

Cuadro 17 n

∑ X i2

y

x

i =1

55,041

2,975

n

∑ Yi 2 i =1

84019,975 229,493

n

∑X i =1

i

Yi

3581,841

Los coeficientes del ajuste serán: n

∑ (X

b = i =1

i

− x ) (Yi − y )

n

∑ (X i =1

i

−x)

2

n

∑ X Y −n x y i

= i =1n

∑X i =1

i

2 i

−n x 2

=

3581,841− 24⋅ 55,041 ⋅ 2,975 − 348,086 = = − 0,0307 84019,975 − 24 ⋅ 55,0412 11311,695

a = y −b x =2,975 + 0,0307 ⋅ 55,041 = 4,665 Y el coeficiente de determinación:

n  n  2 2 VE =b 2 ∑ ( X i − x ) =b 2  ∑ X i2 −n ⋅ x 2 =(− 0,0307 ) ⋅(84019,975−24 ⋅55,0412 )=10,661 i =1  i =1 

n

n

VT =∑ (Yi − y ) =∑ Yi 2 −n y 2 =229,493−24 ⋅2,975 2 =17,078 i =1

2

i =1

10,661 R2 = =0,624 17,078 En la gráfica 28 se representa el ajuste de la tasa de crecimiento del PIB per capita respecto al índice de 1960. La posición de partida describe, por tanto, bastante bien cuál es la tasa de crecimiento que los países han alcanzado en el período. Cuanto mejor situado estaba el país en 1960, menor ha sido su tasa de crecimiento en los siguientes años. Resulta llamativo observar que de los seis países en peor posición en 1960 (España, Irlanda, Japón, Portugal, Grecia y Turquía) cinco de ellos se encuentran entre los primeros en su tasa de

crecimiento (Japón, 1; Portugal, 2; Grecia, 3; España, 4; Irlanda, 5). Curiosamente, es EEUU, el país con mayor nivel de riqueza, el que presenta una de las menores tasas de crecimiento en el período. Gráfica 28 6

tasa crecimiento PIB per capita

5

4

3

2

1 0

20

40

60

80

100

120

PIB per capita, 1960 (USA=100)

Ejemplo 8. Convergencia económica. Barro (1991) para valorar empíricamente la existencia de convergencia en los niveles de renta de distintos países, propuso realizar una regresión entre sus tasas de crecimiento y los niveles de renta de los que partían:

(Tasa de crecimiento de la renta )

i

= α + β ( Nivel de renta )i

para i = 1,…,n regiones. Si el coeficiente β es negativo (y normalmente inferior en valor absoluto a uno) se podrá interpretar que cuanto mayor es el nivel de renta de un país, menor será su tasa de crecimiento. Dicho de otra manera, las regiones más pobres crecerían más que las más ricas, obteniéndose como resultado final una convergencia en sus niveles de renta. Por el contrario, si β es mayor que la unidad, cuanto mayor fueran los niveles de variable, mayores serían sus tasas de crecimiento. Para diversos países y distintos períodos de tiempo se han calculado unas tasas de convergencia bastante parecidas (Sala-i-Martin, 1994), de alrededor del 2% anual (coeficiente β igual a -0,02). Para cualquier variable, el concepto de β -convergencia se puede definir sobre un modelo como el siguiente:

log( yit ) − log( yit −1 ) = a + b log( y t −1 ) + eit

La hipótesis de β-convergencia estaría de acuerdo con un valor de la pendiente negativo. Indicando que la tasa de crecimiento de la variable

(el incremento de la variable en logaritmos) depende negativamente de su nivel en el momento inicial del tiempo. Cuanto mayor sea el valor de la pendiente (en términos absolutos) mayor será la tendencia hacia la convergencia. Friedman (1992) sugiere que la evolución de la renta de un conjunto de países puede seguirse mejor analizando las transformaciones del coeficiente de variación a lo largo del tiempo. El coeficiente de variación es una medida de dispersión. Si se calcula para un conjunto de países en distintos momentos del tiempo y se detecta que su valor disminuye, se tendrá un indicador de convergencia en sus niveles de renta. Sala-i-Martin (1994) denomina a este tipo de convergencia σ-convergencia, mostrando cómo ambos conceptos están relacionados. La relación entre β-convergencia y σ-convergencia se puede establecer, en primer lugar, modificando el modelo de regresión de la siguiente manera:

log( yit ) − log( yit −1 ) = a + b log( y t −1 )

log( yit ) = a + b log( y t −1 ) + log( y t −1 ) log( yit ) = a + ( b + 1) log( y t −1 )

En segundo lugar, definiremos la varianza sobre la variable transformada en logaritmos:

(

1 n s = ∑ log( yit ) − log( y t ) n i =1 2 t

)

2

Sustituyendo en ella la expresión del logaritmo de la variable (y de su valor medio), tendremos:

st2 =

(

1 n ∑ log( yit ) − log( y t ) n i =1

)= 2

( )= 1 = ∑ (a + ( b + 1) log( y ) − a − ( b + 1) log( y ) ) = n 1 = ∑ ((b + 1) (log( y ) − log( y ) )) = n =

1 n ∑ a + (b + 1) log( yit −1 ) − a − (b + 1) log( yt −1 ) n i =1

2

2

n

it −1

i =1

t −1

2

n

i =1

it −1

t −1

(

1 n = (b + 1) ∑ log( yit −1 ) − log( y t −1 ) n i =1 2

)

2

=

= (b + 1) st2−1 2

Es decir que la varianza en un momento del tiempo t se puede expresar en función de la varianza en el momento t-1. La pendiente b, que define la convergencia en la regresión aparece también en la relación. Puede comprobarse que cuanto más próximo este b a –1, más rápida será la convergencia, puesto que menor será la dispersión de la variable en el tiempo. Si b fuese positiva no se daría β-convergencia y tampoco convergerían las varianzas, pues cada vez sería mayor la dispersión de la variable en el tiempo.

Ejemplo 9. Análisis del cambio en el salario medio industrial de las regiones españolas: 1978-1990. En este ejemplo reproduciremos parte del trabajo de Pérez Domínguez (1995) que analiza la convergencia de los salarios en las comunidades autónomas españolas. En el cuadro 18 se muestra un índice de los salarios industriales medios del año 1978 para las comunidades españolas (media nacional igual a 100). Se dispone también de la tasa de variación de esta variable, para el período 1978-1990 y se desea comprobar si ha existido en esta etapa un proceso de convergencia. El ajuste por mco del modelo que nos permitirá verificar si se ha producido la convergencia en los salarios industriales será el siguiente:

(Tasa variacion salario)

i

= a + b Salarioi

Los resultados necesarios para el cálculo de a y b y el correspondiente coeficiente de determinación se ofrecen en el cuadro 19. Cuadro 18

CCAA

Asturias

País Vasco

Salario industrial medio 1978 (media nacional igual a 100) 127,97 123,31

Tasa de variación 1978-1990 2,827 2,966

Madrid Cantabria Catalunya Navarra Aragón Castilla-León Andalucía Canarias Galicia Valencia La Rioja Murcia Baleares Castilla –La Mancha Extremadura Fuente: Pérez Domínguez Encuesta Industrial del INE.

111,74 3,119 106,11 2,869 103,86 2,979 103,22 2,858 96,46 3,104 94,05 3,136 89,87 2,870 88,91 2,732 88,59 2,824 85,37 2,693 82,32 2,688 76,05 2,590 74,28 2,962 73,15 2,740 62,70 2,873 (1995), empleando la

Cuadro 19 n

∑X i =1

n

∑X

i Yi

i =1

4578,949

n

2 i

153395,785

∑Y i =1

2

i

140,657

x

y

93,409

2,872

Los valores de b y a serán: n

b=

∑X i =1 n

i

∑X i =1

Yi − n x y 2 i

−nx2

=

4578,949 − 17 ⋅ 93,409 ⋅ 2,872 = 0,0036 153395,785 − 17 ⋅ 93,409 2

a = y − b x = 2,872 − 0,0036 ⋅ 93,409 = 2,5357

Y el coeficiente de determinación será:

VE = R = VT 2

 n  b 2  ∑ X i2 − n x 2   i =1  n

∑Y i =1

i

2

−n y

2

=

0,0036 2 (153395,785 − 17 ⋅ 93,409 2 ) 140,657 − 17 ⋅ 2,872 2

= 0,15

El ajuste explica un 15% de la variación total, con un parámetro b positivo. En la gráfica 29 se representan las observaciones y la recta

ajustada. La conclusión que se deriva del análisis es la de que, durante este período, no se ha producido en las comunidades autónomas una convergencia en los salarios de la industria.

Gráfica 29 3,2 Cast.-León Aragón

Madrid

3,1

Crecimiento salario medio (1978-1990)

3,0

Catalunya

Baleares

2,9

Extremadura

Andalucía

País Vasco

Cantabria Navarra Asturias

Galicia 2,8 Cast.-Mancha

Canarias Valencia La Rioja

2,7

Murcia

2,6

2,5 50

60

70

80

90

100

110

120

130

140

Salario medio (1978)

Ejemplo 10. Esperanza de vida en la OCDE. En el cuadro 20 se dispone de la información de la esperanza media de vida en los distintos países de la OCDE (calculada en el año 1989). La intensidad de la inversión sanitaria en cada país puede ser un factor explicativo de las diferentes esperanzas de vida. Como variables cercana a ese concepto, en el cuadro 20 aparece el número de camas por mil habitantes. Se plantea explicar la esperanza de vida en función del número de camas. En el cuadro 21 se muestran los valores necesarios para realizar el ajuste, que finalmente se representa en la gráfica 30. Cuadro 20 Camas por Esperanza mil País de vida habitantes 76,70 9,90 Australia 75,60 10,70 Austria 74,80 8,30 Bélgica 76,80 6,90 Canadá 75,10 6,10 Dinamarca

74,90 77,10 75,90 76,20 77,20 74,40 76,00 78,70 74,60 77,10 74,50 76,20 74,10 76,40 77,20 77,60 75,40 75,90 75,00

Finlandia Francia Alemania Grecia Islandia Irlanda Italia Japón Luxemburgo Holanda Nueva Zelanda Noruega Portugal España Suecia Suiza Turquía UK EEUU

13,50 10,20 10,90 5,20 14,80 6,40 7,50 15,60 12,50 11,70 9,00 15,30 4,70 4,40 13,30 9,90 2,10 6,50 5,10

Cuadro 21 n

y

x

∑X i =1

9,1875

75,975

n

∑Y

2 i

i =1

2355,21

n

2

i

138564,7

∑X i =1

i

Yi

16799,23

Los valores de b y a serán: n

∑ X Y −n x y

b= i =1n

i

∑X i =1

i

2 i

−n x 2

16799,23 −24 ⋅ 9,1875 ⋅ 75,975 46,7425 = = = 0,142 329,366 2355,21−24 ⋅ 9,1875 2

a = y −b x =75,975 − 0,142 ⋅ 9,1875 = 74,67

Y el coeficiente de determinación:

 n  b 2  ∑ X i2 −n x 2  0,142 2 2355,21 − 24 ⋅ 9,1875 2 i =1   2 VE = = 0,21 R = = n VT 138564,7 − 24 ⋅ 75,975 2 2 2 ∑ Yi −n y

(

i =1

)

Gráfica 30 79

Japón

78 Suiza Holanda

Francia 77

Canadá

Suecia

Australia

España Grecia

Esperanza de vida

Noruega Italia

UK

76

Islandia

Alemania Austria

Turquía EEUUDinamarca

75

Finlandia

Bélgica

Luxemburgo

N. Zelanda

Irlanda Portugal 74 1

3

5

7

9

11

13

15

17

Camas (por mil habitantes)

Según este análisis descriptivo, el aumento del número de camas por cada mil habitantes estaría asociado a una mayor esperanza de vida. Como conclusión del análisis deberíamos extraer que, efectivamente, parece existir una relación positiva entre la esperanza de vida y la inversión del país en sanidad si se mide ésta mediante el número de camas por mil habitantes. Incrementar en 10 las camas por cada mil habitantes tendría como consecuencia el aumento de 1,42 años en la esperanza de vida.

BIBLIOGRAFÍA Akdogan, H., 1997, “International security selection under segmentation: Theory and application”, The Journal of Portfolio Management, vol. 24, n. 1, págs. 8292. Barro, R.J., 1991, “Economic growth in a cross section of countries”, Quaterly Journal of Economics, nº. vol. 106, nº. 2, págs. 407-443. Bekaert, G., C.B. Erb, C.R. Harvey y T.E. Viskanta, 1998, “Distributional Characteristics of Emerging Market Returns and Asset Allocation”, The Journal of Portfolio Management, vol. 24 nº. 2, Winter, págs. 102-116. Boyle, G.E. y T.G. McCarthy, 1997, “A simple measure of β-convergence”, Oxford Bulletin of Economics and Statistics, vol. 59, nº. 2, págs.257-264. Camino, D., 1997, “Efectos intradía y día de la semana en la Bolsa de Madrid. Información y Volumen de contratación”, Revista Española de Financiación y Contabilidad, vol. XXVI, nº 90, págs. 51-75. Doménech, R., M. Fernández y D. Taguas, 1997, “La fiscalidad sobre el trabajo y el desempleo en la OCDE”, Papeles de Economía Española, nº. 72, págs. 178191. Ferruz, L. y J.L. Sarto, 1997, “Revisión crítica de las medidas clásicas de performance de carteras y propuesta de índices alternativos. Aplicación a fondos de inversión españoles (1990-1995)”, Boletín de Estudios Económicos, vol. LII, nº. 162, Diciembre, págs. 549-573. Friedman, M., 1992, “Do old fallacies ever die?”, Journal of Economic Literature, vol. 30, págs. 2129-2132. Govern Balear, 1991, El gasto turístico 1990, Direcció General d’Economia, Palma de Mallorca. Johnson, P. y G. Stears, 1998, “Why are older pensioners poorer?”, Oxford Bulletin of Economics and Statistics, vol. 60, nº 3, págs. 271-290. Juhn, C. y K.M. Murphy, 1996, “Wage inequality and family labor supply”, Working Paper 5450, NBER Working Paper Series, Cambridge, MA.

Layard, R., S. Nickell y R. Jackman, 1996, “Combating unemployment: is flexible enough?”, CEP Working Paper, 293, London School of Economics. Martínez Abascal, E. y C. Cabezas, 1997, “Correlación entre Bolsas Mundiales. ¿A quién sigue el IBEX?, Análisis Financiero, nº. 73, 3er cuatrimestre, págs. 3442. Michaud, R.O., G.L. Bergstrom, R.D. Frashure y B.K. Wolahan, 1996, “Twenty years of International Equity Investing”, The Journal of Portfolio Management, vol. 23, n. 1, págs. 9-22. Moltó, M.L. y E. Uriel, 1997, “El problema del paro en la Unión Europea por sexos”, Papeles de Economía Española, nº. 72, págs. 122 a 136. Norusis, M.J., 1991, The SPSS Guide to Data Analysis for SPSS/PC+, 2nd Edition, SPSS Inc., Chicago. Pena, B., J. Callealta, J.M. Casas, A. Merediz y J. Nuñez, 1996, Distribución de la Renta en España, Ediciones Pirámide, Madrid. Pérez Domínguez, C., 1995, “Cambios en el salario industrial medio de las regiones españolas: Un análisis para el período 1978-1990”, Boletín de Estudios Económicos, Vol. L, nº. 155, agosto, págs. 239-262. Raymond, J.L., 1994, “Condicionantes externos de la evolución de la economía española”, Documentos de Trabajo nº. 104/1994, Fundación FIES. Rute, A., 1997, “Workers or employers: Who is shaping wage inequality?”, Oxford Bulletin of Economics and Statistics, vol. 59, nº 4, págs. 523-547. Sala-i-Martin, X., 1994, Apuntes de Crecimiento Económico, Antoni Bosch, editor, Barcelona.