Estadística 1

como “souvenir” de su viaje o para consumirlo durante el mismo. Desde la cámara de comercio de. Bariloche se ha consulta
1MB Größe 46 Downloads 146 Ansichten
Guía de Trabajos Prácticos de “Estadística I”

Estadística 1 Lic en Turismo, Hotelería, Administración o Economía

Profesor: JTPs:

Dr. Ing. Agr. Lucas A. Garibaldi Lic. Francisco J. Aristimuño Dr Facundo Oddi

Ayudantes:

Florencia Tiribelli | Florencia Fasani Clara Nucci

| Agostina Biagini

Guía de Trabajos Prácticos de “Estadística I”

Sede y localidad

Sede Andina, San Carlos de Bariloche

Carreras

Licenciatura en Administración, Licenciatura en Hotelería, Licenciatura en Turismo y Licenciatura en Economía.

Programa Analítico de la asignatura

Asignatura: Estadística I Año calendario: 2014

Cuatrimestre: Primer cuatrimestre del segundo año.

Carga horaria semanal: seis (6) horas

Créditos:

Carga horaria total: 96hs

Días y horario de cursada: 16 semanas entre el 5 de marzo y el 19 de junio del 2014 Horas de estudio recomendadas (extra clase): ocho (8) horas semanales Blog de la materia: www.estadistica1unrn.ecaths.com

Profesor: JTPs:

Dr. Lucas A. Garibaldi

[email protected]

Lic. Francisco J. Aristimuño

[email protected]

Dr. Facundo Oddi

[email protected]

Guía de Trabajos Prácticos de “Estadística I”

Contenidos mínimos establecidos por Plan de Estudio: Introducción a la estadística. Experimentos aleatorios. Probabilidad. Tipos de definiciones. Probabilidad total, condicional y Teorema de Bayes. Independencia. Estadística descriptiva. Caracterización de series de frecuencias. Medidas de posición, dispersión y deformación. Variable aleatoria. Momentos. Función de probabilidad y densidad. Distribución de probabilidad. Distribución conjunta y marginal. Independencia, covarianza y correlación. Distribuciones de probabilidad comúnmente usadas. Teorema central del límite. Muestreo: concepto. Error muestral. Procedimientos muestrales. Estimadores: concepto y propiedades generales. Ley de los grandes números. Distribuciones de estimadores para muestras aleatorias simples. Inferencia estadística. Estimación puntual. Estimación por intervalos de confianza. Test de Hipótesis. Bondad de ajuste. Tablas de contingencia. Análisis de Varianza. Números índices. Tipos y propiedades de números índices. Deflactores de precios. Regresión lineal: estimación por mínimos cuadrados. Supuestos del modelo. Series de Tiempo. Tendencia. Variaciones cíclicas. Variaciones estacionales. Variaciones aleatorias. Aplicaciones informáticas. Objetivos de la asignatura: La presente materia es de indudable importancia para los futuros graduados. En efecto, el entorno global pleno de incertidumbre en el que se desempeñan nuestras empresas, organizaciones e institucio nes, requiere que la toma de decisiones contemple de la forma más acabada posible la evaluación del riesgo. Así, la estadística les brinda a los alumnos uno de los instrumentos de utilidad práctica y aplicación experimental más valiosos de la caja de herramientas que provee la licenciatura. Como asignatura introductoria, combina la enseñanza de conceptos básicos de probabilidad y estadística y variables aleatorias, con herramientas de inferencia con sólida fundamentación teórica sobre el comportamiento de dichas variables. De este modo, se procurará como objetivo general facilitar las herramientas esenciales que aporta la estadística para el análisis del riesgo, la incertidumbre y la toma de decisiones, buscando que el alumno adquiera el marco teórico de la materia y desarrolle capacidad de aplicación de la misma a la realidad. Se plantean como objetivos particulares que el alumno logre: •

Comprender la importancia y la inserción de la materia en su ámbito profesional.



Plantear, validar e interpretar modelos estadísticos para contestar preguntas aplicadas a partir de datos.



Confeccionar e interpretar de forma clara figuras con información estadística.



Manejo de software estadístico.

Propuesta Metodológica: En este curso la teoría estadística se introduce a partir de la discusión de problemas del ámbito profesional que motiven al estudiante. Se pone especial énfasis en la utilidad de los conceptos estadísticos para reducir la incertidumbre y tomar mejores decisiones profesionales. Las clases se desarrollan utilizando datos reales con los que se contestan preguntas profesionales a partir de modelos y conceptos estadísticos. Parte del curso se desarrolla en aula de informática utilizando el

Guía de Trabajos Prácticos de “Estadística I” ambiente de programación R, en particular el paquete "R commander", de código abierto y uso gratuito. Asistencia: para alcanzar la condición de regularidad es necesario que el alumno alcance una asistencia del 75%, tanto en las clases teóricas como prácticas. Evaluación: la evaluación del curso consiste en un examen integrador al final del curso de duración de 3 horas (40% nota final) y varios exámenes integradores cortos y trabajos prácticos durante el curso (60% nota final). El examen final se desarrollará en aula de informática con R commander. Regularización: alcanzará dicha condición el alumno que cumpla con al menos un 75% de asistencia (tanto a clases como a exámenes) y posea una nota promedio igual o mayor a 5. Promoción: alcanzará dicha condición el alumno que cumpla con al menos un 75% de asistencia (tanto a clases como a exámenes) y posea una nota promedio igual o mayor a 7.

Unidad I – El papel de la estadística y descripción de los conjuntos de datos Rol de la estadística. Preguntas y datos. Variables, tipos de variables y escalas de medición. Incertidumbre y sus causas. Población, muestra y unidad experimental (muestral). Tamaño de la muestra. Parámetros y estadísticos. Diseño de estudios (muestreo), estadística descriptiva y estadística inferencial. Error de muestreo. Sesgo de muestreo. Distribución de frecuencias. Frecuencias absolutas y relativas. Frecuencias acumuladas crecientes y decrecientes. Tablas de frecuencia y de contingencia. Histograma. Ojiva. Datos de corte transversal y datos de serie de tiempo. Mapas conceptuales. Aplicaciones informáticas. Duración tentativa del dictado de la unidad: 1 semana Bibliografía obligatoria de la Unidad: Webster A. L. (2000) Estadística aplicada a los negocios y la economía. 3era edición. Ed. Irwin McGrawHill. Capítulos 1 y 2. Bibliografía complementaria de la Unidad: Anderson D. R., Sweeney D. J. y Williams T. A. (2011) Estadística para administración y economía. 11a edición. Ed. Cengage Learning. Capítulos 1 y 2.

Unidad II – Medidas de tendencia central, de dispersión, de asimetría y de curtosis Media, mediana, moda. Cuantil, cuartil, decil, percentil. Diagrama de caja y bigotes. Amplitud intercuartilar. Rango. Desvío Estándar y Varianza. Coeficiente de variación. Asimetría y curtosis. Aplicaciones informáticas. Duración tentativa del dictado de la unidad : 2 semanas

Guía de Trabajos Prácticos de “Estadística I” Bibliografía obligatoria de la Unidad: Anderson D. R., Sweeney D. J. y Williams T. A. (2011) Estadística para administración y economía. 11a edición. Ed. Cengage Learning. Capítulo 3. Webster, A. L. (2000) Estadística aplicada a los negocios y la economía. 3era edición. Ed. Irwin McGraw-Hill. Capítulo 3. Bibliografía complementaria de la Unidad:

Unidad III – Principios de probabilidad y experimentos Tablas de contingencia y Tablas de probabilidad. Definición y modelo clásico. Frecuencia relativa y probabilidad. Probabilidad marginal, conjunta y condicional. Uniones, intersecciones y relaciones entre eventos. Eventos complementarios. Eventos independientes. Experimentos aleatorios. Variable aleatoria. Experimentos mensurativos y manipulativos. Experimento, muestreo y espacio muestral. Adición y multiplicación de probabilidades. Combinaciones y permutaciones. Teorema de Bayes. Aplicaciones informáticas. Duración tentativa del dictado de la unidad : 2 semanas Bibliografía obligatoria de la Unidad: Anderson D. R., Sweeney D. J. y Williams T. A. (2011) Estadística para administración y economía. 11a edición. Ed. Cengage Learning. Capítulo 4. Webster, A. L. (2000) Estadística aplicada a los negocios y la economía. 3era edición. Ed. Irwin McGraw-Hill. Capítulo 4. Bibliografía complementaria de la Unidad:

Unidad IV – Distribuciones de probabilidad discretas y continuas Distribuciones discretas y continuas. Probabilidad y densidad de probabilidad. La distribución normal y la regla empírica. Distribución normal estándar. Distribución binomial. Distribución Poisson. Distribución uniforme. Distribución hipergeométrica. Distribución exponencial. Bondad de ajuste. Aplicaciones informáticas. Duración tentativa del dictado de la unidad : 3 semanas Bibliografía obligatoria de la Unidad: Anderson D. R., Sweeney D. J. y Williams T. A. (2011) Estadística para administración y economía. 11a edición. Ed. Cengage Learning. Capítulos 5 y 6.

Guía de Trabajos Prácticos de “Estadística I” Webster, A. L. (2000) Estadística aplicada a los negocios y la economía. 3era edición. Ed. Irwin McGraw-Hill. Capítulo 5. Bibliografía complementaria de la Unidad:

Unidad V – Muestreo y distribuciones por muestreo Valor esperado. Error de muestreo. Error estándar. Teorema central del límite. Propiedades de los estimadores. Estimador insesgado, eficiente, consistente y suficiente. Aplicaciones informáticas. Duración tentativa del dictado de la unidad : 2 semanas Bibliografía obligatoria de la Unidad: Anderson D. R., Sweeney D. J. y Williams T. A. (2011) Estadística para administración y economía. 11a edición. Ed. Cengage Learning. Capítulo 7. Webster, A. L. (2000) Estadística aplicada a los negocios y la economía. 3era edición. Ed. Irwin McGraw-Hill. Capítulo 6. Bibliografía complementaria de la Unidad:

Unidad VI – Estimación por intervalos y tamaño de la muestra Estimación puntual y por intervalos de confianza. Influencia del nivel de confianza y del tamaño muestral. Determinación del tamaño de la muestra. Distribución t Student. Aplicaciones informáticas. Duración tentativa del dictado de la unidad : 2 semanas Bibliografía obligatoria de la Unidad: Anderson D. R., Sweeney D. J. y Williams T. A. (2011) Estadística para administración y economía. 11a edición. Ed. Cengage Learning. Capítulo 8. Webster, A. L. (2000) Estadística aplicada a los negocios y la economía. 3era edición. Ed. Irwin McGraw-Hill. Capítulo 7. Bibliografía complementaria de la Unidad:

Unidad VII – Contraste de hipótesis Hipótesis y predicciones. Inferencia, significancia, confianza, potencia, error de tipo 1, error de tipo 2. Modelos nulos. Valor – p. Efectos del tamaño de la muestra. Comparaciones de medias. Aplicaciones

Guía de Trabajos Prácticos de “Estadística I” informáticas. Duración tentativa del dictado de la unidad : 2 semanas Bibliografía obligatoria de la Unidad: Anderson D. R., Sweeney D. J. y Williams T. A. (2011) Estadística para administración y economía. 11a edición. Ed. Cengage Learning. Capítulo 9. Webster, A. L. (2000) Estadística aplicada a los negocios y la economía. 3era edición. Ed. Irwin McGraw-Hill. Capítulos 8 y 9. Bibliografía complementaria de la Unidad:

Unidad VIII – Correlación y regresión lineal simple Covarianza, coeficiente de correlación de Pearson y coeficiente de determinación. Modelo clásico de regresión lineal simple y sus supuestos. Estimación de los parámetros del modelo por el método de mínimos cuadrados ordinarios. Ecuación de regresión estimada. Predicción media de la variable dependiente. Cuadrado medio del error como estimador insesgado de la varianza residual y medida de bondad de ajuste. Error estándar de los estimadores. Estimación puntual, por intervalos de confianza, por intervalos de predicción. Evaluación de los supuestos. Gráfico cuantil-cuantil, test de KolmogorovSmirnov (y modificación Lilliefors), Test de Shapiro-Wilk. Regresión y causalidad. Aplicaciones informáticas. Duración tentativa del dictado de la unidad : 2 semanas Bibliografía obligatoria de la Unidad: Anderson D. R., Sweeney D. J. y Williams T. A. (2011) Estadística para administración y economía. 11a edición. Ed. Cengage Learning.. Capítulos 3.5 y 14. Webster, A. L. (2000) Estadística aplicada a los negocios y la economía. 3era edición. Ed. Irwin McGraw-Hill. Capítulo 11. Bibliografía complementaria de la Unidad:

EXAMEN INTEGRADOR

Guía de Trabajos Prácticos de “Estadística I”

Instructivo de Instalación R-commander Aquellos con Windows (Debe estar conectado a internet en todo el proceso de instalación) •

Apretan el botón “Download R 2.15.0 for Windows” en la siguiente página web http://cran.r-project.org/bin/windows/base/



Una vez descargado ejecute el archivo “R 2.15.0” y complete la instalación de R.



En el proceso de instalación elija generar un enlace de acceso directo desde el escritorio.



En este punto se ha completado la instalación de “R” ahora debemos proceder con la instalación de “R-Comander”



Abrir “R” utilizando el ícono del escritorio.



Ir a la opción de “paquetes”--> “instalar paquetes”.



Primero le pedirá que elija un CRAN mirror. Seleccione “Argentina (La Plata)”



Luego, se abrira una nueva ventana con una lista. Buscar y hacer doble click sobre “Rcmdr”.



El programa comenzará la instalación automaticamente.



Tipear en la interface de “R” la instrucción “library(Rcmdr)”. Automáticamente se ejecutará el programa. (en caso de que sean necesarios paquetes adicionales el mismo programa le preguntará si quiere instalarlos. Acceda a la instalación de todos ellos)



Seguir instrucciones del manual.

Aquellos con Linux – Ubuntu •

Click en el centro de sofwtare de ubuntu (ícono disponible en la barra de tareas).



Arriba a la derecha de la pantalla que se abre hay un sector de búsqueda, introducir palabra “R cran”.



Aparecerá “R Commander” como resultado de la búsqueda, apretar “instalar”.

Guía de Trabajos Prácticos de “Estadística I” •

El programa ya está instalado, desde aplicaciones ya pueden “correrlo”.



La primera vez que lo “corran” les dirá que faltan paquetes y si desean instalarlos, digan que “sí”, luego aparece otra pantalla a la que deben simplemente apretar “ok” y luego les pide que elijan un lugar de donde instalar los paquetes, elijan el que quieran y sigan. Tengan paciencia, la instalación lleva una hora.



Instructivo de R-commander ####¿Cómo comenzar a usarlo?###### ###a partir de la ventana de R### ################################# #Instalamos el paquete estadístico Rcmdr. #Escribimos la sentencia: library(Rcmdr) #y se abre la ventana de R commander.

########################### ###¿Cómo importar datos?### ########################### #Importar datos. La forma de ingresarlos va a depender del formato en el que tengamos guardado nuestros datos. Las opciones más simples son en .txt o en planilla de cálculo. #Ejemplo: Si tenemos los datos guardados en .txt. Vamos a la solapa Datos, a la opción Importar datos, y seleccionamos desde archivos de texto, portapapeles o URL...

Guía de Trabajos Prácticos de “Estadística I” #Podemos escribir el nombre del conjunto de datos, cómo se indican los datos ausentes, cuál es el caracter decimal, etc. #Ingresamos el archivo del cual extraemos los datos. #Una vez que está activo figura en la región superior de la ventana de Rcommander, el nombre del conjunto de datos en azul. #Podemos visualizar el conjunto de datos, clickeando en el botoncito que dice "visualizar conj. de datos".

######################## ###Medidas de resumen### ########################

#Para obtener distintas medidas de resumen del conjunto de datos. Vamos a Estadísticos, y después tenemos varias opciones:

#La primera es Resúmenes: #Conjunto de datos activo: dá algunas medidas descriptivas de las variables que están en el archivo, como por ejemplo cuartiles, mediana, media, desvío, etc. #Resúmenes numéricos: lo podemos hacer por cada variable por separado. nos dá una medida de la media. desvio. coeficiente de variación. dá la opción de coeficientes de asimetria, cuantiles.

#También podemos hacer tablas de contingencia.

Guía de Trabajos Prácticos de “Estadística I”

############## ###Gráficos### ############## #En la solapa Gráfica hay varias opciones para realizar distintos gráficos, como por ejemplo: #Histogramas: nos permite elegir el número de clases y si queremos las frecuencias relativas, absolutas, etc. #Diagrama de cajas (Gráfico de caja y bigotes).

#Una vez que hicimos el gráfico desde Rcommander, vamos hasta la ventana de R y hacemos enter para que visualizarlo. ################################################### ###Intervalos de confianza y prueba de hipótesis### ################################################### #Si queremos calcular los intervalos de confianza para la media vamos a: Estadísticos, seleccionamos la opción Medias, Test de t para una muestra, Selecionamos la variable que queremos analizar, y cuál es la hipótesis que queremos testear. En la salida vamos a tener los intervalos de confianza, #los grados de libertad, el valor p, el estimado, etc.

Guía de Trabajos Prácticos de “Estadística I”

Unidad 1 El papel de la estadística y descripción de los conjuntos de datos 1) Tómese un momento para pensar y responda las siguientes preguntas en 5 renglones cada una. ¿Qué es la estadística? ¿Para qué le será útil en su carrera o posición laboral? 2) Dentro de un colegio se relevarán los siguientes datos sobre los estudiantes A) Color de pelo. B) Cantidad de lapiceras. C) Nivel de estudios alcanzado por sus padres. D) Calificación promedio. E) Cantidad de alumnos repitentes. F) Altura de los estudiantes G) Barrio de procedencia. H) Nacionalidad. ¿De qué tipo de variables se trata? 3) Clasifique las variable e identifique la unidad experimental y la población: A) Cantidad de lapiceras vendidas por mes en la librería de Antonio. B) Edad de los alumnos de “Estadística 1”. C) Distancia recorrida por cada ruta Argentina. D) Cantidad de autos que ingresan a la ciudad con motivos vacacionales por semana. E) Cantidad de camas de la reserva hotelera ocupadas en el día. F) Valor de las ventas de chocolate de cada chocolatería de la ciudad en temporada de invierno. G) Cantidad de hijos por grupo familiar en San Carlos de Bariloche. H) Cantidad de hijos promedio por grupo familiar en las distintas ciudades de la Argentina 4) En cada caso determine la variable a estudiar, la unidad experimental y la población de interés. A) La oficina de turismo desea conocer el nivel adquisitivo de los turistas que vienen a Bariloche en la temporada de invierno. B) Investigadores de la UNRN desean conocer el impacto de la ceniza volcánica sobre las ventas de las micro y pequeñas empresas. C) El Mincyt desea conocer la nacionalidad de los beneficiarios de un programa de becas financiado por la OEI. D) Desde la oficina de alumnos de la UNRN se desea conocer la edad de los estudiantes de la universidad. E) Una consultora política desea conocer las inclinaciones o simpatías políticas de las madres de alumnos que asisten al colegio Capraro. F) La oficina de turismo desea conocer los gustos culinarios de los turistas de nacionalidad brasilera que visitan Bariloche. G) La gerencia de un hotel desea conocer la satisfacción que genera a los clientes el ofrecimiento de artículos de baño de categoría. 5) En la empresa Sanito SA se producen artículos de baño para hoteles y albergues de distinto tipo. Para reducir sus costos. Sanito busca proveer envases lo más pequeños posibles pero que permitan un satisfactorio aseo del cliente. Sin embargo el gerente de la planta comienza a sospechar que algo esta fallando y los envases están siendo enviados con menos contenido del indicado. Esto podría

Guía de Trabajos Prácticos de “Estadística I” representar un grave problema para la empresa deviniendo en una perdida irrecuperable de importantes clientes. Un empleado sugiere entonces realizar una muestra de los envases antes de enviarlos. A) ¿Qué tipo de muestreo se necesita? ¿Cómo lo llevaría adelante? B) Sin embargo otro empleado sugiere que es posible revisar la totalidad de los envases sin incurrir en una perdida de tiempo significativa, con lo que se podría reducir mucho el error muestral (también conocido como error por muestreo). ¿Qué opina? ¿Está en lo cierto este empleado? C) Describa en sus propias palabras la diferencia entre población y muestra; y entre parámetro y estadístico. Reflexione: Si lo que realmente nos interesa es la población y sus parámetros ¿Por qué generalmente utilizamos muestras y estadísticos? D) ¿En que podría ayudar la estadística descriptiva al gerente de Sanito y en que la estadística inferencial? 6) Redacte en no más de 10 renglones una situación (como la presentada en el ejercicio anterior) vinculada a su ámbito profesional en la que podrían utilizarse herramientas de la estadística descriptiva e inferencial. ¿Cómo ayudarían estas herramientas a una mejor resolución del problema? 7) El dueño de un Hotel, está pensando en ofrecer a sus huéspedes una actividad de Treking guiada en el cerro López. Sin embargo, antes de ofrecer el servicio quiere estar seguro de que sus clientes van a estar dispuestos a pagar suficiente dinero como para cubrir los costos en los que incurrirá. Es por ello que ha decidido llevar adelante una muestra de la cantidad de dinero que están dispuestos a pagar sus huéspedes por dicha actividad. Aprovechará que todas las tardes el hotel organiza una actividad de “canopy” en la que él participa para preguntarle a algunos de los huéspedes presentes cuanto pagarían. A) Defina la variable que estará observando el gerente. ¿Cuál es la unidad experimental, la muestra y la población? B) Uno de los empleados del hotel cree que la muestra que plantea el dueño no es adecuada ya que se trata de una muestra sesgada. ¿Qué quiere decir? ¿Qué opina? C) Habiendo reflexionado sobre la opinión de su empleado el dueño desiste de realizar la muestra como había planeado y piensa que es una mejor idea dejar un formulario en recepción para que lo llene el que quiera, de esta manera se garantiza la aleatoriedad de la muestra a la vez, que se evita molestar al huésped con preguntas indeseadas. ¿Qué opina? 8) El chocolate en sus distintos tipos es uno de los productos más solicitados por los turistas ya sea como “souvenir” de su viaje o para consumirlo durante el mismo. Desde la cámara de comercio de Bariloche se ha consultado a los turistas acerca de sus preferencias a la hora de comprar chocolate obteniendo el siguiente resultado: Manuka Manuka Franson Manuka Franson El visitante Otros Manuka Manuka Deli Dela Manuka Manuka El visitante Otros El visitante Deli Dela El visitante Deli Dela Franson Manuka Manuka Deli Dela El visitante Deli Dela El visitante Manuka El visitante Otros Franson Otros Manuka Otros Manuka Deli Dela Otros Manuka Manuka Otros Franson Deli Dela Deli Dela El visitante Franson Franson Manuka Franson El visitante Franson El visitante A) Defina la variable observada, unidad experimental, muestra y población de interés B) ¿Usted cree que así presentados los datos pueden ser de utilidad para la toma de decisiones? Utilizando las herramientas brindadas en el curso presente los datos tabular y gráficamente para resumir la información relevada. C) ¿Pueden presentarse estos datos en una tabla de frecuencia por intervalos? ¿Por qué?

Guía de Trabajos Prácticos de “Estadística I” D) ¿ Los resultados de ésta encuesta nos permite afirmar que el 30% de los turistas que vienen a Bariloche realizan sus compras de chocolate en Manuka? E) ¿Que opina de la siguiente afirmación? “La estadística descriptiva abarca a la estadística inferencial, ya que al ordenar y presentar los datos en forma correcta se hace posible ver toda la información que esconden.” 9) Un famoso diario realizó una encuesta en su página web acerca de la nueva política de subsidios del gobierno. Siendo las respuestas posibles “MB” Muy buena, “B” Buena, “M” Mala, “P” Pésima. Y obtuvo los siguientes resultados P B M MB B M B MB M P

B B MB M M M B M MB P

B B MB P B B P P B MB

B B B B P B MB B M M

MB MB B M B P B M MB P

M MB P MB P B M M B P

A) Organice los resultados tanto tabular como gráficamente del modo que considere más pertinente para su lectura Sin embargo otro periódico, de postura claramente antagónica, al del primero realizó la misma encuesta una semana más tarde obteniendo el siguiente resultado Frecuencia absoluta

Opinión Muy Buena Buena Mala Pésima

12 14 7 3

B) Compare los resultados, ¿A qué puede deberse la diferencia? C) Sabiendo que el primer diario utilizó la información recolectada para titular una nota como “El fracaso de la política de subsidios” y el segundo la utilizo para titular la nota “Gran apoyo de la población a la nueva política de subsidios. Considera certeras las afirmaciones de ambos diarios. ¿Por que? Utilice sus conocimientos estadísticos para brindar una respuesta. ¿Es correcto que tanto el primero como el segundo diario hablan del fracaso general D) Presente ambos resultados en forma gráfica. ¿Cómo se le ocurre que podría organizarse una muestra pertinente? 10) Desde la oficina de turismo de Bariloche se ha realizado un relevamiento sobre la cantidad de días que la gente hospedada en Hoteles 5 estrellas se queda en la ciudad, obteniéndose los siguientes resultados:

Días 1

Frecuencia 12

Frecuencia Acumulada

Frecuencia Relativa

Frecuencia Relativa Acumulada

Guía de Trabajos Prácticos de “Estadística I” 2 3 4 5 6 7 8 9 10 11 12 13 14 más de 14

16 17 29 42 19 69 43 24 52 11 31 8 62 39

A) Defina la variable observada, unidad experimental y población de interés B) ¿En base a cuantas observaciones se elaboró la muestra? C) Complete el cuadro D) Realice un gráfico de Ojiva e interprete. Observando el gráfico indique ¿que porcentaje de turistas se aloja en la ciudad más de 7 días? Y ¿Que porcentaje se aloja menos de 5? E) Si tuviera que resumir la información relevada en un sólo número ¿Que haría? Se trata de un estadístico o un parámetro? 11) Interprete los siguientes gráficos: *Dinero gastado por clientes en una tienda de souvenirs Tamaño muestral =100 A) ¿Según el gráfico es más comun que la gente gaste entre 150 y 200 pesos o entre 200 y 250? B) De cuanto dinero es aproximadamente la venta más común de la tienda?

**Cantidad de individuos que ingresan a la ciudad de San Carlos de Bariloche con motivos vacacionales por hora Tamaño muestral: 120

Guía de Trabajos Prácticos de “Estadística I” A) ¿Cuanta gente ingreso (aprox) en una hora el 50% de las veces que fue relevado? B)¿Que significan los puntos en la parte superior del gráfico? 12) A continuación se presentan las tasas de crédito hipotecario para una muestra de bancos en una ciudad de Estados Unidos: 7,1%; 7,3%, 7,0%; 7,3%; 6,7%; 6,8%; 6,85%; 7,5%; 6,9%; 6,6% A) ¿Cuál es la población, la muestra y la unidad experimental? B) ¿Cuál es el valor de tasa más común? ¿Cuál es el valor de tasa que supera un 50% de los bancos? C) ¿Qué tan común es encontrar tasas de interés menores a 7%? Conteste utilizando una tabla de frecuencias adecuada. D) ¿Son extrapolables estas tasas para los bancos en Argentina? ¿Por qué? E) Proponga una serie de valores para bancos de Argentina que tengan igual simetría, pero mayor media y mayor dispersión en torno a la media. 13) Reúnase en grupos de no más de 4. Elabore oraciones que vinculen los conceptos abajo listados hasta cubrir todos ellos. No utilice más de dos renglones para cada oración. Luego póngalas en común dentro del grupo y discuta sobre la veracidad o falsedad de las proposiciones. • Población • Muestra • Estadística descriptiva • Estadístico • Sesgo • Parámetro • Unidad experimental • Estadística Inferencial 14) Una famosa revista de viajes realizó una encuesta sobre la cantidad de dinero gastada por turistas que visitan la ciudad de San Carlos de Bariloche. En ella no se hizo discriminación alguna sobre el tipo de turismo que se vino a la ciudad, se considero el gasto por persona por día, obteniéndose los siguientes resultados: 858,39 715,37 846,94 1144,64 722,46 1100,08 943,37 977,23 1246,75 605,76 622,61 511,15 595,89 796,85 91,70 841,10 854,65 943,32 320,13 743,01 909,80 714,53 1131,15 534,80 673,07 917,26 870,97 1018,54 1036,17 705,84 902,67 1120,30 1132,08 1028,79 756,25 696,82 605,10 1100,57 996,79 514,69 946,61 511,53 651,61 836,12 1017,62 800,07 796,60 1095,47 609,34 732,43 850,46 694,38 863,02 889,88 756,74 616,23 729,80 528,31 1267,43 1122,53 995,43 557,35 1290,89 813,10 953,19 699,53 1104,44 497,10 831,10 984,92 1142,25 894,33 854,32 750,56 962,61 378,12 1110,91 615,66 445,79 887,91 631,18 997,11 934,83 810,18 635,35 949,47 575,46 750,07 1281,18 733,41 805,05 609,10 1007,59 669,41 871,16 700,34 786,67 542,14 925,02 735,95 A) B) C) D) E)

Defina la variable observada, unidad experimental y población de interés. ¿Cuál fue el gasto máximo y el mínimo? Realice un cuadro de frecuencia con intervalos de una amplitud de 2.000$. Realice un histograma e interprete en términos del problema. ¿Qué parámetros podrían ser de interés? ¿Qué estadísticos podría utilizar para estimar esos parámetros?

Guía de Trabajos Prácticos de “Estadística I” F) La revista sabe que sus lectores son turistas de alto poder adquisitivo, por lo que ha realizado nuevamente la encuesta pero sólo a huéspedes de hoteles de 4 o más estrellas. ¿Representa lo anterior un sesgo en la muestra dado el interés de la revista? 15) La cartera de un importante inversor local está compuesta por las siguientes acciones que en el día de ayer registraron el siguiente comportamiento. El interés del inversor está en cuanto varió el valor de su acción respecto al día anterior.

Empresa ALTO PALERMO BBVA BCO FRANCES BANCO MACRO CRESUD EDENOR G. FINAN. GALICIA IRSA NORTEL INVERSORA PAMPA ENERGIA PETROBRAS ENERGIA TELECOM TBA TENARIS TERNIUM

Variación Porcentua l 0.12 0.06 -0,04 -0,08 0,03 0,06 -0,12 0,11 0,07 -0,06 0,05 -0,17 0,09 0,01

¿estaríamos frente a un estimador o un parámetro?

A) ¿Ud opina que así expuesto el inversor puede tener una visión clara y rápida sobre el resultado de sus acciones? B) ¿Cuál es la unidad experimental? ¿Cuál la muestra y cual la población? C) Organice intervalos de frecuencia de 5% de amplitud. D) Confeccione un histograma. Reflexione sobre su forma y obtenga conclusiones sobre el posible resultado de la jornada de ayer. E) ¿Que parámetro estará interesado en estimar el inversor? F) Suponiendo que el cliente tiene comprometida la misma cantidad de dinero en cada una de las empresas ¿Cómo podríamos conocer el resultado global de ayer para la cartera del cliente? Siendo que al empresario le interesan sólo los resultados de ayer,

Guía de Trabajos Prácticos de “Estadística I”

Unidad 2: Medidas de tendencia central, de dispersión, de asimetría y curtosis. 1) Una empresa de RRHH, RecTech SA, debe seleccionar a un grupo de 20 jóvenes para que se desempeñen en actividades de promoción durante el transcurso de un reconocido congreso. Es importante que el grupo seleccionado cumpla ciertas condiciones para brindar la imagen desada por las marcas promocionadas. A continuación las edades del grupo pre-seleccionado 24 24

20 21

18 23

26 22

23 28

25 22

18 23

20 18

19 24

20 22

A) ¿Cual es la variable observada? ¿De que tipo de variable se trata? ¿Y la unidad experimental? B) RecTech SA considera que el grupo seleccionado sería apropiado siempre que su media sea igual a 22 años y su desvío estándar inferior a 3 años. Compruebe si el grupo pre seleccionado alcanza las expectativas. C) ¿Qué sucedería si en lugar del desvío estándar RecTech SA decidiera utilizar el alcance o rango como medida de dispersión y estableciera que este debe ser inferior a 6? D) Una nueva condición se ha impuesto al grupo selecto y es que el coeficiente de asimetría de Pearson sea positivo. Verifique e interprete la condición. ¿Por qué imagina que se impuso esta condición? 2) Usted maneja la cartera de un acaudalado millonario. Es su labor elaborar informes semanales sobre la cotización de sus acciones. Para ello ud toma registro del valor de las mismas en 4 momentos del día, cuando abre la bolsa (8am), a las 12am, a las 16am y finalmente cuando cierra a las 18am. Observando los siguientes datos registrados durante la semana para dos de las acciones que forman parte de la cartera de su cliente: Hora

8 12 16 18

BBVA Banco Francés

182,04 185,23 186,41 184,22 Lunes Martes

184,22 183,67 182,13 181,14

Petrobras Energía

181,14 180,66 186,23 172,83 172,64 176,22 177,04 181,34 179,44 183,87 185,74 173,16 174,24 177,82 178,26 179,03 180,22 185,02 184,52 174,43 175,32 176,45 180,03 182,46 180,66 186,23 184,98 172,64 176,22 177,04 181,34 182,01 Miércoles Jueves Viernes Lunes Martes Miércoles Jueves Viernes

A) ¿Cual es la variable que se esta observando? B) Calcule una medida de tendencia central relevante para cada día y para la semana completa. C) Realice un gráfico que muestre el comportamiento de cada acción a lo largo de los días y que resalte la importancia del dato a la hora de cierre. D) ¿Observando el gráfico puede darse una idea de cuan disperso fue el comportamiento de la variable durante cada día? E) A un compañero suyo se le ocurre que una buena medida de la dispersión de la cotización de BBVA Banco Frances sería la suma de las desviaciones de los datos respecto a la media semanal ¿Cuál es el problema con la medida sugerida por su compañero? ¿Que arreglo podría hacérsele? 3) Una calificadora de riesgo se dedica a puntuar el riesgo asociado a la deuda de distintas empresas. Así califica con un 4 a aquellas que son muy seguras y con un 1 a aquellas empresas que implican el mayor riesgo a la hora de tomar deuda. En el siguiente cuadro puede encontrar la clasificación de 30

Guía de Trabajos Prácticos de “Estadística I” empresas, a su vez divididas entre aquellas de capital público y aquellas de capital privado.

Pirvado/Público Privado Privado Público Privado Público Privado Privado Privado Privado Privado

Clasificación Pirvado/Público 2 Público 3 Público 3 Privado 4 Público 3 Privado 4 Público 2 Privado 3 Privado 4 Público 1 Público

Clasificación Pirvado/Público 2 Privado 3 Público 4 Privado 4 Privado 3 Público 4 Privado 2 Público 3 Privado 4 Privado 4 Público

Clasificación 2 3 2 4 4 4 3 2 4 3

A) Confeccione una tabla de contingencia para cada una de ellas y comparelas. B) Halle 3 medidas de tendencia central para cada tipo de entidad y compare los resultados. C) ¿Cual es la dispesión que presenta cada serie de datos en términos de desvío estándar y de rango inter-cuartílico? Calcule a su vez la distancia entre el percentil 10 y el 90. D) ¿Las medidas calculadas en el ejercicio anterior son parámetros poblacionales? E) ¿Cuan asimétricos son los resultados para entidades públicas? Calcule algún estadístico que le permita reflejar el grado de asimetría y compárelos. F) ¿Podemos concluir de estos datos que las empresas públicas son más confiables a la hora de tomar deuda que las privadas? 4) En 15 países industrializados se evaluó el porcentaje de desocupados, dando los siguientes valores: 5,4%; 4,2%; 4,7%; 5,5%; 3,2%; 4,6%; 5,5%; 6,9%; 6,7%; 3,7%; 4,7%; 6,8%; 6,2%; 3,6% y 4,8%. A) ¿Cuál es la población, la muestra y la unidad experimental? B) Realice un gráfico o tabla que describa la tendencia central y de dispersión de los datos. C) ¿Son extrapolables estos valores a países no industrializados? Justifique utilizando conceptos del curso. D) Expanda el gráfico o tabla del ítem b) para incluir un segundo grupo de países (por ejemplo los países no industrializados). Suponga para este nuevo grupo una menor media pero una mayor variabilidad en torno a la media. 5) Reúnase en grupos de no más de 4. Individualmente elabore oraciones que vinculen los conceptos abajo listados hasta cubrir todos ellos. No utilice más de dos renglones para cada oración. Luego póngalas en común dentro del grupo y discuta sobre la veracidad o falsedad de las proposiciones. • Medidas de dispersión • Media • Desvío Estandar • Medidas de tendencia central • Coeficiente de Variación • Moda • Cuantiles • Asimetría • Varianza • Medidas de posición

Guía de Trabajos Prácticos de “Estadística I” •

Percentiles

6) Interprete los siguientes gráficos: Muestra de 28 casas vendidas entre el 15 de febrero y el 30 de Abril de 1993 en varias ciudades de E.E.U.U. “precio”: precio de los hogares medido en cientos de USD de 1993 “tam”: tamaño de los hogares medido en pies cuadrados de espacio habitable A)¿Que nos muestra el gráfico? B) ¿Existe alguna tendencia?

# Los datos pertenecen a los registros del consejo de agentes inmobiliarios de Albuquerque, E.E.U.U. Pueden ser encontrados en: http://lib.stat.cmu.edu/DASL/Datafiles/homedat.html

Muestra de 34 paises pertenecientes a la OECD consumo = Es el consumo per capita valuado en USD a precios constantes. desarr = Es el nivel de desarrollo del país. A) ¿Que nos muestra el gráfico? B) Compare los niveles de consumo en relación al nivel de desarrollo de cada pais. C) La observación n°20 pertenece a “Luxemburgo” ¿que puede decir de dicho país en base al gráfico? #Los datos pertenecen a la OECD y al año 2006. (http://stats.oecd.org/Index.aspx?DataSetCode=MON20123_2)

7) La “Guía Oleo” realiza un ranking constante de los servicios y precios que ofertan los distintos restaurantes en la zona de Gran Buenos Aires. A continuación el precio aproximado de una cena en una selección de restaurantes dentro del barrio urbano de Almagro Restaurant Lucuma Tipo Casa El Faro de Vigo El Farol Del Caribe La Esmeralda

Precio 89 71 81 85 96 97

Calidad Excelente Excelente Excelente Excelente Excelente Excelente

Guía de Trabajos Prácticos de “Estadística I” Tuy Salceda Aromi Bohemia Albamater Kyanna La oriental Baco Don Bosco Mangiare

97 73 73 73 70 70 71 72 69

Muy buena Muy buena Muy buena Muy buena Muy buena Muy buena Muy buena Muy buena Muy buena

Gogy * www.guiaoleo.com.ar

68

Muy buena

A) ¿Cuál es la población, la muestra y la unidad experimental? ¿Que variables se estan registrando? ¿De que tipo son? B) Confeccione una tabla de contingencia que relacione el precio de los restaurantes por un lado y la calidad de su servicio por el otro. A simple viste, ¿puede ver alguna tendencia? C) Ud desea comparar los precios entre restaurantes “Excelentes” y “Muy Buenos” para ello quiere comparar alrededor de cuanto cobra cada uno y con cuanta dispersión respecto a ese centro. ¿Que medidas utilizaría? Calcúlelas y llegue a una conclusión respecto a los 16 restaurantes relevados. D) ¿Qué puede decir sobre la simetría de los precios de los restaurantes relevados? Calcule alguna medida de simetría e interprete su resultado. 8) Desde un reconocido banco se lleva registro de la cantidad de dinero que sus clientes cargan mensualmente en la tarjeta de crédito. A los fines del banco es importante que sus clientes carguen sus compras en sus tarjetas ya que de allí recibe sus beneficios mediante el cobro de servicios de deuda. Pero tampoco es deseable que todos sus clientes se excedan en los cargos ya que se corre un riesgo de insolvencia. A continuación una muestra de 80 clientes con una línea de crédito de hasta 6.000$

6000 5832 6000 4804 0 5071 5690 6000 6000 6000

1722 1509 1406 1394 1193 1147 1074 937 604 0

5580 6000 6000 6000 5451 5388 5306 5165 4944 4912

5549 5025 4559 6000 6000 4894 4885 4805 4234 4218

2554 2527 2502 2472 2268 2242 2231 2116 1951 1794

4207 4108 4044 4030 3977 3967 3833 3765 3698 3695

3676 3665 3646 3557 3481 3343 3299 3295 3290 3287

3285 3191 3136 2990 2981 2906 2903 2716 2657 2633

A) ¿Cual es la variable, la población y la unidad experimental que se esta estudiando? B) El Banco considera que sería preocupante si más del 20% de los clientes consultados superan los 5.000$ en los cargos de su tarjeta. Verifíquelo utilizando conceptos del curso. C) A su vez considera que si más del 40% está cargando menos de 3.000$ a la tarjeta, sus rendimientos futuros serán malos. Verifíquelo utilizando conceptos del curso. D) Calcule al menos dos medidas de tendencia central y compárelas entre sí, señalando las diferencias en los usos de una y otra.

Guía de Trabajos Prácticos de “Estadística I” E) Calcule el rango, la amplitud intercuartílica, y el desvío estándar. Interprete cada una de las medidas. ¿Para que considera que sirve cada una de estas medidas en terminos del problema? 9) Desde la consultora económica en la que ud trabaja se realizan informes semanales sobre la cotización del dólar. La idea es presentar a sus clientes un panorama claro de las fluctuaciones de la moneda. Para ello registran la cotización del mismo 8 veces a lo largo del día. Registro

Lunes

Martes

Miercoles

Jueves

Viernes

1 2 3 4 5 6 7

3,3456 3,3502 3,3432 3,3415 3,3332 3,3423 3,3416

3,3487 3,3465 3,3389 3,3364 3,3326 3,3398 3,3457

3,3498 3,3578 3,3582 3,3591 3,3601 3,3615 3,3652

3,3679 3,3702 3,3747 3,3764 3,3782 3,3790 3,3786

3,3796 3,3803 3,3809 3,3840 3,3205 3,3403 3,3398

8

3,3487

3,3498

3,3679

3,3796

3,3456

A) ¿Cual es la variable de interés? Reflexione ¿Cual es la unidad muestral? ¿Y la población? ¿Es abarcable la población? B) Elabore un gráfico que permita reflejar las fluctuaciones del mismo durante el día y resaltar su cotización al final del día. C) Calcule los percentiles 25, 50 y75 para cada día. ¿Son estos siempre idénticos a los registros 2, 4 y 6 respectivamente? ¿De que otra forma llamamos a estos percentiles? Confeccione un gráfico de caja y bigote e interpretelo. ¿Que ventajas presenta éste grágico frente a un histograma? D) Obviando el día viernes ¿que comportamiento venía teniendo el dólar? Reflexión económica: ¿Qué pudo haber sucedido entre el registro 4 y el 5 del día viernes? 10) A continuación se presentan las tasas de rendimiento (en porcentaje) de dos acciones para cada uno de 10 meses seleccionados al azar: Acción 1: 5,6

7,2

6,3

6,3

7,1

8,2

7,9

5,3

6,2

6,2

Acción 2: 7,5

3,9

6,2

9,3

2,8

10,2

8,1

11,7

9,9

5,3

A) Identifique la población, la muestra y la unidad muestral. ¿Cuál es el tamaño de la muestra? B) Explique brevemente en que consiste la inferencia estadística para este problema. C) ¿Cuál acción recomendaría para los clientes que están interesados en un rendimiento alto? Justifique brevemente. D) ¿Cuál acción recomendaría para los clientes que prefieren menos riesgo? Justifique brevemente. E) Estime el coeficiente de asimetría de Pearson, indique sus unidades e interpre en términos del problema. 11) La empresa multinacional Adventur SA, se dedica al desarrollo de turismo de aventura en destinos de primer nivel internacional. Esta evaluando asentarse en la Patagonia Argentina pero antes de comprometer su capital decide realizar un estudio sobre los 4 destinos principales (Bariloche, San Martin de los Andes, Esquel y Usuahia). El objetivo del mismo es comprobar que dichos destinos tienen un flujo turístico suficiente a lo largo del año y comparar dentro de las 4 posibilidades cual es la que presenta la menor variabilidad. Ya que como en toda inversión no sólo se esperan picos de ingreso

Guía de Trabajos Prácticos de “Estadística I” sino también cierta regularidad.

Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov

Bariloche 25.000 18.000 10.000 7.000 6.000 19.000 30.000 24.000 19.000 10.000 9.000

San Martín 20.000 18.000 12.000 4.000 3.000 14.000 22.000 16.000 12.000 5.000 4.000

Esquel 20.000 18.000 15.000 12.000 10.000 14.000 19.000 17.000 14.000 11.000 10.000

Ushuaia 12.000 11.500 10.000 8.000 9.000 14.000 16.000 15.000 12.000 8.000 9.000

Dic

14.000

8.000

14.000

13.000

A) Defina la variable observada, unidad experimental y población de interés B) La empresa considera aceptable para la realización de la inversión una media mayor a 13.000 personas mensuales y con un desvío estándar menor a 8.000. Verifique que destinos cumplen con los requisitos mínimos de la empresa C) Realice un histograma y combínelo con un uno de caja y bigote para cada uno de los posibles destinos. D) Calcule el coeficiente de Pearson para cada destino e interpretelo E) Finalmente para decidirse entre los posibles candidatos Adventur SA decide optar por aquel destino que presente menor dispersión relativa. ¿Puede indicarle de cual se trata? F) Sin embargo, un nuevo gerente llega a la empresa y plantea revisar el estudio. Plantea que en la muestras existen valores extremos pertenecientes a las temporadas bajas que deberían ser desestimados. Plantea realizar nuevamente el estudio excluyendo Abr, May, Oct y Nov, y ser más exigente respecto al desvío estándar, exigiendo menos de 4.000. ¿Modifica esto los resultados?

Guía de Trabajos Prácticos de “Estadística I”

Unidad 3: Principios de probabilidad y experimentos 1) Ud es gerente general en una importante empresa dedicada a la comercialización de productos electrónicos. Con el fin de mantener una política de stock razonable ud desea saber aproximadamente cuantos televisores plasma se venden por día y actuar en consecuencia. La siguiente tabla de frecuencias absolutas muestra el número de Televisores Plasma vendidos por día a lo largo de los últimos 300 días. Cantidad de plasmas vendidos 0 1 2 3 4

Frecuencia 45 93 81 58 23

*Primer renglón: “Hubo 45 días en los que no se vendió ningún plasma”. Segundo renglón: “Hubo 93 días en los que se vendió 1 plasma”.

A) Defina la variable observada, unidad experimental y población de interés B) Calcule las frecuencias relativas y las respectivas frecuencias acumuladas crecientes. Realice un gráfico de ojiva. C) En base a las frecuencias relativas acontecidas puede dar una estimación de la probabilidad de que hoy se vendan: i) Exactamente dos plasmas. ii) Más de tres. iii) Al menos uno. iv) Menos de 3 D) ¿Cuantos televisores se vendieron en promedio? Y ¿Que cantidad de televisores se vendió con mayor frecuencia? Calcule la mediana de la muestra tomada y explique las diferencias entre estas 3 medidas de tendencia central. E) Como gerente general ha decidido mantener sólo 3 plasmas en stock. ¿Cual es la probabilidad de que no pueda satisfacer la demanda un día al azar? ¿Y de que le sobren dos o más sin vender? 2) Como gerente de “Il Pratto Restaurantes” usted está especialmente preocupado por las críticas que recibe su restaurante. Es por eso que lleva un pequeño registro de las mismas en base a las críticas semanales que organiza la guía Oleo. Se sabe que cada crítica semanal es independiente de las anteriores. En 8 de las semanas relevadas la crítica fue “Muy Buena”, 12 fue “Buena”, 6 fue “Regular” y en sólo 1 ocasión la crítica fue “Mala”. A) Defina la variable observada, unidad experimental y población de interés B) Confeccione un cuadro de frecuencias absolutas y relativas. C) Con base en las frecuencias relativas ¿Cuál es la probabilidad de que esta semana la crítica sea: • Muy Buena • Mala • Al menos Buena D) Sin embargo un empleado del Restaurant asegura que no hay motivos para preocuparse por la crítica de esta semana ya que las críticas de las últimas 3 semanas fueron “Regular” por lo que las probabilidades indican que esta semana la crítica debe mejorar. ¿Que opinión le merece el

Guía de Trabajos Prácticos de “Estadística I” comentario del empleado? 3) Un reconocido supermercado llevó adelante un estudio sobre las características de los individuos encontrados tratando de robar algún elemento del supermercado. Desde la empresa existe la política de brindar una primera advertencia y ante el caso de reincidencia involucrar a las correspondientes autoridades policiales. Existe la sospecha de que la edad influye sobre estas actividades de hurto. Por lo cual prepararon el siguiente informe de los hurtos registrados el año pasado.

Cantidad de hurtos 1 2 3

Menor de edad 69 78 48

Mayor de edad 123 38 2

*Se contabiliza al infractor según la totalidad de hurtos que realizó únicamente. Aquel que cometió más de 2 no se contabiliza dentro de 1 o 2.

A) ¿Que tamaño tiene el espacio muestral? Presentelo mediante un diagrama de árbol ¿Cuantas variables se registraron? ¿De que tipo? Defina la población y la unidad experimental. B) Elabore una tabla de contingencia con las frecuencias relativas correspondientes C) Presente los datos en forma gráfica de la forma que considere más pertinente. D) Un empleado considera que la muestra tomada por el supermercado esta sesgada dado que no consideró a aquellos individuos que entran en el supermercado y no realizan ningún hurto. ¿Que le diría? E) ¿Cuantos hurtos promedio realizaron los menores de edad? Y ¿con que desvío estándar? F) Otro empleado asegura que la muestra de los mayores de edad presenta mayor asimetría que aquella de los menores de edad. Verifique dicha aseveración gráfica y analíticamente. G) Suponiendo que un infractor es escogido al azar, encuentre i) La probabilidad de que sea Mayor de edad ii) Siendo menor de edad, la probabilidad de que sea su primera infracción. iii) Siendo que es su segunda infracción, la probabilidad de que sea menor de edad iv) La probabilidad de que el infractor sea mayor de edad, o haya cometido más de 2 hurtos en el supermercado. 4) Se realizó un estudio en la ciudad de San Martín de los Andes buscando relacionar el nivel de estudios alcanzado por sus habitantes con la remuneración salarial percibida. Educación

0 - 1500 Primario 16 Secundario 9 Universitario 1

Salario en $ 1500 - 3000 3000 - 4500 4500 - 6000 Más de 6000 7 4 2 0 12 10 6 3 7 12 12 8

A) Identifique las variables relevadas y clasifíquelas. ¿Cual es la población y cual es el tamaño de la muestra? B) ¿Cuantos eventos posibles existen? Obtenga el espacio muestral en base a un diagrama de árbol. C) Calcule las probabilidades marginales y las probabilidades asociadas a la intersección de cada evento. D) En base a la frecuencias relativas calcule la probabilidad de que al escoger un habitante al azar: i) Tenga sólo el primario completo.

Guía de Trabajos Prácticos de “Estadística I” ii) Tenga al menos secundario y cobre más de 4500 $. iii) Siendo que no termino el Universitario cobre más de 6-000 $. E) Indique V o F: “La independencia de dos eventos está asegurada siempre que se asegure la completa aleatoriedad en la recolección de los datos” F) ¿Cual es la moda en el nivel educativo de aquellos con ingresos menores a 1500? y ¿entre aquellos con ingresos entre 3000 y 4500? G) Analice la independencia de las variables estudiadas. 5) El gerente de una joyería está convencido que la forma de vestir de sus clientes es relevante a la hora de determinar cuanto gastan dentro de su negocio. Por ello relevó la siguiente información de 18 clientes tomados al azar.

Forma de vestir Bien vestido Mal vestido Totales

< 100$ 100 - 500 $ 4 6 2 3 6 9

> 500$ 2 1 3

Totales 12 6 18

A) ¿Qué variables observa el prejuicioso joyero? Identifique la unidad experimental. ¿De que tamaño es la muestra? Utilizando un diagrama de árbol obtenga el espacio muestral. B) Realice un gráfico de barras para cada tipo de cliente donde se registre la frecuencia con la que gastan mucha o poca plata. ¿Se mantiene la misma moda entre los dos tipos de clientes? C) Confeccione una tabla de contingencia con las respectivas frecuencias relativas. D) Utilizando las frecuencias relativas como aproximación a las probabilidades de un evento indique cual es la probabilidad de que un cliente: i) Ingrese mal vestido al negocio y compre algo ii) Siendo que esta bien vestido compre por más de 500$ iii) Compre por menos de 100$ E) ¿Existen indicios para sospechar que las dos variables son independientes? ¿Como podemos saberlo en términos de probabilidad? ¿Tiene razón el joyero en su prejuicio?

6) En un videoclub tienen a las películas clasificadas por género y por la crítica que recibieron al momento de su estreno.

Género Excelente Muy Buena Buena Romántica 8 20 11 Acción 6 23 34 Ficción 16 18 14 A) ¿Qué tipo de variable es la crítica? ¿Y el género? Defina la población y unidad experimental. ¿Cuál es el tamaño de la muestra? B) ¿Que crítica es más frecuente entre las películas provistas por el video club? ¿Y considerando sólo aquellas de género romántico? C) Halle la probabilidad de que seleccionando una película al azar se extraiga una: • De Ficción • de Acción o que sea Excelente • Romántica y Muy Buena • que sea al menos Muy Buena • que sea Romántica y Buena o que sea de Acción y Excelente D) Explique en pocas palabras ¿Cuál es la diferencia entre frecuencia absoluta, frecuencia relativa y probabilidad?

Guía de Trabajos Prácticos de “Estadística I” E) ¿Que género tiene mayor posibilidad de proveer una película excelente? F) ¿Son independientes el género de la película de la crítica recibida en términos de probabilidad?

7) Interprete los siguientes gráficos: Muestra de 18.547 personas en Argentina “nivel_ed”: Maximo nivel educativo alcanzado por el entrevistado, siendo 1:Primario incompleto (6%) 2:Primario completo (21%) 3:Secundario incompleto (19%) 4:Secundario completo (23%) 5: Universitario incompleto (15%) 6: Universitario completo (16%)

# Los datos pertenecen al 2004 y fueron extraidos de la base de micro-datos individuales de la EPH del INDEC.( http://www.indec.gov.ar/)

A) ¡Cual es la moda de educación en Argentina en 2004? ¿Y la mediana? B) Tomando las frecuencias relativas como aproximación a la probabilidad de un evento. Calcule a probabilidad de escoger un individuo al azar y... i) tenga el secundario completo ii) tenga al menos el primario completo iii) tenga el primario completo o el secundario completo Muestra de 2438 hogares relevados en la Patagonia “ITF” = Por sus siglas "Ingreso Total Familiar". Incluye ingresos percibidos por el hogar en todo concepto. En $ corrientes A) ¿Que puede decir de la distribución del ingreso en la Patagonia? B) Observando el gráfico indique. Si se calcularan dos medidas de tendencia central, como la media y la mediana, ¿éstas reflejarían de igual manera al conjunto de datos? ¿Cual sería mayor? Explique.

# Los datos pertencen al 4to trimestre de 2010 y fueron obtenidos de: http://www.indec.mecon.ar/principal.asp?id_tema=9556

8) Reúnase en grupos de no más de 4. Individualmente elabore oraciones que vinculen los conceptos abajo listados hasta cubrir todos ellos. No utilice más de dos renglones para cada oración. Luego póngalas en común dentro del grupo y discuta sobre la veracidad o falsedad de las proposiciones.

Guía de Trabajos Prácticos de “Estadística I” • • • • • • • •

Espacio Muestral Probabilidad condicional Eventos independientes Frecuencia relativa Eventos complementarios Combinatoria Tabla de contingencia Independencia

9) Un empresario tiene negocios de ropa de nieve en tres destinos invernales: Bariloche (B), Esquel (E) y Usuahia (U). Siendo que se acerca la temporada desea estudiar las posibilidades de que sus ingresos aumenten con respecto a años anteriores por lo cual decidió revisar los registros de tempoadas pasadas observando en cada caso el nivel de ventas y la ciudad a la que pertenece el local. A) Defina las variables observadas y la unidad experimental Del análisis realizado por su equipo se desprende que la probabilidad de que las ventas aumenten este año en cada uno de sus locales es: P(B)=0,23, P(E)= 0,16 y P(U)=0,12. Suponer que son eventos independientes. B) • • • •

Cual es la probabilidad de que el próximo año: Aumenten las ventas en todos los locales Que no aumenten en ningún lado Aumenten las ventas en Bariloche y Esquel. Aumenten las ventas en Usuahia o en Bariloche • Aumenten en al menos uno de los destinos. • Aumenten en Bariloche y que no aumenten en Esquel. C) Señale la diferencia entre la probabilidad conjunta de dos eventos y la probabilidad condicional de un evento al suceso de otro evento D) Elabore una tabla de contingencia con las probabilidades asociadas a Bariloche y Esquel. 10) Se registró el número de computadoras vendidas diariamente por una tienda minorista a lo largo de 118 días. En 12 días no se vendieron computadoras, en 43 días se observó la venta de una computadora por día, en 18 días se vendieron dos computadoras por día, en 20 días se vendieron tres computadoras por día y en 25 días se observó la venta de cuatro computadoras por día. A) Indique la unidad experimental, la muestra y la población. ¿Qué tipo de variable se midió? B) Describa en no más de cinco renglones el experimento. ¿Es un experimento aleatorio? ¿Es un experimento mensurativo o manipulativo? Justifique. C) ¿Cuál es la moda? Utilice un gráfico para discernir si la distribución del número de computadoras diarias vendidas es simétrica o asimétrica. Justifique. D) Dibuje junto al gráfico del punto c) otra tienda minorista con una moda seis veces más grande, mayor simetría y mayor varianza que la tienda graficada en c). E) Determine la probabilidad de que el número de computadoras que se vendan hoy sea: i) 2 ii) Menos de 3 iii) Más de 1 iv) Por lo menos 1 11) Dentro de la empresa A. A. Lawson & Son, el departamento de RRHH está interesado en estudiar el

Guía de Trabajos Prácticos de “Estadística I” nivel educativo alcanzado por sus empleados en relación con el nivel educativo alcanzado por sus padres. En este sentido construyeron la siguiente tabla de contingencia elaborada en base a 90 empleados de la planta:

 

      Nivel Educativo del Hogar  

Nivel educativo de la persona   D E F Primario Secundario Universitario TOTAL Primario 4 8 5 17 Secundario 14 15     Universitario 1 15   42 TOTAL 7  90  

  A B C

A) Complete la tabla de contingencia con los datos faltantes. B) ¿Cuantas variables están siendo analizadas? ¿Cuáles? ¿De qué tipo de variables se trata? Defina la población, la muestra y la unidad experimental. C) ¿Que sucesos pueden darse? ¿Cual es el tamaño del espacio muestral? D) Calcule las siguientes probabilidades e interprete que es lo que se está calculando: i) P(F) ii) P (C∪F ) iii) P(F/C) iv) P(F/B) E) ¿Existen indicios para sospechar que las variables estudiadas son independientes? ¿Como puede verificarlo a través de la probabilidad? F) Ahora, sabiendo que 53 de las personas encuestadas en la empresa son varones, y suponiendo que el sexo es independiente del nivel educativo alcanzado por la persona. Determine cual es la probabilidad de tomar una de las personas relevadas al azar y que sea una mujer con el universitario completo. Y ¿cual es la probabilidad de tomar un hombre con el universitario completo? ¿Puede concluirse que los hombres de esta empresa tienen más posibilidades de recibirse que las mujeres? 12) La carne de producción nacional tiene esencialmente 3 grandes mercados. Europa (E), Latino América (LA) y el mercado interno (I). A su vez, la carne tiene esencialmente dos calidades Premium (P) y Básica (B). Abajo resumidas las frecuencias relativas que describen las dimensiones y características de cada uno de estos mercados.

Básica Premium Total

Latino Europa América Interno 0,067 0,189 0,27 0,235 0,116 0,123 0,302 0,305 0,393

A) Identifique las variables en juego. B) Realice un diagrama de árbol especificando las probabilidades asociadas al espacio muestral C) ¿Cuál es el principal mercado de exportación para la carne Argentina en general? ¿Y para la carne de calidad Premium? ¿Es equivalente a la moda de cada tipo de carne? C) Calcule las siguientes probabilidades: • P (I)

Guía de Trabajos Prácticos de “Estadística I” • • • •

P ( B∪E) P ( P∩LA) P ( E / P) P ( I /P )

D) Si ud tiene un lote de carne Premium, ¿cual es su destino más probable? E) Si ud tiene un lote que sabe va dirigido al mercado interno, ¿De qué tipo de carne se trata con mayor probabilidad? F) ¿Podemos concluir que la calidad de la carne es indiferente respecto al destino comercial de la misma? ¿Por qué?

Guía de Trabajos Prácticos de “Estadística I”

Unidad 4: Guía 1: Distribuciones de Probabilidad Discretas 1) El gerente de producción de una pequeña fábrica al sur de Buenos Aires cree que un 8% de las heladeras que se fabrican en la planta vienen con defectos. Un importante cliente le ha pedido con urgencia la entrega de 10 heladeras. El pedido es sumamente urgente con lo cual no hay tiempo para producir las heladeras y entregar una heladera con defectos puede significar la pérdida del cliente, por suerte el gerente cuenta con 12 heladeras en su depósito. A) ¿Existe un límite superior al n° de heladeras defectuosas que pueden encontrarse en el depósito? ¿Que eventos pueden tomar lugar? ¿Que distribución de probabilidad le parece adecuada para modelar ésta variable? B) ¿Cual es la probabilidad de que haya 2 con problemas? ¿Es esa la probabilidad que necesita conocer el gerente? Calcule la indicada. C) ¿Cuantas heladeras debería esperar que tengan defectos en el depósito? Y ¿Que desvío debería esperarse respecto a ese valor? D) Interprete el siguiente gráfico en términos del problema. A simple vista, ¿que valores del espacio muestral son sumamente improbables?

Distribución de probabilidad n° de heladeras defectuosas en depósito 0,5

Probabilidad

0,4 0,3 0,2 0,1 0 0

1

2

3

4

5

6

7

8

9

10

11

12

n° de heladeras defectuosas

E) Si el gerente encontrara 6 heladeras con desperfectos, ¿tendría fundamentos para considerarlo una casualidad? 2) El gerente de un café muy frecuentado de la ciudad cuenta con 2 mozos, María y Juan. El gerente sospecha que Juan no sólo es un vago, sino que además trata mal a sus clientes. Por eso decidió llevar adelante un pequeño estudio, que consistió en encuestar aleatoriamente a 20 de sus clientes, registrando por quien había sido atendido y como fue tratado.

M B M

Atendidos por Juan M B M

B

 

B B B

Atendidos por María B M B

M B B

M B M

M

 

B: Atendido Satisfactoriamente M: Atendido insatisfactoriamente

Guía de Trabajos Prácticos de “Estadística I” A) ¿Cuántas variables se están observando? ¿Cuáles son? ¿Cuántos eventos son posibles? ¿Cuál es el tamaño del espacio muestral? B) Elabore una tabla de contingencia con las frecuencias absolutas y relativas. C) Explique por qué las frecuencias relativas son una aproximación a las probabilidades. D) ¿Cual es la probabilidad de que una persona sea atendida insatisfactoriamente? Y, habiendo sido atendida insatisfactoriamente, ¿hay más probabilidades de que haya sido atendida por Juan o por María? Justifique utilizando las probabilidades correspondientes. E) El gerente sabe que 5 clientes muy importantes vendrán al café durante el día y quiere saber cual es la probabilidad de que se atienda mal al menos a 2 de ellos. ¿Como puede calcular esta probabilidad? ¿Existe un límite superior al n° de clientes importantes que pueden ser atendidos insatisfactoriamente? ¿Que valores puede tomar el n° de clientes importantes que pueden ser atendidos insatisfactoriamente? ¿Que distribución de probabilidad le parece adecuada para modelar ésta variable? F) Calcule la probabilidad requerida por el gerente e indique cuantos clientes importantes sería esperable que sean mal atendidos. 3) En una fábrica se ha probado que el 10% de los tornillos producidos por una de sus máquinas son defectuosos. Los tornillos producidos en la fábrica luego son empaquetados de a 20 para la venta al público. Dentro de cada paquete: A) ¿Cuantos tornillos defectuosos esperaría encontrar? Y con que desvío estándar respecto a ese valor? B) ¿Qué eventos pueden suceder? ¿Que modelo de distribución de probabilidad se imagina puede servir para describir las posibles cantidades de tornillos defectuosos? ¿Por qué? ¿Qué condiciones cumple? C) ¿Cuál es la probabilidad de obtener cada una de esas cantidades de tornillos defectosos? D) Presente mediante un gráfico la distribución de probabilidad de la variable. E) ¿Cuál es la probabilidad de que contenga como máximo 3 defectuosas? F) ¿Cual es la probabilidad de que contenga al menos 3 defectuosas?

4) Reúnase en grupos de no más de 4. Individualmente elabore oraciones que vinculen los conceptos abajo listados hasta cubrir todos ellos. No utilice más de dos renglones para cada oración. Luego póngalas en común dentro del grupo y discuta sobre la veracidad o falsedad de las proposiciones. • Distribución de Probabilidad • Variable aleatoria • Binomial • Combinatoria • Poisson • Variable discreta • Experimento • Espacio Muestral 5) El gerente de un negocio de indumentaria deportiva cuenta con 2 vendedores, Esteban y Maxi. Existe la necesidad de llevar adelante una reducción en el personal de la tienda por lo cual el gerente debe decidir con cual de ellos se queda. Para tomar una decisión el gerente tomo una muestra de 20 clientes atendidos por cada vendedor y en cada caso registró la satisfacción de los clientes con la atención brindada y el valor de la venta concretada. B B M B B B B M B B

Atendidos por Esteban M 146,53 341,83 B 161,66 239,07 B 324,02 209,10 B 243,74 246,22 B 236,19 118,03 M 255,72 252,10 B 258,58 77,16 B 208,07 256,37 B 144,51 288,72 B 110,89 271,52

B B B M B B B B B B

Atendidos por Maxi B 228,62 147,42 B 254,34 264,03 B 227,69 271,23 M 291,87 259,60 B 277,50 202,40 B 189,00 175,49 B 280,13 265,46 B 306,04 354,33 B 209,89 166,01 B 213,88 179,54

Guía de Trabajos Prácticos de “Estadística I”

A) ¿Qué variables se están observando? ¿De que tipo de variables se trata en cada caso? Defina la unidad experimental y la población, ¿Cual es la diferencia entre una variable discreta y una continua? B) Dentro de la variable “valor de la venta concretada”, calcule 3 medidas de tendencia central, una de dispersión y una de asimetría, para cada vendedor y comparelos C) ¿Puede modelarse la variable “valor de venta concretada” a través de una distribución binomial? ¿Por que? Si fuera interesante considerar en particular las situaciones donde las ventas superan los 200 pesos sin importar el valor exacto que asumen. ¿Se le ocurre alguna forma de transformar la variable de modo de poder utilizar una distribución de probabilidad binomial para calcular probabilidades? D) Utilizando las frecuencias relativas como aproximación a las probabilidades ¿Cuál es la probabilidad de ser atendido insatisfactoriamente por Esteban y cual por Maxi? E) De 10 personas que ingresan al local ¿Cual es la probabilidad de que si son atendidos por Esteban al menos dos de ellos sean atendidos insatisfactoriamente? ¿Y si son atendidos por Maxi? F) ¿Que modelo de distribución de probabilidad utilizó para responder la anterior pregunta? ¿Que supuestos deben cumplirse? G) En función a los análisis realizados en los puntos anteriores con cual de los trabajadores debe quedarse el gerente? 6) Usted recolectó datos sobre 500 economistas en la academia, la industria privada, y el gobierno respecto a sus opiniones sobre si la economía podría expandirse o podría entrar en un período de contracción en el futuro próximo:

Academia Industria privada Gobierno Total

Expansión Contracción 100 35 54 284

Total 178

A) Identifique la/s variable/s y clasifíquela. Complete la tabla B) ¿Cuál es la probabilidad de que economistas del gobierno sugieran que la economía podría contraerse? ¿Cuál es la probabilidad de que economistas de la industria privada sugieran que la economía podría contraerse? C) ¿Que porcentaje del total de economistas piensa que la economía se expandirá? D) Si usted elije al azar 3 economistas, cuál es la probabilidad de que 2 digan que la economía se contraerá? E) Represente mediante un histograma la distribución de probabilidades para el espacio muestral del punto d). Interprete. 7) El gerente de una prestigiosa escuela de ski quiere conocer la frecuencia con la que ingresan llamadas telefónicas a su escuela para así poder estimar cuanta gente debe contratar para responder los llamados durante la temporada. Con este fin organizó un estudio donde tomando 40 horas al azar dentro del horario de atención registró el número de llamadas que llegaron. A continuación los resultados: 5 7 9 5 17 5 8 3 6 9 6 12

7 2 8 12 7 7 8 11 9 6 7 7

12

8 9

9

8

8 3

9

7

5 5

8

8

7 7 10

A) Identifique el experimento que se está llevando adelante. ¿Se trata de un experimento manipulativo o mensurativo? ¿Cual es la variable? ¿Está definido sobre algún intervalo espacial o temporal? B) ¿Que modelo de distribución de probabilidad se imagina puede servir para describir los posibles resultados de este experimento? ¿Por qué? C) Calcule media, mediana y una medida de asimetría de la muestra e interpretalas en términos del problema

Guía de Trabajos Prácticos de “Estadística I” D) ¿Cuantas llamadas debe esperar el gerente en una hora? Y ¿Que desvío respecto a esa cantidad? E) Calcule la probabilidad de que: i) Lleguen exactamente 8 llamadas en una hora. ii) Lleguen 10 llamadas o más en una hora. iii) Lleguen exactamente 5 llamadas en media hora. D) Interprete el siguiente gráfico en términos del problema

Distribución de Probabilidad 0,1600 0,1400 Probabilidad

0,1200 0,1000 0,0800 0,0600 0,0400 0,0200 0,0000 1

2

3

4

5

6

7

8

9

10 11 12 13 14 15 16 17 18

N° de llamadas por hora

8) Una investigadora del área turismo desea estudiar cual es el efecto del clima en la experiencia de visitantes a la ciudad de San Carlos de Bariloche. Siendo el clima una variable no controlable, de haber indicios sobre una fuerte influencia indicaría que la ciudad debe pensar alternativas para el turista en caso de que no pueda disfrutar de las maravillas naturales al aire libre. Para contrastar su hipótesis el investigador realizó una serie de encuestas a turistas donde relevó información sobre el estado del tiempo en su visita y el grado de satisfacción. A continuación algunos resultados obtenidos.

Estado del Tiempo

Bueno Regular Malo Total

Satisfacción Bien Mal 18 2 17 3 13 7 48 12

Total 20 20 20 60

Guía de Trabajos Prácticos de “Estadística I”

Frecuencia absoluta

20 15 Turistas que tuvieron un buena experiencia

10 5 0 Bueno

Regular

Estado del tiempo

Malo

A) Identifique las variables observadas, la unidad experimental y la población. Señale de que tipo de variable se trata. Interprete el gráfico provisto a la luz del problema planteado. B) Confeccione una nueva tabla de contingencia pero con las frecuencias relativas en lugar de las absolutas. ¿Cual es la diferencia entre una y otra? ¿Para que nos sirven las frecuencias relativas? Señale el espacio muestral. C) Utilizando las frecuencias relativas como aproximación a la probabilidad de un evento señale. Cual es la probabilidad de que encuestando a un turista al azar este halla tenido: i- Buen tiempo ii- Una buena experiencia siendo que tuvo un clima regular. iii- Una buena experiencia y un clima malo D) La investigadora sabe que hoy llegaron a la ciudad 14 turistas y quisiera saber que probabilidad hay de que al menos 10 de ellos tengan una experiencia satisfactoria sin saber como va a estar el tiempo. ¿Que distribución le parece más adecuada para modelar la variable de interés en el contexto del problema planteado? Estime la probabilidad de interés. 9) Los guardaparques dedicados a la preservación del Parque Nacional Los Arrayanes han comprobado que cierto tipo de maleza se presenta a razón de 8 plantas cada 100 metros cuadrados. A los fines de decidir si es necesario establecer un control mas riguroso sobre la expansión de la maleza necesitan conocer las siguientes probabilidades: A) Defina la variable estudiada. ¿Se trata de una variable definida dicotómicamente? B) ¿Qué implica suponer la independencia entre la ocurrencia de un determinado suceso en dos parcelas distintas del parque Nacional? C) ¿Cuál es la probabilidad de que en 50 metros cuadrados se presenten 3 plantas de esta maleza? ¿Y al menos 3 plantas? D) Calcule la esperanza de plantas de maleza en un espacio de 250 metros cuadrados E) Los Guardaparques han estudiado una parcela de 250 metros y encontraron 28 plantas de esta maleza. ¿Cuan probable era que esto suceda siendo la proporción de malezas que ellos manejan? Dado el resultado ¿Cree que es necesario re-estimar dicha proporción? 10) En la producción de un telar se produce en promedio un error cada 5 metros de tela. La tela se corta en piezas de 15 metros. Se desea identificar la cantidad de errores que puede contener cada pieza de tela. A) Identifique el experimento que se lleva adelante. ¿Cual es la variable? ¿Cual es la unidad experimental? B) ¿Que modelo de distribución de probabilidad se imagina puede servir para describir los posibles resultados de este experimento? ¿Por qué? ¿Podría usarse algún otro modelo redefiniendo la naturaleza del experimento?

Guía de Trabajos Prácticos de “Estadística I” C) ¿Cual es la probabilidad de que una pieza de tela tenga más de dos errores? D) ¿Cual es la probabilidad de que no tenga falla alguna? E) ¿Cuál es la probabilidad de que haya al menos 5 errores en dos piezas? F) Calcule cuantos errores serían esperables por pieza y el desvío esperable respecto a esa cantidad.

Guía de Trabajos Prácticos de “Estadística I”

Unidad 4: Guía 2: Distribuciones de Probabilidad Continuas 1) En una fábrica han decidido implantar las técnicas de administración científica de cuño Taylorista. Para ello necesitan conocer los tiempos de operación de una determinada actividad. Con tal objetivo se llevo adelante el siguiente muestreo donde se registro aleatoriamente el tiempo que se tardaba en realizar la mencionada actividad.

36,37 31,6 37,3 39,73 37,75 38,43

40,55 29,36 35,36 36,91 32,09 36,22

23,99 34,4 41,28 34,73 31,47 37,36

36,36 40,02 38,21 39,27 34,35 34,9

40,28 34,04 32,87 34,5 33,12 32,97

A) Defina la población, la muestra, el tamaño de la muestra, la unidad experimental y la variable que se esta estudiando. B) Calcule todas las medidas que considere necesarias para describir el conjunto de datos relevados en la muestra. C) Preséntelos en una tabla de frecuencias absolutas y relativas y confeccione un

histograma. D) ¿Qué modelo de distribución de probabilidad podría utilizarse para estimar las probabilidades relacionadas a los tiempos de operación? Justifique utilizando como argumento las medidas calculadas en el punto B. E) ¿Qué parámetros necesita conocer para elaborar un modelo de distribución de probabilidad Normal? ¿Cómo podría estimarlos? ¿Cuál es la variable aleatoria estimada por el modelo? F) El departamento de producción ha decidido premiar a aquellos operarios que tarden 30 segundos o menos, según el modelo de distribución Normal estimado. ¿Cuál es la probabilidad de ser premiado? G) A su vez, el departamento de producción ha decidido despedir a todo aquel que tarde más de 42 segundos en la realización de la operación. ¿Cuál es la probabilidad de ser despedido? H) Finalmente quieren saber que porcentaje de sus operarios están realizando la operación en un rango de entre 32 y 38 segundos. 2) Un prestigioso restaurant compra su carne a dos frigoríficos distintos, Artos y Carlitox. Ambos le venden un bife especial para su famosa parrillada. El restaurant se jacta de vender los bifes más suculentos de toda la región, asegurando que en cada uno hay más de 800 gramos de la mejor carne Argentina. Sin embargo, saben que el peso de los bifes en ambos proveedores tiene cierta variabilidad, para conocer el comportamiento de la mencionada variable la han pedido a ud que confeccione un modelo de distribución de probabilidad.

Artos 1036,77 901,58 882,85 943,22 902,37 897,09 995,4 804,91 907,26 845,56 869,48 929,49 Carlitox 916,87 997,15 1119,13 939,8 930,29 774,58 1016,54 897,3 1059,84 1093,22 958,9 1142,13

865,82 997,13

902,23 912,26 959,7 928,84

828,5 990,95

885,39 915,43 941,09 901,95 1083,97 992,78 1003,17 1078,61

A) ¿Cual es la variable aleatoria sobre la que confeccionará el modelo? ¿Se trata de una variable discreta o continua?

Guía de Trabajos Prácticos de “Estadística I”

B) C) D) E)

Para conocer un poco más sobre las carnes proveídas por ambos frigoríficos ud ha organizado un muestreo aleatorio de 20 cortes de cada uno. A continuación los resultados. Compare ambos proveedores utilizando las medidas descriptivas y gráficos que considere pertinentes. ¿Qué proveedor presenta menor variabilidad? ¿De quien esperaría un bife más suculento? ¿Podría utilizar un modelo de distribución de probabilidad Normal? ¿Por qué? ¿Qué parámetros necesitaría? ¿Cómo podría estimarlos? Calcule la probabilidad de que el restaurant cumpla con su palabra (Bifes de más de 800 gramos) siendo que se provee en Artos, y siendo que se provee en Carlitox. ¿Utilizando la regla empírica, entre que valores estará el 99% de los bifes servidos por el prestigioso restaurant? Calcule para cada proveedor por separado y considerando la situación en la que se provee el 50% en uno y el otro 50% en el otro.

3) Señale a que distribución de probabilidad pertenece cada gráfico.

Guía de Trabajos Prácticos de “Estadística I”

4) La Inversión en la Argentina siempre fue muy dificil de predecir, parece comportarse en forma aleatoria siendo imposible encontrar causas a sus bajas y alzas, un comportamiento de animal spirits. Sin embargo una afamada consultora está convencida de haber encontrado una regularidad a lo largo de los últimos 13 años. La consultora asegura que la inversión se comporta normalmente y que un modelo de distribución de probabilidad puede servir para reducir la incertidumbre respecto a los valores que tomará en adelante. Para elaborar su modelo la consultora desestimó la inversión del 2002.

Años

IBIF

Años

IBIF

m ill. $ de 1993

m ill. $ de 1993

1993

45069

1999

53116

1994

51231

2000

49502

1995 1996

44528 48484

2001 2003

41750 36660

1997

57047

2004

49280

1998

60781

2005

60458

*

Fuente: "Dos Siglos de Economía Argentina – Edición Bicentenario" Fundación Norte y Sur, Director: Osvaldo Ferreres

A) ¿Cual es la variable aleatoria sobre la que confeccionará el modelo? ¿Se trata de una variable discreta o continua? B) ¿Qué parámetros necesita conocer para elaborar un modelo de distribución de probabilidad Normal? ¿Cómo podría estimarlos? Estímelos C) De acuerdo con el modelo que probabilidad habría de que en 2006: i) La inversión esté por encima de los 60.000 mill $. ii) La inversión esté por debajo de los 50.000 mill $. ii) entre 40 y 60 mil mill$ D) Siguiendo la regla empírica con un 95% de probabilidad entre que valores considera la consultora que se ubicará la inversión en la Argentina en el 2006. E) Sabiendo que en 2006 la inversión superó los 70.000 mill $ y que en el 2007 y 2008 superó los 80.000 mill $. ¿Qué puede decir del poder descriptivo del modelo? ¿Cuan probable era que eso suceda según el modelo confeccionado? 5) En la oficina de turismo de una reconocida ciudad se esta buscando que los empleados sean capaces de atender a los visitantes en forma eficiente y satisfactoria, para ello han decidido tomar una muestra de 30 visitantes y registrar en cuanto tiempo fueron atendidos (en minutos) y con que resultado (Bien o Mal atendido):  M 20,95

M 20,00

B 17,70

B 17,67

B 16,09

B 24,47

B 16,87

M 0,45

B 15,68

B 8,04

B 17,79

B 11,67

B 12,11

B 11,73

B 10,48

B 19,55

M20,84

B21,20

 B 12,55

B 25,33

B 10,26

M 7,90

B 9,51

M 12,51

B 13,54

B18,14

B 15,55

B 10,24

M 15,55 Mediana 15,54898

B 14,87 Media

Desvío Estandar 15,30965

4,713048

B= bien atendido M= Mal atendido

A) Indique la población, la unidad experimental y las variable observadas. Indique de que tipo de variable se trata en cada caso. B) Calcule el coeficiente de asimetría de Pearson para el tiempo de atención y saque conclusiones sobre la forma de la distribución.

Guía de Trabajos Prácticos de “Estadística I” C) ¿Qué modelo de distribución de probabilidad podría utilizarse para estimar las probabilidades relacionadas a los tiempos de atención? ¿Y para modelar la cantidad de personas atendidas insatisfactoriamente dado un determinado número de visitantes? ¿Qué parámetros se necesita conocer en cada caso? ¿Cómo podría estimarlos? ¿Se trata de una estimación puntual? D) Desde la gerencia están interesados en saber que tan probable es que ante la visita de un cliente se tarde más de 20 minutos en atenderlo. E) Por otro lado, esperan la visita de 23 turistas muy importantes esta tarde ¿Cual es la probabilidad de que menos de 4 sean atendidos insatisfactoriamente? 6) Una afamada empresa de ómnibus de larga distancia asegura que el tiempo de viaje de Buenos Aires a Bariloche es de 21 horas con 40 minutos (21,67 horas). Sin embargo desde la dirección de la empresa saben que dichos tiempos nunca son respetados a raja tabla y quieren construir un modelo que les permita reducir la incertidumbre respecto a cuanto tiempo tomarán sus coches. A) Defina la población y la unidad experimental.¿Cual es la variable aleatoria? ¿Se trata de una va riable discreta o continua? B) Se proponen dos modelos para estimar la variable aleatoria. Por un lado el Normal y por otro el uniforme. ¿Qué parámetros deberán conocerse para poder calcular cada uno de ellos? C) Para poder estimar los parámetros del modelo normal la gerencia decidió tomar una muestra de 15 viajes registrando en cada uno de ellos el tiempo demorado. En base a ella estime los parámetros necesarios.

20,02 20,61

21,37 21,73

Tiempos de Viaje 20,01 21,71 20,61 22,06 22,58 21,15 20,24 20,31

21,34 22,51 20,78 -

D) Para el caso del modelo de distribución uniforme, se sabe que nunca un colectivo se tomó mas de 23 horas en llegar a destino y el mejor tiempo que hizo la empresa fue de 20 horas. Halle la función de densidad de probabilidad asociada al modelo de distribución uniforme. Grafíquelo. E) Calcule las siguientes probabilidades para cada modelo: i) que un colectivo seleccionado al azar tome más de 21,67 horas. ii) Que tome entre 21 y 22 horas. iii) Que tome menos de 21 horas F) ¿Cuanto debería esperarse que tarde el próximo colectivo de acuerdo a ambos modelos? ¿Alguno se condice con lo prometido por la empresa? G) Observando una nueva serie de datos, compuesta por 100 observaciones. Se obtuvieron los siguientes resultados: Media= 21,439 y desvío estándar= 0,925 ¿Que modelo parece describir mejor la realidad? 7) Reúnase en grupos de no más de 4. Individualmente elabore oraciones que vinculen los conceptos abajo listados hasta cubrir todos ellos. No utilice más de dos renglones para cada oración. Luego póngalas en común dentro del grupo y discuta sobre la veracidad o falsedad de las proposiciones. • Distribución de probabilidad Normal. • Media • Desvío estándar • Asimetría • Z • Distribución de probabilidad uniforme • Teorema Central del Límite • Variable Continua • Experimento aleatorio

Guía de Trabajos Prácticos de “Estadística I” 8) Dos ciudades patagónicas compiten año a año por el flujo de turistas interesados en adentrarse en la Patagonia y todas sus atracciones. Desde una agencia de turismo aseguran que el flujo de dinero generado por los turistas en ambos destinos sigue una distribución normal. A) ¿Cual es la variable aleatoria? ¿Se trata de una variable discreta o continua? ¿Puede utilizarse el modelo de distribución Normal como aproximación al comportamiento aleatorio de la variable? B) Estime los parámetros del modelo de distribución normal en base a los datos registrados por la agencia lo largo de los últimos 10 años:

Ciudad 1 2.259.600 2.438.400 2.572.000 2.630.900 2.599.500 2.924.500 2.247.400 2.548.500 2.692.700 2.451.700

Ciudad 2 1.515.500 1.561.300 1.570.100 1.625.900 1.603.900 1.566.400 1.460.700 1.640.700 1.651.300 1.608.200

C) Compare ambas ciudades utilizando las medidas descriptivas y gráficos que considere pertinentes. ¿Qué ciudad recibe más turistas? ¿Qué ciudad presenta mayor dispersión? ¿Qué puede decir de la asimetría de las muestras? D) Según el modelo de distribución de probabilidad confeccionado por la agencia. Cual es la probabilidad de que: i) A la primer ciudad arriben más de 2.200.000 $ el próximo año ii) A la segunda ciudad arriben entre 1.200.000 y 2.000.000 $. iii) A la primera arriban más de 2.500.000 y a la segunda menos de 1.200.000 E) Utilizando la regla empírica, ¿Con un 0,68 de probabilidad entre que valores estará el flujo de dinero a cada ciudad? ¿Y con una probabilidad del 0,99? 9)

En una fábrica de papas fritas empaquetadas están preocupados por la calidad de sus productos. Por un lado recibieron quejas sobre la calidad de sus productos, argumentando que las papas están quemadas. Y por otro lado los están investigando respecto al peso de sus paquetes que deberían ser de 80 gramos. Para verificar esto han decidido tomar una muestra de 10 paquetes obteniendo el siguiente resultado: Paquete 1

Peso 74,54

Estado Bueno

Paquete 6

Peso 68,07

Estado Bueno

2 3 4

80,34 77,81 80,71

Bueno Bueno Bueno

7 8 9

78,58 81,83 85,85

Malo Bueno Malo

5

72,85

Bueno

10

82,74

Bueno

A) Indique la población, la unidad experimental y las variable observadas. Indique de que tipo de variable se trata en cada caso. B) Calcule el coeficiente de asimetría de Pearson para el peso de las papas y saque conclusiones sobre la forma de la distribución. ¿Qué modelo de distribución de probabilidad le parece indicado para estimar las probabilidades relacionadas al peso de los paquetes? C) Hoy llego a la fábrica el personal de defensa al consumidor y exigieron un paquete de papas al azar para verificar que se cumpla con el peso que se asegura en cada paquete. En caso de que no cumpla con lo establecido se cerrará la fábrica. Utilizando la información relevada en su muestra para confeccionar un modelo de distribución de probabilidad, calcule la probabilidad de que la fábrica sea cerrada por no cumplir con los pesos indicados. D) También decidieron tomar 8 paquetes y verificar la calidad del producto. Indique cual es la probabilidad de que encuentren 2 paquetes ó más que estén en malas condiciones. ¿Cuanto sería esperable que encuentre? E) Aún a la espera de los resultados de la evaluación del organismo de defensa del consumidor, el gerente de la fábrica decidió tomar otra muestra de 10 paquetes para quedarse tranquilo. Obteniendo

Guía de Trabajos Prácticos de “Estadística I” una media de 76,45 y un desvío de 3,367. ¿Cómo explicaría la diferencia entre los estadísticos obtenidos en la primer muestra y los de la segunda? ¿Por qué varían?

Guía de Trabajos Prácticos de “Estadística I”

Unidad 5 Muestreo y distribuciones por muestreo Unidad 6 Estimación por intervalos y tamaño de la muestra *A lo largo de la guía encontrará los gráficos asociados a los distintos modelos de distribución planteados en la guía. En cada caso asegúrese de marcar sobre el gráfico la probabilidad (el área) buscada. 1)

En un famoso Hotel Barilochense se esta evaluando la posibilidad de ofrecer un servicio de Treking guiado por los refugios más importantes de los alrededores. Sin embargo se desea saber si los huéspedes estarían dispuestos a pagar un monto lo suficientemente alto como para cubrir los costos de un guía y los seguros que la actividad implica. Por ello el gerente decide realizar múltiples muestras donde se encueste a 4 huéspedes aleatoriamente preguntandoles cuanto estarían dispuestos a pagar por una actividad semejante. Suponiendo que las manifesta ciones de los huéspedes conforman un conjunto de v.a. independiente e idénticamente distribuidas.

Muestra

1

2

3

4

5

6

X1

78

X2

89

102

99

108

102

120

118

92

107

95 103

123 75

82 124

66 116

11

12

13

X1

113

114

X2

86

X3 X4

X3 X4 Media Muestra

7

8

9

10

98

92

72

103

95

95

103

85

123

106

92 94

102 119

74 135

105 92

104 85

103 112

14

15

16

17

18

19

20

102

76

103

104

112

128

122

96

123

119

98

65

113

88

91

96

117

79

103

78

103

104

102

86

90

82

109

80

100

89

104

90

100

105

121

84

78

Media A) B) C) D) E)

F)

Indique población, unidad experimental, tamaño de la muestra y cantidad de muestras tomadas. ¿De que tipo de variable se trata? Calcule las medias correspondientes a cada muestra. ¿A que se debe su variabilidad? Confeccione una tabla de frecuencia para las medias muestrales utilizando intervalos de 5 $ de amplitud. Realice un histograma ¿Qué puede decir del gráfico? Estime todas las medidas que considere necesarias para describir el conjunto de datos. ¿Cómo se distribuirá la media muestral siendo que se sabe que la variable aleatoria se distribuye normalmente con media 100 $ y desvío estándar igual a 20? El gerente cree que si la media poblacional es igual a 100 $, sin importar con que varianza, el servicio se venderá adecuadamente. Sin embargo le preocupan los valores más bajos de media muestral obtenidos en las muestras 8 y 11. El gerente quiere saber que tan probable era que eso sucediese siendo que la media poblacional es 100. ¿Cual es la probabilidad de que el estadístico media de una muestra tomada al azar sea menor o igual a 90 $ siendo que la media poblacional es 100 y el desvío estándar es 20? En caso de que la probabilidad sea muy chica (menos del 0,1) el gerente desestimará la posibilidad de coordinar el treking. (tendrá indicios de que la media poblacional es en realidad más chica).

Guía de Trabajos Prácticos de “Estadística I” G) Compare ambos gráficos, ¿a que variable aleatoria pertenece cada uno? ¿Cual es la diferencia esencial en tre ellos? Señale el área buscada del punto F en el gráfico correspondiente. H) Y si la media poblacional fuese 95$, con mismo desvío ¿Que probabilidad habría de encontrar que la media de una muestra tomada al azar sea menor a 90? I) Ahora el gerente desea estimar el parámetro poblacional a través de un intervalo de confianza. Para ello toma una muestra de mayor tamaño la cual utilizará a los fines de tener una estimación puntual de los parámetros poblacionales. Encuestando a 40 huespedes obtuvo los siguientes resultados:

Media Desv Est

99,70 15,67

J)

Habiendo observado las propiedades de la distribución de los estadísticos ¿tiene sentido tomar muchas muestras pequeñas en lugar de una muestra grande? Justifique K) Confeccione un intervalo de confianza de la media poblacional del 90% y del 99% suponiendo un desvío estándar de 20. Explique que se gana y que se pierde por utilizar un mayor nivel de confianza. L) A lo largo de este ejercicio supusimos un desvío estándar de 20. Pero en la práctica si no se conoce la me dia poblacional mucho menos se conocerá el desvío respecto a esa media. ¿Cómo podríamos armar interva los como los del punto anterior? ¿Qué utilizaríamos para estimar el desvío? ¿El nuevo estadístico se distri buirá normalmente? M) Calcule nuevamente dos intervalos de confianza (90% y 99%) para la media poblacional pero ahora sin co nocer el desvío estándar de la población. 2)

El gerente de un hotel desea conocer la proporción de ocupación con la que suele trabajar su hotel en temporada alta. Para ello tomó 15 muestras donde en cada una de ellas registró cuantas de las 30 habitaciones que tiene es taban ocupadas. M uestra

Cuartos Ocupados

p

1

23

2

16

3

24

4

20

5

18

6

13

7

23

8

14

9

19

10

18

11

15

12

19

13

17

14

18

15

18

                             

Ejemplo: Muestra 1 Habitación

Estado

Habitación

Estado

1

Ocupada

16

Ocupada

2

Ocupada

17

Ocupada

3

Ocupada

18

Ocupada

4

Ocupada

19

Ocupada

5

Ocupada

20

Ocupada

6

Ocupada

21

Ocupada

7

Ocupada

22

Ocupada

8

Ocupada

23

Ocupada

9

Ocupada

24

Libre

10

Libre

25

Libre

11

Libre

26

Ocupada

12

Ocupada

27

Ocupada

13

Libre

28

Libre

14

Ocupada

29

Ocupada

15

Libre

30

Ocupada

A) ¿Cuántas muestras se tomaron? ¿Cual es el tamaño de cada una de ellas? B) Calcule el estadístico p (proporción) para cada muestra extraída. ¿A que se debe su variabilidad? C) Confeccione un histograma de la frecuencia relativa del estadístico p D) ¿Como se distribuirá el estadístico p considerando que la muestra es lo suficientemente grande como para que funcione el teorema central del límite? Explique brevemente el teorema central del límite E) Observando las p obtenidas de los 15 días que relevó está preocupado por que en dos de esos días se ve una ocupación de menos del 50%. Hasta la fecha el gerente estaba convencido de que su hotel trabaja al 75% de ocupación promedio. Por ello ha decidido estudiar la distribución del estadístico p. Suponiendo que el

Guía de Trabajos Prácticos de “Estadística I” parámetro poblacional es igual a p=0,75. ¿Qué probabilidad hay de que extrayendo una muestra al azar, ésta tenga una p menor a 0,5?

F)

Observando que dicha probabilidad es muy baja y que efectivamente obtuvo muestras con p menor a 0,5 concluye que su modelo deber estar mal. Por ello decide recalcular la probabilidad del punto anterior pero habiendo ajustado el parámetro p a 0,6.

3) Las últimas películas de Ricardo Darín fueron muy exitosas, despertando el interés de muchos inversores en cualquier proyecto en el que participe. Esto motivo un estudio sobre los ingresos que gene raron sus últimas películas. Para lo cual se busco tomar una muestra de 100 cines registrando la recaudación bruta de cada una de sus películas. Sin embargo no todos los cines habían presentado las 3 películas resultando en datos faltantes y por ende en tamaños muestrales distintos.

Peliculas Nueve Reinas El Aura Un Cuento Chino

Media Desvío Est Asimetría 20641,42 978,58 -0.2147306 16696,82 554,22 0.3551565 19359,04 1382,86 0.2171361

Cuartiles 1er 3er 19887.67 21475.17 16393.36 17056.51 18426.55 20252.97

  n 98 76 89

A) Calcule el rango intercuartílico. Alguna medida de dispersión relativa. Y establezca según las muestras que película fue la de mayor recaudación absoluta, cual la de menor dispersión relativa y cual la de mayor asimetría (interprete dicha asimetría). B) Calcule el error estándar asociado al estadístico media muestral para cada una de las películas. ¿Qué factores influyen sobre el mismo? Justifique. C) Suponiendo que la recaudación bruta de cada película sigue una distribución normal. Estime la media poblacional de “Nueve Reinas” mediante un intervalo con un 95% de confianza. Interprete el resultado. D) ¿Qué modelo de distribución de probabilidad utilizó en el punto anterior? ¿Por qué?

Guía de Trabajos Prácticos de “Estadística I” 4)

Un negocio de la prestigiosa marca Rip-Surf desea estimar el valor promedio de sus ventas diarias. Para ello pidió a uno de sus empleados que organice una serie de muestras para estimar el parámetro. El empleado, muy propenso al descanso, organizó 6 muestras tomando en cada una de ellas 5 datos. Obteniendo el siguiente resul tado: Obs 1

A) B)

C)

Obs 2

Obsv 3

Obsv 4

Obsv 5

Muestra 1

6820,04 6472,27 6778,74 6801,49 6390,16

Muestra 2

6665,24 6411,18 6803,2

Muestra 3

6923,38 6288,93 6909,44 7505,36 5907,04

Muestra 4

5525,35 7250,76 7033,45 7047,69 6303,87

Muestra 5

6716,72 7132,11 6427,69 6556,07 6874,44

Muestra 6

6914,1

Media

7736,97 5860,32

6210,24 6199,91 6030,72 7302,37

¿Cuántas muestras tomó el empleado? ¿De que tamaño? En base a que numero de observaciones se estimó cada media. Preocupado por los datos obtenidos el gerente quiere contrastar su idea de cómo funciona el negocio. El cree que la cantidad de ventas diarias se distribuye normalmente con media 6.500$ y desvío estandar 550$. Dado este supuesto ¿que tan probable es obtener una media de menos de 6.300$? ¿Y una mayor a 6750$?

Sin embargo el gerente considera que su empleado no hizo un buen trabajo. Que el error de muestreo aso ciado al estadístico calculado es demasiado grande como para poder sacar conclusiones con certeza. ¿Qué podría hacerse para reducir el error de muestreo asociado al estadístico media muestral? El gerente decide organizar un nuevo relevamiento de datos que consiste en tomar una única muestra de 30 observaciones. El promedio de ventas obtenido fue el siguiente: Media

Desvío Est

6657,63 541,8652 D) ¿El estadístico media muestral fue calculado en base a cuantos datos esta vez? ¿Como afectará sobre la variabilidad del mismo?

E) Cual es la probabilidad de que el estadístico media muestral tome los valores considerados en el punto B ahora que la muestra es de 30 datos. F) Sin embargo la estimación puntual fruto de su última muestra está por encima de 6.600 lo que le da un indicio de que posiblemente la media poblacional sea mayor a 6.500$. Re-calcule las mismas probabilidades del punto anterior pero ahora considerando una media de 6.600$. G) De todas formas, mediante este método no tiene forma de cuantificar el error que puede estar cometiendo fruto de la aleatoriedad del muestreo. Brinde alguna medida que permita conocer el grado de certeza con el que asevera respecto al parametro poblacional. Primero tomando su idea

Guía de Trabajos Prácticos de “Estadística I” sobre el desvío estándar (550$) y luego estimando el desvío estándar poblacional mediante el desvío muestral. H) ¿Como podría aumentar la precisión de su estimación sin sacrificar su nivel de confianza? I) Que tamaño debería tener una muestra para garantizar un 99% de confianza siendo que el desvío poblacional es 550 $ y una distancia entre la media poblacional y muestral de sólo 100 $ 5) La compañía Lecheto S.A. asegura que su nuevo producto de leche larga vida, es capaz de durar un promedio de 42 días después de ser abierta, con un desvío estándar de 2,5 días, siempre y cuando se la mantenga a 14°. La Asociación de defensa al consumidor desconfía de semejante aseveración por lo que plantea realizar un experimento y testear la duración de la leche. Para ello toma una muestra de 20 leches obteniendo los siguientes resultados. 40,21

37,1

38,89

34,63

44,87

36,99

33,6

37,97

37,93

40,2

40

41,69

36,33

43,87

36,7

32,69

34,74

35,44

39,04

36,42

A) Defina la población, la unidad experimental y la variable observada. ¿De que tipo de variable se trata? B) ¿Cuantas muestras tomó la asociación por la defensa del consumidor? ¿De que tamaño? C) Calcule media, desvío estándar y coeficiente de Pearson. D)¿Qué tan probable era obtener una muestra de media menor a 40 siendo que la variable aleatoria se distribuye con media 42 y desvío estándar 2,5, como asegura Lecheto SA? ¿Cómo miembro de la asociación por la defensa del consumidor, que determinación tomaría respecto a Lechato SA?

E) La competencia asegura que “Lecheto miente”, y que su nuevo producto larga vida dura en realidad 34 días en promedio. Suponiendo que las acusaciones de la competencia son ciertas ¿que tan probable sería que extraigamos una muestra con media mayor a 37 días? ¿Ud que cree? ¿La competencia exagera o existen elementos que verifican sus acusaciones?

Guía de Trabajos Prácticos de “Estadística I” F) Recalcule las probabilidades del punto D y F pero quitando el supuesto de que se conoce el desvío poblacional. ¿Cómo lo estimaría? ¿Qué distribución deberá utilizar para calcular las probabilidades ahora? G) Al ser ambas versiones inverosímiles se hace necesario estimar el verdadero valor del parámetro. Estime un intervalo de confianza del 80% y otro del 90% para el valor de la media poblacio nal en función a la muestra tomada y estimando el desvío estandar mediante la muestra 6) En un estudio sobre el sistema de transporte en la ciudad autónoma de Buenos Aires se busca conocer cuanto tiempo utilizan para transportarse los trabajadores de la provincia en llegar al micro-centro porteño, y que medio utilizan. Abajo alguna de la información recabada mediante esta muestra: medio/tiempo < 30 min entre 30 y 60 min > de 60 min Total Bicicleta 1 15 6 Auto 8 17 3 Transporte Publico 2 27 21 Total 12 59 29

22 28 50 100

A) Describa los datos y saque algunas conclusiones en función de los datos presentados. B) Utilizando las frecuencias relevadas en la tabla de contingencia como aproximación a las probabilidades de cada suceso. Calcule la probabilidad de escoger un individuo de la muestra que: i- Tarde entre 30 y 60 minutos en llegar al trabajo. ii- Llegue a su trabajo en menos de 30 minutos y use el transporte público. iii- Llegue a su trabajo en menos de 30 minutos siendo que usa el transporte público. ¿Qué puede decir sobre las dos variables incluidas en la tabla de contingencia? ¿Son independientes? C) Suponiendo que el tiempo que se tarda en llegar al microcentro porteño sigue una distribución Normal. Y sabiendo que en promedio las 100 personas encuestadas demoraban 48 minutos en llegar al centro con un desvío estándar de 17 minutos. Estime la media poblacional mediante un intervalo de confianza del 98%. Interprete D) ¿Qué podría hacer para aumentar la precisión de su intervalo (amplitud del mismo) sin sacrificar su confiabilidad? 7) El Sr. Wilson tiene una fábrica entera dedicada a la producción de pelotas de tenis. Una pelota tipo debe pesar 250 gramos, si una pelota se aleja de dicho valor en 5 gramos es considerada defectuosa. Wilson está interesado en estudiar, por un lado como se distribuye el peso de las pelotas que produce y por otro el porcentaje de defectuosos con los que produce. Por esta razón decidió tomar una muestra de 9 datos. Preocupado por el resultado de la primer muestra salió inmediatamente a tomar una segunda muestra. Primer M uestra   Peso

Estado

246,42 OK 243,26 Def 236,64 Def 255,96 Def 240,69 Def 243,23 Def 253,46 OK 255,65 Def 254,53 OK

Segunda M uestra

                   

Peso

Estado

246,69 OK 249,85 OK 253,48 OK 249,14 OK 251,23 OK 248,26 OK 254,65 OK 254,6 OK 249,64 OK

A) Defina la población, unidad experimental y variables observadas. ¿De que tamaño fue cada muestra? B) Calcule los estadísticos media y proporción para cada una de ellas. ¿Cómo se explica la marcada diferencia entre los estadísticos que se desprenden de la primer muestra y aquellos de la segunda? C) Calcule media, desvío estándar y coeficiente de asimetría de Pearson para cada uno de las muestras. Realice un histograma para cada una. Reflexion

Guía de Trabajos Prácticos de “Estadística I” D) Suponiendo que el peso de las pelotas producidas por Wilson sigue una distribución Normal con desvío estándar igual a 4. ¿Cual es la probabilidad de que siendo la media poblacional igual a 250 se saque una muestra aleatoria con media menor a 249? y ¿mayor a 250,5? E) Ahora Wilson quisiera saber algo sobre la proporción de defectuosos con la que trabaja pero sabe que con los datos que relevó no puede estimar dicho parámetro a través de una distribución normal. ¿Qué solución le sugiere? F) Wilson toma una nuevas muestra pero ahora constituidas por 72 observaciones Obteniendo los siguientes resultados: S media P 4,29964738 250,3735 0,2222

Suponiendo que la muestra es lo suficientemente grande como para que aplique el teorema central del límite. Calcule cual es la probabilidad de obtener un estadístico p mayor a 0,22 siendo que la proporción poblacional de defectuosos es igual a 0,18. ¿y de que sea menor a 0,16?Sin embargo esto no le dice demasiado a Wilson y exige que en base a la muestra tomada se le diga con una confianza del 95% entre que valores se encuentra el p poblacional. ¿Y si la confianza de la estimación aumentara a 98%, aumentaría la precisión? ¿Cómo podría aumentarse la confianza sin perder precisión? G) Sabiendo que la verdadera distribución poblacional tiene como parámetro a p= 0,2 ubique los intervalos calculados en el punto anterior en el gráfico:

8) Usted es nuevo en la gerencia comercial de una prestigiosa empresa de productos envasados. Para ponerlo al día del desempeño de la empresa se le dieron los registros de los últimos años del total facturado y de la posición de la empresa frente a sus competidores.

Guía de Trabajos Prácticos de “Estadística I” A)

Resuma en 5 renglones y un gráfico los datos de facturación registrados desde 1978 al 2007. Utilice las medidas de tendencia central, dispersión y asimetría que considere pertinentes para brindar una descripción completa y útil para la empresa. ¿Altos niveles de facturación influyen sobre la posición de la empresa en el mercado? Considere como altos aquellas facturaciones que fueron superiores al promedio de la empresa en el período estudiado. Responda utilizando el concepto de independencia. ¿Cuál es la probabilidad de que en el próximo año:

B) C)

Año



la facturación supere los $ 450 mil ?



la facturación sea menor a $ 350 mil siendo que la empresa lidera el mercado?

• la facturación sea mayor a $ 400 mil y la empresa no lidere el mercado? Facturación Posición Año Facturación Posición Año Facturación en miles de $

en miles de $

Posición

en miles de $

1978

324,3

Líder

1988

435,1

Líder

1998

360,7

2do

1979

260,1

2do

1989

244,6

3ero

1999

278,7

3ero

1980 1981 1982 1983 1984 1985 1986 1987

295,5 361,2 408,4 431,9 417,6 372,6 333,2 297,2

2do Líder Líder Líder 2do Líder 3ero 2do

1990 1991 1992 1993 1994 1995 1996 1997

401,1 318,1 293,8 437,5 288,5 358,5 402,8 388,9

2do 3ero Líder Líder 2do 2do 2do 2do

2000 2001 2002 2003 2004 2005 2006 2007

347,8 268,6 319,1 301,9 534,9 255,6 392,7 320,5

2do 3ero 2do 3ero Líder 3ero 2do 3ero

S = 67,4365 D)

Para mejorar su gestión Ud. ha decidido estimar los siguientes parámetros:

μ : Facturación Media y π: Proporción de años en que la empresa es lider del mercado ¿Qué estadísticos utilizará para su estimación? ¿Qué cambios espera en la media, varianza y forma de la distribución de los estadísticos si el tamaño muestral fuera de 60 en lugar 30? Justifique su respuesta. E)

Estime mediante intervalo de confianza la facturación media. ¿Cuáles supuestos empleó para dicha estimación? ¿Cuál es la importancia de conocer el valor de la facturación media en la gestión de la empresa?

9) Usted está a cargo de una línea de producción dentro de una fábrica de tuercas. En la producción de tuercas es sumamente importante mantener la amplitud del orificio dentro de márgenes de error mínimos. Ya que un orificio demasiado grande hará que el tornillo baile dentro del mismo y un orificio demasiado pequeño impedirá que el tornillo encaje. En este sentido la precisión es fundamental. Es por esto que semanalmente usted extrae una muestra de 40 tuercas y mide el diámetro del orificio. En su último muestreo obtuvo los siguientes resultados: Media 1,2018cm

A)

Desvío Estandar Coef de AsimetríaMínimo 1er Cuartil Mediana 3er Cuartil Máximo 0,0204cm -0,1742 1,1507 1,1915 1,1983 1,2176 1,2434

Identifique las variables observadas, la unidad experimental y la población. Señale de que tipo de variable se trata en cada caso.

Guía de Trabajos Prácticos de “Estadística I” B)

Elabore un diagrama de caja y bigote. Dibuje junto al anterior otro Diagrama de caja y Bigote que presente un mayor Rango Intercuartílico, idéntico valor mínimo y máximo, y donde el 75% de los datos se concentren antes del 1,2 cm. Discuta sobre el nivel de asimetría de ambas distribuciones. C) De sus estudios anteriores ud sabe que el diámetro de los orificios de las tuercas que ud produce sigue una distribución normal con desvío estándar igual 0,02 cm. Siendo que idealmente se produce con una media de 1,205 cm ¿Que probabilidad habría de que, seleccionando una tuerca al azar esta tenga un diámetro de más de 1,22? ¿Y de menos de 1,16? D) Su línea de producción debería producir con una media de 1,205 cm. Contraste dicha suposición mediante los datos por ud extraídos con un nivel de confianza del 98%. Recuerde que de estudios anteriores ud sabe que el desvío estándar es de 0,02cm. E) ¿Puede entonces concluir que su línea de producción está funcionando correctamente? Explique con sus propias palabras que es el error de tipo 2, y la potencia de un test.

Guía de Trabajos Prácticos de “Estadística I”

Unidad 7: Contraste de hipótesis 1) En los últimos años, la incertidumbre respecto a la inflación ha sido creciente, instalándose como un tema de constante debate. El mes pasado el valor de cierto corte vacuno de consumo popular fue de $28,5 con un desvío típico de $2,15. Este mes algunos consultoras privadas aseguran que ese precio supero los $30,-. Ud, con el fin de comprobar dicha aseveración recorre 20 carnicerías en forma aleatoria, anotando el precio al que comercializan dicho corte de carne. Obteniendo los siguientes resultados.

31,45 26,33 27,64 27,04 31,91

Muestra 30,49 26,21 30,55 32,93 30,48 34,1 26,5 32,7 30,64 29,97

Media

32,75 27,56 33,48 26,91 29,55

DesvEst 2,462253 3er Cuartil Varianza 32,306 1er cuartil Mediana 27,597 29,967

A) Complete los datos faltantes en la tabla B) Confeccione un histograma complementado con un Diagrama de caja y bigote para ver como se distribuyen los datos de su muestra. ¿Qué puede decir de los mismos? C) ¿Qué modelo de distribución de probabilidad cree que se ajusta a los datos de su muestra? Justifique. D) Utilizando el modelo de probabilidad por ud sugerido en el punto anterior y utilizando los valores de la muestra para estimar los parámetros que necesita. Calcule la probabilidad de que en la próxima carnicería que visite el precio del corte sea: i- Mayor a 30 $ ii. Menor o igual a 32$ iii. Entre 27 y 29 $. E) Asumiendo que el precio de dicho corte sigue una distribución normal con desvío estándar poblacional idéntico al registrado en el mes pasado. Estime mediante un intervalo del 95% la media poblacional. Repita para una confianza del 98%. F) Ahora considere la situación en la que no puede asumir que conoce el desvío estándar poblacional. Vuelva a estimar el valor de la media poblacional con un intervalo del 95% y del 98%. ¿Cómo justificaría las diferencias en la precisión? ̄ −μ ) y mantener un nivel G) Suponga que ud sabe que quiere tener una precisión de +/- 1$ ( X de confianza del 95%. ¿Como puede lograrlo? H) ¿Existen pruebas suficientes como para descartar la afirmación de las consultoras privadas (media poblacional mayor o igual a 30$)? Brinde una respuesta con un nivel de significación del 5% I) El 5% del punto anterior representa: a- La probabilidad de rechazar H0 siendo cierta b- La probabilidad de no rechazar H0 siendo cierta c- La probabilidad de no rechazar H0 siendo falsa

2) Un empresa de turismo de aventura A.A Lawson & Wild asegura que la satisfacción de sus clientes está garantizada. Están convencidos de que 4 de cada 5 clientes que reciben se llevan una experiencia muy grata de sus salidas de aventura. Una agencia de turismo esta pensando en promocionar las salidas de A.A Lawson & Wild pero primero quiere verificar sus dichos. Para lo cual realiza encuestas aleatoriamente a algunos de los clientes de la empresa.

MB MB MB MB MB

R MB MB MB MB

MB MB MB MB R

MB R MB R MB MB MB MB R R MB R MB MB MB MB MB MB R R R MB MB MB MB

Guía de Trabajos Prácticos de “Estadística I”

A) Identifique variable, unidad experimental y población. ¿De que tipo de variable se trata? B) Calcule el estadístico : p “Proporción de gente muy satisfecha” para la muestra extraída. ¿Cono-

C) D)

E) F)

G) H)

I)

cemos como se distribuye el estadístico p? ¿Que condición necesitamos que se cumpla para poder estudiar su distribución? Estime los parámetros del modelo de distribución de probabilidad asociado al estadístico. Plantee la hipótesis a testear. e identifique la región crítica para un nivel de significación del 5% Ubíquela a su vez en el gráfico. Utilizando la región calculada en el punto anterior ¿Qué conclusión puede sacar sobre la afirmación de la compañía? ¿Recomendaría a la agencia de turismo que promocione las actividades con A.A. Lawson & Wild? ¿Cuál es la probabilidad de que no se rechace a afirmación de A.A. Lawson & Wild cuando en realidad la proporción de clientes que sale muy satisfecho es 3,7 sobre 5?¿Y si en realidad fuese 3,5 sobre 5? ¿3 sobre 5? Las probabilidades calculadas en el punto anterior corresponden a: a- La probabilidad de rechazar H0 siendo cierta b- La probabilidad de no rechazar H0 siendo cierta c- La probabilidad de no rechazar H0 siendo falsa ¿Cuál es la potencia de la estimación para cada uno de los valores planteados en el inciso E? Utilizando los datos de la muestra estime la proporción poblacional con un 90% de confianza. ̄ − μ en Imagine que la agencia de turismo no quiere cometer un error mayor a +/- 0,01 ( X su estimación de la proporción poblacional y a su vez quiere mantener una confianza del 95%, que tamaño debería tener su muestra?

3) Elabore un mapa conceptual que vincule los siguientes conceptos. Describa cada término y la relación existente entre los términos conectados. • Unidad Experimental • Distribución t de student • Media muestral • Tamaño de la muestra • Test de Hipótesis 4) Ud. es dueño de un criadero de pavos y ha aprendido que el tiempo de engorde ideal para la comercialización de los pavos sigue una distribución normal con media 80 días y un desvío típico de 12 días. Sin embargo un grupo de emprendedores está seguro de haber encontrado una formula que permite que dicha espera se acorte. Ud. estaría interesado en adquirir dicha formula pero exige una prueba de la misma, para lo cual se realiza una muestra aleatoria sobre 32 de sus pavos.

72,01 80,45 63,11 72,99 69,9 70,66 55,46 94,33

108 69,4 57,1 74,4 77,1 50,9 78,6 75,4

76,2 86,4 73,5 82,5 67,5 60,6 84,7 73

66,2 83,3 Media 87,8 74,54 61,6 Desvío Estandar 65 12,09 89,7 87,5 70,5

A) Identifique variable, unidad experimental y población. ¿De que tipo de variable se trata? B) Presente los datos en una tabla de frecuencia absoluta y relativa. Y confeccione un histograma. C) Calcule el coeficiente de Pearson y discuta sobre la forma de la distribución. D) Suponiendo que el tiempo que toman los pavos en engordar sigue una distribución N(80; 12). ¿Que tan probable era sacar una muestra de 32 datos con media 74,54?

Guía de Trabajos Prácticos de “Estadística I” E) Y si supiéramos que la media poblacional es 80 pero desconociéramos el desvío poblacional ¿que tan probable sería extraer una muestra con esa media? F) Ud. no quiere ser estafado por este grupo de emprendedores por lo que quisiera estimar la media poblacional con una confianza del 99% y con un error no mayor a +/- 3 días. ¿En ese caso debería pedirles una prueba de cuantos pavos? G) Finalmente realice una prueba de hipótesis en donde la probabilidad de rechazar la hipótesis nula siendo que esta es cierta sea menor al 1%. Repita la prueba pero con un nivel de significación del 5%. H) ¿En algún caso puede asegurar que la hipótesis nula es cierta? Justifique su respuesta

5) Es importante respetar estrictas normas de seguridad dentro del manejo de los medios de elevación de una aerosilla. Por lo tanto se desea controlar el número de usuarios por fracción de tiempo, siendo que es un riesgo sobrecargarla. Los ingenieros dedicados a revisar el funcionamiento de uno de los medios de un centro de esquí han advertido que debe regularse el acceso a no más de 8 personas promedio por minuto. La nueva gestión del cerro preocupada por la posibilidad de un accidente en su primer año de concesión ha decidido tomar una muestra del uso que se hace de la misma registrando a lo largo de 50 minutos distintos, cuantas personas subieron a la silla. Los resultados se despliegan a continuación: Media = 8,12 Desvío Estándar = 2,870593 Mínimo = 1 1er Cuartil = 6 Mediana = 7 3er Cuartil= 10 Máximo = 14 A) Identifique las unidades de los parámetros estimados arriba. ¿En qué consiste el experimento? Identifique la variable observada, unidad experimental y población. ¿De qué tipo de variable se trata? ¿Qué distribución le parece más adecuada para modelarla? Justifique. B) ¿Qué probabilidad hay de que en un minuto tomado al azar se suban: i- exactamente 6 pasajeros? ii- menos de 3 pasajeros? iii- más de 6 pasajeros? C) Utilizando las herramientas estadísticas que considere necesarias, enúnciese sobre el cumplimiento de la norma de seguridad. ¿Puede decirlo con seguridad? D) Los ingenieros sugirieron 8 personas como límite precautorio pero saben que si dicho promedio alcanza las 9 personas un accidente será casi inevitable. Calcule la potencia de su test para la situación crítica descripta. ¿Que recomendaría hacer al respecto? ¿Es posible tomar la decisión en un entorno de mayor certeza? ¿Cómo? 6) La empresa Papanito S. A. se dedica a la comercialización de papas fritas embolsadas. Dentro de su fábrica tiene una máquina especial dedicada a embolsar en forma cuidadosa las papas fritas en paquetes que corroboren el peso indicado en el paquete. Sin embargo, el gerente de producción sabe que la maquina tiene un pequeño margen de error. Para estimarlo decide tomar una muestra de 150 paquetes. En la cual encuentra una proporción de paquetes mal embolsados de 0,04. Desde la gerencia le indicaron que se toleraría sólo hasta un 0,03 de proporción de defectuosos en la producción. A) Plantee la hipótesis a testear. E identifique la región crítica para un nivel de significación del 2%. Saque conclusiones. ¿Qué errores puede llegar a cometer el gerente de producción en su test? B) Repita el Test pero con un nivel de significación del 10%. Explique por que a un mayor nivel de significación hay más chances de rechazar la hipótesis nula. C) Ahora le piden al gerente que estime la proporción de paquetes defectuosos mediante un intervalo de confianza del 99%. D) Indique si las siguientes aseveraciones son Verdaderas o Falsas. Justifique. i) Un intervalo de confianza del 95% nos permite asegurar que la proporción de paquetes defectuosos poblacional caerá con un 95% probabilidad entre su límite inferior y su límite superior.

Guía de Trabajos Prácticos de “Estadística I”

E)

ii) Una vez que fijamos el nivel de confianza de un intervalo, determinamos inequívocamente el nivel de precisión (amplitud del intervalo) de la estimación. iii) Cuanto mayor es el tamaño de la muestra, mayor será la confianza de la estimación. ́ − μ no mayor Finalmente desde la gerencia le exigen que su intervalo tenga un error ( X que +/- 0,001, y un nivel de confianza del 98%. ¿Le sirve a nuestro gerente la muestra que tomó? En caso contrario indique ¿por qué? Y ¿que debería cambiar?

7) Elabore un mapa conceptual que vincule los siguientes conceptos. Describa cada término y la relación existente entre los términos conectados. - Variable aleatoria - Estadístico - Teorema central del límite - Intervalo de confianza - Proporción Poblacional 8) En una fábrica de suelas de zapato es muy importante mantener la precisión en la producción para garantizar la compatibilidad de las mismas con cualquier otro zapato. Es así que cualquier par de suelas que exceda o se quede corta en un cm respecto a la longitud o ancho deseada debe ser desechada. Para asegurar el correcto funcionamiento de la linea se extraen semanalmente dos muestras de 30 pares de suelas cada una. En una de las muestras se estudia minuciosamente su longitud y en la otra su ancho. Largo: Media= 22,34cm Mediana=21,89cm Desvío Estándar: 2,76cm N° de observaciones= 30 Ancho: Media= 5,02cm Mediana= 5,10cm Desvío Estándar: 0,62cm N° de observaciones= 30 A) Mencione las variables observadas con sus unidades, la población y la muestra. ¿En que consiste el experimento?¿Por qué se estudian sólo 60 pares por semana en lugar de la totalidad de la producción? ¿De que tipo de variables se trata? B) En función de los datos colectados indique con que aspecto de la producción (longitud o ancho) parece tener más inconvenientes la fábrica de suelas. Considere medidas de tendencia central, de dispersión y de asimetría en su respuesta. C) De estudios anteriores usted sabe que el largo de las suelas sigue una distribución aproximadamente normal. Indique V o F y justifique: i) Si la longitud de las suelas sigue una distribución normal es de esperarse que haya mayor cantidad de suelas excedidas en longitud. ii) Si la longitud de las suelas sigue una distribución normal entonces el ancho de las mismas también debe seguir una distribución normal siendo que son dos variables observadas sobre la misma unidad experimental. D) La fábrica debería producir suelas con un largo promedio de 22cm. Verifique si los resultados de esta semana son satisfactorios o existen indicios para creer que se está produciendo con otro promedio. Utilice las herramientas estadísticas que considere necesarias. Concluya 9) La producción de manzanas en el alto valle de Rio Negro ha experimentado un considerable boom a lo largo de las últimas décadas, generando el asentamiento de numerosos productores nuevos. Jorge es uno de ellos. Jorge adquirió 100 hectáreas convencido de que la productividad media por hectárea es de 90 tn o más. Buscando corroborar sus sospechas tomó la siguiente muestra de su campo:

Guía de Trabajos Prácticos de “Estadística I” Rendimiento por hectárea 85,37 88,57 91,03 98,98 93,29 Media 88,34 82,65 99,46 87,13 80,88 88,52 84,31 91,17 89,52 90 77,69 Desvío 89,66 82,77 87,81 87,51 81,11 5,27849986 86,93 93,02 88,95 93,28 93,46

A) Calcule: Varianza, coeficiente de Pearson y cuartiles 1 y 3. En función a los mismos describa los datos fruto de la muestra. B) Realice un diagrama de caja y bigote. C) Indique variable, unidad

experimental y población.

D) Sabiendo que la producción de manzanas en el Alto Valle Río Negrino se distribuye normalmente con media μ y desvío σ . ¿Cómo se distribuirá la media muestral fruto de muestreo aleatorio? E) Plantee la hipótesis a testear. Y llévela adelante con un nivel de significación del 5%. Saque conclusiones. Realice la gráfica de la distribución que utilizó (usando Rcmdr) y marque la región crítica en el mismo. F) ¿Hace bien el productor al creer que sus sospechas ciertas? Explique G) Sin embargo, el INTA fruto de décadas de investigación sabe que la productividad del Alto Valle Rio Negrino, efectivamente se distribuye normalmente pero con media 86,3tn y desvío típico de 5 tn. Calcule la probabilidad asociada a un error de tipo 2 que comete Jorge con su test. Señale la potencia.

Guía de Trabajos Prácticos de “Estadística I”

Unidad 8: Correlación y regresión lineal simple 1) Una empresa dedicada a la pesca está interesada en conocer si los precios de los distintos pescados mantienen un comportamiento consistente a lo largo del tiempo. Para ello recurrieron a un estudio realizado en los EEUU donde se relevó el precio de 14 especies distintas en 1970 y en 1980. A continuación los resultados Pescado BACALAO LENGUADO ABADEJOS sábalo atlántico perca marina SALMON, CHINOOK SALMON, COHO ATÚN, ALBACORA Almejas, de cáscara blanda ALMEJAS, AZUL caparazón duro Langostas, AMERICAN Ostiones del este vieiras CAMARÓN

Precio 1970 Precio 1980

13,1 15,3 25,8 1,8 4,9 55,4 39,3 26,7 47,5

6,6 94,7 61,1 135,6 47,6

27,3 A) Identifique la unidad experimental y las dos variables observadas 42,4 B) Describa mediante medidas de posición central, dispersión y 38,7 asimetría el conjunto de precios registrado para 1970. Interprete cada

una de ellas.

4,5 C) Describa el

conjunto de precios registrado para 1980 mediante un Interprete en términos del problema D) Realice un gráfico de dispersión que permita comparar ambas 166,3 variables. ¿Observaalguna tendencia? 109,7 E) Estime la covarianza de los datos. ¿Están relacionadas las variables? ¿Puede decir con que fuerza se relacionan entre si? 80,1 F) Estime el coeficiente de correlación entre los precios de 1970 y 1980. ¿Que significa un coeficiente de correlación positivo en éste 150,7 caso? ¿Existe una relación entre los precios de las distintas especies entre 1970 y 1980? G) Responda V o F: 20,3 i) Un coeficiente de correlación de 0,67 da cuenta de una relación lineal entre dos variables más fuerte que uno de -0,82 189,7 ii) Cuando dos variables no están relacionadas linealmente el 131,3 coeficiente de correlación adquirirá su valor mínimo, es decir, -1. 23 gráfico.

404,2 149

* Los precios están expresados en centavos de dólar por libra de peso **Los datos son reales y pueden ser consultados en http://lib.stat.cmu.edu/DASL/DataArchive.html

2) El crimen es un problema en cualquier lugar del mundo, lo que vuelve de sumo interés indagar sobre su relación con otros indicadores sociales como la educación promedio de la población, el gasto por habitante en fuerzas policiales, nivel de desempleo en hombres entre 14 y 24 años ó el número de familias bajo un cierto nivel de pobreza. Todos estos datos Crimen Educación Gasto en Policía Desempleo Joven Pobreza fueron relevados en 1960 por el 79,1 9,1 58 108 261 FBI de EEUU para cada uno de los 163,5 11,3 103 96 194 estados del país. A Continuación 57,8 8,9 45 94 250 196,9 12,1 149 102 167 algunos de los resultados. 123,4 12,1 109 91 174 Variables: 66,4 11,7 62 77 190 Crimen: Denuncias reportadas a la 79,8 8,7 57 92 264 policía por cada millón de 94,6 8,8 81 116 247 habitantes 53,9 11 66 114 166 Educación: Años de educación 121,6 9,6 87 83 227 promedio de personas mayores de 96,8 11,6 78 142 176 52,3 11,6 63 70 196 25 años. 199,3 12,1 160 102 152 Gasto en policía: Gasto per cápita 37,3 9,3 55 135 200 en policía por el gobierno local. 75,4 56,6 82,6 115,1 88 54,2 82,3 103 45,5 50,8 84,9

10,9 10,4 8,8 10,4 12,2 10,9 9,9 12,1 8,8 10,4 12,1

90 51 61 82 72 56 75 95 46 106 90

105 99 86 88 84 107 73 111 135 78 113

163 225 251 228 144 170 224 162 249 171 160

Guía de Trabajos Prácticos de “Estadística I” Desempleo joven: cantidad de desempleados cada 1000 personas entre 14 y 24 años. Pobreza: Cantidad de familias con ingresos menores a la mitad del promedio por cada 1000 familias. *Los datos son reales y pueden ser consultados en http://lib.stat.cmu.edu/DASL/DataArchive.html

A) Realice un histograma del indice de criminalidad e interprete en términos del problema. B) Confeccione un diagrama de dispersión que relacione el índice de criminalidad con el nivel educativo. A priori ¿Que relación se esperaría observar entre las variables? ¿Se confirma lo supuesto en el gráfico? C) Analice la relación del índice de criminalidad con cada una de las variables relevadas. ¿Con cuál de ellas presenta un mayor grado de asociación lineal? ¿Puede concluirse que entonces es ésa variable la que explica en mayor medida el crimen en EEUU? Justifique D) Si dos variables estuvieran asociadas positivamente pero no en forma lineal sino exponencial, es decir, variaciones de 2 en una de ellas estarían acompañadas por variaciones de 4 en la otra, variaciones de 3 acompañadas por variaciones de 9, etc. ¿Sería el coeficiente de correlación una buena medida para dar cuenta del nivel de asociación entre ellas? ¿Por qué? E) Para trabajar en R-commander. En el archivo “Crimen.ods” podrá encontrar los datos para éstas 5 variables en los 47 estados relevados por el FBI. Indague sobre el nivel de asociación lineal del índice de criminalidad con cada una de las variables y verifique si los resultados son equivalentes a los alcanzados con la muestra anterior. 3) Dentro de la industria del tabaco quieren encontrar bienes que sean complementarios a su consumo para poder direccionar las estrategias de marketing y ventas en forma más precisa. Un empleado propone las bebidas alcohólicas como potencial bien complementario del tabaco. Para verificar las sospechas del empleado se registraron los consumos de un hogar promedio en USD constantes en alcohol y tabaco por semana en cada estado de Inglaterra. Región Alcohol North Yorkshire Northeast Centro este Centro Oeste Anglia Este Sudeste Sudoeste Gales Escocia Irlanda del Norte

Tabaco 6,47 6,13 6,19

4,03 3,76 3,77

4,89

3,34

5,63

3,47

4,52 5,89 4,79 5,27 6,08

2,92 3,2 2,71 3,53 4,51

4,02

4,56

A) Identifique unidad experimental y variables observadas. ¿Se trata de un experimento mensurativo o manipulativo? B) Observando el gráfico ¿Existeuna relación entre las variables observadas? ¿Es una relación positiva o negativa? C) Estime la media muestral para cada variable y agréguela al gráfico con una linea punteada. ¿La mayoría de los datos en que cuadrantes se ubican? D) Estime el coeficiente de correlación e interpretelo en términos del problema. E) ¿La cruz azul en el gráfico a que región pertenece? Estime nuevamente el coeficiente de correlación entre las variables omitiendo esa región. Interprete los resultados. ¿Sería correcto omitir esa región si el objetivo de la investigación es estimar el grado de correlación lineal en el consumo de alcohol y tabaco en las distintas regiones de Inglaterra? F) En función de los cálculos realizados ¿Sería correcto concluir que “un mayor consumo de alcohol genera un mayor consumo de tabaco?

Guía de Trabajos Prácticos de “Estadística I”

4) Desde un órgano de un gobierno provincial? patagónico se está evaluando la posibilidad de imponer un impuesto a los hogares que posean un mayor números de ambientes. Existe el supuesto de que hogares más grandes se condicen con Ingresos mayores. Uds sospecha de la efectividad de la medida y decide tomar una muestra de 30 viviendas al azar relevando nro de ambientes, ingreso total familiar (ITF) y cantidad de miembros en el hogar. Ambientes 4 4 3 2 3 3 4 5 3 2 2 2 3 4 4 2 1 4 2 2 5 1 1 1 4 3 5 3 3 1

los mismos?

Ingreso Total Familiar Cant de Miembros 2500,00 7 Los datos pertencen al 4to trimestre de 2010 y fueron obtenidos 2600,00 5 http://www.indec.mecon.ar/principal.asp?id_tema=9556 430,00 2 1757,00 3 A) Identifique unidad experimental, población y muestra. 720,00 2 ¿De que tipo de variables se trata en cada caso? 1830,00 4 B) Confeccione un histograma del ITF familiar e 900,00 2 interpretelo en términos de tendencia central, dispersión y 480,00 5 asimetría. 2800,00 10 C) Responda a las siguientes preguntas utilizando conceptos 700,00 2 del curso: 1800,00 5 i - ¿Por debajo de cuantos ambientes se encuentra el 75% de 60,00 6 los hogares? 1950,00 4 ii- En promedio, ¿cuántos miembros tiene un hogar 1890,00 3 patagónico? 500,00 5 D) Confeccione un gráfico de dispersión que relacione la 1500,00 5 cantidad de ambientes con el ITF. ¿Existe asociación lineal 1654,00 3 entre ambas variables? 2800,00 6 E) Confeccione otro gráfico de dispersión pero que 800,00 2 relacione la cantidad de ambientes con la cantidad de 200,00 1 miembros en cada hogar. ¿Existe relación lineal entre 1000,00 2 ambas variables ? 600,00 1 F) Estime la covarianza entre la cantidad de ambientes de un hogar y su ITF y entre la cantidad de ambientes y la 1340,00 5 cantidad de miembros de un hogar. Interprete en términos 160,00 2 del problema 2000,00 4 G) Estime el coeficiente de correlación entre la cantidad de 1800,00 1 ambientes de un hogar y su ITF y entre la cantidad de 2350,00 5 ambientes y la cantidad de miembros de un hogar. Saque 550,00 1 conclusiones respecto a la idoneidad del impuesto. ¿La 480,00 1 cantidad de ambientes se relaciona más directamente con los 600,00 2

ingresos de los hogares o con la cantidad de miembros de

de

Guía de Trabajos Prácticos de “Estadística I”

Guía de Trabajos Prácticos de “Estadística I”

Guía de Trabajos Prácticos de “Estadística I”

La notación científica es un recurso matemático empleado para simplificar cálculos y representar en forma concisa números muy grandes o muy pequeños. Para hacerlo se usan potencias de diez.

Ej:

a × 10n

a) 720.000.000.000 ( Es un número enorme y no es cómodo para trabajar con él, por ejemplo ponerlo en una tabla) 720.000.000.000 ,00 = 7,2 × 1011 (Corrimos la coma decimal “ , ” once lugares hacia la izquierda) b) 0,0000000000056 (Es un número muy pequeño y es muy incomodo trabajar con él) 0,0000000000056 = 5,6 × 10-12 (Corrimos la coma decimal “ , ” doce lugares hacia la derecha, por eso es “ -12 ”)

En la calculadora la notación científica se expresa como 7,2 E11 ó 5,6E-12 la “ E ” reemplaza al 10.