Tabla de Contenidos Estadística Descriptiva Introducción a la Probabilidad Variables Aleatorias y Distribuciones de Probabilidad discreta: Binomial, Poisson, Hipergeométrica, Binomial Negativa y Geométrica Variables Aleatorias Continuas y Distribuciones de Probabilidad Distribuciones muestreales. Teorema del Límite Central Estimación Pruebas de hipótesis. Estadística de inferencia Análisis de Varianza Modelos de regresión lineal, múltiple y polinomial Series de tiempo Apéndice de respuestas a los ejercicios con número impar Apéndice de Tablas
www.full-ebook.com
Fabro Editores
Chihuahua, CH. México www.fabroeditores.com
E-mail:
[email protected]
Para reportar errores, envíenos una nota a
[email protected] Métodos Estadísticos para la Ingeniería Ambiental Copyright © 2011 Héctor Adolfo Quevedo Urías Prohibida terminantemente la reproducción de este libro, además de los esquemas e ideas originales del autor que se hallan en esta texto, ya sea por medios electrónicos, mecánicos, fotocopiado o de cualquier forma, puesto que todo esto pertenece al dominio y propiedad intelectual y está protegido por la Ley. La excepción a esto, son los reseñadores literarios, quienes deseen revisar esta obra de estadística, para fines de hacer una publicación subsecuente, lo cual se puede hacer previo acuerdo con el autor de este libro. Diseño de Portada: Milena Garza Sánchez Formateo: Roberto Garza Sánchez Primera Edición ISBN: 978-0-9833321-6-9
www.full-ebook.com
P r e f a c i o Dr. Héctor Adolfo Quevedo Urías (Ph.D.)
Este libro de métodos estadísticos se ha escrito para cursos de probabilidad y estadística aplicadas a la ingeniería ambiental y demás ramas afines a esta disciplina. También se ha escrito para las ciencias biológicas y físicas. Este texto se puede usar en forma efectiva en un curso de dos semestres para carreras de licenciatura y para un semestre para cursos de posgrado. Sin embargo, las aplicaciones a problemas de ingeniería expuestas aquí, requieren de un entendimiento y un razonamiento muy profundo, para poder entender los conceptos teóricos matemáticos expuestos, para luego ser aplicados a problemas prácticos de la ingeniería y a la investigación científica. En alusión a lo anteriormente dicho, uno de los mensajes más importantes de esta obra literaria de estadística está encaminado en despertar en el lector sus poderes cognitivos y de razonamiento. Es decir, de la aplicación de un proceso de conocimiento que incluya un juicio amplio y preciso, en la resolución de problemas, no tan solo dentro de las aplicaciones estadísticas o matemáticas tradicionales dadas en textos como éste, sino también en la vida práctica. Todo esto está dirigido a tratar de entender todo lo que está pasando en el mundo contemporáneo y la razón por la cual están ocurriendo, de esa manera, los acontecimientos mundiales. En estos tiempos modernos, caracterizados por tantos cambios tecnológicos y de crisis políticas y económicas, sociales, climatológicas y religiosas es muy importante conocer lo que realmente está ocurriendo y la razón por la cual vendrán muchos cambios más, en nuestras maneras de vivir. Estamos en el umbral de cambios muy transcendentales. Sin embargo, todos estos cambios que se avecinan están encaminados a establecer un nuevo orden mundial—una nueva era de renovación en la historia del hombre. Estas transformaciones que traspasaran los límites de la ciencia experimental del nuevo milenio están diseñadas para terminar con las formas obsoletas, prevaricaciones y convencionalismos tradicionales, mismos que han llevado a la humanidad a las situaciones tan críticas, que actualmente estamos experimentando. Es por este motivo que necesitamos identificar los orígenes y las causas de lo que está aconteciendo, y de lo que inevitablemente vendrá. Todo esto lo tendremos que
www.full-ebook.com
hacer, para poder aceptar y enfrentar exitosamente esos nuevos retos y cambios que se extenderán más allá de los límites del conocimiento y la experiencia (El regreso a la Naturaleza). En esta obra estadístico-matemática, el autor ha diseñado muchos ejemplos y ejercicios de aplicaciones estadísticas, de tal manera que el lector tenga que esforzarse por imponer un razonamiento más exhaustivo, para resolver esos problemas estadístico-matemáticos y alejarse del mecanismo tradicional que se sigue para la solución de problemas que se dan en textos de estadística o matemáticas. Es por esto que, una de las finalidades de este libro de estadística está fincada en la esperanza de iniciar y establecer una nueva corriente de pensamiento, esto es, de un razonamiento abierto y sin encadenamientos. Es decir, de un alejamiento de los intelectualismos aprisionados, objetivistas y convencionalistas, tan característicos de los dogmas y doctrinas socio-políticas y económicas actuales, que han restringido el razonamiento y la libre actuación del hombre moderno. El propósito de esto, está relacionado con el resurgimiento de un nuevo ideal, es decir, de un razonamiento correcto e innovador, que nos ayude a resolver, no tan solo los problemas matemáticos y de la investigación científica, dentro del ámbito profesional o universitario, sino también los problemas de la vida práctica. De esta manera, el autor está proponiendo el resurgimiento de una corriente filosófica racionalista, para poder resolver, exitosamente, los problemas estadístico-matemáticos o de investigaciones científicas en cualquier campo o disciplina. Igualmente este movimiento filosófico está diseñado para resolver y entender mejor los problemas políticos, éticos, económicos, sociales, de salud y ambientales o climatológicos que nos están agobiando. No obstante, en este renglón, para poder entender estos problemas socio-políticos, económicos o ambientales es muy importante conocer, descubrir y razonar sus causas originales, acordemente. Desafortunadamente, la forma común de tratar de resolver estos cuestionamientos o problemas, ha sido siempre atacando sus efectos últimos o inmediatos, más no sus causas originales o más recónditas. Sin embargo, al proceder de esta manera, nunca se resolverán los problemas que agobian a este mundo, porque al tratar de combatir sus efectos reactivos, se está yendo en contra de la lógica, se está ignorando la ley de causa y efecto o de causalidad. Por lo tanto, a juicio del autor, la manera apropiada de hacer las cosas es combatiendo las causas fundamentales de nuestros problemas, es decir, razonando acordemente, identificando y atacando los orígenes más recónditos de los problemas ecológicos o ambientales, socio-económicos, o de salud del
www.full-ebook.com
mundo contemporáneo. El autor principal de estas líneas es un racionalista seguidor de las filosofías del racionalismo deductivo de Descartes, Leibniz y demás pensadores de ese movimiento filosófico del siglo XVII. (El pensamiento matemático símbolo de la razón). Es decir de la filosofía racionalista que trata de descubrir la verdad última a través de la razón. Estos filósofos afirmaron que el conocimiento científico y, aun en la historia, pudieron, en principio, haber sido descubiertos a través de las matemáticas. No obstante, en este aspecto, a juicio del suscrito, para descubrir la verdad absoluta, y el universo perfecto en que vivimos (concebido por un Dios Perfecto), es necesario aplicar ambos tipos de razonamientos, es decir, el razonamiento lógico-deductivo (lógica a priori) y el análisis inductivo o lógica a posteriori (Ver Paztor 1998). Desgraciadamente, en este renglón algunos observadores superficiales afirman que los racionalistas están en contra de los dogmas eclesiásticos de las sagradas escrituras, porque según ellos, el racionalismo antepone la razón a la revelación o a los conocimientos de las sagradas escrituras (esto es porque el racionalismo se fía en la razón como base para el establecimiento de la verdad suprema). Mi respuesta a las afirmaciones de esos observadores de lo aparente es la siguiente: ¿Puede un ser irracional experimentar o entender los conocimientos de las sagradas escrituras de las grandes religiones o la Revelación Divina? ¿Puede un animal entender o creer en Dios? (Aquí, evidentemente, un animal no puede entender estos atributos, porque carece de los poderes del razonamiento). Por otro lado, ¿se pueden derivar nuevas funciones en la estadística, en las matemáticas, en la astronomía, en la física o en la química, sin el uso de la razón? De acuerdo al autor, todo lo anteriormente descrito prueba que, la razón es la autoridad suprema en materia de opinión, creencia, política, conducta o entendimiento estadístico-matemático. Además de esto, hay otras interrogaciones que no se han resuelto satisfactoriamente. Por ejemplo, ¿Qué vino primero: la razón o la experiencia? Si la experiencia es enseñanza o aprendizaje, ¿sería posible tener o adquirir experiencia matemática, científica o filosófica, sin el razonamiento? (Aquí hay que aclarar que no se está hablando del tipo de experiencia del instinto de un animal o de un niño menor de siete años, sino de un razonamiento experimental que requiere del razonamiento). Para contestar lo anteriormente aclarado, se harán las siguientes preguntas: ¿Se pueden experimentar o entender los conocimientos de la estadística, sin el ejercicio de la razón? ¿Se puede derivar una ecuación estadístico-matemática, sin el uso del intelecto? ¿Se puede hacer un experimento o una investigación científica, sin usar el razonamiento?
www.full-ebook.com
De acuerdo a los argumentos anteriores, dejo la respuesta de estas preguntas tan enigmáticas a los amables lectores. Del punto de vista del autor de esta obra estadístico-matemática, el Universo es un “cosmos” (donde el término “cosmos” significa armonía, equilibrio o perfección), es decir, un sistema armonioso, ordenado y teleológico (la teleología afirma que, en el universo, todo lo creado tiene una finalidad, v.g., las matemáticas, la estadística, la ingeniería, la física, la química, la biología, etc.), donde los sucesos no ocurren al azar. A juicio del autor, los sucesos universales ocurren con una infinita precisión matemática. Como prueba de esto, cuando el científico alemán Einstein afirmó que, en el universo, “Dios no juega a los dados”, aquí, evidentemente, esta aserción dice que los sucesos en el universo y en la vida del hombre, no ocurren aleatoriamente o a hechos fortuitos, como comúnmente se cree. Desafortunadamente, este es un razonamiento mucho, muy difícil de entender o aceptar por el hombre contemporáneo. (No obstante, en términos no eufónicos, el autor profetiza que los cambios y acontecimientos transcendentales que se avecinan, nos obligaran a cambiar de actitud). Respecto a la aleatoriedad estadística, en una lotería donde se juegan 54 números, de los cuales se seleccionan 6, la probabilidad de acertar comprando un solo boleto es la probabilidad del recíproco de la combinación nCr = n! / [(n r)!r!], es decir, p = 1/54C6, lo que da una probabilidad mucho muy pequeña de 3.9x10-8. Para el investigador estadístico, esto indica que es mucho, muy improbable que se acierte comprando un solo boleto. Sin embargo, ¿como podemos explicar el hecho de que hay ocasiones en que se acierta a esa lotería comprando un solo boleto? De un punto de vista objetivista, la mayoría de la gente diría que eso se debió a la mera casualidad (y no a la causalidad como debería ser). Sin embargo, si los sucesos en el universo ocurrieran aleatoriamente, es decir, a la casualidad o “a la buena o mala suerte”, como comúnmente se cree, entonces, esto sería una irreverencia a la perfección universal. Esto sería una afrenta al hecho de que vivimos en un universo perfecto. La mala interpretación de que en el universo todo está ocurriendo al azar (al encadenamiento de los sucesos), sería un atentado contra la perfección de todo lo creado por una Entidad Infinitamente Perfecta (donde nada ocurre aleatoriamente, como hartamente lo han afirmado los científicos, matemáticos y filósofos, como Descartes, Leibniz, Newton, y demás científicos no convencionales). No obstante, del punto de vista del autor, sin ánimos de
www.full-ebook.com
menoscabar o contradecir la probabilidad estadística convencional o tradicional explicada en libros de probabilidad y estadística, aquí tenemos que explicar esto, a través de un nuevo tipo de probabilidad, en la cual el autor la llamaría “probabilidad estadística metafísica o abstracta”, es decir, de acuerdo a una ley causal universal, en donde no existe el espacio ni el tiempo (Ver Paztor, 1998). Por otro lado, es de saberse que la estadística es la rama más difícil de las matemáticas, por la extensión tan enorme que tiene, y por su característica estocástica (que involucra aleatoriedad o probabilidad). Además, esta ciencia es difícil, por el razonamiento tan exhaustivo que se tiene que hacer, para entender la teoría y la solución de los problemas aplicados. También, la estadística es complicada por el dinamismo que la caracteriza, debido al resurgimiento de nuevas funciones matemáticas que constantemente evolucionan las propias raíces de la probabilidad y de la estadística. Este libro de estadística se ha escrito para investigadores, ingenieros profesionistas, matemáticos, estudiantes e investigadores interesados en los métodos estadísticos aplicados a la ingeniería ambiental y demás disciplinas relacionadas con esta ciencia. En este renglón, tal vez el lector esté sorprendido de los problemas de hidrología que se aplican en este libro de ingeniería ambiental. Antes de la era industrial no había una relación estrecha entre la ingeniería ambiental y la hidrología, pero en estos tiempos modernos, debido al calentamiento global (que es una parte muy importante de la ingeniería ambiental), por las emisiones artificiales de gases de invernadero, esta situación está alterando los patrones de lluvia haciendo que haya muchos eventos extremos como muchas inundaciones alternadas con sequías. Estas situaciones desde luego, están afectando los periodos de retorno, mismos que son parte de estudios de hidrología. De esta manera, el ingeniero hidrólogo, en confabulación con el ingeniero civil tiene que sobredimensionar las estructuras hidráulicas, modificando los periodos de retorno, de tal manera que puedan soportar los eventos extremos como aluviones. Es por esta razón que en este texto se incluyan problemas de hidrología. Por otra parte, este texto busca darle al lector los conocimientos estadísticos y matemáticos necesarios para que pueda resolver estos problemas, no solo dentro del ámbito académico o universitario, sino también en la vida práctica. Con una selección apropiada de los capítulos de este libro, este texto se puede usar en
www.full-ebook.com
cursos de dos semestres para licenciaturas en ingeniería ambiental, y demás ramas afines. Igualmente, para cursos de postgrado este texto se puede usar en un semestre. Muchas de las aplicaciones estadísticas de este libro, usando ejemplos y ejercicios, están orientadas a los campos de la ingeniería del ambiente, hidrología, tecnologías del agua, y así sucesivamente. Este texto incluye, más de 1300 problemas (incluyendo los incisos), es decir, aproximadamente, 540 ejemplos explicados en el cuerpo del texto, más aproximadamente, 800 ejercicios complementarios (varios de los cuales son hechos con datos reales). Además, el texto incluye, aproximadamente, 217 gráficas, y más de 40 tablas. Esta obra de probabilidad y estadística está diseñada para cursos de licenciatura y postgrado, en las áreas de ingeniería ambiental. No obstante, los requisitos para entender mejor los conceptos mostrados aquí, es deseable tener conceptos básicos de estadística y probabilidad, cálculo diferencial e integral, con derivaciones parciales e integración múltiple. Además, el cálculo y desarrollo de los problemas o ejercicios del libro, requiere del uso de programas de computadora, como el Minitab y el Excel. Por ejemplo, el uso del Minitab esta diseñado de tal manera que el estudiante desarrolle, primeramente, los problemas de estadísticas, manualmente, es decir, usando las funciones y fórmulas y, enseguida, se le instruye en el uso del Minitab para comparar los resultados obtenidos usando ambos enfoques. Cada capítulo de esta obra cuenta con definiciones claras y pertinentes, teoremas y principios, material abundante en gráficas y tablas, todo esto para que el lector pueda asimilar y aplicar sus conocimientos a la solución de los problemas de estadística. Por ejemplo, el Capítulo 1 está relacionado con estadística descriptiva, da definiciones claras y precisas de lo que se llama estadística descriptiva e inferencial, población y muestra. Este capítulo da una explicación de las medidas de tendencia central o de localización y de las medidas de variabilidad o dispersión, tablas de frecuencia, definición de frecuencia relativa acumulada o probabilidad acumulada, probabilidad de densidad, métodos gráficos y así sucesivamente. Finalmente, este capítulo da instrucciones claras y precisas acerca del uso del programa de cómputo Minitab para la solución de los problemas de estadística descriptiva. Más adelante, el Capítulo 2 da una introducción a la probabilidad.
www.full-ebook.com
Este capítulo da una definición de la probabilidad clásica, probabilidad de frecuencia relativa y probabilidad subjetiva. Además, este capítulo da la terminología usada en probabilidad como por ejemplo, experimento, evento, muestra aleatoria, unión, complemento, probabilidad condicional, variable aleatoria, estocástico, etc. Ahí, también se dan definiciones de la regla de producto o multiplicación más general, regla factorial, diagramas de árbol, permutaciones, combinaciones, etc. Más adelante, el Capítulo 3 habla de variables aleatorias discretas y distribuciones de probabilidad discreta, como la binomial, Poisson, la distribución hipergeométrica, la binomial negativa y la distribución geométrica. Además, este capítulo da una descripción de las distribuciones de probabilidad de variables aleatorias discretas, función de distribución acumulada, esperanza matemática y así sucesivamente. Igualmente, este capítulo describe la aplicación de la distribución de Poisson dentro de sus propios términos y como una aproximación a la distribución binomial y habla también de la relación de la distribución hipergeométrica y la binomial, y de riesgo y confiabilidad, etc. Más adelante, el Capítulo 4, está relacionado con variables aleatorias continuas y distribuciones de probabilidad. Ese capítulo da la definición de variable aleatoria continua, función de probabilidad de densidad y función de distribución acumulada, función generadora de momentos, etc. Después, ese capítulo habla de la distribución normal, teorema del límite central, la relación entre la distribución binomial, Poisson y la normal. Además, discute las distribuciones exponencial, gamma, Weibull, lognormal, t de estudiante, JI cuadrada, F, etc. Igualmente, este capítulo describe la distribución Gumbel, posiciones de graficación, etc. Finalmente, este capítulo hace un uso extensivo del Minitab para hacer gráficas de probabilidad, cálculo de probabilidades acumuladas y de función de masa, etc. Con relación al Capítulo 5, esta sección discute las distribuciones de la muestra y da una definición del término de distribución muestral y, finalmente, explica las conclusiones derivadas del teorema del límite central. En forma análoga, el Capítulo 6 discute el concepto de estimación estadística y explica los intervalos de confianza para la media poblacional para muestras grandes y pequeñas. Este capítulo, también habla de intervalos de confianza para proporciones, intervalos de confianza para funciones de t pareadas, intervalo de confianza para la estimación de la varianza usando la JI cuadrada, la F, etc. Finalmente, este capítulo hace un uso muy extensivo del Minitab. Con respecto al Capítulo 7, ahí se discute el concepto de pruebas de hipótesis y se habla de temas como hipótesis alternativa y nula, errores tipo I y
www.full-ebook.com
II, potencia de la prueba, interpretación de las pruebas de hipótesis, y la interpretación del valor de la probabilidad p. Igualmente, ahí se habla de inferencia acerca de la descripción de un solo parámetro, es decir probando μ con σ2 conocida (distribución normal) y de pruebas de hipótesis uniformemente más potentes usando el lema de Neyman-Pearson. Finalmente, también discute pruebas de hipótesis para diferencias de dos medias, pruebas de t para observaciones pares, pruebas de hipótesis usando la distribución de JI cuadrada (χ2) distribución F y su aplicación en la comparación de varianzas muestrales, pruebas de hipótesis para proporciones y, finalmente, hace un uso extensivo del Minitab. El Capítulo 8 está relacionado con el análisis de varianza (ANOVA). Ahí se discuten el ANOVA de un sentido, procedimiento de comparaciones múltiples, ANOVA de diseño de bloques completamente aleatorizados, experimentos factoriales, como ANOVA de dos clasificaciones, ANOVA de tres y cuatro clasificaciones ya así sucesivamente. Además, ese capítulo discute el concepto de interacción y, finalmente, hace un uso muy extensivo del Minitab. Igualmente, esa parte habla de modelos de regresión lineal, múltiple y polinomial. Ahí se discuten modelos de regresión lineal múltiple con dos o más variables independientes y el concepto de interacción, esto igualmente ocurre con modelos polinomiales. Ahí, también se discuten las técnicas para el ajustamiento y evaluación de la utilidad del modelo de regresión seleccionado, es decir, usando diagnósticos objetivistas, como el coeficiente de determinación R2, error estándar estimado, PRESS, homoscedasticidad y heteroscedasticidad, etc. Ese capítulo también habla de tipos de correlación lineal, intervalos de confianza para los parámetros del modelo de regresión lineal, múltiple y polinomial. Además, ese capítulo discute ampliamente, el problema de colinealidad, su detección y corrección. Ahí se habla también de la metodología para mitigar valores altos de VIFs (VIFs, variance inflation factors por sus siglas en ingles) causantes de colinealidad usando el centrado de valores de X y así sucesivamente. Igualmente, en ese capítulo se hace un uso muy extensivo del Minitab. Finalmente, en cuanto al Capítulo 10, series de tiempo, ahí se hacen varias aplicaciones a los campos de los usos del agua y de la hidrología. En ese capítulo se discute la clasificación de movimientos de series de tiempo, el modelo multiplicativo y aditivo, métodos de suavizamiento y pronóstico, medias móviles, suavizamiento exponencial, método de Winter y el modelo polinomial de tendencia a largo plazo. Además, en ese capítulo de series de tiempo se discuten métodos de descomposición, autocorrelación, estadística de Durbin-
www.full-ebook.com
Watson, para probar por autocorrelación y técnicas autoregresivas. Finalmente, en ese Capítulo 10 se hace una exploración innovadora aplicando la función ARIMA y el método de Box-Jenkins, para el procesamiento de los datos de gases de invernadero (causantes del calentamiento global) de la estación muestreadora de Mauna Loa, Hawai. Para concluir, debe decirse que, esta es una obra universitaria clásica de la aplicación de métodos estadísticos, que está generalmente diseñada para estudiantes de ingeniería ambiental, ingeniería civil (en la rama de hidrología), usos del agua, tecnologías del agua, y así sucesivamente. Igualmente, este texto de probabilidad y estadística está diseñado para aquellos investigadores quienes deseen encontrar todos los conceptos prácticos de la estadística en general, que les pueda ayudar en el desenvolvimiento de su profesión, en la investigación, en cualquier área de la ciencia en general o en la vida cotidiana o práctica. Noviembre de 2011
www.full-ebook.com
Perfil profesional de los autores El autor de este texto de estadística, Héctor Adolfo Quevedo Urías (Ph. D.) obtuvo su carrera profesional en la University of Texas at El Paso, en El Paso, Texas, E. U. Su maestría la obtuvo en el Departamento de Civil Engineering and Environmental Science of the University of Oklahoma, en Norman, Oklahoma, U.S.A. Igualmente, el doctorado lo obtuvo en el Departamento de Civil Engineering and Environmental Science of the University of Oklahoma, en Norman Oklahoma, U. S.A (1986). El autor ha hecho varios trabajos de consultaría en el área de estadística y de ingeniería. Además, el autor ha escrito otro libro de estadística intitulado Estadística para Ingeniería y Ciencias (2008) publicado por el Grupo Editorial Patria. También, el autor ha escrito otro libro intitulado Una Nueva Filosofía Médica Racionalista (1998) publicado por Naturheilkunde Publishing Company, en El Paso, Texas, U. S. A. Además, el nombre del autor está inscrito en la colección biográfica de Marquis Who’s Who, es decir, en el Marquis Who’s Who in the World (2010), Who’s Who in America y Who’s Who in Science and Engineering. Finalmente, el suscrito ha hecho muchas publicaciones y presentaciones técnicas de investigaciones científicas en las áreas de estadística y probabilidad, química, ingeniería ambiental, y así sucesivamente. Actualmente, se está desempeñando como maestro e investigador del Departamento de Ingeniería Civil y Ambiental del Instituto de Ingeniería y Tecnología de la Universidad Autónoma de Cd. Juárez, donde imparte clases a nivel de postgrado y de licenciatura, como también clases de estadística, probabilidad, química, ingeniería ambiental e ingeniería civil.
www.full-ebook.com
Hector Adolfo Quevedo Urias El coautor de este libro, Humberto García (Ph. D.) es maestro e investigador del Instituto Tecnológico de Estudios Superiores de Monterrey (campus Juárez). Obtuvo su Licenciatura (1984) en el campo de la física, en la Universidad Autónoma de Nuevo León, (UANL), Monterrey, N.L., México. Después, obtuvo su maestría (1995) en el campo de la física en Centro de Investigación y de Estudios Avanzados del Instituto Politécnico Nacional (CIEA del IPN), México. Posteriormente, obtuvo su doctorado (2004) en ciencias ambientales en University of Texas at El Paso, El Paso, Texas. Ha sido maestro e investigador (1986-Actualmente) en ITESM Campus Cd. Juárez actuando como Profesor de: Estadística Básica, Técnicas de Pronóstico, Probabilidad, Física, Electromagnetismo, Matemáticas, Análisis de Regresión, Ecuaciones Diferenciales, Desarrollo Sustentable, Diseño de Experimentos, Ecología Industrial, Cambio Climático. Ha sido Coordinador del programa Ford-ITESM (1988-1991). Además ha sido Coordinador del programa de Desarrollo de Habilidades del Pensamiento (DHP) ITESM, 2008. También ha actuado como Coordinador y organizador del Congreso Internacional de Investigación Científica Multidisciplinaria (2008). Actualmente, es Director del Centro de Investigación y Desarrollo Tecnológico (CIDT).
www.full-ebook.com
Capítulo 1
www.full-ebook.com
Estadística Descriptiva Dr. Héctor Adolfo Quevedo Urías (Ph.D.)
Temas descritos en este capítulo
1.1. Estadística
1.2. Población
1.3. Muestra
1.4 Medidas de tendencia central o de localización
1.5. Medidas de Variabilidad o Dispersión
1.6. Tablas de frecuencia (resumiendo los datos)
1.7. Métodos graficos
1.8. Simetría
1.9. Media y varianza de datos agrupados
1.10. Instrucciones para el uso del Minitab en Estadística Descriptiva
www.full-ebook.com
1.1. Estadística. La Estadística en una rama de las matemáticas que se clasifica en dos grandes rubros: Estadística Descriptiva y Estadística Inferencial. Por ejemplo la estadística descriptiva consiste en el conjunto de métodos que se utilizan para organizar, clasificar y presentar la información contenida en los datos analizados por medio de gráficas o tablas, así como el conjunto de medidas para indicar su dispersión y su localización. Igualmente, la estadística inferencial consiste en el conjunto de métodos que se utilizan para inferir alguna característica de la población bajo estudio con únicamente información parcial. Con esta rama de la estadística se infieren las características de la población de donde se obtuvo el subconjunto de datos. 1.2. Población. La población, universo, conjunto o total se refiere a todo el conjunto de observaciones o grupo de ítems que tienen una característica en común. Una población puede ser definida como un grupo de individuos, como por ejemplo, una persona, un animal, un objeto o una medición. Además, una población puede ser finita o infinita. Los parámetros de una población siempre se representan por símbolos griegos como el promedio poblacional μ, la varianza poblacional σ2, la desviación estándar poblacional σ, etc.; o bien, por letras mayúsculas como el tamaño de la población N, la proporción poblacional P, etc. 1.3. Muestra. En este contexto, es muy importante distinguir entre una población y una muestra. En la colección de datos de un grupo de observaciones, a menudo es imposible o impráctico observar toda la población. De manera que, en lugar de examinar el grupo en su totalidad, es conveniente examinar, solamente, una parte de la población llamada muestra. Una muestra se refiere a una colección de observaciones sacadas de una población. Dichas observaciones muestrales se llaman estadísticos y constituyen estimadores de sus parámetros poblacionales asociados. Por ejemplo, si denota el promedio aritmético estadístico de una muestra, entonces, es el estimador del parámetro μ de todo el conjunto o población. . Aquí es conveniente distinguir entre los términos parámetros (donde se usan símbolos griegos o letras mayúsculas) versus estadísticos (donde se usan símbolos latinos o letras minúsculas). Los parámetros se refieren a poblaciones infinitas o finitas. Sin embargo, los estadísticos ser refieren a una muestra. Por ejemplo, si una muestra es representativa de una población se pueden sacar conclusiones importantes acerca de esta población madre. Sin embargo, es importante notar que la muestra debe ser aleatoria, porque de otra manera, la inferencia acerca de la población será inválida.
www.full-ebook.com
1.4 Medidas de tendencia central o de localización. Las medidas de tendencia central o de localización son: el promedio, la mediana, la moda, promedio geométrico, promedio armónico, percentiles, cuartiles, deciles, etc. Como su nombre lo indica, las medidas de tendencia central son valores que indican la posición que, en promedio, tienen los datos; en palabras llanas, una medida de localización se puede ver como un representante de la posición de los datos. Sin embargo, antes de iniciar esta sección es importante señalar los símbolos usados en las sumatorias de estadística. Los ejemplos se dan abajo: El símbolo
se usa para denotar la suma de todas las Xjs, esto es:
Desde j = 1 hasta j = n.
Nótese la diferencia entre ΣX 2 y (ΣX)2 La suma de los cuadrados (SS), es decir, la suma de las desviaciones al cuadrado de X de su promedio se denota como: La suma total de los cuadrados
www.full-ebook.com
1.4.1. Media aritmética. Para denotar la media aritmética se usa el símbolo convencional de . La media aritmética es el promedio común de los datos. Por ejemplo, si se dan los datos , entonces, su media aritmética es:
La media aritmética de la variable X se denota como . Ejemplo 1.1. Encontrar la media aritmética de una muestra aleatoria de concentraciones nitratos (mg/L) de aguas residuales municipales. Los datos son: 3, 5, 9, 4, 6, 7. Solución: Usando la ecuación (1-2) y sustituyendo da:
Esto significa que los datos están posicionados alrededor de 5.67. Ejemplo 1.2. Encontrar la media aritmética de una muestra aleatoria de análisis de pH (potencial de hidrógeno) en soluciones acuosas, cuyos valores son 8, 3, 5, 12, 10. Solución:
www.full-ebook.com
Como se aprecia, la media aritmética, únicamente tiene sentido cuando se calcula con variables cuantitativas o numéricas. 1.4.2. Mediana. La mediana es el valor que se encuentra en el centro, cuando se han ordenado a los datos. La mediana se denota con la letra M o . Debido a que, para calcular la mediana se deban primero ordenar los datos, la mediana se puede calcular sólo a variables cuantitativas. La posición de la mediana se calcula con la fórmula (n+1)/2, donde n es el número de datos. Si el resultado de esta fórmula es un entero, entonces la mediana es el dato que ocupa esa posición, si el resultado de la fórmula es fraccionario, la mediana es el promedio entre los valores que se encuentran en las posiciones de los enteros más cercanos al resultado. Ejemplo 1.3. Encontrar la mediana de los datos 8, 3, 5, 12, 10. Solución: Primero se ordenan los datos de menor a mayor, 3, 5, 8, 10, 12 La mediana es el dato que está en el lugar (5 + 1)/2 = 3, 3 es entero, entonces, la mediana es el tercer dato en orden creciente. Por lo tanto, M = 8. Si el número de datos es par, entonces la mediana es el promedio de los dos datos del centro. Ejemplo 1.4. Encontrar la mediana de las mediciones 8, 3, 5, 12, 10, 6. Solución: Primero se ordenan los datos de menor a mayor, es decir, 3, 5, 6, 8, 10, 12.
www.full-ebook.com
Hay 6 datos, entonces la fórmula es (6+1)/2 = 3.5. Esto significa que la mediana es el promedio de los datos que están en los lugares 3 y 4, esto es, el promedio de 6 y 8, que son los datos centrales. Por lo tanto, la mediana = (6 + 8)/2 = 7. 1.4.3. Moda. La moda de un conjunto de datos es el valor que ocurre con más frecuencia. La moda se denota como Mo o . La moda se puede calcular a datos cuantitativos o cualitativos. La moda, a diferencia de la media aritmética o de la mediana, no necesariamente es un valor único. Por convención, si los datos aparecen una sola vez, se dice que esos datos no tienen moda. Ejemplo 1.5. Las mediciones de cromo (mg/L) en el agua dadas como 2.0, 2.0, 5.0, 7.0, 9.0, 9.0, 9.0, 10.0, 10.0, 11.0, 12.0, 18.0, tienen una moda igual a 9, es decir, el valor que ocurre con más frecuencia. Ejemplo 1.6. Los valores 3, 5, 8, 10, 12, 15, 16 no tienen moda. Ejemplo 1.7. La muestra de observaciones 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9 tiene dos modas, 4 y 7 por lo tanto es bimodal. Ejemplo 1.8. Encontrar la media aritmética, la mediana M y la moda Mo para una muestra aleatoria de concentraciones de cobre (Cu) en aguas residuales, en unidades de mg/L: 3, 5, 2, 6, 5, 9, 5, 2, 8, 6 Solución La media aritmética es:
Para obtener la mediana se ordenan los datos: 2, 2, 3, 5, 5, 5, 6, 6, 8, 9; el lugar donde se encuentra la mediana es (n+1)/2. Como son 10 datos, entonces la mediana está en el lugar (10+1)/2=5.5. La mediana es el promedio entre los
www.full-ebook.com
datos que ocupan los lugares 5 y 6. La mediana es M = (5+5)/2 = 5. Para obtener la moda se utiliza la lista de datos ordenados, se puede ver que el 5 aparece más veces, entonces la moda es Mo = 5. Ejemplo 1.9. Encontrar la media aritmética, la mediana y la moda de las mediciones de 48.7, 48.8, 49.5, 50.3, 51.6. Solución: La media es: = 49.8, La mediana es: M = 49.5 La moda, Mo no existe 1.4.3.1. Relación entre el promedio aritmético, la mediana y la moda. Si el promedio, la mediana y la moda coinciden, entonces la distribución es simétrica; de otra manera, la distribución es asimétrica con sesgo a la derecha o la izquierda. Ver figuras de abajo.
www.full-ebook.com
1.4.4. Media geométrica. La media geométrica es útil para promediar tasas de crecimiento (aumento o decremento) de una muestra estadística. Esta medida de localización sólo puede ser calculada para datos numéricos positivos. La media geométrica se calcula con la fórmula
(1-3) Un resultado importante de esta medida de posición es que el logaritmo de G es igual a la media aritmética de los logaritmos de los datos. Al calcular el logaritmo de la función (1-3) se obtiene:
(1-3ª) Ejemplo 1.10. Encontrar la media geométrica de una muestra de concentraciones de la demanda bioquímica de oxígeno (DBO) de una muestra de aguas municipales, cuyos valores son 3, 5, 6, 6, 7, 10, 12 mg/L. Solución:
www.full-ebook.com
1.4.5. Media armónica. La media armónica es uno de varios tipos de promedios. Esta media es apropiada en situaciones donde el promedio de tasas es deseado. Por ejemplo, la media armónica de los datos se define como
Ejemplo 1.11. Calcule la media armónica de las mediciones de partículas atmosféricas en unidades de micras, es decir, 2, 3, 7 ppm. Solución El promedio armónico de los números 2, 3, 7 se calcula usando la función (1-4):
1.4.6. Percentiles, cuartiles y deciles. Un percentil (o centil) es el valor de una variable, en la cual cae un cierto porcentaje de las observaciones de una muestra. En otras palabras, un percentil es uno de los noventa y nueve puntos que dividen una distribución en cien partes de igual frecuencia. Los percentiles más comúnmente usados incluyen a la mediana (o percentil del 50%), el cuartil
www.full-ebook.com
inferior (o percentil del 25%), el cuartil superior (o percentil del 75%), el percentil del 10%, que corta el 10% inferior de una distribución de frecuencias y el percentil del 90% que corta el 10% superior. De esta manera, los cuartiles es una medida de dispersión que indica la posición relativa de los datos. Los cuartiles dividen un juego de mediciones en cuartos y deciles. Por ejemplo, cada grupo de datos tiene 3 cuartiles, Q1, Q2, Q3. Si se arreglan los datos de menor a mayor, el primer cuartil de los datos es igual o menor que Q1. El segundo cuartil Q2, igual a la mediana; el 50% de los datos igual o mayor que la mediana. Para el tercer cuartil, los primeros 75% de los datos es ≤ Q3 y el 25% ≥ Q3. Los cuartiles son medidas que indican la posición de los datos, sin que esta posición sea central. Los deciles se refieren a cualquiera de los números o valores de una serie, que dividen la distribución de las observaciones en las series, en grupos de diez de frecuencias iguales. Definición. El p-ésimo percentil es un valor tal que, por lo menos un p por ciento de los elementos tienen dicho valor o menos y, al menos, un (100 – p) por ciento de los elementos tienen este valor o más. 1.4.6.1. Función calculadora del p-ésimo percentil. De acuerdo a Anderson et al. (2001) para calcular el p-ésimo percentil se usa la función: i = (p/100)n (1-5) Donde i es un índice, p es el percentil de interés y n es una cantidad de elementos. Ejemplo 1.12. Calcular los tres cuartiles de los datos de la Tabla 1.1 de abajo de mediciones de fosfatos (PO4-3) en unidades de mg/L de aguas residuales industriales. Tabla 1.1. Tabla mostrando los datos pertinentes a este ejemplo.
www.full-ebook.com
Hacer lo siguiente: (a) Calcular el primer cuartil, Q1 (b) Calcular el segundo cuartil, Q2 (c) Calcular el tercer cuartil, Q3 Solución: 1. Primeramente, se ordenan los datos en forma ascendente 2. Luego se calcula el índice i usando la función (1-5) 3. Si i no es entero, se redondea. El valor entero inmediato mayor que i indica la posición del p-ésimo percentil. Sin embargo, si i si es entero, el p-ésimo percentil es la media de los valores de los datos ubicados en los lugares i y (i + 1) Los datos en forma ascendente son: 11.0 45.0
15.5 53.0
25.0 72.5
28.0
28.0
29.0
32.0
34.0
(a) Para determinar el primer cuartil, Q1, para esto procedemos como:
www.full-ebook.com
35.0
Q1, p es igual a 25 y n es igual a 12. Por lo tanto, i = (25/100)12 = 3 Como i es entero, el primer cuartil o 25% percentil es la media del tercero y cuarto valor de los datos, es decir, Q1 = (25.0 + 28.0) / 2 = 26.5 (b) Para determinar el segundo cuartil o la mediana, p es igual a 50 y n = 12, es decir, i = (50/100)12 = 6 Como i es entero, el segundo cuartil Q2 es la media del sexto y séptimo valor de los datos, es decir, Q3 = (29.0 + 32.0)/2 = 30.5 (c) Para determinar Q3, p es igual a 75, n = 12. Por lo tanto: i = (75/100)12 = 9 Como i es entero, el tercer cuartil es la media del noveno y décimo valor de los datos, es decir, Q3 = (35.0 + 45.0)/2 = 40.0 1.5. Medidas de Variabilidad o Dispersión. En esta sección vamos a estudiar algunas de las medidas de dispersión como el rango, el rango intercuartílico, la varianza, la desviación estándar, etc., que se utilizan para describir a los datos. Es importante hacer notar que, únicamente, a las variables cuantitativas se les puede calcular su variación. 1.5.1. Rango. El rango denotado por la letra R, es la medida de dispersión más simple. El rango es igual al valor máximo menos el valor mínimo. El rango se denota con la letra R. De esta manera, se puede ver que el rango corresponde a la longitud del intervalo donde se encuentran distribuidos los datos. Si el rango es pequeño los datos son poco variables y si el rango es grande, los datos están muy
www.full-ebook.com
dispersos. Ejemplo 1.13. En estudios del agua, encontrar el rango de las mediciones de oxígeno disuelto (O.D.), en unidades de miligramos por litro (mg/L) de una muestra aleatoria de aguas de un sistema lacustre, dadas como 2, 3, 3, 5, 5, 5, 8, 10, 12. Solución: El número más pequeño es mínimo = 2 y el más grande es el máximo = 12, entonces: R = 12 - 2 = 10. Esta medida de dispersión es muy sensible a valores extremos, esto se debe a, que si un solo dato está alejado del resto, este valor extrínseco será determinante para indicar una variación grande. 1.5.2. Rango Intercuartílico. El rango intercuartílico se da como: RI = Q3 - Q1
(1-6)
El RI es la diferencia entre los cuartiles Q3 y Q1 y es el rango en el que caen el 50% de las mediciones centrales, dejando fuera la cuarta parte de los datos más chicos y la cuarta parte de los datos mayores. El RI es una medida de dispersión que no es tan sensible a la presencia de valores extremos. Aquí hay que estar consciente de que, para el cálculo correcto del RI, los datos deben estar ordenados de antemano. El rango intercuartílico corresponde a la longitud del intervalo donde se encuentra la mitad de los datos centrales, dejando fuera la cuarta parte de los datos más chicos y la cuarta parte de los datos mayores. Ejemplo 1.14. En estudios del agua, encontrar el rango intercuartílico (RI) de una muestra aleatoria de agua de análisis de sulfatos (SO4-2) dadas como: 2.0, 3.0, 3.0, 5.0, 5.0, 5.0, 8.0, 10.0, 12.0 mg/L.
www.full-ebook.com
Solución: Como los datos ya están ordenados de menor a mayor, se procede a calcular las posiciones del primer y tercer cuartiles. El número de datos es n = 9, entonces la posición de la mediana es (9+1)/2 = 5, la mediana es el dato número 5. M = Q2 = 4. El valor m es igual a 5, entonces, la posición de Q1 y Q3 es: (m+1)/2 = (5+1)/2 = 3 Los cuartiles están en la tercera posición. Entonces Q1 = 3 y Q3 = 8. El rango intercuartílico se calcula usando la ecuación (1-6), es decir: RI = Q3 - Q1 = 8 – 3 = 5 1.5.3. Varianza. La varianza s2 es una de las medidas de dispersión más utilizada y se define mediante la fórmula:
También, el método corto para calcular la varianza es como sigue:
(1-7ª)
www.full-ebook.com
Donde: SS es la suma de los cuadrados y n es el tamaño de la muestra La varianza es una clase de promedio de las desviaciones al cuadrado de cada dato respecto a la media. En consecuencia, cuando todos los datos son iguales, la varianza = 0, además, conforme la dispersión de los datos aumenta el valor de la varianza también aumenta. Ejemplo 1.15. Encontrar la varianza de las mediciones de 7, 7, 7, 7, 7. Solución: Primero se calcula la media estadística de los datos y en este caso es igual a 7. Luego, se calcula la varianza usando la función (1-6a) y da:
Aquí, no hay variación en los datos puesto que todos son iguales y la varianza es igual a 0. Ejemplo 1.16. En un estudio del agua, se desea encontrar la varianza estadística de las mediciones de sodio (Na) de una muestra de aguas subterráneas, cuyos valores se dan como 3, 2, 6, 5, 4, en mg/L. Solución: El promedio de estos datos es,
, entonces la varianza es
www.full-ebook.com
La explicación de dividir entre n-1 en lugar de n (son n los términos que se están sumando) se explicará en el capítulo dedicado a la estimación de parámetros. 1.5.4. Desviación estándar. La desviación estándar es otra medida de dispersión muy importante. Aquí, sin embargo, es importante introducir una nota aclaratoria. Por ejemplo, al definir la varianza de los datos se introdujo el término al cuadrado en los sumandos, esto se hace para asegurar que la contribución a la suma de la variación de cada dato sea un valor positivo y que en consecuencia realmente mida que tan diferente es el dato al valor central; no obstante, con este hecho se distorsiona la esencia de los datos, pues se cambia de unidades. En efecto, si por ejemplo, las mediciones de la variable X es en metros, el promedio también está en metros, la dispersión de cada dato respecto a la media aritmética (Xi- ) también está tomada en metros, pero el cuadrado de este término (Xi- )2 está en metros cuadrados, por lo que la varianza mide la dispersión de los datos, pero en metros cuadrados. Para regresar a las unidades originales se debe calcular la raíz cuadrada de la varianza, es de esta manera que se define la desviación estándar. La desviación estándar se define como la raíz cuadrada de la varianza s2 esto es: s = √s2
(1-8)
Donde s es la desviación estándar de la muestra 1.5.5. Sesgo. El sesgo describe simetría en los datos. Es una medición de simetría, o más bien, falta de simetría. Una distribución es simétrica si se ve igual a la izquierda y a la derecha del punto central. Para que una distribución sea simétrica, su sesgo debe ser igual a cero. Si el sesgo es menor que cero, la distribución es oblicua hacia la izquierda. Sin embargo, si el sesgo es mayor que cero, la distribución es oblicua hacia la derecha. 1.5.6. Curtosis. La curtosis es una función que caracteriza lo “aplastado” o “picudo” de una distribución comparada con la distribución normal. Una curtosis positiva indica una distribución relativamente “picuda” y una curtosis positiva indica una distribución aplastada. De acuerdo a Brown (1996), un valor de curtosis igual a 0.09581 sería un valor aceptable para una distribución mesocurtica (que es normalmente alta), porque este valor está cercano a cero.
www.full-ebook.com
Sin embargo, a medida que el valor de la curtosis se aleja de cero, un valor positivo indica la posibilidad de una distribución leptocurtica (muy picuda) y un valor negativo indica una distribución platicurtica (muy aplastada o hasta cóncava si el valor es muy alto). 1.6. Tablas de frecuencia (resumiendo los datos). Aquí en esta sección es necesario aclarar que, con el advenimiento de los paquetes de cómputo, la estructuración de tablas de frecuencia hechas manualmente, pues ya es tan sólo de interés histórico. De cualquier manera se darán algunas definiciones respecto a este tema. 1.6.1. Tablas de frecuencia. Una tabla de frecuencia es un método para hacer colecciones grandes de datos. La tabla de frecuencia se llama así porque enlista varias categorías de los valores junto con sus frecuencias correspondientes. Las tablas de frecuencia se construyen basadas en cinco criterios de clase: Límites de clase (inferior y superior), linderos de clase, marcas de clase, anchura de clase y frecuencias de clase. 1.6.2. Límites inferiores de clase. Los límites inferiores de clase son los números más pequeños que pertenecen a cada una de las clases. En contrapartida, los límites superiores de clase son los números más grandes que pertenecen a las diferentes clases. 1.6.3. Linderos de clase. Los linderos de clase, se obtienen incrementando los límites superiores de clase y disminuyendo los límites inferiores de clases por la misma cantidad de tal manera que no haya espacios entre clases consecutivas. 1.6.4. Marcas de clase. Las marcas de clase son los puntos medios de las clases. 1.6.4.1. Anchura de clase. La anchura de clase es la diferencia entre dos límites de clase consecutivos. La anchura de clase se obtiene dividiendo el rango entre el número de clases deseado. 1.6.4.2. Frecuencia de clase. La frecuencia o porcentaje para una categoría o clase es el número de valores originales que caen dentro de esa clase. Empleando las frecuencias de clase se pueden calcular también las frecuencias relativas de
www.full-ebook.com
clase; así como la frecuencia acumulada, la cual, como su nombre lo indica es la frecuencia acumulada hasta una clase punto en particular. 1.6.4.3. Frecuencia. La frecuencia o porcentaje para una categoría o clase es el número de valores originales que caen en esa clase. 1.6.5. Frecuencia acumulada. Como su nombre lo indica es la frecuencia acumulada hasta ese punto en particular. Tabla 1.2. La tabla de abajo da un ejemplo de una tabla de frecuencia de mediciones de una muestra aleatoria de partículas atmosféricas de Cd emitidas por una fundición de metales.
La frecuencia relativa de una clase es la frecuencia absoluta entre el total de datos. Esto es,
La suma de las frecuencias relativas es igual a 1 o 100%, independientemente del número de datos que se tengan. Ejemplo 1.17. Calcule la frecuencia relativa de los datos de la Tabla 1.3 de abajo.
www.full-ebook.com
Solución: Tabla 1.3. Tabla mostrando la solución de este problema.
En ocasiones la frecuencia relativa se representa como un porcentaje, no como fracción. Ejemplo 1.18. Escribir la misma Tabla 1.3 de arriba con la notación de porcentaje para la frecuencia relativa. Solución: La tabla de abajo muestra la información pertinente a este ejemplo. Tabla 1.4. Tabla dando la respuesta a este ejemplo.
www.full-ebook.com
1.6.6. Frecuencia Relativa Acumulada (f.r.a.). La frecuencia relativa acumulada, también llamada función de distribución acumulada (fda) o probabilidad acumulada (nombre dado por el Minitab), para cualquier valor de X, da la probabilidad acumulada asociada con una función de distribución de probabilidad. En otras palabras, para cualquier valor de X, la fda es la probabilidad de que una variable aleatoria tenga un valor ≤ X. La f.r.a. es otra forma de describir los datos. La gráfica de las probabilidades acumuladas vs. valores de X, da una curva en forma de S. 1.6.7. Frecuencia Relativa (f.r.). La frecuencia relativa también llamada probabilidad de densidad (nombre dado por el Minitab) es la probabilidad de que una variable aleatoria discreta X tome un valor particular. El concepto análogo para variables aleatorias continuas es el de función de densidad de probabilidad (nombre dado por el Minitab). En este caso es la altura asociada a un valor particular de X. Como se verá más adelante, para distribuciones continuas (normal, exponencial, Weibull, lognormal, etc.), el Minitab usa la función de densidad correspondiente de tal manera que, por ejemplo, para una curva normal la gráfica de su función de densidad vs. los valores de X, da una curva en forma de campana. El Minitab también calcula una función de probabilidad discreta, para funciones de probabilidad discretas como la binomial o de Poisson, como se verá mas adelante. Ejemplo 1.19. Calcular las frecuencias acumuladas de los datos de la tabla 1.5.
www.full-ebook.com
Aquí es de notarse que este método de calcular las f.r.a. y las f.r., ya no se usa con el advenimiento de los paquetes de computadora, pero tiene un valor histórico, esto es, de interés didáctico. Solución Se escriben los datos, la frecuencia acumulada en la clase 2 es 2, la frecuencia acumulada en la clase 3 es 2 + 8 = 10, etc. Esto se describe en la Tabla 1.5 de abajo. Tabla 1.5. Tabla describiendo los datos.
1.7. Métodos gráficos. La representación gráfica de la distribución de frecuencia permite tener una mejor imagen de los datos. Esto se hace con los diagramas de tallo y hojas. 1.7.1. Diagrama de tallo hoja. El investigador estadístico John Tukey introdujo un método relativamente nuevo de organizar datos cuantitativos, como una alternativa a los histogramas, es decir usando diagramas de tallo hoja, como se ve en el ejemplo de abajo: Ejemplo 1.20. Con los siguientes 40 datos de mediciones de cloruros (Cl-) de una muestra aleatoria de aguas residuales constrúyase, manualmente, el diagrama de tallo y hojas. Tabla 1.6. Tabla describiendo los datos de este ejercicio.
www.full-ebook.com
Fuente: H. Quevedo et al. (2008). Estadística para la Ingeniería y Ciencia. Grupo Editorial Patria.
Solución: Para formar el diagrama de tallo hoja, se separa cada observación en dos partes una para formar el tallo y otra para formar la hoja. En este caso, el tallo se forma con el dígito de los enteros, y la hoja con el dígito de los decimales. Por ejemplo, para el número 3.7, el dígito 3 representa el tallo y el dígito 7 representa la hoja. El tallo de los datos del ejemplo está formado por los números 1, 2, 3 y 4. Esto se muestra en la figura de abajo Figura 1.2. Diagrama esquemático mostrando el procedimiento manual para hacer diagramas de tallo y hoja.
www.full-ebook.com
Si en el diagrama observamos que en una clase hay muchos números, se puede hacer un refinamiento, haciendo para cada elemento del tallo dos diferentes conjuntos de hojas. El diagrama de tallo hojas teniendo dos tallos por clase, el primero con los dígitos del 0 al 4 y el segundo con los dígitos del 5 al 9, es ahora mostrado en la figura de abajo: Figura 1.2ª. Diagrama esquemático mostrando el refinamiento de los datos.
www.full-ebook.com
1.7.2. Histogramas. La forma más común de representación gráfica de los datos son los histogramas. Los histogramas consisten en rectángulos adyacentes, cuyas alturas son las frecuencias de clases, mientras que sus bases se extienden entre sucesivas fronteras de clases. Esto quiere decir que cada barra tiene su base sobre la abscisa con centro en la marca de clase y con la altura igual a la frecuencia de clase. Ejemplo 1.21. Este es un ejercicio relacionado con los usos del agua. Elabore el histograma de una muestra de 500 casos de fosfatos (PO4-3) provenientes de un lago contaminado por escurrimientos agrícolas. La Tabla 1.7 de abajo da la información. Tabla 1.7. Tabla mostrando los datos de este problema.
www.full-ebook.com
Solución:
Figura 1.3. Histograma que muestra la distribución de frecuencias de los datos de la Tabla 1.5 de arriba.
www.full-ebook.com
1.7.2.1. Polígonos de Frecuencia. El polígono de frecuencia es una línea quebrada que une los puntos dados por cada marca de clase en la parte superior de cada rectángulo, en el histograma de frecuencia. Ejemplo 1.22. Encontrar el polígono de frecuencia de los datos de la Tabla 1.5. Solución
Figura 1.4. Gráfica mostrando el polígono de frecuencia de los datos de la tabla de arriba. 1.7.3. Diagramas de caja. Dentro del tema relacionado con medidas de variabilidad, recientemente, se ha usado con éxito un resumen grafico llamado diagrama de caja. Este diagrama de caja se usa para describir varias de las características más sobresalientes de conjuntos de datos. El diagrama de caja muestra tres características acerca de una variable: su centro, su dispersión, y su naturaleza y magnitud de cualquier desviación de su simetría (valores atípicos o inusuales). Estos puntos atípicos pueden afectar drásticamente el valor de la media y la desviación estándar. Es por esta razón que el uso de diagramas de caja puede resolver este tipo de problemas, una vez que se identifican estos valores inusuales. Un diagrama de caja esta compuesto por una caja en forma rectangular con varias líneas y puntos
www.full-ebook.com
La forma del diagrama de cajas se representa en la figura de abajo. Figura 1.5. Figura mostrando el diagrama de caja.
Nótese que la mediana (M) es igual a Q2 Con este diagrama se visualiza la posición, la dispersión y la simetría de los datos, la caja es un rectángulo que indica la posición del 50% de los datos centrales. Los pasos que se siguen par elaborar el diagrama de cajas son como sigue. Dibuje una línea horizontal, con graduaciones, como se observa abajo. Figura 1.5a. Diagrama esquemático mostrando los pasos que se siguen para elaborar el diagrama de caja.
Ahora, ubique la posición del mínimo, máximo, primer cuartil tercer cuartil y mediana.
www.full-ebook.com
Después, las líneas auxiliares como se muestra abajo.
Finalmente, se dibuja el diagrama como se ve abajo.
www.full-ebook.com
Ejemplo 1.23. En un estudio del agua, se desea hacer un diagrama de cajas de una muestra aleatoria de mediciones de oxígeno disuelto (O.D.). La figura de abajo muestra los datos que se registran en el diagrama de tallo hoja siguiente. Figura 1.6. Diagrama esquemático mostrando el diagrama de tallo y hoja.
Solución: Primero debemos encontrar los valores inusuales, los cuartiles y la mediana de estos datos. Los valores inusuales son: mínimo = 1.6 y máximo = 4.7 El número de datos es n =40. La posición de la mediana es (40+1)/2 = 20.5. Entonces la mediana es el promedio de los datos que están en la posición 20 y 21.
El valor de m es igual a 20. La posición de los cuartiles es (20+1)/2 = 10.5. El primer cuartil es:
www.full-ebook.com
El tercer cuartil es Figura 1.6a. Diagrama de caja de los datos de este ejercicio.
1.8. Simetría. Siempre es muy importante revisar el tipo de simetría o grado de normalidad de los datos, antes de intentar procesarlos estadísticamente. Los histogramas y los diagramas de cajas permiten visualizar la distribución de los datos. Los datos pueden estar distribuidos de manera simétrica alrededor del promedio, o pueden estar cargados hacia uno u otro lado de la recta numérica; en este sentido la relación entre las tres medidas de centralidad más comunes, media aritmética (o simplemente media), moda (la barra más alta) y mediana, nos ayudan a determinar la simetría o asimetría de los datos según se ve en la figura de abajo: Figura 1.7. Diagramas mostrando el comportamiento de los histogramas con diferentes valores de la media, la mediana y la moda (Quevedo y Pérez, 2008).
www.full-ebook.com
Fuente: H. Quevedo U. y B. Pérez S. (2008). Estadística para la Ingeniería y Ciencia. Grupo Editorial Patria.
Figura 1.7a. Esquemas mostrando los histogramas con diferentes sesgos y los diagramas de caja correspondientes a cada histograma de la anterior. 1.9. Media y varianza de datos agrupados. En algunas ocasiones es necesario calcular estadísticas como la media y varianza con datos agrupados. De esta manera, cuando se tienen los datos agrupados en una tabla de frecuencia se puede calcular la media y varianza con una fórmula compacta que, en esencia, es la misma que ya se describió. Para tales fines se dará un ejemplo. Ejemplo 1.24. En un estudio del agua, se saca una muestra de 36 análisis de cloratos (ClO4-), reportados en la tabla de abajo. Encuentre la media y la varianza de estos datos de la Tabla 1.8 de abajo.
www.full-ebook.com
Tabla 1.8. Tabla mostrando los datos de este problema.
Solución: El total de los 36 datos en la muestra se obtiene sumando las frecuencias de todos los casos 5 + 8 + 4 + 3 + 4 + 7 + 5 = 36 La media se obtiene sumando todos los datos y dividiendo el resultado de la suma entre 36. La suma de un mismo valor se puede abreviar con una multiplicación. Siendo así, al sumar los 5 datos igual a 61 más los ocho datos igual a 64: 61 + 61 + 61 + 61 + 61 + 64 + 64 + 64 + 64 + 64 + 64 + 64 + 64 + … = 5(61) + 8(64) + . . La media y la varianza de los análisis de cloratos son: El total de los 36 datos en la muestra se obtiene sumando las frecuencias de todos los casos Así se obtiene una fórmula equivalente considerando las frecuencias de cada clase.
(1-10)
www.full-ebook.com
De igual manera, la varianza se describe con la fórmula de abajo
Esta fórmula de arriba también puede utilizarse cuando los datos están agrupados en intervalos de clase. Se utiliza la frecuencia fi y la marca de clase o punto medio mi de clase.
(1-10b) Ejemplo 1.25. Calcular la media de los datos agrupados de la Tabla 1.9 de abajo. Tabla 1.9. Tabla mostrando los datos del problema
Solución: Utilizando la fórmula de la media se obtiene:
www.full-ebook.com
1.10. Instrucciones para el uso del Minitab en Estadística Descriptiva. Esta sección discute ampliamente, los procedimientos que se siguen usando el programa de cómputo Minitab. 1.10.1. Haciendo estadísticas descriptivas. Uso del programa Minitab para hacer estadísticas descriptivas Ejemplo 1.26. Este es un ejemplo usando el programa Minitab relacionado con las tecnologías del agua. Los datos de la Tabla 1.10 de abajo muestran las mediciones de cloruros (Cl-) en mg/L analizados de una muestra aleatoria de aguas residuales domésticas procedentes de una laguna de estabilización de ventiladores sumergidos.
Tabla 1.10 mostrando los valores de las mediciones de cloruros.
www.full-ebook.com
El diagrama de abajo muestra las entradas en la hoja del Minitab, las cuales tienen que estar en una sola columna, como se muestra en la figura de abajo.
Figura 1.8. Diagrama esquemático mostrando las entradas en la hoja del Minitab, las cuales tienen que estar en una sola columna.
www.full-ebook.com
Hacer lo siguiente: (a) Revisar la simetría de los datos aplicando estadísticas descriptivas. (b) Calcular la frecuencia relativa acumulada (f.r.a.) y la frecuencia relativa (f.r.). (c) Hacer gráficas con los valores de probabilidad acumulada (f.r.a.) y de densidad de probabilidad (f.r.) (d) Calcular la media y la desviación estándar de las gráficas y compararlos con los del inciso (a). Solución: (a) Las estadísticas descriptivas se muestran en el diagrama de abajo. Sugerencia: para calcular las estadísticas descriptivas usando el Minitab ir a: Stat → Basic Statistics → Graphical Summary. Luego, en la ventana de diálogo de “Graphical Summary”, poner los valores de la variable aleatoria X y teclear “OK”, “OK”. Esto genera los datos mostrados en la figura de abajo. Figura 1.8a. Resultados impresos del Minitab.
(b) Usando el Minitab se generan la probabilidad acumulada (f.r.a.) y la probabilidad de densidad (f.r.) como se ve en la figura de abajo.
www.full-ebook.com
Figura 1.8b. Diagrama esquemático de la hoja del Minitab mostrando las entradas para este problema. Las gráficas se dan en las figuras de abajo:
www.full-ebook.com
Figura 1.8c. La figura izquierda muestra la gráfica de la frecuencia relativa acumulada vs. variable aleatoria X. Igualmente, la figura de lado derecho muestra la frecuencia relativa vs. variable aleatoria X. (d) Para calcular el promedio buscar el valor de .50 en la ordenada de la gráfica de probabilidad acumulada y por interpolación se lee que el valor asociado de X es aproximadamente, 9.92. Para calcular la desviación estándar, buscar 84.13% o 0.8413 y por interpolación se lee que el valor de X asociado es aproximadamente 14.46, y luego se le resta 9.92 para dar 4.54. 1.10.2. Haciendo diagramas de caja con la ayuda del Minitab. Para hacer el diagrama de caja usando los datos del ejemplo anterior, proceder de la siguiente manera: irse a: 1. Graph → Boxplot → OK 2. En la ventana de “Boxplot-One Y Simple” y en la ventanilla de “Graph Variables” C1 para indicar que los datos están en la columna 1. . 3. Dentro de esa misma ventana, irse a “Data View” y en la ventana “BoxplotData View” que aparece, puntear la información deseada y “OK”.
www.full-ebook.com
Esto genera una gráfica como la que se muestra en la figura de abajo.
Figura 1.9. Figura mostrando el diagrama de caja. 1.10.3. Haciendo diagramas de tallo hoja con la ayuda del programa Minitab. Para hacer gráficas de tallo y hoja, con el Minitab, proceda de la siguiente manera: 1. En el menú de la parte superior de la pantalla, seleccionar las opciones. Stat → Stem-and-leaf. 2. Con esto aparece una ventana de diálogo, y en la ventanilla de “Graph variables” introducir el número de columna donde están los datos y seleccionar OK.
www.full-ebook.com
3. En esta misma ventana de diálogo, el programa Minitab hace que se eliminen algunos valores atípicos o extrínsecos. Para esto, se puntea la ventanilla de “Trim” y OK. Esta orden eliminará los valores inusuales y señalará los más altos y más bajos. Ejemplo 1.27. Con las tecnologías del agua, se saca una muestra aleatoria sobre la variable de sólidos totales suspendidos (STS) de la sección del tratamiento primario de una planta mecánica de tratamiento de aguas residuales Los datos se dan en la Tabla 1.11 de abajo. Hacer un diagrama de tallo usando el Minitab. Tabla 1.11. Tabla mostrando la información de los sólidos totales suspendidos (STS).
Siguiendo las instrucciones dadas arriba se genera la información de abajo. Solución: Los resultados obtenidos con el Minitab se dan en la figura de abajo. Figura 1.10. Resultados impresos del diagrama de tallo y hoja.
www.full-ebook.com
La distribución de los datos tiene un sesgo ligeramente positivo. Sin embargo, para mejorar la simetría, se pueden eliminar los valores atípicos. Siguiendo las instrucciones de arriba, puntear la ventanilla de “Trim” y “OK”. Esto generará la gráfica mostrada en la figura de abajo. Figura 1.10a. Resultados impresos del Minitab de tallo y hoja para este problema.
www.full-ebook.com
Nótese qué, si hubo una mejoría en la simetría de los datos, al eliminar los valores atípicos. 1.10.4. Haciendo gráficas de frecuencia relativa acumulada (ojivas) usando el Minitab. Ejemplo 1.28. La intención de este ejercicio es la de usar la información de los problemas anteriores, pero ahora aplicando el programa Minitab. Esto con el objeto de demostrar, cómo se puede abreviar el trabajo de calcular manualmente, los intervalos de clase y cálculo de frecuencias relativas acumuladas dadas en la Tabla 1.12. Tabla 1.12. Tabla mostrando los datos. Con estos valores se elaboró la tabla de frecuencias de abajo.
www.full-ebook.com
Tabla 1.12a. Tabla mostrando los límites de clase, la frecuencia relativa y la frecuencia relativa acumulada.
Con las frecuencias relativas acumuladas de la tabla de frecuencias se elaboró un polígono de frecuencias acumuladas (u ojiva).
www.full-ebook.com
Figura 1.11. Gráfica de la frecuencia relativa acumulada (ojiva) contra los límites de clase superiores. De la figura de arriba se observa que el 30% de las observaciones fueron iguales o menores que 8, el 80% fueron más pequeñas que 14. De manera que, 20% de las observaciones fueron más grandes que 14 y así sucesivamente. Adicionalmente, se puede obtener mediante el Minitab la ojiva correspondiente a los mismos datos procediendo de la siguiente manera: Usando los datos originales, para usar el programa Minitab proceder de la siguiente manera. 1. Primeramente, introducir los datos en la hoja de trabajo del Minitab en la columna C1 dados en la tabla elaborada del ejemplo de arriba. 2. Enseguida calcular la media y la desviación estándar de los datos. Acordemente, la media de los datos de la tabla de arriba es 10.243 y la desviación estándar es 4.272. 2. Enseguida irse a: Calculator → Probability Distribution → Normal. 3. En la ventana de diálogo “Normal Distribution”, que aparece puntear
www.full-ebook.com
“Cumulative Probability”. 4. En la ventanilla de “Mean” poner el valor del promedio (10.243) y en la ventanilla de “Standard deviation” poner el valor de la desviación estándar (4.272). 5. Enseguida puntear “Input columns” poniendo los datos de la columna C1. 6. En la ventana de “Optional Storage” poner los datos de la columna C2, o sea la columna donde se almacenarán los datos de la frecuencia relativa acumulada (f.r.a.) y OK. 7. Ahora para hacer la ojiva irse a: Graph → Scatterplot → Simple → OK. 8. En la ventana de dialogo “Scatterplot-Simple” que aparece poner la variable dependiente Y (f.r.a.) y la variable independiente X, (Duración de llamadas telefónicas). 9. En la ventana de diálogo de “Scatterplot-Scale” puntear las subdivisiones gráficas deseadas. 10. En la ventana de diálogo “Scatterplot-Data View” puntear “Symbols” y “Connect line” y “OK”, “OK”. 11. Todas estas órdenes producen la ojiva o gráfica de frecuencia relativa mostrada abajo.
Figura 1.12. Figura mostrando la gráfica de frecuencia relativa acumulada para este ejemplo.
www.full-ebook.com
Ejercicios 1.1 En aplicaciones al los usos del agua, se desea calcular la media, la varianza y la desviación estándar de las observaciones de una muestra aleatoria de mediciones de nitratos (NO3-) en aguas residuales, expresadas en mg/L: 12.0, 6.0, 7.0, 3.0, 15.0, 10.0, 18.0, 5.0. 1.2. Con los estudios del agua, se desea encontrar la desviación estándar, la media, la mediana y la moda de las mediciones de estroncio (Sr) en una muestra aleatoria de aguas residuales industriales, cuyos valores son: 3, 6, 2, 1, 7, 5. De acuerdo a la relación de los valores obtenidos. ¿Qué conclusiones se pueden sacar de esta distribución? 1.3. Escribir los siguientes términos usando anotación de sumatoria. (a) X 21 + X 22 + X 23 + X24 + … + X 210 (b) (X1 + Y1) + (X2 + Y2) + (X3 + Y3) +.... + (X5 + Y5) (c) f1Y1Z1 + f2 Y2Z2 + f3 Y3Z3 + f4 Y4Z4 1.4. Encontrar la desviación promedio de las siguientes mediciones: (a) -3, 7,-9,5 (b) 2.4, 1.6, 3.8, 4.1, 3.4 1.5. Encontrar el rango de los números 15, 13, 18, 14, 17, 16, 12, 24, 33. 1.6. En aplicaciones a los usos del agua, se sacan 40 mediciones de análisis de demanda bioquímica de oxígeno (DBO), en una muestra de aguas residuales municipales, la más grande es 8.34 mg/L, y si el rango es .46, encontrar la medición más pequeña. 1.7. Escribir los siguientes términos en forma de sumatoria.
www.full-ebook.com
1.8. Se saca una muestra aleatoria de concentraciones de sulfatos (SO4-2) de una laguna de estabilización usada en la degradación de las aguas negras procedentes de un poblado en particular. Usando el programa de computadora Minitab, EXCEL o una calculadora de bolsillo, encontrar: (a) La media aritmética (b) La desviación estándar (c) La varianza (d) El sesgo (e) La mediana (f) ¿Es simétrica la distribución de los datos? Justificar el argumento. Tabla mostrando los datos del problema.
www.full-ebook.com
1.9. En una distribución estadística, si la media es 9.0, la mediana es 11.0 y la moda es 13.0, entonces, contestar a los siguientes enunciados: (a) ¿Qué tipo de sesgo tiene esta distribución? (b) ¿Dónde se encuentra la mayor concentración de valores? 1.10. En una distribución estadística, si la media es de 20.0, la mediana es de 18.0 y la moda es de 15.0, curtosis es de 0.01, contestar las siguientes preguntas: (a) ¿Qué tipo de sesgo tiene esta distribución? (b) ¿Dónde se encuentran la mayor concentración de valores? (c) ¿Qué tipo de curtosis tiene la distribución? 1.11. Los datos de una muestra aleatoria de nitrógeno orgánico de las aguas de un río fueron: 85, 93, 75, 79, 70, 66, 63, 53, 58, 434 mg/L. Contestar las siguientes preguntas: (a) ¿Tienen los datos una distribución oblicua hacia la derecha o hacia la izquierda? Justificar el argumento usando la relación del promedio, la mediana y la moda. (b) ¿Cuál es el valor de la curtosis? ¿Es la curtosis mesocurtica, leptokurtica o platicurtica?
www.full-ebook.com
1.12. Encontrar la media geométrica de la muestra aleatoria con observaciones 10, 12, 16. 1.13. La tabla de abajo describe las mediciones de 48 resultados de análisis de una muestra aleatoria de oxígeno disuelto (O.D.), en el agua de una corriente. Estimar todo lo concerniente a la estadística descriptiva, es decir, el promedio aritmético, la desviación estándar, el error estándar del promedio, el intervalo de confianza para la moda, la mediana y la desviación estándar, el valor de la mediana, la moda, el primer cuartil, el diagrama de caja, histograma, etc. Tabla mostrando los datos del problema.
1.14. Los siguientes datos están relacionados con las temperaturas del agua, expresadas en oC, de 10 lagos. La tabla de abajo muestra esta situación. Completar la tabla de abajo. Tabla mostrando los datos del problema.
1.15. Se saca una muestra aleatoria y se hacen análisis químicos de bromuros (Br-) expresados en unidades de mg/L procedentes de una muestra de aguas residuales. Estos análisis se hicieron usando el método de nitrato de mercurio descrito en textos de química ambiental. La tabla con los valores de los bromuros se da abajo: Tabla mostrando los datos del problema, en unidades de mg/L.
www.full-ebook.com
(a) Encontrar la media aritmética, la varianza y la desviación estándar. (b) Encontrar el rango intercuartil. (c) Hacer un histograma de frecuencia. (d) Encontrar el coeficiente de variación. Sugerencia: usar la relación Coeficiente de variación (expresado en %) = V = s/ (e) ¿Qué tanta simetría hay en esta distribución? (f) Encontrar el primer cuartil, el segundo cuartil, el tercer cuartil. 1.16. Se hace un estudio de análisis de concentraciones de demanda bioquímica de oxígeno de cinco días (DBO5) procedentes de la entrada de una planta de tratamiento de lodos activados. Para esto se da una avanzada de información. Siendo así, hacer lo siguiente: (a) Completar la tabla de abajo estimando los puntos intermedios, la frecuencia relativa y la frecuencia relativa acumulada. (b) Hacer una gráfica de frecuencia relativa acumulada en función de los puntos intermedios. (c) Estimar el primer cuartil, el tercer cuartil, el primer decil (dividen los datos en décimas). Tabla mostrando los datos.
www.full-ebook.com
1.17. Se da la tabla de abajo con los siguientes datos, esto con el propósito de hacer una estadística descriptiva y gráficas de frecuencia relativa acumulada, técnicas de diagramas de tallo y hoja y así sucesivamente. La tabla de abajo muestra los datos. Para esto proceder de la siguiente manera: (a) Hacer un resumen de estadística descriptiva usando el programa Minitab. (b) Hacer un diagrama de tallo y hoja. (c) Hacer una gráfica de frecuencia relativa acumulada y estimar el número de observaciones que caen arriba y abajo del primer cuartil, del tercer cuartil y del primer decil. Tabla mostrando los datos del problema.
1.18. En un estudio del agua, se dan los siguientes datos en la tabla de abajo de una muestra aleatoria de demanda química de oxígeno (DQO). Tabla mostrando los datos de este problema.
www.full-ebook.com
Calcular la media aritmética. Sugerencia: usar la función del promedio igual a ΣfX / Σf 1.19. Usando los datos de la tabla de abajo de mediciones de una muestra aleatoria de yoduros (I-) de aguas residuales, hacer lo siguiente usando el Minitab y comparar los resultados con aquéllos hechos manualmente. (a) Una estadística descriptiva (b) Un diagrama de tallo y hoja. Identificar los valores extremos. (c) Un diagrama de caja. Identificar los valores extrínsecos. (d) Hacer gráficas de frecuencia acumulada y de frecuencia relativa. ¿Hay simetría en los datos? Justificar la aserción. Tabla mostrando las mediciones de bromuros.
www.full-ebook.com
1.20. Este es un ejercicio de difusión atmosférica relacionado con gases de óxidos de azufre (SO2) en función de la distancia, provenientes de una fuente industrial. Para esto se sacó una muestra aleatoria de varios años. Los datos se dan en la tabla de abajo. (a) Hacer un resumen de estadística descriptiva con las concentraciones del SO2.
www.full-ebook.com
(b) Hacer una gráfica de las concentraciones de SO2 en función de la distancia. A que distancia ocurrió la máxima concentración del SO2? Tabla mostrando la información requerida para este problema.
1.21. Este es un problema relacionado con los datos de la estadística histórica de precipitación pluvial de Cd. Juárez, Chihuahua, México de la Comisión Nacional del Agua, para el periodo (1956-2006). Con los datos anuales (mm) de la tabla de abajo, hacer lo siguiente: (a) Una gráfica que vaya en función de las precipitaciones anuales (mm) vs. tiempo (años). ¿Cuáles fueron los dos años más lluviosos y, a cuanto ascendió la precipitación? (b) Una estadística descriptiva de las precipitaciones anuales. (c) Con el uso del Minitab, hacer una gráfica de frecuencias relativas acumuladas vs. precipitaciones anuales y otra más, con las frecuencias relativas vs. precipitaciones anuales. (d) Visualmente, leer la media y al desviación estándar de las gráficas y compararlas con los valores calculados de la estadística descriptiva del inciso (b). La tabla de abajo muestra los datos. Tabla 1.14. Tabla mostrando la estadística histórica de precipitación para Cd. Juárez, Chihuahua, México, periodo 1957-2006.
www.full-ebook.com
1.22. Este es un estudio relacionado con las precipitaciones mensuales y anuales de una estación pluviométrica localizada en la Presa de la Amistad, en Cd. Acuña, Coahuila, México (CILA). La Tabla 1.15 de abajo muestra los datos expuestos en este problema.
www.full-ebook.com
Tabla 1.15. Tabla mostrando los datos de las precipitaciones mensuales y anuales de la Presa La Amistad, Cd. Acuña, Coahuila, México.
Con los datos de las precipitaciones anuales, hacer lo siguiente: (a) Una estadística descriptiva de los datos anuales. ¿Cuáles fueron los dos años más lluviosos? (b) Una gráfica de precipitaciones mensuales y anuales vs. tiempo. (c) Una gráfica de las frecuencias relativas acumuladas y otra más con las frecuencias relativas.
www.full-ebook.com
(d) Leer la media y la desviación estándar de la gráfica de probabilidad acumulada. 1.23. Este es un ejercicio relacionado con los flujos anuales (m3/seg) de cierto río, por un periodo de 55 años. La tabla de abajo muestra la información requerida para este ejercicio. Siendo así, hacer una estadística descriptiva que incluya lo siguiente: (a) La media, la mediana, y el error estándar de la media. (b) La varianza, la desviación estándar, el rango, el coeficiente de variación (c) El sesgo, la curtosis. (d) El primer cuartil, el segundo cuartil, el tercer cuartil, el rango intercuartílico. (e) Hacer un histograma con los datos. (f) Hacer un diagrama de tallo y hoja. (g) Hacer un diagrama de caja. Identificar los valores extrínsecos. (Para hacerse por el lector) Tabla mostrando los datos.
1.24. Este es un ejercicio relacionado con las temperaturas, en grados Celsius (oC) de la estación meteorológica de la Presa Amistad, Coahuila México (19772006), las cuales se dan en la Tabla de abajo. De esta manera, hacer lo siguiente: (a) Una estadística descriptiva para las temperaturas de cada uno de los 12 meses del año.
www.full-ebook.com
(b) Una gráfica de las temperaturas (oC) de cada uno de los 12 meses del año. ¿En qué mes ocurrió la temperatura más alta? ¿La más baja? (c) Hacer otra gráfica que vaya en función de las temperaturas anuales. (d) Hacer otra gráfica más, de frecuencia relativa acumulada y otra de frecuencia relativa vs. temperaturas anuales. Por interpolación, leer la media de la gráfica de probabilidad acumulada. Tabla 1.17. Tabla mostrando las temperaturas para cada uno de los 12 meses del año para el periodo 1977-2006.
Fuente: Comisión Internacional de Límites y Aguas entre México y los Estados Unidos. Sección Mexicana.
REFERENCIAS
www.full-ebook.com
1. Anderson, R. David, D. J. Sweeney, T. A. Williams. (2001). Estadística para istración y Economía, Vol. I, Séptima edición. International Thompson Editores. 2. Brown, T. L., H. E. LeMay, Jr. (1996). Chemistry The Central Science. Second Edition. Prentice Hall, Inc. Englewood Cliffs, New Jersey. 3. Quevedo, H. y B. Pérez, S. (2008). Estadística para la Ingeniería y Ciencia. (2008). Grupo Editorial Patria. 4. Comisión Nacional del Agua (CONAGUA). Oficina Cd. Juárez, Chihuahua, México. 5. Comisión Internacional de Límites y Aguas (CILA). Presa la Amistad. Cd. Acuña, Coahuila, México.
www.full-ebook.com
Capítulo 2
www.full-ebook.com
Introducción a la Probabilidad Dr. Héctor Adolfo Quevedo Urías (Ph.D.)
Temas descritos en este capítulo
2.1. Probabilidad
2.2. Anotación para encontrar probabilidades
2.3. Terminología usada en probabilidad
2.4. Técnicas de conteo
2.5. Probabilidad condicional
2.6. Eventos independientes
2.7. Eventos dependientes
2.8. Regla multiplicativa para eventos dependientes e independientes
2.9. Regla aditiva para eventos mutuamente excluyentes y eventos no mutuamente excluyentes 2.1. Probabilidad. El término probabilidad se define como el estudio de la aleatoriedad y la incertidumbre. El estudio de la aleatoriedad (o estudio estocástico relacionado al azar) se llama teoría de probabilidad. La teoría de la probabilidad da métodos para cuantificar las probabilidades u oportunidades asociadas con varios resultados. La probabilidad es una rama de las matemáticas que se inicio en los juegos de azar. El desarrollo de la teoría de la probabilidad matemática ocurrió en el siglo XVII, y está relacionada con el noble francés Antoine Gombauld y con el matemático Francés Blaise Pascal. El estudio de la
www.full-ebook.com
probabilidad se puede enfocar como: probabilidad clásica, probabilidad de frecuencia relativa y probabilidad subjetiva. La diferencia fundamental entre la probabilidad y la estadística radica en el hecho de que, con la probabilidad se sacan conclusiones acerca de una muestra, basándose en el conocimiento de la población. En cambio, con la estadística se saca una conclusión de la población basada en el conocimiento de la muestra. Esta situación se verá más claramente cuando se estudien las distribuciones discretas y continuas. Las aplicaciones de probabilidad a la ingeniería ambiental son varias. Por ejemplo, se pueden aplicar a estudios de la calidad del agua, estudios relacionados con la velocidad en intensidad del viento, estudios de tratamientos de aguas residuales, estudios de control de la contaminación del aire, etc. Igualmente, la probabilidad se puede aplicar a estudios de confiabilidad de presas para saber la probabilidad de que se puedan colapsar debido a eventos extremos y así sucesivamente. 2.1.2. Definición de Probabilidad clásica. El término probabilidad se refiere al estudio de lo aleatorio (estocástico) y de la incertidumbre. Matemáticamente, la definición clásica de probabilidad se define de la siguiente manera: supóngase que un evento E pueda ocurrir de h maneras de un total de n igualmente posibles maneras, entonces la probabilidad de ocurrencia del evento E se puede denotar como:
(2-1) Donde: P(E) es la probabilidad de que ocurra el tipo de evento, E que se está haciendo (por ejemplo, las precipitaciones o numero de eventos extremos pueden representar un evento) h = número de maneras posibles que pueda ocurrir el evento de un total de n maneras igualmente probables
www.full-ebook.com
La probabilidad de que no ocurra el evento es q, es decir:
La función de probabilidad clásica requiere de resultados probables iguales. Si no ocurren igualmente, se debe usar la función de probabilidad de frecuencia relativa señalada mas adelante. Ejemplo 2.1. Si una moneda tiene dos caras denotadas por águilas o sellos, calcular la probabilidad de que salga un sello. Solución: Usando la función P(A) = a/(a+b) y dejando que a sea el evento sello y b el evento águila, entonces, la probabilidad de sellos es: P(A) = 1 / (1 + 1) = 0.5. 2.1.3. Probabilidad de frecuencia relativa. La probabilidad de frecuencia relativa puede interpretarse como la proporción de veces de un evento que ocurre a largo plazo, bajo condiciones estables o uniformes. Este tipo de probabilidad se define como: P(E) = n/N
(2-3)
Donde: n/N es la proporción del tiempo que el evento E ocurre en experimentos repetidos.
www.full-ebook.com
2.1.4. Probabilidad subjetiva. La probabilidad subjetiva es un desarrollo relativamente reciente. Esta probabilidad se define como el grado de credibilidad o confianza de un evento que varía con el juicio o estado de ánimo de la persona. Esta probabilidad es útil en decisiones financieras y otros tipos de trabajos. 2.2. Anotación para encontrar probabilidades. Las anotaciones usadas para encontrar probabilidades se definen como: P denota una probabilidad; A, B, C denotan eventos específicos y, P(A) denota la probabilidad de A, P(B) denota la probabilidad de B, etc., por lo tanto. 1. P denota una probabilidad 2. A, B, C denotan eventos específicos 3. P(A) denota la probabilidad de que ocurra el evento A 4. P(B) denota la probabilidad de que ocurra el evento B, etc. 2.2.1. Axiomas y propiedades básicas de la probabilidad. 1. Para cualquier evento A, P(A) ≥ 0. Además, la probabilidad no puede ser mayor que 1, ni tampoco negativa. 2. La probabilidad de un espacio muestral es: P(S) = 1, donde S contiene todos los resultados posibles. 3. Si A1, A2,...., Ak es una colección finita de eventos mutuos excluyentes (que no puede ocurrir a la misma vez), entonces:
4. Si A1, A2, A3,... es una colección infinita de eventos mutuos excluyentes, entonces:
www.full-ebook.com
Ejemplo 2.2. Supóngase que el año que entra la precipitación anual en cierta ciudad del Hemisferio Norte es una cantidad incierta que puede fluctuar, desde menos de 23 centímetros o menos, hasta una cantidad de 92 centímetros o más. Cualquier nivel de precipitación entre estos dos extremos es un evento posible. Aquí, sin embargo, debido a que habrá solamente un nivel de lluvia, todas las posibilidades son evento mutuos excluyentes. 2.3. Terminología usada en probabilidad. Cuando se habla de probabilidad se incluyen términos como: experimento aleatorio, resultados, eventos, espacio muestral (S), teoría de conjuntos (uniones, intersecciones, complemento, como A’), eventos mutuos excluyentes, muestra aleatoria, variables aleatorias discretas (estocásticas de conjetura o probabilidad), probabilidad de frecuencia relativa, probabilidad subjetiva, técnicas de conteo (combinaciones y permutaciones, regla de multiplicación y regla de probabilidad total, reglas de adición, etc.), probabilidad condicional, teorema de Bayes, independencia, diagramas de Venn, árboles de probabilidad, etc. Algunos de estos términos se definirán a continuación. 2.3.1. Experimento aleatorio.- Un experimento aleatorio es un proceso que ayuda a los investigadores estadísticos a obtener observaciones de dos o más resultados distintos, donde el resultado que ocurre no puede ser predecible con certeza o seguridad, sino en términos de probabilidad. 2.3.2. Evento.- Es una colección de uno o más resultados elementales de un experimento. Un evento es un subconjunto de un espacio muestral. Por subconjunto se entiende cualquier parte de un conjunto, incluyendo el conjunto en su totalidad. Aquí, también puede haber conjuntos vacíos denotados por Φ, los cuales no poseen ningún elemento. Definición. Cuando dos eventos E1 y E2, como por ejemplo E1 ∩ E2 = Φ se dice que son mutuamente excluyentes.
www.full-ebook.com
2.3.3. Eventos mutuamente excluyentes.- Dos o más eventos se dice que son mutuamente excluyentes si la ocurrencia de una de ellos excluye la ocurrencia de los otros. Dos o más eventos se dice que son mutuos excluyentes o desunidos, cuando no hay elementos comunes entre si. Para esto se usa la simbología de intersecciones, es decir, A ∩ B = Φ, esto dice que A y B no tienen elementos en común. Esto nos dice qué, los otros no pueden ocurrir simultáneamente. De no ser así, entonces los eventos no son mutuamente excluyentes. Por ejemplo, cuando se lanza un dado, la sacada de un 1 y un 2 son eventos mutuos excluyentes, debido a que, si el sale el 1, no puede salir el 2, a la misma vez. Igualmente, con los naipes si sale un rey no puede salir un as o cualquier otra carta del mazo de cartas. Si E1 y E2 son eventos mutuos excluyentes, entonces: P(E1E2) = 0
(2-5)
Si E1 + E2 denotan los eventos de que, ya sea que E1 o E2 o ambos ocurran, entonces: P(E1 + E2) = P(E1) + P(E2) – P(E1E2)
(2-5a)
En general para eventos mutuos excluyentes: P(E1 + E2) = P(E1) + P(E2)
(2-5b)
Ejemplo 2.3. De los siguientes eventos, determinar, cuáles eventos son mutuos excluyentes y cuáles no lo son. (a) Fabricando un componente electrónico defectuoso. Fabricando un componente electrónico bueno. (b) Probando un sujeto con un coeficiente de intelecto > 100. Probando un sujeto con un coeficiente de intelecto < 95 (c) Seleccionando un ingeniero quien es ambiental Seleccionando un ingeniero quien es mujer
www.full-ebook.com
(d) En hidrología seleccionando un evento tipo I de extremo grande En hidrología seleccionando un evento de tipo I extremo pequeño Solución: En este caso, los incisos (a), (b), (d) son eventos mutuos excluyentes. Sin embargo, el inciso (c) es evento no mutuo excluyente. 2.3.4. Muestra aleatoria. Una muestra de n casos se denomina muestra aleatoria, si se selecciona de tal manera, que cada muestra posible de n objetos sacados de la población, tiene la misma oportunidad de ser seleccionada. 2.3.5. Espacio muestral.- El espacio muestral (S) es el conjunto de todos los resultados posibles de un experimento estadístico. Los espacios muestrales se clasifican de acuerdo al número de elementos (puntos) que contienen. En este respecto, se pueden enlistar los elementos separados por comas y enclaustrados en corchetes ({}). Los espacios muestrales pueden ser finitos, no finitos, discretos y continuos. Sin embargo, los dos tipos básicos de espacios muestrales son los discretos y continuos. Por ejemplo, un espacio muestral discreto tiene un número finito de eventos simples o un número infinito contable de eventos simples. En el caso de espacios muestrales continuos, esto se refiere cuando los elementos (puntos) de un espacio muestral constituyen un continuo, como por ejemplo, todos los puntos de una línea; todos los puntos de un segmento de línea o todos los puntos de un plano. En algunos experimentos puede ser útil enlistar los elementos del espacio muestral, sistemáticamente, por medio de diagramas de árbol. Ejemplo 2.4. Un ejemplo de un espacio muestral discreto finito es el lanzamiento de una moneda dos veces, el cual tiene un espacio muestral de 4 eventos simples, donde H denotan caras y T denotan águilas. Esto es: S = {HH, HT, TH, TT} 2.3.6. Unión.- Un resultado que sucede cuando uno de varios o más eventos específicos ocurren. La unión de dos eventos, digamos A y B, se denotan por el
www.full-ebook.com
símbolo y se lee A o B, y es el evento que contiene todos los elementos que pertenecen a A o B o ambos. Por lo tanto, el evento ocurre, si A ocurre, si B ocurre o si ambos A y B ocurren. Ejemplo 2.5. Si dejamos que el evento A = {a, b, c} y B = {b, c, d, e}, encontrar la unión Solución:
Ejemplo 2.6. En este ejemplo, desarrollar el siguiente enunciado que dice así: Si M = {x|4 < x < 9} y N = {y|5 < y < 12}, entonces, encontrar la unión de M ∩ N. Solución: M ∩ N = {z}4 < z < 12} 2.3.7. Intersección de los eventos. Por ejemplo, la intersección de dos eventos A y B, se denota por el símbolo , y se lee “A y B”. La intersección A ∩ B es el grupo de puntos en el evento del espacio A y en el evento del espacio B. El evento A ∩ B ocurre, solamente, si ambos eventos A y B ocurren. Aquí, la palabra clave “y” se refiere al evento conteniendo todos los elementos que son comunes o que están en ambos, A y B. Ejemplo 2.7. Si S = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}, A = {0, 2, 4, 6, 8}, B = {1, 3, 5, 7, 9}, C = {2, 3, 4, 5} y D = {1, 6, 7}, encontrar: (a) A ∩ B. (b) A ∩ C Solución:
www.full-ebook.com
(a) Debido a que, en A ∩ B no hay ningún elemento en común, por lo tanto, A ∩ B = ф y no pueden ocurrir a la misma vez. (b) Debido a que, solamente, el 2 y el 4 son comunes en ambos eventos A y C, por lo tanto, A ∩ C = {2, 4}. Ejemplo 2.8. Si dejamos que M = {a, e, i, o, u} y N = {r, s, t}, por lo tanto, M ∩ N = Φ, lo cual dice que M y N no tienen elementos en común y que no pueden ocurrir a la misma vez. 2.3.8. Complemento.- El complemento de un evento A, denotado por A’ es el conjunto de todos los resultados en el espacio muestral S, que no están contenidos en el evento A. Ejemplo 2.9. Si A = {0, 1, 2, 3, 4}, B = {3, 4, 5, 6} y C = {1, 3, 5}, entonces, de acuerdo a la figura de abajo, encontrar: (a) (b) (c) A ∩ B (d) A ∩ C (e) A’ (f) { }' Solución: (a) = {0, 1, 2, 3, 4, 5, 6} = S (b) = {0, 1, 2, 3, 4, 5} (c) A ∩ B = {3,4} (d) A ∩ C = {1,3} (e) A’ = {5,6} (f) ( )’ = {6}
www.full-ebook.com
Figura 2.1. Diagrama mostrando los espacios muestrales y los eventos. Fuente: Johnson, R. A. (1997). Probabilidad y Estadística para Ingenieros de Miller and Freund.
Ejemplo 2.10. El espacio muestral de un experimento aleatorio se da como S = {AA, AN, NA, NN}. Si E1 = {AA, AN, NA} y E2 = {AN, NA, NN}, entonces, encontrar: (a) E1 E2 (b) E1 ∩ E2 (c) E1’ (d) E2’ Solución: (a) E1 E2 = {AA, AN, NA, NN} (b) E1 ∩ E2 = {AN, NA} (c) E1’ = {NN} (d) E2’ = {AA} 2.3.9. Probabilidad condicional.- La probabilidad condicional se define como la probabilidad de que un evento A ocurra, cuando se sabe que el evento B ha
www.full-ebook.com
ocurrido y se denota como P (A|B). También la probabilidad de que un evento B ocurra, cuando se sabe que el evento A ha ocurrido, se denota por P (B|A). Las funciones usadas para tales fines son:
Ejemplo 2.11. En este problema encontrar las siguientes probabilidades, si P(D) = 0.83, P(A) = 0.82 y P(D ∩ A) = 0.78. (a) P(A|D) (b) P(D|A) Solución: (a) P(A|D) = P(D ∩ A)/P(D) = 0.78/0.83 = 0.94 (b) P(D|A) = P(D ∩ A)/P(A) = 0.78/0.82 = 0.95 Ejemplo 2.12. Con la química ambiental, se sabe que los resultados obtenidos de 266 muestras de agua se clasifican de acuerdo a la presencia de dos tipos de contaminantes, es decir, mercurio (Hg) y estroncio (Sr). Sean A, el evento formado por todas las muestras de agua en la que se encuentra la presencia del primer tipo de contaminante 1, y B, el evento formado por todas las muestras de
www.full-ebook.com
agua donde está presente el contaminante 2. Si se sabe que la probabilidad P(A ∩ B) = 12/66 y P(A) = 36/266, entonces, calcular la probabilidad del evento formado por todas las muestras de agua, con el contaminante 2, dado el evento formado por todas las muestras de agua con el contaminante 1. Solución: P(B|A) = P(A ∩ B) / P(A) = (12/266) / (36/266) = 12/36 Ejemplo 2.13. Refiriéndose al problema anterior de los estudios del agua, encontrar P(A|B), si P(B) = 30/266. Solución: P(A|B) = P(A ∩ B) / P(B) = 12/266/(30/266) = 12/30 2.3.10. Eventos independientes y dependientes.- En este caso, sin embargo, cuando hablamos de probabilidad condicional se incluyen lo que se llaman eventos independientes y eventos dependientes. Por ejemplo, con la hidrología, si la ocurrencia de un evento de lluvia, no cambia la probabilidad de la ocurrencia del otro evento de lluvia, entonces, se dice que los dos eventos son independientes. Sin embargo, si cualquiera de estas condiciones no se satisfacen, los dos eventos se dicen que son dependientes, es decir, P(A|B) ≠ P(A). 2.3.11. Variable aleatoria (va). Fundamentalmente, hay dos tipos de variables aleatorias: variables aleatorias discretas y variables aleatorias continuas. La variable aleatoria es una función que asigna un número real a cada resultado en un espacio muestral S. La va es un valor de una función numéricamente definido sobre el espacio muestral S, es decir, una regla que asocia un número a cada resultado en el espacio muestral S. Como se dijo anteriormente, la estadística relaciona el término “variable aleatoria” con el término “estocástico”, que se relaciona con conjetura o probabilidad. Hay variables aleatorias discretas (que se definirán más adelante) aplicadas a las distribuciones discretas como binomial, Poisson, hipergeométricas, etc. También hay variables continuas aplicadas a la
www.full-ebook.com
distribución normal, distribución exponencial, log normal, gamma, distribución de t de estudiante, de JI cuadrada, distribución F, etc. Estas funciones se discutirán más detalladamente en el Capítulo 4 de las distribuciones continuas. 2.3.12. Probabilidad. El término probabilidad es una manera de expresar el conocimiento o creencia de que un evento ocurrirá o que va a ocurrir. En matemáticas el concepto de probabilidad se le ha dado un significativo exacto en la teoría de probabilidad, en áreas como matemáticas, estadística, hidrología, finanzas, juegos de azar, ciencia y filosofía. Esto es, para sacar conclusiones acerca de la verosimilitud de eventos potenciales 2.3.13. Estocástico.- Es un término que involucra una variable aleatoria o que relaciona casualidad o aleatoriedad. 2.3.14. Variable aleatoria discreta (vad).- La vad es un conjunto o rango de valores finitos o infinitamente contables en números. La vad se asocia con procesos de Bernoulli (como la binomial, geométrica y binomial negativa), Poisson, hipergeométrica, etc. Un ejemplo de vad finita es el número de autos manejados con una flota de 6 vehículos, es decir, donde x = 0, 1, 2, 3, 4, 5. Sin embargo, con la hidrología, un ejemplo de vad infinitamente contable es el número de flujos de corrientes de agua que entran en una vertiente cada mes. 2.3.15. Variable aleatoria continua (vac).- La vac se define como el rango de una variable aleatoria X que contiene un intervalo infinito o finito de números reales. Por ejemplo, si X es el valor del peso de una persona, el rango de X es X ≥ 0. Las distribuciones continuas asociadas con vac son la distribución normal, la familia de las distribuciones gamma, beta, la distribución exponencial, la JI cuadrada, la t de estudiante, etc. 2.3.16. Diagramas de Venn y álgebra de conjuntos. El diagrama de Venn es un dispositivo gráfico para representar el espacio muestral y las operaciones que implican eventos. El inglés J. Venn desarrolló este tipo de diagrama para representar, gráficamente, los resultados de un experimento. El concepto de las reglas de eventos mutuos excluyentes y varias otras reglas de probabilidad se pueden representar con diagramas de Venn. Para construir un diagrama de Venn un espacio se enclaustra representando el total de todos los resultados posibles.
www.full-ebook.com
Las reglas de las tres operaciones básicas del álgebra de conjuntos para formar uniones, intersecciones y complementos de eventos se describen en la Tabla 2.1. Tabla 2.1. Tabla mostrando las leyes del álgebra de conjuntos.
www.full-ebook.com
Figura 2.2. Los esquemas de abajo muestran algunos diagramas de Venn. 2.4. Técnicas de conteo. Numerosas reglas de conteo han sido usadas para contar el número de puntos en muestreos. Cuando los diversos resultados de un experimento son igualmente probables, la tarea de calcular probabilidades se reduce a contar. Estas técnicas de conteo son útiles para contar el número de eventos que componen el numerador y/o el denominador de una probabilidad. Ejemplos de técnicas de conteo son: 1. La regla del producto para pares ordenados 2. La regla del producto más general 3. Regla factorial 4. Diagramas de árbol 5. Permutaciones 6. Combinaciones
www.full-ebook.com
2.4.1. La regla del producto para pares ordenados. La forma más básica de conteo es la regla del producto mn. Por ejemplo, si el primer elemento u objeto de un par ordenado se puede seleccionar en n1 formas, y por cada una de estas n1 formas se puede seleccionar un segundo elemento del par en n2 formas, entonces, siendo así, esto es una regla del producto. Ejemplo 2.14. En estudios ambientales, el gerente de una industria requiere de los servicios de compañías que hagan estudios relacionados con estudios de contaminación de suelos y otra más que hagan estudios de contaminación del aire. Si hay 13 compañías del primer tipo de servicio y 10 del segundo tipo de servicio, ¿de cuántas maneras puede el gerente seleccionar los dos tipos de compañías? Solución: Si denotamos las compañías de estudios de suelos por A1,…, A13 y los ingenieros que hacen los estudios de la contaminación del aire como C1,…,C10, entonces, queremos el número de pares de la forma (Ai,Cj). Con n1 = 13 y n2 = 10, el producto de los pares ordenados da N = (13)(10) = 130. Esto dice que hay 130 posibles maneras de seleccionar los dos tipos de compañías. 2.4.2. Regla de producto o multiplicación más general. La regla del producto para k-arreglos se define como sigue: Si una operación puede ser hecha en n1 maneras y, si para cada una de estas maneras, una segunda operación puede ser hecha en n2 maneras, y, si por cada una de estas dos primeras operaciones, una tercera operación puede ser hecha en n3 maneras y, así sucesivamente, entonces, la secuencia de k operaciones o arreglos puede ser hecha en n1, n2, n3,..., nk arreglos, es decir: n1n2n3,…,nk
(2-7)
Ejemplo 2.15. Si en cierta localidad, cada compañía de estudios del agua tiene ambos, tres ingenieros sanitarios especializados en la construcción de lagunas de estabilización, otros 5 ingenieros especializados en la construcción y diseño de
www.full-ebook.com
plantas mecánicas de lodos activados y, otra más, con 2 ingenieros civiles dedicados a la construcción general de plantas mecánicas de tratamiento de aguas industriales. Siendo así, encontrar el número de maneras de seleccionar un ingeniero de cada especialidad de tal manera que todos los ingenieros practiquen en la misma compañía. Solución: n1n2n3 = (3)(5)(2) = 30 arreglos 2.4.3. Regla factorial. La regla factorial se define como un íntegro positivo n, en el cual el producto de todos los números enteros desde n hasta 1 se llama factorial n y se escribe n! En general, n! = n(n – 1)(n – 2)(n – 3)….1. Por definición 0! = 1. Aquí nótese que 10! = 10∙9!; 5! = 4∙4!, y n! = n(n – 1)! Más adelante, cuando se discuta el tema de permutaciones se verá que, la diferencia entre la regla factorial y la regla de permutaciones es la siguiente: la regla factorial dice cuántos arreglos son posibles, cuando se usan todos los diferentes objetos de n. Sin embargo, cuando se habla de permutaciones, se seleccionan solamente algunos de los objetos n, no todos, como en el caso de la regla factorial. Ejemplo 2.16. Calcular los siguientes factoriales: (a) 10! (b) 5! (c) 9!/0! Solución: (a) 10! = 3,628,800 (b) 5! = 120 (c) 9!/0! = 362,880/1 = 362,880
www.full-ebook.com
2.4.4. Diagramas de árbol. En las reglas de producto o regla de multiplicación se puede usar una configuración llamada diagrama de árbol, para representar esquemáticamente, todas las posibilidades y calcular cualquier probabilidad en los resultados obtenidos del diagrama de árbol. De esta manera, los espacios muestrales pueden describirse gráficamente en términos de un diagrama de árbol. Ejemplo 2.17. Supóngase que una computadora pueda seleccionar, aleatoriamente, uno de dos factores, Rh (positivo y negativo) y uno de tres tipos de sangre. Calcular la probabilidad de sacar un factor Rh positivo con tipo de sangre A. Solución: Usando la regla de multiplicación n1 n2 = (2) (3) = 6 se hace este cálculo. Sin embargo, aquí es difícil visualizar las combinaciones calculadas en la probabilidad. No obstante, el uso de un diagrama de árbol simplifica esta tarea. 2.4.5. Permutaciones. Una permutación es un arreglo ordenado de objetos o casos. De esta manera, hasta ahora se ha discutido, únicamente, las reglas del producto para pares ordenados y la regla de multiplicación más generalizada. Como se dijo, estas reglas dicen que, los elementos sucesivos de un k-arreglo se seleccionaron de conjuntos diferentes y con opciones con reemplazo, para el mismo elemento que pueda aparecer más de una vez. Sin embargo, en el caso de las permutaciones, vamos a considerar un fondo fijo formado por n distintos elementos y suponiendo que se forma un k-arreglo, al seleccionar sucesivamente de este conjunto, sin reemplazo, para que un elemento pueda aparecer a los sumo en una de las k posiciones. Definición 2.1. Una permutación es una secuencia ordenada de k objetos tomados de un conjunto de n objetos distintos. En una permutación k < n, o bien, k = n. Esto dice que una permutación es un arreglo de todos o parte de un conjunto de objetos, donde el orden es de importancia (en contraste con la combinación, en la cual veremos que el orden no es de importancia). El número total de permutaciones de n objetos en k posiciones se denota como nPk. Siendo así, el número de permutaciones de n casos, en r lugares se da como:
www.full-ebook.com
Ejemplo 2.18. Usando una calculadora de bolsillo, evaluar las siguientes permutaciones: (a) 8P3 (b) 6P4 (c) 15P1 (d) 3P3 Solución: (a) 8P3 = n! / (n - r)! = 8!/(8 – 3)! = 336 (b) 6P4 = (6)(5)(4)(3) = 360 (c) 15P1 = 15 (d) 3P3 = (3)(2)(1) = 6 Ejemplo 2.19. En las aplicaciones a la hidrología, el muestreo es importante, cuando hablamos de cuencas hidrológicas. Por ejemplo, en el caso de permutaciones, el número total de grupos de r cuencas de n vertientes hidrológicas se toma en consideración el orden o la secuencia. Siendo así, de acuerdo a un estudio de hidrología, si n = 15 cuencas y r = 3, es decir, que se estudian 3 cuencas de 15 cuencas hidrológicas, calcular el número de permutaciones, si la secuencia de las vertientes seleccionadas es de importancia. Solución:
www.full-ebook.com
Esta es una permutación y se usa la función nPr = n!/(n – r)!. Sustituyendo los valores de n = 15 y r = 3 da: 15P3 = 2,730 permutaciones, cuyos valores representan un número grande de eventos compuestos Teorema 2.1. El número de diferentes permutaciones de n objetos, de los cuales n1 son de una clase, n2 son de una segunda clase,...nk son de una k-ésima clase se da como: n! / (n1! n2!..nk!)
(2-9)
Donde: n! es el total de los objetos Ejemplo 2.20. ¿De cuántas maneras pueden arreglarse en un cordón eléctrico dos focos rojos, tres amarillos y dos azules en siete portalámparas? Solución: Usando la regla de partición n!/(n1!n2!..nk!) Donde, n! = 7, n1 = 2, n2 = 3 y n3 = 2, da: 7! / (2! 3! 2!) = 210 2.4.6. Combinaciones. Una combinación es un arreglo de objetos, sin importar el orden. El número de combinaciones de n objetos tomados a un tiempo r puede escribirse como nCr. Teorema 2.2: El número de combinaciones de n objetos distintos tomados a un tiempo r es una combinación. Esto es, el número de subconjuntos de tamaño r que pueden seleccionarse de un conjunto de n objetos distintos donde el orden no es importante (como en el caso de la permutación, en la cual el orden sí es importante). La combinación se denota por la función:
www.full-ebook.com
Donde: nCr es una combinación. Esta combinación también se puede escribir usando la
anotación Cnr Ejemplo 2.21. Evaluar las siguientes combinaciones: (a) 7C4. (b) 20C0 (c) 1C1 Solución: Usando la fórmula de arriba y sustituyendo los valores da: (a) 7C3 = 7! / 4! 3! = 35 (b) 20C0 = 1 (c) 1C1 = 1 Ejemplo 2.22. Un grupo de tres inspectores de una agencia ambiental va a inspeccionar las actividades de una industria que está contaminando un río. El grupo se va a formar seleccionando los tres agentes de un grupo de 5. Contestar las siguientes preguntas. (a) ¿Cuántos grupos diferentes se pueden formar siguiendo un orden definido? (b) ¿Siguiendo un orden indefinido?
www.full-ebook.com
Solución: Para el primer caso, sería una permutación, porque se quiere un orden definido. Entonces, usando la fórmula nPr = n!/(n - r)! con n = 5 y r = 3 y sustituyendo los valores da: 5P3 = 5! / (5 - 3)! = 5!/3! = 20
Para el segundo caso, o sea un orden indefinido, sería una combinación, porque el orden no es de importancia. 5C3 = 10
2.4.6.1. Combinaciones y la regla hipergeométrica. Dentro del tópico de combinaciones, también se puede incluir el uso de la regla hipergeométrica Siendo así, supóngase que hay n objetos en un grupo y, que n1 son de un tipo y n2 son de otro tipo. El número de grupos de r objetos, donde r1 son del primer tipo y r2 son del segundo tipo, que pueden ser formados por medio de sacar r objetos de n, se da por: n1Cr1 ∙ n2Cr2
(2-11)
donde
n1 + n2 = n; r1 + r2 = r
Ejemplo 2.24.Un reclutador de una firma de empleos ha hecho entrevistas con 10 ingenieros, de los cuales 6 son ingenieros ambientales y 4 no lo son. El reclutador quiere emplear 5 de los 10 ingenieros entrevistados. ¿Cuántos grupos posibles de los cinco ingenieros empleados contendrán exactamente tres ingenieros ambientales? Solución:
www.full-ebook.com
Dejar que n1 = 6 y n2 = 4 y usar la regla hipergeométrica. En el subgrupo de tamaño r = 5, queremos r1 = 3 ingenieros sanitarios y r2 igual a los que no son ingenieros ambientales. Entonces, el número de grupos de tamaño 5 de esta categoría es:
Aquí nótese que la regla hipergeométrica es “poniendo juntos” el producto y la regla de combinaciones para obtener el resultado. 2.5. Probabilidad condicional. Es la probabilidad de que un evento B ocurra cuando se sabe que ya ocurrió algún evento A. Definición 2.2. La probabilidad condicional de B, dado A, se define como:
Definición 2.3. La probabilidad condicional de A, dado B, se define como:
www.full-ebook.com
2.6. Eventos independientes.- Dos eventos A y B se dice que son independientes si la ocurrencia de A, no afecta la probabilidad de la ocurrencia de B, es decir: P(A|B)) P(B|A) = P(B)
O bien
(2-13) (2-13a)
2.7. Eventos dependientes.- Si la ocurrencia o no ocurrencia de A, afecta la probabilidad de ocurrencia de B, entonces, los eventos son dependientes. Además, para tres eventos independientes, digamos, E1, E2, E3 la probabilidad es: P{E1E2E3} = P{E1}Pr{E2|E1}P{E3|E1E2}.
(2-14)
Ejemplo 2.25. Este ejemplo se adapta del autor Keller et al. (1990). Siendo así, considerar el espacio muestral S = (A, B, C, D), donde P(A) = P(D) = .3 y P(B) = P(C) = .2. (a) Ahora, definir los eventos: 1 = {A, B} 2 = {B, C} 3 = {C, D} (b) ¿Cuál de los siguientes pares de eventos son independientes o dependientes? (1) 1 y 2 (2) 2 y 3 (3) 1 y 3 Solución:
www.full-ebook.com
(a) 1 = {A, B} = .3, .2 2 = {B, C} = .2, .2 3 = {C, D} = .2, .3 (1) Los eventos 1 y 2 son independientes (2) Los eventos 2 y 3 son independientes (3) Los eventos 1 y 3 son dependientes 2.8. Regla multiplicativa para eventos dependientes e independientes. En algunas ocasiones se pueden resolver problemas de probabilidad, por medio de contar el número de puntos en un espacio muestral, el cual se refiere como la regla multiplicativa. La regla multiplicativa o de conteo de número de puntos en un espacio muestral se usa en este caso. Sin embargo, podemos ver que esta regla aplica para dos eventos dependientes y para dos eventos independientes. Esta regla de multiplicación es descrita por la definición de probabilidad condicional arriba descrita. Esta regla de probabilidad condicional se da como: P(A|B) = P(A|B)/P(B), P(B) ≠ 0
(2-15)
2.8.1. La regla multiplicativa para dos eventos dependientes es: P(A y B) = P(A) P(B|A) y P(A y B) = P(B) P(A|B)
(2-16)
Que finalmente, también se escribe como: P(A ∩ B) = P(B) P(A|B) = P(A) P(B|A)1
(2-16a) (2-16b)
Donde: P(A|B) se refiere a la probabilidad condicional de que el evento A ocurra, dado que el evento B ya ocurrió
www.full-ebook.com
P(B|A) se refiere a la probabilidad condicional de que el evento B ocurra dado que A ya ocurrió. En verdad, la regla multiplicativa para eventos dependientes es la probabilidad de la intersección (A|B) de dos eventos A y B. Esto dice que, la probabilidad de ocurrencia conjunta de evento A y evento B es igual a la probabilidad condicional de A dado B por la probabilidad marginal de B. 2.8.2. La regla multiplicativa para dos eventos independientes es: P(A y B) = P(A) • P(B)
(2-17)
O bien
P(A ∩ B) = P(A) • P(B)
(2-17a)
Ejemplo 2.26. En estudios hidrológicos, se sabe que, entre 3 registros meteorológicos de lluvias, uno está defectuoso. Dos de estos registros se seleccionan aleatoriamente, pero el primero es reemplazado, antes de sacar el segundo registro. ¿Cuál es la probabilidad de que ambos registros estén buenos? Solución: Dejemos que A sea el evento de sacar un registro bueno y, B, el evento de sacar un segundo registro bueno. Entonces, la probabilidad de A es P(A) = 2/3 y la probabilidad de B es P(B) = 2/3. Debido a que hay reemplazo, esto nos lleva a la regla multiplicativa de eventos independientes. Por lo tanto: P(A y B) = P(A ∩ B) = P(A) P(B) = (2/3)(2/3) = 4/9 Ejemplo 2.27. En estudios de cartas meteorológicas, veinte registros de lluvias se sitúan en un depósito. Dos de estos registros están defectuosos. Si se inspeccionan todos los 20 registros, ¿cuál es la probabilidad de seleccionar (aleatoriamente), los 2 registros defectuosos?
www.full-ebook.com
Solución: Dejar que A sea el primer registro defectuoso y B el segundo registro defectuoso. Entonces, queremos encontrar la probabilidad de intersección de los dos eventos, es decir, (A ∩ B). Los eventos son claramente dependientes, porque la probabilidad de que el segundo registro sea defectuoso depende de que si el primer registro sea o no defectuoso. Aquí, P(A) = 2/20 y P(B/A) = 1/19. Sustituyendo estos valores en la función de la regla de multiplicación para eventos dependientes da: P(A B) = P(A) P(B/A) = (2/10)(1/19) = 0.00526 Que es la probabilidad de seleccionar los 2 registros defectuosos. Nota: La probabilidad condicional P(B/A) es igual a 19, porque si A ocurre (un registro defectuoso seleccionado en la primera sacada), entonces, quedarán solamente 19 registros para ser seleccionados en la segunda sacada. Por lo tanto, la probabilidad de seleccionar los 2 registros defectuosos es de 0.00526. Esta probabilidad es muy significante, y dice que es muy improbable de que el evento ocurra, es decir, de existen, ¡aproximadamente, 5 oportunidades en 1,000!
Ejemplo 2.28. En un estudio de meteorología, supóngase que en una estación meteorológica hay 20 veletas de viento, de las cuáles 5 no están operando bien. Si se seleccionan 2 registros de estos 20 aleatoriamente, en sucesión, ¿Cuál es la probabilidad de que los 2 registros seleccionados estén defectuosos? Solución: Dejemos que A sea el evento de sacar el primer registro defectuoso y, B, sea el evento de sacar el segundo registro defectuoso. Si interpretamos A ∩ B como el evento de que A ocurre y B el evento después de que A ocurrió, entonces, la probabilidad de A es P(A) = 5/20 y, la probabilidad de B es P(B) = 4/19. Por lo tanto, P(A ∩ B) = P(A) P(B|A) = (5/20)(4/19)
www.full-ebook.com
= 1/19 2.9. Regla aditiva para eventos mutuamente excluyentes y eventos no mutuamente excluyentes. En muchas aplicaciones de la teoría de probabilidad, estamos interesados en combinar probabilidades de eventos que están relacionados de alguna manera. En este caso se usa la regla aditiva. De esta manera, la regla aditiva se usa para computar la probabilidad de la unión de dos eventos. Esta regla aditiva aplica para eventos no mutuos excluyentes, pero también para eventos mutuos excluyentes. Teorema 2.3. Si A y B son cualquiera de dos eventos mutuos excluyentes, el modelo aditivo es: P(A ∩ B) = P(A) + P(B)
(2-18)
Que también se puede escribir como: P(A o B) = P(A) + P(B)
(2-18a)
Nota: El símbolo P(A o B) se refiere a la probabilidad de cualquiera de los eventos A o B ocurran o, bien, que ambos ocurran.
Teorema 2.4. Si los casos A y B no son eventos mutuos excluyentes, el modelo aditivo es: P(A B) = P(A) + P(B) - P(A ∩ B)
(2-18b)
Esta función también se puede expresar como: P(A o B) = P(A) + P(B) - P(A y B)
(2-18c)
Nota: El símbolo P(A y B) se usa para denotar la probabilidad de que ambos eventos A y B ocurrirán.
www.full-ebook.com
Ejemplo 2.29. ¿Cuál es la probabilidad de que una carta seleccionada, aleatoriamente, de un mazo de 52 cartas sea un rey o un corazón? Solución: Debido a que hay un traslapado, se usa la regla aditiva para eventos no mutuos excluyentes P(A o B) = P(A) + P(B) - P(A y B). Siendo así, dejemos que A = un rey cualquiera y B = precisamente un corazón cualquiera. Por lo tanto, P(A) = 4/52, P(B) = 13/52, P(A y B) rey o corazones = 1/52. Aquí, es lógico que la probabilidad conjunta (Una probabilidad que mide la verisimilitud de que puedan ocurrir dos a más eventos a la misma vez), de un rey y un corazón deba de restarse una vez. De no ser así se incluiría dos veces en encontrar la probabilidad de que una carta seleccionada aleatoriamente fuera, ya sea un rey o un corazón. Existe un traslapado de resultados, lo cual quiere decir que existe la probabilidad de que el rey (A) y un corazón (B) ocurran al mismo tiempo. Por lo tanto: P(A o B) = P(A) + P(B) - P(A y B) = 4/52 + 13/52 – 1/52 = 16/52 Ejemplo 2.30. Este es un ejemplo, en el cual se ilustrar la ley aditiva de probabilidad. En este experimento existen traslapados, lo cual se puede hacer usando diagramas de Venn. Para esto, se hace el siguiente experimento de lanzar dos monedas. Siendo así, estimar la probabilidad de sacar, cuando menos una cara, ya sea en el primer lanzamiento o en el segundo lanzamiento. (Smith, 1985). Solución: Primeramente, enlistar los cuatro posibles resultados poniendo H = caras y T = a soles, es decir, HT, HH, TH y TT. Aquí, para evitar un traslapado, se usa la regla aditiva para eventos no mutuos excluyentes. El diagrama de Venn de abajo ilustra claramente, el traslapado que pudiera ocurrir, si se sumara la probabilidad de una cara en el primer lanzamiento, más la probabilidad de una cara en el segundo lanzamiento que daría ½ + ½ = 1, lo cual sería incorrecto. En este caso, la probabilidad de una cara en el primer lanzamiento es de 0.5; la probabilidad
www.full-ebook.com
de una cara en el segundo lanzamiento es 0.5 y, la probabilidad de caras en ambos lanzamientos es de 0.25. Por lo tanto, la probabilidad de una cara, ya sea en el primero o segundo lanzamiento es: P(H o T) = P(H) + P(T) - P(H y T) = ½ + ½ - ¼ = ¾ El traslapado o la representación del potencial de un doble conteo (HH) se da abajo.
Figura 2.3. Figura esquemática mostrando un diagrama de Venn indicando el traslapado de caras (HH), que ocurre en la intersección de A y B. Fuente: Statistical Reasoning. Gary Smith (1985).
2.9.1. Regla multiplicativa para más de dos eventos. Otra regla útil para calcular la probabilidad de un evento es el modelo de la regla multiplicativa. Esta regla se define como la probabilidad de la ocurrencia conjunta de que el
www.full-ebook.com
evento A y el evento B sea igual a la probabilidad condicional del evento A dado el evento B multiplicado por la probabilidad marginal de B. Teorema 2.5. Si en un experimento, los eventos dependientes A1, A2, A3,...Ak pueden ocurrir, entonces: P(A1 ∩ A2 ∩ A3 ∩ ... Ak) = P(A1)P(A2|A1)P(A3|A1 ∩ A2) ... ...P(Ak|A1 ∩ A2 ∩ ... ∩ Ak-1)
(2-19)
Teorema 2.6. Si los eventos A1, A2, A3,... Ak son independientes, entonces: P(A1 ∩ A2 ∩ A3... ∩ Ak) = P(A1)P(A2)P(A3)….P(Ak)
(2-19a)
Ejemplo 2.31. Tres naipes se sacan en sucesión, sin reemplazo. Encontrar la probabilidad de que ocurra el evento A1 ∩ A2 ∩ A3, cuando A1 es el evento de que la primera carta sea un as rojo, A2 sea que la segunda carta sea un 10 o una sota y, A3 sea el evento de que la tercera carta sea mayor que un 3, pero menor que un 7. Solución: Primero se definen los eventos: A1: la primera carta es un as rojo (aquí, nótese que hay nomás 2 ases rojos en todo el mazo de cartas) A2: la segunda carta sea un 10 o una sota (hay cuatro dieses y cuatro sotas en todas las cartas) A3: la tercera carta sea mayor que 3 pero menor que 7 (hay nomás doce cartas entre el 3 y el 7). Los valores son: P(A1) = 2/52; P(A2|A1) = 8/51; P(A3|A1 ∩ A2) = 12/50. (Aquí nótese que, en la primera sacada son 52 cartas, pero en la segunda sacada el
www.full-ebook.com
número de cartas baja a 51 y en la tercera sacada baja a 50 cartas). Por lo tanto: P(A1 ∩ A2 ∩ A3) = P(A1)P(A2|A1)P(A3|A1 ∩ A2) = (2/52)(8/51)(12/50) = 48/3315 Ejemplo 2.32. Hacer el mismo ejemplo de arriba del mazo de naipes pero, en esta ocasión, con reemplazo de cartas. (El lector lo deberá hacer).
Ejercicios 2.1. Si una moneda tiene dos caras denotadas por águilas o soles, siendo así, ¿cuál es la probabilidad de que salga un sol? ¿Cuál es la probabilidad de que no salga el sol? 2.2. ¿Cuál de los siguientes no es una probabilidad? 3/7, 2, -1/2, 3/4, 99/101, 0, 1, 5, 1.11, 1.0001, 0.0001, 0.001, 0.9999. 2.3. Este es un ejemplo de eventos mutuamente excluyentes, siendo así, contestar lo siguiente: (a) Seleccionando una gráfica de probabilidad normal Seleccionando una gráfica de probabilidad lognormal (b) Seleccionando un ingeniero quien es arquitecto Seleccionando un ingeniero quien es mujer (c) En hidrología seleccionando un evento tipo I de extremo grande En hidrología seleccionando un evento de tipo I extremo pequeño Sugerencia: remitirse al Capítulo 4 en la sección de gráficas de probabilidad 2.4. En estudios meteorológicos, para dos eventos de lluvia A y B, en la que el evento A tiene una probabilidad de P(A) = 0.10, y el evento B tiene una probabilidad de P(B) = 0.40 y P(A ∩ B) = 0.05, determinar:
www.full-ebook.com
(a) P(A|B) (b) P(B|A). 2.5. Si dejamos que el evento A = {a, b, c} y B = {b, c, d, e, f}, siendo así encontrar la unión A B. 2.6. Este es un ejemplo aplicado a los usos del agua. Se sabe que los resultados obtenidos de 30 muestras de agua residual industrial se clasifican de acuerdo a la presencia de dos tipos de contaminantes, v. g., arsénico (As) y mercurio (Hg). Sean A, el evento formado por todas las muestras de agua en la que se encuentra la presencia del arsénico, y B, el evento formado por todas las muestras de agua donde está el mercurio. Si se sabe que la probabilidad P(A ∩ B) = 6/33 y P(A) = 18/133, entonces, calcular la probabilidad del evento formado por todas las muestras de agua con el arsénico, dado el evento formado por todas las muestras de agua con mercurio. 2.7. Refiriéndose al problema anterior de los usos del agua relacionado con los contaminantes As y Hg, encontrar P(A|B), si P(B) = 80/120. 2.8. El gerente de un hotel requiere determinar de cuantas maneras se pueden seleccionar los tipos de servicios de compañías que construyan plantas de tratamiento de lodos activados y de filtros por goteo, para la degradación de las aguas residuales del hotel. Si hay 10 compañías del primer tipo de servicio y 12 compañías del segundo tipo de servicio, ¿de cuántas maneras puede el gerente seleccionar los dos tipos de compañías constructoras de las plantas de tratamiento? 2.9. Si en cierta localidad, cada compañía de estudios del agua tiene ambos, tres ingenieros sanitarios especializados en la construcción de lagunas de estabilización ventiladas, otros dos ingenieros especializados en la construcción y diseño de plantas mecánicas de lodos activados, y otros 3 ingenieros más especializados en la construcción de plantas de filtros por goteo, encontrar el número de maneras de seleccionar un ingeniero de cada especialidad, de tal manera que todos los ingenieros practiquen en la misma compañía. 2.10. Un reclutador de una firma de empleos ha hecho entrevistas con 12
www.full-ebook.com
ingenieros, de los cuales 8 son ingenieros ambientales y 4 no lo son. El reclutador quiere emplear 5 de los 12 ingenieros entrevistados. ¿Cuántos grupos posibles de los cinco ingenieros potencialmente empleados contendrán exactamente tres ingenieros ambientales? ¿Qué regla se va usar? 2.11. Si P(B) = 2750/10,000 y P(A ∩ B) = 0.14, hacer lo siguiente: (a) Encontrar P(A|B). (b) Decir además, cual regla se está usando. 2.12. Se da la siguiente información: P(A) = .4, P(B) = .5, P(B|A) = .2. ¿Qué tipo de función estadística se esta usando? Siendo así encontrar: (a) La probabilidad de que ambos eventos A y B ocurran: (b) La probabilidad de que cualquiera de los dos eventos A o B ocurran. 2.13. Supóngase que una caja contiene 3 registros de temperaturas buenos y 2 registros malos. Asúmase que no hay reemplazo y, por lo tanto, son eventos dependientes. Siendo así, calcular los siguientes enunciados: (a) ¿Cuál es la probabilidad de que el primer registro de temperatura sea malo? (b) ¿Cuál es la probabilidad de que el segundo registro sea malo, dado que el primer registro fuera malo? (c) ¿Cuál es la probabilidad de que ambos registros sacados sean malos? 2.14. Usando la figura de abajo y la simbología de diagramas de Venn definir las siguientes regiones: (a) Regiones 1 y 2 (b) Regiones 1 y 3 (c) Regiones 1, 2, 3, 4, 5, y 7 (d) Regiones 4 y 7 (e) Región 1 (f) Regiones 2, 6, 7
www.full-ebook.com
Figura mostrando los diagramas de Venn. Fuente: Probabilidad y Estadística aplicadas a la Ingeniería. Montgomery et al. (1996).
2.15. En estudios de meteorología, para dos eventos lluviosos A y B se sabe que P(A) = 0.60, P(B) = 0.4 y P(A ∩ B) = 0.10. Decir si estos dos eventos son independientes o dependientes y calcular la probabilidad asociada. 2.16. Una computadora genera, aleatoriamente, el último dígito de un número telefónico. Calcular: (a) La probabilidad de que el resultado sea un 8 o 9. (b) La probabilidad de que el resultado sea un número impar o menor que 4. 2.17. Si A es un evento de ocurrencia de lluvia y B es otro evento, encontrar P(A|B), si P(B) = 20/26 y P(A ∩ B) = 30/26. P(B) = 10/26 y P(A ∩ B) = 20/26 2.18. Hay 10 registros meteorológicos de temperaturas en una caja y 3 están
www.full-ebook.com
defectuosos. Se sacan 2 registros uno detrás del otro. ¿Cuál es la probabilidad de seleccionar un registro defectuoso seguido por otro registro defectuoso, sin no hay reemplazo? Decir el tipo de regla que se usaría. 2.19. En el diseño de un sistema de computadora, si un byte se define como una secuencia de 8 bits y, cada bit debe ser 0 o 1, ¿cuántos bytes diferentes son posibles? 2.20. Se lanza una moneda 3 veces consecutivas. Hacer un diagrama de árbol con los resultados de soles y águilas y el espacio muestral. Calcular lo siguiente: (a) Número de soles es cuando menos 2. (b) Segundo lanzamiento son soles. (c) El número de soles es exactamente 2. (d) Segundo lanzamiento son águilas. (e) Todos los lanzamientos muestran la misma imagen. (f) El número de soles es menor que 2. (g) El segundo lanzamiento no son soles. (h) El número de soles es de cuando menos 2. (i) El número de soles es no más de 3. (j) El número de águilas es a lo más 3. (k) El número de soles que excedan el número de águilas. 2.21. Se seleccionan 3 cartas, sucesivamente, de un mazo de 52, entonces, encontrar el número de resultados si: (a) Hay reemplazo (b) Si no hay reemplazo 2.22. Evaluar las siguientes factoriales: (a) 7! (b) 70!/68! (c) 10!/0! (d) Evaluar 50! Sugerencia: usar la aproximación de Sterling. 2.23. En estudios de meteorología, supóngase que hay 6 registros diferentes de mediciones de un pluviómetro para ser almacenados, pero solamente, hay 4 cajas disponibles, entonces calcular el número de arreglos posibles.
www.full-ebook.com
2.24. En estudios de contaminación atmosférica, ¿De cuántas maneras diferentes se puede realizar una primera, segunda, tercera o cuarta selección entre 12 empresas arrendadoras de equipo de control de contaminación del aire? 2.25. ¿De cuantas maneras pueden 7 ingenieros ambientales ser asignados a un cuarto triple y a dos cuartos dobles? 2.26. De un grupo de 4 ingenieros ambientales y 3 sanitarios, encontrar el número de comités que se pueden formar consistentes de 2 ingenieros ambientales y 1 ingeniero sanitario. 2.27. Supongamos que la probabilidad de lluvia en cierta región (A) sea de P(A) = .5, y la probabilidad en una cuenca B sea de P(B) = .4, y P(A ∩ B) = .25. Hacer los siguientes cálculos y usar un diagrama de Venn. (a) P(B|A) (b) P(B’|A) (c) P(A|B) (d) P(A’|B) (e) P(A B) 2.28. Una firma de consultoría de ingeniería ambiental en el área de contaminación de suelos presenta solicitaciones para hacer estudios relacionados con tres proyectos de estudios de contaminación de suelos. Dejemos que A = proyecto i conferido para i = 1, 2, 3. Supóngase que: P(A1) = .22 P(A2) = .25 P(A3) = .28 P(A1 ∩ A2) = .11 P(A1 ∩ A3) = .05 P(A2 ∩ A3) = .07 P(A1 ∩ A2 ∩ A3) = .01 Encontrar: (a) A1 A2
www.full-ebook.com
(b) A’ ∩ A2 Sugerencia: usar A’ ∩ A2 = (A1 (c) A1 A2 A3 (d) A1’ ∩ A2 ∩ A3
A2)’ = 1 - P(A1
A2)
Sugerencia: usar 1 - P(A1 ∩ A2 ∩ A3) 2.29. En un estudio de ingeniería ambiental, en el ramo de agua para fines domésticos, un investigador estadístico saca una muestra al azar de 40 trabajadores de un complejo industrial y desea saber la opinión de ellos, sobre cierto reglamento de higiene relacionado con los estándares del agua dentro de las industrias de ese complejo. Si 12 de los trabajadores están a favor del reglamento, y los otros 8 están en contra, ¿Qué probabilidad hay de que dos trabajadores seleccionados, aleatoriamente, por el supervisor, se manifiesten en contra de ese reglamento? 2.30. En estudios de química del agua, los resultados obtenidos de 40 muestras de agua se clasifican de acuerdo a la presencia de dos tipos de contaminantes: cromo y cio. Sean A, el evento formado por todas las muestras de agua en la que se encuentra la presencia de cromo, y B, el evento formado por todas las muestras de agua donde está presente el cio. Si se calculó que la probabilidad P(A ∩ B) = 12/40 y P(A) = 36/40, entonces, calcular la probabilidad del evento formado por todas las muestras de agua con el contaminante cio, dado el evento formado por todas las muestras de agua contaminadas con el cromo. 2.31. Refiriéndose al problema anterior, de los contaminantes de cromo y cio en el agua, encontrar P(A|B), si P(B) es igual a 30/40. 2.32. Para dos eventos de lluvia A y B se sabe que P(A) = 0.50, P(B) = 0.30 y P(A ∩ B) = 0.10. Decir si estos dos eventos son dependientes o independientes. 2.33. Si A es un evento de ocurrencia de lluvia y B es otro evento, encontrar P(A|B), si P(B) = 20/26 y P(A ∩ B) = 30/26
www.full-ebook.com
2.34. En estudios meteorológicos de cierta región se coleccionaron registros de temperaturas provenientes de 15 estaciones de muestreo. Los registros de 3 de estos aparatos se sabe que están defectuosos. Si se seleccionan aleatoriamente, 4 de estos registros de los 15 encontrar el número de combinaciones de los registros. 2.35. En un estudio de contaminación del aire supóngase que se estudian 10 complejos industriales y se observan 2 a un tiempo. Siendo así, calcular el número de arreglos, si la secuencia de los complejos seleccionados es de importancia. 2.36. En un estudio de ingeniería ambiental en el ámbito del agua, para analizar el oxígeno disuelto se requiere muestrear, aleatoriamente, 5 lugares a lo largo de la corriente, cada uno, en 5 diferentes secciones bénticas a lo largo de la corriente, para hacer un total de 25 puntos de muestreo. En cada sondeo individual, el número de puntos de muestreo es 5. ¿Cuánto arreglos son posibles, para cualquier sondeo? 2.37. Si P(A) = .5, P(B) = .7 y P(B|A) = .3, encontrar P(A ∩ B). 2.38. Si P(A) = .8, P(B) = .9 y P(A ∩ B) = .15, encontrar P(A
B).
2.39. Si P = {x|2 < x < 8} y Q = {y|4 < y < 10, siendo así, entonces, encontrar la unión P Q. 2.40. En estudios de meteorología, para dos eventos lluviosos J y K se sabe que la probabilidad P(J) = 0.60, la probabilidad P(K) = 0.40 y P(J ∩ K) = 0.10. Decir si estos dos eventos son dependientes o independientes.
www.full-ebook.com
REFERENCIAS 1. Johnson, R. A. (1997). Probabilidad y Estadística para Ingenieros de Miller y Freund. Quinta edición. PRENTICE-HALL HISPANOAMERICANA, S. A. 2. Hann, C. T. (1977). Statisical Methods in Hydrology. The Iowa State University. 3. Keller, G. Warrock, B., Bartel, H. (1990). Statistics for Management and Economics: A Systematic Approach. Second edition. Wardworth Publishing Company, Belmont, California. 4. Smith, G. (1985). Statistical Reasoning. Allyn and Bacon, Inc. Boston London, Sydney Toronto 5. Montgomery, D., Runger, G. C. (1996). Probabilidad y Estadística aplicadas a la Ingeniería. McGraw-Hill Interamericana Editores, S. A. de C. V.
www.full-ebook.com
Capítulo 3
www.full-ebook.com
Variables Aleatorias y Distribuciones de Probabilidad discreta: Binomial, Poisson, Hipergeométrica, Binomial Negativa y Geométrica Dr.Héctor Adolfo Quevedo Urías (Ph.D.)
Temas descritos en este capítulo
3.1. Introducción
3.2. Variables aleatorias
3.3. Distribución de probabilidad discreta
3.4. Distribución binomial
3.5. Distribución Bernoulli
3.6. Distribución de Poisson
3.7. Distribución e Hipergeométrica
3.8. Distribución binomial negativa
3.9. Distribución geométrica
3.10. Instrucciones para el uso del programa de computadora Minitab a problemas de distribuciones binomial, Poisson e hipergeométrica
www.full-ebook.com
3.1. Introducción. Este capítulo describirá los términos relacionados con variables aleatorias, variables aleatorias discretas y distribuciones de probabilidad discreta. Esta sección también describirá funciones de distribución acumulada y funciones de probabilidad de densidad. Igualmente este capitulo describirá esperanza matemática o el valor esperado de una variable aleatoria discreta. Igualmente, este capítulo describirá algunas distribuciones de probabilidad discreta, como la binomial, Bernoulli, Poisson, hipergeométrica, binomial negativa y geométrica. No obstante, hay otras distribuciones de probabilidad discreta como la multinomial, uniforme, etc., sin embargo, éstas no se discutirán aquí. 3.2. Variables aleatorias. Una variable aleatoria es una variable (típicamente representada por X) que tiene un valor numérico (determinado por la casualidad), para cada resultado de un experimento. Una variable aleatoria es una función que asigna un valor numérico a cada evento simple en un espacio muestral. Se usa el término variable aleatoria para describir el valor que corresponde a un experimento dado. Aquí la palabra “aleatorio” es un término, cuyo valor usualmente no se conoce, hasta que el experimento ha sido conducido. 3.2.1. Variable aleatoria discreta. Una variable aleatoria discreta (vac) puede asumir un número finito de valores o un número contable de valores posibles. En la práctica, una variable aleatoria discreta cuenta el número de veces de la observación de un atributo en particular. Ejemplos de variables aleatorias discretas incluye el número de objetos defectuosos. Por ejemplo, el número de registros que se deben inspeccionar de un conjunto de hidrógrafos antes de encontrar el primer registro defectuoso es una variable aleatoria. 3.3. Distribución de probabilidad discreta. Una distribución de probabilidad da la probabilidad para cada valor de la variable aleatoria. Por ejemplo, una tabla, gráfica o fórmula que enlista todos los posibles valores, que una variable aleatoria discreta pueda asumir, junto con sus probabilidades asociadas, se llama distribución de probabilidad discreta. 3.3.1. Descripción de las distribuciones de probabilidad de variables aleatorias discretas. Las distribuciones de probabilidad de variables aleatorias
www.full-ebook.com
discretas, se describen como: (1) Funciones de probabilidad acumulada (fpa). (2) Funciones de probabilidad de densidad (fpd) o funciones de probabilidad de masa (3) Funciones de distribuciónes acumuladas inversas. 3.3.2. Función de distribución acumulada. En el tema de variables aleatorias discretas y de distribuciones de probabilidad, muy a menudo estamos interesados en la probabilidad de que una variable aleatoria sea menor que, igual a, o mayor que un valor dado. Específicamente hablando, la función de distribución acumulada (fda) da el área bajo la probabilidad de densidad, hasta el punto especificado. Esto dice que la fda determina la probabilidad de una respuesta que está abajo de cierto valor, arriba de cierto valor o entre dos valores. Definición. Dado una variable aleatoria X, el valor de la función de distribución acumulada en x, denotada por F(x), es la probabilidad de que X tome valores menores que, o igual a x. Por lo tanto, F(x) = P(X ≤ x)
(3-1)
En el caso de un variable aleatoria discreta,
(3-1ª) Donde:
El símbolo de x menores que c.
es la suma de los valores de f(x) para todos los valores
www.full-ebook.com
Por ejemplo, las funciones de probabilidad acumulada dan el área bajo la función de probabilidad, hasta el valor especificado, es decir, la probabilidad de que una variable aleatoria sea menor que, igual a, o mayor que. De esta manera, la función de probabilidad acumulada se usa para determinar la probabilidad de que una respuesta esté debajo de cierto valor, arriba de cierto valor o entre dos valores. 3.3.2.1. Función de distribución de densidad. Con respecto al las funciones de probabilidad de densidad (P(X = x)) o de masa (probabilidad de densidad o de masa porque las funciones de masa las probabilidades están “amasadas” en distintos puntos, por ejemplo, a lo largo del eje x) describen la verosimilitud de cada valor que una variable pueda tomar. 3.3.2.2. Funciones de distribución acumuladas inversas. Finalmente, con respecto a las funciones de distribución acumulada inversas, estas funciones dan el valor asociado con una probabilidad acumulada específica y usan el inverso de la función de probabilidad acumulada para determinar el valor de la respuesta asociada con una probabilidad específica. Estas funciones acumuladas inversas se usan para investigar tiempos de falla. La función de probabilidad de densidad describe la verosimilitud de cada tiempo posible de falla, mientras que el inverso de la función de probabilidad acumulada da el tiempo de falla correspondiente para cada probabilidad acumulada, bajo la función de probabilidad de densidad. Hay varias distribuciones de probabilidad discreta, como por ejemplo, la binomial, Poisson, hipergeometrica, uniforme, multinomial, distribución negativa binomial y asi sucesivamente. Sin embargo, en este texto se discutirán únicamente aplicaciones de la binomial, Poisson, hipergeométrica, binomial negativa y geométrica, a estudios de ingenieria ambiental y disciplinas afines. 3.3.3. Esperanza matemática o valor esperado de una variable aleatoria discreta. La media de una variable aleatoria discreta, es la media teórica resultante para un número infinito de ensayos. Definición: El valor esperado de una variable aleatoria discreta se denota por E y representa el valor promedio de los resultados. También, una variable aleatoria discreta X con valores x1, x2,.. xn que ocurren con probabilidades p(xi), el valor
www.full-ebook.com
esperado de X es:
Aquí, la media μ de una variable aleatoria discreta y su valor esperado son la misma cosa, esto es, E = μ. Por ejemplo, si lanzamos una moneda 10 veces y la media del número de caras es 5; bajo estas condiciones, el valor esperado del número de caras es también 5. 3.4. Distribución binomial. La distribución binomial es una de las distribuciones de probabilidad discretas más usadas en estadística. La distribución binomial es un ensayo de algún proceso o experimento que puede resultar en, solamente, uno de dos resultados mutuos excluyentes, es decir, binarios, como “éxito” o “fracaso”. Esto es, donde la probabilidad de éxito se denota por p y el fracaso se denota por q = 1 – p. El experimento consiste de n ensayos repetidos, donde los ensayos son independientes. De esta manera, si p es la probabilidad de éxito de que un evento ocurrirá, en un solo ensayo (llamado arbitrariamente éxito) y, la relación q es la probabilidad de que el evento fallará en cualquier ensayo, entonces, la distribución de probabilidad de la variable aleatoria binomial X, es igual al número de ensayos. En aplicaciones a usos del agua o en hidrología, un ejemplo es la probabilidad de que ocurra una precipitación o inundación, etc. 3.4.1. Aplicaciones generales de la distribución binomial. Una de las áreas principales de aplicaciones de la distribución binomial es en la ingeniería ambiental, como por ejemplo en el caso de una descarga de aguas residuales domésticas o industriales, que pueda o no pueda estar dentro de los límites estipulados por las leyes ambientales. Igualmente, otra de las áreas principales de aplicación de la distribución binomial es en el campo de la hidrología para decir si ocurre o no ocurre el evento de precipitación, inundación, etc. 3.4.2. Definición de la función binomial de probabilidad de masa. La fórmula de la función de probabilidad de masa de la distribución binomial es:
www.full-ebook.com
P(X) = b(x;n,p) = nCx px qn-x = n!/x! (n – x)! px (1 – p)n-x para x = 0, 1, 2,..., n (3-3) Donde: n = selección del tamaño de la muestra considerada como ensayos independientes repetidos de Bernoulli (independientes porque no importa cuantas veces se repita el experimento las probabilidades de éxito o fracaso permanecen constantes). X = 0, 1, 2, 3,…., n o sea el número exacto de éxitos posibles en n ensayos p = probabilidad de éxito y q = 1 – p = probabilidad de fracaso nCx = n!/x!(n – x)! = coeficiente binomial a sea el número de combinaciones de
n objetos tomados a un tiempo r Las figuras de abajo muestran varias formas de la distribución de densidad binomial, con diferentes valores de p igual a 0.5, 0.1 y 0.9 y n = 20.
www.full-ebook.com
Figura 3.1. Gráficas mostrando varias distribuciones binomiales de densidad en función de p y de n. Nótese que, cuando p = .5, la distribución es simétrica. Como se ve en la figura de arriba, la distribución binomial es realmente una familia de distribuciones. Cada valor diferente de n o de p especifica una distribución diferente. Estas figuras muestran como, la distribución binomial varía para diferentes valores de p y de n (donde p es la probabilidad de éxito y q es la probabilidad de fracaso y, donde en n repeticiones de un ensayo de Bernoulli, el número de éxitos posibles es 0, 1, 2,…, n). Sin embargo, sin importar el valor de n, la distribución binomial es simétrica cuando p = 0.5, pero, cuando p > 0.5, la distribución es asimétrica y el pico ocurre a la derecha del centro. También, cuando p < 0.5 la distribución es asimétrica y el pico ocurre a la izquierda del centro. 3.4.3. Función de distribución binomial acumulada. La probabilidad binomial acumulada se refiere a la probabilidad de que el valor de una variable aleatoria binomial caiga dentro de un rango especificado. La fórmula para la función de probabilidad acumulada binomial es:
www.full-ebook.com
La figura de abajo muestra una gráfica de distribuciones acumuladas.
Figura 3.1ª. Grafica mostrando curvas de la distribución acumulada para valores de p = 0.5 y p = 0.7 con valores de n = 40. 3.4.4. Media y varianza de variables aleatorias de la distribución binomial. Si X es una variable aleatoria binomial, la media y la varianza de X son: E(X) = μ = np V(X) = σ2 = npq
(3-5) (3-5ª)
Donde: n = tamaño de la muestra considerada como ensayos independientes repetidos de Bernoulli. p = probabilidad de éxito y q igual a probabilidad de fracaso
www.full-ebook.com
La tabla de abajo muestra las propiedades de la distribución binomial. Tabla 3.1. Tabla mostrando algunas propiedades de la distribución binomial
Ejemplo 3.1. Calcular las siguientes probabilidades directamente de la fórmula, para b(x:n,p). (a) B(3;8,0.6)* (b) b(x;8,0.6)* donde x = 0 (c) P(3 ≤ X ≤ 5) cuando n = 8 y p = 0.6 (d) P(1 ≤ X) cuando n = 12 y p = 0.1 (e) Calcular la media y la varianza del inciso (c) *Nótese la diferencia entre el uso de la letra mayúscula B y la minúscula b. Solución: (a) B(3;8,.6)* dice que queremos X = 3, n = 8, p = 0.6 P(X = 3) = 8!/3!(8 – 3)! (0.6)3 (1 – 0.6)8-3 = 0.124 (b) Usando la fórmula de la distribución binomial: P(X) = b(x;n,p) = nCx px qn-x Ahora, sustituyendo los valores de X = 0, n = 8 y p = 0.6 da: P(0) = B(0;8,0.6) = 8C0 (0.6)0 (0.4)8-0 = 0.00066
www.full-ebook.com
(c) P(3 ≤ X ≤ 5) = B(5;8,0.6) – B(3;8,0.6) = 0.279 – 0.124 = 0.155 Donde los valores de 0.279 y 0.124 se obtuvieron de la tabla binomial de probabilidades de función de masa (d) P(1 ≤ X) cuando n = 12 y p = 0.1. Esto dice que queremos: P(X ≥ 1) = 1 – P(X < 1) = 1 - P(X = 0) 1 – 0.001 = 0.999 (usando la tabla binomial de probabilidades individuales) Ahora usando el modelo binomial P(X ≥ 1) 1 – P(X = 0) = 1 – nCx px qn-x 1 – 8C0 (0.6)0 (0.4)8-0 = 0.9993 (usando la fórmula) (e) La media y la varianza del inciso (c) con n = 8 y p 0.6 son: μ = np = (8)(0.6) = 4.8 y la varianza es σ2 = npq = (4.8)(0.4) = 1.92 Ejemplo 3.2. Este es un problema el cual dice así: Si se quiere estar 90% seguro de que un diseño para un evento de inundación no sea excedido en un periodo de 15 años, hacer lo siguiente: (a) Calcular el periodo de retorno del susodicho diseño. (b) ¿Cree usted que el calentamiento global esté alterando los periodos de retorno que están relacionados con la hidrologia? Solución: (a) Dejemos que la probabilidad p sea el diseño del evento de inundación que sea excedido. La probabilidad de que el diseño no sea excedido, se da por la ecuación binomial: P(X = 0) = b(0;15,p) = 15C0 p0 q15. Si se quiere estar seguro en 90% de que el
www.full-ebook.com
diseño no sea excedido en 10 años, entonces, 0.90 = (1 – p)15. Enseguida, resolviendo por p nos da: p = 1 – (0.90)1/15 = 1 – 0.993 = 0.00699. Por lo tanto el periodo de retorno es T = 1/p = 1/0.00699 = 143 años. (b) Es posible que así esté sucediendo, porque el calentamiento global está alterando los patrones pluviales, es decir, produciendo eventos muy extremos como muchas inundaciones y muchas sequías. Estas situaciones están afectando los periodos de retorno. De acuerdo a este razonamiento, por lo tanto, debe existir una relación entre la ingeniería ambiental y la hidrología. Comentario: El periodo de retorno, conocido también como intervalo de recurrencia, es un estimado del intervalo de tiempo entre eventos como inundaciones, terremotos, o descarga del flujo de un río de cierta intensidad o tamaño. El periodo de retorno, es el tiempo, en años, en que el valor del caudal pico de una determinada creciente es igualado o superado por lo menos una vez. El periodo de retorno es una medición estadística que denota el intervalo de recurrencia promedio, sobre un periodo extendido de tiempo. El periodo de retorno es el inverso de la probabilidad que el evento será excedido en cualquier año. El periodo de retorno se denota como p = 1/T, donde p es la probabilidad de que el evento será excedido en cualquier año y T es el periodo de retorno. Por ejemplo, un periodo de inundación de 10 años es de 1/10 = 0.1 o 10% de ser excedido en cualquier año. Similarmente, un periodo de retorno de 50 años es p = 1/T = 1/50 = 0.02 o 2 % de ser excedido en cualquier año. Más explícitamente, un periodo de 10 años es un evento que ocurrirá una vez cada 10 años. Similarmente, un periodo de retorno de 100 años, es un evento que se espera que ocurra una vez cada 100 años (como una inundación o terremoto). De acuerdo al texto Hidrología en la Ingeniería, segunda edición publicado por Alfa omega Grupo Editor, S. A. de C.V, los criterios usuales aplicados en la fijación del periodo de retorno son: La vida útil de la obra, tipo de estructura, facilidad de reparación y ampliación y peligro de pérdidas de vidas humanas.
Ejemplo 3.3. Dada la variable aleatoria binomial X con n = 14 análisis de azufre (S) de aguas industriales y p = .5, entonces, encontrar las probabilidades de abajo de la siguiente manera: (a) P(X ≥ 5) (b) P(X≤ 4) (c) P(X = 6) (d) P(3 ≤ X ≤ 6) (e) P(5 < X < 8) (1) Usando el modelo binomial (2) Usando la tabla de probabilidades binomiales
www.full-ebook.com
(3) Usando el Programa Minitab. Sugerencia: (ver instrucciones del uso del Minitab en la última sección de este capítulo). Solución: (1) Usando el modelo binomial P(X) = b(x;n,p) = nCx px qn-x y sustituyendo los valores dados
(2) Para usar la tabla de la distribución binomial del Apéndice de este libro, se busca el valor de n =14 con p = 0.5 y con su correspondiente valor de X. (a) P(X ≥ 5) = 1 – P(X ≤ 4) = 1 – 0.0898 = 0.9102 (b) P(X≤ 4) = .0898 (c) P(X = 6) = 0.3953 – 0.2120 = 0.1833 (d) P(3 ≤ X ≤ 6) = 0.3953 – 0.0065 = 0.3888 (e) P(5 < X < 8) = P(X ≤ 7) – P(X ≤ 6) = 0.6047 - 0.3953 = 0.2517 (3) Usando el Minitab se generan las probabilidades acumuladas y de densidad, mismas que se dan en la tabla de abajo. Sugerencia: Usando el programa Minitab irse a: Calc → Probability
www.full-ebook.com
Distributions → Binomial y seguir con las demás instrucciones dadas en las sección del uso del Minitab en final del capítulo. Tabla 3.2. Tabla mostrando la variable aleatoria binomial X y las probabilidades acumuladas y de densidad.
De la tabla de arriba se pueden calcular fácilmente todas las probabilidades pedidas, como se muestra abajo. (a) P(X ≥ 5) = 0.9102 (c) P(X = 6) = .1833 (d) P(3 ≤ X ≤ 6) = 0.3888 (e) P(5 < X < 8) = P(X ≤ 7) – P(X ≤ 6) = 0.3928 3.5. Distribución Bernoulli. El suizo matemático, Jacob Bernoulli (1654-1705) fue quien describió el llamado proceso Bernoulli. La distribución Bernoulli es la distribución discreta más simple y la base para otras distribuciones discretas más complicadas, como la binomial, la binomial negativa y la distribución geométrica. La distribución Bernoulli es un caso especial de la distribución binomial, cuando n = 1. Por ejemplo, cuando el tamaño de la muestra es n = 1, la
www.full-ebook.com
distribución binomial es una distribución Bernoulli. La distribución Bernoulli es una distribución teórica del número de éxitos en un juego finito de ensayos independientes, con probabilidad constante de éxitos. En forma análoga a la distribución binomial, la distribución Bernoulli es una distribución discreta, es decir, un experimento aleatorio que tiene solo dos posibles resultados, es decir, “éxito” o “fracaso”, donde la probabilidad de éxito se denota por p y el fracaso se denota por q = 1 – p. De acuerdo a la fuente de información de abajo, la relación entre la distribución Bernoulli y binomial se puede describir de la siguiente manera: Una variable aleatoria binomial con n = 1 y p, es una variable Bernoulli, con parámetro p. Análogamente, una variable aleatoria binomial con parámetro n y p es la suma de n variables aleatorias independientes con parámetro p. (http://hubpages.com/hub/Bernoulli-and-binomial). En forma análoga a la distribución binomial, con la distribución de Bernoulli también hay funciones de probabilidad acumulada y de densidad. También con esta funcion podemos calcular la media y la varianza de la distribución. 3.5.1. Definición del proceso Bernoulli. Un proceso Bernoulli es un proceso en el cual un experimento es repetidamente hecho dando, ya sea un “éxito” o un “fracaso” en cada intento y donde la ocurrencia de un éxito o un fracaso en un ensayo en particular, no es afectado por los resultados de cualquier ensayo previo o subsecuente, donde los ensayos son independientes. 3.5.2. Definición de la variable aleatoria Bernoulli. Supóngase que un experimento produce solamente dos resultados posibles, es decir, un “éxito” o un “fracaso”. Dejemos que la variable aleatoria X = 1 si el resultado es un éxito y si X = 0 y el resultado es un fracaso, entonces, la variable aleatoria X es una variable aleatoria Bernoulli. 3.6. Distribución de Poisson. La distribución Poisson es una distribución de probabilidad discreta, porque se forma contando algo. La distribución de Poisson fue desarrollada por el francés Simeon Denis Poisson, quién la describió en 1837. (Del punto de vista del autor, la distribución de Poisson se puede considerar como una lógica de probabilidad deductiva, en forma análoga a la distribución binomial, porque en el cálculo de las probabilidades se va del total a la parte. Esto es, porque en estas distribuciones, siempre conocemos la probabilidad del espacio muestral, la cual siempre es igual a 1 (el total o conjunto)).
www.full-ebook.com
La distribución de Poisson también puede ser enfocada como una forma limitante de la distribución binomial, es decir, como una aproximación de la binomial, esto es, cuando los cálculos binomiales son muy largos y tediosos. Pero, más importante todavía, la distribución de Poisson, también puede ser enfocada dentro de sus propios términos o derechos. La distribución de Poisson tiene aplicaciones a una gran variedad de procesos físicos; y aplica a la ocurrencia de algún evento aleatorio X, sobre un intervalo especificado, donde el intervalo puede ser tiempo, distancia, área, volumen, etc. 3.6.1. Propiedades del modelo Poisson. El modelo de Poisson tiene las siguientes propiedades: 1. El número de éxitos que ocurren en cualquier intervalo es independiente del número de éxitos que ocurren en cualquier otro intervalo. 2. La probabilidad de que un éxito ocurra en un intervalo es la misma para todos los intervalos de tamaños iguales y es proporcional al tamaño del intervalo. 3. La probabilidad de que dos o más éxitos ocurran en un intervalo se aproxima a cero, a medida que el intervalo se hace más pequeño. En cuanto a las diferencias entre la distribución de Poisson y la distribución binomial, la distribución binomial es afectada por el tamaño de la muestra n y la probabilidad p, mientras que, la distribución de Poisson es afectada por el promedio μ. Además, la distribución binomial tiene valores posibles de x = 0, 1, 2, 3,..., n, mientras que la Poisson tiene valores posibles de x = 0, 1, 2, 3,....ad infinitum, es decir sin ningún límite superior. 3.6.2. Función de probabilidad de masa o densidad de la distribución Poisson. Cuando la distribución de Poisson es apropiada, la probabilidad de observar, exactamente, X número de ocurrencias por unidad de medición (horas, minutos, centímetros cúbicos, páginas, etc.), es decir, el número de resultados que ocurren en un intervalo de tiempo dado o en una región específica, se
www.full-ebook.com
encuentra usando la fórmula de abajo:
Donde: λ = parámetro de escala que indica el número promedio de ocurrencias por intervalo. Debido a que λ debe ser positiva, p(x;λ) > 0 para todos los valores posibles de x. e = 2.71828... (Base de los logaritmos naturales). x = 0, 1, 2,....., ∞, es decir, los valores de la variable aleatoria X, esto es, el número de resultados que ocurren en un intervalo de tiempo. La figura de abajo muestra las gráficas de las probabilidades de densidad de Poisson para varios valores de λ igual a 5, 20, 30 y 40.
Figura 3.2. Gráficas de probabilidades de función de masa para valores de λ iguales a 5, 15, 20 y 25. Nótese que, cuando λ es igual a 20, la distribución es simétrica.
www.full-ebook.com
3.6.3. Función de probabilidad acumulada de Poisson. La función acumulada de Poisson (cdf cumulative density function por sus siglas en ingles) calcula la cdf de Poissson en cada uno de los valores en X usando los correspondientes parámetros de la media en lambda (λ). Los valores de X y λ pueden ser vectores o matrices que tienen el mismo tamaño. De acuerdo al texto Engineering Statistics Handbook (NIST/SEMATECH), la fórmula para la función de probabilidad acumulada de Poisson se da como:
Donde: λ es el número promedio de éxitos que ocurre en un intervalo de tiempo dado o región. Este valor debe ser positivo para todos los valores posibles de x. x es la variable aleatoria Poisson. e = 2.71828…. o la base de los logaritmos naturales. Nota: el programa de cómputo Minitab pide el valor de μ en lugar de λ.
La figura de abajo muestra la gráfica de varias curvas de la distribución acumulada de Poisson.
www.full-ebook.com
Figura 3.2ª. Figura mostrando curvas de la distribución acumulada Poisson para valores de lambda (λ) igual a 2, 4, 8 y 10. 3.6.4. Media y varianza de la distribución Poisson. Con respecto al modelo Poisson, no hay límite al número de los valores de la variable aleatoria Poisson que pueda asumir, porque esta variable aleatoria discreta tiene un número infinito de valores posibles (en contraste con la variable aleatoria binomial que tiene un número finito de valores). Por esta razón, si X es una variable aleatoria Poisson, por la cual μ (o λ) es el número promedio de éxitos que puedan ocurrir en un intervalo dado, los valores esperados y la varianza de la variable aleatoria X tienen la misma media y varianza, esto es, p(X;λt) = λt o E(X) = V(X) = μ. Nota: cuando se usa el modelo Poisson con el Minitab, este programa requiere de μ.
Tabla 3.3. Tabla muestreando algunas propiedades de la distribución Poisson.
Ejemplo 3.4. Una distribución de Poisson se da por la función de p(x;λ) =
www.full-ebook.com
[(0.72)x e-0.72]/x! donde λ = 0.72. Siendo así, encontrar: (a) p(0;λ) (b) p(1;λ) (c) p(3;λ) (d) Calcular los valores de la media y la desviación estándar Solución: (a) p(0;0.72) = (0.72)0 e-0.72 / 0! = 0.4868 (b) p(1;0.72) = (0.72)1 e-0.72 / 1! = 0.3505 (c) p(3;0.72) = (0.72)3 e-0.72 / 3! = 0.0300 (d) Para resolverse por el lector Ejemplo 3.5. Este es un problema de hidrología aplicando el modelo Poisson. Siendo así, calcular las siguientes probabilidades dadas abajo asumiendo una tormenta de 25 años en un periodo de retorno de 100 años. (a) La probabilidad de que ocurran a lo mucho 4 ocurrencias de lluvia (b) La probabilidad de que ocurran cuando menos 8 eventos de lluvia (c) La probabilidad de que ocurran exactamente 6 eventos de lluvia (d) La probabilidad de que ocurran entre 4 y 7 eventos de lluvia incluso (e) Usando un paquete de cómputo, hacer una gráfica de probabilidades acumulas y de densidad vs. valores de X = 0, 1,…., 9. (Ver secciones para el uso del programa Minitab) (f) ¿Cuáles son los valores de la media y la varianza? (g) Hacer una gráfica de la distribución Poisson (h) ¿Cree usted que las emisiones vehiculares estén calentando la tierra, alterando los patrones pluviales y, por lo tanto, modificando los periodos de retorno? Si la respuesta es afirmativa, apoyarla acordemente. Sin embargo, si la respuesta es negativa, defenderla acordemente. (Para responderse por el lector). Solución: (a) Aquí, primeramente necesitamos calcular el valor de λ el cual es igual a np,
www.full-ebook.com
para poder usar el modelo Poisson dado por la ecuación (3-6). Sin embargo, para calcular p, usamos la relación p = 1/T. Entonces, p = 1/25 = 0.04. Además, aquí sabemos que n = 100. Entonces, λ = np = (100)(0.04) = 4.0. Por lo tanto,
(b) P(X ≥ 8) = 1 – P(X ≤ 7) (Para finalizarse por el lector) (c) P(X = 6) = p(6;4) = 0.1042
(e) La gráfica se da en la figura de abajo.
Figura 3.3. Figura mostrando las gráficas de frecuencia relativa acumulada y frecuencia relativa, en función de la variable aleatoria X. (f) El valor de la media y la varianza es el mismo y es igual a 4. (g) La gráfica de la distribución Poisson se da en la figura de abajo.
www.full-ebook.com
Figura 3.3a. Gráfica de Poisson con media igual a 4.0 3.6.5. Aplicación de la distribución de Poisson dentro de sus propios términos y como una aproximación a la distribución binomial. La distribución de Poisson puede explicarse desde dos ángulos: dentro de sus propios derechos y como una aproximación de la distribución binomial. Esto ocurre, porque muchas veces si se aplica la distribución binomial a ciertos problemas, los cálculos son muy extensos, en cuyo caso se puede aplicar la distribución de Poisson, la cual da los mismos resultados, pero mucho más fácil de calcularlos. (Aquí es de notarse que, con los programas de computadora, como el Minitab, los cálculos ya son mucho más fáciles de hacer. Sin embargo, la aproximación de la binomial a la Poisson haciendo los cálculos manualmente, es de interés didáctico). Por ejemplo, cuando la distribución de Poisson se usa como una aproximación a la distribución binomial, esto es aplicable, cuando n es grande y la probabilidad (n ≥ 50 ensayos), p es pequeña (p ≤ 0.05). Nuevamente, aquí, el cálculo manual de las aproximaciones entre la binomial y la Poisson son de interés histórico, porque el uso de programas de cómputo, como el Minitab, facilitan de sobremanera, estos cálculos. De cualquier manera, aquí se discutirá un ejemplo. Ejemplo 3.6. En estudios de usos del agua, supóngase que el 10% de los ríos de cierta región industrial están contaminados con benceno, (C6H6). Si tomamos una muestra aleatoria de 30 mediciones, aplicar el modelo binomial y el modelo Poisson y luego hacer lo siguiente:
www.full-ebook.com
(a) Calcular la probabilidad de que 5 ríos estén contaminados con este compuesto aromático cancerígeno. (b) Usando un paquete de cómputo, como el Minitab, hacer una gráfica sobrepuesta con las frecuencias de función de masa. Sugerencia: Irse a: Calc → Probability Distribution → Poisson. Luego seguir las demás instrucciones dadas al final del capítulo. Solución: (a) Usando el modelo binomial con x = 5, n = 30, p = 0.10, q = 0.90 y sustituyendo da: B(5;30,0.10) = 30C5 (0.10)5 (0.90)30-5 = (142,506)(0.00001)(0.072) = 0.1023 Usando el modelo Poisson con x = 5, λ = np = (30)(0.10) = 3.0 y sustituyendo da: P(X = 5) = (3)5 (e-3)/5! = (243)(0.0498)/120 = 0.1010 Aquí se nota que, al usar la binomial el proceso es dificultoso, con relación al uso de la Poisson. (b) La gráfica sobrepuesta se da en la figura de abajo.
www.full-ebook.com
Figura 3.4. Figura mostrando la gráfica de las probabilidades de frecuencias relativas P(X = x) binomiales y de Poisson. Nótese que, cuando X = 5 existe una aproximación casi perfecta, mientras que, cuando X = 3 hay un poco más diferimiento entre las dos probabilidades. 3.7. Distribución Hipergeométrica. La función hipergeométrica es una distribución de probabilidad discreta, la cual está estrechamente ligada a la distribución binomial. La manera más simple de ver la diferencia entre las dos distribuciones radica en la forma que se hace el muestreo. Así, la diferencia entre estas dos distribuciones es que, en la distribución binomial, los intentos son independientes, porque hay reemplazo en la selección de la muestra. Sin embargo, en el caso de la distribución hipergeométrica, hay dependencia, porque la selección de la muestra se hace sin reemplazo y la probabilidad de éxito cambia de un intento a otro. El modelo hipergeométrico es apropiado, cuando el muestreo es sin reemplazo de una población finita y, cuando se requiere la probabilidad de un número específico de éxitos y/o fracasos. En el uso del modelo hipergeométrico, sin embargo, hay ciertas condiciones que tienen que tomarse en consideración en los valores de N, k y n. Por ejemplo, k > X, y también X < n. Análogamente, N > k, y N > n. 3.7.1. Suposiciones y propiedades de la distribución hipergeométrica 1. Una muestra aleatoria de tamaño n se selecciona sin reemplazo de N ítems.
www.full-ebook.com
2. La variable k de los N ítems pueden ser clasificados como éxitos y, N – k es fracasos. 3. La población o conjunto de la muestra consiste de N individuos, objetos o elementos (una población finita). 4. Cada individuo es caracterizado como un éxito o un fracaso y hay k éxitos en la población. 5. Una muestra de n individuos se selecciona sin reemplazo (hay dependencia, en contraste con la binomial en la que hay independencia) en forma aleatoria. 3.7.2. Función de probabilidad de densidad hipergeométrica. La distribución hipergeométrica de una variable aleatoria hipergeométrica X, describe el número de éxitos en una muestra aleatoria de tamaño n, seleccionada de N ítems, de los cuales k se llaman éxitos y N – k se llaman fracasos. Su probabilidad de densidad es:
Donde: h es la probabilidad hipergeométrica de sacar exactamente X de un posible k de casos en n muestreos sin reemplazo de un grupo de n observaciones. k = éxitos en n intentos, es decir, la cantidad de elementos identificados como éxito en la población N – k = fracasos
www.full-ebook.com
n = tamaño de la muestra aleatoria o cantidad de elementos en la población N = número de ítems (tamaño de la población) Donde x no puede exceder de k y (n – x) no se puede exceder de (N – k) Observaciones: NCn
Representa la cantidad de formas en las que se puede seleccionar una muestra de tamaño n de una población de tamaño N kCx Representa la cantidad de maneras en las que se puede seleccionar x éxitos
de un total de k éxitos de la población N-kCn-x Representa la cantidad de maneras en las que se puede seleccionar n – x
fracasos de un total de N – k fracasos en la población
Figura 3.5. Figura mostrando curvas hipergeométricas de densidad para diferentes valores de N, k y n.
www.full-ebook.com
3.7.3. Función de probabilidad acumulada de la distribución hipergeométrica. La función de probabilidad acumulada de la distribución hipergeometrica calcula la función de la distribución acumulada en cada uno de los valores de X usando el tamaño correspondiente de la población N, número de casos con las características en la población, k, y el número de muestras sacadas, n. Aquí sin embargo, las entradas matriciales para X, N, k y n, todos deben ser del mismo tamaño. De esta manera la función de probabilidad acumulada de la distribución hipergeométrica se da como:
Donde p es la probabilidad de sacar hasta X de k casos posibles en n muestreos, sin reemplazo de una muestra de n observaciones y donde N, k y n ya se definidas anteriormente. La figura de abajo muestra las funciones hipergeométricas con diferentes valores de N, k y n.
www.full-ebook.com
Figura 3.5a. Figura mostrando curvas hipergeométricas de función acumulas para diferentes valores de N, k y n. 3.7.4. Aplicaciones de la distribución hipergeométrica. Las aplicaciones de esta distribución se encuentran en muchas áreas como en la ingeniería ambiental, la hidrología, recursos del agua, o en cualquier área de recursos del agua o de difusión atmosférica. También se usa en pruebas electrónicas, aseguranza de calidad, etc. 3.7.5. Promedio y varianza de la distribución hipergeométrica. Como en el caso binomial con la hipergeométrica, también se pueden usar expresiones como E(X) y V(X) para denotar la media y la varianza de esta distribución. Si el valor de n es relativamente pequeño, con respecto a N, la probabilidad para cada intento cambia ligeramente, lo que indica que se tiene un experimento binomial. Esta situación puede aproximarse a la distribución hipergeométrica usando la distribución binomial con p = k/N. Así, la media y la varianza de la distribución hipergeométrica se pueden aproximar mediante las fórmulas: E(X) = np = nk/N V(X) = (N – n)/(N – 1) np(1 – p)
(3-8) (3-8a)
Donde el factor (N – n)/(N – 1) se llama factor de corrección para población finita
www.full-ebook.com
Ejemplo 3.7. En una auditoría hecha a una estación meteorológica estatal se descubrió que, de 20 registros de temperaturas, 5 estaban incorrectos. Si 10 de estos registros se seleccionan aleatoriamente, para su inspección, encontrar la probabilidad de que, dos de estos 10 registros estén erróneos. Hacer una gráfica hipergeométrica. Solución: Aquí, X = 2, n = 10, k = 5 y N = 20. Ahora sustituyendo estos valores en el modelo hipergeométrico da: P(X = 2) = H(2;20,10,5) = 5C2•15C8 / 20C10 = (10)(6435)/184756 = 0.348 La gráfica hipergeométrica con n = 10, N = 20, k = 5 se da en la figura de abajo.
Figura 3.6. Gráfica hipergeométrica con N = 20, n = 10 y k = 5. 3.7.6. Relación entre la distribución hipergeométrica y la distribución binomial. Hay una relación entre la distribución binomial y la distribución hipergeométrica. Como se dijo antes, si n es pequeña comparada con N, la naturaleza de N ítems cambia muy poco en cada muestreo. Por lo tanto, la
www.full-ebook.com
cantidad k/N juega el papel del parámetro p de la distribución binomial. Como resultado, la distribución binomial puede ser vista como una edición poblacional grande de la distribución hipergeométrica. Así, cuando hay un experimento hipergeométrico, en el cual no se da el valor de k directamente, pero si, los valores dados de N y de la probabilidad p (o en términos de porcentaje), el valor de k se puede calcular usando la relación p = k/N. Debido a que, algunas veces los cálculos usando la distribución binomial, Poisson o hipergeométrica son muy largos y tediosos, éstos se pueden calcular rápidamente usando paquetes de cómputo como el Minitab. Los siguientes ejemplos usan las fórmulas y luego el programa Minitab. Ejemplo 3.8. Se hace un estudio a lo largo de un río, donde 200 industrias porcinas descargan sus aguas residuales y se les requiere que reduzcan las concentraciones del DBO por un 85%. Sin embargo, se sospecha que 20 de estas industrias no están cumpliendo con la reducción requerida. Para esto se seleccionan 30 de estas industrias aleatoriamente, sin reemplazo. Hacer lo siguiente: (a) Establecer el punto de partida aplicando la función hipergeométrica. Luego calcular las probabilidades (El lector lo deberá hacer y luego comparará los resultados del Minitab) (b) Establecer el punto de partida aplicando la distribución binomial y luego hacer una aproximación a la distribución hipergeométrica. (El lector lo deberá hacer) (c) Usando el Minitab (ver instrucciones del uso del Minitab al final de este capítulo), hacer una tabulación de los datos y una gráfica sobrepuesta con las probabilidades acumuladas de ambas distribuciones y comparar los resultados. Sugerencia: Irse a: Calc → Probability Distributions → Hypergeometric. Luego seguir con las demás instrucciones dadas al final del capítulo. Solución: (a) Aquí, para la hipergeométrica N = 200, k = 20, n = 30. Para la binomial, p = k/N = 20/200 = 0.1. Usando el punto de partida del modelo hipergeométrico da (El lector deberá calcular las probabilidades y comparar los resultados con aquéllos calculados en la Tabla 3.4):
www.full-ebook.com
(b) Usando el punto de partida del modelo binomial da (El lector deberá calcular las probabilidades y comparar los resultados obtenidos con aquéllos dados en la Tabla 3.4): P(X) = b(X;30,0.1) = 30Cx (0.1)x (.99)30-x para x = 0, 1, 2, 3,...,11 (c) La tabulación de los datos de ambas distribuciones usando el Minitab se da abajo Tabla 3.4. Tabla mostrando los resultados dados por el Minitab.
Las gráficas sobrepuestas se dan en la figura de abajo.
www.full-ebook.com
Figura 3.7. Figuras mostrando las gráficas sobrepuestas de ambas distribuciones, acumuladas y de densidad, respectivamente. Nótese que si se hicieran manualmente los cálculos de los incisos (a) y (b), esto sería largo y tedioso. 3.8. Distribución binomial negativa. La distribución binomial negativa es una distribución de probabilidad discreta del número de éxitos en una secuencia de
www.full-ebook.com
ensayos Bernoulli antes de que un número r especificado (no aleatorio) de fracasos ocurra. La diferencia entre la distribución binomial y la distribución binomial negativa radica en el hecho de que, los ensayos se repiten hasta que un número de éxitos fijos ocurren. Por lo tanto, en lugar de encontrar la probabilidad de que X éxitos en n ensayos ocurran (donde n es fija), en el caso de la binomial negativa estamos interesados en la probabilidad de que k-ésimos éxitos ocurran en x-ésimos ensayos. Esta distribución binomial negativa tiene aplicaciones a tecnologías del agua, es decir, de plantas de tratamiento para sistemas de abastecimiento de agua. En hidrología, también tiene aplicaciones al diseño de periodos de retorno. Igualmente, tiene aplicaciones a los componentes de bombas de agua. La variable aleatoria binomial negativa X y su distribución están fincadas en experimentos que satisfacen las siguientes condiciones (Devore, 2001): 1. Cada experimento consta de una secuencia de ensayos independientes 2. Cada ensayo puede resultar en un éxito o fracaso 3. La probabilidad de éxito es constante de un ensayo a otro, asi P(S en el ensayo i) = p para i = 1, 2, 3,… 4. El experimento continúa (los ensayos se ejecutan) hasta que un total de r éxitos se haya observado, donde r es un entero positivo específico. 3.8.1. Definición. Si ensayos repetidos independientes pueden resultar en un éxito con probabilidad p y fracaso con probabilidad q = 1 – p, entonces, la distribución de probabilidad de la variable aleatoria X, el número del ensayo, del cual k-ésimos éxitos ocurren se da por: b(x;k,p) = x-1Ck-1 pk qx-k, x = k, k + 1, k + 2,….
(3-9)
Donde: p es la probabilidad del número de veces que el evento deba ocurrir, k = número de veces que el evento debe ocurrir La descripción de la función de probabilidad de masa de la distribución binomial negativa es larga y tediosa y no se explicará en esta sección.
www.full-ebook.com
Las siguientes gráficas muestran las funciones de distribución acumulada y de masa de la distribución binomial negativa con valores de p = 0.1 y k = 3.
Figura 3.8. Gráficas mostrando las probabilidades acumuladas y de densidad para la distribución binomial negativa con p = 0.10 y k = 3. Ejemplo 3.9. Supóngase que se lanzan 3 monedas, (que tienen caras y águilas), entonces encontrar la probabilidad de sacar, ya sean, todas las caras o todas las águilas por segunda vez, en el sexto lanzamiento. Solución: Usando la función de la distribución binomial negativa (3-9) con x = 6, k = 2 (por segunda vez) y p = ¼ y sustituyendo da: b(6;2,1/4) = 6-1C2-1 · (¼)2 · (3/4)6-2 = (5) (0.0625) (0.3164) = 0.0989 Ejemplo 3.9ª. Hacer el mismo ejemplo anterior pero ahora usando el Minitab. Solución:
www.full-ebook.com
Irse a: Calc → Probability Distribution → Negative Binomial. Luego en la ventana de dialogo de Negative Binomial Distribution y en la ventanilla de “Event Probability” poner la probabilidad (.25 en este caso). Finalmente, en la ventanilla de “Number of Events” poner el valor de k (numero de veces que el evento debe ocurrir y p la probabilidad del numero de veces que el evento debe ocurrir. Refiriéndose a la figura de abajo buscar en el renglón de x = 6 en la columna de la f.r. y da 0.0989 Figura 3.9. Diagrama impreso de la hoja del Minitab con los resultados. 3.9. Distribución geométrica. La distribución geométrica es una distribución de probabilidad discreta y es un caso especial de la distribución binomial negativa. La distribución geométrica es discreta, existiendo solamente en los íntegros no negativos. Es muy útil para modelar corridas de éxitos consecutivos o fracasos en ensayos independientes repetidos de algún problema. En verdad, la distribución geométrica modela el número de éxitos antes de un fracaso en una sucesión de pruebas, donde cada prueba resulta en un éxito o fracaso. 3.9.1. Definición. Si ensayos independientes repetidos pueden resultar en un éxito con probabilidad p y un fracaso con probabilidad q = 1 – p, entonces, la distribución de probabilidad de la variable aleatoria X, es decir, el número de ensayos en los cuales el primer éxito ocurre, se da como:
Donde: q = 1 – p 3.9.2. Media y varianza de la distribución geométrica. Las siguientes fórmulas dan, sin demostración, la media y la varianza de la distribución geométrica. Media = μ = 1/p
www.full-ebook.com
(3-10ª)
Varianza = (1 – p) / p2
(3-10b)
Ejemplo 3.10. En cierto proceso de manufactura de muestreadores de alto volumen para el monitoreo de partículas atmosféricas, el promedio de muestreadores defectuosos es de 2 por cada 100. Hacer los siguientes cálculos: (a) ¿Cuál es la probabilidad de que el sexto muestreador inspeccionado sea el primer muestreador defectuoso? (b) Calcular la media y la varianza. Solución: (a) Aquí, x = 6, y p = 2/100 = .02 Usando (3-10), da y = geom(x;p) = p (q)x-1 = geom(6;.02) = (0.02) (.98)6-1 = 0.0181 (b) La media es μ = 1/p = 1/.02 = 50 La varianza es: (1 – p) / p2 = (1 - .02) / (.02)2 = (0.98) (0.0004) = 0.00039 Ejemplo 3.10ª. Hacer el mismo problema anterior de los muestreadores de alto volumen pero ahora haciendo una tabulación de las probabilidades de densidad de ahí calcular lo pedido por el problema. Solución: Usando el Minitab se hace la tabulación de los datos. Tabla 3.5. Tabla mostrando las probabilidades de densidad geométricas.
www.full-ebook.com
Usando la gráfica de la figura de arriba, en la columna de X = 6, la probabilidad es de .0181. 3.10. Instrucciones para el uso del programa computacional Minitab a problemas de las distribuciones binomial, Poisson e hipergeométrica. 3.10.1. Procedimientos usados con el uso del Minitab para la distribución binomial. Abrir el programa Minitab e irse a: Calc → Probability Distributions → Binomial… Esto hace que aparezca la ventana de “Binomial Distributions”. En esta ventana puntear “Probability”. En la ventanilla de “Number of Trials” poner el valor de n seleccionado (tamaño de la muestra). Asimismo, en la ventanilla de “Probability of Success” poner la probabilidad o el porcentaje (en forma decimal) deseado. En la ventanilla de “Input Columns” poner la columna C1 o sea la columna con los datos que se quieran evaluar. En la ventanilla de “Optional Storage” se pondrán los datos generales que se almacenaran. Luego poner “OK”. Enseguida, para generar las probabilidades acumuladas, dentro de la misma ventana de “Binomial Distributions” puntear “Cummulative Probability” y proceder análogamente, como arriba. Similarmente, para hacer gráficas irse a: Graph → Scatterplot → With Connect line, etc. En la ventana de “Scatterplots With Connect Line”, poner C2 o C3 en Y y, C1 en
www.full-ebook.com
X. (Siempre que se tenga alguna duda, consultar la ventanilla de “Help”.) Ejemplo 3.14. En un estudio de usos de agua doméstica, los estándares para las concentraciones de fluoruros (F-) para el agua potable establecidos por la Environmental Protection Agency de los Estados Unidos, es de 4.0 mg/L. Si la probabilidad de que cada muestra sacada de la toma domiciliaria es de 0.1, con muestras aleatorias de tamaño 18, entonces calcular: (a) La probabilidad de que 2 excedan el límite de 4.0 mg/L de F-. (b) La probabilidad de que, al menos 4 muestras excedan el límite de 4.0 mg/L de F-. (c) La probabilidad de que, cuando menos 3 muestras, pero menos de 7 violen el limite estipulado. (c) La probabilidad de que más de 3 muestras, pero menos de 7 excedan el límite estipulado de 4.0 mg/L de F-. (d) La probabilidad de que, exactamente, 5 muestras excedan el límite. (e) Hacer gráficas de probabilidades acumuladas y de densidad en función de X. Solución: Dejemos que X sea el número de muestras que excedan el límite establecido de 4.0 mg/L del total de las 18 observaciones. Entonces, X es una variable aleatoria binomial (se está o no se está acatando el límite estipulado), con p = 0.1 y n = 18. Por consiguiente, usando la fórmula binomial y sustituyendo los valores de p y n se establece el punto de partida como: b(x;18,0.1) = 18Cx (0.1)x (.99)18-x De esta base se sustituyen los valores de X se calculan las probabilidades pedidas usando los valores generados por el Minitab. Las variables requeridas por el Minitab son el número de ensayos n = 18 y el valor de p = 0.1. Esto se observa en la Figura 3.9 de abajo.
www.full-ebook.com
Figura 3.9. Diagrama esquemático impreso mostrando la tabulación de las probabilidades acumuladas y de densidad y las entradas en la hoja del Minitab. De esta figura se calculan fácilmente las probabilidades pedidas.
www.full-ebook.com
Figura 3.10. Gráficas de P(X ≤ x) y P(X = x) vs. variable aleatoria binomial X. 3.10.2. Procedimientos usados con el uso del Minitab para la distribución Poisson. Abrir la hoja del programa Minitab. Irse a: Calc → Probability distributions → Poisson. En la ventana de “Poisson distribution” y en la ventanilla de “Mean”, poner el valor de la media μ (o el valor de λ). Luego en la ventanilla de “Input column”, poner el valor de la variable aleatoria X y en la ventanilla de “Optional Storage” poner la columna donde se almacenarán los resultados de las probabilidades acumuladas, P(X ≤ x) y de las probabilidades de densidad, P(X = x). Para hacer las gráficas irse a: Graph → Scatterplot. En la ventana de Scatterplots puntear “OK”. Luego en la ventana de “Scatterplot-Simple” y en las ventanillas de “Y variable” y “X variable” poner los valores de las probabilidades
www.full-ebook.com
acumuladas y de densidad con los valores de X. Luego seguir las instrucciones pedidas. Ejemplo 3.15. En un estudio de hidrología de informaciones para usos agrícolas e industriales, se da un ejemplo de una tormenta de 15 años en un periodo de 90 años. Asumiendo que los datos siguen a un proceso Poisson, calcular las probabilidades de las siguientes ocurrencias de lluvias. (a) La probabilidad de que sucedan cuando menos 6 ocurrencias bajo las condiciones de arriba. (b) La probabilidad de que ocurran, cuando menos 10 eventos de lluvia, bajo las condiciones dadas. (c) La probabilidad de que ocurran exactamente, 4 eventos de lluvia bajo las condiciones dadas. (d) La probabilidad de que ocurran menos de 5 eventos de lluvia bajo las condiciones dadas. (e) La probabilidad de que ocurran entre 8 y 15 eventos de lluvia excluso. (f) Hacer gráficas de probabilidad acumulada, P(X ≤ x) y de probabilidad de densidad, P(X=x) vs. valores de X. Solución: Aquí n = 90 y T = 15 y usaremos el modelo Poisson dado como:
No obstante, primero calculamos p sabiendo que p = 1/T o sea p = 0.0667. Luego calculamos λ sabiendo que λ = np = (90)(0.0667) = 6. Luego se procede a calcular las probabilidades pedidas usando el Minitab como
www.full-ebook.com
se observa en la figura impresa de abajo. Siendo así, (a) P(X ≥ 6) = 0.5542 (b) P(X ≥ 10) = 0.0839 (c) P(X = 4) = F(4,6) = e-6 (6)4/4! = 0.1339 (d) P(X < 5) = 0.2851 (e) P(8 ≤ X ≤ 15) = 0.2560
Figura 3.11. Diagrama esquemático mostrando las entradas y los resultados en la hoja del Minitab para la distribución Poisson. 3.10.3. Procedimientos usados con el Minitab para la función hipergeométrica. Abrir el programa Minitab e irse a: Calc → Probability Distributions → Hypergeometric. Esta maniobra abre la ventana “Hypergeometric Distribution”. En esta ventana puntear “Probability”. Para calcular las probabilidades hypergeométricas de función de masa en la ventanilla de “Population size (N)” poner el valor de la población muestreada (N). En la ventanilla de “Success in Population (M)” poner el número de éxitos (k). En la ventanilla de “Simple Size (n)” poner la muestra seleccionada (n). En la ventanilla de “Input columns” poner los valores que se vayan a evaluar (x). En la
www.full-ebook.com
ventanilla de “Optional Storage” introducir la columna donde se vayan a almacenar los valores generados. Para hacer las gráficas irse a: Graph → Scatterplot. En la ventana de “Scatterplots” puntear OK. Luego en la ventana de “Scatterplot-Simple” y en las ventanillas de “Y variable” y “X variable” poner los valores de las probabilidades acumuladas y de densidad con los valores de X. Luego seguir con las demás instrucciones pedidas. Ejemplo 3.16. Este es un problema aplicando una distribución discreta. Siendo así, asumir que, en cierta región, durante el mes de noviembre ocurrieron 8 días lluviosos. También asumir que, en esa localidad, en particular, la ocurrencia de precipitación en cualquier día es independiente de que haya o no haya llovido en cualquier día anterior. Para esto se sacó una muestra aleatoria de 10 días y se hicieron las mediciones de las precipitaciones. Hacer lo siguiente (a) Calcular la probabilidad de que 4 de esos días estuvieron lluviosos. (b) Calcular la probabilidad de que, cuando menos 3 de esos días, estuvieran lluviosos. (c) Calcular la probabilidad de que, a lo mucho 4 de estos días, estuvieran lluviosos. (d) Calcular la probabilidad de que, inclusivamente, entre 3 y 5 de estos días estuvieran lluviosos. (e) Calcular la probabilidad de que, menos de 4, de esos días llovió. (f) Hacer gráficas de probabilidades acumulas, P(X ≤ x) y probabilidades de densidad, P(X = x) con los datos de este problema. Solución: Usando la función hipergeométrica con N = 30 (porque el mes de noviembre tiene 30 días), tamaño de muestra, n = 10, k = 11, se procede a hacer una tabulación de las probabilidades acumuladas P(X ≤ x) y de las probabilidades de densidad o de función de masa, P(X = x), con el uso del Minitab. (a) P(X = 4) = 0.298005 (b) P(X ≥ 3) = 0.82474
www.full-ebook.com
(c) P(X ≤ 4) = 0.45197 (d) P(3 ≤ X ≤ 5) = 0.75532 (e) P(X < 4) = 0.45197 Todos estos cálculos se hicieron usando como referencia la tabulación de los datos mostrados en la figura de abajo. Aquí es de notarse qué, si estos cálculos se hicieran manualmente, esto sería largo y tedioso. (f) Las gráficas de probabilidades acumuladas, P(X ≤ x) y de probabilidades de función de masa P(X = x) se muestran en la figura de abajo.
Figura 3.12. Representación esquemática impresa de las entradas en la hoja del Minitab para la distribución hipergeométrica.
www.full-ebook.com
Figura 3.12a. Gráficas sobrepuestas de probabilidades acumuladas, P(X ≤ x) y de función de masa P(X = x).
www.full-ebook.com
Figura 3.12b. Diagrama esquemático impreso del Minitab mostrando las entradas para hacer las gráficas de arriba. Ejemplo 3.17. Dada la variable aleatoria binomial X, con n = 14 y p = 0.5. Hacer gráficas señalando las áreas o probabilidades para los incisos (a)-(d) de abajo. (a) P(X ≥ 5) (b) P(X ≤ 4) (c) P(X = 6) (d) P(3 ≤ X ≤ 6) (e) P(5 < X < 8) Solución: Usando el modelo binomial o un paquete de cómputo, primeramente, se calculan
www.full-ebook.com
las probabilidades. (a) P(X ≥ 5) = .9102 (b) P(X ≤ 4) = .0898 (c) P(X = 6) = .1833 (d) P(3 ≤ X ≤ 6) = .3888 (e) P(5 < X < 8) = .3928 (a) Usando el Minitab irse a: Graph → Probability Distribution Plot. En la ventana de “Probability Distribution Plot” puntear “View Single” y “OK”. Luego en la ventana de “Probability Distribution Plot-View Single” y en la ventanilla de “Distribution” puntear “Binomial”. Enseguida, poner el número de ensayos y el evento de probabilidad y “OK”. Después, puntear “Shaded Area” y en la ventana de “Probability Distribution Plot-View Probability”, puntear la ventanilla de “Right Tail” y seguir con las demás instrucciones. Haciendo manualmente algunas modificaciones en la gráfica se obtiene la figura de abajo.
Figura 3.13. Figura mostrando la gráfica de P(X ≥ 5) = .9102 (b) Para P(X ≤ 4) se procede en forma similar a como se hizo arriba, pero punteando la ventanilla de “Left Tail” y luego seguir con las demás instrucciones. Esto genera la gráfica de abajo.
www.full-ebook.com
Figura 3.13ª. Figura mostrando la gráfica de P(X ≤ 4) = .0898. (c) Para P(X = 6) usando el Minitab se procede similarmente como se hizo con las instrucciones anteriores para genera la figura de abajo.
Figura
3.13b. Figura mostrando la gráfica de P(X = 6) = .1833. (d) Para P(3 ≤ X ≤ 6) se procede en forma análoga a como se hizo anteriormente
www.full-ebook.com
y se genera la figura de abajo.
Figura 3.13c. Figura señalando la probabilidad P(3 ≤ X ≤ 6) = .3888.
Ejercicios 3.1. Calcular las siguientes probabilidades binomiales directamente de la fórmula, P(X) = b(x;n,p) = nCx px qn-x = n!/x! (n – x)! px (1 – p)n-x. Luego usar el programa Minitab. Comparar los resultados. (a) B(3;8,.6) (b) B(5;8,.6) (c) P(3 ≤ X ≤ 5) cuando n = 8 y p = .6 (d) P(1 ≤ X) cuando n = 12 y p = .1 (e) b(x;8,0.6) donde x = 0 3.2. Usando la tabla de la distribución binomial y/o el programa Minitab, calcular:
www.full-ebook.com
(a) B(4;10,0.3) (b) B(6;10,0.7) 3.3 Dada la variable aleatoria binomial X con n = 14 y p = 0.5. Hacer gráficas señalando las áreas o probabilidades para el inciso (a). (a) P(X ≥ 6) (b) P(X ≤ 3) (c) P(X = 7) (d) P(3 ≤ X ≤ 8) (e) P(5 < X < 9) 3.4. Supóngase que el número de huracanes observados en cierta región del Caribe durante un periodo de 1 año sigue a la distribución Poisson con media, μ = 7. Siendo así, calcular lo siguiente: (a) La probabilidad de que ocurran a lo mucho 3 huracanes. (b) La probabilidad de que ocurran exactamente 4 huracanes. (c) La probabilidad de que ocurran cuando menos 3 huracanes. (d) Hacer gráficas señalando las áreas o probabilidades para cada uno de los incisos (a)-(c). 3.5. Este es un estudio de aplicación de la distribución hipergeométrica que tiene parámetros de n = 5, N = 17 y k = 7. Siendo así, hacer gráficas que señalen las áreas o probabilidades para cada uno de los incisos (a)-(c) de abajo. (a) P(X ≥ 3) (b) P(X ≤ 4) (c) P(X = 2) 3.6. Supóngase que el 40% de los ríos de cierta región industrial de México están contaminados con benceno. Si se toma una muestra aleatoria de tamaño n = 30, calcular las siguientes probabilidades usando la función estadística apropiada: (a) Exactamente 15 ríos estén contaminados con este compuesto cancerigeno.
www.full-ebook.com
(b) Cuando menos 15 ríos están contaminados (c) No mas de 10 ríos, pero cuando menos 5 ríos en la muestra estén contaminados con benceno. 3.7. En un estudio tomado del texto de Quevedo et al. 2008, el cual está relacionado con de laboratorio bacteriológico de aguas para fines domésticos, en el cual se afirma que 3% de las tomas domiciliarias están contaminadas con la bacteria Escherichia Coli en concentraciones arriba del límite estipulado por las leyes ambientales. Encontrar las siguientes probabilidades (usando la distribución idónea) en una muestra aleatoria de 25 llaves: (a) Ninguna llave está contaminada (b) Cuando menos una llave está contaminada (c) Entre 1 u 5 tomas están contaminadas (d) Mas de 5 tomas están contaminadas (e) Más de 5, pero menos de 10 tomas están contaminadas 3.8. En un río adyacente a una zona industrial, la probabilidad de que una muestra aleatoria de agua exceda el límite de cromo (Cr), el cual corresponde a 10 mg/L, es de 0.01. Si se saca una muestra aleatoria de n = 18 análisis y se supone que las muestras de aguas son independientes con respecto a la presencia del cromo, entonces: (a) Encontrar la probabilidad de que dos de las muestras excedan el límite estipulado. (b) La probabilidad de que al menos 4 muestras excedan este limite (c) La probabilidad de que, cuando menos 3 pero menos de 7 excedan el límite estipulado (d) La probabilidad de que más de 3 muestras, pero menos de 7 excedan el límite (e) La probabilidad de que ninguna exceda el límite 3.9. En estudios de contaminación del agua, cuando se habla de la industria del papel y la industria de la pulpa, los tipos de contaminantes arrojados al agua son varios. Para mencionar algunos, son los hidróxidos de sodio (NaOH), ácido sulfúrico (H2SO4), ácido clorhídrico (HCl), cianuros (CN-), plomo (Pb), cromo (Cr), etc. De esta manera, supóngase que el 40% de los ríos de cierta región
www.full-ebook.com
industrial del hemisferio norte están contaminados con descargas de NaOH. Hacer lo siguiente aplicando la distribución estadística apropiada: (a) Si tomamos una muestra aleatoria de tamaño n = 30, calcular que exactamente 15 ríos estarán contaminados con esta base química. (b) Cuando menos 15 ríos estarán contaminados con esa base en una muestra de n = 25. (c) No más de 10 ríos, pero cuando menos de 5 ríos estarán contaminados de una muestra aleatoria de n = 25. 3.10. En un río adyacente a una zona industrial, el porcentaje de cada muestra de agua sacada del río exceda el límite de bromuros (Br-) de 10 mg/L, es de 15%, con una muestra de tamaño n = 15. Si se supone que las muestras de agua son independientes con respecto a la presencia del bromuro, entonces: (a) Encontrar la probabilidad de que exactamente 2 excedan el límite de 10 mg/L del bromuro. (b) Encontrar la probabilidad de que, al menos 7 muestras violen el límite. (c) Encontrar la probabilidad de que más de 3 muestras, pero menos de 7 excedan el límite estipulado del bromuro. 3.11. En un estudio de contaminación atmosférica, se sabe que la probabilidad de que una industria de fundición de metales elegida aleatoriamente, no cumpla con los límites ambientales del aire, en cuanto óxidos de azufre (SO2), es de p = 0.5. Si se saca una muestra aleatoria de 10 industrias y si X indica el número que industrias que no cumplen con la ley ambiental, entonces encontrar: (a) La probabilidad de que 5 industrias si respeten el límite del SO2. (b) La probabilidad de que no más de 2 industrias cumplan con el reglamento. (c) La probabilidad de que menos de 9 lo cumplan. (d) La probabilidad de que menos de 5 industrias cumplan, pero cuando menos 3 si lo cumplan. 3.12. En una investigación de usos del agua se estudiaron cientos de industrias que descargan sus residuos a la cañería municipal. Sea X el número de industrias que no cumplen con las regulaciones ambientales del agua, las cuales están
www.full-ebook.com
descargando desechos tóxicos a la línea de drenaje, de una muestra al azar de 10 industrias. Si se sabe que el valor de la probabilidad es de p = 0.5, calcular las siguientes probabilidades. ¿Cual es el modelo estadístico más plausible que se aplique a este problema? (a) La probabilidad de que, exactamente, 5 industrias cumplan con los límites ambientales. (b) La probabilidad de que no más de 2, cumplan con el reglamento. (c) La probabilidad de que cuando menos 9, lo cumplan. (d) La probabilidad de que menos de 5 industrias cumplan, pero cuando menos 3 si lo cumplan. 3.13. Este es un ejemplo aplicando la distribución de Poisson dentro de sus propios derechos. Siendo así, asúmase que una distribución de Poisson se da por la función p(x) = [(0.72)x e-.72] / x! Entonces, encontrar: (a) P(0), (b) P(1), (c) P(2), (d) P(3). 3.14. Este es un ejercicio de usos del agua para plantas hidrotermoeléctricas aplicando la distribución binomial y su aproximación a la normal. De esta manera, usando la binomial se saca una muestra aleatoria de 50 análisis de sulfatos (SO-24) y se calcula una probabilidad p de éxitos igual a .09. Siendo así, usando el Minitab, hacer los siguientes: (a) Una tabulación de los resultados usando la binomial y la distribución normal. (b) Hacer una gráfica sobrepuesta de las probabilidades acumuladas de ambas distribuciones. Comparar los resultados. (c) ¿Cuál sería el % de error cuando P(X ≤ 3), es decir, usando ambos modelos estadísticos? (d) Si el valor de p estuviera en las décimas, ¿aumentaría el porcentaje de error o disminuiría en la aproximación? 3.15. Un fabricante de precipitadores electrostáticos (para la contención de partículas atmosféricas) afirma que el 6% de los equipos que fabrica están defectuosos. Si esta aseveración es correcta y se toma una muestra aleatoria de 10 aparatos, entonces, hacer los siguientes cálculos aplicando la distribución
www.full-ebook.com
apropiada: (a) Precisamente dos aparatos están defectuosos (b) A los menos 2 aparatos están defectuosos (c) Menos que un aparato está defectuoso (d) Entre 2 y 5 aparatos están defectuosos (incluso y excluso). (e) P(S) (f) Graficar la función de probabilidad de densidad P(X = x) y la función de probabilidad acumulada P(X ≤ x). 3.16. Este es un estudio donde se trata de comparar los resultados entre el uso de las distribuciones binomial y Poisson. Siendo así, supóngase que n = 25 y p =.02, entonces, de esta manera, hacer los siguientes cálculos: (a) Hacer una tabulación de las probabilidades acumuladas y de densidad de cada una de las dos distribuciones, e.g., binomial y Poisson. (b) Hacer gráficas sobrepuestas con los resultados obtenidos en el inciso (a). (c) Calcular las siguientes probabilidades usando la distribución binomial (1) P(X ≥ 4) (2) P(X ≤ 3) (3) P(X = 2) (d) Calcular las siguientes probabilidades usando la distribución Poisson. (1) P(X ≥ 4) (2) P(X ≤ 3) (3) P(X = 2) (e) ¿Cuál es el porcentaje de diferencias usando ambos modelos, cuando X = 2? 3.17. Este es un estudio de higiene industrial y seguridad, en el cual el ingeniero encargado del departamento de seguridad afirma que, solo el 40% de todos los trabajadores usan cascos de seguridad cuando comen en el lugar del trabajo. Suponiendo que esta afirmación es correcta, entonces, usando la función
www.full-ebook.com
estadística apropiada, encontrar la probabilidad de que 4 de los siguientes trabajadores de esa industria, elegidos aleatoriamente, usen los cascos de seguridad, bajo esas condiciones. 3.18. En un estudio de ahorro de energía, se argumenta que, en el 40% de las calefacciones activadas con energía solar, la cuenta por el servicio eléctrico se reduce sustancialmente. De acuerdo a este argumento, usar la distribución binomial y la normal y luego, responder a lo siguiente: (a) Hacer una tabulación con los datos de las probabilidades acumuladas y de densidad usando ambas distribuciones (b) ¿Cuál es la probabilidad de que el recibo de consumo eléctrico baje en cuando menos 5 de una muestra aleatoria de 15 calefacciones? Hacer este problema con la distribución binomial y, luego con la normal y comparar los resultados. (c) ¿Cuál es la probabilidad de que el recibo de consumo eléctrico baje en cuando mucho 5 de una muestra aleatoria de 15 calefacciones? Hacer este problema con la distribución binomial y, luego con la normal y comparar los resultados. (d) ¿Cuál es la probabilidad de que el recibo de consumo eléctrico sea de 5 de una muestra aleatoria de 15 calefacciones? Hacer este problema con la distribución binomial y, luego con la normal y comparar los resultados. (e) Hacer gráficas sobrepuestas con los resultados obtenidos en (a) y (b). 3.19. En un estudio relacionado con la precipitación pluvial del mes de junio, en cierta localidad ocurrieron 8 días de precipitaciones. Para esto, se sacó una muestra aleatoria de 10 días y se analizaron los datos de precipitaciones. Responder a lo siguiente: (a) ¿Cuál distribución se está usando? (b) Una vez que se identifique la distribución del modelo usado calcular lo
www.full-ebook.com
siguiente: (1) La probabilidad de que ocurran 2 precipitaciones. (2) La probabilidad de que ocurran a lo más 2 precipitaciones. (3) La probabilidad de que ocurran cuando menos 4 precipitaciones. (4) Calcular la probabilidad de que ocurran a lo más 4 días de lluvia, pero más de 1 día de lluvia. (5) La probabilidad de que no ocurran ninguna precipitación. (c) Hacer gráficas de las probabilidades acumuladas y de densidad. (d) Calcular la media y la varianza de los datos. 3.20. Con la hidrología, dado un periodo de retorno de 50 años, encontrar las siguientes probabilidades en 10 años sucesivos. Para esto usar la distribución binomial y la hipergeométrica y comparar los resultados. (a) La probabilidad de que un evento ocurra exactamente una vez. (b) La probabilidad de que un evento ocurra en cuando menos 5 veces (c) ¿Cree usted que el calentamiento global esté impactando los periodos de retorno? Sugerencia: Usar la distribución binomial y la hipergeométrica y comparar los resultados. 3.21. Con el uso de la distribución Poisson, en aplicaciones a la hidrología, calcular la probabilidad de que un evento de inundación con un periodo de retorno de 50 años ocurrirá exactamente una vez en 20 años de la vida de servicio de una estructura hidráulica. Sugerencia: Para usar la distribución Poisson necesitamos la media μ. Sabemos que μ = np, y para calcular p podemos usar la relación p = 1/T. 3.22. Supóngase que, en cierta región cercana al ecuador, la época más lluviosa es de junio a septiembre. Asumir que durante ese periodo de lluvias intensas, ocurrieron 40 días lluviosos. También asúmase que en esta región, en particular, la ocurrencia de lluvia en cualquier día, es independiente de que haya llovido o no, en cualquier día previo. Siendo así, se selecciona una muestra aleatoria de 30 días. Entonces, una vez que se identifique el modelo estadístico adecuado,
www.full-ebook.com
calcular las siguientes probabilidades. (a) La probabilidad de que diez de estos días fueran lluviosos (b) La probabilidad de que cuando menos 14 de estos días fueran lluviosos (c) La probabilidad de que a lo mucho 8 de estos días fueran lluviosos. (d) La probabilidad de que entre 6 y 16 días (incluso) fuera lluviosos. (e) La probabilidad de que más de 8 días estuvieran lluviosos. (f) Hacer gráficas con las probabilidades acumuladas y de densidad. 3.23. Supóngase que el número de huracanes y/o tormentas tropicales que ocurren en la región del Caribe es de 25, durante los últimos 4 años, con un promedio de μ = λ = 5. Asumiendo que los datos siguen a un modelo Poisson, usando el programa Minitab, calcular las siguientes probabilidades: (a) La probabilidad de que ocurran cuando mucho 9 huracanes o depresiones tropicales (b) La probabilidad de que ocurran cuando menos 9 (c) La probabilidad de que ocurran 15 (d) La probabilidad de que ocurran a lo más 14 huracanes, pero más de 8. (e) La probabilidad de que ocurran entre 8 y 15 huracanes incluso. (f) La probabilidad de que ocurran entre 7 y 15 huracanes excluso. (g) Teóricamente hablando, ¿Cree usted que los huracanes están contribuyendo al calentamiento global? Si la respuesta es afirmativa defender el argumento usando un racionalismo científico, pero si la afirmación es negativa, defenderlo, igualmente. 3.24. En estudios de usos del agua, supóngase que se saca una muestra aleatoria de industrias que descargan aguas residuales al dren municipal, y se descubre que el 10% están descargando, ilegalmente, desechos tóxicos industriales. Encontrar la probabilidad de qué, en una muestra de 10 industrias seleccionadas, aleatoriamente, exactamente, 2 industrias estén descargando sustancias peligrosas a la tubería del drene. Hacer esto usando: (a) La distribución de Poisson (b) La distribución binomial. (c) Luego hacer gráficas sobrepuestas de P(X ≤ x) de ambas distribuciones (ver instrucciones del uso del Minitab al final de este capítulo).
www.full-ebook.com
3.25. Este es un estudio de aplicaciones de usos del agua, el cual está relacionado con el uso de la distribución Poisson y su aproximación a la binomial. Por ejemplo, una distribución binomial, por la cual el número de casos n es grande y la probabilidad p de éxitos es pequeña puede ser aproximada por una distribución Poisson. De hecho, para que la aproximación de la binomial a la Poisson sea buena, p debe ser muy pequeña, para hacer np < 5, cuando n es grande, digamos, n > 100. Además, esto es importante, porque grandes valores de n, hacen dificultoso el uso de las tablas binomiales. Igualmente, al usar el modelo binomial, al sustituir valores grandes de n, se obtienen valores astronómicos, difíciles de calcular, sin el uso de la computadora. De esta manera usando la binomial se saca una muestra de n = 50 casos de DBO de una planta de tratamiento de lodos activados y se calcula una probabilidad p de éxitos igual a .022. Aquí debido a que, n es grande, el valor promedio es μ = np = (50)(.022) = 1.1 (el cual es menor que 5), lo que hace que se pueda hacer una aproximación con la Poisson. Siendo así, usando el Minitab, hacer lo siguiente: (a) Una tabulación de los resultados usando la binomial y la Poisson. (b) Luego hacer una gráfica sobrepuesta de las probabilidades acumuladas y de frecuencia relativa. Comparar los resultados. (c) ¿Cuál sería el % de error cuando P(X ≤ 3), es decir, usando ambos modelos? 3.26. En una estación meteorológica, supóngase que existen registros pluviales de 12 pluviómetros. Sin embargo, se sabe que de 4 de estos aparatos están dando registros defectuosos. Si se seleccionan 5 registros de los 12 registros, calcular las siguientes probabilidades, usando la distribución discreta más apropiada: (a) ¿Cual es la probabilidad de que se seleccionen 2 registros defectuosos? (b) ¿Cual es la probabilidad de que se seleccionen cuando menos 3 registros malos? (c) ¿Cual es la probabilidad de que se seleccionen cuando mucho 4 registros malos? (d) ¿Cual es la probabilidad de que se seleccionen, inclusivamente, entre 1 y 3 registros malos? 3.27. Usando el programa Minitab calcular las siguientes probabilidades hipergeométricas cuya función es: h(x;N,n,k) = kCx N-kCn-x / NCn, donde k también se toma como M. Siendo así, supóngase que en cierta región del estado de California, E. U. la época más lluviosa es de diciembre a febrero. Asumiendo
www.full-ebook.com
que durante ese periodo ocurrieron 40 días lluviosos, si se selecciona una muestra aleatoria de 30 días, entonces calcular lo siguiente: (a) P(X = 10 días) (b) P(8 ≤ X ≤ 15) (c) P(X ≥ 12 días) (d) P(X ≤ 9 días) (e) Enseguida usar la distribución binomial b(x;n,p) = nCx px qn-x como aproximación y luego hacer una gráfica sobrepuesta con las probabilidades acumuladas y de densidad de cada una de las dos distribuciones y comparar los resultados. (f) Calcular el promedio y la desviación estándar de ambas distribuciones. 3.28. Supóngase que durante cierto mes de Agosto ocurrieron 10 días lluviosos y bajo esas condiciones se sacó una muestra aleatoria de 9 días. Siendo así hacer lo siguiente: (a) Usando el modelo más idóneo calcular: (1) La probabilidad de que 5 de esos 10 días sean lluviosos. (2) La probabilidad de que cuando menos 6 de esos días sean lluviosos. (3) La probabilidad de que menos de 8 días de esos días sean lluviosos. (4) La probabilidad de que ningún día de esos 9 días sean lluviosos. (5) La probabilidad de que exactamente 8 de esos días sean lluviosos (b) Usando la distribución binomial hacer lo mismo que en el inciso (a). (c) Con los datos obtenidos en los incisos (a) y (b) hacer gráficas sobrepuestas de las frecuencias relativas acumuladas y de frecuencia relativa de ambas distribuciones y comparar los resultados. 3.29. En un laboratorio de química ambiental de cierta universidad, se sabe que una distribución de 10 medidores de pH (que determinan la acidez y alcalinidad) tiene 4 unidades que están defectuosas (éxitos arbitrariamente). Si una muestra de 3 medidores se selecciona aleatoriamente, sin reemplazo, hacer lo siguiente: (a) Identificar la función estadística que se está usando. (b) Hacer una fabulación de las probabilidades acumuladas y de masa. (c) Calcular lo siguiente:
www.full-ebook.com
(1) La probabilidad de que un aparato de pH esté malo. (2) La probabilidad de que, a lo mas 2 aparatos estén defectuosos (3) La probabilidad de que entre uno y 3 medidores, inclusivamente, estén malos. (4) La probabilidad de que, cuando menos 2 aparatos estén defectuosos 3.30. En un estudio de higiene industrial y de seguridad, se sabe que, durante un mes, el número de accidentes laborales en una factoría sigue a una función Poisson, con media igual a λ = 3, entonces hacer lo siguiente: (a) Calcular la probabilidad de que ocurran a lo sumo 3 accidentes. (b) Calcular la probabilidad de que ocurran cuando menos 4 accidentes. (c) Calcular la probabilidad de que no ocurra ningún accidente. (d) Calcular la probabilidad de que ocurran entre 8 y 11 accidentes (exclusivamente) (e) Calcular la probabilidad de que ocurran precisamente, 5 accidentes. (f) Hacer graficas de probabilidades acumuladas y de densidad. (g) Calcular la media y la varianza usando las formulas y usando la grafica. 3.31. En un estudio de contaminación del aire relacionado con las terminales de camiones de carga, se sabe que, el número promedio de camiones que llega diariamente a cierta terminal camionera es de 3 camiones. Para que los complejos habitacionales adyacentes a esta terminal no se contaminen con el humo de los camiones, se restringe el número de camiones que entran a la terminal y se establece un límite de no más de 8 por día. Hacer lo siguiente: (a) Que modelo se esta usando? (b) Hacer gráficas de probabilidades acumuladas y de masa (c) Calcular la probabilidad de que arriben entre 2 y 4 camiones, incluso (d) La probabilidad de que no arribe ningún camión. (e) La probabilidad de que arriben cuando menos 4 camiones. (f) La probabilidad de que arriben precisamente 8 camiones (g) Asumiendo que este estudio se hiciera en verano y en invierno, ¿cual seria la diferencia en los resultados en ambos casos, aumentaría o disminuiría las probabilidades? (Para resolverse por el lector)
www.full-ebook.com
3.32. En estudios de higiene industrial es decir, relacionado con la exposición a los asbestos, es una situación de la cual mucha gente no sabe el peligro que entraña la exposición a aquellos trabajadores que laboran en la remodelación de las casas en los patios de talleres mecánicos. En este estudio en particular se sabe que el 10% de los trabajadores de cierta planta automotriz padecen de asbestosis. Para este estudio se requiere de 3 pacientes que tengan la enfermedad, por lo que se analiza, sucesivamente, al azar a los empleados de esta industria hasta tener a los 3 pacientes que den positivo en los análisis. Hacer lo siguiente: (a) Identificar la función estadística usada. (b) Calcular las siguientes probabilidades (1) Se tenga que analizar exactamente, 5 trabajadores para tener a los 3 con la asbestosis (2) Se tengan que hacer más de 7 análisis (3) Se tengan que hacer exactamente 3 análisis. Nota: El asbesto es un compuesto mineral usado en más de 300 productos diferentes que van desde revestimiento de frenos de vehículos, hasta insolación. De acuerdo a una información (http://www.usaction.org/site/pp.asp.168.html) la exposición a asbestos causa cuatro tipos de problemas de salud: Mesotelioma, cáncer de los pulmones, asbestosis y enfermedad pleural. Por ejemplo, mesotelioma es cáncer en los revestimientos de los pulmones o del abdomen. Esta condición es siempre fatal y el enfermo dura cuando mucho 1 año. Además, la asbestosis es una condición que reduce la habilidad funcional de los pulmones, que comienza con respiración acortada. La enfermedad pleural es una condición en la cual los revestimientos de los pulmones se engrosan.
3.33. En un estudio de muestreo de contaminación atmosférica se instala una red de 3840 sensores de alto volumen, para medir las concentraciones de partículas atmosféricas menores que 10 micras (PM10). Si la probabilidad de que cualquiera de estos muestreadotes falle es de 0.00083 durante un año, entonces, contestar las siguientes preguntas: (a) ¿Que función probabilística es la mas factible para este problema? Con la función más apropiada hacer una tabulación de los datos (b) Calcular las siguientes probabilidades (1) La probabilidad de que fallen 10 sensores (2) La probabilidad de que fallen cuando menos 8 sensores (3) La probabilidad de que fallen a lo sumo 6 sensores (4) La probabilidad de que fallen entre 5 y 11 sensores (5) La probabilidad de que no falle ningún sensor.
www.full-ebook.com
(c) Hacer gráficas de probabilidades acumuladas y de densidad. Calcular la media. 3.34. En la fabricación de sensores de gas electroquímicos para la detección del monóxido de carbono (CO), se sabe que la media de sensores defectuosos de este tipo es de 2%. Siendo así, usando la función estadística apropiada, hacer los siguientes cálculos: (a) ¿Cuál es la probabilidad de que el quinto sensor inspeccionado sea el primer sensor de CO electroquímico defectuoso? (b) Calcular la media y la varianza. 3.35. Para el ejercicio anterior usar el Minitab se hace la tabulación de los datos y de ahí calcular la probabilidad de que el quinto sensor inspeccionado sea el primer sensor de CO electroquímico defectuoso. 3.36. Supóngase que se lanzan 3 monedas, (que tienen caras y águilas), entonces, una vez que se identifique el modelo estadístico apropiado. Hacer lo siguiente: (a) Encontrar la probabilidad de sacar, ya sean, todas las caras o todas las águilas por segunda vez, en el quinto lanzamiento.
www.full-ebook.com
REFERENCIAS 1. Hidrología en la Ingeniería, segunda edición. Alfaomega Grupo Editor, S. A. de C.V). 2. http://hubpages.com/hub/Bernoulli-and-binomial 3. http://www.itl.nist.gov/div898/handbook/eda/section3/eda366j.htm. NIST/SEMATECH, Engineering Statistical Handobook (2010). 4. Spiegel, M. R. Schaum’s Outline of Theory and Problems of Statistics. Schaum Publishing Company, New York (1961). 5. Devore, J. L. (2001). Probabilidad y Estadística para Ingeniería y Ciencia. Quinta edición. Thomson Learning. 6. Quevedo, H. Pérez, B. R. (2008). Estadística para Ingeniería y Ciencias. Grupo Editorial Patria, México, D. F. 7.. http://www.usaction.org/site/pp.asp.168.html
www.full-ebook.com
Capítulo 4
www.full-ebook.com
Variables Aleatorias Continuas y Distribuciones de Probabilidad Dr. Héctor Adolfo Quevedo Urías (Ph.D.)
Temas descritos en este capítulo
4.1. Introducción
4.2. Definición de variable aleatoria continua
4.3. Función de probabilidad de densidad (pdf por sus siglas en inglés), f(x) y función de distribución acumulada, F(x) (cdf por sus siglas en inglés)
4.4. Definición matemática de la variable aleatoria continua
4.5. Definición de función de distribución acumulada
4.6. Valores esperados para variables aleatorias continuas
4.7. Función generadora de momentos
4.8. La distribución normal
4.9. Distribución exponencial
4.10. Distribución gamma
4.11. Distribución Weibull
4.12. Distribución Lognormal
www.full-ebook.com
4.13. Distribución de t de Estudiante
4.14. Distribución de JI cuadrada
4.15. Función probabilística de la distribución F
4.16. Distribución Gumbel
4.17. Periodos de retorno y probabilidades de excedencia
4.18. Posiciones de graficación
4.19. Gráficas de probabilidad 4.20. Uso de Minitab para hacer gráficas de probabilidad para algunas distribuciones continuas como Normal, Weibull, exponencial, Gamma, lognormal y funciones de valores extremos tipo I (Gumbel) 4.21. Indicaciones usando el programa Minitab para calcular probabilidades acumuladas y de densidad de distribuciones continuas 4.1. Introducción. Este capítulo discutirá variables aleatorias continuas asociadas a modelos de distribuciones de probabilidad continua, especialmente la variable aleatoria normal, la cual es la más importante y útil en probabilidad y estadística. En el capítulo anterior se discutió la variable aleatoria discreta, pero en este capítulo se discutirá un segundo tipo de variable aleatoria, es decir, la variable aleatoria continua, la cual aparece en muchas aplicaciones de ingeniería y de otras disciplinas. Este capítulo también discutirá distribuciones continuas de probabilidad, como la distribución normal (estándar y no estándar), la distribución exponencial, la distribución gamma, la distribución Weibull y la distribución lognormal. Igualmente, este capítulo dará una definición introductoria de la distribución de t de Estudiante, la distribución de JI cuadrada y la distribución F. En este renglón, una de las distribuciones de probabilidad continua más importantes en todo el campo de la estadística, es la distribución normal. La distribución normal es importante, porque modela o describe las distribuciones de numerosas variables aleatorias que se usan en la práctica. Otra
www.full-ebook.com
razón por la cual la distribución normal es útil es porque esta distribución provee aproximaciones a otras distribuciones, continuas y a distribuciones discretas. Finalmente, este capítulo también discutirá problemas usando el programa Minitab para la distribución normal, la exponencial, la gamma, Weibull, t de Estudiante, F, JI cuadrada y así sucesivamente. 4.2. Definición de variable aleatoria continua. Una variable aleatoria X se dice que es continua si, su conjunto de valores posibles es un intervalo completo de números, esto es, si por a < b cualquier número X entre a y b es posible. En términos simples, la variable aleatoria continua X se define, como la variable aleatoria que contiene un intervalo finito o infinito de números reales. De esta manera, una variable que, teóricamente, pueda asumir cualquier valor entre dos valores dados, es continua; de otra manera es discreta. En general, mediciones dan lugar a datos continuos, mientras que enumeraciones o conteo da lugar a datos discretos. Por ejemplo, el número de niños en una familia pueden tener valores de 0, 1, 3, 4,…, pero no pueden tener valores de 2.5, o 3.842. Por otro lado, ejemplos de variables continuas son las alturas de un grupo de personas que se pueden expresar como 62, 63.8 pulgadas, 65.83412 pulgadas, etc. 4.3. Función de probabilidad de densidad (pdf por sus siglas en inglés), f(x) y función de distribución acumulada, F(x) (cdf por sus siglas en inglés). La probabilidad de función de densidad (también llamada función de distribución de probabilidad o función de probabilidad de masa) de una variable aleatoria continua es una función que describe la posibilidad relativa para esta variable aleatoria de ocurrir, en un punto dado en el espacio de observación. La probabilidad de que una variable aleatoria caiga dentro de una región en particular, es dada por el integral de la densidad de esta variable sobre esa región. El integral sobre el espacio entero es igual a la unidad. Además, la función de distribución acumulada o función de distribución describe la probabilidad de que el valor real de una variable aleatoria X con una distribución de probabilidad dada se encontrará en un valor menor o igual a x, esto es, P(X ≤ x). 4.4. Definición matemática de la variable aleatoria continua: Si X es una variable aleatoria continua, entonces, la probabilidad de función de masa de X, es una función f(x) de dos números, a y b, con a ≤ b. De esta manera,
www.full-ebook.com
Esto dice que la probabilidad de que X tome un valor en el intervalo [a, b] es el área bajo la función de probabilidad de función masa de a a b en la curva de la distribución de f(x). 4.5. Definición de función de distribución acumulada. La función de distribución acumulada es la función F(x) de una variable aleatoria X y es definida por el número x por medio de:
Esto dice que un valor de x dado, F(x) es la probabilidad de que un valor observado de X será a lo más x. Es de notarse que, la variable aleatoria continua X para cualquier x1 y x2 puede expresarse igualmente, como: P(x1 ≤ X ≤ x2) = P(x1 < X ≤ x2) = P(x1 ≤ X < x2) = P(x1 < X < x2). Ejemplo 4.1. En un estudio de usos del agua, supóngase que el rango de la variable aleatoria X es de [0, 25] y que la función de densidad de probabilidad de X es f(x) = 0.06, entonces, encontrar la probabilidad de que el valor de X sea menor que 15. Solución:
www.full-ebook.com
Ejemplo 4.2. Si una variable aleatoria tiene una función la densidad de: F (x) {e-2x para x > 0, o para x ≤ 0} Determinar las probabilidades de que la variable aleatoria X adopte un valor de: (a) Entre 1 y 3 (b) Mayor que 0.5 (c) Entre 1 y 2 Solución: Usando P(a ≤ X ≤ b) =
f(x) dx y sustituyendo da:
Ejemplo 4.3. En estudios de usos del agua, se sabe que la proporción de industrias que descargan aguas residuales a los drenes de la red municipal y que responden a cierto cuestionario ecológico, es una variable aleatoria continua X, cuya función de densidad es f(x) = 2(x + 2)/5. Esta función tiene una variable aleatoria X puede asumir valores de (0 < X < 1). Hacer lo siguiente:
www.full-ebook.com
(a) Mostrar que P(0 < X < 1) = 1 (b) Encontrar la probabilidad de que más de 25%, pero menos que 50% de las industrias adas responderán voluntariamente a esta solicitación. Solución: (a) Para mostrar que P(0 < X < 1) = 1, se puede usar la relación matemática de f(x) y g(x) cuyas funciones son continuas y tienen una antiderivada en el intervalo [a, b]. Siendo así, entonces, usamos la función de abajo y sustituyendo da:
(b) Aquí el intervalo es [0.25 < X < .50]. Esto dice que, a = 0.25 y b = 0.50
Por lo tanto: Ejemplo 4.4. Supóngase que la función de distribución acumulada de la variable aleatoria X es: (Montgomery, 1996)
www.full-ebook.com
Determinar P(-1 < X < 1) Solución: Usando la ecuación (4-3) da: P(-1 < X < 1) = 0.5 4.6. Valores esperados para variables aleatorias continuas. La media y la varianza de una variable aleatoria continua se definen similarmente, como en el caso de la variable aleatoria discreta. Sin embargo, aquí, la integración sustituye a la sumatoria usada con la variable aleatoria discreta. Siendo así supóngase que X es una variable aleatoria continua con la función f(x), entonces, el valor esperado o promedio μx es:
Similarmente, la varianza de la variable aleatoria X dada por V(X) o σ2x es:
www.full-ebook.com
También la desviación estándar σx de la variable aleatoria X es √σ2x Ejemplo 4.5. Si la función de probabilidad de X es f(x) = 0.05, en el rango de 0 ≤ x ≤ 15, entonces encontrar los siguientes enunciados: (a) La media, μx (b) La varianza, σ2x Solución: (a) Usando la función (4-4)
(b) Usando la función (4-5). Para finalizarse por el lector
4.7. Función generadora de momentos. En estadística la función generadora de momentos, de una variable aleatoria independiente, es una definición alternativa de su distribución de probabilidad. Por lo tanto, la función de momentos da la base para una vía alternativa de resultados analíticos comparados, con estar trabajando directamente con las funciones de probabilidad de densidad y las funciones de probabilidad acumulada. Así, la variable aleatoria X con función de densidad f(x), se llama función generadora de momentos de X a la función Mx(t), la cual se define como Mx(t) – E(ext). Este nombre de la función generadora de momentos se justifica, al partir del desarrollo en series de potencia de la función exponencial (Quevedo, et al. 2008):
www.full-ebook.com
etX = 1 + tX + (tX)2/2! + (tX)3/3! + (tX)4/4! + …
(4-6)
Siendo así, la función generadora de momentos Mx(t) es una serie de potencias de t, en cuyos coeficientes están los momentos de orden i, E(Xi). Esto es: Mx(t) = E(etX) = 1 + tE(X) + t2E(X2)/2! + t3E(X3) + t4E(X4)/4! + … (4-7) Una vez que se conoce la función generadora de momentos de orden i, se obtienen los momentos de orden i, por medio de derivar esta función y evaluando en t, como se indica a continuación. El siguiente teorema describe cómo, la función generatriz de momentos puede usarse para obtener los momentos de orden i derivando esta función y evaluando en t = 0. Teorema 4.1. De acuerdo a la información anterior, dando una variable aleatoria X, se tiene que:
Prueba:
Ahora, el siguiente teorema se aplica para identificar la función de distribución de una variable aleatoria X.
www.full-ebook.com
Teorema 4.2. La función generadora de momentos Mx(t) = E(ext) es una transformación inyectiva (cuando a cada valor del conjunto A (dominio), le corresponde un valor diferente en el conjunto B (imagen). Siendo así, en una transformación matemática inyectiva, las funciones de densidad diferente tienen función generadora de momentos diferentes, esto es, Mx(t) ≠ My(t). Y si tienen dos variables aleatorias, para las cuales las funciones generatrices de momentos son iguales, entonces, las variables aleatorias tienen la misma función de densidad. (Quevedo et al. 2008): Ejemplo 4.6. De acuerdo a la fuente anterior, calcular la función generadora de momentos Mx(t) = E(etx), de la variable aleatoria X, cuya función de densidad esta dada por la siguiente relación:
Solución: Usando la función generatriz de momentos da:
Si t < 2 en otro caso, el integral es divergente 4.8. La distribución normal. La distribución de probabilidad continua más importante de la estadística es la distribución normal. La gráfica de esta
www.full-ebook.com
distribución normal se llama curva normal o curva en forma de campana. Una variable aleatoria continua X de la curva normal se denomina variable aleatoria normal (va). Abraham De Moivre (1667-1754) inició la distribución normal en 1733, pero, desafortunadamente, su trabajo se perdió y, casi 100 años después, Karl Gauss (1777-1855) y Pierre Simon, Marques de Laplace, la desarrollaron de manera independiente. Por esta razón, a la distribución normal también se le llama distribución Gaussiana. 4.8.1. Propiedades y características de la distribución normal. 1. El área total bajo la curva y sobre el eje horizontal es igual a 1. El 50% de las observaciones están a la derecha del promedio y el otro 50% de las observaciones están a la izquierda de la media. 2. La función ƒ(x) es simétrica alrededor de x = μ, la cual es, al mismo tiempo, la moda, la mediana y la media de la distribución. 3. La distribución normal se determina completamente por sus parámetros μ y σ. Cuando μ = 0 y σ = 1 la distribución normal está en su forma estandarizada. 4. Los puntos de inflexión de la curva ocurren a una desviación estándar de la media, es decir, x = µ ± σ; es cóncava hacia abajo si σ - µ < X σ + µ y cóncava hacia arriba en cualquier otro punto. 5. La primera derivada de la función ϕ(x) se expresa como ϕ′(x) = −x ϕ(x), y la segunda derivada se expresa como ϕ′′(x) = (x2 − 1)ϕ(x). 6. La función generadora de momentos es igual a Mx(t) = exp(tµ + t2σ2/2). 7. Momento del coeficiente del sesgo es α3 = 0 8. Momento del coeficiente de kurtosis es α4 = 3 4.8.2. Distribución normal estándar. El caso más simple de una distribución normal se llama distribución normal estándar, la cual tiene valores de media μ igual a cero y desviación estándar σ igual a 1. Una variable aleatoria, va que tiene una distribución normal estándar se llama variable aleatoria normal estándar simbolizada con Z y se da como: f (z;0,1) = 1/(2π)0.5 exp-z2 dz -∞ < z < +∞
(4-9)
La tabla del apéndice de este libro indica el área bajo la curva normal estándar
www.full-ebook.com
correspondiente a P(Z < x) para valores de -3.89 a +3.89. Sin embargo, antes de poder usar las tablas de la distribución normal estándar individual o acumulada, para transformar la variable aleatoria normal X a la variable aleatoria normal estándar Z y calcular las áreas correspondientes, se hace usando las funciones de abajo:
Su estimador estadístico correspondiente es:
Nota: Aquí, es importante distinguir las diferencias entre la curva normal estándar y la no estándar. La tabla de la distribución normal es la distribución normal con μ = 0 y σ = 1 y se llama tabla de la distribución normal estándar.
La gráfica de abajo muestra la curva de la distribución normal con μ = 0 y σ = 1, la cual puede verse que es en forma de campana y es simétrica con respecto a la línea dibujada perpendicularmente, al eje horizontal en el promedio μ y z = 0.
www.full-ebook.com
Figura 4.1. Figura mostrando las áreas correspondientes a valores de z = ±1, z = ±2 y z = ±3, correspondientes a las probabilidades de 68.27%, 95.45% y 99.73%, respectivamente. Nótese que, en términos de frecuencia relativa, la probabilidad entre z = 0 y z = +1, es igual a .34135; la probabilidad entre z = 0 y z = +2 es igual a 47.725 y, la probabilidad entre z = 0 y z = +3 es de 0.49865. Por simetría el área total es ≈ 1 o de 100%. 4.8.3. Función de probabilidad de densidad de la distribución normal. Una variable aleatoria X se dice que tiene una distribución normal, con parámetros μ y σ, si la función de probabilidad de densidad de X es:
Donde μ = media, σ = desviación estándar, exp = e = 2.71828…, y π = 3.1416 Sin embargo, es difícil resolver las integrales de las funciones de densidad normal, porque no se pueden integrar en forma cerrada entre cada par de límites
www.full-ebook.com
de a y b. Debido a esta situación, se hace necesario la tabulación de las áreas de la curva normal. Para esto hay tablas que dan los resultados de la integración matemática (la tabla de la distribución normal z), por lo tanto, no se tiene que hacer la integración para calcular las probabilidades. La Figura 4.1ª de arriba muestra las curvas de densidad de la distribución normal. La distribución normal estándar es una familia de curvas que va en función de la media μ y de la varianza σ2, como se observa en la figura de abajo. La curva más importante de la distribución normal que tiene μ = 0 y σ2 = 1. La varianza (o la desviación estándar) determina el esparcimiento de la curva. A medida que hay más variación en una muestra o en una población, la curva se hace más achatada. Opuestamente, a medida que σ2 se hace más pequeña, la curva se hace más empinada, como se observa en la figura de abajo.
Figura 4.1a. Familia de curvas de densidad de la distribución normal, en función de la media μ y de la varianza σ2. La curva más importante es la que tiene μ = 0 y σ2 = 1.0 (color rojo). 4.8.4. Función acumulada de la distribución normal. La función acumulada de la distribución normal (cdf por sus siglas en inglés) es una función F(x) de una variable aleatoria x que describe las probabilidades de que una variable aleatoria caiga en el intervalo de la forma (-∞, x). Igualmente, la función de densidad acumulada de la distribución normal estándar se denota con la letra
www.full-ebook.com
Griega Φ y puede ser calculada como un integral de la probabilidad de densidad y se da como:
El integral puede se expresado en términos de una función especial erf, llamada función de error (erf, error function por sus siglas en inglés). La figura de abajo muestra la familia de curvas de la función acumulada de la distribución normal.
Figura 4.1b.
Familia de curvas de probabilidad acumulada de la distribución normal, en función de la media μ y de la varianza σ2. La curva más importante es la que tiene μ = 0 y σ2 = 1.0 (color rojo). 4.8.5. Teorema del Límite Central (Teorema de convergencia normal) y la distribución normal. La distribución normal tiene muchas propiedades convenientes y el teorema del límite central dice que, la suma o la media de una secuencia infinita de distribuciones idénticas e independientes de variables aleatorias tienden a la distribución normal. En su forma más simple, este teorema
www.full-ebook.com
dice que la suma de un número grande de observaciones independientes de la misma distribución tiene, bajo ciertas condiciones generales, una distribución normal aproximada, y la aproximación es mejor, a medida que el número de observaciones aumenta. Este teorema del límite central, también llamado teorema de convergencia normal, es explicado detalladamente, en el capítulo de distribuciones muestrales. Calculando las probabilidades con los valores de z para la distribución normal Ejemplo 4.7. Dar la fórmula de la distribución normal estandarizada, con μ = 0 y σ = 1, luego calcular P(-1.0 ≤ z ≤ 1.0) Solución: f(z;0,1) = 1/√2π exp-(z2/2) -∞ < z < ∞ P(-1.0 ≤ z ≤ 1.0) = .8413 - .1587 = 0.6826 (de la tabla de la distribución normal, z) Nota: Cuando los valores de z son de ±1, ±2 o ±3, no es necesario consultar la tabla de z, porque ya conocemos las probabilidades correspondientes a esos valores de z (ver Figura 4.1).
Ejemplo 4.8. Dada una distribución normal estándar, de concentraciones de metales pesados (Hg, Pb, Cd), en una muestra de aleatoria de agua industrial, siendo así, encontrar el área bajo la curva que esté entre z = -1.97 y z = 0.86. Solución: El área entre z = -1.97 y z = 0.86 se denota como: P(-1.97 < z < 0.86) = P(z < 0.86) – P(z < -1.97) = 0.8051 – 0.0244 = 0.7807 (de la tabla de z) Los valores de la probabilidad que corresponden a la variable estandarizada z son de z = 0.86 y z = -1.97 y se encuentran en la tabla de la distribución normal.
www.full-ebook.com
El valor de 0.7807 es la probabilidad de que el valor de z se encuentre entre -1.97 y 0.86. Ejemplo 4.9. Encontrar la probabilidad de que la variable aleatoria z esté entre -0.5 y 1.25. Solución: P(-0.5 < z < 1.25) = 1.0 – 0.3085 – 0.1056 = 0.5859 La figura de abajo muestra, esquemáticamente, esta situación.
Figura 4.2. Figura mostrando la probabilidad de P(-0.5 < z < 1.25). Ejemplos calculando las probabilidades para cualquier variable normal usando la variable normal estandarizada Z = (X – μ)/σ y/o su estimador estadístico z = (X – )/s. Ejemplo 4.10. Dada una distribución normal con una media μ igual a 45 y desviación estándar, σ = 8, encontrar la probabilidad de que la va X tome un valor entre 40 y 60.
www.full-ebook.com
Solución: Antes de calcular las probabilidades o áreas, se estandarizan los valores de 40 y 60, es decir encontrando los valores de Z correspondientes a x1 = 40 y x2 = 60 usando la función (4-8). Z60 = (60 – 45)/8 = 1.88
y
Z40 = (40 – 45)/8 = -0.625
Por lo tanto, P(40 < X < 60) = P(-0.625 < z < 1.88) = P(Z < 1.88) – P(Z < -0.625) = 0.9699 – 0.2676 = 0.7023 (Usando la tabla de z) El valor de 0.7026 es la probabilidad de que X tome un valor entre 40 y 60 Aquí nótese que se usó la variable aleatoria Z (mayúscula). ¿Porque? Ejemplo 4.11. En un estudio relacionado con las tecnologías del agua, es decir, de plantas mecánicas de tratamiento, se saca una muestra aleatoria de 30 análisis de demanda bioquímica de oxígeno de 5 días (DBO5) y se calcula una media estadística anual igual a 50.0 mg/L y una desviación estándar, σ = 10.0. Asumiendo que los datos siguen a una distribución normal, encontrar la probabilidad de que X esté entre 45.0 y 62.0 mg/L. Solución: Primeramente, aquí estamos hablando de una muestra aleatoria estadística, no de todo el conjunto (como en el problema anterior). Para esto transformamos los valores de X a valores de z usando la fórmula de la variable aleatoria estandarizada (4-8a), z = (X – )/σ. Los valores de z correspondientes a X = 45 y X = 62 se hacen usando esta fórmula. Sustituyendo los valores da:
www.full-ebook.com
z45 = (45 – 50)/10 = -0.5 y z62 = (62 – 50)/10 = 1.2 Por lo tanto: P(45 < X < 62) = P(-0.5 < z < 1.2) = P(z < 1.2) - P(z < -0.5) = 0.8849 – 0.3085 = 0.5764 (usando la tabla de z) Ejemplo 4.12. Se saca una muestra aleatoria de 30 análisis de aguas industriales (con concentraciones altas de magnesio, Mg) para usos en plantas termoeléctricas, y se calcula una media de = 300.0 mg/L, con una desviación estándar de 50. Encontrar la probabilidad de que X asuma un valor mayor que 362.o mg/L. Asumir que la muestra procede de una población normal. Solución: Nuevamente, aquí se nota qué, estamos hablando de una muestra estadística, no de toda la población. Por lo tanto, usamos la variable normal estandarizada de la muestra de z = (X – )/s, la cual es el estimador de la variable Z = (X – μ)/σ. Siendo así, primero transformamos X = 362 al valor correspondiente de z usando la fórmula anterior. (Nótese que en este caso usamos la fórmula de la variable estandarizada z como el estimador de la variable Z poblacional, esto es, z = (X – )/s. z362 = (362 – 300)/50 = 1.24 Por lo tanto, P(X > 362) = P(z > 1.24) = 1 – P(z < 1.24) = 1 – 0.8925 = 0.1075 Ejemplo 4.13. En un estudio de usos del agua, se sabe que la media de una muestra aleatoria de análisis de aguas superficiales es de 2,600 mg/L de sólidos disueltos totales (SDT), con una desviación estándar de 20 mg/L (Limite para el agua potable es de 500 mg/L). Asumiendo que los datos siguen a una
www.full-ebook.com
distribución normal, hacer los siguientes cálculos. (a) Calcular la probabilidad de que las concentraciones de SDT sean de cuando menos 2,610 mg/L. Hacer una gráfica mostrando la probabilidad de P(X ≥ 2610). (b) Calcular la probabilidad de que las concentraciones de SDT sean de cuando mucho 2,650 mg/L. Hacer una gráfica mostrando la probabilidad calculada. (c) La probabilidad de que las concentraciones de SDT sean de 2,649 mg/L. Hacer una gráfica mostrando la probabilidad calculada. Solución: (a) Se usa la función tipificada (4-9b), z = (X - )/s y sustituyendo los valores da: z2610 = (2610 – 2600) / 20 = 0.5 (este valor se busca en la tabla de z y da una probabilidad de 0.6915). Por lo tanto, P(X ≤ 2610) = 0.6915 . Esto se ve en la figura de abajo.
Figura 4.3. Gráfica mostrando la probabilidad de P(X ≥ 2610), con una probabilidad de 0.3085.
www.full-ebook.com
(b) z2650 = (2650 – 2600)/20 = 2.5 (este valor se busca en la tabla de z y da 0.9938) Por lo tanto, P(X ≤ 2650) = 0.9938. Esto se ve en la figura de abajo.
Figura 4.3a. Gráfica mostrando la probabilidad de P(X ≤ 2650) con una probabilidad de 0.9938. (c) Para calcular la probabilidad de que las concentraciones de SDT sean de 2,649 mg/L, es decir, P(X = 2,649), para hacer cálculos más precisos, aquí decimos que las concentraciones de 2,649 están entre 2,648.5 y 2,649.5. Por lo tanto, 2,648.5 en unidades estándares es z2648.5 = (2,648.5 – 2600)/20 = 2.425. Igualmente, 2649.5 en unidades estándares es z2649.5 = (2,649.5 – 2,600)/20 = 2.475. La proporción de SDT es igual a P(X = 2,649) = .001, como se observa en la gráfica de abajo.
www.full-ebook.com
Figura 4.3b. Gráfica mostrando la probabilidad de P(X = 2,649) con una probabilidad de 0.001. Ejemplo 4.14. Con estudios del agua, supóngase que se saca una muestra aleatoria de análisis de plomo (Pb), en el agua de un río contaminado por una compañía de fundición de metales, y se calcula una media de 10.0 mg/L de Pb, con una varianza de 4.0 mg/L. Calcular la probabilidad de que la variable X esté entre 8.0 y 12.0 mg/L. Solución: La probabilidad P(8.0 ≤ X ≤ 12.0) pudiera evaluarse usando las funciones de abajo,
Sin embargo, el integral matemático es difícil de calcularse. No obstante, usando
www.full-ebook.com
la distribución normal estándar, se pueden transformar los límites sobre X en z y luego usar la tabla normal. Esto es: z8 = (8 – 10)/2 = -1.0 y z12 = (12 – 10)/2 = 1.0. De la tabla de la normal z = -1 corresponde a una probabilidad de.1587 y z = 1.0 es .8413, por lo tanto, P(8.0 ≤ X ≤ 12.0) = 0.8413 - 0.1587 = 0.6826. Ejemplos para encontrar los valores de z dando las probabilidades. Ejemplo 4.15. En estudios químicos del agua, se sabe que el 90% de la distribución las concentraciones de fosfatos (PO4-3) procedentes de una muestra aleatoria del efluente de una planta de tratamiento de aguas municipales está a la izquierda de un valor de z en particular. ¿Cuál es el valor de z? ¿Cuál es la probabilidad asociada a ese valor? Solución: El valor de z debe de estar a la derecha del promedio, porque el 50% de la distribución está a la izquierda del promedio. Eso deja 0.400 de la curva entre el promedio y el valor requerido de z. De manera que, ahora tenemos que encontrar el valor de z que corresponde a una área de .400 en la tabla de la curva normal (.900 - .500). Sin embargo, aquí vemos que no hay entrada de 0.4000, no obstante, lo más cercano es .3997 que corresponde al valor de z = 1.28. La probabilidad asociada a este valor de z es igual a 0.8997 Ejemplos, para encontrar los valores z del punto de expansión para variables normalmente distribuidas. Ejemplo 4.16. Calcular dentro de que rango estarán comprendidas el 95% de las observaciones centrales de una muestra aleatoria de análisis de cobre (Cu) en aguas residuales, si la media es de 10.0 y la desviación estándar es de 2.0. Hacer una gráfica. Solución:
www.full-ebook.com
Aquí, vamos a usar la relación: X = ± z (s), con = 10.0 y s = 2.0, es decir: 10 ± 1.96 (2) = 10 ± 3.92 para dar (6.08 ≤ X ≤ 13.92). La figura de abajo muestra esta situación.
Figura 4.4. Gráfica mostrando los valores de X y sus valores de z correspondientes. 4.8.6. Relación entre la distribución binomial y la normal. La distribución binomial se puede aproximar por la distribución normal cuando n es grande y, cuando ni p ni tampoco q están muy cercanas a cero. Esto se debe a que, el modelo binomial es inapropiado cuando n es extremadamente grande. Afortunadamente, la aproximación normal es más eficaz a medida que n aumenta. En la práctica, la aproximación de la distribución binomial usando la distribución normal es adecuada siempre y cuando np ≥ 10 y nq ≥ 10. Entonces, si np < 10 o nq < 10, la distribución binomial está demasiado sesgada, para dar aproximaciones satisfactorias, como con la curva normal que es simétrica. Teorema 4.3. Si X es una variable aleatoria binomial con media μ = np y varianza σ2 = npq, la forma limitante de la distribución de la variable aleatoria de:
www.full-ebook.com
Es la distribución normal estándar n(z;0,1) a medida que, n → ∞ En la relación entre la normal y binomial es de interés mencionar que, el teorema del límite central dice que, a medida que n aumenta, la distribución binomial con n ensayos y probabilidad p de éxitos, se acerca más y más a la distribución normal. Sin embargo, el desarrollo de la aproximación manual de la binomial a la normal, es ahora, en esta era cibernética, meramente, de interés histórico, porque los programas modernos de cómputo hacen estas aproximaciones casi instantáneamente. De cualquier manera, la explicación dada aquí es de interés didáctico. Para hacer las aproximaciones de la binomial usando la distribución normal se hace usando la variable aleatoria estandarizada normal dada abajo y su correspondiente modelo de aproximación a la binomial. Z = (X – μ) / σ (4-12a) Z = (x – np) / (npq)0.5 (4-12b) Donde: Z es la variable normal, μ es el promedio poblacional, σ es la desviación estándar, n es el tamaño de la muestra, np = μ y npq = σ2 o sea σ = (npq)0.5 Ejemplo 4.17. Con las tecnologías del agua, supóngase que se tiene una muestra al azar de 20 casos de mediciones de análisis de demanda bioquímica de oxígeno de 5 días (DBO5) provenientes de un muestreo de una corriente, es decir, de 20 lugares diferentes a lo largo de su trayectoria. Si se sabe que, la probabilidad de que la concentración de DBO5 está dentro de los límites estipulados por las leyes ambientales es de p = 0.6 (éxito), hacer los siguientes cálculos: (a) Calcular la media y la desviación estándar de la variable aleatoria X
www.full-ebook.com
binomial. (b) Usando la distribución binomial calcular la probabilidad de que, exactamente, 10 casos de DBO5 estén dentro del límite estipulado. (c) Hacer los mismo que en el inciso (b) pero usando la distribución normal. (d) Usando un paquete de cómputo, como el Minitab (ver instrucciones en el uso del Minitab versión 15, al final del capítulo), hacer una tabulación de las probabilidades acumuladas y de las frecuencias relativas, con los valores de la variable aleatoria X correspondientes a x = 0, 1, 2, 3, 4,…,19 para la distribución binomial y normal. Sugerencia para calcular las probabilidades acumuladas y de densidad, irse a: Calc → Probability Distribution → Binomial. Luego en la ventana de diálogo de “Binomial Distribution” poner el número de ensayos (“Trials”) y el valor de p. Proceder en forma análoga para el cálculo de las probabilidades de la distribución normal. (e) Hacer una gráfica sobrepuesta con los valores obtenidos en el inciso anterior. (f) Calcular P(X ≤ 5), P(X ≥ 12) y P(X ≤ 12) usando, ambas la distribución binomial y la distribución normal como aproximación a esta última y comparar los resultados. (g) ¿Cuál es el porcentaje de error en los cálculos de los incisos (a) y (b)? Solución: (a) El promedio, la varianza y la desviación estándar binomiales son: Media = μ = np = (20)(0.6) = 12 Varianza = σ2 = npq = 12(0.4) = 4.8 Desviación estándar = σ = √σ2 = 2.19 (b) Aquí, la aproximación de la distribución binomial a la distribución normal es
www.full-ebook.com
buena, porque np = (20)(0.6) ≥ 10 y nq = (20)(0.4) ≥ 10. Para calcular la probabilidad de qué, exactamente, 10 casos estén dentro de las normas estipuladas, se hace usando la distribución binomial con los valores n = 20, p = 0.6 y q = 1 – p = 1 – 0.6 = 0.4. Ahora, sustituyendo los valores en la fórmula binomial nos da: b(x;n,p) = nCx px qn-x para x = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10,……, 19. Es decir, B(10;20,0.6) = 20C10 (0.60)10 (0.4)20-10 = 0.1162 (c) Usando la distribución normal con variables aleatorias continuas, aplicamos el factor de corrección por continuidad o discrecionalidad, por medio de sumar y restar .5 al valor de X para dar: (9.5 ≤ X ≤ 10.5) o sea P(-1.14 ≤ Z ≤ -.68). Esto se calcula usando la variable aleatoria estandarizada Z, es decir, Z = (X – μ) / σ donde, X = 9.5 y 10.5, μ = 12, s = σ = 2.19 Z9.5 = (9.5 – 12) / 2.19 = - 1.14 Z10.5 = (10.5 – 12) / 2.19 = - 0.68 Enseguida, usando la tabla de la distribución normal razonamos como: P(-1.14 ≤ Z ≤ -.68) = P(Z = -.68) – P(Z = -1.14) = (0.2483 – 0.1271) = .1212 Al comparar los dos resultados vemos que la distribución binomial da 0.1172 y la distribución normal da 0.1212. Esta aproximación sería mejor a medida que n fuera más grande. Nota: El factor de corrección por continuidad se usa para aproximar una distribución discreta de una distribución continua, como por ejemplo, usando la distribución normal para aproximar la binomial. El factor de corrección por continuidad es un valor de .5 que se suma o se resta de un valor de X, cuando se usa una distribución continua de probabilidad para aproximar una distribución discreta de probabilidad.
www.full-ebook.com
(d) Para hacer una tabla con todas las probabilidades correspondientes dar valores de x = 0, 1, 2, 3, 4,…, 19. (Ver tabla de abajo).
Tabla 4.1. Tabla mostrando las probabilidades acumuladas (f.r.a.) y las probabilidades individuales o de función de masa (f.r.) con n igual a 20 y p igual a 0.6. El asterisco (*) señala la localización de la media. (e) Para este inciso la Figura 4.5 de abajo muestra un histograma de probabilidad binomial para n = 20, p = 0.6, μ = 12 y σ = 2.19, con curva normal de aproximación sobrepuesta. Aquí, se ve que, aun cuando el histograma de probabilidad está un poco sesgado hacia la izquierda, porque p > .6.
www.full-ebook.com
La curva normal da muy buena aproximación a la binomial.
Figura 4.5. Gráfica sobrepuesta de las probabilidades acumuladas mostrando de la binomial y normal para n = 20, p = 0.6, μ = 12 y σ = 2.19. Aquí, se ve qué hay más diferimiento entre ambas distribuciones en los valores de en medio. De cualquier manera existe una buena aproximación entre los valores de las probabilidades acumuladas de ambas distribuciones, porque p > .6.
Figura 4.5a. Gráfica sobrepuesta de las probabilidades de densidad de ambas, la
www.full-ebook.com
distribución binomial y normal, para n = 20, p = 0.6, μ = 12 y σ = 2.19. En esta figura se ve claramente, qué, aun cuando el histograma de probabilidad está un poco sesgado hacia la izquierda, (porque p > .6), la curva normal da muy buena aproximación a la binomial. Aquí, nótese que la media (12.0) es idéntica en ambas distribuciones. (f) Para calcular los valores de abajo usando la distribución binomial y la normal, se procede como: 1. P(X ≤ 5) 2. P(X ≥ 12) 3. P(X ≤ 12) Usando la tabla de la distribución binomial con n = 20, p = 0.6 y q = 0.4 da los siguientes resultados. Para: P(X ≤ 5) = .002 Para: P(X ≥ 12) = 1 – P(X < 12) = 1 - .404 = .596 Observación: ¿Por qué el valor obtenido no se aproximó a .5 para P(X ³ 12)? Para:
P(X ≤ 12) = 1 – P(X > 12) = .596
Ahora, para calcular los valores de arriba usando la distribución normal, como una aproximación a la binomial, para cada uno de las preguntas P(X ≤ 5), P(X ³ 12) y P(X ≤ 12) necesitamos convertir las variable aleatorias discretas a las variables aleatorias normales Z usando la variable aleatoria estandarizada Z con μ = 12 y σ = 2.19 y luego buscar el valor de Z en la tabla de la distribución normal y calcular la probabilidad correspondiente. Usando la función Z = (X – μ)/σ y estandarizando nos da: Z5 = (5 – 12)/2.19 = - 3.197
www.full-ebook.com
Ahora usando la tabla de la distribución normal buscamos z = -3.197 y da .0007, o sea ≈ .001. Similarmente, con P(X ≥ 12) convertimos X = 12 a valores de Z con μ = 12 y σ = 2.19 y da: Z = (12 – 12)/2.19 = 0 Que corresponde a una probabilidad de .5000. La misma situación ocurriría con P(X ≤ 12)…… (Que también se puede leer de la gráfica). (g) El porcentaje de error es 2.42% 4.8.7. Relación entre la distribución normal y la distribución Poisson. Debido a que existe una relación entre la distribución normal y la distribución binomial, también hay una relación entre la distribución de Poisson y la distribución normal. Se puede probar que la distribución de Poisson se aproxima a la distribución normal a través de la variable estandarizada (X – λ) / √λ, a medida que λ → ∞. 4.8.8. Aproximación de Poisson a la distribución binomial. Se puede usar la distribución Poisson como aproximación a la distribución binomial cuando p es pequeña y n es grande. En términos generales, la aproximación de la Poisson a la binomial será buena, siempre y cuando p ≤ 0.05 y n ≥ 20. 4.9. Distribución exponencial. La distribución exponencial es una familia de distribuciones que proporciona funciones ampliamente usadas en la ingeniería ambiental y tecnologías del agua. La distribución exponencial se usa para describir el tiempo que se tarda en realizar una actividad, como por ejemplo en la cinética del DBO, ampliamente usada en el diseño y mantenimiento de plantas de tratamiento de aguas residuales. También puede usarse como una información para fines de riegos agrícolas, esto es, para describir varios tipos de información hidrológica, como por ejemplo, los tiempos de interarribo de eventos de lluvia. Los agricultores, por ejemplo, pudieran estar interesados en saber el tiempo máximo entre periodos de lluvia, para que sus cosechas fueran óptimas. También, se puede usar para ver el tiempo que se tardan los pesticidas en degradarse en el agua o en la tierra o para medir el tiempo en que se toma en degradarse una sustancia radiactiva. En hidrología o en meteorología, la
www.full-ebook.com
exponencial se usa para medir el tiempo entre eventos extremos como el tiempo de interarribo que ocurre entre inundaciones, o entre inundaciones y sequías, huracanes, etc. Igualmente, en hidrológica la función exponencial se puede usar para analizar los valores extremos, como por ejemplo, valores anuales máximos de lluvia y de descargas de volúmenes de ríos o corrientes. Además, con la física, la función exponencial se puede usar para analizar las alturas de moléculas de gases en un campo gravitacional uniforme con temperaturas y presiones constantes (Ver Ritzema, H. P., 1994). La distribución exponencial, también se usa para atestiguar los efectos del calentamiento global. Es decir, para calcular el aumento de la temperatura global y de los aumentos de gases de invernadero. Igualmente, usando un intelectualismo especulativo, en estudios de etiología médica, la función exponencial se pudiera usar, para medir el interarribo de enfermedades crónicas, o más bien de síntomas de enfermedad crónica, los cuales se están incrementando exponencialmente, (como el llamado cáncer, diabetes, artritis, drogadicción, etc., donde no existen vacunas o medicamentos que los curen legítimamente), y su contraparte, los estados agudos (la depresión de estados agudos, como viruela, sarampión, tos ferina, o las llamadas enfermedades de niños, donde hay vacunas, pero que, únicamente, abortan los síntomas agudos, sin curarlos legítimamente, un concepto muy difícil de entender), a medida que se expone el cuerpo a más prácticas médicas artificiales (Ver Paztor 1998). Finalmente, diremos que la distribución exponencial es un caso especial de la distribución gamma. Además, cuando el parámetro de forma B de la Weibull es igual a 1, esta distribución se revierte a la función exponencial. Los dos parámetros que indexan la exponencial son el parámetro de escala S y el parámetro de umbral D o de localización. El parámetro S cambia la escala de la función de densidad a lo largo del eje X o del tiempo, por ejemplo de días a meses o de horas a días, pero sin cambiar la forma de la distribución. Además, el parámetro D pone el tiempo mínimo. El parámetro de escala es igual al promedio, cuando D = 0. Valores positivos de D representan un periodo de tiempo entre el punto de partida y cuando ocurren las fallas. (Ver lógica del programa de cómputo NCSS) 4.9.1. Función de masa de la distribución exponencial. Se dice que la variable aleatoria X tiene una distribución exponencial de densidad, si la función de
www.full-ebook.com
probabilidad de masa de X es: fx(x;λ) = λ e-λ para 0 ≤ x ≤ ∞ donde λ > 0
(4-13)
Donde: λ es un parámetro de la distribución, y e una constante igual a 2.71828 Aquí es de notarse que, puede existir interés en cualquier distribución de valores extremos pequeños o grandes. La figura de abajo muestra curvas exponenciales de densidad con diferentes valores de λ.
Figura 4.6. Gráfica de curvas exponenciales de densidad con diferentes valores de lambda, λ. Por otra parte, ejemplos de algunas distribuciones madres que caen bajo varios tipos de valores extremos son: (1) Tipo I valores extremos grandes, como por ejemplo, las distribuciones exponencial, normal, lognormal, Gumbel y gamma. (2) Tipo III. Valores extremos pequeños como la distribución exponencial,
www.full-ebook.com
gamma, beta y lognormal. 4.9.2. Función de distribución exponencial acumulada. La función de distribución exponencial acumulada calcula la función de distribución acumulada en cada uno de los valores en X usando el correspondiente parámetro μ. La variable aleatoria X y μ pueden ser vectores, matrices o conjuntos que tienen el mismo tamaño. Los parámetros de μ deben ser positivos. De esta manera, la función de densidad acumulad se expresa como (MathWorks 2011):
El resultado, p, es la probabilidad de que una sola observación de una distribución exponencial caerá en el intervalo [0,x]. La figura de abajo muestra curvas exponenciales acumuladas con diferentes valores de λ.
Figura 4.6a. Gráfica de probabilidades exponenciales acumuladas con diferentes valores de λ.
www.full-ebook.com
4.9.3. Media y varianza de la distribución exponencial. El promedio y la varianza de la variable aleatoria de la función exponencial son: E(X) = 1/λ
(4-13ª)
V(X) = σ2 = 1/λ2
(4-13b)
En este contexto, se puede demostrar que el promedio y la desviación estándar de una distribución exponencial son iguales uno al otro, esto es: μ = σ = 1/λ. Por ejemplo, Keller et al. (1990) afirma que, en el caso de una variable aleatoria exponencial X, se puede demostrarse que, la probabilidad de que X pueda tomar un valor más grande que un número especificado no negativo a, es e-λa. Esto se puede expresar usando cálculo integral, es decir:
El cálculo de las funciones exponenciales involucra la evaluación de integrales de probabilidad entre los límites de a y b. Para esto, se da una tabla de probabilidades exponenciales. Las siguientes funciones se usan con esa tabla: Si X es una variable aleatoria, P(X ≥ a) = e-λa. También debido a que el área total bajo la gráfica de f(x) debe ser 1, entonces, P(X ≤ a) = 1 – e-λa. Igualmente, la probabilidad de que X tome un valor entre dos valores a y b, se obtiene por medio de resta es decir, P(a ≤ X ≤ b) = P(X ≤ b) – P(X ≤ a). Las funciones de abajo usando integrales resumen lo anterior.
www.full-ebook.com
Donde
λ = 1/μ
Definición: La variable aleatoria continua X tiene una distribución exponencial, con parámetro β, si su función de densidad es dada por:
Donde
β = μ, β > 0
Entonces, para calcular las probabilidades para la variable aleatoria continua X con parámetro β (donde β = μ) se puede usar la función de densidad (4-15c), es decir, f(x) = P(X = x) = 1/β exp-(x/β) x > 0, β > 0
(4-15d)
Ejemplo 4.18. En estudios de meteorología supóngase que la variable aleatoria X tiene una distribución exponencial con una media de precipitación anual de μ = 8.0 pulgadas, (μ = 1/λ = .125). Siendo así, calcular las siguientes probabilidades de lluvia.
www.full-ebook.com
(a) P(X ≤ 2.0) (b) P(X ≥ 5.0) (c) P(2.0 ≤ X ≤ 5.0) (d) P(X = 5.0) (e) Usar el Minitab y hacer los mismos cálculos que en los incisos (a)-(d). Sugerencia: Irse a Calc → Probability distributions → Normal. En la ventana de diálogo de “Normal Distribution” poner la media y la desviación estándar y seguir con las instrucciones pedidas. Solución:
(d) P(X = 5) = 1/β exp-(x/β) = 1/8 exp-(5/8) = .0669 (o leyéndola de laTabla 4.2). (e) Usando el Minitab los datos mostrados en la Tabla 4.2 de abajo, y como se observa los valores son casi idénticos.
www.full-ebook.com
Tabla 4.2. Tabla mostrando los valores de la variable aleatoria exponencial X y de los valores de las probabilidades acumuladas y de densidad dadas por el Minitab. De la tabla de arriba se calculan las probabilidades pedidas. (a) P(X ≤ 2) = .2212 (b) P(X ≥ 5) = 0.5353 (c) P(2 ≤ X ≤ 5) = .2436 (d) P(X = 5) = .06691 Ejemplo 4.19. Con la contaminación del agua, supongamos que el tiempo promedio que se tarda una sustancia radiactiva (un isótopo radiactivo que tiene el mismo número atómico, pero diferente peso molecular), en degradarse en una agua contaminada con residuos radiactivos, es de μ = 15 y su función de densidad es f(x) = 1/15 e-x/15. Si los valores de la variable aleatoria X son 1, 2, 3, 4, 5, 6, 8, 10, 15, 18, 20, 25, 30, 35, 40 y 45, calcular las siguientes probabilidades:
www.full-ebook.com
(a) La cantidad de material radiactivo que se oxidó, en cuando mucho 6 años (b) La cantidad de material radiactivo que se oxidó, entre 6 y 18 años (c) La cantidad de material radiactivo que quedó, en 40 años (d) ¿Cuanto material radiactivo quedó después de 45 años? (e) Con la ayuda de un paquete de cómputo, como el Minitab, hacer tablas con las probabilidades de densidad y con la probabilidad acumulada. (f) Hacer gráficas con los resultados del inciso (e) Solución: (a) Usando μ = 1/λ, es decir, λ = 1/15 y a = x = 6 y sustituyendo en la función P(X ≤ a) = 1 – e-λa da: P(X ≤ 6) = 1 – e-(6/15) = 0.3297 (b) Igualmente, usando la función (4-15) y sustituyendo da: P(Tiempo de caída 6 ≤ X ≤ 18 años) = .6988 - .2835 = 0.4153 (c) P(X = 40 años) = .0046 cuyo valor se calcula usando la función (4-15c). También se puede leer de la tabla de z o de la gráfica de probabilidad de densidad. (d) P(X > 45) = P(X ≥ 45) = 1 - .950213 = 0.05 (e) La tabla de abajo muestra los resultados para este inciso Tabla 4.3. Tabla mostrando la variable aleatoria X y las probabilidades de densidad y acumuladas.
www.full-ebook.com
(f) Las gráficas se dan abajo.
Figura 4.7. Gráficas mostrando los resultados para el inciso (f) de este ejemplo. 4.10. Distribución gamma. A pesar de que la distribución normal puede
www.full-ebook.com
resolver muchos problemas en ingeniería, hay otras situaciones que requieren de diferentes tipos de funciones de densidad. Funciones como éstas son la exponencial, la gamma, la Weibull, la beta, etc. Hay muchas situaciones en que la variable de interés, para el experimentador, pueda tener una distribución oblicua. Siendo así, entonces, una familia de funciones de probabilidad de densidad (pdf, probability density function, por sus siglas en inglés), que dan una amplia variedad de distribuciones sesgadas, es la familia de distribuciones gamma. Como se dijo antes, la distribución gamma es un caso especial de la distribución exponencial. Las funciones exponenciales y la función gamma juegan un papel muy importante en la teoría de filas que esperan el orden de su llegada. La distribución gamma puede ser vista como una distribución gamma estandariza o como una distribución gamma no estandarizada. Con la distribución exponencial, debido a su perfil moderadamente sesgado, se puede usar en un amplio rango de disciplinas, como en estudios climatológicos donde se pude usar como un modelo para las lluvias acumuladas en una presa o para modelar sequías. 4.10.1. Función de densidad de probabilidad de la distribución gamma. (Handbook of Statistical Methods).
Donde γ (o α) es el parámetro de forma, μ es el parámetro de localización, β es el parámetro de escala y Г es la función de gamma que tiene la fórmula,
www.full-ebook.com
En el caso en que μ = 0 y β = 1 la función de arriba se reduce a la distribución de gamma estándar, como se ve abajo.
La figura de abajo muestra gráfica de probabilidades de densidad de distribuciones gamma.
Figura 4.8. Figura mostrando las gráficas de la función de probabilidad de densidad (p.d.) (pdf por sus siglas en inglés) gamma f(x;α,β) para varios pares de alfa (α) y beta (β). 4.10.2. Función de probabilidad acumulada de la distribución gamma. La función de probabilidad acumulada de la distribución continúa gamma es (MathWorks):
www.full-ebook.com
El resultado p es la probabilidad de que una sola observación de la distribución gamma con parámetros históricos de forma (a) y escala (b) caerá en el intervalo [0,x] y donde Г(a) ya se definió anteriormente. La figura de abajo muestra la gráfica de probabilidades acumuladas de distribuciones gamma.
Figura 4.8a. Figura mostrando la gráfica de probabilidades acumuladas (fra) de la función gamma para diferentes valores de alfa (α) y beta (β). 4.10.3. Media y varianza de la distribución gamma. Teorema: La media y la varianza de la distribución gamma son: Media = μ = αβ
(4-16c)
www.full-ebook.com
Varianza = σ2 = αβ2
(4-16d)
Las figuras de abajo muestran curvas de densidad gamma y curvas de densidad de gamma estándar. Nota: El programa Minitab se puede usar para generar la tabla de gamma poniendo el parámetro de forma (β), el parámetro de escala (α) y el parámetro de entrada.
Usando la función (4-16c) sin el denominador Г(a) del integrando se puede usar la tabla de gamma incompleta del apéndice de este libro, pero para esto, considerar lo siguiente: Proposición 1: Considerar que X tiene una distribución gamma con parámetro α. Entonces para cualquier valor de x > 0 la función de probabilidad acumulada gamma está dada por: P(a ≤ X ≤ b) = F(b) – F(a) = F(b;α) – F(a;α) (4-16e) Proposición 2. Considerar que X tiene una distribución gamma con parámetros α y β. Entonces, para cualquier x > 0 la función de probabilidad acumulada gamma se da como: P(X ≤ x) = F(x;α,β) = F(x/β;α) (4-16f) Ejemplo 4.20. En estudios meteorológicos, supóngase que en cierta región del hemisferio norte existe una información de valores promedios de intensidades de lluvia registrados en un pluviómetro (dados en la tabla de abajo), para periodos de las 12:00 a. m., hasta la media noche. Usando el Minitab y asumiendo que los datos siguen a una distribución gamma, hacer lo siguiente: (a) Una gráfica de probabilidad para atestiguar la plausibilidad de una distribución gamma. Luego calcular los parámetros de forma y escala. Sugerencia: Irse a: Calc → Probability distributions → Gamma. Luego proseguir con las demás instrucciones pedidas. (Ver sección 4.20) (b) Hacer gráficas de probabilidades acumuladas y de densidad en función de las intensidades de la lluvia.
www.full-ebook.com
(c) Hacer una tabulación de las probabilidades acumuladas y de masa. (El lector lo deberá hacer). (d) Calcular las siguientes probabilidades de la tabla preparada en (c): (1) La probabilidad de que la intensidad de la lluvia sea de .35 cm/hr (2) La probabilidad de que la intensidad de la lluvia sea de no más de 1.2 cm/hr. (3) La probabilidad de que la intensidad de la lluvia sea de cuando menos 1.2 cm/hr. (4) Calcular la media y la varianza
www.full-ebook.com
Tabla 4.4. Tabla mostrando las intensidades de lluvia en unidades de centímetros/hora. Solución: (a), (b). El parámetro de forma es igual a 1.598 y el de escala es igual a 0.9542 los cuales se calculan haciendo una gráfica de probabilidad, como se ve abajo. Las gráficas de probabilidad acumulada y de probabilidad de densidad vs. X se muestran en la Figura 4.9.
www.full-ebook.com
Figura 4.9. La figura del lado izquierdo muestra la gráfica de probabilidad gamma. La gráfica del lado derecho muestra probabilidad acumulada y de densidad, para la lluvia. (d) (1) P(X = .35 cm/hr) = .4463, (2) P(X ≤ 1.2 cm/hr) = .4919, (3) P(X ≥ 1.2) = .00004 (e) El promedio y la varianza se calculan como:
E(X) = μ = (1.598)(.9542) = 1.5248, V(X) = σ2 = (1.598) (.9542)2 = 1.4549 y σ = 1.21 Ejemplo 4.20b. Supóngase que se saca una muestra aleatoria de mediciones, que siguen a una distribución gamma estándar con α = 3. Siendo así calcular los siguientes enunciados: (a) P(4 ≤ X ≤ 6) (b) P(X > 6) Solución:
www.full-ebook.com
(a) Usando la función (4-16e), es decir, P(a ≤ X ≤ b) = F(b) – F(a), cuando X es continua nos da: P(4 ≤ X ≤ 6) = F(6;3) – F(4;3). Ahora consultando la tabla de la función de gamma incompleta buscamos x = 6 con α = 3 y x = 4 con α = 3 y sustituyendo da: P(4 ≤ X ≤ 6) = F(6;3) – F(4;3) = 0.9380 – 0.7619 = 0.1761
(usando la tabla de la distribución gamma estándar)
(b) Usando la función (4-16f), es decir, P(X > 6) = 1 – P(X ≤ 6) = 1 – F(6;3) = 1 – 0.9380 = 0.062 (usando la tabla de la distribución gamma estándar)
Ejemplo 4.20b. Supóngase que una muestra aleatoria de mediciones de DBO tiene una distribución gamma con α = 3 y β = 6. Calcular las siguientes probabilidades de que el DBO tenga concentraciones (mg/L) de: (a) P(30 ≤ X ≤ 60) (b) P(X ≤ 18) Solución: (a) P(30 ≤ X ≤ 60) = P(X ≤ 60) – P(X ≤ 30) = F(60/6;3) – F(30/6;3) = F(10;3) – F(5;3) = 0.9972 – 0.8753 = 0.1219 (usando la distribución gamma estándar)
(b) P(X ≤ 18) = 1 – P(X ≤ 18) = 1 – F(18/6;3) = 1 – F(3;3) = 1 – 0.5768 = 0.4232 (usando la distribución gamma estándar) Ejemplo 4.20c. Hacer el mismo problema anterior con α = 3 y β = 6, pero ahora usando el programa Minitab. Sin embargo, para usar el Minitab proceder de la siguiente manera: Primeramente darle valores apropiados a x, digamos de 18, 30, 60. Luego irse a: Calc → Probability distributions → Gamma. En la ventana de diálogo de “Gamma distribution” introducir los valores de “Shape parameter” (α = 3) y “Scale parameter” (β = 6). Esto genera la tabla de abajo:
www.full-ebook.com
Para P(30 ≤ X ≤ 60) = 0.9972 – 0.8753 = 0.1219 Igualmente para P(X ≤ 18) = 1 - 0.5768 = 0.4232
(usando la tabla de arriba generada por el Minitab)
4.11. Distribución Weibull. La distribución de Weibull, también llamada Tipo de valor extremo mínimo III, fue introducida por el físico Weibull en el año de 1939. La distribución Weibull tiene aplicaciones en la meteorología, como por ejemplo, con el pronóstico del clima, como por ejemplo, para describir las distribuciones de las intensidades del viento. Análogamente, con la hidrología la Weibull se aplica a eventos extremos como lluvias anuales máximas y descargas de ríos. En estudios atmosféricos, la Weibull se puede usar para describir el tamaño de partículas y es más precisa para predecir las distribuciones de partículas pequeñas. También tiene aplicaciones en ingeniería de confiabilidad y de fallas de análisis. En forma análoga a las distribuciones gamma y exponencial la distribución de Weibull tiene aplicaciones relacionadas con tiempo de falla o longitud de vida. Es decir, para medir la confiabilidad de un componente o producto, como la probabilidad de que si funcionará apropiadamente, por cuando menos un tiempo especificado bajo condiciones experimentales especificadas. Esta función, igualmente, se usa en el diseño de sistemas complicados, cuya operación o seguridad depende de los varios componentes involucrados en el sistema. Por ejemplo, con la ingeniería civil de estructuras, una columna de acero puede vencerse. Otra aplicación es el modelado de algún aparato sensible al calor que pueda fallar. Otra aplicación sería el estudio de componentes idénticos sujetos a condiciones ambientales idénticas, que puedan fallar a tiempos diferentes e
www.full-ebook.com
impredecibles. Finalmente, la distribución Weibull ha encontrado su mayor uso en hidrología como una distribución de flujos bajos de corrientes. 4.11.1. Función de probabilidad de densidad de la distribución Weibull. La función de probabilidad de densidad (pdf) de la distribución Weibull es: f (x) = α xα-1 exp-(x/β)2 / βα , x > 0 (4-17) Donde α y β son los parámetros condicionados a α > 0 y β > 0 La Figura 4.10 muestra la gráfica de la familia de la distribución Weibull para diferentes valores de alfa y beta.
Figura 4.10. Gráfica mostrando la curva de densidad de Weibull usando la función (4-17). Nótese que cuando α = 1 y β = 1, la curva se torna exponencial. 4.11.2. Función de distribución acumulada (cdf) de una variable aleatoria Weibull, que tiene parámetros α y β. Esta función se da como: F(x;α,β) = 1 – exp-(x/β)α x ≥ 0 (4-17a) La distribución Weibull es indexada por tres parámetros, es decir, por el parámetro de forma (B), el parámetro de escala (C) y por un parámetro de umbral (D). El parámetro B controla la forma total de la función de densidad.
www.full-ebook.com
Generalmente el valor de B está en el rango de 0.5 a 8.0. De acuerdo a la lógica del programa de cómputo NCSS, la distribución Weibull incluye otras distribuciones útiles de casos especiales o de aproximaciones cercanas. De acuerdo a esto, si: B = 1 la distribución Weibull es idéntica a la distribución exponencial, si B = 2 la Weibull es idéntica a la distribución Rayleigh. Si B = 2.5 la Weibull se aproxima a la distribución lognormal y, si B = 3.6, la Weibull se aproxima a la distribución normal. La figura de abajo muestra la familia de distribuciones acumuladas de la Weibull.
Figura 4.10ª. Gráfica mostrando la curva de probabilidad acumuladas de Weibull usando la función (4-17), con valores de λ = 1, k = 0.5, λ = 1, = k = 1, λ = 1, k = 1.5, λ = 1, k = 5. 4.11.3. Media y varianza de la distribución Weibull. La media y la varianza son: Media = E(X) = μ = β Г(1 + 1/α) (4-17b) Varianza = V(X) = σ2 = β2 {Г (1 + 2/α) – [ Г(1 + 1/α)]2}
(4-17c)
Donde: α es el parámetro de escala, α > 0, β es el parámetro de forma, β > 0 y Г(n) = (n
www.full-ebook.com
- 1) (Г(n – 1). Por consiguiente, si n es un entero positivo, entonces Г(n) = (n – 1)! (vía integración por partes). Ejemplo 4.21. Evaluar las siguientes funciones Г(n): (a) Г(5) (b) Г(7) Solución: (a) Г(5) = (5 – 1)! = 24 (b) Г(7) = (7 – 1)! = 720 Ejemplo 4.22. En una aplicación a los usos del agua, se sabe que ciertos datos siguen a una distribución Weibull con parámetros α = 20 y β = 100. Hacer los siguientes problemas manualmente (el lector lo deberá hacer) con las funciones (4-17b) y (4-17c) y luego usar el Minitab. (a) P(X ≤ 105) (b) P(98 ≤ X ≤ 102) (c) P(X ≥ 105) (d) P(X = 105) Solución: (a) P(X ≤ 105) = F(105;20,100) = 1 – exp-(105/100)20 = 1 - .070 = .930 (b) P(98 ≤ X ≤ 102) = F(98;20,100) - F(102;20,100) = - exp-(98/100)20 - exp(102/100)20 = .287 (c) P(X ≥ 105) = exp-(105/100)20 = 0.07 (d) P(X = 105) = .0356 Usando el Minitab da los resultados mostrados en la Tabla 4.5 de abajo. Tabla 4.5. Tabla mostrando los resultados del Minitab.
www.full-ebook.com
Usando los datos de esta tabla se calculan las probabilidades. (1) P(X ≤ 105) = .9296 (b) P(98 ≤ X ≤ 102) = .2868 (c) P(X ≥ 105) = 0.0705 (d) P(X = 105) = .0356 Ejemplo 4.23. En hidrología se sabe que la distribución de flujos bajos de corrientes tiene una distribución Weibull con α = 1 y β = 1/2. Usando el Minitab calcular lo siguiente: (a) P(X ≤ 2) (b) P(X ≥ 3.0) (c) P(X = 1) (d) La media y la varianza
www.full-ebook.com
Solución: (a) P(X ≤ 2) = .9817 (b) P(X ≥ 3.0) = .0025 (c) P(X = 1) = .2706 Tabla 4.6. Tabla mostrando los resultados.
(d) Media = E(X) = μ = 0.5 Г(1 + 1/1) = 0.5. Varianza V(X) = σ2 = 0.52 {Г (1 + 2/1) – [ Г(1 + 1/1)]2}= 0.25 4.12. Distribución Lognormal. La distribución lognormal (o log normal) se usa en una amplia variedad de aplicaciones. Esta distribución se aplica en casos donde una transformación logarítmica natural tiene como resultado una distribución normal. En general, una variable aleatoria tiene una distribución logarítmica normal, si el logaritmo de la variable aleatoria está normalmente distribuido. Por ejemplo, si y = log x y, si y está normalmente distribuida, entonces, x está lognormalmente distribuida. La distribución lognormal se puede usar cuando los datos tienen una distribución sesgada y la distribución normal es inadecuada. En este caso, se pueden hacer transformaciones logarítmicas (base e), para hacer el modelo más apropiado. El modelo lognormal corrige la
www.full-ebook.com
asimetría de los datos y la naturaleza no negativa de muchas variantes. Con la distorsión climática, causada por el calentamiento global, muchas distribuciones de eventos extremos, como inundaciones, precipitaciones pluviales, tornados, vientos huracanados, quemas forestales y de sabanas, etc., tienen distribuciones oblicuas hacia la derecha debido a los valores extremos ocasionados por la perturbación climática y la consecuente alteración de los patrones climatológicos. Para corregir la asimetría de estas distribuciones, la distribución lognormal lo puede hacer fácilmente. Por otro lado, a pesar de que la distribución normal, por si misma no funciona bien en trabajos con datos de tiempo a falla y se ha visto que el logaritmo de tiempo a falla si lo hace bien, por lo tanto, la función lognormal se ha convertido en una distribución popular en trabajos de confiabilidad. El modelo lognormal tiene aplicaciones a la física, biología, la hidrología, medición de partículas atmosféricas, etc.
4.12.1. Función probabilidad de densidad lognormal. La probabilidad de densidad de la función log-normal se da como (Wikipedia, 2011): Donde: µ es el parámetro de localización y σ es el parámetro de escala, esto es, la media y la desviación estándar del logaritmo natural de la variable (por definición, el logaritmo de la variable está normalmente distribuido). La figura de abajo muestra una gráfica sobrepuesta varios valores de µ y σ en función de la variable aleatoria X.
www.full-ebook.com
Figura 4.11. Figura mostrando curvas de densidades lognormales para valores de mu (μ) igual a 0, pero diferentes valores de sigma (σ). 4.12.2. Función de probabilidad acumulada lognormal. De acuerdo a la fuente de información anterior, la función acumulada de la distribución lognormal se da como:
Donde: μ y σ ya definidos anteriormente, Φ es la función de densidad acumulada normal estándar, erfc es la función del error complementario definida como:
La gráfica de abajo muestra la distribución lognormal para valores de localización y escala.
www.full-ebook.com
Figura 4.11ª. Figura mostrando curvas de probabilidades acumuladas lognormales con parámetros de localización y escala, es decir, para μ = 0 y diferentes valores de sigma (σ). 4.12.3. Media y varianza de la distribución lognormal. Los autores Hines et al. (2005) describen el promedio y la varianza de la distribución lognormal. Estos autores concuerdan en que, en algunas aplicaciones, es importante conocer los valores de la mediana y la moda. De acuerdo a esto, la media y la varianza de la distribución lognormal son, respectivamente: E(X) = μX = exp[μy + (0.5) σ2y] (4-18c) V(X) = σ2X = exp(2μy + σ2y) ∙ exp(σ2y – 1) = μ2X exp(σ2y – 1)
(4-18d)
También, la desviación estándar se puede calcular como: Desviación estándar = [exp σ2 (exp σ2 – 1)]0.5
(4-18e)
La función que denota la mediana, la cual es el valor de X, de tal manera que P(X ≤ ) = 0.5 es: Mediana= eμy (4-18f)
www.full-ebook.com
Igualmente, la moda para la distribución lognormal, la moda son: Moda = exp(μy – σ2y) (4-18g) Aquí, sin embargo, hay que estar consciente de que μ (parámetro de localización) y σ (parámetro de escala) no son la media y la desviación estándar de X, sino de Ln x. El sesgo se puede calcular usando la función: Sesgo = (exp σ2 + 2) (exp σ2 – 1)0.5
(4-18h)
La Figura de abajo muestra la curva de densidad lognormal con promedio > que mediana > moda, y con un sesgo positivo, porque está limitada a la izquierda por cero. Sin embargo, hay peligro de usar transformaciones logarítmicas, porque las observaciones pequeñas son grandemente aumentadas.
Figura 4.11b. Figura mostrando la distribución lognormal, con sesgo siempre positivo, y con promedio > mediana > moda.
www.full-ebook.com
Ejemplo 4.24. En un estudio se coleccionó una muestra aleatoria de precipitaciones de varios años. La tabla de abajo muestra los valores de las precipitaciones. Tabla 4.7. Tabla mostrando los valores promedio de las precipitaciones (mm).
Desarrollar los siguientes enunciados: (a) Hacer una gráfica de probabilidad lognormal, con parámetros de localización (μ) y escala (σ). (b) Calcular la media, la mediana, la moda y el sesgo de la distribución de datos. (c) Calcular las siguientes probabilidades (1) La precipitación es de cuando mucho 113.0 mm. (2) La precipitación es de cuando menos 118.0 mm. (3) La probabilidad de que las precipitaciones estén entre 113.6 y 115.2 mm. (d) Después usar el programa Minitab y hacer los mismos cálculos que se hicieron manualmente en el inciso (c). (1) Además, calcular el valor de P(X = 118.0). Para esto hacer una tabulación de las probabilidades calculadas. Comparar los resultados. (2) También, hacer una gráfica de probabilidad acumulada y otra de probabilidad
www.full-ebook.com
de densidad. (3) Leer el valor de la media de las gráficas. ¿Concuerda con el valor de la media con aquél calculado manualmente? Solución: (a) La gráfica de probabilidad lognormal se da abajo.
Figura 4.12. Gráfica de probabilidad lognormal mostrando los valores de localización (μ) igual a 4.741 y escala (σ) igual a .02296, así como también el valor de la estadística Anderson-Darling igual a 0.091. (b) Los cálculos de la media, mediana, moda y sesgo se hacen usando sus fórmulas correspondientes, como se muestra abajo. E(X) = media = 114.58, Mediana = 114.55, Moda = 114.49, Sesgo = 0.736 (c) Para calcular las probabilidades pedidas en este inciso: (1) P(X ≤ 113.0) se hace usando la función (4-18a). Sustituyendo los valores da:
www.full-ebook.com
F(113.0;4.741,0.02296) = Φ [(ln 113 – 4.741)/.02296] = Φ (-0.593) = 0.2776 (2) Para calcular P(X ≥ 118.0) se procede de la siguiente manera: P(X ≥ 118.0) = 1 - Φ [(Ln 118 – 4.741)/.02296] = 1 - Φ(1.29) = 1 - .9015 = 0.0985 (3) Para calcular P(113.6 ≤ X ≤ 115.2) se puede hacer usando la relación: P(a ≤ X ≤ b) = P(Ln a ≤ Ln X ≤ ln b)(4-18i)
Donde a es el valor de X más bajo, b es el valor de X más alto. Entonces, sustituyendo los valores en las ecuaciones anteriores da: P(113.6 ≤ X ≤ 115.2) = P(Ln 113.6 ≤ Ln X ≤ Ln 115.2) = P(4.733 ≤ Ln X ≤ 4.747)
= Φ (0.2469) – Φ (-0.3622) = .5987 - .3594 = 0.2393 (usando la tabla de la distribución normal) (d) Ahora usando el programa Minitab se hacen los mismos cálculos que hicieron manualmente en el inciso y se comparan los resultados usando los datos tabulados. La figura de abajo muestra esa información impresa.
www.full-ebook.com
Figura 4.12ª. Figura mostrando los datos impresos de la distribución lognormal en la hoja del Minitab. (d) Usando los datos calculados en la figura de arriba, se calculan las probabilidades de abajo. P(X ≤ 113.0 mm) = .277. P(X ≥ 118.0 mm) = .0981 P(113.6 ≤ X ≤ 115.6) = .2390 (1) P(X = 118.0) = .0638
www.full-ebook.com
(2) Las gráficas de probabilidad acumulada y de densidad se dan en la figura de abajo:
Figura 4.12b. Figuras mostrando las probabilidades acumuladas (gráfica izquierda) y de densidad (gráfica derecha). (3) Para calcular la media, referirse a la Figura 4.12b e irse a la figura del lado izquierdo, luego moverse al eje y en .50 y, por interpolación, se lee aproximadamente, 114.58 en el eje horizontal. Lo mismo se puede hacer de la figura del lado derecho. 4.13. Distribución de t de Estudiante. La distribución de t de estudiante fue descubierta en 1908 por William S. Gosset, quien usó el nombre de pluma de Estudiante. La t de Estudiante es una distribución de probabilidad continua relacionada con muestras pequeñas, es decir, menor de 30 casos. Esto en contraste con la distribución normal, que está relacionada con muestras grandes y requiere que la muestra sea mayor que 30 casos. Las condiciones que se requieren para usar la distribución t son de n ≤ 30 casos y que σ sea desconocida (en contraste con la distribución z que requiere del conocimiento de σ). Además, otra condición es que la población madre tiene una distribución, que es esencialmente normal. Sin embargo, en el estudio de muestras pequeñas se llama teoría de muestreo pequeño o teoría de muestreo exacto debido a que los resultados obtenidos usando la distribución t aplican, no solamente a muestras pequeñas, sino también
www.full-ebook.com
para muestras grandes. Aquí, no obstante, es de observarse que, si la población muestreada es normal, y el tamaño de muestra fuera grande pudiera usarse la distribución normal o la distribución de t. Sin embargo, bajo estas circunstancias, es preferible usar la distribución normal, porque es más precisa que la distribución de t. Como se recordará, la distribución normal está gobernada por dos parámetros, v. g., el promedio μ y la desviación estándar σ. Análogamente, la distribución t está gobernada por un solo parámetro, llamado número de grados de libertad (g.l.). En este respecto, el número de grados de libertad de la distribución t es una estadística denotada por el símbolo Griego ν y se define como el número n de observaciones independientes en la muestra, es decir, el tamaño de la muestra n menos el número k de parámetros de población que deben ser estimados de las observaciones muestrales. En símbolos, el número de grados de libertad se define como ν = n – k. La Tabla del Apéndice de este libro da los puntos porcentuales de t(λ,ν) y de los grados de libertad de la distribución de t. La distribución de t de estudiante tiene aplicaciones en el área de plantas de tratamiento para evaluar la eficiencia de éstas. Igualmente, tiene muchas aplicaciones a la ingeniería ambiental relacionada con modelos de difusión atmosférica. También, tiene muchas aplicaciones en estadística y se usa en problemas de estimación para hacer intervalos de confianza para un promedio, para dos promedios y para muestras pareadas. Esta distribución también tiene muchas aplicaciones en inferencia estadística para hacer pruebas de hipótesis para uno y dos promedios, para pruebas de los coeficientes de los modelos de regresión, etc. Sin embargo, las aplicaciones de la distribución t para estimación e inferencia estadística se explicarán en los siguientes capítulos. Definición 4.3. Cuando los tamaños de las muestras son pequeños y la desviación estándar de la población es conocida, se usa la distribución de t, cuyos valores se dan por:
www.full-ebook.com
Donde X es la media de la muestra, µ es la media poblacional y n es el tamaño de la muestra. Si σ = s y t = z, la distribución de t se torna a la distribución normal. También, a medida que µ → ∞ la distribución de t se aproxima a la normal. 4.13.1. Propiedades de la distribución de t de Estudiante. A continuación se dan las propiedades de la distribución de t. 1. La distribución de t de Estudiante es una familia de distribuciones gobernadas por el tamaño de la muestra n como se ve en la Figura 4.12. 2. La distribución t tiene un promedio de t = 0 en forma análoga a la distribución normal estándar que tiene media de z = 0. 3. La desviación estándar s de la distribución t varía con el tamaño de la muestra, pero es mayor que 1, es decir, en contraste con la distribución z cuya desviación estándar σ es igual a 1. 4. La forma de la distribución t depende del tamaño de la muestra. Con muestras pequeñas, la forma de esta curva es menos picuda que la normal, pero a medida que n llega a 30 casos o se va a infinito, s2 se aproxima a σ2 y, la t de Estudiante se aproxima a la distribución normal. La Figura 4.13 muestra la gráfica de la distribución de t de Estudiante, con diferentes grados de libertad.
www.full-ebook.com
Figura 4.13. Gráfica mostrando familias de curvas de densidad de la distribución de t de Estudiante con diferentes grados de libertad ν, demostrando cómo, a medida que ν → ∞, la distribución t se aproxima a la distribución normal. El conocimiento del la tabla de la distribución de t para calcular los grados de libertad es importante, puesto que esto es necesario para hacer estimaciones y pruebas de inferencia. Con este fin, este capítulo dará una breve introducción al lector en el uso de la distribución de t en la tabla del Apéndice de este libro, es decir, para calcular los grados de libertad. Por ejemplo analizando la Tabla del Apéndice de este libro de la distribución de t de Estudiante, en la parte superior horizontal tiene los valores porcentuales siendo los más comúnmente usados los de .95 y .99 y la columna del lado izquierdo de la tabla, es denotada por ν que corresponde a los grados de libertad, ν = (n – 1). Ejemplo 4.25. Si el tamaño de la muestra de partículas atmosféricas provenientes de una fuente industrial es de 10 micras y se requiere usar un extremo de la distribución, con el valor porcentual de .95, entonces, se busca el valor de ν = 9 grados de libertad lo que equivale a t = 1.833 y así sucesivamente. Similarmente, para dos extremos de la distribución, con n = 10 se busca el valor porcentual de .975, el cual con 9 grados de libertad da ±t = 2.262, etc. Las gráficas de abajo muestran esta situación.
www.full-ebook.com
Figura 4.14. Gráficas mostrando las distribuciones de t de estudiante, con uno (figura izquierda) y dos extremos (figura derecha) con un tamaño de muestra de n =10 casos (ν = 9), con α = 0.05. 4.14. Distribución de JI cuadrada. La distribución de JI cuadrada es un caso especial de la distribución gamma y se obtiene al poner α = ν/2 y β = 2. Como se verá más adelante en el capítulo de estimación e inferencia, el símbolo χ2 se usa
www.full-ebook.com
para denotar la distribución de JI cuadrada para hacer intervalos de confianza, pruebas de hipótesis y pruebas de bondad de ajuste. En verdad la JI cuadrada tiene numerosas aplicaciones en estadística de inferencia, para hacer pruebas de hipótesis y para estimar varianzas. También, se usa para determinar si las frecuencias observadas son significantemente diferentes de las frecuencias esperadas. 4.14.1. Función de densidad de JI cuadrada. La variable aleatoria continua X tiene una distribución con ν grados de libertad, si su función de densidad es:
Donde el símbolo griego ν recibe el nombre de grados de libertad (donde n es el número de observaciones independientes en la muestra por lo cual se puede calcular s y ν = n – 1). La figura de abajo muestra una gráfica con la familia de distribuciones de densidad de la JI cuadrada para diferentes grados de libertad.
Figura 4.15. Distribución de JI cuadrada (χ2) con varios grados de libertad, ν en función f(χ2) = [(χ2)ν/(2-1) e-χ2/2] / {2ν/2 [(ν - 2ν) / 2]!}.
www.full-ebook.com
4.14.2. Media y varianza de JI cuadrada. La media y la varianza de la JI cuadrada se denotan como: Media = μ = ν y la varianza = σ2 = 2ν. Esto se explicará en los siguientes capítulos. 4.14.3. Propiedades de la distribución de JI cuadrada. 1. La distribución de JI cuadrada (χ2) no es simétrica como la distribución normal. 2. Lo valores de χ2 pueden ser cero o positivos pero nunca pueden ser negativos (¿Por qué?). 3. Esta distribución se usa para hacer intervalos de estimación para la varianza y pruebas de hipótesis para la varianza σ2 y la desviación estándar σ, como lo atestiguarán los capítulos de estimación y de inferencia. Además, esta estadística χ2 se usa para hacer pruebas de bondad de ajuste, misma que se verá en otros capítulos. 4. La distribución de JI cuadrada es una familia de curvas y hay una distribución diferente para cada número de grados de libertad, ν. A medida que el número de grados de libertad aumenta, la distribución de la JI cuadrada se hace más simétrica. La Figura de abajo muestra una gráfica de la distribución de JI cuadrada con diferentes grados de libertad. Ahí nótese que a medida que aumentan los grados de libertad (k = ν = 10) la curva de densidad se hace más simétrica. El conocimiento del uso de la tabla de la distribución de JI cuadrada es importante para hacer intervalos de estimación o de estadística de inferencia, mismos que se explicarán detalladamente en los capítulos de estimación y de inferencia. Por ejemplo la Tabla 5 del Apéndice de este libro da los valores críticos de la distribución de JI cuadrada. La parte superior muestra los valores porcentuales α de .995, .99, etc. y la columna izquierda muestra los valores de los grados de libertad ν. Por ejemplo para encontrar el valor crítico de la cola derecha usar la columna con el área de α dada en la parte superior de la tabla.
www.full-ebook.com
Igualmente, para encontrar el valor crítico de la cola izquierda usar la columna con el valor de 1 – α en el renglón superior de la tabla. También, para encontrar los valores críticos para dos colas, es decir, para la cola izquierda usar la columna con el área 1 - α/2 arriba de la tabla de la distribución de JI cuadrada. Igualmente, para encontrar el valor de la cola derecha, usar la columna con el área α/2 del renglón superior de la tabla de la JI cuadrada. Ejemplo 4.26. Encontrar los valores críticos de la distribución de JI cuadrada que contengan un área de 0.025 en cada cola, con un tamaño de muestra de n = 10. Dibujar la gráfica. Solución:
Figura 4.16. Gráfica mostrando el diagrama esquemático para este problema. De la figura de arriba, para encontrar el valor de χ2 = 2.7 usar la columna con 0.025 de la tabla de JI cuadrada, para dar 2.7. Igualmente, para encontrar el valor del lado derecho de 19.0 usar la columna con 0.975 arriba de la tabla de distribución de JI cuadrada para dar 19.0. Esto se muestra en la gráfica de arriba. Ejemplo 4.27. Un ingeniero ambiental mide la cantidad de DBO5 procedente de varios lugares a lo largo de una corriente de agua, la cual estaba contaminada por
www.full-ebook.com
una descarga industrial. Para esto, saca una muestra aleatoria de análisis de DBO de tamaño n = 25 y se calcula una varianza de s2 = 30. Se sabe que la varianza poblacional es de σ2 = 75. Usando un nivel de significancia de α = 0.05, hacer lo siguiente: (a) Calcular χ2. (b) Hacer una gráfica y señalar las regiones críticas. Solución: (a) Usando la función χ2 = (n – 1)s2 / σ2 y sustituyendo los valores de n = 25, s2 = 30 y σ2 = 75 da: χ2 = (25 – 1)30 / 75 = 9.6 (b) La grafica es:
Figura 4.17. Figura mostrando la gráfica de JI cuadrada con 24 grados de libertad con un nivel de significancia de α = 0.05. 4.15. Función probabilística de la distribución F. La distribución F tiene mucha aplicación en la comparación de varianzas muestrales y en estudios de análisis de varianza. Debido a que, la estadística F se define como una relación, la distribución F de probabilidad tiene dos parámetros representados por ν1 y ν2, donde estos valores son enteros positivos. El parámetro ν1 se llama número de
www.full-ebook.com
grados de libertad del numerador y ν2 se llama el número de grados de libertad del denominador. Para estimar los grados de libertad ν1 y ν2 se tiene que consultar la Tabla de la distribución F dada en el Apéndice de este libro. Por otro lado, debido a que la función de densidad y acumulada de la distribución F son complicadas, no se mostrarán aquí. Sin embargo, el lector interesado en estudiar el teorema que define la distribución F, puede consultar el libro de Walpole et al. (1992), página 234. La distribución de F es similar a la distribución de t de Estudiante y de JI cuadrada (χ2), porque es una familia de distribuciones. Cada par de valores de ν1 y ν2 especifican una distribución de F diferente. La Figura 4.18 de abajo muestra la gráfica de una familia de distribuciones F.
Figura 4.18 Gráfica mostrando varias curvas de densidad de la distribución de F, con diferentes grados de libertad, asumiendo α = 0.05. Debido a que las varianzas en ambos, el numerador y denominador de la relación F, están elevadas al cuadrado, el valor de F es siempre positivo. La forma de la curva F es asimétrica y sesgada hacia la derecha. Sin embargo, la distribución F tiende hacia la simetría, a medida que ν1 y ν2 aumentan. No obstante, cuando se aborden las aplicaciones a estadística de inferencia en los siguientes capítulos, se verá que, la prueba de F es extremadamente sensible a distribuciones que no son normales y esta falta de robustez no se mejora con muestras grandes.
www.full-ebook.com
Por otra parte, es de saberse que existe una relación importante entre una variable F y las variables de la JI cuadrada. Por ejemplo, si X1 y X2 son variables aleatorias independientes de JI cuadradas con ν1 y ν2, grados de libertad, respectivamente, entonces la variable aleatoria es la relación entre dos variables de JI cuadrada, dividida por sus respectivos grados de libertad, esto es, F = X1/ν1 / X2/ν2. Ejemplo 4.28. Este ejemplo está encaminado a calcular los valores críticos usando la distribución F. Siendo así, encontrar: (a) F0.05 con ν1 = 6 y ν2 = 10 (b) F0.01 con ν1 = 6 y ν2 = 10 (c) Si el tamaño de una muestra es de n1 = 3 y el tamaño de otra muestra es de n2 = 10, encontrar la región crítica con α = 0.05 y 0.01. Dibujar una gráfica señalando la región crítica con α = 0.05. Solución: (a) Esta función se puede expresar como F0.05;6,10. Los grados de libertad del numerador son ν1 = 6, y los grados de libertad del denominador son ν2 = 10. Con α = 0.05 de la Tabla 6 del Apéndice, se lee 3.22. Por lo tanto, F0.05;6,10 = 3.22 (b) Para este inciso se busca α = 0.01 en la tabla de F con ν1 = 6 y ν2 = 10 y da F0.01;6,10 = 5.39 (c) Aquí, F0.05;2,9 = 4.26 y F0.01;2,9 = 8.02 La Figura 4.18 de abajo muestra la región crítica de F0.05;2,9 = 4.26 con α = 0.05.
www.full-ebook.com
Figura 4.18a. Gráfica mostrando la región crítica con el valor de significancia de α = 0.05. 4.16. Distribución Gumbel. La distribución Gumbel fue nombrada en honor del matemático alemán, Emil J. Gumbel (1891-1966). Clarke (1994) describe la distribución Gumbel, algunas veces llamada valor extremo tipo I, es útil para predecir la probabilidad de un terremoto extremo. También tiene aplicaciones a la hidrología, para modelar la distribución de flujos anuales mínimos. Gumbel fue el primero en usar la Teoría de Valor Extremo, la cual es una rama separada de estadística, que trata eventos extremos (Mathwave, 2004-2010). La distribución Gumbel es, primordialmente, usada en el análisis de valores extremos, como por ejemplo, en inundaciones y sequías, lluvias y vientos, caudales o cotas hidrométricas, estudios de cuencas hidrográficas, etc. Además, la distribución Gumbel se usa para analizar valores máximos mensuales y anuales de lluvia y descargas de volúmenes de ríos (Ritzema 1994). El valor extremo tipo I o distribución de Gumbel (aquí es de notarse que el tipo extremo III o de distribución Weibull es esencialmente una transformación logarítmica de la distribución tipo extremo I) tiene dos formas, una basada en el valor extremo pequeño y la otra basada en el valor extremo grande. (Ver Gumbel, 1958). 4.16.1. Valor extremo de la distribución tipo I. La distribución de valor extremo tipo I tiene dos formas. Una está basada en el extremo más pequeño (caso mínimo) y la otra está basada en el extremo grande (caso máximo). (NIST/SEMATECH, e-Handbook of Statistical Methods). 4.16.2. Función general de probabilidad de densidad de la distribución
www.full-ebook.com
Gumbel (caso mínimo). De acuerdo a la fuente de información anterior, esta función se da como: f(x) = 1/β exp(x –μ)/β (exp)-exp(x – μ)/β
(4-21)
Donde: μ, α y β son los parámetros de la Gumbel. 4.16.3. Función general de probabilidad de densidad de la distribución Gumbel (caso máximo). Esta función se usa para modelar distribuciones máximas extremas muy grandes, como por ejemplo, la distribución de los niveles de agua de un río, en función del tiempo o de velocidades extremas de vientos. Por ejemplo, en aplicaciones hidrométricas, esta distribución es oblicua hacia la derecha, con unos pocos casos de niveles de agua extremos hacia la derecha y con la mayor parte de los niveles de agua hacia la izquierda. También en el contexto de confiabilidad, se usan las distribuciones de valores extremos grandes. De acuerdo a la fuente de información anterior, esta función se da como. f(x) =1/β e-(x –μ)/β (exp)-exp-(x – μ)/β
(4-21ª)
Donde: μ y β ya se definieron anteriormente 4.16.4. Fórmula de la función de la distribución acumulada de Gumbel (caso mínimo). Esta función se da como: F(x) = 1 – exp-exp(x)
(4-21b)
4.16.5. Fórmula de la función de la distribución acumulada de Gumbel (caso máximo). Esta ecuación se da como: F(x) = exp-exp(-x)
(4-21c)
4.16.6. Media y varianza de la distribución Gumbel. La media de la distribución Gumbel va en función del parámetro de localización (α), del
www.full-ebook.com
parámetro de escala (β) y la constante Euler, γ (Ntrand): Media = α + γβ
(4-21d)
Donde: α y β definen el valor más grande de la distribución y γ es la constante Euler ≈ 0.577215 Nota: El valor extremo más grande de la distribución es oblicuo hacia la derecha. Por ejemplo, en hidrología, la distribución de los niveles de agua de un río, en función del tiempo, es usualmente oblicua hacia la derecha, con pocos casos de niveles extremos de agua a la derecha y una gran parte de los niveles de agua en la cola inferior.
Varianza = β2 ζ(2)
(4-21e)
Donde: ζ es la función zeta Riemann igual a ζ(x) = Desviación estándar = √Varianza
(4-21f)
Igualmente, la mediana, la moda, el sesgo y la desviación estándar son definidas por (NIST/SEMATECH) como: Mediana = μ – β Ln(Ln(2)), Moda = μ, sesgo = -1.13955, Desviación estándar = 1.13955 4.16.7. Gráfica de la distribución de valores extremos tipo I, Gumbel. La función general de probabilidad de densidad de la distribución Gumbel es una familia de distribuciones gobernadas por valores de localización (α) y escala (β). La figura de abajo muestra las distribuciones de la distribución Gumbel con varios valores de localización y escala.
www.full-ebook.com
Figura 4.19. Figura mostrando las distribuciones de probabilidades de densidad de la función Gumbel para diferentes valores de localización (α) y escala (β). Igualmente, la figura de abajo muestra las probabilidades acumuladas de la función Gumbel, para diferentes valores de localización y escala.
Figura 4.19a. Figura mostrando las probabilidades acumuladas de la función Gumbel para diferentes valores de localización y escala.
www.full-ebook.com
Ejemplo 4.29. En un estudio de meteorología, se da la tabla de abajo mostrando los datos de una muestra aleatoria de precipitaciones anuales (mm) procedentes de cierta región. Asumir que los datos siguen a una distribución Gumbel de valores extremos grandes, tipo I. Tabla 4.8. Tabla mostrando las precipitaciones (mm)
Hacer lo siguiente: (a) Usando el programa Minitab, hacer una gráfica de probabilidad Gumbel con un intervalo de confianza de 95% y calcular el valor de la estadística AndersonDarling (A-D) y los valores de localización (α) y escala (β). ¿Encaja bien la distribución Gumbel? Justificar el argumento. (b) Hacer una tabla de probabilidades de densidad usando la función (4-21ª) caso máximo. Luego, hacer una gráfica con los datos obtenidos. (c) Calcular la media, la moda y la varianza. (d) Calcular las siguientes probabilidades. (1) P(750 ≤ X ≤ 1000) (2) P(X ≤ 1000) (3) P(X = 750) (4) P(X ≥ 1250)
www.full-ebook.com
(5) P(X = 999) (6) P(X > 749) (7) P(X < 800) Solución: (a) La gráfica de probabilidad Gumbel se da en la figura de abajo. Sugerencia: Para hacer esta gráfica, usando el Minitab, irse a: Graph → Probability Plot. Luego en la ventana de “Probability Plot-Single” y en la ventanilla de “Distribution” puntear la distribución “Largest extreme value” y “OK” y seguir con las demás instrucciones. La Figura de abajo muestra la hoja del Minitab y las entradas apropiadas.
www.full-ebook.com
Figura 4.20. Diagrama esquemático impreso de la hoja del Minitab usando la función de valor extremo grande. La figura de abajo muestra los resultados obtenidos de la gráfica de probabilidad valor extremo grande (Gumbel tipo I)
Figura 4.20a. Gráfica de probabilidad Gumbel o de valor extremo grande con intervalo de confianza de 95%. Aquí se ve que el valor de la estadística Anderson-Darling (A-D) es igual a 0.124 con parámetros de localización (α) igual a 598.9 y parámetro de escala (β) igual a 355.3. La distribución Gumbel tipo extremo I, si encaja bien, porque el valor de la estadística A-D es pequeño. Además, todos los puntos están dentro de las bandas de confianza de 95% y la mayoría de los puntos siguen a un patrón lineal. (b) Usando la ecuación (4-21ª) y sustituyendo los valores de α = 598.9, β = 355.3 y de X igual a 195.0, 148.0,… 1140.0, 1545 nos da: f(x) = [(1/355.3) (exp-(X – 598.9)/355.3)] [(exp)-exp-(X – 598.9)/355.3] f(195.0) = [(1/355.3) (exp-(195.0 – 598.9)/355.3)] [(exp)-exp-(195.0 – 598.9)/355.3] = .00039
www.full-ebook.com
f(448.0.0) = [(1/355.3) (exp-(448.0 – 598.9)/355.3)] [(exp)-exp-(448.0 – 598.9)/355.3] = .00093 f(735.0) = [(1/355.3) (exp-(735.0 – 598.9)/355.3)] [(exp)-exp-(735.0 – 598.9)/355.3] = .00097 f(600.0) = [(1/355.3) (exp-(600.0 – 598.9)/355.3)] [(exp)-exp-(600.0 – 598.9)/355.3] = .00104 f(935.0) = [(1/355.3) (exp-(935.0 – 598.9)/355.3)] [(exp)-exp-(935.0 – 598.9)/355.3] = .00074 f(1140.0) = [(1/355.3) (exp-(1140.0 – 598.9)/355.3)] [(exp)-exp-(1140.0 – 598.9)/355.3] = .00049 f(1545.0) = [(1/355.3) (exp-(1545.0 – 598.9)/355.3)] [(exp)-exp-(1545.0 – 598.9)/355.3] = .00018 Tabla 4.8ª. La tabla mostrando la tabulación de las probabilidades usando la ecuación (4-21ª).
Usando los valores tabulados de la tabla de arriba da la gráfica de abajo.
www.full-ebook.com
Figura 4.20b. Gráfica de probabilidades de densidad vs. precipitaciones. Aquí, se observa que la distribución de valor extremo grande es oblicua hacia la derecha, con pocos casos de valores extremos de precipitaciones, y la mayoría de los valores de precipitaciones hacia la izquierda. (c) El cálculo de probabilidades es: (1) P(750 ≤ X ≤ 1000) ≈ .23 (2) P(X ≤ 1000) ≈ .72 (3) P(X = 800). Usando la ecuación (4-21ª) o leyéndola de la gráfica de probabilidad da: f(800) =1/355.3 e-[(800 –598.9)/355.3] (exp)-exp-(800 – 598.9)/355.3 = .00091 (4) P(X ≥ 1250) ≈ .15 (aquí también se puede usar la ecuación (4-21ª) restándole 1.0) (5) P(X = 999) = .00066 (de la tabla 4.8b) (6) P(X > 749) = (para resolverse por el lector) (7) P(X < 800) = (para resolverse por el lector) Nota: El Minitab también puede calcular las probabilidades de densidad y acumulada. Esto se muestra en la tabla de abajo.
www.full-ebook.com
Tabla 4.8b. Tabla mostrando las probabilidades acumuladas y de densidad para valores convenientes de x.
(d) Para calcular la media, la moda y la varianza usamos las ecuaciones dadas arriba: Media = α + γβ = 598.9 + .57722(355.3) = 803.986 Mediana = μ – β Ln(Ln(2)) = 598.9 – 355.3 (-0.367) = 729.295 Moda = α = 598.9 4.17. Periodos de retorno y probabilidades de excedencia. Existe una relación interesante entre la ingeniería ambiental y la hidrología. Antes de la era industrial, no había una relación entre las dos disciplinas tan acentuada como se observa en tiempos modernos. Sin embargo, actualmente, se observa que si existe una relación entre la ingeniería ambiental y la hidrología debido al calentamiento global producido por los gases de invernadero, que se estudian
www.full-ebook.com
ampliamente en la ingeniería ambiental y usos del agua. Esto se debe a que el calentamiento global esta distorsionando el clima y los patrones de lluvia, mismos que están impactando el desenvolvimiento de la hidrología. De cualquier manera, tradicionalmente, la hidrología se define como el estudio del agua, es decir, como la ocurrencia, distribución, movimiento y la química de todas las aguas en la tierra. El medio más comúnmente usado en hidrología para mostrar la probabilidad de un evento es por medio de asignar periodos de retorno (o intervalo de recurrencia), al evento. El periodo de retorno, generalmente, puede ser definido como el número de años en que se espera que, medianamente, se repita un cierto caudal o un caudal mayor. Por ejemplo, si el periodo de retorno de un caudal es de 80 metros cúbicos por segundo (m3/seg), para una sección específica de una corriente en 30 años, entonces, caudales iguales o mayores de 80 m3/seg pueden suscitarse, en promedio, cada 30 años. De esta manera, en hidrología, el periodo de retorno es un parámetro muy importante, cuando se va a dimensionar una obra hidráulica destinada a contener avenidas pluviales, es decir, en el diseño de diques de control de presas, en el diseño de vertederos de demasías de presas, etc. En cuanto a la definición de la probabilidad de excedencia, esta variable es simplemente el recíproco del periodo de retorno (P = 1/periodo de retorno). Por ejemplo, una inundación de 20 años tiene una probabilidad de P = 1/20 = 0.5 o 50%, de ser excedida en cualquier año. Otro ejemplo más, es dando el periodo de retorno de un evento de 50 años, entonces, la probabilidad de ocurrencia es P = 1/50 = 0.02 o 20%. El periodo de retorno por el cual se debe dimensionar una obra hidráulica varía en función de la importancia del proyecto hidráulico, ya sea que se trate de un interés hidrotermoeléctrico, de proyectos hidráulicos socioeconómicos, estratégicos, agrícolas, etc. Esto también varía de acuerdo a la existencia de otras vías alternativas capaces de sustituirla y de los perjuicios o daños que implicarían su destrucción, por algún evento climático extremo. Comentario: Aquí es interesante anotar que, el mundo actual en que vivimos está entrando en una etapa crucial donde se suscitarán muchos cambios transcendentales, como climáticos, económicos, políticos, sociales, sanitarios, religiosos, etc., debido a las actividades irracionales del hombre. Para mencionar algunos son el calentamiento global de la tierra, mismo que está causando eventos climáticos muy extremos. Esto, desde luego, se va a traducir en costos inflacionarios muy importantes en la construcción de proyectos de estructuras hidráulicas. Esto vendrá debido a que, las obras hidráulicas tendrán que sobredimensionarse para poder soportar los aluviones o eventos extremos de precipitación y, así, evitar
www.full-ebook.com
rupturas, pérdidas de vidas humanas, pérdidas económicas, problemas de salubridad, etc.
Matemáticamente el periodo de retorno se expresa como: T = 1/P O bien
(4.22) P = 1/T
(4.22a)
Donde T es el periodo de retorno y P es la probabilidad de que dicho evento sea igualado o excedido una vez en un año determinado. Por ejemplo, un periodo de retorno de 100 años tiene una probabilidad P =1/T = 1/100 = 0.01 o 1.0 % de ser igualado o excedido en cualquier año. Otro ejemplo es de que, si el periodo de retorno de un flujo de 120 m3/seg, es de 30 años, entonces, flujos iguales o mayores que 120 m3/seg ocurrirán, en promedio, cada 30 años. 4.18. Posiciones de graficación. Por otra parte, en estudios de hidrología existen numerosos métodos para calcular precipitaciones, periodos de retorno y probabilidades de excedencia, los cuales han sido propuestos para la estructuración de modelos de predicción. Por ejemplo, Maidment (1993) enlistó varias posiciones gráficas y tipos de gráficas de probabilidad, v. g., los métodos de Weibull, Cunnane, Gringorten, Hazen, Gumbel, etc. Sin embargo, el método gráfico de Hazen ha sido tradicionalmente la posición gráfica preferida, por su simpleza y precisión. Este método gráfico se hace usando papel de gráfica lognormal por medio de graficar una escala logarítmica de precipitación y por medio de usar escalas de probabilidad para los periodos de retorno y de la probabilidades de ocurrencia. Aquí es redundante afirmar que, con los programas de computadora como el Minitab, esta posición gráfica usando papel de gráfica lognormal (y todas las demás mencionadas anteriormente, aunque si bien son de interés didáctico), se ha simplificado muchísimo. En general, una posición de graficación ser refiere al valor de la probabilidad asignada a cada uno de los datos que van a graficarse. Las posiciones de gráficas de probabilidad se usan para mostrar las ocurrencias de lluvias máximas anuales en función de los periodos de retorno y de las probabilidades de excedencia. Además, las posiciones de graficación permiten un examen visual del ajuste de
www.full-ebook.com
la distribución de probabilidad dada por los análisis de frecuencias de inundaciones. De esta manera, se han propuesto numerosos métodos (la mayoría empíricos) para la determinación de las posiciones de graficación. Para mencionar algunas, son las posiciones gráficas de Gumbel, Cunnane (1978), Gringorten (1963), Hazen, fórmula de California, Weibull y así sucesivamente. Sin embargo este texto se centrará en las posiciones de graficación de Hazen y Gumbel. Cunnane (1978) determinó una función básica para diferentes posiciones gráficas usando una función general dada como:
Donde: I = El rango de la descarga pico, siendo el número uno, la descarga pico más grande Fi = La probabilidad asociada con la descarga pico i N = número de descargas pico α = una constante mayor que 0 y menor que 1 El valor de α determina, qué también las posiciones gráficas calculadas se ajustan a una distribución teórica dada. Por ejemplo, en la fórmula de Hazen, α = 0.5 da una buena aproximación al valor de la distribución extrema. 4.18.1. Posición de graficación de ocurrencia de eventos propuesta por
www.full-ebook.com
Hazen. Los ingenieros hidrólogos necesitan calcular la probabilidad de que un evento de lluvia dado ocurrirá para asistir en la planeación de estructuras hidráulicas para determinar la probabilidad o posibilidad de éxito y/o fracaso de un proyecto dado. Las variables que se necesitan para describir las distribuciones de frecuencia de lluvia son la duración en intensidad y el periodo de retorno. Como se dijo anteriormente, el periodo de retorno se define como la frecuencia de ocurrencia de un evento hidrológico, cuya intensidad y duración que se espera, que pueda ser igualada o excedida, es decir, el periodo de tiempo en años esperado entre intensidades altas o bajas o entre periodos muy secos. Existen numerosos métodos para calcular probabilidades de ocurrencia y periodos de retorno (intervalos de recurrencia), para una duración de lluvia dada. Por ejemplo, el texto Environmental Hydrology (1995) discute el método de Hazen. Este método se refiere a la posición en la gráfica o probabilidad de ocurrencia de cada evento. La metodología consiste en determinar la distribución estadística de lluvia por medio de trazar en papel de gráfica lognormal los datos de precipitación, periodos de retorno (intervalos de recurrencia) y las probabilidades de ocurrencia (el recíproco del periodo de retorno). Esto es, para determinar, por medio de interpolación o extrapolación en la gráfica la lluvia asociada con el periodo de retorno de interés. El primer paso en el método de Hazen consiste en el ensamblaje de los registros de todos los años posibles para la duración de interés. Enseguida, los valores anuales se ordenen del más alto al más bajo. Luego, se asigna un rango para cada valor de lluvia, con 1 para el valor más alto, 2 para el segundo valor más alto y así sucesivamente. De la colocación de los rangos, una posición gráfica se determina de la siguiente ecuación dada por referencia anterior:
Donde: Fa es la posición gráfica o probabilidad de ocurrencia (%) para cada evento y es el número total de eventos
www.full-ebook.com
n es el rango asignado a cada evento Las cantidades de precipitación se grafican en función de la probabilidad de ocurrencia en la gráfica logarítmica de probabilidad. Enseguida, una línea recta (usando el método de cuadrados mínimos) se dibuja en los datos en la gráfica. De la gráfica se pueden leer, por interpolación o extrapolación, la precipitación correspondiente al periodo de retorno y su correspondiente probabilidad de ocurrencia. Esta situación se aclarará, aun más, en los siguientes ejemplos. Ejemplo 4.30. Este es un ejemplo, para que el lector se familiarice con la posición gráfica del método de Hazen. Es decir, con la finalidad de reestructurar de un modelo gráfico lognormal, que vaya en función de los periodos de retorno, las probabilidades de ocurrencia y las precipitaciones pluviales. El método discutido consiste en determinar la distribución estadística de las cantidades de lluvia para la duración de interés. Esto se hace trazando en papel de gráfica, con escala logarítmica y de probabilidad, los periodos de retorno, probabilidades de ocurrencia y las precipitaciones anuales. Este estudio usará la información dada en la Tabla 1.4 del Capítulo 1 es decir, de la información suministrada por la Comisión Nacional del Agua (CONAGUA) en Ciudad Juárez, Chihuahua, México, la cual incluye el periodo de 1956 a 2006. Por ejemplo, para calcular la probabilidad y el periodo de retorno, el método de Hazen usa la función de abajo: Fa = [100(2n-1)]/2y = 100/Periodo de Retorno
(4-24a)
Donde, Fa es la probabilidad de ocurrencia de cada evento, y es el número total de eventos y n es el rango para cada evento. Para esta finalidad, se le pide al lector hacer los siguientes cálculos usando los datos de las precipitaciones anuales de CONAGUA correspondientes a la estadística histórica de la precipitación pluvial en Cd. Juárez Chihuahua, México periodo 1957-2006. Hacer lo siguiente: (a) Una gráfica de probabilidad normal y otra gráfica de probabilidad lognormal (que sería lo mismo que hacer una transformación Loge de los valores originales
www.full-ebook.com
y luego hacer una gráfica de probabilidad normal). Hacer también una gráfica tipo I de valor extremo máximo de Gumbel. Revisar por la prueba de bondad de ajuste Anderson-Darling (A-D) y el valor de p, en cada uno de las tres distribuciones. (b) Al juzgar por el valor de la estadística de bondad de ajuste A-D, de las tres distribuciones, decir cual distribución es más plausible ¿Es la distribución de valor extremo máximo oblicua hacia la derecha o hacia la izquierda? (c) Hacer gráficas sobrepuestas de probabilidades acumuladas (f.r.a.) y de función de masa (f.r.) de las dos distribuciones más plausibles obtenidas en inciso (a). (d) Aplicar el método de Hazen usando los 50 datos de las precipitaciones. Luego, estructurar una gráfica lognormal, es decir, en papel de gráfica de escala logarítmica (con las precipitaciones) y de escalas de probabilidad (para los periodos de retorno y de la probabilidad de ocurrencia), y trazar la línea de regresión, es decir, del método de los cuadrados mínimos. (e) Con la gráfica estructurada, por interpolación, determinar la precipitación anual esperada para periodos de retorno de 2, 20 y 100 años, con sus respectivos valores de periodos de retorno y probabilidades de ocurrencia. Tabla 4.9. Tabla recapitulando la información estadística histórica de la precipitación pluvial en Cd. Juárez, Chihuahua México periodo 1957-2006.
www.full-ebook.com
Solución: (a) Las figuras 4.21, 4.21a y 4.21c muestran las gráficas de probabilidad, ajustando una gráfica de probabilidad normal otra de probabilidad lognormal y, una más, de valor extremo grande.
www.full-ebook.com
Figura 4.21. Figura mostrando la gráfica de probabilidad normal para las precipitaciones anuales.
Figura 4.21a. Figura mostrando la gráfica de probabilidad lognormal para las precipitaciones anuales.
www.full-ebook.com
Figura 4.21b. Figura mostrando la gráfica de probabilidad de valor extremo grande (Gumbel) para las precipitaciones anuales. Al juzgar por los valores de la estadística A-D las distribuciones más plausible son la lognormal y la Gumbel. (c) Las gráficas sobrepuestas de las probabilidades acumuladas y de densidad de la distribución lognormal y la distribución de valor extremo grande se dan en las Figuras de abajo.
www.full-ebook.com
Figura 4.21c. Figuras mostrando las gráficas sobrepuestas de las probabilidades acumuladas vs. precipitaciones de las dos distribuciones, Gumbel y lognormal.
(b) Figura 4.21d. Figuras mostrando las gráficas sobrepuestas de las probabilidades de densidad vs. precipitaciones de las dos distribuciones, Gumbel y lognormal. Nótese que la diferencia es mínima. Las Figuras de abajo muestran las estadísticas descriptivas con los valores originales y los valores transformados (base e).
www.full-ebook.com
(c) Si hubo mucha mejoría significante al transformar los datos, porque claramente se observa que, el valor de la estadística de bondad de ajuste Anderson-Darling bajó de 0.691 de los datos originales a 0.318 con los datos transformados. Además, las estadísticas descriptivas muestran un sesgo de 0.5570 contra -0.1747 cuando se trasformó la data. Igualmente, para el intervalo de confianza de 95% con los valores originales (229.34 < μ < 281.42) es más
www.full-ebook.com
amplio que el intervalo de confianza de los valores transformados (5.3744 < μ < 5.5828). (d) Usando la ecuación del método de Hazen, Fa = [100(2n-1)]/2y = 100/Periodo de retorno se estructura la Tabla de abajo.
Tabla 4.10. La tabla de abajo de la Comisión Nacional del agua (CONAGUA) de la estación meteorológica de Cd. Juárez, Chihuahua, México, muestra el rango de las precipitaciones anuales, las probabilidades de recurrencia y los periodos de retorno (e) Después de lo anterior, usando algún programa de computadora (el Minitab en este caso) se estructura una gráfica lognormal, es decir, en una gráfica de escala logarítmica (con las precipitaciones) y de escalas de probabilidad (para los periodos de retorno y de la probabilidad de ocurrencia). Luego, se traza la
www.full-ebook.com
línea de regresión que mejor ajuste los datos, es decir, usando el método de los cuadrados, para de ahí poder extrapolar o interpolar cualquier cálculo deseado. La Figura 4.22 de abajo muestra la gráfica de estas tres variables.
Figura 4.22. Gráfica de la precipitación anual (cm) en escala logarítmica, probabilidad de ocurrencia (%) y de periodos de retorno en escala de probabilidad. (f) Para determinar la precipitación anual esperada para un periodo de retorno de 2, 20 y 100 años para este problema, con sus respectivos valores de las probabilidades, se usan la gráfica lognormal de la Figura 4.22. Siendo así, para un periodo de retorno de 2 años se lee aproximadamente 24 cm. Igualmente, para un período de retorno de 20 años, el valor correspondiente es de, aproximadamente, 44 cm. Esto dice que, en un año dado, hay una probabilidad de ocurrencia de 5.0 % de que habrá más de 44 cm. de lluvia. Igualmente, si se desea saber la precipitación anual para un evento que tiene un período de retorno de 100 años, de acuerdo a la línea de los cuadrados mínimos de la Figura anterior, esto equivaldría, aproximadamente, a 57 cm. de lluvia, con una probabilidad de 1.0 % de que habrá más de 57 cm. de precipitación anual y así sucesivamente.
www.full-ebook.com
Ejemplo 4.31. Refiriéndose al ejemplo anterior, de las precipitaciones de CONAGUA de Cd. Juárez, usando la distribución binomial, calcular el número exacto de veces X que, en promedio, un evento como éste sucediera en una secuencia de 50 años. Es decir, para calcular la probabilidad de ocurrencia de una precipitación anual, con un periodo de retorno igual a 10 años. Siendo así, esta probabilidad sería igual a p = 1/10 = 0.1 y el número de veces X que, en promedio, un evento como éste sucedería en 50 años es igual a X = np = 50(0.1) = 5.0. Entonces, la probabilidad de que exactamente 5 eventos como éste sucedieran en 50 años, usando la distribución binomial, el resultado sería: P(X = 5) = B(5;50,0.1) = 50C5 (0.1)5 (0.9)50-5 = 0.185 Además, la probabilidad de que no ocurriesen 5 eventos como éste, en 50 años, el resultado obtenido sería q = 1 – P(X = 5) = 1 – 0.185 = 0.815. No obstante, si se trabajara con el mismo evento, pero ahora con 100 años, en lugar de 50 años, usando el modelo Poisson como una aproximación a la binomial, los cálculos se simplificarían usando la distribución de Poisson (Quevedo, 2006), es decir, como aproximación a la binomial. Esto se ilustra a continuación:
np = 100(0.1) = 10 = μ
P(X = 5) = (10)5 (e-10)/5! =
0.038 Opuestamente, si se usa la distribución binomial, entonces el resultado es: P(X = 5) = B(5;100,0.1) = 100C5 (0.1)5 (0.9)100-5 = 0.034 Como se puede observar, este valor es bastante parecido (con 2 figuras significantes), al calculado usando la distribución de Poisson. Ejemplo 4.32. Nuevamente, refiriéndose al ejemplo anterior de CONAGUA, otro resultado que se puede obtener aplicando la distribución normal continua, está relacionado con el análisis de una distribución de datos de precipitación
www.full-ebook.com
pluvial, que siguen a una curva normal caracterizada, por tener el mismo promedio aritmético y desviación estándar de los datos de nuestro estudio (25.42 cm. y 9.17 cm., respectivamente). Siendo así, si se desea calcular la probabilidad acumulada de ocurrencia de un evento que tiene un periodo de retorno de 20 años, usando la ecuación (4-25) de abajo, el resultado obtenido daría:
F(z) = 1 – 1/T F(z) = 1 – 1/T = 1 – 1/20 = 0.95
(4-25)
Ahora, usando la tabla de la distribución normal, el valor de z correspondiente a 0.95 da 1.65. Enseguida, usando la función de la variable aleatoria normal X, z = (x – )/s, y sustituyendo los valores apropiados de la media = 25.42 y de la desviación estándar, s = 9.17, el resultado es: 1.65 = (X – 25.42)/9.17 Resolviendo por X da: X = (1.65)(9.17) + 25.42 = 40.55 cm Esto significa que existe una probabilidad del 95% de que en cualquier año suceda una precipitación total anual menor o igual a 40.55 cm. Similarmente, si se deseara saber, cuál es la probabilidad de que una precipitación sea igual o menor que 40.0 cm., nuevamente, usando la función tipificada, el resultado es: z = (40.0 – 25.42)/9.17 = 1.59 Este valor de z = 1.59 corresponde a una probabilidad de 0.9441 (de la tabla de la distribución normal), es decir: F(1.59) = 0.9441 = Prob (X ≤ 40.0) Finalmente, usando la función (4-32) y resolviendo por T, el resultado es:
www.full-ebook.com
T = 1/(1 – F(1.59)) = 1/(1 – 0.9441) = 18 años 4.19. Gráficas de probabilidad. El uso de las gráficas de probabilidad es muy útil para determinar si una distribución en particular ajusta los datos o para comparar distribuciones de muestreo diferentes. El valor de la estadística de bondad de ajuste de Anderson-Darling es de suma importancia para decidir cual distribución encaja mejor en los datos. Esto es muy importante, porque no vamos a querer calcular probabilidades de los datos coleccionados, con una distribución en particular que no sigue a esa distribución de datos. De esta manera, no vamos a calcular probabilidades acumuladas o de densidad, usando digamos la distribución normal, cuando en realidad los datos siguen a otra distribución, como por ejemplo, la distribución lognormal, Weibull, Gamma, etc. En este renglón, con el uso del programa Minitab se pueden probar varias distribuciones (como la normal, Weibull, lognormal, gamma, etc.) y en cada prueba se analiza el valor de la estadística Anderson-Darling y el valor de p. Además, el Minitab calcula la función de la distribución acumulada y los intervalos de confianza asociados. También, se pueden proveer los parámetros históricos usando las opciones de las distribuciones. DE cualquier manera, en la estructuración de las gráficas de probabilidad, el Minitab calcula los parámetros históricos junto con la estadística de bondad de ajuste de Anderson-Darling, el valor de p asociado y el número de observaciones. 4.19.1. Criterios usados en la selección de la distribución que mejor describe los datos. Por ejemplo, si la distribución seleccionada ajusta los datos, entonces: Los puntos graficados formaran una línea recta. Los puntos graficados caerán dentro de las bandas de confianza de 95% o 99%, etc. El valor de la estadística Anderson-Darling será menor que los valores de alfa seleccionados, es decir, de α = 0.05 0 α = 0.01 (los más comunes) Sin embargo, si la distribución real es diferente de la usada para construir la gráfica, los puntos se separaran del patrón lineal. Si después de probar varias distribuciones, los resultados señalados anteriormente están dentro de estos criterios, entonces, se concluye que esa distribución en particular es la apropiada.
www.full-ebook.com
Si las distribuciones probadas tienen estadísticas de Anderson-Darling similares, entonces seleccionar la distribución basada en conocimientos prácticos. 4.20. Uso de Minitab para hacer gráficas de probabilidad para algunas distribuciones continuas como la Normal, Weibull, exponencial, Gamma, lognormal y funciones de valores extremos tipo I (Gumbel). Recapitulando lo que se menciono en el inciso anterior, en estadística, antes de intentar el procesamiento de los datos es muy importante saber si es plausible que una muestra provenga de una distribución de población de algún tipo en particular, como por ejemplo, de la distribución normal, Weibull, exponencial, lognormal, gamma, etc. Una forma eficaz de verificar una suposición respecto a una distribución es construyendo lo que se llama una gráfica de probabilidad. Estas gráficas son de tal manera que si la distribución muestreada es normal, los puntos en la gráfica estarán cercanos a una línea de referencia (o línea de tendencia). Esto dice que, si las observaciones de la muestra fueron sacadas de una distribución normal con promedio μ y desviación estándar σ, los valores de los puntos en la gráfica deberán estar cerca de la línea de tendencia con pendiente σ e intercepto μ. Esto sugiere que la suposición de normalidad de la población muestreada es razonable. Sin embargo, si los puntos se separan sustancialmente de la línea de referencia, la suposición de normalidad no se satisface. Lo mismo ocurrirá si la distribución sigue a otras distribuciones como la Weibull, lognormal, etc. La esencia de estas gráficas es que si la distribución en que la gráfica está basada es correcta, los puntos de la gráfica caerán cerca de una recta o línea de tendencia. Sin embargo, si la distribución real es diferente a la usada para construir la gráfica, los puntos se separaran considerablemente de un patrón lineal. Siendo así, el programa Minitab calcula la distribución de función más factible. Además, calcula los parámetros estimados o históricos, conjuntamente con la estadística de bondad de ajuste Anderson-Darling (A-D) y el valor de p asociado. La estadística A-D mide el área entre la línea ajustada (basada en la distribución seleccionada) y la función no paramétrica (basada en los puntos graficados). Un valor pequeño de la estadística A-D indica que la distribución seleccionada encaja bien en los datos. Una vez hecho esto, se pueden calcular probabilidades acumuladas, probabilidades de densidad o probabilidades acumuladas inversas usando la distribución más plausible. En realidad, en las gráficas de probabilidad, la prueba de A-D de bondad de ajuste es útil para comparar el
www.full-ebook.com
ajuste de diferentes distribuciones (Normal, Weibull, Gamma, Lognormal, exponencial, etc.). Esta estadística, mide la distancia de los puntos graficados a la línea ajustada. Por lo tanto, entre más pequeño sea el valor de la A-D, mejor ajuste habrá en la distribución probada. 4.19.1. Instrucciones para hacer las gráficas de probabilidad usando el Minitab. 1. Irse a: Graph → Probability Plot 2. En la ventana de diálogo de “Probablity plots” puntear “Single” y “OK”. 3. En la ventana de diálogo de “Probability Plots-Single” y en la ventanilla de “Graph variables” entrar una o más columnas de datos y “OK”. 4. En la ventana de “Probability Plot-Distribution” y en la ventanilla de “Distribution” entrar la distribución deseada, e.g., normal, exponencial, etc., es decir, la distribución por la cual se quiera hacer la gráfica. Igualmente, en las ventanillas de “Historical parameters” poner el promedio y la desviación estándar y “OK”. Seguir las demás instrucciones para el llenado de las demás ventanillas. 5. Dentro de la ventana de diálogo de “Probability Plot-Scale”, puntear “Y-scale” y la escala deseada e.g., “Percent”, “Probability”, etc., luego presionar “OK”. 6. Todas estas indicaciones generan la gráfica de probabilidad. 4.19.2. Gráficas de probabilidad usando percentiles. Las gráficas de probabilidad se pueden hacer a través de la comparación entre los percentiles z de los datos muestrales y los percentiles de la distribución bajo consideración. En términos generales, los percentiles z muestrales están definidos en la misma forma como se definen los percentiles de una distribución poblacional. Por ejemplo, el 50avo percentil de la muestra separa el 50% más pequeño de ella del 50% más grande. Análogamente, el 90avo percentil es de tal manera que 90% de la muestra se encuentra debajo de ese valor y el 10% arriba y así sucesivamente. En forma análoga, también hay otra versión de una gráfica de probabilidad normal en la cual el percentil z es reemplazado por una escala de probabilidad no lineal, en la ordenada. Ejemplo 4.33. En un estudio de meteorología, se saca una muestra aleatoria de medias de precipitaciones pluviales (milímetros) anuales de cierta región. Desarrollar lo siguiente:
www.full-ebook.com
(a) Hacer una gráfica de probabilidad normal. ¿Realmente, siguen los datos a la distribución normal? (b) De la gráfica, por interpolación calcular la media y la desviación estándar. (c) ¿Concuerdan los resultados con lo calculado por el Minitab? Los datos se dan en la tabla 4.9 de abajo. Tabla 4.11. Tabla mostrando los resultados.
Solución: (a) La gráfica de probabilidad normal se da abajo.
www.full-ebook.com
Figura 4.23. Gráfica de probabilidad normal para las precipitaciones anuales. De la gráfica se ve que los puntos siguen a un patrón lineal. Esto es apoyado por un valor pequeño de la estadística A-D de 0.120 y un valor de p cercano a cero. Esto sugiere que los datos siguen a una distribución normal. (b) Para calcular el promedio irse a la ordenada y buscar 50%, luego por interpolación calcular el promedio en abscisa (~109). Para calcular la desviación estándar s, irse a 84.13 % y por interpolación da aproximadamente 147.6, luego restarle 109.9, para dar 37.7. (c) Estos datos concuerdan con lo calculado por el Minitab. Ejemplo 4.34. Hacer el mismo ejemplo anterior, para una gráfica de probabilidad normal, pero ahora reemplazando el percentil z por en la abscisa. Contestar lo siguiente: (a) De acuerdo a la posible factibilidad de una distribución normal y del valor de la prueba de bondad de ajuste A-D y del valor de p, ¿forman los puntos graficados una línea recta?
www.full-ebook.com
(b) De ser así, entonces, calcular las siguientes probabilidades usando los resultados del Minitab y la formula aleatoria normal tipificada, z = (X – )/s. (1) P(X ≥ 85) (2) P(X ≤ 55) (3) P(X = 110.2) (4) P(55.0 ≤ X ≤ 148.5) Sugerencia: Para esto irse a: Graph → Probability Plot → Scale. En la ventana de “Probability Plot Scale” y en la ventana de Probability Plot-Scale, puntear Scale y en la ventana de “Probability Plot Scale” puntear “Y-Scale” y luego puntear “Store” y “OK”, “OK”. Solución: (a) La gráfica de probabilidad es:
Figura 4.24. Gráfica de probabilidad normal con valores de z (scores). Aquí, nótese que los valores de la estadística A-D y del valor de p, son los
www.full-ebook.com
mismos para la gráfica del ejemplo anterior y de este ejemplo. (b) Para calcular las probabilidades pedidas, esto se puede hacer usando la variable aleatoria tipificada o bien con las probabilidades generadas por el Minitab. (1) P(X ≥ 85.0) = 1 - .2545 = .7455 (de la Tabla 4.9 de abajo) (2) P(X ≤ 55.0) = .0728 (3) P(X = 110.2) = .0106 (4) P(55.0 ≤ X ≤ 148.5) = .7742 Tabla 4.12. Tabla mostrando los resultados.
Usando: z = (X – )/s, z850 = (850 – 1098.6)/377.2 = -0.659 y 1 – 0.2546 = 0.7454, etc. Ejemplo 4.35. Este es un ejercicio de química ambiental encaminado a revisar por la simetría de los datos, por medio de construir gráficas de probabilidad y de estadísticas descriptivas. Los datos están relacionados con una muestra aleatoria de concentraciones de nitratos procedentes de una descarga industrial conteniendo nitratos. Para esto hacer lo siguiente:
www.full-ebook.com
(a) Construir una gráfica de probabilidad normal e interpretarla acordemente. Hacer una estadística descriptiva. (b) Hacer una transformación logarítmica (Log x) de los datos y luego construir una gráfica de probabilidad normal basada en estos datos transformados. ¿Es plausible que la transformación logarítmica esté normalmente distribuida? Hacer una estadística descriptiva. (c) Hacer lo mismo que el inciso (b), pero ahora haciendo una transformación de la raíz cuadrada. ¿Es plausible que la transformación de la raíz cuadrada dé una distribución normal? Hacer una estadística descriptiva. (d) Hacer lo mismo que en el inciso (c), pero ahora haciendo una transformación de los datos por raíces cúbicas. Hacer una estadística descriptiva. (e) Hacer lo mismo que en el inciso (a) o (c), pero ahora haciendo una transformación de los datos por el recíproco. (f) Hacer una gráfica de probabilidad Weibull con los datos originales. ¿Se ajustan bien los datos bajo estas condiciones? (g) Hacer una gráfica de probabilidad exponencial con los datos originales. ¿Se ajustan bien los datos bajo estas condiciones? (h) Hacer una gráfica de probabilidad gamma con los datos originales. ¿Se ajustan bien los datos bajo estas condiciones? (i) Hacer un resumen de los resultados de la prueba de bondad de ajuste y de los valores de p para cada uno de los modelos probados. Decidir cual distribución es la más plausible. (j) Una vez que se decida por el mejor modelo, calcular las siguientes probabilidades de las concentraciones de nitratos.
www.full-ebook.com
(1) P(X ≥ 3.09) (2) P(X ≤ .59) (3) P(X ≤ 2.10) (4) P(.77 ≤ X ≤ 1.89) (5) P(X ≤ 1.87) (6) P(X = .96) (Para resolverse por el lector) Tabla 4.13. Tabla mostrando los datos en forma ascendente.
Solución: (a) Las Figuras 4.25 (a), (b), (c), (d), (e), (f), (g), (h) muestran los diferentes ajustes de distribuciones de probabilidad.
www.full-ebook.com
www.full-ebook.com
www.full-ebook.com
www.full-ebook.com
Figura 4.26. Las figuras 4.26 (i), (j), (k), (l) de abajo muestran las estadísticas descriptivas para los incisos (a)-(d)
www.full-ebook.com
www.full-ebook.com
El resumen de los resultados se da en la tabla de abajo. Tabla 4.14. Tabla mostrando el resumen de la prueba estadística de A-D, valor de p, y estadísticas descriptivas, para cada modelo.
www.full-ebook.com
De acuerdo a las gráficas de probabilidad, el modelo más plausible sería el de la transformación de la raíz cúbica (color rojo con *), porque el valor de A-D es el más pequeño. Además, de acuerdo a las estadísticas descriptivas, los datos con la transformación de la raíz cúbica tienen un sesgo y un intervalo de confianza más pequeño. (Los intervalos de confianza se explicarán en el capítulo de estimación). (j) Con el modelo de las transformaciones de la raíz cúbica se procede a calcular las probabilidades acumuladas y de función de masa. Tabla 4.14a. Tabla mostrando los datos originales, la raíz cuadrada de las precipitaciones y sus probabilidades acumuladas y de función de masa.
www.full-ebook.com
De la Tabla de arriba se calculan las probabilidades, como se muestra abajo. (1) P(X ≥ 3.09) = 0.085 (2) P(X ≤ .59) = 0.0951 (3) P(X ≤ 2.10) = 0.7294 (4) P(.77 ≤ X ≤ 1.89) = .4968 (5) P(X ≤ 1.87) = .6554 (6) P(X = .96) (Para resolverse por el lector)
www.full-ebook.com
4.20. Indicaciones usando el programa Minitab para calcular probabilidades acumuladas y de densidad de distribuciones continuas. Esta sección explica como generar, bajo las condiciones deseadas, probabilidades de densidad de masa y probabilidades para la distribución normal, la distribución exponencial, la distribución gamma y la distribución Weibull, valores extremos tipo I Gumbel, distribución lognormal, etc. 4.20.1. Instrucciones para generar valores de probabilidades acumuladas y de densidad de masa de la distribución normal. 1.Calc > Probability distributions > Normal… 2. En la ventana de diálogo de “Normal Distribution” puntear “Cummulative distribution”, es decir, para computar las probabilidades acumuladas. 3. En la ventanilla de “Mean” poner el valor de la media calculada, como punto central de la distribución normal. Además, en la ventanilla de “Standard Deviation” poner el valor de la desviación estándar calculada, para definir la distribución normal. 4. Puntear OK. Todo esto generará la columna de los valores de la distribución acumulada correspondiente a la media y desviación estándar impuestos. 5. Similarmente, para generar los valores de la distribución de probabilidad de densidad (valores individuales) proceder de la siguiente manera: En la ventana de diálogo de “Normal Distribution” puntear “Probability Density”, es decir, para computar las probabilidades de densidad. Luego proceder como en los incisos (3) y (4) 6. Todas las instrucciones anteriores generarán las columnas con los valores de las distribuciones acumuladas e individuales. 4.20.2. Instrucciones para hacer gráficas de frecuencia acumulada de la distribución normal.
www.full-ebook.com
1. Irse a: Graph → Scatterplot 2. Para hacer la gráfica de frecuencia acumulada vs. variable aleatoria X irse a la ventana de diálogo de “Scatterplots” →“Simple” → “OK”. 2. En la ventana de diálogo de “Scatterplot-Simple” y en las ventanillas de “YVariables y “X-Variables” poner los valores de las distribuciones de frecuencias acumuladas. 3. En las ventanillas de “Scale” y “Labels” y proseguir las instrucciones pedidas. 4. En la ventanilla de “Data View” puntear “Symbols”, “Connect Line” y “OK”. 5. Todas estas indicaciones generarán la tabla de frecuencias acumuladas con sus correspondientes gráficas. De las tablas o de la gráfica se puede estimar todas las probabilidades deseadas correspondientes al problema en cuestión. Ejemplo 4.36. Se da la siguiente información de la variable aleatoria normal X con mediciones de intensidades mensuales de viento procedentes de una estación meteorológica expresadas en metros por segundo (m/seg), es decir, iguales a 2.5, 2.6, 2.7, 2.8, 2.9, 2.95, 3.0, 3.1, 3.2, 3.3, 3.4. Hacer lo siguiente: (a) Calcular la distribución de la probabilidad acumulada, para los valores de la variable aleatoria normal X de las intensidades del viento. (b) Hacer las gráficas correspondientes del inciso (a). (c) Hacer una gráfica de probabilidad para revisar por la normalidad de los datos. ¿Es plausible la normalidad de los datos? (d) Calcular los siguientes enunciados: (1) P(X ≥ 2.9) (2) P(X ≤ 2.8) (3) P(2.6 ≤ X ≤ 3.2) (4) El valor de X es de a lo más 3.3 m/seg (5) El valor de X es igual a 3.05 m/seg
www.full-ebook.com
Solución: 1. Usando el programa Minitab, primeramente calculamos el promedio y la desviación estándar, etc., de los valores de la variable aleatoria X, y da los resultados de la estadística descriptiva en la tabla de abajo. Tabla 4.15. Resultados impresos de la estadística descriptiva usando el Minitab.
(a) Después, siguiendo las instrucciones de los incisos anteriores poner los valores de X en C1 y poner el valor de = 2.95 y s = 0.3028, en sus ventanas respectivas. Siguiendo estas indicaciones requeridas, se genera la tabla de abajo con la probabilidad acumulada. Tabla 4.15a. Tabla mostrando los datos.
www.full-ebook.com
(b) La Figura 4.27 de abajo da los valores de la distribución acumulada vs. variable aleatoria X.
Figura 4.27. Esta figura da los valores de la distribución acumulada vs. variable aleatoria X. (c) La gráfica de probabilidad de los datos se da en la Figura de abajo.
www.full-ebook.com
Figura 4.27a. Diagrama mostrando la gráfica de probabilidad. En esta figura se nota que en la prueba de normalidad de A-D y el valor de “Pvalue > 0.250, indican que los datos siguen, razonablemente, a la distribución normal. Debido a que los puntos en la Figura 4.26a están dentro de las bandas de confianza y muy cercanos a la línea, eso dice que si es plausible la normalidad de los datos. (d) La solución a los enunciados requeridos por este inciso son: (1) P(X ≥ 2.9) = 1 – 0.3007 = 0.6993 (se lee de la tabla o de la gráfica) (2) P(X ≤ 2.8) = 0.3007 (3) P(2.6 ≤ X ≤ 3.2) = 0.808 - 0.0586 = 0.7494 (4) P(X ≤ 3.3) = 0.888514 (5) El valor de X es igual a 3.05 (Para resolverse por el lector) 4.20.3. Instrucciones para calcular los valores de frecuencia acumulada con la distribución exponencial. 1. Irse a: Calc → Probability distributions > Exponential.. 2. En la ventana de “Exponential distribution” puntear “Cummulative probability”. En la ventana de “Mean” poner el promedio μ deseado. (Nótese que si se da el valor de λ, el valor de μ = 1/λ) 3. En la ventana de “Input column” poner la variable aleatoria X y en la ventanilla de “Optional Storage” poner la columna donde se almacenarán los datos y teclear “OK”. Ejemplo 4.37. Dejemos que X sea la variable aleatoria exponencial con λ = 3. Encontrar las siguientes probabilidades: (a) P(X ≥ 2)
www.full-ebook.com
(b) P(X ≤ 2) (c) P(2 ≤ X ≤ 4) (d) P(X = 1) Solución: 1. Primeramente es conveniente dar un rango apropiado de los valores de X de acuerdo a lo que pide el problema. En este caso, digamos, X = 1, 2, 3, 4, 5. 2. Luego introducir la información en el Minitab como μ = 1/λ = 1/3 = .3333 3. Usando el Minitab introduciendo los datos de X = 0, 1, 2, 3, 4 y de μ = .3333 se genera la tabla de abajo: Tabla 4.16. Tabla mostrando los resultados
Usando la tabla de arriba, por lo tanto, (a) P(X ≥ 2) = .0498 (b) P(X ≤ 2) = .99752 (c) P(2 ≤ X ≤ 4) = 0.0497 (d) P(X = 1) = .95023 4.20.4. Instrucciones para calcular la probabilidad acumulada de la
www.full-ebook.com
distribución gamma. 1. Irse a: Calc → Probability distributions → Gamma… 2. En la ventana de diálogo de “Gamma distribution” puntear “Cummulative probability”. 3. En la ventanilla de “Shape parameter” poner el valor de α deseado. Igualmente, en la ventanilla de “Scale parameter” poner el valor de β (porque los valores que no son de uno alargan o encogen la pdf en la dirección de x). 4. Para todas las demás instrucciones proceder como en los incisos anteriores. Ejemplo 4.38. Dejemos que X sea la variable aleatoria exponencial con parámetro de forma α = 7 y parámetro de escala, que define la distribución de gamma, β = 14. Calcular las siguientes probabilidades: (a) P(X ≥ 29) (b) P(X ≤ 15) (c) P(17 ≤ X ≤ 29) Solución: Usando el Minitab se genera la Tabla 4.17 de abajo Tabla 4.17. Tabla mostrando los resultados.
www.full-ebook.com
Solución: Usando los datos de la tabla anterior se calculan las probabilidades. (a) P(X ≥ 29) = 0.9975 (b) P(X ≤ 15) = 0.00013 (c) P(3 ≤ X ≤ 8) = 0.0053 4.20.5. Instrucciones para calcular los valores de la probabilidad acumulada de la distribución Lognormal. Proceder de la siguiente manera, pero sin olvidarse que, cuando surja alguna duda, siempre consultar el diálogo de “Help”. De esta manera irse a: 1. Calc → Probability distribution → Lognormal.. 2. En la ventana de diálogo que aparece “Lognormal distribution” puntear “Cummulative probability”.
www.full-ebook.com
3. En la ventanilla de “Location” introducir el valor de μ y en la ventanilla de “Scale” introducir el valor de σ. 4. En la ventanilla de “Input column” introducir un rango conveniente de los valores de la variable aleatoria X. En la ventanilla de “Optional storage” introducir la columna donde se almacenarán los resultados. Luego escribir “OK”. 5. Todas estas órdenes generan la tabla de las probabilidades acumuladas. De ahí, se pueden calcular todas las probabilidades de X deseadas. Ejemplo 4.39. Si los datos de un experimento siguen a una distribución lognormal y dan un modelo de probabilidad razonable, para la variable aleatoria X, con valores paramétricos de μ = 3.3 y σ = 1.1, entonces calcular las siguientes probabilidades: (a) La probabilidad de que el valor de X esté entre 39 y 40 (b) La probabilidad de que el valor de X sea igual o menor que 100. (c) La probabilidad de que el valor de X sea de 50. (d) La probabilidad de que el valor de la variable aleatoria lognormal X sea igual a 99. Solución: Siguiendo las instrucciones de arriba, se le da un rango conveniente a los valores de la variable aleatoria X lognormal con los resultados de la tabla de abajo. Tabla 4.18. Tabla mostrando los datos.
www.full-ebook.com
De esta tabla se pueden calcular todas las probabilidades pedidas. Así de esta manera: (a) La probabilidad de que el valor de X esté entre 39 y 40. P(39 ≤ X ≤ 40) = .6154 (b) La probabilidad de que el valor de X sea igual o menor que 100. P(X ≤ 100) = 0.8823 (c) La probabilidad de que el valor de X sea de 50. P(X = 50) = .0062 (d) La probabilidad de que el valor de la variable aleatoria lognormal X sea de 99. P(X = 99) = .0018 4.20.6. Instrucciones para calcular los valores de probabilidad acumulada X de la distribución Weibull. 1. Irse a: Calc → Probability Distribution → Weibull
www.full-ebook.com
2. En la ventana de diálogo de “Weibull Distribution” entrar el valor de α (Shape Parameter) y el valor de β (Scale parameter). 3. Puntear “Cummulative probability” y “Probability density” y “Optional Storage” para almacenar los datos y “OK”. Ejemplo 4.40. Usando el Minitab calcular las siguientes probabilidades, con parámetros históricos de α = 20 y β = 100, de una distribución Weibull: (a) P(X ≤ 105) (b) P(98 ≤ X ≤ 102) (c) P(X ≥ 100) (d) P(X = 99) Solución: 1. Primeramente, se selecciona un rango apropiado para los valores de la variable aleatoria X Weibull, digamos de X = 97, 98, 99, 100, 101, 102, 103, 104, 105. 2. La Tabla 4.17 de abajo muestra la información. Tabla 4.19. Tabla mostrando los datos.
3. Por lo tanto, usando los valores generados de
www.full-ebook.com
(a) P(X ≤ 105) = 0.03559 (b) P(98 ≤ X ≤ 102) = 0.3542 (c) P(X ≥ 100) = 0.4414 (d) P(X = 99) = 0.0729 4.20.7. Instrucciones para generar datos con las distribuciones t y F. 1. Para generar valores de probabilidad de densidad y de probabilidad acumulada de la distribución de t, irse a: Calc → Probability Distributions → t. 2. En la ventana de diálogo que aparece, introducir los grados de libertad deseados, y seguir las instrucciones indicadas por el programa Minitab. Situaciones similares se pueden hacer con las distribuciones de JI cuadrada y de F. 4.20.8. Instrucciones para hacer gráficas de probabilidad para ver la plausibilidad de aplicar la distribución normal. Para ilustrar esto se dan los ejemplos de abajo. Ejemplo 4.38. Construir una gráfica de probabilidad normal para la siguiente muestra de observaciones dada en la Tabla 4.20 de abajo. Responder a las siguientes preguntas: (a) ¿Le parece adecuado que la muestra de abajo siga a una distribución normal poblacional? (b) Hacer una gráfica con los valores de las observaciones en función de los percentiles z (scores). Cree usted que los datos de esta gráfica estén de acuerdo con la regla de 68-95-99.7? Tabla 4.20. Tabla mostrando los datos de este problema.
www.full-ebook.com
Solución: 1. Irse a: Graph → Probability Distribution 2. En la ventana de “Probability Plot-Single” y en la ventanilla de “Graph Variables” introducir los datos de la tabla de arriba. 3. Luego en la ventana de “Probability Plot-Distribution” y en la ventanilla de “Distribution” puntear “Normal”. En esta misma ventanilla puntear “Data Display”. 4. En la ventanilla de “Probability Plot-Scale” puntear “Y-Scale Type”. Enseguida en la ventana que aparece de “Probability Plot-Scale” puntear “Percent o Probability” y “OK”. Figura 4.28. Diagrama impreso mostrando la hoja del Minitab con los datos.
www.full-ebook.com
(a) Todas estas órdenes generan la gráfica de abajo. Como se ve la gran mayoría de los puntos siguen a un patrón de línea recta. Además el valor de la estadística de Anderson-Darling igual a 0.083 es bajo, lo que sugiere que la distribución de datos sigue a la normal.
www.full-ebook.com
Figura 4.28a. Gráfica de probabilidad normal con el valor de la estadística Anderson-Darling (A-D) igual a 0.083, la cual sugiere que los datos siguen a una distribución normal. (b) La gráfica de valores de X vs. variable aleatoria z se da abajo.
Figura 4.28b. Gráfica mostrando los valores de X en función del percentil z.
www.full-ebook.com
Aquí se ve que entre z = ± 1 de 16 casos hay 12 incluidos en este intervalo y 4 incluidos en el intervalo de z ± 2. Los datos están aproximadamente, de acuerdo a la regla de 68-95-99.7 Nota: Recapitulando lo anteriormente asentado, la estadística de Anderson-Darling (A-D) es una medida que dice que tan lejos están los puntos en la gráfica de la línea ajustada en una grafica de probabilidad. Entre más pequeño sea el valor de la estadística A-D, esto indica que la distribución se ajusta mejor. Cosa similar ocurre con el valor de p.
4.20.9. Instrucciones para hacer gráficas de probabilidad para la distribución Weibull. Los siguientes ejemplos dan informaciones sobre el uso de la distribución continua Weibull. Ejemplo 4.41. Este es un estudio que presenta argumentos para justificar la distribución de mediciones que siguen a una distribución Weibull. Para esto se dan los siguientes datos mostrados en la Tabla 4.19 de abajo: Tabla 4.21. Tabla mostrando los datos de este estudio.
(a) ¿Es plausible la gráfica de probabilidad de Weibull? (b) Hacer una gráfica de valores de las observaciones vs percentil z y comentar al respecto. (c) Comparar los resultados anteriores asumiendo una distribución normal.
www.full-ebook.com
Solución: (a), (b). Seguir las mismas instrucciones que en el Ejemplo 4.26 de arriba, excepto que en la ventana de Probability Plot-Distribution puntear Weibull. Luego continuar con las instrucciones dadas en el ejemplo 4.36. Haciendo esto se generan las gráficas requeridas mostradas en la Figura 4.29 (a) y (b) de abajo. Si es plausible la gráfica de probabilidad de Weibull.
www.full-ebook.com
Figura 4.29. Figuras mostrando las gráficas de probabilidad Weibull y el diagrama esparcido de las observaciones vs. percentiles. (c) La gráfica de probabilidad normal no encaja mejor, porque el valor de A-D igual a 0.106, como se muestra en la Figura 4.29a es mayor que el valor de la Weibull igual a .099.
www.full-ebook.com
Figura 4.29a. Figura mostrando la gráfica de probabilidad normal. 4.20.10. Instrucciones para hacer gráficas de probabilidad para la distribución lognormal, con la ayuda del Minitab. Ejemplo 4.42. Los siguientes valores corresponden a datos de conductividad hidráulica donde se probaron para superficies de suelos de foresta. Hacer lo siguiente: (a) Construir una gráfica de probabilidad que permita evaluar si es factible el ajuste de la distribución normal. (b) Construir una gráfica de probabilidad que permita evaluar si es factible el ajuste de la distribución lognormal. (c) Construir una gráfica de probabilidad que permita evaluar si es factible el ajuste de la distribución Weibull. (d) Construir una gráfica de probabilidad que permita evaluar si es factible el ajuste de la distribución Gamma. (e) Examinar el valor de la estadística A-D y el valor de p en cada caso y decidir cual distribución es más factible. Tabla 4.22. Tabla mostrando los datos de una muestra aleatoria de conductividad hidráulica para diferentes tipos de suelos. Conductividad hidráulica (mm/hr)
www.full-ebook.com
Solución: Las figuras de abajo muestran estas situaciones Figura 4.30. Las Figuras 4.30. (a), (b), (c) muestran los resultados.
www.full-ebook.com
www.full-ebook.com
(e) Al juzgar por los resultados obtenidos es más factible la distribución lognormal.
www.full-ebook.com
Ejercicios 4.1. Sea z una variable aleatoria normal estándar, entonces, calcular las siguientes probabilidades, dibujando las gráficas en cada caso. Para esto, usar la tabla de la distribución normal z y luego comparar los resultados usando el programa de cómputo Minitab. (a) P(-∞ ≤ z ≤ 2.17) (b) P(0 ≤ z ≤ 1) (c) P(-3.4 ≤ z ≤ 0) (d) P(-1.5 ≤ z ≤ 1.5) (e) P(1.5 ≤ z) (f) P(|z| ≤ 2.50) 4.2. Esta es una aplicación de microbiología ambiental, para usos de agua doméstica, relacionados con análisis bacteriológicos. Para estos fines se requiere expresar con la variable aleatoria X, la cantidad de tiempo de incubación de bacterias, en un plato de prueba, durante 2 horas, procedente de una muestra aleatoria de aguas domésticas. Así, supóngase que la variable aleatoria X tiene función de densidad de f(x) = 0.5x, para el conjunto posible de valores de X en el intervalo (0 ≤ X ≤ 2). Siendo así, calcular las siguientes probabilidades: (a) P(X ≤ 1) (b) P(.5 ≤ X ≤ 1.5) (c) P(1.5 < X) 4.3. En un estudio de microbiología ambiental, se saca una muestra aleatoria de análisis bacteriológicos de aguas domésticas y se incuban a la temperatura apropiada. Supóngase que el error en la reacción de temperatura, en oC, de la incubadora del laboratorio de bacteriología, para la incubación de un plato de agar, es una variable X continua que tiene una función densidad de probabilidad de f(x) = x2/3, donde X puede asumir valores de entre (-1 < X ≤ 2). Encontrar la probabilidad de densidad de que la temperatura esté entre 0 oC y 1 oC. 4.4. En estudios de tecnología del agua, se saca una muestra aleatoria de agua
www.full-ebook.com
residual municipal, con el objeto de medir las concentraciones de la demanda bioquímica de oxígeno de 5 días (DBO5) procedentes de una laguna de estabilización tratadora de aguas domésticas, y se calcula un promedio de 80.0 mg/L con una desviación estándar de 10.0. Siendo así, calcular las siguientes probabilidades, mediante estandarización. (a) P(X ≤ 100) (b) P(65 ≤ X ≤ 100) (c) P(85 ≤ X ≤ 95) (d) P(70 ≤ X) (e) P(90 ≤ X ≤ 100) (f) P(80 ≤ X ≤ 110) (g) P(2 > z > -2) 4.5. En un estudio independiente, dos plantas termoeléctricas que descargaban aguas termales a un río (contaminación termal como consecuencia de la descarga de aguas con temperaturas superiores a los valores de fondo en ecosistemas naturales preexistentes), fueron informadas de que recibieron evaluaciones ecológicas de variables aleatorias normales estándares de z = 0.8 y z = -0.4, respectivamente. Si sus resultados (evaluaciones) fueron de 88 y 64, respectivamente, encontrar la media aritmética y la desviación estándar. 4.6. Si una muestra aleatoria de análisis de las concentraciones de demanda bioquímica de oxígeno de 5 días (DBO5) está normalmente distribuida, ¿qué probabilidad hay de que ésta difiera de la media por? (a) Más de la mitad de la desviación estándar (b) Por ¾ de la desviación estándar. 4.7. Se saca una muestra aleatoria procedente de una población normal de precipitaciones pluviales y se calcula una media de 50 mm y s = 10 mm. Encontrar la probabilidad de que X asuma un valor entre 45 mm y 62 mm de lluvia. 4.8. Con estudios de usos del agua, si el y s son la media y la desviación estándar, respectivamente, de una muestra aleatoria de análisis de aguas
www.full-ebook.com
residuales, con concentraciones de nitratos (NO-3), expresadas en mg/L, que siguen a una distribución normal, ¿Cuál es la probabilidad de que las concentraciones estén? (a) Dentro del rango ( ± 2s) (b) Afuera del rango ( ± 1.2s) (c) Mayor que ( - 1.5s) 4.9. Se llevó a cabo un muestreo y un análisis de las concentraciones de estroncio (Sr) de un sistema de tratamiento de aguas industriales. Las concentraciones de Sr se reportaron en mg/L. Los siguientes datos se dan en la tabla de abajo: Tabla mostrando las mediciones de estroncio
Hacer los siguientes cálculos que incluyan lo siguiente: (a) Un resumen de estadística descriptiva.
www.full-ebook.com
(b) Hacer una gráfica de probabilidad que incluya la prueba de bondad de ajuste Anderson-Darling. (c) Hacer una gráfica de probabilidades acumuladas y de función de masa vs. variable aleatoria X. (d) Calcular las siguientes probabilidades. (1) P(X ≥ 6.5) (2) P(X ≤ 8.0) (3) P(X = 8.5) (4) P(5.7 ≤ X ≤ 10.1) (5) P(X < 6.8) (6) P(X > 7.7) 4.10. Este es un estudio usando la distribución normal y su aproximación a la distribución binomial. Resulta qué, la distribución normal puede usarse como aproximación a otras distribuciones de probabilidad incluyendo la binomial. Esto es particularmente útil cuando n es grande, lo que restringe el uso de las tablas binomiales (actualmente, con los programas de cómputo, esto es ya nomás, de interés histórico). Aquí, debido a que la binomial es simétrica cuando p = 0.5, entonces, la mejor aproximación se obtiene cuando p está cercana a 0.5. Igualmente, con la distribución binomial y la Poisson, se puede obtener una buena aproximación cuando n ≥ 100 y np ≤ 10. En este problema en particular supóngase que n = 15 y p = 0.4 y queremos encontrar P(X = 4). Para esto hacer lo siguiente: (a) Usar la distribución binomial y la distribución normal como una aproximación a esta última usando los modelos de estas dos distribuciones. Comparar los resultados. (b) Hacer una gráfica sobrepuesta de las probabilidades acumuladas y de densidad usando ambos enfoques. Comentar sobre los resultados obtenidos. 4.11. Este es un ejemplo del uso de la distribución normal y su aproximación a la distribución Poisson. Siendo así, con aplicaciones a las tecnologías del agua, supóngase que se tiene una muestra al azar de 20 casos de mediciones de análisis de demanda bioquímica de oxígeno de 5 días (DBO5) provenientes de un muestreo de un río, es decir, de 20 lugares diferentes a lo largo de su trayectoria. Si se sabe que, la probabilidad de que la concentración de DBO5 está dentro de
www.full-ebook.com
los límites estipulados por las leyes ambientales es de p = 0.3, desarrollar los siguientes cálculos usando un paquete de cómputo como el Minitab. (a) Hacer una tabulación de las probabilidades de frecuencia acumuladas P(X ≤ x) y de las probabilidades de función de masa P(X = x). (b) Hacer una gráfica sobrepuesta de P(X ≤ x) y de P(X = x) de ambos modelos. (c) Comentar sobre los resultados de la aproximación de la normal a la Poisson. 4.12. En un estudio relacionado con la precipitación pluvial, el promedio de lluvia registrado, a la centésima de un centímetro, para el mes de marzo fue de 9.22 centímetros. Asumiendo que estos valores están normalmente distribuidos, con una desviación estándar conocida de 2.83 cm., hacer una tabulación de las probabilidades acumuladas y de densidad y calcular las siguientes probabilidades: (a) Cuando menos 5.0 cm. de lluvia. (b) A lo más 10.0 cm. de lluvia. (c) Igual a 20.0 cm. de lluvia. (d) Cuando menos 19.0, pero a lo más 7.0 cm. de lluvia. (e) La probabilidad de que no haya ocurrido nada de lluvia. (f) Hacer lo mismo que en los incisos (a)-(e) usando la tabulación de las probabilidades acumuladas y de densidad y comparar los resultados obtenidos con aquéllos calculados por interpolación. 4.13. Supóngase que la función de densidad de cierto experimento de mediciones de oxígeno disuelto (O.D.) en el agua es f(x) = e-3x. Encontrar: P(1 < X < 3) Comentario: El Oxígeno Disuelto (O.D.) es la cantidad de oxígeno que está disuelto en el agua el cual es esencial para los riachuelos y lagos saludables. El nivel de oxígeno disuelto puede ser un indicador de cuán contaminada está el agua y cuán bien puede dar soporte esta agua a la vida vegetal y animal. Generalmente, un nivel más alto de oxígeno disuelto indica agua de mejor calidad. Si los niveles de oxígeno disuelto son demasiado bajos, algunos peces y otros organismos no pueden sobrevivir. Gran parte del oxígeno disuelto en el agua proviene del oxígeno en el aire que se ha disuelto en el agua. Parte del oxígeno disuelto en el agua es el resultado de la fotosíntesis de las plantas acuáticas. Hay otros factores también afectan los niveles de O.D., por ejemplo, en un día soleado se producen altos niveles de O.D. en áreas donde hay muchas algas o plantas debido a la fotosíntesis. La turbulencia de la corriente también puede aumentar los niveles de O.D. debido a que el aire queda atrapado bajo el agua que se mueve rápidamente y el oxígeno del aire se disolverá en el agua. Además, la cantidad de oxígeno que puede disolverse en el agua (O.D.) depende también de la temperatura. El agua más fría puede guardar más oxígeno en ella, que el agua más caliente.
www.full-ebook.com
Una diferencia en los niveles de O.D. puede detectarse en el sitio de la prueba si se hace la prueba temprano en la mañana cuando el agua está fría y luego se repite en la tarde en un día soleado cuando la temperatura del agua haya subido. Una diferencia en los niveles de O.D., también puede verse entre las temperaturas del agua en el invierno y las temperaturas del agua en el verano. Asimismo, una diferencia en los niveles de O.D. puede ser aparente a diferentes profundidades del agua si hay un cambio significativo en la temperatura del agua. Los niveles de oxígeno disuelto típicamente pueden variar de 0 - 18 partes por millón (ppm), aunque la mayoría de los ríos y riachuelos requieren un mínimo de 5 a 6 ppm para soportar una diversidad de vida acuática. Además, los niveles de O.D. a veces se expresan en términos de Porcentaje de Saturación. Sin embargo para este proyecto, los resultados se reportarán en ppm (si desea determinar el Porcentaje de Saturación, se puede usar esta Tabla de Porcentaje de Saturación del oxígeno disuelto).
4.14. Supóngase que, el tiempo en horas, requeridas para reparar una bomba de una planta de tratamiento de lodos activados es una variable aleatoria X que tiene una distribución gamma con parámetros de α = 2 y β = 0.5. (a) Encontrar la media, la varianza y la desviación estándar correspondientes a este problema. (b) ¿Cuál es la probabilidad de que el siguiente servicio requerirá más que 4 horas para reparar la bomba? (c) Calcular la probabilidad de que se requieran entre 3 y 4 horas (inclusivamente) para reparar la bomba. 4.15. Usando el programa Minitab, hacer gráficas de la distribución exponencial con valores de μ = .05, μ = 1.5, μ = 2, μ = 1. 4.16. Este es un ejemplo adaptado del texto de Keller et al. (1990). Siendo así, dejemos que X sea una variable aleatoria exponencial con λ = 4. Encontrar la probabilidad de que X tomará un valor dentro de 1.2 desviaciones estándar de su promedio. 4.17. Este es un ejemplo aplicando la distribución exponencial a problemas de usos del agua. De esta manera, supóngase que la variable aleatoria X tiene una distribución exponencial, con media igual a 10. Siendo así, calcular lo siguiente: (a) P(X ≥ 10) (b) P(X ≥ 20) (c) P(X ≥ 30) (d) Entre 5 y 50 (e) P(X ≤ 30)
www.full-ebook.com
4.18. El 90% de la distribución de partículas atmosféricas de aerosoles sólidos (polvos), que siguen a una curva normal están a la izquierda de un valor de z en particular. ¿Cuál es el valor de z? 4.19. Usando los datos de la tabla de la estadística histórica de precipitaciones para Cd. Juárez, Chihuahua, México, que recapitulada abajo, hacer lo siguiente: (a) Una tabulación de las frecuencias acumuladas y de densidad asumiendo un modelo de probabilidad normal. Enseguida, hacer gráficas en función de la frecuencia relativa acumulada y de frecuencia relativa vs. precipitaciones anuales. (b) Hacer un diagrama de caja e identificar los valores extrínsecos. Luego hacer una estadística descriptiva con los datos depurados. (c) Una vez que se identifiquen los valores extremos de las precipitaciones anuales y se eliminen, ajustar un modelo de probabilidad lognormal (o haciendo transformaciones base e y luego ajustando un modelo normal). Enseguida, hacer gráficas en función de las probabilidades acumuladas y de densidad vs. precipitaciones anuales depuradas y transformadas. (d) Usando los datos originales calcular: (1) P(186 ≥ X ≥ 162 mm. de lluvia) (2) La probabilidad que ocurran, exactamente, 430.5 mm. de lluvia. (3) La probabilidad de que ocurran cuando menos 430.0 mm de lluvia. (e) Usando los datos transformados, sin valores extrínsecos, calcular las mismas probabilidades pedidas en el inciso (d) y comparar los dos juegos de resultados. (El lector lo deberá hacer) Tabla de la información estadística histórica de la precipitación pluvial en Cd. Juárez, Chihuahua,
www.full-ebook.com
México periodo 1957-2006.
4.20. Se colecciona una muestra aleatoria de precipitaciones anuales correspondiente a un periodo de varios años. La tabla de abajo muestra las precipitaciones expresadas en centímetros. Tabla mostrando los valores promedio de las precipitaciones anuales.
www.full-ebook.com
Desarrollar los siguientes enunciados: (a) Hacer una gráfica de probabilidad lognormal, con parámetros de localización (μ) y escala (σ). (b) Calcular la media, la mediana, la moda y el sesgo de la distribución. (c) Calcular las siguientes probabilidades: (1) La precipitación es de cuando mucho 44.49 centímetros (cm). (2) La precipitación es de cuando menos 46.46 cm. (3) Calcular la probabilidad de que las precipitaciones estén entre 44.72 y 45.35 cm. (d) Ahora usar el programa Minitab y hacer los mismos cálculos que se hicieron manualmente en el inciso (c). Además, calcular el valor de P(X = 46.46 cm.). Para esto hacer una tabulación de las probabilidades calculadas. Comparar los resultados hechos manualmente, con aquéllos calculados por el Minitab. Con los datos calculados con el Minitab, hacer una gráfica de probabilidad acumulada y otra de probabilidad de función de masa. Leer el valor de la media de las gráficas. ¿Concuerda con el valor de la media con aquél calculado manualmente? 4.21. Con la hidrología, para estimar la probabilidad de que, un periodo de retorno dado ocurrirá cuando menos una vez, dentro de un número de años, esto se calcula usando la función , donde P(T,n) es la probabilidad de que un periodo de retorno T ocurrirá, cuando menos una vez, durante n años. Siendo así, estimar la probabilidad de que un periodo de retorno de 80 años ocurrirá durante los primeros 10 años, posteriores a la construcción de una presa. P(T,n) = 1 – (1 – 1/T)n 4.22. En un estudio de conductividad hidráulica para tratamiento de superficie de suelos de foresta con diferentes tipos de suelos forestales se da la siguiente información.
www.full-ebook.com
Tabla mostrando los datos de conductividad (cm/hora).
Hacer lo siguiente: (a) Decir cual distribución es la más plausible. (b) Con la decisión hecha en el inciso (a) calcular las siguientes probabilidades. (1) P(X ≥ 7.7) (2) P(X ≤ 6.1) (3) P(X = 7.2) (4) P(6.5 ≤ X ≤ 7.7) (5) P(X > 5.6) 4.23. Este es un ejercicio relacionado con la función de probabilidad continua Weibull, cuyo nombre alternativo es distribución del tipo de valor extremo III. Esta función es útil para modelar la distribución anual de flujos mínimos. Aquí, esta aplicación de la distribución Weibull está relacionada con la media anual mínima diaria de cierto río (m3/seg). (a) Preparar una grafica de probabilidad Weibull. (b) Calcular las siguientes probabilidades (1) La probabilidad de que la media del flujo mínimo anual sea de cuando menos
www.full-ebook.com
5.8 m3/seg (2) La probabilidad de que la media del flujo mínimo anual sea de cuando mucho 7.30 m3/seg (3) La probabilidad de que la media del flujo mínimo anual esté entre 12.4 y 7.5 m3/seg. (4) La probabilidad de que la media del flujo mínimo anual sea igual 6.2 m3/seg. (c) Hacer gráficas de probabilidades acumuladas y de densidad. Tabla mostrando los datos de este problema, en metros cúbicos por segundo (en forma ascendente).
4.24. Calcular las siguientes probabilidades de concentraciones de oxígeno disuelto procedentes de una población normal: (a) ¿Cuál es la probabilidad de que las mediciones de las concentraciones de
www.full-ebook.com
oxígeno disuelto, no difieran del promedio por ¾ de la desviación estándar? Dibujar la gráfica. (b) ¿Cuál es la probabilidad de que las mediciones no difieran del promedio por más de 0.5 de la desviación estándar? Dibujar la gráfica. (c) ¿Cuál es la probabilidad de que las mediciones anuales difieran del promedio por más de la mitad de la desviación estándar? Dibujar la gráfica. 4.25. Encontrar los valores críticos de t por los cuales el área del extremo derecho de la distribución de t es de α = 0.05, y de α = 0.01, si: (a) ν = 17 (b) n = 30 (c) ν = ∞ 4.26. Hacer el problema anterior 4.25, pero bilateralmente. 4.27. El valor de t con ν = 14 grados de libertad deja un área de 0.025 a la izquierda y, por lo tanto, deja una área de 0.975 a la derecha. Hacer una gráfica y calcular t0.975;14 = -t0.025. 4.28. En estudios de química del agua, es decir de desinfección del agua, se saca una muestra aleatoria de 8 mediciones de pH (el rango del pH es de 0 a 14 y el pH neutral es 7) de una muestra de aguas industriales cuyos valores son: 2.0, 5.0, 6.0, 3.0, 4.0, 7.5, 8.0, 9.0, 10.1, 11.2. Contestar lo siguiente: (a) ¿A que tipo de distribución siguen los datos? (b) Hacer una gráfica sobrepuesta de las probabilidades acumuladas y de las probabilidades de función de masa. (c) De las gráficas calcular la media y la desviación estándar. ¿Coinciden estos valores con los calculados por la gráfica de probabilidad normal? (d) De la gráfica calcular la probabilidad de que el pH esté entre 4 y 6. 4.29. Para una distribución de JI cuadrada con 12 grados de libertad, encontrar el valor de χ2 de tal manera que:
www.full-ebook.com
(a) El área a la derecha de χ2 es de .05. (b) El área a la izquierda de χ2 es de .99 (c) Dibujar las gráficas correspondientes a los incisos (a) y (b) 4.30. Encontrar el área de χ2.95;v y χ2.99;v para un tamaño de muestra de 51 observaciones. Luego dibujar las gráficas. 4.31. Encontrar los valores críticos de χ2, por los cuales el área de la cola derecha de la distribución es de 0.05 (χ2.95;ν), si los grados de libertad son de: (a) ν = 15 (b) ν = 21 (c) ν = 50. (d) χ2.95;8 4.32. Con el uso del Minitab, estructurar curvas sobrepuertas de densidad lognormal, con μ = 1.0, μ = 2.0 y μ = 3.0, cada una con σ = 1.0. Analizar el comportamiento de cada curva y sacar las conclusiones debidas. 4.33. En un estudio difusión atmosférica de una población normal de concentraciones de cio procedentes de las chimeneas de dos fundiciones de metales diferentes, se sacan dos muestras aleatorias independientes de tamaño n1 = 10 y n2 = 5. Siendo así, calcular la probabilidad de que la varianza de la primera muestra sea de cuando menos 6 veces mayor que la segunda muestra. 4.34. Este es un ejercicio relacionado con la distribución exponencial, la cual se usa como modelo para la distribución de tiempos, entre la presentación de eventos sucesivos, como en la hidrología. La intención de este estudio es calcular las probabilidades acumuladas y de densidad usando el programa Minitab y, luego, corroborar los resultados usando manualmente, las fórmulas de probabilidades exponenciales. Para este caso, se da un promedio de μ = 1.0. Hacer lo siguiente:
www.full-ebook.com
(a) Una tabulación de las probabilidades acumuladas y de densidad usando el programa Minitab. (b) Hacer gráficas de las probabilidades acumuladas y de densidad. (c) Calcular el promedio y la varianza. Sugerencia: usar las funciones μ = αβ = 1/λ y σ2 = αβ2 = 1/λ2. También, leer el promedio de las gráficas generadas por el Minitab. (d) Usando las probabilidades tabuladas calcular lo siguiente: (1) P(X ≥ 5) (2) P(X ≤ 8) (3) P(2 ≤ X ≤ 12) (4) La probabilidad de que el valor de la variable aleatoria X sea de 9 (5) La probabilidad de que la variable aleatoria exponencial X sea mayor que 4, pero de cuando mucho 7. (e) Ahora, usar las funciones exponenciales y calcular las mismas probabilidades anteriores, pero ahora haciéndolas manualmente. Sugerencia: usar: P(a ≤ X ≤ b) = e-λa – e-λb P(X ≤ a) = 1 – e-λa P(X ≥ a) = e-λa P(X = x) = λe-λx para cada caso. 4.35. En aplicaciones a las tecnologías del agua, los ingenieros de cierta agencia gubernamental descubrieron que la salida del agua tratada de una planta de tratamiento terciario tenía concentraciones de cloruros (Cl-). (Aquí es de saberse que, en el tratamiento del agua residual existen 3 tipos de tratamientos: primario, secundario (con eficiencias de 75-80%) y el terciario, (con eficiencia de 100%)). Los ingenieros estadísticos de esta agencia afirmaron que, este problema se podía modelar usando una distribución logarítmica normal con parámetros históricos de α = 6.7 y β = 4.0. Siendo así, encontrar las concentraciones de cloruros de la siguiente manera: (a) La probabilidad de que las concentraciones de Cl- en el efluente sean de, no más de 10.0 mg/L (b) La probabilidad de que las concentraciones de Cl- sean de 25.0 mg/L (c) La probabilidad de que exista una concentración de 60.0 mg/L de este anión
www.full-ebook.com
químico. (d) La probabilidad de que las concentraciones Cl- sean de a lo más 40.0 mg/L (e) La probabilidad de que las concentraciones de Cl- estén entre 35 y 55 mg/L 4.36. Este es un ejercicio de difusión atmosférica relacionado con el procesamiento estadístico de una muestra aleatoria de concentraciones de partículas atmosféricas (PM2.5) procedentes de un complejo industrial ocurrida durante cierto mes, en cierta región del hemisferio norte. Para esto hacer lo siguiente: (a) Construir una gráfica de probabilidad normal e interpretarla acordemente. (b) Hacer una transformación logarítmica (Log x) de los datos y luego construir una gráfica de probabilidad normal basada en estos datos transformados. ¿Es plausible que la transformación logarítmica esté normalmente distribuida? (c) Hacer lo mismo que el inciso (b), pero ahora haciendo una transformación de la raíz cuadrada. ¿Es plausible que la transformación de la raíz cuadrada dé una distribución normal? (d) Hacer lo mismo que en el inciso (c), pero ahora haciendo una transformación de los datos por raíces cúbicas. (e) Hacer lo mismo que en el inciso (a) o (c), pero ahora haciendo una transformación de los datos por el recíproco de los datos. (f) Hacer una gráfica de probabilidad Weibull con los datos originales. ¿Se ajustan bien los datos bajo estas condiciones? (g) Hacer una gráfica de probabilidad exponencial con los datos originales. ¿Se ajustan bien los datos bajo estas condiciones? (h) Hacer una gráfica de probabilidad lognormal con los datos originales. ¿Se ajustan bien los datos bajo estas condiciones?
www.full-ebook.com
(i) Hacer una gráfica de probabilidad gamma con los datos originales. ¿Se ajustan bien los datos bajo estas condiciones? (j) Hacer un resumen de los resultados de la prueba de bondad de ajuste y de los valores de p para cada uno de los 9 modelos probados. Decidir cual gráfica de probabilidad o modelo es el más plausible. Los datos de las concentraciones de partículas PM2.5 se dan en la tabla de abajo en forma ascendente.
(k) Una vez que se decida por el mejor modelo, calcular las siguientes probabilidades. (1) P(X ≥ 3.09) (2) P(X ≤ .59) (3) P(X ≤ 2.10) (4) P(.77 ≤ X ≤ 1.89) (5) P(X = .96) (6) P(X ≤ 1.87)
www.full-ebook.com
(7) P(X = 1.18) 4.37. Supóngase que X tiene una distribución Weibull, con parámetros históricos de α = 3 y β = 4. Siendo así, hacer lo siguiente: (a) Calcular la media y la varianza (b) P(X ≥ 3) (c) P(X ≥ 1) (d) P(X = 4) (e) P(1 ≤ X ≤ 4) 4.38. En un estudio de hidrología se analiza el gasto de las entradas máximas a una presa (m3/seg), con un área de 14,000 kilómetros cuadrados, cuyo suceso ha ocurrido durante un periodo de 30 años. La tabla de abajo da la información requerida para este problema. Tabla mostrando la información para este ejercicio
Probar las siguientes gráficas de probabilidad como: (1) normal, (2) Weibull, (3) exponencial, (4) gamma, (5) lognormal y, enseguida decir, cual distribución de probabilidad es la más factible. Luego, con la distribución más deseable, calcular
www.full-ebook.com
lo siguiente: (a) La probabilidad de que el valor del flujo sea de, a lo más 296 m3/seg. (b) La probabilidad de que el valor del flujo sea igual a 386 m3/seg. (c) La probabilidad de que el valor del flujo sea de, a lo sumo 608 m3/seg. (d) P(1500 ≤ X ≤ 1658) (e) P(X ≥ 704) 4.39. Los flujos promedio en pies cúbicos por segundo, cfs (ft3/seg) de cierta corriente de agua tienen una distribución Weibull. ¿Es realmente plausible la distribución Weibull? Corroborar o declinar esta aserción. La tabla de abajo muestra la información. Con la distribución refrendada calcular lo siguiente: (a) P(X ≤ 1.1) (b) P(X ≥ 3.09) (c) P(X = 1) (d) P(1.18 ≤ X ≤ 2.81) Tabla mostrando la información de este ejercicio
www.full-ebook.com
4.40. Evaluar los siguientes problemas usando la función de gamma incompleta, cuya función matemática es dada por:
(a) F(4;6) (b) F(3;9) 4.41. Supóngase que se saca una muestra aleatoria de mediciones, que siguen a una distribución gamma estándar con α = 4. Siendo así calcular los siguientes enunciados: (a) P(4 ≤ X ≤ 6) (b) P(X > 6)
www.full-ebook.com
4.42. Supóngase que una muestra aleatoria de mediciones de oxigeno disuelto (OD) tiene una distribución gamma con α = 4 y β = 6. Calcular las siguientes probabilidades de que el OD tenga concentraciones (mg/L) de: (a) P(30 ≤ X ≤ 60) (b) P(X ≤ 18) 4.43. Hacer el mismo ejercicio anterior con α = 4 y β = 6, pero ahora usando el programa Minitab. Esto genera la tabla de abajo (el lector deberá refrendar los valores obtenidos en la tabla de abajo):
4.44. Evaluar: (a) F(4;5) (función gamma incompleta) (b) F(5;4) 4.45. El peso promedio de residuos tóxicos peligrosos descargados a una bahía generado por 500 industrias es de 151 toneladas métricas, al año, con una desviación estándar de 15 toneladas. Si los pesos de los residuos tóxicos generados por estas industrias están normalmente distribuidos, encontrar todo lo siguiente: (a) Cuántas industrias descargan entre 120 y 155 toneladas, inclusive. (b) Cuántas generan más de 185 toneladas.
www.full-ebook.com
(c) Cuántas generan cuando menos 128 toneladas. (d) Cuántas generan 128 toneladas. (e) Cuántas generan más de 75, pero menos de 100 toneladas. 4.46. Con relación a la ingeniería ambiental atmosférica, se sabe que la vida promedio de una partícula en el aire sigue la Ley de Stoke. Esta ley va en función del diámetro de sedimentación de la partícula, misma que va en función de la densidad de la partícula, la densidad del medio, la viscosidad absoluta del medio, la aceleración de la gravedad (981 cm/seg2), etc. Si dejamos que X sea la vida promedio de la partícula, entonces, este fenómeno se puede modelar con la función exponencial. Suponiendo que la vida media de la partícula en la atmósfera sea de 12 años, entonces encontrar: (a) La probabilidad de que la vida de residencia atmosférica de la partícula sea de a lo más 6 años. (b) La probabilidad de que la vida de residencia atmosférica de la partícula esté entre 5 y 10 años. (c) La probabilidad de que la residencia de la partícula sea de cuando menos 7 años. (d) La probabilidad de que la residencia de la partícula sea de 13 años. (e) Hacer gráficas de probabilidades acumuladas y de densidad. 4.47. Con la contaminación del agua por residuos tóxicos, supongamos que el tiempo promedio que se tarda una sustancia radiactiva en degradarse en el agua es de μ = 15 y su función de densidad se da como: f(x) = 1/15 e-x/15. Si los valores de la variable aleatoria x son 5, 15, 25, 35, y 45, calcular las siguientes probabilidades usando la distribución apropiada: (a) A lo más 6 años (b) Entre 6 y 18 años (c) ¿Cuál es la probabilidad de que la degradación de la sustancia radiactiva dure cuando menos 10 años. 4.48. Refiriéndose al ejercicio anterior de la sustancia radiactiva en el agua, hacer graficas d probabilidades acumuladas y de masa con los valores dados de la variable aleatoria X.
www.full-ebook.com
4.49. Dejemos que X sea una variable aleatoria exponencial con promedio μ = 0.3333. Encontrar las siguientes probabilidades usando el Minitab. (a) P(X ≤ 2) (b) P(X ≥ 2) (c) P(X ≤ 4) (d) P(X ≤ 3) (e) P(X ≥ 3) (f) P(1 ≤ X ≤ 3) (g) P(X = 2) 4.50. Se dan los valores de los parámetros históricos de forma y escala que definen la distribución gamma, es decir, de α = 8 y β = 15. Hacer los siguientes cálculos: (a) Calcular el promedio y la varianza (b) P(60 ≤ X ≤ 120) (c) El valor de la variable aleatoria X es de a lo mucho 30 (d) P(X = 30) 4.51. En un estudio de usos del agua potable para fines domésticos, para establecer una infraestructura para los próximos 25 años, se sabe que el consumo promedio del vital líquido para cierta ciudad es de 12.0 millones de litros por día (L/día). Suponiendo que estos datos siguen a una distribución gamma con parámetros de forma α = 2.1 y de escala β = 3.1, entonces, siendo así calcular las siguientes probabilidades: (a) La probabilidad de que el consumo de agua sea de cuando menos 9.0 millones de L/día. (b) La probabilidad de que el consumo de agua sea de cuando mucho 5.0 millones de L/día. (c) La probabilidad de que el consumo de agua sea de exactamente 8.0 millones de litros por día. (d) La probabilidad de que en un día dado, la compañía tenga que restringir el consumo de agua.
www.full-ebook.com
4.52. Supóngase que cierta data de usos del agua sigue a la distribución gamma con parámetro de forma α = 3.176 y parámetro de escala β = 0.5382. Hacer este problema con el programa Minitab y las fórmulas. (a) Calcular el promedio, E(X) = μ = αβ (b) Calcular la varianza, V(X) = σ2 = αβ2 (c) P(X ≤ 1.1) (d) P(X ≥ 2.19) (e) P(1.1 ≤ X ≤ 2.19) (g) El valor de la variable aleatoria X es de 2.75 (h) El valor de la variable aleatoria X es mayor que 1.1 4.53. En ciertos estudios ecológicos supóngase que la siguiente información tiene una distribución gamma con valores históricos de forma igual a 669.5 y de escala igual .0332. Contestar lo siguiente usando el Minitab: (a) P(X ≤ 22) (b) P(X ≥ 23) (c) P(21.5 ≤ X ≤ 23) (d) P(X = 22.6) (e) P(X = 21) 4.54. La vida promedio de un pesticida organoclorado es una variable aleatoria con función de densidad de f(x) = 1/60 e-x/60 para x ≥ 0. Hacer los siguientes cálculos: (a) El promedio del tiempo de degradación del pesticida en cuestión. (b) Calcular la probabilidad de que el pesticida sobreviva los 100 días. 4.55. Asumiendo que cierto estudio de usos del agua para plantas hidrotermoeléctricas sigue a una distribución gamma, con parámetros de forma y escala de α = 3, β = 1, respectivamente, entonces, encontrar las siguientes probabilidades, usando las funciones gamma y luego usar el Minitab y comparar los resultados.
www.full-ebook.com
(a) El valor de la variable aleatoria X es mayor que 4 (b) El valor de la variable aleatoria X es de cuando menos 3 pero de a lo mucho 5 (c) P(X ≤ 4) 4.56. Supóngase que, el tiempo en horas, requeridas para reparar una bomba, que se usa en plantas de tratamiento de lodos activados, para inyectar aire al agua residual, para su subsecuente degradación bacterial, es una variable aleatoria X que tiene un distribución gamma con parámetros α = 2 y β = 0.5. (a) Encontrar el promedio, la varianza y la desviación estándar correspondiente a este problema. (b) ¿Cuál es la probabilidad de que el siguiente servicio requerirá más de 4 horas para reparar la bomba? (c) ¿La probabilidad de que se requieran entre 3 y 4 horas (inclusivamente) para reparar la bomba? Sugerencia: usar las fórmulas de la gamma y el programa Minitab para resolver este problema y luego comparar los resultados. 4.57. Suponiendo que en un estudio de usos del agua para termoeléctricas sigue a una función gamma con parámetros históricos de forma y escala de α = 8 y β = 15. Hacer los siguientes cálculos: (a) Calcular el promedio y la varianza (b) P(60 ≤ X ≤ 120) (c) P(X ≤ 30) (d) P(X ≥ 60) (e) P(X = 30) (f) Usar el Minitab y comparar los resultados obtenidos en los incisos (a)-(e). 4.58. Este es un ejercicio encaminado a probar que la distribución normal estandarizada tiene una media μ = 0 y una desviación estándar σ = 1. Para esto, con el uso del Minitab se le dieron valores a z de -3.89, -3.5, -3.0, -2.5, -2.0, -1.5, -1.0, -.5, 0, 0.5, 1.0, 1.5, 2.0, 2.5, 3.0, 3.5, 3.89. Luego, se calcularon las probabilidades acumuladas y de densidad. De las gráficas de la probabilidad acumulada y de densidad, probar (por interpolación), que la distribución normal estándar tiene un promedio igual a 0 y una desviación estándar igual a 1.
www.full-ebook.com
Analizando la gráfica de abajo, el lector deberá comprobar lo antedicho.
4.59. Este es un estudio relacionado con los datos históricos (de 30 años, periodo 1977-2006) de precipitaciones anuales de la Presa de la Amistad suministrados por la Comisión Internacional de Límites y Aguas de la Ciudad Acuña, Coahuila, México. Los datos se dan en la tabla de abajo. Siendo así, hacer lo siguiente:
www.full-ebook.com
Fuente: Comisión Internacional de Limites y Aguas entre México y los Estados Unidos.
(a) Hacer una gráfica de probabilidad normal con los datos de las precipitaciones anuales. ¿Es plausible esta distribución? (b) Hacer una gráfica de probabilidad lognormal con los datos de las precipitaciones anuales. ¿Es plausible esta distribución? (c) Hacer una gráfica de valores extremos tipo II. (d) Con la distribución más factible hacer una gráfica de probabilidades acumuladas y de masa.
www.full-ebook.com
(e) Calcular las siguientes cantidades: (1) La probabilidad de que las precipitaciones anuales estén entre 495 y 658 mm. (2) La probabilidad de que la precipitación anual sea de cuando mucho 787. (3) La probabilidad de que la precipitación anual sea mayor que 787 mm. (4) La probabilidad de que la precipitación anual sea de cuando menos 61.1 cm. 4.60. Este es un estudio de meteorología relacionado con los datos históricos de 50 años (periodo 1954-2006) de precipitaciones mensuales y anuales de la Presa Falcón, Tamaulipas suministrados por la Comisión Internacional de Límites y Aguas entre México y los Estados Unidos. Los datos se dan en la tabla de abajo. Siendo así, hacer lo siguiente: (a) Hacer gráficas de probabilidad con los datos de las precipitaciones anuales. ¿Qué distribución de probabilidad es la más plausible? (b) Con la distribución más factible hacer una gráfica de frecuencia relativa acumulada y otra más de frecuencia relativa. (c) Con la distribución seleccionada, calcular las siguientes probabilidades: (1) La probabilidad de que las precipitaciones anuales estén entre 696 y 282 mm. (2) La probabilidad de que la precipitación anual sea de cuando mucho 943 mm. (3) La probabilidad de que la precipitación anual sea mayor que 948 mm. (4) La probabilidad de que la precipitación anual sea de cuando menos 94.8 cm (5) La probabilidad de que la precipitación anual sea igual a 90.0 cm (6) La probabilidad de que la precipitación anual sea igual a 35.0 pulgadas (7) La probabilidad de que la precipitación anual sea menor que 30.0 pulgadas La tabla de abajo muestra los datos de las precipitaciones mensuales y anuales de la Presa Falcón, para el periodo de 1954 hasta 2006.
www.full-ebook.com
Fuente: CILA, entre México y los Estados Unidos Sección Mexicana.
4.61. Este es un ejercicio de meteorología usando los datos del área metropolitana de la ciudad de El Paso, Texas y lugares circunvecinos. La metodología consistió en usar los datos de 128 años de datos de precipitaciones de la National Oceanic Organization istration (NOOA) de El Paso, Texas.
www.full-ebook.com
La información se da abajo en las siguientes tablas. Tabla mostrando las precipitaciones anuales, en pulgadas, (Periodo 1879-2006), para el área metropolitana de El Paso, Texas, E. U. A.
www.full-ebook.com
Fuente: National Weather Service Rainfall Data for El Paso Metropolitan Area National Oceanic and
Atmospheric istration (NOAA). Tabla mostrando las precipitaciones anuales (Periodo 1879-2006), para el área metropolitana de El Paso, Texas, E. U. A. (Continuación).
www.full-ebook.com
Fuente: National Weather Service Rainfall Data for El Paso Metropolitan Area National Oceanic and Atmospheric istration (NOAA).
Tabla mostrando las precipitaciones anuales (Periodo 1879-2006), para el área metropolitana de El Paso, Texas, E. U. A. (Continuación).
Fuente: National Weather Service Rainfall Data for El Paso Metropolitan Area National Oceanic and Atmospheric istration (NOAA). (Recompilación de datos hechos por este texto)
Siendo así, hacer lo siguiente: (a) Una revisión de normalidad de los datos originales por medio de una estadística descriptiva. Luego hacer una gráfica de probabilidades acumuladas y de densidad. (b) Una vez hecho lo anterior, hacer una transformación logarítmica (base
www.full-ebook.com
logaritmos naturales) y enseguida hacer lo mismo que en el inciso (a). (c) Ahora, eliminar los valores extrínsecos y hacer lo mismo que en el inciso (a) y (b). (d) Con los datos depurados aplicar el método de Hazen y estructurar un modelo gráfico lognormal para fines de predicción. (e)Usando el modelo gráfico lognormal de Hazen, del inciso (d), calcular lo siguiente: (1) La precipitación anual y la probabilidad de ocurrencia, para un periodo de retorno de 20 años (2) De la gráfica generada en el inciso anterior (e), es decir, con los datos transformados y depurados de valores atípicos extremos, calcular las precipitaciones y las probabilidades de ocurrencia para periodos de retorno de 50, 80 y 100 años. (f) Hacer una gráfica de frecuencia relativa acumulada (con los datos transformados y depurados de valores extremos) en función de las precipitaciones anuales y, de ahí, calcular la probabilidad de que ocurran entre 30 y 40 centímetros de lluvia anual. Calcular, además, la probabilidad de que ocurran a lo sumo 40 centímetros de lluvia anual. 4.62. Este es un estudio de precipitaciones, por entidades federativas correspondientes al periodo de años de 1971 al 2000, cuyos datos fueron proporcionados por CONAGUA, Subdirección General Técnica, Coordinación General del Servicio Meteorológico Nacional. Para este estudio hacer gráficas de probabilidad para analizar, cuál distribución de probabilidad (Normal, Gamma, Weibull, etc.) es la más plausible. La tabla de abajo muestra los datos. Tabla mostrando las precipitaciones mensuales y anuales para cada una de las 13 regiones hidrológicas-istrativas.
www.full-ebook.com
4.63. Se da la tabla de abajo con las concentraciones promedio de DBO oxidado en función del tiempo y de la constante de desoxigenación k (La constante k de base 10 o k´ de base e es un parámetro muy usado en tecnologías del agua o de ingeniería sanitaria y varía de país a país dependiendo de las dietas alimenticias). Generalmente hablando en países desarrollados los valores promedio de k son más grandes que en los países en desarrollo, porque las dietas en esos países son a base del consumo de comidas proteináceas provenientes del sacrificio de animales, lo que contribuye a k’s más altos. Especulativamente, en países en desarrollo como México, debido al tipo de alimentación baja en proteínas animales, es factible que la constante k sea baja, en contraste con los tipos de alimentación de países desarrollados, como E. U. A. que tienen valores promedio de k más altos que 0.10. Sawyer et al. (1967) desarrollaron porcentajes ejercidos de DBO para diferentes valores de la constante de reacción k (ver referencias bibliográficas). Para este ejercicio, asumir que el DBO5 promedio último o total es de Lo = 200.0 mg/L. La tabla de abajo muestra los valores promedio de las concentraciones del DBO oxidado en función de diferentes constantes k y el tiempo transcurrido que se calcularon usando la ecuación monomolecular y = Lo(1 – 10-kt). Tabla mostrando las concentraciones promedio asumidas del DBO ejercido en
www.full-ebook.com
función de las tasas de reacción k y el tiempo en días.
Hacer lo siguiente: (a) Completar la tabla de arriba calculando las concentraciones restantes para cada valor de k y del tiempo. (b) Una gráfica sobrepuesta con las concentraciones promedio del DBO ejercidas de DBO y de las concentraciones de DBO restantes, para cada uno de los valores de las constantes k de 0.10, 0.15, 0.20 y 0.25, para cada uno de los 20 días, asumiendo un valor del DBO último o total de 200.0 mg/L. (Sugerencia: usar la ecuación monomolecular) (c) Usando la gráfica del inciso (b) Calcular la probabilidad de la concentración ejercida de DBO en 5 días para k = 0.15. ¿A cuánto ascendió esto? ¿A cuanto ascendió la concentración promedio restante? (d) Para k = 0.25, calcular el porcentaje del DBO ejercido y el DBO restante para un tiempo de 5 días. ¿A cuánto ascendieron estos valores? (e) Para k = 0.10, ¿Cuál es la probabilidad del DBO ejercido y el DBO restante para 10 días?
www.full-ebook.com
(f) Para k = 0.25, ¿Cual es la probabilidad de que la concentración de DBO ejercida esté entre 5 y 10 días? ¿A cuánto ascendió esto? (f) Para este mismo valor de k = 0.25, ¿Cual es porcentaje de la concentración de DBO restante para 5 y 10 días? 4.64. Suponiendo que la tela de fibra de vidrio del equipo de control de partículas atmosféricas sigue a la distribución normal con media igual a 3.0 años y desviación estándar de 0.5 años. Siendo así, calcular las siguientes probabilidades: (a) La probabilidad de que la fibra dure 5 años, asumiendo que se le da un mantenimiento adecuado a las bolsas de los filtros. (b) La probabilidad de que la fibra dure menos de 5 años. (c) La probabilidad de que la fibra se acabe en 1 año. (d) La probabilidad de que la fibra dure entre 2 y 5 años. (e) Hacer gráficas de probabilidad acumulada y de densidad. 4.65. Una compañía fabrica electrodos para precipitadores electrostáticos para el control de partículas emitidas por fuentes industriales. La duración de estos aparatos está normalmente distribuida con una media de 800 horas y una desviación estándar de 40 horas. Hacer los siguientes cálculos: (a) Calcular la probabilidad de que un electrodo se funda en 800 horas (b) Calcular la probabilidad de que un electrodo se funda en cuando menos 900 horas (c) Calcular la probabilidad de que un electrodo se funda en a lo sumo 800 horas 4.66. En un estudio de ingeniería del aire, se tomó una muestra de partículas, cuyas mediciones siguen a una distribución lognormal, con parámetro de localización = 0.10 y de escala = 20. Desarrollar los siguientes enunciados: (a) Calcular la media, la varianza, la mediana y la moda de la distribución
www.full-ebook.com
lognormal. (b) Calcular P(X = 4) (c) Calcular P(X ≥ 8) (d) Calcular P(2 ≤ X ≤ 8)
www.full-ebook.com
REFERENCIAS 1. Montgomery, D. C., Runger, G. C. (1996). Probabilidad y Estadística Aplicadas a la Ingeniería. McGraw-Hill Interamericana Editores, S. A. de C. V. 2. Quevedo, H., Pérez, B. R. (2008). Estadística para la Ingeniería y la Ciencia. Grupo Editorial Patria. México. 3.Ritzema (ed.), H.P. (1994). Frequency and Regression Analysis. Chapter 6 in: Drainage Principles and Applications, Publication 16, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. pp. 175–224. ISBN 90 70754 3 39. http://www.waterlog.info/pdf/freqtxt.pdf. 4. Paztor, A. R. (1998). Una Nueva Filosofía Médica Racionalista. Naturheilkunde Publishing Company, 11148 Voyager Cove, El Paso, Texas 79936. E:mail:
[email protected] 5. Programa de cómputo NCSS. 6. MathWorks. http://www.mathworks.com/help/toolbox/stats/gamcdf.html 7. 15. NIST/MATECH e-Handbook of Statistical Methods http://www.itl.nist.gov/div898/handbook/. 8. MathWorks. http://www.mathworks.com/help/toolbox/stats/gamcdf.html 9. http://es.wikipedia.org/wiki/Funci%C3%B3n_generadora_de_momentos 10. Hines, W. W., Montgomery, D. C., Goldsman, D. M., Borror, C. M. (2005). Probabilidad y Estadística para Ingeniería. Grupo Patria Cultural, S. A. de C. V. 11. Walpole, Myers, Myers. (1992). Probabilidad y Estadística para Ingenieros.
www.full-ebook.com
Sexta edición. PRENTICE-HALL HISPANOAMRICANA, S. A., México. 12. MathWave, Data Analysis and Simulation (2004-2010). http:www.mathwave.com/articles/extreme-value-distribution-html. 13. Gumbel, E. J. (1958). Statistics of Extremes, Columbia University, Press, New York. 14. http:www.ntrand.com/gumbel-type-i-distribution 15. Cunnane, C. (1978). Unbiased plotting positions-A review. Journal of Hydrology, v. 37, pp. 205-222. 16. Ward, A. D., Elliot, W. J. (1995). Environmental Hydrology. Lewis Publishers, CRC Press, Inc. (p.p.39-42) 17. CONAGUA, Subdirección General Técnica, Coordinación General del Servicio Meteorológico Nacional. 18. Quevedo, H. (2007). Aplicaciones Estadísticas a la Ingeniería Ambiental. México: Biblioteca Virtual de la Universidad Autónoma de Juárez. (Libro electrónico). 19. Comisión Nacional del Agua (CONAGUA) en Ciudad Juárez, Chihuahua, México, la cual incluye el periodo de 1956 a 2006 20. Keller, G., Warrock, B., Bartel, H. (1990). Statistics for Management and Economics: a Systematic Approach. Second edition. Wardsworth Publishing Company, California. (p. 202) 21. Maidment, D. R. (1993). Handbook of Hydrology. McGRAW-HILL, INC. (P. 18.25) 22. Comisión Internacional de Límites y Aguas Entre México y los Estados
www.full-ebook.com
Unidos Sección Mexicana. 23. National Weather Service Rainfall Data for El Paso Metropolitan Area National Oceanic and Atmospheric istration (NOAA). 24. http:www.ntrand.com/gumbel-type-i-distribution 25. Wooten R. D., Tsokos, C. P. (2010). Parametric Analyses of Carbon Dioxide in the Atmosphere. J. Applied Sci., 10440-450. DOI: 10.3923/JAS.2010.440.450. URL:http:/scialert.net/abstract/? doi=JAS.2010.440.450
www.full-ebook.com
Capítulo 5
www.full-ebook.com
Distribuciones muestreales. Teorema del Límite Central Dr. Héctor Adolfo Quevedo Urias (ph.D.)
Temas descritos en este capítulo
5.1. Introducción
5.2. Definición de distribución muestral
5.3. Muestreo aleatorio simple
5.4. Distribuciones de muestreo
5.5. Teorema del límite central
5.6. Distribución de muestreo de X
www.full-ebook.com
5.1. Introducción. Este capítulo es de primordial importancia para poder entender la inferencia estadística. Este capítulo discutirá el muestreo aleatorio simple, distribuciones de muestreo y la distribución de la media muestral. Además, se estudiará la importancia del teorema del límite central a la estadística de inferencia. Se verá también, la construcción de distribuciones muestrales de medias muestrales calculadas de muestras sacadas de una población. 5.2. Definición de distribución muestral. Si consideramos todas las posibles muestras de tamaño n de una población (finita o infinita y con y, sin reposición) y, si para cada muestra se calcula un estadístico, que varía de una muestra a otra, se obtiene una distribución del estadístico que se denomina distribución de la muestra. 5.3. Muestreo aleatorio simple. Antes de dar la definición de muestra aleatoria simple, es necesario distinguir entre dos tipos de muestras, es decir, la muestra probabilística y la muestra no probabilística. Sin embargo, el único tipo de muestra que se discutirá aquí, es la muestra probabilística. Esto se debe a qué, solamente para muestras probabilísticas hay procedimientos que nos permiten hacer inferencias partiendo de una muestra a la población, de la cual esta muestra es sacada, es decir, con la finalidad obtener el error de muestreo involucrado. De esta manera, esta sección estudiará el muestreo aleatorio estratificado de un universo finito. Siendo así, de una población finita de tamaño N, podemos muestrear un número finito de diferentes muestras de tamaños n, las cuales se denominan muestras aleatorias simples. 5.3.1. Definición de muestra aleatoria simple. Una muestra aleatoria es una muestra en la cual cada miembro de la población muestreada tiene la misma oportunidad de ser seleccionado. No obstante, cuando se saca una muestra aleatoria simple, esto se puede hacer con, y sin reemplazo. Sin embargo, en la práctica, el muestreo es siempre, sin reemplazo. Una manera de conducir un muestreo aleatorio simple es por medio de asignar un número a cada elemento en la población. Esto se hace por medio de escribir estos números en tiras de papel, y después de introducirlos en una caja, se saca una muestra de tamaño n. Ejemplos de estos elementos de población son aquéllos, que ya están enumerados, como por ejemplo, en los usos del agua en listas de industrias que manejan diferentes tipos de productos y sus potenciales,
www.full-ebook.com
como industrias contaminantes. También en hidrología, otros tipos de elementos son los flujos de una corriente, las temperaturas, las precipitaciones, en una cuenca, etc. Aplicaciones en otras áreas son, por ejemplo, las licencias de manejar, números de seguro social, etc. En estos casos el manejo del muestreo aleatorio es decidir como se seleccionaran estos números. También se pueden usar números aleatorios generados por computadoras, para seleccionar números muestrales al azar. 5.4. Distribuciones de muestreo. En general, el muestreo de distribuciones de las medias muestrales es la distribución de los promedios de la muestra, cuando repetidamente sacamos muestras del mismo tamaño de la misma población. Definición 5.1. La distribución de todos lo valores posibles que pueden ser asumidos por una estadística, de muestras del mismo tamaño sacadas aleatoriamente de la misma población, se llama la distribución de muestreo de esa estadística. En la formulación de distribuciones de muestreo podemos construir distribuciones de poblaciones discretas finitas. Por ejemplo, de una población discreta finita de tamaño N, sacar aleatoriamente todas las muestras posibles de tamaño n. Enseguida, computar el valor de la estadística de interés para cada muestra. Después, enlistar una columna de diferentes valores observados de la estadística. En otra columna enlistar la frecuencia correspondiente a la ocurrencia de cada valor observado de la estadística. La distribución de probabilidad de la media muestral se llama distribución muestral del promedio. No obstante, la distribución de una estadística depende del tamaño de la población, el tamaño de las muestras y también del método de seleccionar las muestras. Las aplicaciones de distribuciones muestrales a problemas de estadística inferencial se consideran en muchas áreas de estadística y se verán nuevamente, en el capítulo de pruebas de hipótesis. Por ejemplo las distribuciones de muestreo del promedio y de la varianza s2 se verán como mecanismos para sacar inferencias de sus parámetros correspondientes como μ y σ2 . La distribución de muestreo de con tamaño de muestra n es la distribución que resulta cuando un experimento se conduce muchas veces con los valores de resultantes de . Esta distribución de muestreo describe la
www.full-ebook.com
variabilidad de los promedios muestrales del promedio poblacional μ. El mismo principio aplica en el caso de la distribución de la varianza, s2 en cuyo caso, esta distribución da una información acerca de la variabilidad de los valores de s2 acerca de σ2 en muchos experimentos repetidos. Es de saberse que para una distribución de muestreo dada lo que nos interesa son al media, su varianza y la forma del histograma de la gráfica. 5.4.1. Distribución de la media muestral. La distribución de probabilidad de se llama distribución muestral de la media. Teorema 5.1. Si X1, X2,…., Xn son variables aleatorias independientes que tienen distribuciones normales, con promedios de μ1, μ2,…., μn y varianzas σ21, σ22, …., σ2n, respectivamente, entonces la variable aleatoria (Walpole et al. 1993) es, Y = a1X1 + a2X2 + …. + anXn
(5-1)
Tiene una distribución normal con promedio y varianza μY = a1μ1 + a2μ2 + … + anμn
(5-1a)
σ2Y = a21 σ21 + a2 σ22 + …+ a2n σ2n
(5-1b)
De acuerdo al teorema anterior, se puede concluir que, la media se da como:
Y tiene una distribución normal con media de
www.full-ebook.com
Y una varianza
Acordemente, si se muestrea de una población con distribución desconocida, ya sea que se trate de una población finita o infinita, la distribución de muestreo del promedio será aproximadamente normal, con promedio μ y varianza σ2/n, siempre y cuando el tamaño de la muestra sea grande. Esta situación es explicada por la lógica del teorema del límite central, el cual se da en las secciones de abajo. Ejemplo 5.1. En un estudio de usos del agua, supóngase que se obtiene una muestra de 36 análisis de sólidos totales suspendidos (STS) procedente de una población normal que tiene una media de 400.0 mg/L de STS y una desviación estándar de 60.0 mg/L. Si las 36 observaciones están normalmente distribuidas, contestar lo siguiente: (a) ¿Cuál es la probabilidad de que la variable aleatoria X sea menor que 325.0 mg/L? (b) Dibujar la gráfica de la distribución del promedio μ. Solución:
www.full-ebook.com
(a) Se desea obtener P(X < 325.0). Debido a que la distribución de está normalmente distribuida, con μ = 400.0 y σ = 60.0/√36 = 10.0, entonces…
(b) La gráfica de la distribución normal de la media se da en la figura de abajo.
Figura 5.1. Gráfica de la distribución normal de la media. 5.5. Teorema del límite central. El teorema del límite central es uno de los resultados más notables de la teoría de probabilidad. En su forma más simple, el teorema dice que la suma de un número grande de observaciones independientes tiende a una aproximación normal, y esta aproximación es mejor, a medida que el número de casos aumenta. El teorema del límite central fue probado, primeramente, por Pierre Simon Laplace en 1810. De esta manera, si es el promedio de una muestra aleatoria de tamaño n sacada de una población con media igual a μ y varianza σ2, entonces, la forma limitante de la distribución de la variable aleatoria Z es:
www.full-ebook.com
A medida que n → ∞, Z es la distribución normal estándar Un entendimiento intuitivo del teorema del límite central es que la distribución muestral de las medias muestrales tiende a ser una distribución normal. En términos más simples, esto implica que, si coleccionamos muestras de la misma población, todas del mismo tamaño, y calculamos sus medias y luego hacemos un histograma con esos promedios, éste tenderá a asumir la forma de campana de una distribución normal (ver figura de abajo). Esto es verdadero, sin importar la forma de la distribución de la población madre. De esta manera, si es la media de una muestra aleatoria de tamaño n sacado de una población normal, con promedio de μ y varianza finita σ2, entonces, la forma limitante de la distribución de la variable aleatoria z = ( - μ) / σ/√n, a medida que n se aproxima a infinito, es la distribución normal con promedio igual a 0 y varianza igual a 1. La aproximación normal de será buena si n ≥ 30 casos, sin importar la forma de la población madre. El teorema del límite central es uno de los conceptos más importantes y útiles, porque ayuda al entendimiento de la estadística inferencial, es decir, de estimación de parámetros de poblaciones y pruebas de hipótesis. Por regla general, si n > 30, el límite del teorema central puede usarse.
www.full-ebook.com
Figura 5.2. Figura mostrando la gráfica de las medias coleccionadas de la misma población, la cual tiene forma de campana, es decir, de una distribución normal. Teorema 5.2. Sea X1, X2, ..., Xn una muestra aleatoria de una distribución con media μ y varianza σ2. Entonces, si n es suficientemente grande, la variable aleatoria (Wikipedia 2011)
Tiene aproximadamente una distribución normal con μ = μ y σ2 = σ2/n También se cumple que si:
www.full-ebook.com
Tiene aproximadamente una distribución normal con μ To = nμ y σ2 To = n σ2 Cuanto más grande sea el valor de n, mejor será la aproximación a la normal. De esta manera, el teorema del límite central garantiza una distribución normal cuando n es suficientemente grande. 5.5.1. Propiedades del teorema del límite central. El teorema del límite central garantiza una distribución normal cuando el tamaño de la muestra n es suficientemente grande. Hay varias versiones del teorema de acuerdo a las condiciones usadas, para asegurar la convergencia, por ejemplo, la más simple establece que es suficiente que las variables que se suman sean independientes e idénticamente distribuidas, con valor esperado y varianza finita. La aproximación entre las dos distribuciones es mayor en el centro de las mismas, que en sus extremos o colas, por esta razón se usa el término de “teorema del límite central”. El teorema del límite central está relacionado con la teoría de probabilidad, y tiene muchas aplicaciones con la estadística de inferencia. 5.5.2. Conclusiones derivadas del teorema del límite central. Las conclusiones derivadas del teorema del límite central se pueden resumir como: 1. A medida que el tamaño de la muestra aumenta, la distribución muestral de las medias de la muestra se acerca a la distribución normal, con promedio μ y varianza σ2/n.
www.full-ebook.com
2. La precisión del teorema del límite central depende de la distribución de probabilidad de la población madre y del tamaño de la muestra. De esta manera, si la población madre es normal, entonces, la media está normalmente distribuida para todos los valores de n. Esto dice que, si la población original está normalmente distribuida por si misma, entonces, los promedios muestrales estarán normalmente distribuidos para cualquier tamaño de muestra n. 3. Generalmente, la aproximación normal para será buena, si n ≥ 30 casos, sin importar la forma de la población madre o poblacional. 4. Si n < 30 casos, la aproximación a la distribución de la población será buena, solamente, si la población no es muy diferente de una distribución normal. 5. No obstante, si la población no es normal, entonces, es aproximadamente normal solamente, para tamaños más grandes de n. Generalmente, un tamaño de muestra de n ≥ 30 casos puede ser suficientemente grande para garantizar el uso de la distribución normal, como una aproximación para la distribución muestral de las medias. Ejemplo 5.2. Se saca una muestra aleatoria de análisis de selenio, Se (un elemento tóxico que tiene propiedades carcinogénicas, y que se puede analizar por el método de diaminobenzidina) de aguas residuales industriales, de una población normal y se calcula una media de 80.0 mg/L con una desviación estándar de 4.0 mg/L. Encontrar la probabilidad de que la concentración del Se sea menor que 78.0 mg/L. Hacer lo siguiente: (a) Usar la variable aleatoria z = (X – μ)/σ para convertir el caso no estandarizado a la distribución normal estándar. (b) Si se selecciona una muestra de 30 análisis de selenio, ahora aplicar el enfoque del teorema del límite central usando z = (X - μ )/ σ . Solución: (a) Usando la función z = (X – μ)/σ y sustituyendo da: z = (78.0 – 80.0)/4 = -0.5
www.full-ebook.com
y la probabilidad de P(X < 78.0) = .3085. (b) Aquí, al usar el teorema del límite central, como estamos hablando de promedios, la distribución muestral de las medias será aproximadamente normal, con μ = 80.0 y σ = 4.0/√30 = .73. Entonces: z78 = (78.0 – 80.0)/.73 = -2.73. Por lo tanto, P( < 78.0) = P(Z < - 2.73) = .0032. Ejemplo 5.3. En estudios del agua, se saca una muestra aleatoria de agua alcalina (Aquí, la alcalinidad del agua se define como es la capacidad de aceptar protones, y usualmente es contribuida por bicarbonatos (HCO3-2), carbonatos (CO3-2) y compuestos de hidróxidos (OH-)), de un tamaño de 36 y se calcula una media de 150 mg/L con una desviación estándar de 25.0 mg/L. Para este problema hacer lo siguiente: (a) Usar el enfoque del teorema del límite central. Luego, encontrar la probabilidad de que media de la muestra de agua alcalina sea mayor que 160.0 mg/L. (b) Hacer una gráfica mostrando el área y la probabilidad. Solución: (a) Debido a que estamos usando una distribución de promedios muestrales usamos los parámetros μ = 150 y σ = , y aplicamos la variable aleatoria tipificada z. Esto es: z = ( - μ )/ σ = (150 – 160)/25/√36 = - 0.067 Este valor es igual a una probabilidad de .4721 (usando la tabla de la normal). (b) La grafica se da abajo.
www.full-ebook.com
Figura 5.3. Gráfica mostrando el área y la probabilidad de 0.4721 de que el valor del agua alcalina sea mayor que 160.0. Aquí, se nota que la probabilidad de que no ocurra que el agua sea mayor que 160.0 es igual a 0.5279. 5.6. Distribución de muestreo de . Estableciendo la premisa de que, la media es igual al promedio μ de la población original, esto es μ = μ y mostrando que la varianza de es igual a la varianza poblacional dividida entre el tamaño de la muestra n, esto es, σ2 , es decir, σ2 = σ2/n, entonces, podemos resumir lo que sabemos acerca de la distribución de muestreo del promedio muestral. Esto es:
1. La distribución de es aproximadamente normal. 2. La media de es igual al promedio de la población madre, esto es: μ = μ. 3. La varianza de las medias es σ2 = σ2/n y la desviación estándar de los promedios es el llamado error estándar del promedio, el cual es una función muy importante en la estadística de inferencia o pruebas de hipótesis y se da como: σ = σ/√n
(5-4)
Las figuras de abajo están relacionadas con el teorema del límite central. En
www.full-ebook.com
estas figuras se ve que, a medida que n aumenta, el número posible de valores de también aumenta. A medida que la distribución de se hace más angosta, más se acerca a la media. Este fenómeno se resume en el teorema del límite central.
Figura 5.4. Estas figuras muestran las distribuciones muestrales de frecuencia relativa (probabilidad de densidad) de , con n = 5, 10 y 25. (Aquí se ve que al aumentar el tamaño de la muestra se evita cometer los errores I y II, cuando se hacen pruebas de hipótesis. Esto se discutirá más adelante) Ejemplo 5.4. Derivado de muchos estudios médicos a posteriori, se sabe que la población de las temperaturas del cuerpo humano tienen una media poblacional μ igual a 98.6 oF o 37 oC (es decir de personas saludables). Asumiendo una varianza de 0.400 oF (en la actualidad, esta varianza debe ser mayor, por la marcada tendencia a la vida no natural que caracteriza al hombre moderno, cuyas condiciones están ocasionando toda clase de problemas de salud), si se saca una muestra grande, digamos de n = 81, encontrar la probabilidad de que la media sea de a lo más 98.0 oF. Solución: De acuerdo al teorema de límite central, debido a que n > 30 casos (n = 81 en
www.full-ebook.com
este caso), la distribución de los promedios muestrales es la distribución poblacional con μ = μ = 98.6 oF y la desviación estándar de los promedios es σ = σ/√n = 0.63/√81 = 0.07. Se quiere encontrar P(X ≤ 98.0). De manera que, para calcular esta probabilidad se tiene que estandarizar ese valor usando la función z = ( - μ ) / σ . Sustituyendo los valores da: z = (98.0 – 98.6) / 0.07 = -8.57. Refiriéndonos a la tabla de la distribución normal, el valor de -8.57 no está. Sin embargo, para valores de z menores de -3.89 (o de -3.09, dependiendo del autor de la tabla) se usa el último valor o sea .0000, en esta instancia. Por lo tanto, la probabilidad de que el promedio sea de cuando mucho 98.0 oF es: P(X ≤ 98.0) <<< 0.0001. Esto dice que si verdaderamente la temperatura del cuerpo es de 98.6 oF existiría esa probabilidad, de la ocurrencia de un evento de sacar una media muestral igual o menor de 98.0 oF(asumiendo que hubo un bloqueo de características como edad, sexo, peso, hábitos alimenticios, historiales clínicos, etc. Ver Capítulo 8 de ANOVA). Comentario: Con respecto a la temperatura del cuerpo, la medicina tradicional ha concluido que, cuando la temperatura del cuerpo es mayor de 98.6 o F (37 o C) hay fiebre de por medio. ¿Sin embargo, cuál sería la explicación cuando se observan temperaturas corporales menores de 37 o C? Una explicación sensata sería que, cuando se suda, (o cuando se expone al frío), la piel se enfría, pero si esta piel tiene temperaturas constantes menores de 37 o C (aun sin estar sudando o estar expuestos al frío), ¿Cuál sería la explicación a esta observación tan importante, pero tan ignorada por la medicina tradicional? El autor principal de este libro de estadística, como médico racionalista que es, ha observado que la medicina tradicional no puede explicar, cual es la causa de este fenómeno, cuando se observan temperaturas constantes de la piel menores que 37 oC, sobretodo en personas mayores de cierta edad o enfermos con padecimientos crónicos. La medicina alternativa (o racionalista) explica este fenómeno a través de una teoría llamada “desequilibrio térmico orgánico”. Este es un fenómeno común entre personas que, por vida antinatural, hábitos alimenticios equivocados, (o por herencia) padecen de vísceras inflamadas, condiciones que impiden la circulación normal de la sangre. Esto ocasiona que la temperatura del cuerpo no esté distribuida equitativamente por todo el complejo orgánico, ocasionando el enfriamiento constante de manos y pies (De mi punto de vista, el cuerpo, como sistema unitario debe de tener una temperatura de 37oC igualmente distribuida por todo el organismo, cuando el organismo está en perfecto estado de salud). Estas circunstancias, a través de los años, llevan al enfermo al estado crónico de enervación, es decir a estados crónicos destructivos como el llamado cáncer (o mejor dicho, cáncer sintomático). En este renglón, el autor de estas líneas contiende que si se hiciera una regresión y correlación estadística entre las incidencias de estados crónicos (digamos casos sintomáticos de cáncer) y temperaturas corporales menores de 37oC, esta investigación deberá mostrar una correlación positiva entre estas dos variables. (Ver Paztor 1998).
Ejercicios 5.1. Un fabricante de aparatos de bombas de aire para plantas de tratamiento de lodos activados afirma que, el periodo de vida de estas bombas está
www.full-ebook.com
normalmente distribuido, con una media de 2000 horas y una desviación estándar de 400 horas. Es decir, tomando en consideración el buen mantenimiento que se le dé a estas bombas de aire. Encontrar la probabilidad de que una muestra aleatoria de 20 bombas tenga un periodo de duración menor que 1800 horas. 5.2. De acuerdo al teorema del límite central, en una aplicación química del agua, para fines domésticos relacionados con la dureza del vital líquido (la cual es causada por calcio, magnesio, estroncio, manganeso, etc.) supóngase que se calcula una concentración media de 18.0 mg/L de calcio (Ca), con una desviación estándar de 2.0 mg/L. Si se saca una muestra aleatoria de 48 mediciones de Ca (analizados por el método titrimétrico dado por el texto Standard Methods (1971) encontrar la probabilidad de que, la media de la concentración de Ca esté entre 18.0 y 19.0 mg/L. Aplicar el enfoque del teorema del límite central. 5.3. Se saca una muestra aleatoria de DBO5 de un tamaño de 36 y se calcula una media de 140.0 mg/L con una desviación estándar de 20.0. Usar el enfoque del teorema del límite central. Encontrar la probabilidad de que la media de DBO5 sea menor que 150.0 mg/L. 5.4. Se saca una muestra aleatoria de demanda química de oxígeno (DQO) de una población normal y se calcula una media de 180.0 mg/L con una desviación estándar de 10.0. Encontrar la probabilidad de una concentración menor de 178.0 mg/L. (a) Usar la variable aleatoria z = (X – μ)/σ para convertir el caso no estandarizado a la distribución normal estándar. (b) Si se selecciona una muestra de 30 análisis de DQO, ahora aplicar el enfoque del teorema del límite central usando z = (X - μ )/ σ , donde, σ =σ/√n 5.5. Este es un ejercicio encaminado a demostrar cómo, la media poblacional μ es igual a la media de la distribución de muestreo, μ . Este ejercicio también esta diseñado para ilustrar el hecho de que, para poblaciones finitas que involucran muestreo con reemplazo, la varianza de las medias es igual a la varianza poblacional dividida entre el tamaño de la muestra, esto es, σ2 = σ2/n. De esta
www.full-ebook.com
manera, supóngase que, una población de mediciones de pH (potencial de hidrógeno) consiste de 6 análisis: 2, 4, 6, 9, 12, 14. Considerar todas las muestras posibles de tamaño dos que se puedan sacar, con reemplazo de esa población de pH’s y luego hacer lo siguiente: (a) Encontrar la media (μ), la varianza (σ2 ) y la desviación estándar (σ) de esa población. (b) Encontrar la media de la distribución de muestreo de las medias (μ ), para demostrar que μ = μ. (c) Encontrar la varianza de la distribución de muestreo de las medias, e. g., el error estándar de las medias (σ2 ). 5.6. Con referencia al problema anterior del pH, hacer lo mismo que se hizo ahí, pero en esta ocasión hacer el muestreo sin reemplazo.
www.full-ebook.com
REFERENCIAS 1. Walpole, R. E., Myers, R. H., Myers, S. L. (1999). Probabilidad y Estadística para Ingenieros. Sexta Edición. Prentice Hall, Inc. 2. Paztor, A. R. (1998). Una Nueva Filosofía Médica Racionalista: Cáncer y SIDA y la Importancia de Vivir Naturalmente. Naturheilkunde Publishing Company, 11148 Voyager Cove St. El Paso Texas 79936. (Ver portal en el internet) 3. Standard Methods for the Examination of water and wastewater (1971). 4. http//es.wikipedia.org./wiki/Teorema_del_%C3%ite_central
www.full-ebook.com
Capítulo 6
www.full-ebook.com
Estimación Dr. Héctor Adolfo Quevedo Urías (Ph.D.)
Temas descritos en este capítulo
6.1. Introducción a la estadística de inferencia
6.2. Conceptos de Estimación
6.3. Valores críticos
6.4. Intervalo de confianza para muestras grandes
6.5. Distribución de t de Estudiante (teoría de muestreo pequeño)
6.6. Intervalo de confianza para funciones de t pareadas μ = (μ1 – μ2). (Muestras pequeñas)
6.7. Intervalo de confianza para (μ1 – μ2) con varianzas σ21 y σ22 desconocidas y desiguales, para poblaciones que no están normalmente distribuidas (muestreo grande)
6.8. Distribución de JI cuadrada
6.9. Distribución F, estadística usada para la estimación de la razón de dos varianzas
6.10. Estadísticas usadas para la estimación de la razón de dos varianzas
6.11. Determinación del tamaño de la muestra
6.12. Selección del tamaño de la muestra para dos medias
www.full-ebook.com
poblacionales
6.13. Uso del Minitab para hacer intervalos de confianza para una proporción (muestras grandes)
6.14. Uso del Minitab para hacer intervalos de confianza para la diferencia entre dos proporciones, (ρ1 – ρ2) para muestras grandes
www.full-ebook.com
6.1. Introducción a la estadística de inferencia. Una de las finalidades de este capítulo es dar una introducción a la teoría de inferencia estadística, la cual consiste en usar métodos para hacer inferencias acerca de una población. La inferencia estadística se divide en dos áreas, estimación y pruebas de hipótesis. La primera se presentará en este capítulo y la segunda se explicará en la sección de pruebas de hipótesis. Siendo así, el principal objetivo de este capítulo será el desarrollo de estimación de parámetros de población (usando símbolos Griegos). Por ejemplo, si se da un parámetro, como la media poblacional μ, el objetivo es de sacar una muestra aleatoria para obtener el punto de estimación, es decir, la media , que estima al verdadero promedio μ. Situación similar ocurre con la desviación estándar s, la cual es el estimador del parámetro poblacional σ. Situaciones análogas ocurren con cualquier otro parámetro poblacional, en los cuales los objetivos principales son los de calcular estadísticas que aproximen, en términos de probabilidad, a los verdaderos parámetros embozados en la población madre. Este módulo también discutirá intervalos de confianza para muestras grandes y muestras pequeñas. Discutirá, por ejemplo, intervalo de confianza para μ con σ conocida, intervalo de confianza para μ con σ desconocida, intervalo de confianza para promedios de distribuciones poblacionales no normales e intervalos de confianza para muestras pareadas de la distribución t. Además, este capítulo explicará intervalos de confianza para las diferencias de dos medias (μ1 – μ2) cuando σ21 y σ22 son conocidas e intervalos de confianza para las diferencias de dos medias (μ1 – μ2) cuando σ21 y σ22 son desconocidas. También, se discutirán intervalos de confianza para la distribución de t, e intervalos de confianza para la varianza de JI cuadrada. Análogamente, esta sección discutirá métodos para determinar, qué tan grande debe ser el tamaño de la muestra para poder estimar, exitosamente, los parámetros de población. No obstante los intervalos de confianza para los coeficientes del modelo de regresión se discutirán en el capítulo de regresión lineal simple y múltiple. Finalmente, este capítulo usará el programa Minitab y Excel, para hacer cálculos relacionados con los tópicos incluidos en esta sección y así sucesivamente. 6.2. Conceptos de Estimación. Hay dos tipos generales de inferencia estadística: estimación y pruebas de hipótesis. Esta última, sin embargo, se discutirá en el capítulo de estadística inferencial y pruebas de hipótesis. En términos simples, el concepto de estimación se usa para determinar el valor
www.full-ebook.com
aproximado de un parámetro, en base de una muestra estadística. De esta manera, un estimador de un parámetro poblacional es una variable aleatoria, esto es, una función de los datos muestrales. En cambio, un estimado es el cálculo de un valor específico de esa variable aleatoria. Por ejemplo, la media es un estimador del promedio poblacional μ y, una vez que se saca la muestra y se calcula , éste se torna el estimado de μ. 6.2.1. Punto estimador. El punto estimador se calcula de los datos de una muestra aleatoria y consiste de un solo valor usado como la mejor conjetura de lo que pueda corresponder al valor parametrito poblacional. El punto estimador estadístico se obtiene a través de la selección de un tamaño de muestra apropiado procedente de una población normal. Un estimado es un valor específico o rango de valores usados para aproximar parámetros poblacionales. La función estadística seleccionada se llama el punto estimador o función de decisión del parámetro poblacional. De esta manera, la media estadística es un estimador puntual del parámetro μ. Igualmente, la varianza, s2 es un estimador de σ2, intervalos de confianza para ecuaciones de regresión y así sucesivamente. Usualmente los estimadores estadísticos se juzgan en base de consistencia, eficiencia o suficiencia. Hay también otros estimadores puntuales, como estimación por intervalo para un parámetro poblacional (como μ), o para dos parámetros, es decir, para teorías de muestreo pequeño y grande. Similarmente, hay estimaciones puntuales para el error estándar, para regresión lineal simple y múltiple y así sucesivamente. Estas dos últimas funciones se discutirán más adelante en el capítulo de regresión lineal simple y múltiple. 6.2.2. Estimación de la media poblacional. Como se dijo antes, la media estadística es un estimador puntual del parámetro μ. Similarmente, la desviación estándar, s es un estimador de σ y así sucesivamente. Como ejemplo de esto, supóngase que se tiene una muestra de 10 observaciones 2, 5, 7, 9, 10, 12, 14, 16, 17, 19. Aquí queremos estimar la media aritmética de todos los casos. Pudiéramos usar una estadística como la mediana de la muestra o la moda de la muestra como estimadores del promedio poblacional μ, sin embargo, el promedio muestral da el mejor punto estimador de μ. Por lo tanto, aquí, el punto estimador es = 11.1 y el punto estimador de la desviación estándar poblacional σ es s = 5.51. 6.2.3. Estimación insesgada. En términos eufónicos, un estimador insesgado de
www.full-ebook.com
un parámetro poblacional es aquél, cuyo valor esperado es igual al del parámetro. En otras palabras, un estimador se dice que es un estimador insesgado del parámetro poblacional, si el valor promedio de la estadística calculada de todas las muestras posibles aleatorias, de un tamaño de muestra dado, es igual al parámetro correspondiente. Esto quiere decir que, si se tomara un número infinito de muestras y se calculara el valor estimador de cada muestra, y luego se promediaran estos valores, el valor promedio sería igual al del parámetro poblacional. 6.2.4. Consistencia. Una estadística se dice que es un estimador consistente si, a medida que el tamaño de la muestra n aumenta, el estimador se acerca al parámetro poblacional estimado. Por ejemplo, la varianza de la media es igual a σ2/n. Esto quiere decir que, a medida que el tamaño de la muestra n aumenta, se espera que los promedios de la muestra estén más cercanos a la media poblacional μ. Siendo así, se dice que es un estimador consistente de μ. 6.2.5. Eficiencia. La eficiencia de un estimador depende de su varianza. Por ejemplo, un estimador es más eficiente que otro, si la varianza del primero es menor que la varianza del segundo, en muestreo repetido. Por ejemplo, se puede calcular la eficiencia de un estimador por medio de formar la relación de las varianzas de dos estimadores, digamos estimador θ1 y estimador θ2, es decir, varianza, θ1/varianza θ2. Por ejemplo, si se quiere comparar la media muestral con la mediana de la muestra, esto se denotaría como la relación σ2/n / πσ2/2n = 2π. Bajo estas condiciones, esto demuestra que, para el mismo tamaño de muestra n, la varianza de la media es menor que la varianza de la mediana; por lo tanto, la media es un estimador más eficiente que la mediana (como en realidad lo es). Por otro lado, en estimador se dice que es suficiente, si usa toda la información acerca de parámetro estimado contenido en la muestra. 6.2.6. Error estándar de la media. Antes de reportar el valor de una estimación puntual es necesario dar una medición de precisión de la estimación, y ésta se da a través del error estándar de la media. Para dar una mejor idea acerca del error estándar nos remitimos al llamado teorema del límite central (un concepto muy importante en estadística discutido en el capítulo anterior). Como se asentó, este teorema dice que, si X posee cualquier distribución con media μ y desviación estándar σ, entonces, la media muestral basado en una muestra aleatoria de tamaño n, tendrá una distribución que se aproxima a la distribución de una
www.full-ebook.com
variable aleatoria normal con promedio μ y desviación estándar σ/√n, es decir, a medida que n aumenta sin límites. Esto significa que, la distribución de las medias, se acerca a la distribución normal, a medida que el tamaño de la muestra aumenta. En general, la distribución muestral de los promedios de la muestra, es la distribución de las medias muestrales, las cuales se obtienen cuando se sacan, repetidamente, muestras iguales de la misma población. Derivado de estas premisas, el promedio de los promedios de la muestra será el promedio poblacional μ denotado por μ , es decir, μ = μ. Similarmente, la varianza de la distribución muestral será igual a la varianza de la población dividida entre el tamaño de la muestra usado, esto es, σ = σ2/n. La raíz cuadrada de la función anterior es σ = σ/√n o sea el error el error estándar de la media. 6.2.7. Estimación por intervalo. En contraste con el punto estimador, la estimación por intervalo consiste en un intervalo que, con un grado de convicción variante, contiene el parámetro poblacional que se estima. Un intervalo de confianza es un rango o intervalo de valores que puedan contener el valor verdadero del parámetro poblacional. De esta manera, un estimador por intervalo saca inferencias acerca de una población por medio de estimar el valor de un parámetro desconocido, es decir, haciendo un intervalo que pueda incluir el valor del parámetro poblacional. Un intervalo de confianza está relacionado con el grado de confianza (o coeficiente de confianza), el cual es la probabilidad (1 – α) de que el parámetro poblacional está incluido en el intervalo de confianza y es una medida de que, tan confiados estamos de que el intervalo contenga el parámetro poblacional. Los valores más comunes de niveles de confianza son 95% (con α = 0.05) y 99% (con α = 0.01). Sin embargo, el nivel de confianza de 95% es el más común, porque da un buen balance entre precisión (reflejado por el ancho del intervalo de confianza) y confiabilidad, expresada por el grado de confianza. 6.3. Valores críticos. Dentro del tema de intervalos de confianza, también se incluyen valores críticos. El valor crítico de una prueba estadística es el valor que es, “justamente significante” a un valor dado de alfa (α = 0.05 o α = 0.01). El valor crítico se define como el número en el lindero que separa muestras estadísticas que son probables que puedan ocurrir. El valor crítico se establece de tal manera que, la probabilidad de que la prueba estadística, que está mas allá del valor crítico es justamente igual al nivel de significancia usado, si la hipótesis
www.full-ebook.com
nula es verdadera. Nunca se puede “aceptar” una hipótesis alternativa, solamente se puede rechazar la hipótesis nula a favor de la alternativa. Los valores críticos aplican a intervalos de confianza para las distribuciones de z, t, F o JI cuadrada. Por ejemplo, la anotación que se usa en la distribución normal estándar es zα/2, donde convencionalmente, se usa el símbolo Griego α para describir la probabilidad correspondiente a un área. 6.4. Intervalo de confianza para muestras grandes. Para muchos fines prácticos, no es suficiente tener un solo punto estimador del parámetro poblacional, como se indicó anteriormente, sino que es necesario tener un procedimiento de estimación que mida el grado de precisión involucrado. Este procedimiento consiste en construir intervalos de confianza de estimación, es decir, para muestras grandes, como se explicará enseguida. 6.4.1. Intervalo de confianza para μ con σ conocida (teoría de muestreo grande). Se sabe que la estadística aleatoria Z = ( - μ) / σ/√n sigue a la distribución normal, con μ = 0 y σ = 1. Si todas las muestras posibles de un tamaño n son sacadas de una población y el valor de Z se calcula para cada muestra, el 95% o 99% de los valores de Z caerán entre –zα/2 y zα/2. Sabemos que la probabilidad de que z esté entre –zα/2 y zα/2 es (1 – α). Esto se puede expresar como: P(-zα/2 < Z < zα/2) = (1 – α)
(6-1)
Algebraicamente, se puede derivar la función del intervalo de confianza para μ, sustituyendo el valor de Z, para luego multiplicar cada elemento de (6-1) por σ/ √n, para luego restarle de cada término. Después de esto, se multiplica por -1 (reversando el sentido de las desigualdades) y nos da la función de abajo: P( - zα/2 σ/ < μ < + zα/2 σ/ ) = 1 – α Donde: zα/2 es el valor de Z a la derecha del cual se tiene un área de α/2
www.full-ebook.com
(6-1a)
La probabilidad (1 – α) se llama el nivel de confianza – zα/2 σ / se llama el límite de confianza inferior + zα/2 σ/ se llama el límite de confianza superior σ / es el error estándar de la media La tabla de abajo muestra los diferentes niveles de confianza más comunes. Tabla 6.1. Tabla de abajo muestra los diferentes niveles de confianza mas comúnmente usados.
Nota: Es conveniente memorizar los valores más comunes de 1.96 y de 2.58 para facilitar los cálculos de los intervalos y de la estadística de inferencia.
Ejemplo 6.1. Usando los datos de temperaturas de la Presa Amistad de Ciudad Acuña, Coahuila, México mostrados en la Tabla 6.2 de abajo, desarrollar los siguientes enunciados. (a) Hacer un intervalo de confianza para la media poblacional usando un nivel de significancia de α = 0.05. (b) Hacer un intervalo de confianza para la media poblacional usando un nivel de significancia de α = 0.01. (c) Encontrar el área central = 0.95 (d) Encontrar el área central = 0.99
www.full-ebook.com
Tabla 6.2. Tabla mostrando las temperaturas mensuales y las anuales (oC) para el periodo (1977-2006) de la Presa Amistad.
Fuente: Comisión Internacional de Límites y Aguas. Presa Amistad de Ciudad Acuña, Coahuila, México
Solución: (a) Se usa la ecuación (6-1ª) y se calcula el valor de la media = 21.33 y el valor de la desviación estándar = 1.213, con n = 30. Para un nivel de confianza de 95%, y zα/2= z.0.025 , al cual le corresponde el valor de 1.96. Luego estos valores se sustituyen en la ecuación (6-1ª) para dar:
www.full-ebook.com
P(21.33 – 1.96(1.213) / √30 < μ < 21.33 + 1.96(1.213)√30) = 1 – 0.05 Simplificando da:
20.899 < μ < 21.767
(b) Para un nivel de significancia de 99% procedemos en forma similar con zα/2 = 0.01/2 al cual le corresponde de valor de 2.56. Ahora, sustituyendo los valores de la media y desviación estándar y el tamaño de la muestra n, nos da: P(21.33 – 2.58(1.213) / √30 < μ < 21.33 + 2.58(1.213)√30) = 1 – 0.01 Simplificando da:
20.763 < μ < 21.904)
(c) Con ν = n – 1 = 30 – 1 = 29 se busca en la tabla de t de estudiante (ver apéndice de este libro) en la columna de .025 con 29 grados de libertad y da 2.045 (d) Con ν = 29 se busca en la tabla de t de estudiante en la columna .005 con 29 grados de libertad y da 2.756. Ejemplo 6.2. Una muestra aleatoria de observaciones de análisis de sodio (Na) de 5 años sacadas de un pozo artesano tiene una desviación estándar poblacional de σ = 25 y una media de = 20, con un tamaño de muestra de n = 100. Encontrar el intervalo de confianza estimado del 95% y 99% para el promedio poblacional μ. Solución: La estimación puntual de μ es = 20. El valor de z a la derecha tiene un área de 0.025 y, por lo tanto, de 0.975 a la izquierda es z.0.025, el cual da 1.96 (de la Tabla 6.2). Usando la ecuación (6-1a), con σ = 25, = 20 y n = 100, α = 0.05 y z.0.025 =
www.full-ebook.com
1.96 da:
Similarmente, para encontrar un intervalo de confianza del 99% se encuentra el valor de z, a la derecha, en el cual existe un área de 0.005 y de 0.995 a la izquierda lo que equivale a z.005 = 2.58. Ahora usando la ecuación (6-1a) y sustituyendo los valores da:
Esta anotación también se puede abreviar como: 20 ± (2.58)(25/√100) 20 ± 6.45 El cual se reduce a:
13.55 < μ < 26.45
El intervalo 13.55 < μ < 26.45 dice que si sacáramos repetidamente muestras de tamaño 100 de esa población muestreada, 99% de los valores de serían de tal manera que, μ estaría en algún lugar entre - 6.45 y + 6.45 y 1% de los valores de producirían intervalos que no incluirían a μ. Situación similar ocurriría con el intervalo de confianza de 95%. 6.4.2. Interpretación del intervalo de confianza. De acuerdo a estudiosos de estadística, hay dos maneras de interpretar el intervalo de confianza. La primera se llama la interpretación probabilística, la cual está basada en la probabilidad de ocurrencia de intervalos de que incluyen a μ. Esta interpretación dice que, si en muestreos repetidos de una población normalmente distribuida, 100% (1 - α), de
www.full-ebook.com
todos los intervalos de la forma que pueda ser construido de muestras aleatorias simples de tamaño n, a la larga incluirá la media poblacional μ. La otra interpretación del intervalo de confianza es la interpretación práctica. Esta interpretación dice que estamos confiados en 100% (1 - α) que un solo intervalo calculado de una muestra aleatoria simple de tamaño n, proveniente de una población normalmente distribuida, incluye el parámetro poblacional μ. Nota: El intervalo de confianza proporciona una precisión de la exactitud de la estimación puntual de μ. Si este parámetro poblacional fuera realmente el valor central del intervalo, entonces, estima a μ sin error. Sin embargo, la mayoría de las veces no será exactamente igual a μ. El tamaño de este error es el valor absoluto del diferimiento entre μ y y se puede tener una confianza del (1 – α)100% de que el diferimiento no excederá la diferencia
.
6.4.3. Intervalo de confianza para la diferencia de dos medias poblacionales (μ1 – μ2) con varianzas σ21 y σ22 conocidas (teoría de muestreo grande). Usualmente, necesitamos saber la diferencia entre dos promedios poblaciones. Para esto es necesario ampliar los resultados del intervalo de confianza para μ con σ conocido descrito anteriormente. Si 1 y 2 son las medias de muestras aleatorias independientes con varianzas conocidas σ21 y σ22 de muestras aleatorias independientes de tamaños n1 y n2, respectivamente, un intervalo de confianza de (1 – α)100% para las diferencias de dos medias (μ1 – μ2) se da como: ( 1 - 2) - zα/2 (σ21/n1 + σ22/n2)0.5 < (μ1 – μ2) < ( σ22/n2)0.5 (6-2)
1 -
2 2) + zα/2 (σ 1/n1 +
Donde: zα/2 es el valor de la distribución z que tiene un área de α/2 a la derecha.
www.full-ebook.com
(
1 − 2) es el estimador de (μ1 - μ2) 1 el promedio muestral de la primera distribución y
2 es el promedio de la
segunda distribución zα/2 es el valor de z con α = 0.05 y/o 0.01 niveles de significancia n1 y n2 tamaños de muestra uno y muestra dos, respectivamente σ21 y σ22 son las varianzas de las muestras uno y dos, respectivamente Ejemplo 6.3. En un estudio de usos del agua se seleccionaron dos muestras aleatorias de aguas residuales domésticas. La primera fue de 50 casos y la segunda de 50 observaciones. La media de la primera muestra fue de 1 = 42.0 mg/L y la media de la segunda muestra fue de 2 = 36. Las desviaciones estándar fueron de 6.0 y 8.0, para la muestra uno y dos, respectivamente. Encontrar el 95% de intervalo de confianza para (μ1 – μ2). Solución: Usando la ecuación (6-2) y considerando 1 = 42.0 y 2 = 36.0, σ21 = 36, σ22 = 64, y n1 = n2 = 50 y sabiendo que el punto estimador de (μ1 - μ2) es 1 y 2, usando zα/2 = z.05/2 nos da zα/2 = ±1.96. Ahora, substituyendo todos estos valores en la función estadística del intervalo de confianza (6-2), nos da: (42 – 36) – 1.96 (36 / 50 + 64 / 50)0.5 < (μ1 – μ2) < (42 - 36) + 1.96 (36 / 50 + 64 / 50)0.5 3.228 < (μ1 - μ2) < 8.772 Esto dice que las diferencias de los dos promedios (42 – 36) = 6 está entre 3.228 y 8.772 6.4.4. Intervalo de confianza para una proporción (muestras grandes). Si p es la proporción de éxitos en una muestra aleatoria de tamaño n y q = 1 – p, un intervalo de confianza aproximado de (1 – α)100% para el parámetro binomial ρ se da por la función de abajo:
www.full-ebook.com
p – zα/2 < ρ < p + zα/2 La función abreviada es: p ± zα/2
(6-3)
(6-3a)
Donde: zα/2 es el valor de z dejando un área de α/2 a la derecha p = x/n es la proporción o porcentaje (número de eventos/número de ensayos) que estima a ρ, el parámetro de población, en una muestra aleatoria de tamaño n (número de ensayos observados) y donde x es el numero de eventos y q = 1 – p. Ejemplo 6.4. Estimar el parámetro de proporción poblacional ρ con un nivel de confianza de 95%, si el número de eventos es x = 30 y número de ensayos es n =100. Solución: Aquí p = x/n = 30/100 = 0.30, zα/2 = 1.96, q = 1 – p = 1 – 0.30 = 0.70, n = 100. Usando la función abreviada de (6-3a) y sustituyendo da: 0.30 ± 1.96 [(0.30)(0.70)/100)]0.5 0.30 ± 0.09 0.210 < ρ < 0.390 Ejemplo 6.5. En un estudio de contaminación atmosférica, para determinar las industrias que estaban contaminando el aire de cierta localidad, se sacó una muestra al azar de 100 industrias y se observó que 60 industrias estaban cumpliendo con límites ambientales aceptables. Encontrar el intervalo de confianza de 95% para la proporción real de industrias ρ que están cumpliendo con las leyes ambientales del aire.
www.full-ebook.com
Solución: Se usa la ecuación (6-3), con x = 60 eventos y n = 100 ensayos, p = 60/100 = 0.60, q = 1 – 0.60 = 0.40, y z0.025 = 1.96. Sustituyendo los valores en (6-3) da: 0.60 – 1.96[(0.60)(0.40)/100]0.5 < ρ < 0.60 + 1.96[(0.60)(0.40)/100]0.5 0.497 < ρ < 0.697 La interpretación del intervalo 0.497 < ρ < 0.697, es de que si p es el valor central de un intervalo de confianza de (1 – α) 100%, entonces, ρ estima a p sin error. Sin embargo, la mayor parte de las veces p no será igual a ρ (dependiendo del tamaño de n). Bajo estas condiciones, la estimación puntual es errónea, y la magnitud de este error será el diferimiento entre p y ρ, y se puede estar confiado en (1 – α)100%, de que este diferimiento no excederá zα/2 (pq/n)0.5, es decir, 0.049 en esta instancia. 6.4.5. Intervalos de confianza para la diferencia de proporciones poblacionales (p1 – p2) para muestras grandes. Si 1 y 2 son las proporciones en muestras aleatorias de tamaños n1 y n2, respectivamente, y 1 = 1 - 1 y 2 = 1 - 2, entonces, un intervalo de confianza del (1 – α)100% para la diferencia entre p1 – p2 se da como: ( 1 - 2) – zα/2 ( 1 1 /n1 + 2 2 /n2)0.5 < (ρ1 – ρ2) < ( 1 - 2) + zα/2 ( 1 1 / n1 + 2 2 / n2)0.5
(6-4) Donde: 1 y 2 son las proporciones de la primera y segunda muestra, respectivamente
n1 y n2 son los tamaños de las muestras uno y dos, respectivamente zα/2 es el valor de z con un área de α/2 a la derecha de la distribución
www.full-ebook.com
Ejemplo 6.6. Si 1 = 0.40 y 1 = 0.60 y si 2 = 0.18 y 2 = 0.82, con tamaños de muestra de n1 = 140 y n2 =150, respectivamente, calcular el intervalo de confianza de 95% para la diferencia de las proporciones. Solución: Usando la función (6-4) abreviada y sustituyendo los valores apropiados da: ( 1 - 2) ± 1.96 ( 1 1/n1 + 2 2/n2)0.5 (0.40 – 0.18) ± 1.96 [(0.40)(0.60)/140 + (0.18)(0.82)/150]0.5 (0.22) ± 0.1015 Por lo tanto el intervalo de confianza para la diferencia de las dos proporciones es: 0.1185 < (ρ1 -ρ2 ) < 0.3215 6.5. Distribución de t de Estudiante (teoría de muestreo pequeño). Antes de proseguir con intervalos de estimación, para el promedio poblacional μ para muestras pequeñas, se dará una descripción de la distribución de t de Estudiante. Como se formalizó antes, a diferencia de la distribución z, que requiere que la varianza sea conocida y que la muestra sea de n ≥ 30 casos o que la población muestreada sea normal, la distribución de t de Estudiante, no requiere de estas condiciones. Sin embargo, para muestras menores que 30 observaciones se usa lo que se llama teoría de muestreo pequeño, que está relacionada con la distribución de t de Estudiante, con la JI cuadrada o con la distribución F. La distribución de t se nombró después de W.S. Gosset, quien usó el seudónimo de estudiante. De esta manera en los siguientes capítulos de estadística inferencial se verá que, cuando usamos la distribución normal siempre se conoce el valor de σ, el tamaño de la muestra debe ser mayor que 30 casos o que la distribución muestreada sea normal. Pero cuando usamos la distribución de t de Estudiante, no se conoce σ y el tamaño de la muestra es menor que 30 casos, sin saber si la distribución muestreada es normal o no. En la sección de estadística inferencial se discutirá la aplicación de la variable
www.full-ebook.com
aleatoria normal estandarizada z, dada como Z = ( - μ) / σ/√n. Sin embargo, esta función tiene un uso limitado, porque la varianza σ2 de la población rara vez se conoce, y porque la población muestreada debe ser normal o aproximadamente normal. La distribución de t de Estudiante no tiene esta limitación, porque aún, para muestras de n < 30 casos, se asume que σ = s. Así sustituyendo el valor de σ por s en Z = ( - μ) / σ√n y sustituyendo z por t se obtiene la función de t de Estudiante dada abajo. t = ( - μ) / s/√n
(6-5)
Donde: = promedio muestral μ = promedio poblacional que se quiere probar s = desviación estándar muestral n = tamaño de la muestra s/√ n = error estándar del promedio 6.5.1. Tipos de funciones usadas para hacer intervalos de estimación usando la distribución de t de Estudiante. 1. Se usa para hacer intervalos de confianza para un solo parámetro poblacional μ. 2. Se usa para hacer intervalos de confianza para la diferencia de dos medias, v. g. (μ1 – μ2), con varianzas iguales pero desconocidas. 3. Se usa para hacer estimaciones para funciones pareadas, es decir, usando la t de estudiante. En este caso se estudiará la diferencia de dos promedios, cuando las muestras son dependientes y las varianzas de las dos poblaciones no son necesariamente iguales. 6.5.2. Intervalo de confianza para la media poblacional μ con σ desconocida para muestras pequeñas.
www.full-ebook.com
Como se asentó anteriormente, cuando se conoce σ y el tamaño de la muestra es n > 30 o cuando se sabe que la población muestreada es normal se usó la ecuación para muestras grandes usando con distribución z. Sin embargo, cuando no se conoce σ hay que remitirse a lo que se llama teoría de muestreo pequeño cuando el tamaño de la muestra es n < 30 casos. En este instante se usará la distribución de t de Estudiante para poder hacer intervalos de confianza o pruebas de hipótesis (estas últimas se discutirán en el capítulo de estadística de inferencia). De esta manera, si y s son la media y la desviación estándar de una muestra aleatoria sacada de una población normal con σ2 desconocida el intervalo de confianza de (1 – α)100% para el promedio poblacional μ se da como:
- t(1-α/2;n-1) s / √n < μ < + t(1- α/2;n-1) s / √n
(6-6)
Donde t(1-α/2;n-1) es el valor de la t de Estudiante con ν = n -1 grados de libertad. Para calcular los valores de t(1-α/2) se tiene que usar la tabla de la distribución de estudiante dada en el Apéndice de este libro, que da los puntos porcentuales de t(λ;ν) de la distribución de t de Estudiante. Ejemplo 6.7. En un estudio de meteorología relacionado con las precipitaciones anuales, se requiere encontrar el intervalo de confianza del 95% para la media poblacional μ de todas las precipitaciones anuales, si el promedio estadístico es de 70.0 centímetros de lluvia, con una desviación estándar de s = 12.0 y un tamaño de muestra de 9. Siendo así, se desea construir un intervalo de confianza (α = 0.05) para estimar la longitud del verdadero promedio esperado de la precipitación anual. Asumir que la población muestreada es normal. Solución: El punto de estimación es 70.0. El error estándar calculado es s/√n = 12/√9 = 4.0. Para encontrar t(1-α/2) buscamos el valor de t0.975;8 en la tabla de la distribución de t del Apéndice de este libro con 9 – 1 = 8 grados de libertad, lo que da 2.306. El intervalo deseado usando la función (6-6) es:
www.full-ebook.com
70.0 – 2.306 (12.0/√9) < μ < 70.0 + 2.306 (12.0/√9) Que también se puede escribir en la forma abreviada como: 70.0 ± 9.224 O sea:
60.78 < μ < 79.22
Esto dice que basado en la muestra de 9 observaciones, estamos confiados en 95% que los límites de 60.78 y 79.22 centímetros de lluvia contienen el verdadero promedio esperado μ. 6.5.3. Intervalo de confianza para la diferencia de dos medias poblacionales (μ1 – μ2), con varianzas σ21 y σ22 iguales, pero desconocidas (muestras pequeñas). Anteriormente discutimos intervalos de confianza para la diferencia entre dos promedios poblacionales, con poblaciones normales y varianzas poblacionales conocidas usando la distribución normal z para muestreas grandes. Sin embargo, en algunas aplicaciones las poblaciones muestreadas pueden no estar normalmente distribuidas y/o las varianzas pueden ser desconocidas. En este caso nos remitimos a la teoría de muestreo pequeño usando la distribución de t de Estudiante. Acordemente, esta sección discutirá tres posibles situaciones con estas aplicaciones: 1. Intervalo de confianza para la diferencia de (μ1 – μ2) con varianzas σ21 y σ22 iguales, pero desconocidas (para muestras pequeñas). 2. Intervalo de confianza para (μ1 – μ2), con varianzas σ21 y σ22 desiguales, pero desconocidas. (Para muestras pequeñas) 3. Distribuciones poblacionales no normales con varianzas desconocidas.
www.full-ebook.com
Definición 6.1. Si 1 y 2 son los promedios de muestras aleatorias de tamaños n1 y n2, respectivamente, de poblaciones normales con varianzas iguales, (σ21= σ22) pero desconocidas, un intervalo de confianza de (1 – α)100% para (μ1 – μ2) se da como: ( 1 - 2) – t(1-α/2;v) sp (1/n1 + 1/n2)0.5 < (μ1 – μ2) < ( 1 - 2) + t(1-α/2;v) sp (1/n1 + 1/n2)0.5
(6-7) Donde: 1 es el promedio de la primera muestra y 2 es el promedio de la segunda muestra, n1 y n2 son los tamaños de muestra uno dos. t(1-α/2;v), es el valor de la distribución de t con ν = n1 + n2 – 2 grados de libertad La función de la varianza combinada sp2 es:
Donde: s2p es la varianza combinada de las dos muestras y la estimación de la desviación estándar poblacional, s21 y s22 son las varianzas de muestra uno y dos, respectivamente y t(1-α/2;v) es el valor de la distribución t con ν = n1 + n2 – 2 grados de libertad, con una área de α/2 a la derecha. Ejemplo 6.8. En aplicaciones a las tecnologías del agua, se hace un experimento para probar las eficiencias de dos tipos de plantas de tratamientos terciarios, para aguas residuales industriales, es decir, en cuanto al tratamiento de cloratos (ClO4) en el agua. Se saca una muestra aleatoria de 12 análisis de promedios anuales (promediados sobre 5 años) y se calcula un promedio estadístico de 2.1 mg/L con una varianza de 0.5. Similarmente, se saca otra muestra de 12 análisis de
www.full-ebook.com
promedios anuales de la segunda planta y se calcula una media de 1.0 mg/L con una varianza de 0.6. Asumiendo que las dos poblaciones de cloratos son normales y que las dos poblaciones de varianzas son iguales (no son exactamente iguales), hacer lo siguiente: (a) Un intervalo de confianza de 95% y 99% para la diferencia de los dos promedios poblacionales. Hacer esto manualmente. (b) Hacer lo mismo que en el inciso (a), pero ahora, usando el programa Minitab. Solución: (a) Debido a que hay independencia se usa la función (6-7). Pero primero se usa la función (6-7a) para calcular los grados de libertad de la varianza combinada y luego la función (6-7) para estimar el intervalo de confianza. Sustituyendo los valores apropiados de 1 = 2.1 mg/L, s21 = 0.5 (s1 = 0.707), n1 = n2 = 12, 2 = 1.0, s22 = 0.6 (s2 = 0.775), con las regiones criticas de t (.975;22) = 2.074, y da: Usando la función (6-7ª) y sustituyendo da:
sp = √0.55 = 0.7416
O bien,
Usando la función (6-7) en su forma abreviada y sustituyendo da: (
1 - 2) ± t[1-α/2;n1+n2-2] sp (1/n1 + 1/n2)0.5
(2.1- 1.0) ± 2.074 (0.7416) (1/12 + 1/12)0.5 1.1 ± 0.6275 1.73, 0.473 0.4725 ≤ (μ1 - μ2) ≤ 1.7275
www.full-ebook.com
(b) Usando el Minitab, irse a: Stat → Basic Statistics → 2 – Sample t. Luego en la ventana de diálogo que aparece (ver abajo), puntear “Summarized Data” e introducir la información como se ve en la figura de abajo.
Figura 6.1. Diagrama esquemático mostrando las entradas en la hoja del Minitab La figura de abajo muestra los resultados. Figura 6. 2. Resultados impresos de Minitab.
www.full-ebook.com
Nota: Aquí, es de verse que usando el Minitab, asumiendo varianzas iguales o desiguales, el intervalo de confianza es el mismo (para 3 figuras significativas), el valor de t es el mismo, pero el valor de p y de los grados de libertad son diferentes.
6.5.4. Intervalo de confianza para (μ1 – μ2), con varianzas σ21 y σ22 desiguales y desconocidas. (Teoría de muestreo pequeño) Si 1, s21 y 2 y s22 son los promedios y varianzas de muestras independientes de tamaños n1 y n2, respectivamente, provenientes de distribuciones normales con varianzas σ21 ≠ σ22 y desconocidas, un intervalo de confianza de (1 – α)100% para la diferencia entre los promedios (μ1 –μ2) se describe como: ( 1 – s22/n2)0.5
2 2 2) – t(1-α/2;ν) (s 1/n1 + s 2/n2)0.5 < (μ1 –μ2) < ( 1 –
2 2) + t(1-α/2;ν) (s 1/n1 +
(6-8)
Donde: t(1-α/2;ν) es el valor de la distribución de t con ν grados de libertad y donde ν es igual a:
www.full-ebook.com
Donde ν es grados de libertad de la distribución de t de estudiante. Ejemplo 6.9. En un sondeo para verificar las eficiencias de dos plantas de tratamiento de aguas municipales localizadas en diferentes lugares, supóngase que un ingeniero estadístico muestrea al azar (promediados durante 2 años) dos poblaciones de concentraciones de DBO5 (demanda bioquímica de oxígeno de 5 días) provenientes de esas dos plantas de tratamiento de aguas residuales. Para la primera planta se calcula una media muestral 1 = 4.00 mg/L de DBO con una varianza de s21 = 1.5 y un tamaño de muestra de n1 = 16 análisis del DBO. Situación similar se hace con la segunda planta de tratamiento, en la cual se calcula una media muestral de 2 = 3.6 con una varianza s22 = 1.3 y un tamaño de muestra de n2 = 15 análisis del DBO. Hacer lo siguiente: (a) El ingeniero desea construir un intervalo de confianza del 95% para las diferencias de las medias μ1 y μ2 de cada planta. Hacer estos cálculos manualmente usando las fórmulas explicadas anteriormente asumiendo varianzas desiguales. (b) Hacer lo mismo que en el inciso (a), pero ahora usando el Minitab y comparar los resultados. Solución: (a) Aquí hay independencia, por lo que se usa la ecuación (6-8). Entonces, primeramente, se calculan los grados de libertad usando la ecuación (6-8a):
www.full-ebook.com
La estimación puntual de (μ1 –μ2) es ( 1 – 2) = (4.0 – 3.6) = 0.4. Usando un nivel de confianza de 95%, con 28 grados de libertad y consultando la tabla de la distribución de t da t(.975;28) = 1.701. Por lo tanto, sustituyendo todos estos valores en la función (6-8) abreviada da: -0.470 < (μ1 –μ2) < 1.268 (Aquí nótese que el intervalo contiene 0, lo que indica que hay mucha variación en la distribución de los datos) (b) Usando el Minitab proceder de la siguiente manera. Irse a: Stat → Basic Statistics → 2-Sample t. En la ventana de diálogo de “2Sample t (Test and Confidence Interval)” puntear “Summarized Data” y proseguir con las demás instrucciones. Aquí nótese que en la ventana de diálogo de “2-Sample t (Test and Confidence Interval)” aparece una ventanilla de “Assumed Equal Variances”, pero como en este problema estamos asumiendo varianzas desiguales, pues se queda en blanco. De cualquier manera los resultados obtenidos manualmente y con el Minitab son iguales, como se muestra en la figura impresa de abajo. Figura 6.3. Resultados impresos del Minitab.
www.full-ebook.com
(Nótese que el resultado incluye también prueba de hipótesis, misma que se verá detalladamente en el capítulo de de pruebas de hipótesis)
6.6. Intervalo de confianza para funciones de t pareadas μ = (μ1 – μ2). (Muestras pequeñas). Un (1 – α)100% intervalo de confianza estimado para (μ1 – μ2), cuando la muestra de observaciones (x11, x21), (x12, x22), (x13, x23),…., (x1n, x2n) es pareada, se da como: - tα/2;n-1 sd /√n < μ < + tα/2;n-1 sd /√n
(6-9)
Donde:
tα/2;n-1 es el valor de la distribución de t Ejemplo 6.10. En estudios de ingeniería ambiental del agua, se dan los siguientes datos de DBO5 tomados en dos diferentes secciones de un mismo río, para observar la capacidad de asimilación de esta corriente. La Tabla 6.3 de abajo muestra la información pertinente.
www.full-ebook.com
Tabla 6.3. Tabla mostrando los datos.
Hacer lo siguiente: (a) Un intervalo de confianza del 95% para μ = (μ1 – μ2). (b)¿Existen dudas acerca de la normalidad aproximada de la distribución de las diferencias en la reducción del DBO? Para acertar semejante conjetura, se le pide al lector hacer una gráfica de probabilidad para probar o desaprobar semejante juicio. (c) Usando el Minitab calcular el intervalo de confianza y comparar los resultados. Solución: (a) La gráfica de probabilidad normal se da abajo.
www.full-ebook.com
Figura 6.4. Gráficas de probabilidad normal para ambas distribuciones. Aquí se observa que los datos siguen, razonablemente, a la distribución normal, porque la mayoría de todos los puntos están cercanos a la línea recta trazada y dentro de las bandas de confianza de 95%. Los valores de la estadística de bondad de ajuste de Anderson-Darling son de 0.147 y 0.201 respectivamente. (b) Se calcula la diferencia entre las dos distribuciones de la tabla de abajo y da: Tabla 6.4. Tabla señalando las diferencias entre las dos muestras.
www.full-ebook.com
Ahora se calcula la media y la desviación estándar de las diferencias usando la tercera columna de la tabla de arriba. = 3.48, s = 2.163 y t.975;4 = 2.776. Usando la ecuación (6-9) y sustituyendo los valores de arriba da: 3.48 – 2.776 (2.163/√5) < μ < 3.48 + 2.776 (2.163/√5) 0.7946 < μ < 6.1654 (c) Usando el Minitab se obtienen los resultados impresos como: Figura 6.5. Figura mostrando los resultados impresos.
Nota: el resultado del Minitab usa únicamente 3 y 4 figuras significantes.
6.7. Intervalo de confianza para (μ1 – μ2) con varianzas σ21 y σ22 desconocidas y desiguales, para poblaciones que no están normalmente distribuidas (muestreo grande). En algunas ocasiones encontramos situaciones en las cuales las poblaciones bajo estudio no son normales y además con varianzas desconocidas. Aun, bajo estas condiciones, es deseables construir intervalos de confianza para (μ1 – μ2). Sin embargo, si n1 y n2 son muestras grandes, se puede aplicar el límite del teorema central y podemos estimar las varianzas poblaciones σ21 y σ22 a través de las varianzas muestrales s21 y s22. Siendo así, se puede construir un intervalo de confianza (1 – α)100%
www.full-ebook.com
aproximado para estimar el intervalo (μ1 – μ2), como se muestra abajo. En esta aplicación, sin embargo, no se darán ejemplos y se le deja al interlocutor a que medite acerca de ésta. ( 1 - 2) – z1-α/2 (s21/n1 + s22/n2)0.5 < μ1 –μ2 < ( s22/n2)0.5 (6-10)
1 -
2 2) + z1-α/2 (s 1/n1 +
6.8. Distribución de JI cuadrada. La distribución de JI cuadrada es un caso especial de la distribución gamma y se obtiene al poner α = ν/2 y β = 2. Esta distribución se usa para hacer intervalos de confianza para la varianza y la desviación estándar. También se usa para pruebas de hipótesis para la varianza, como se verá más adelante. En una distribución normalmente distribuida con varianza σ2, seleccionamos una muestra aleatoria de tamaño n y computamos la varianza de la muestra. La estadística usada es:
Donde: χ2 es el símbolo que denota la JI cuadrada, n es el tamaño de la muestra, s2 es la varianza muestral y σ2 es la varianza poblacional. Para calcular los valores críticos de la estadística χ2 se usa la tabla de la distribución de JI cuadrada dada en las tablas estadísticas de la JI cuadrada. Esta distribución de JI cuadrada se determina por el número de grados de libertad usando n – 1. También, los valores críticos se pueden calcular usando el Minitab. Ejemplo 6.11. Encontrar los valores críticos de la distribución de JI cuadrada, bajo las siguientes condiciones, usando la tabla de JI cuadrada. Luego hacer lo
www.full-ebook.com
mismo con el Minitab y hacer gráficas señalando los valores críticos: (a) Área a la derecha del valor crítico, con 20 grados de libertad, con α = 0.05. (b) Área a la izquierda del valor crítico, con 20 grados de libertad, con α = 0.05. (c) Área a la izquierda y a la derecha de los valores críticos, con 20 g.l., con α = 0.05. Solución: (a) Usando la tabla de JI cuadrada se busca 20 en la columna de grados de libertad, con el área de α dada en la parte superior de la tabla de JI, y luego se mueve hacia el renglón 0.05 y el valor crítico se lee como 31.41. (b) Para este inciso se procede buscando el valor de 1 – α, es decir, 1 – 0.05 = 0.95 y con ν = 20 y da 10.851. (c) Para este inciso, para encontrar el valor crítico izquierdo, se procede buscando la columna con el valor de 1 – α/2, es decir, 1 – 0.05/2 = 0.975, con ν = 20 y da 9.591. Similarmente, para el valor crítico superior derecho se usa la columna con el área α/2, es decir, 0.05/2 = 0.025 y da 34.17. Ahora para (a) usando el Minitab, irse a: Graph → Probability Distribution Plot. Luego, en la ventana de diálogo de “Probability Distribution Plots” puntear la ventanilla de “View Probability” y “OK”. Enseguida, en la ventana de diálogo que aparece de “Probability Distribution Plot-View Probability” y en la ventanilla de Distribution” buscar “Chi Square” y poner los grados de libertad en la ventanilla correspondiente (20 en este caso). Finalmente, puntear “Shaded Area”, “Right Tail” y “OK”. Esto genera la gráfica de abajo.
www.full-ebook.com
Figura 6.6. Figura mostrando la gráfica de la distribución de JI cuadrada con 20 grados de libertad, con α = 0.05 y el valor crítico calculado de 31.4. Para (b) usando el Minitab, irse a: Graph → Probability Distribution Plot. Luego, en la ventana de diálogo de “Probability Distribution Plots” puntear la ventanilla de “View Probability” y “OK”. Enseguida, en la ventana de diálogo que aparece de “Probability Distribution Plot-View Probability” y en la ventanilla de “Distribution” buscar “Chi Square” y poner los grados de libertad en la ventanilla correspondiente. Finalmente, puntear “Shaded Area”, “Left Tail” y “OK”. Esto genera la gráfica de abajo.
www.full-ebook.com
Figura 6.6a. Figura mostrando la gráfica de la distribución de JI cuadrada con ν = 20 grados de libertad, con α = 0.05 y el valor crítico calculado de 10.9. Para (c) usando el Minitab, irse a: Graph → Probability Distribution Plot. Luego, en la ventana de diálogo de “Probability Distribution Plots” puntear la ventanilla de “View Probability” y “OK”. Enseguida, en la ventana de diálogo que aparece de “Probability Distribution Plot-View Probability” y en la ventanilla de “Distribution” buscar “Chi Square” y poner los grados de libertad en la ventanilla correspondiente. Finalmente, puntear “Shaded Area”, “Both Tails” y “OK”. Esto genera la gráfica de abajo.
www.full-ebook.com
Figura 6.6b. Figura mostrando la gráfica de la distribución de JI cuadrada con 20 grados de libertad, con α = 0.05, y con valores críticos de 9.59 (izquierdo) y 34.2 (derecho). 6.8.1. Intervalo de confianza para la estimación de la varianza usando la JI cuadrada. Para construir la función del intervalo de confianza (1 – α)100% para la varianza σ2 poblacional se puede hacer a través de varias manipulaciones algebraicas. Por ejemplo, se pueden seleccionar dos valores de χ2 de la tabla de JI cuadrada de tal manera que α/2 esté a la izquierda del valor más pequeño y α/2 a la derecha del valor más grande. Si llamamos estos valores χ2α/2 (χ2S) y χ212 α/2, (χ I), límites superior e inferior, respectivamente, entonces, (1 – α)100% para la función (6-11), es:
Enseguida, se puede reescribir la función (6-11a), de tal manera que podamos
www.full-ebook.com
tener una expresión con la varianza σ2 sola, como un término de en medio. Para esto primero dividimos cada término por (n – 1)ss para obtener:
Ahora, tomando el recíproco de la ecuación (6-11b) y reversando la dirección de las desigualdades da:
La ecuación (6-11c) es el (1 – α)100% intervalo de confianza para la varianza poblacional σ2. Donde: χ2[ ] es el límite inferior o izquierdo (χ2 ) χ2[ ] es el límite superior o derecho (χ2 ) donde α = 0.05 o 0.01 α/2;ν
I
1-α/2;ν
S
s2 es la varianza muestral, σ2 es la varianza poblacional, ν = n – 1 grados de libertad donde n es el tamaño de la muestra Ejemplo 6.12. Con la contaminación atmosférica, si una muestra aleatoria estadística de 17 mediciones de óxidos de azufre (SO2) tiene una varianza muestral de s2 = 196.38 (s = 14.01), encontrar el intervalo de confianza para la varianza poblacional σ2. Hacer, primeramente este problema manualmente, y
www.full-ebook.com
luego usando el Minitab. Usar los siguientes niveles de significancia de: (a) α = 0.05 (b) α = 0.01 Solución: (a) Se requiere usar la función (6-11c). Se calculan los límites del lado derecho e izquierdo y luego se sustituyen los valores correspondientes. Para el límite superior: χ2[α/2;ν] = χ2[.025;16] = 28.845 Para el límite inferior: χ2[1-α/2;ν] = χ2[.975;16] = 6.908 Ahora, sustituyendo estos valores en la función (6-11c) nos da: (17 – 1)(196.38 ) / 28.845 < σ2 < (17 – 1)(196.38 / 6.908) 108.93 < σ2 < 454.85 Para el intervalo de confianza para la desviación estándar, únicamente, se saca la raíz cuadrada de σ2, esto es: 10.44 < σ < 21.33 (b) Para calcular los límites derecho e izquierdo, con un nivel de significancia de 0.01 se procede en forma similar, como sigue: Para el límite inferior izquierdo: χ2[α/2;ν] = χ2[.005;16] = 34.267 Para el límite superior derecho: χ2[1-α/2;ν] = χ2[.995;16] = 5.142 Enseguida, usando la fórmula del intervalo (6-11c) y sustituyendo da:
www.full-ebook.com
196.38(16) / 34.267 < σ2 < 196.38(16) / 5.142 91.69 < σ2 < 611.06 Este intervalo dice que estamos confiados en un 99% de que la varianza poblacional está entre 91.69 y 611.06 y el 1% de las veces estará fuera. El intervalo de confianza para la desviación estándar σ se calcula sacando la raíz cuadrada de 91.69 < σ2 < 611.06, lo cual da: 9.58 < σ < 24.72 Usando el Minitab proceder como: Graph → Basic Statistics → 1 Variance. Luego, en la ventana de diálogo de “1 Variance” puntear “Summarized Data” y seguir con las demás instrucciones. Figura 6.7. Resultados impresos del Minitab
(b) Para el intervalo de confianza de 99% los resultados se observan en la figura impresa de abajo: Figura 6.7a. Resultados impresos del Minitab.
www.full-ebook.com
Ejemplo 6.13. Este es un ejercicio de estudios de química ambiental del agua encaminado al uso de la distribución de JI cuadrada para estudios de estimación. Para esto se dan los siguientes datos de mediciones de dureza del agua (dureza definida como una característica del agua, la cual representa la concentración total de los cationes Ca++ y Mg++ expresados como carbonato de calcio y carbonato de magnesio). El método usado para el análisis fue el método titrimétrico de EDTA (Ethylenediamine tetraacetic acid, por sus siglas en ingles), es decir, ácido tetraacético etilenodiamino, explicado en el texto de Standard Methods (1971). Para este problema hacer los cálculos manualmente, y luego usar el Minitab. La tabla de abajo muestra los datos. Hacer lo siguiente: (a) Hacer una estadística descriptiva y encontrar el mejor punto estimador de la varianza poblacional, σ2. (b) Construir un intervalo de confianza estimado de 95% para la varianza poblacional σ2 y otro más para la desviación estándar poblacional σ usando las fórmulas. (c) Construir un intervalo de confianza estimado de 99% para la varianza poblacional σ2 y otro más para la desviación estándar poblacional σ usando las fórmulas. (d) ¿Contiene el intervalo de confianza, la varianza estadística estimada? (e) Hacer los incisos (b) y (c) usando el Minitab.
www.full-ebook.com
Tabla 6.5. Tabla mostrando los datos de las muestras aleatorias de mediciones de dureza de los iones de calcio y magnesio.
Solución: (a) La estadística descriptiva se da en la figura de abajo. De ahí, el punto estimador de la varianza es 65.65.
www.full-ebook.com
Figura 6.8. Resultados de la estadística descriptiva. (b) Usando la función de abajo y sustituyendo los valores de s2 = 65.65, n = 14 y ν = 14 – 1 = 13. El límite inferior: χ2α/2 = χ20.05/2;13 = 24.736 El límite superior: χ21-α/2,v = χ21- 0.05/2;13 = χ2 0.975;13 = 5.009 Usando la ecuación (6-11c) de arriba y sustituyendo todos los valores da:
El intervalo para la desviación estándar (sacando la raíz cuadrada de la varianza) es: 5.87 < σ < 13.05 (c) Para el intervalo de confianza para 99% se sustituyen los siguientes datos: El límite inferior: χ2[α/2;v] = χ2[0.005;13 ] = 29.819 El límite superior: χ2[1-α/2,v] = χ2 0.995;13 = 3.565 s2 = 65.65, n = 14.
www.full-ebook.com
Para la desviación estándar únicamente se saca la raíz cuadrada de la varianza y da: 5.340 < σ < 15.47 (d) El intervalo sí contiene la varianza estadística estimada (e) Usando el Minitab proceder como: Stat → Basic Statistics → 1 Variance. Luego en la ventana de dialogo de “1 Variance” puntear “Samples in Columns” e introducir la columna donde están los datos y seguir con las demás instrucciones. Usando el Minitab da los siguientes resultados impresos señalados en la figura de abajo: Figura 6.8a. Diagrama mostrando los resultados impresos para un nivel de confianza de 95%.
www.full-ebook.com
Figura 6.8b. Diagrama mostrando los resultados impresos para un nivel de confianza de 99%.
6.9. Distribución F, estadística usada para la estimación de la razón de dos varianzas. La distribución F es muy útil en la comparación de varianzas muestrales. La estimación puntual de la razón de dos varianzas poblacionales σ21 /σ22 está dada por la relación muestral s21 /s22 de las varianzas muestrales. Es por esto que, la relación de las dos varianzas estadísticas s21/s22 es el estimador de la relación de las dos varianzas poblacionales σ21/σ22.
www.full-ebook.com
Teorema 6.1. Si s21 y s22 son las varianzas de muestras aleatorias independientes de tamaño n1 y n2 sacadas de poblaciones normales, con varianzas poblacionales σ21 y σ22, respectivamente, entonces:
Esta función tiene una distribución F con ν1 = n1 – 1 y ν2 = n2 – 1 grados de libertad. Por lo tanto, se puede escribir como: P[F(1-α/2;ν1,ν2) < F < F(α/2;ν1,ν2)] = 1 – α
(6-12ª)
Donde F(1-α/2;ν1,ν2) y F(α/2;ν1,ν2)] son los valores de la distribución F con ν1 y ν2 grados de libertad, que dejan áreas de 1 – α/2 a la izquierda y de α/2 a la derecha, de la distribución F. La Figura 6.9 de abajo muestra los puntos críticos superior e inferior (con α = 0.05) de la distribución F. Sugerencia: Para hacer esta gráfica irse a: Graph → Probability Distribution Graph. En la ventana de “Probability Distribution Plots”, puntear “View Probability” y teclear “OK”. Luego en la ventana de “Probability Distribution Plot-View Probability” y en la ventanilla de “Distribution” puntear “F”. Enseguida, introducir los grados de libertad del numerador y del denominador y presionar “OK”. Enseguida en esa misma ventana de “Probability Distribution Plot-View Probability” puntear la ventanilla de “Shaded Area” y luego puntear la gráfica de “Both Tails”. También si se desea, se puede calcular el valor de X deseado para la región de interés. Finalmente, seguir con las demás instrucciones poniendo manualmente la información requerida en la gráfica (ver Figura 6.9).
www.full-ebook.com
Figura 6.9. Gráfica mostrando los puntos críticos superior e inferior (con α = 0.05) de la distribución F, esto es: P[F(1-α/2;ν1,ν2) < F < F(α/2;ν1,ν2)] = 1 – α Usualmente, las tablas estadisticas de la distribución F dan, solamente, los puntos críticos de la cola superior o derecha, F(α;v2v1). Sin embargo, los puntos críticos de la cola inferior, esto es, F(1-α;v1v2), se pueden calcular de acuerdo a la descripción de la siguiente función:
Con esto, el valor F con v1 y v2 grados de libertad deja un área de 1- α/2 a la derecha. Ejemplo 6.14. Calcular las siguientes cantidades:
www.full-ebook.com
(a) F.05;3,6. Dibujar la gráfica con punto crítico superior. (b) F.01;4,6. Encontrar el valor de F, bajo las condiciones dadas. (c) F.95;3,7. Encontrar el punto crítico inferior. (d) F.99;4,7. Encontrar el valor de F, bajo las condiciones dadas. (e) Encontrar P(F ≤ 8.10) para ν1 = 8 y ν2 = 6 grados de libertad Solución: (a) Se busca en la tabla de la distribución F, ν1 = 5 g.l. y ν2 = 10 g.l. con α = 0.05 y da 3.33. Para hacer la gráfica de abajo, seguir las instrucciones dadas anteriormente.
Figura 6.10. Gráfica mostrando el punto crítico de la distribución F para F(0.05;5,9) = 3.33, con 5 y 10 grados de libertad. (b) En forma análoga a como se hizo en el inciso (a), para calcular F.01;4,6 esto se busca en la tabla de la distribución F, ν1 = 5 y ν2 = 9, con α = 0.01 y da 6.06. (c) Para encontrar el punto crítico inferior de F(0.95;3,7) se usa la función F(1-
www.full-ebook.com
α;ν1,ν2) = 1/F(α;ν2,ν1). Así, el número que captura 0.95 del área a su derecha (0.05 a la izquierda), bajo la curva F con v1 = 3 y v2 = 7, se hace usando la función de los puntos críticos de la cola inferior y da F(.95;3,7) = 1/(F.05;7,3) = 1/8.89 = 0.1125. (d) Para F.99;3,7 se procede en forma similar como en (c) y da F.99;3,7 = 1 / F.01;7,3 = 1 / 27.67 = .0361 (e) P(F ≤ 8.10) para ν1 = 8 y ν2 = 6, el resultado es 0.01. 6.10. Estadísticas usadas para la estimación de la razón de dos varianzas. Si s21 y s22 son las varianzas de dos muestras aleatorias independientes de tamaño n1 y n2, de poblaciones normales, el intervalo de confianza para σ21/σ22 se da como: s21/s22 F1-α/2;ν2,ν1 ≤ σ21/σ22 ≤ s21/s22 Fα/2;ν2,ν1
(6-
13) Donde F1-α/2;ν2,ν1 y Fα/2;ν2,ν1 son los puntos críticos superior e inferior que corresponden al porcentaje α/2 de la distribución F con ν2 = n2 – 1 y ν1 = n1 – 1 grados de libertad en el numerador y en el denominador, respectivamente. Ejemplo 6.15. Se dan los siguientes valores en un estudio de datos experimentales y de datos de control relacionado con la comparación de dos varianzas de acuerdo a la siguiente información: n1 = 26, 1 = 6.9, s21 = 13.1; n2 = 21, 2 = 7.5, s22 = 3.4. Hacer un intervalo de confianza para la diferencia de las dos varianzas de los datos experimentales y los de control. Asumir α = 0.10. Solución: Primero calculamos s21/s22 = 13.1/3.4 = 3.85. Enseguida, calculamos F1-α/2;ν2,ν1 usando F(1-α;v1v2) = 1/F(α;v2v1) = F(1-.10;25,20) = 1/F(.10;20,25) = 1/1.72 =
www.full-ebook.com
0.5814. Finalmente, calculamos F(α/2;ν2,ν1) = F(0.10/2;25,20) = F(0.05;25,20) = 2.07. Sustituyendo todos los valores en la función (6-13) nos da: s2 /s2 F - ;ν ,ν ≤ σ2 /σ2 ≤ s2 /s2 Fα/ ;ν ,ν 1
2
1 α/2
2
1
1
2
1
2
2
2
1
3.85(0.5814) ≤ σ21/σ22 ≤ 3.85 (2.07) 2.24 ≤ σ21/σ22 ≤ 7.97 6.11. Determinación del tamaño adecuado de la muestra. En estudios de diseños experimentales estadísticos es necesario estimar el tamaño de la muestra más apropiado para la estimación de promedios, proporciones, etc. La selección más apropiada del tamaño de la muestra es importante, porque no queremos sacar un tamaño de muestra excesivamente grande, que va a ser muy costoso. Análogamente, tampoco queremos sacar un tamaño de muestra pequeño, que nos incline a aceptar hipótesis nulas, es decir, de cometer el error II. De esta manera, el tamaño apropiado de la muestra es importante, porque tamaños de muestras innecesariamente grandes son costosos y desperdician dinero y tiempo y, también, porque tamaños de muestras pequeños dan resultados pobres. Existen varias funciones estadísticas para determinar el tamaño más apropiado de la muestra estadística, es decir, para estimar el promedio poblacional μ, la varianza σ2, la desviación estándar σ, la proporción ρ, etc. Para estimar estos parámetros usamos la distribución normal, pero es necesario saber si la población muestreada es normal o aproximadamente normal. Esto se hace para las pruebas de hipótesis usando los niveles de significancia de 0.05 y 0.01, que dan los coeficientes críticos de 1.96 y 2.58, es decir, correspondientes a los niveles de confianza de 95% y 99%. En situaciones donde puede controlarse el tamaño de la muestra, es posible elegir un tamaño de muestra, de modo que se tenga una confianza del (1 – α)100% de que el error, al estimar, digamos μ, sea menor que el error especificado E, esto es, lo que queremos arriesgar. En la determinación del tamaño de la muestra en un experimento estadístico tenemos que estar conscientes de dos situaciones:
www.full-ebook.com
1. Qué tan cerca deseamos que nuestra estimación esté del verdadero valor poblacional. 2. Qué tanta certeza deseamos que nuestra estimación esté dentro del número de unidades seleccionadas del valor del parámetro. 6.11.1. Derivación de la fórmula para estimar el tamaño más apropiado de la muestra para la media. Para derivar la fórmula para estimar el tamaño óptimo de la muestra, usamos la distribución de la estadística del promedio . Por ejemplo, sabemos qué, de la distribución del promedio , el intervalo μ ± 2σ contiene, aproximadamente, el 95% de los valores de la estadística del promedio . Acordemente, si deseamos estar, a no más de E unidades de μ con nuestro estimador estadístico del promedio , entonces, dejamos que E = 2σ , esto es: E = 2 σ/√n
(6-14)
Ahora, resolviendo por n da: n = 4σ2 / E2
(6-14a)
Esta función tiene un coeficiente de confianza de (1 – α) = 0.9544. Si queremos un coeficiente de confianza de (1 – α), entonces, se deja que: zα/2 σ = E o bien zα/2 σ/√n = E Que resulta en la fórmula: n = zα/2 σ2/E2 = (zα/2 σ/E)2
(6-14c) (6-14d)
www.full-ebook.com
(6-14b)
Donde: zα/2 = valor de la distribución normal estándar de tal manera que, P(Z ≥ zα/2) = α/2. Aquí, usualmente, los valores críticos de zα/2 son de 1.97 y 2.58, σ = desviación estándar poblacional. E = error máximo de la estimación De acuerdo a la ecuación anterior, el error E es dado por: E = zα/2(σ√n)
(6-14e)
Para poder usar la fórmula anterior necesitamos conocer (1 – α), E y σ. Si el tamaño de la muestra es n ≥ 30 casos o si la población muestreada es normal, entonces, se puede aproximar σ a s. Definición 6.2. Si el promedio se usa como estimación de μ, entonces, puede tenerse una confianza del 100(1 – α) por ciento de que el error | – μ| no será mayor que una cantidad específica E, cuando el tamaño de la muestra sea n = (zα/2 σ / E)2. Esta función puede ser usada para determinar el tamaño de muestra necesario, para producir buenos resultados, a un grado de confianza deseado y margen de error. No obstante, esta fórmula requiere de los valores de σ o de σ2. Estos valores se pueden conocer de estudios previos o pueden ser, razonablemente, estimados de estudios anteriores o estudios pilotos. Ejemplo 6.16. Un consultor estadístico de usos domésticos del agua intenta usar la media de una muestra aleatoria de tamaño n = 150, para cierto estudio de contaminación por cianuro (CN-) en el agua potable (El estándar o límite de cianuro en el agua potable es de 2 microgramos/litro). Si con base en la experiencia, el estadístico puede suponer que σ = 0.2 µg/litro, entonces, para estos datos, ¿qué puede afirmar este consultor estadístico, con probabilidad de 0.99, acerca de la dimensión máxima del error E? Solución:
www.full-ebook.com
Para estimar E usamos n = 150, σ = 0.2, zα/2 = z0.01/2 = 2.575. Usando la fórmula E = zα/2 (σ/√n) y sustituyendo da: E = 2.575(0.2/√150) = 0.042 Con este resultado, el estadístico puede afirmar, con un nivel de confianza de 99% (o con una probabilidad de 0.99), que su error será de cuando mucho 0.042. Ejemplo 6.16a. Refiriéndose al problema anterior del cianuro, supongamos ahora que el consultor estadístico desea un nivel de confianza del 95%, siendo así, ¿cuál sería la magnitud del error, E? Solución: Usando, nuevamente, la fórmula E = zα/2 (σ/√n) con zα/2 = z0.05/2 = z.025 = 1.96 E = 1.96(0.2/√150) = 0.032 Aquí, nótese que debido a que queremos menos precisión (usando el nivel de confianza de 95%) el error es más pequeño, que si usamos el nivel de confianza de 99%. También es de notarse que, a medida que el tamaño de n se hace más grande, el error E disminuye. Ejemplo 6.17. En estos tiempos de crisis económicas, es necesario reducir a lo máximo los costos relacionados con los análisis de aguas residuales municipales o industriales (los cuales son muy costosos), y, con esto, calcular el tamaño de muestra apropiado. Para esta finalidad supóngase que el directivo de una planta de tratamiento de aguas residuales, tiene la responsabilidad de revisar periódicamente la eficiencia de la planta municipal a su cargo. Sin embargo, el
www.full-ebook.com
presupuesto para el mantenimiento de la planta ha sido sustancialmente reducido. Entonces, el directivo contrata los servicios de un ingeniero estadístico para que lo auxilie en reducir los costos relacionados con el número de análisis del drenaje, por lo que le pide haga estudios estadísticos encaminados a calcular los tamaños de muestras más apropiados, sin menoscabar el buen mantenimiento de la planta. De esta manera, se quiere estar seguro en un 95% que el promedio muestra esté dentro 0.260 (error máximo de estimación E) del verdadero promedio poblacional la muestra. Asumir que estudios previos han mostrado que σ sea de 0.7 mg/L. Solución: Usando la relación de (6-14e) de abajo, con zα/2 = z0.05/2 = 1.96, σ = 0.7 y E = 0.260 n = [zα/2 σ / E]2 = [(1.96) (0.7) / 0.260]2 = 27.85 ≈ 28 (redondeado a dos figuras significantes) Esto dice que con una muestra de 28 análisis, podemos estar confiados en 95% que el promedio muestral estará 0.26 mg/L del verdadero promedio poblacional μ. Nota 1. Siempre queremos redondear el tamaño de la muestra de manera que, el número requerido en la muestra sea cuando menos adecuado, en lugar de un poco adecuado. Esto es un convencionalismo usado en estadística.
Se observan los siguientes puntos en la relación general entre el tamaño de la muestra, la longitud deseada del intervalo 2E, el nivel de confianza 100(1 – α) por ciento y σ: 1. Conforme disminuye la longitud del intervalo 2E, el tamaño requerido de la muestra n aumenta para un valor fijo de σ y para el nivel de confianza especificado.
www.full-ebook.com
2. A medida que σ aumenta, el tamaño requerido de la muestra n aumenta, para una longitud deseada 2E fija y un nivel de confianza especificado. 3. Conforme aumenta el nivel de confianza, el tamaño requerido de la muestra n aumenta para una longitud fija deseada 2E y una desviación estándar σ. 6.12. Selección del tamaño de la muestra para dos medias poblacionales. También se puede seleccionar el tamaño de la muestra, más apropiado, para la diferencia de dos medias. Por ejemplo, si se conocen las desviaciones estándar de las muestras uno y dos, es decir, σ1 y σ2, y los tamaños de las dos muestras son iguales, es decir, n1 = n2 = n, entonces, puede determinarse el tamaño más apropiado de la muestra. Esto se hace de modo que se tenga una confianza de 100(1 – α) por ciento en que el error E en la estimación de la diferencia de (μ1 – μ2), por los promedios de las muestras ( 1 – 2 ) sea menor que E. La relación usada para calcular el tamaño de la muestra más apropiado para la diferencia de dos poblaciones es: n = (zα/2 / E)2 (σ21 + σ22)
(6-15)
Nota 1. Es necesario recordar el redondeo de n, si este valor no es un entero. Con esto, se asegura que el nivel de confianza no sea menor que 100(1 – α) %.
Ejemplo 6.18. Se prueban dos métodos diferentes para calcular las concentraciones del nitrógeno (nitrito, un estado intermedio en el ciclo del nitrógeno) en aguas residuales. Se sabe de antemano que, la varianza del primer método es de σ21 = 1.5, mientras que la varianza del segundo es de σ22 = 1.2. ¿Qué tamaño de muestra debe usarse para cada población muestreada, si se desea tener una confianza del 95% de que el error, al estimar la diferencia entre los promedios de las dos fórmulas diferentes, sea menor que 1? Solución: Aquí, usamos la fórmula (6-15) para calcular el tamaño de la muestra de dos
www.full-ebook.com
poblaciones del nitrito, donde, zα/2 = z0.05/2 = z.025 = 1.97, E = 1, σ21 = 1.5, σ22 = 1.2 Sustituyendo estos valores en la fórmula de arriba da: n = (1.95 / 1)2 (1.5 + 1.2) = 10.27 ≈ 11 Por lo tanto, el tamaño de la muestra para las poblaciones μ1 y μ2 es: n = n1 = n2 = 11
Los siguientes ejemplos ilustran el uso de Minitab para resolver más problemas de estimación 6.13. Uso del Minitab para hacer intervalos de confianza para una proporción. Los siguientes ejemplos muestran los mecanismos para hacer intervalos de confianza para una proporción. Ejemplo 6.19. En aplicaciones a la ingeniería ambiental del aire, se sacó una muestra aleatoria de 100 industrias potencialmente contaminadoras del medio ambiente. Se encontró que 26 industrias estaban contaminando el aire con concentraciones altas de óxidos de azufre, SO2 (el estándar primario del bióxido de azufre por 24 horas es de 0.14 ppm versión EPA) y violando los límites de las concentraciones del aire impuestos por las legislaciones ambientales del aire. Encontrar un intervalo de confianza del 95% y 99% para la proporción de industrias que violaron los límites gubernamentales. Para este problema usar el Minitab para hacer estos cálculos. Sugerencia: Irse a: Stat → Basic Statistics → One proportion. En la ventana de “One proportion Test and Confidence Interval” puntear “Summarized Data” e introducir el número de ensayos y eventos y continuar con las demás instrucciones.
www.full-ebook.com
Solución: Los resultados impresos se dan en la figura de abajo Figura 6.11. Resultados impresos del Minitab.
Nota: El óxido de azufre es un compuesto químico cuya fórmula es SO2 y es emitido por fuentes industriales como fundiciones de metales. También, debido a que los productos del petróleo, como la gasolina, usualmente contienen azufre, la quema de la gasolina también genera gases atmosféricos conteniendo SO2. Los estándares primarios de la calidad del aire para el SO2 son de 0.03 ppm (anual), 0.14 ppm por 24 horas y de 75 ppb por 1 hora (versión de Environmental Protection Agency de E.U.)(Ver http//www.epa.gov/air/criteria.html)
6.14. Uso del Minitab para hacer intervalos de confianza para la diferencia para dos proporciones, (ρ1 – ρ2). Para esto, proceder como: 1. Stat → Basic statistics → 2-Proportions. 2. En la ventana de “2 Proportions (Test and Confidence Interval)” puntear “Simples in different columns”. 3. En la ventanilla de “First” poner el número de ensayos y en la ventanilla de “Events” poner el número de eventos. Ejemplo 6.20. En una muestra de aguas industriales se saca una muestra aleatoria de 250 análisis, de los cuales 80 son de cromo total y 175 análisis son de de otro tipo, de los cuales 40 son de cromo hexavalente (Cr+6). Calcular el intervalo de confianza de 95% para la diferencia entre las dos proporciones de análisis de cromo (Cr). Sugerencia: Usando el Minitab irse a: Stat → Basic Statistics → 2 Proportions. Luego en la ventana de diálogo de “2 Proportions” puntear “Summarized data” y seguir con las demás las instrucciones. Ver Figura
www.full-ebook.com
6.12.
Figura 6.12. Diagrama esquemático de la hoja del Minitab mostrando la forma de introducir los datos. Solución: Usando el Minitab da los siguientes resultados impresos mostrados en la figura de abajo: Figura 6.12a. Resultados impresos del Minitab.
www.full-ebook.com
Nota: Aquí se ve que al usar el Minitab, los resultados también incluyen la prueba de hipótesis. Esto se discutirá en el capítulo relacionado con pruebas de hipótesis.
Ejercicios 6.1. Después de estudiar los resultados de las temperaturas de 50 análisis de agua sacadas a lo largo de una corriente, se calculó un una temperatura media de 30 oC con una desviación estándar de σ = 0.62. Establecer los intervalos de confianza para el promedio poblacional μ con α = 0.05 y α = 0.01. 6.2. En un estudio de una corriente usada para el pulimento de aguas tratadas en plantas mecánicas, se calcula una media igual a 2041.7 m3/segundo (m3/seg) y una desviación estándar igual a 360.6 m3/seg, de una muestra aleatoria de 30 observaciones promediadas durante 5 años. Con los datos de los volúmenes se hizo una gráfica de probabilidad normal, la cual que arrojó una prueba de bondad de ajuste de la estadística de Anderson-Darling igual a 0.095 y un valor de p igual a 0.997. Responder a lo siguiente: (a) ¿Realmente siguen los datos a una distribución normal? (b) Estimar el intervalo de confianza del 95% para la media poblacional. 6.3. Hacer el mismo problema anterior del estudio de la corriente de agua, pero ahora usando un nivel de significancia de α = 0.01. 6.4. Se llevó a cabo un muestreo aleatorio de análisis de concentraciones de nitratos (NO-3) de un sistema de tratamiento terciario. Las concentraciones de nitratos se reportaron en mg/L. Los siguientes datos se dan en mg/L en la tabla de
www.full-ebook.com
abajo: Tabla mostrando los datos del problema.
Se requiere hacer un intervalo de confianza de 95% para el promedio poblacional, μ. 6.5. Se saca una muestra aleatoria de una población normal de temperaturas, de cierto sistema lacustre, en unidades de grados Celsius (oC). Los valores de las observaciones son:
www.full-ebook.com
(a) Determinar el 95% y el 99% del intervalo de confianza para el promedio poblacional μ. Describir que sucedería al estimado intervalo de confianza de μ: (b) Si el tamaño de la muestra aumenta con α constante, es decir, con α = 0.05. (c) Si el tamaño de la muestra disminuye con α constante, es decir, con α = 0.05. (d) El valor de σ aumenta o si disminuye con n y α constantes. 6.6. Para un estudio de usos del agua, se saca una muestra de 56 análisis de magnesio (Mg) promediados durante un periodo de 10 años, en cierta corriente de agua. La muestra de los análisis tiene una media de 149.3 mg/L, desviación estándar de 13.17, mediana de 149.0 y moda de 149.0. Se desea corroborar la
www.full-ebook.com
normalidad de los datos, es decir, usando la regla de 68-95-99.7. La tabla de abajo muestra los datos. Para esto hacer lo siguiente: (a) Trazar una curva de densidad y estimar los intervalos de las concentraciones de Pb de acuerdo a la regla de 68-95-99.7. (b) De la curva obtenida en (a) poner los valores de z, es decir, z = ±1, z = ±2 y z = ±3, correspondientes a los intervalos de las concentraciones de Pb. (c) Estimar el número de observaciones que caen entre el 68.2 %, 95.4% y 99.7%, es decir, usando la regla de 68-95-99.7. (d) Hacer una gráfica de probabilidad normal y observar el valor de la estadística A-D. (e) Hacer un intervalo de confianza de 95% para la media poblacional. Tabla mostrando la información requerida para este problema.
www.full-ebook.com
6.7. Usando los datos de las precipitaciones anuales en Capítulo 4 de los datos de lluvia de CONAGUA de Cd. Juárez, Chihuahua, México, hacer lo siguiente usando el Minitab: (a) Intervalos de confianza de 95% y 99% para la media poblacional. (b) Intervalo de confianza de 95% y 99%, para la mediana. Sugerencia: Usando el Minitab irse a: Stat → Basic Statistics → Graphical Summary y seguir con las demás instrucciones. Asumir un nivel de significancia de α = 0.05. 6.8. Usar el mismo Ejemplo relacionado con los datos históricos de 50 años (periodo 1954-2006) de precipitaciones mensuales y anuales de la Presa Falcón, Tamaulipas suministrados por la Comisión Internacional de Límites y Aguas entre México y los Estados Unidos. Para esto hacer intervalos de confianza de 95% y 99% para el promedio poblacional μ. 6.9. Supóngase que se saca una muestra aleatoria de 100 observaciones de óxidos de nitrógeno (NO) atmosférico, que siguen a una población normal, con σ = 25. Se calcula una media igual a 20. Encontrar el intervalo de confianza de 95% para la media poblacional μ. 6.10. Con relación a los usos del agua, es bien sabido que, las aplicaciones constantes de pesticidas en la agricultura y en áreas forestales, pueden contaminar las reservas de agua potable. Esta contaminación ocurre a través de deslaves de terrenos agrícolas a lagos, situaciones que, eventualmente, pueden contaminar las aguas lacustres. Para un análisis de pesticidas clorohidrocarbonados (estos pesticidas ya no se usan en países industrializados por su persistencia tan acentuada, pero desafortunadamente se siguen usando en países en desarrollo), usando cromatografía de gas, se dio una muestra conteniendo este pesticida, a dos laboratorios. Para este ejercicio se sacan dos tamaños de las muestras de 50 y 40 observaciones, respectivamente. Si los análisis procedentes del primer laboratorio dan una media de 1 = 74 con desviación estándar de σ1 = 6, y los resultados del segundo laboratorio dan una media de 2 = 70 con una desviación estándar de σ2 = 5, hacer un intervalo de confianza para la diferencia
www.full-ebook.com
de los dos promedios. Asumir niveles de significancia de α = .05 y α = .01. 6.11. Encontrar los valores críticos de t, por los cuales el área del extremo derecho de la distribución de t es de α = 0.05 y de α = 0.01, si: (a) ν = 16 (b) n = 28 (c) ν = ∞ (d) Hacer gráficas para cada uno de los incisos (a) y (b), con α = 0.05 6.12. Con la finalidad de reducir el consumo de gasolina (para que contamine menos el medio ambiente con CO2, que esta calentando la tierra y distorsionando el clima) se hizo un estudio para comparar el rendimiento en kilómetros por litro de dos tipos de maquinas A y B. Para esto se saco una muestra aleatoria de 50 unidades del tipo A y otra muestra más del tipo B del mismo tamaño. La media de la gasolina consumida por el tipo de maquina A fue de 1 = 36 Km./L y la media de la maquina B fue de 2 = 42 Km./L. Las desviaciones estándares fueron de 6 y 8 kilómetros por litro, respectivamente. Encontrar el intervalo de confianza de 95% para (μA – μB). 6.13. Determinar el valor crítico de t que captura la curva deseada de la distribución de t para cada una de las siguientes maneras: (a) Área central = 0.95 con n = 15 (b) Área central = 0.99 con 13 grados de libertad (c) Área de la cola de arriba = .05 con n = 10 (d) Área de la cola inferior = .025, con tamaño de muestra de 9 casos 6.14. Se dan los siguientes datos provenientes de la Presa Francisco I. Madero localizada en el Estado de Chihuahua, México. La tabla de abajo muestra la información requerida para este ejercicio. Tabla mostrando las precipitaciones anuales para el periodo 1994-2009.
www.full-ebook.com
Fuente: Comisión Nacional del Agua. Oficina Cd. Chihuahua, Chihuahua. México.
Desarrollar los siguientes enunciados: (a) Hacer un intervalo de confianza del 95% y 99% para la media poblacional e interpretarlo acordemente. (b) Determinar el valor crítico de t que captura la curva deseada de esta distribución para el área central = 0.95% y el 99%. 6.15. Se dan los siguientes datos: 1 = 10.0, n1 = 15, s21 = 1.3, 2 = 6.19, n2 = 13, s22 = 1.0. Usar la estadística apropiada y encontrar el intervalo de confianza para (μ1 – μ2) con nivel de confianza de 95%. 6.16. Se hace un estudio de mediciones de los flujos de dos ríos (m3/seg) y se sacan aleatorias de cada corriente. La tabla de abajo muestra los valores de los flujos de agua expresados en metros cúbicos por segundo.
www.full-ebook.com
Tabla mostrando los datos.
Aplicar la estadística más apropiada y hacer un intervalo de confianza de 95% para la diferencia de las dos poblaciones de flujos. 6.17. Se prueban dos fórmulas diferentes de gasolina oxigenada para reducir las emisiones de monóxido de carbono (CO) emitidas por motores de combustión interna. (Aquí se observa que la quema de gasolina oxigenada emite menos CO, pero a costa de consumir más oxígeno del aire). Se sabe de antemano que la varianza para la primera fórmula es de 1.5, mientras que la varianza de la segunda fórmula es de 1.2. ¿Qué tamaño de muestra debe usarse para cada población muestreada, si se desea tener una confianza de 95% para que el error, al estimar la diferencia entre los promedios de las fórmulas diferentes, sea menor
www.full-ebook.com
que 1? 6.18. Este es un estudio relacionado con lagunas de oxidación o de estabilización. Estos tipos de plantas de tratamiento son lagunas diseñadas para degradar las aguas residuales de poblados pequeños o de complejos industriales. Los factores que intervienen en el diseño de estas lagunas son la interacción de la luz solar, la relación simbiótica bacteria-alga. Otros factores incluidos en el diseño son la temperatura del agua, el tiempo de retención, la localización geográfica de la laguna, la profundidad del vaso, la intensidad de la radiación ultravioleta, intensidades de vientos, intensidades de lluvias, influjos de los volúmenes del agua residual, etc. (ver referencias bibliográficas sobre este tema al final de este capítulo). Para este ejercicio se estudia el efecto de los tiempos de retención en la reducción (%) de la demanda bioquímica de oxígeno (DBO5) de la materia orgánica. Supóngase que se sacan dos muestras aleatorias de análisis de DBO5 usando diferentes tiempos de retención de una laguna de estabilización, digamos de 30 y 45 días (manteniendo todos los demás factores constantes). Hacer lo siguiente: (a) Identificar la estadística apropiada para este problema. (b) Hacer intervalos de confianza de 95% y 99% para la media poblacional de las diferencias de las dos distribuciones de porcentajes de reducción del DBO5. Los datos se dan en la tabla de abajo. Tabla mostrando los porcentajes de las reducciones del DBO5 de las dos distribuciones usando tiempos de retención de 30 y 45 días, con todas las demás variables fijas.
www.full-ebook.com
6.19. Una agencia del medio ambiente hace un sondeo dentro de un complejo industrial de 500 fábricas, que potencialmente están contaminando la cuenca atmosférica de cierta ciudad y se sospecha que, solamente, 30% están dentro de los límites estipulados. Se saca una muestra aleatoria de otro complejo industrial de 400 industrias de 2 años y se encuentra que, 40 están dentro de lo estipulado por las leyes ambientales. Hacer lo siguiente: (a) Un intervalo de confianza de 95% para el valor real de ρ. (b) Un intervalo de confianza de 99% para el valor real de ρ. (c) Hacer una gráfica que señalen el valor de p y los valores de X asociados. 6.20. Con referencia a los datos de lluvia de CONAGUA de Cd. Juárez, Chihuahua, México, del Capítulo 4, estimar el intervalo de confianza de 95% para la proporción poblacional ρ, con una probabilidad de ocurrencia de 1.0%. ¿Cuáles son los valores del número de ensayos y del número de eventos? Sugerencia: ver Ejemplo 4.29, Figura 4.22 del Capítulo 4, o sea la gráfica de la precipitación anual (cm) en escala logarítmica, con probabilidad de ocurrencia (%) y con periodos de retorno en escala de probabilidad. 6.21. En cierto complejo industrial se tomó una muestra aleatoria de 400 industrias, de las cuales el 25% estaban contaminando con fenoles, un lago adyacente al complejo industrial. En otro complejo industrial, se tomó otra
www.full-ebook.com
muestra de 300 industrias, de las cuales el 50 estaban contaminando el agua con esta misma sustancia química tóxica. Construir un intervalo de confianza de 90% de las diferencias entre las proporciones poblacionales (ρ1 – ρ2). Usar el Minitab. 6.22. En un estudio de química ambiental, se saca una muestra aleatoria de aguas residuales industriales consistente en 200 análisis, de los cuales 70 son de trióxido de manganeso (Mn2O3), en el cual el ión manganeso está en la forma trivalente de Mn+3); 155 análisis son de otro tipo, de los cuales 30 son de bióxido de manganeso (MnO2 en el cual el catión manganeso está en la forma de Mn+2). Calcular el intervalo de confianza de 95% para la diferencia entre las dos proporciones de análisis de manganeso. Usar la estadística apropiada para resolver este problema. 6.23. Se saca una muestra aleatoria estadística de 17 mediciones de sulfatos (SO4-2) de una descarga industrial y se calcula una varianza de s2 = 196.38. Siendo así, encontrar el intervalo de confianza para σ2 usando los siguientes niveles de confianza de: (a) α = 0.05 (b) α = 0.01 6.24. Se dan los siguientes datos de concentraciones de nitritos (NO2-) de una muestra aleatoria de 5 años proveniente de una laguna de estabilización que usa ventiladores sumergidos. Desarrollar lo siguiente: (a) ¿Realmente siguen los datos a una distribución normal? Justificar el argumento. (b) Hacer un intervalo de confianza de 95% para la varianza poblacional y la desviación estándar poblacional. Sugerencia: Usar la versión 15 del Minitab de la siguiente manera: Irse a: Stat → Basic Statistics → 1 Variance. En la ventana de “1 Variance” puntear la ventanilla de “Samples in Columns” e introducir los valores y teclear “OK”. Tabla mostrando la información.
www.full-ebook.com
6.25. Si una muestra aleatoria estadística de 17 mediciones de sólidos totales suspendidos tiene una varianza de s2 = 196.38, encontrar el intervalo de confianza para σ2 usando los siguientes niveles de significancia de: (a) α = 0.05 (b) α = 0.01 6.26. Si una muestra aleatoria estadística de 20 análisis de mediciones de hierro (en su forma ferrosa, e.g., Fe+2), en un agua residual industrial tiene una varianza de s2 = 190.00, encontrar el intervalo de confianza para σ2 usando los siguientes niveles de significancia de: (a) α = 0.05 (b) α = 0.01
www.full-ebook.com
(c) 90% intervalo de confianza 6.27. En estudios de química del agua, se sabe que el color en el agua puede resultar de la presencia de iones metálicos, como de hierro (Fe++) y manganeso (Mn++). Esto también puede ser causado por desperdicios industriales, plankton y humus. Un método para determinar el color es a través de la comparación visual de la muestra con una concentración de solución de color conocida. Siendo así, este es un ejercicio encaminado al uso de la distribución de JI cuadrada para estudios de estimación. Para esto se dan los siguientes datos de unidades de color en la tabla de abajo. Hacer lo siguiente: (a) Construir un intervalo de confianza estimado de 95% para la varianza poblacional σ2 de los colores del agua, y otro más para la desviación estándar poblacional σ usando las formulas dadas en este capítulo. (b) Usando el programa Minitab calcular los intervalos de confianza del inciso (a) y comparar los resultados.
www.full-ebook.com
6.28. Los directivos de una refinería planean modificar el proceso para producir gasolina (para que contamine menos el ambiente), a partir del petróleo crudo. Esto se hará, solo si la gasolina promedio que se obtendrá en este nuevo proceso (expresada como % del crudo) aumenta su valor con respecto al proceso en uso. Con base en experimentos de laboratorio y mediante el uso de dos muestras aleatorias de tamaño n = 12, uno para cada proceso, la cantidad de gasolina promedio del proceso en uso es de 24.6 con una desviación estándar de 2.3. Para el proceso planeado, la media fue 28.2 con una desviación estándar de 2.7. Los directivos creen que los resultados dados por los dos procesos son variables aleatorias independientes y normalmente distribuidas con varianzas iguales. Con base en esta evidencia, ¿debería adoptarse el nuevo proceso? 6.29. En una cuenca hidrológica se tomaron muestras de lluvia durante un periodo de 20 años y se calcularon las medias anuales dadas en la tabla de abajo. Tabla mostrando los datos promedio de lluvia, en unidades de pulgadas.
www.full-ebook.com
Se desea hacer lo siguiente: (a) Encontrar el mejor punto estimador de la varianza poblacional σ2. (b) Un intervalo de confianza para la varianza poblacional con α = 0.05 y α = .10 (c) ¿Contiene el intervalo de confianza estimado en el inciso (b) el valor de la desviación estándar de 0.00548, para ambos casos? 6.30. En estudios de química del agua, se saca una muestra aleatoria de análisis de dureza del agua (representada por la concentración total de carbonato de calcio (CaCO3) y carbonato de magnesio (MgCO3), se dan los siguientes datos: n1 = 16, n2 = 13, s21 = 9.42, s22 = 0.64. Asumiendo α = 0.05, hacer un intervalo de confianza de (1 – α)100% para σ21 /σ22 usando la función apropiada. 6.31. Se dan los siguientes datos de dos muestras aleatorias de análisis de cationes de sodio (Na+) en el agua, es decir, usando el método de flama fotométrica y el método gravimétrico relacionado con la comparación de dos
www.full-ebook.com
varianzas. Para la primera muestra n1 = 25, 1 = 6.9, s21 = 13.1; para la segunda muestra, n2 = 20, 2 = 7.5, s22 = 3.4. Hacer un intervalo de confianza para la diferencia de las dos varianzas de los resultados de los dos métodos. Asumir α = 0.05. 6.32. Encontrar el área a la izquierda y a la derecha de los valores críticos, con 20 grados de libertad, con α = 0.01 usando la tabla de JI cuadrada. Luego usando el Minitab y hacer gráficas señalando los valores críticos: 6.33. Encontrar los valores críticos de la distribución de JI cuadrada bajo las siguientes condiciones, usando la tabla de JI cuadrada. Luego hacer lo mismo con el Minitab y hacer gráficas señalando los valores críticos: (a) Área a la derecha del valor crítico, con 20 grados de libertad, con α = 0.01. (b) Área a la izquierda del valor crítico, con 20 grados de libertad, con α = 0.01. 6.34. Hacer una gráfica mostrando los puntos críticos superior e inferior (con α = 0.01) de la distribución F, esto es: P[F(1-0.01/2;ν1,ν2) < F < F(0.01/2;ν1,ν2)] = 1 – α 6.35. Para una distribución F encontrar los siguientes enunciados. (a) F.05;7,9. Dibujar la gráfica con punto crítico superior. (b) F.01;3,6. Encontrar el valor de F, bajo las condiciones dadas. (c) F.95;19,24. Encontrar el punto crítico inferior y dibujar la gráfica. (d) Encontrar F.99;5,7 6.36. Se dan los siguientes datos de dos muestras de fluoruros (F-) en aguas domésticas que, de acuerdo al texto Standard Methods (1971), se afirma que, el límite de 1.0 mg/L en el agua potable es una forma de prevenir las caries dentales, sin producir efectos dañinos a la salud. Para esto se sacan muestras n1 = 16, n2 = 13, con s21 = 9.42, s22 = 0.64. Asumiendo α = 0.05, hacer un intervalo
www.full-ebook.com
de confianza para σ21/σ22 y otro más para las desviaciones estándar. 6.37. Supóngase que el directivo de una planta de tratamiento de aguas residuales, requiere hacer una reestructuración de su presupuesto, el cual ha sido reducido sustancialmente. Para esto, contrata los servicios de un ingeniero estadístico para que lo auxilie en reducir los costos relacionados con el número de análisis de las aguas municipales que se hacen en la planta. Es decir, de calcular los tamaños de muestras más apropiados sin perjudicar los intereses del buen mantenimiento de la planta. De manera que, si se quiere estar seguro en un 99% que el promedio muestra esté dentro 0.300 (error máximo de estimación E) del verdadero promedio poblacional la muestra. Asumir que estudios previos han mostrado que σ sea de 0.7 mg/L. 6.38 Refiriéndose al ejemplo anterior de la colección de tamaños de muestras, si quisiéramos tener resultados menos precisos usando un margen de error de 0.500 calcular el tamaño de la muestra n asumiendo las mismas condiciones anteriores. 6.39. El problema de los reactores nucleares usados para fines de producción eléctrica, es desde luego, el problema de la disposición de los residuos radiactivos. Pero, además de este problema, existe otro más que está relacionado con la contaminación termal, que tanto daño causa a la fauna y flora marina. De cualquier manera, este problema está relacionado con un sondeo para estimar la proporción de residentes de cierta ciudad que pueda estar a favor de la construcción de una planta nuclear. Siendo así, ¿qué tan grande se requiere que esta sea la muestra de gente si se desea tener un 95% de confianza de que la estimación está dentro del 0.09 de la proporción real de los residentes de esa ciudad que están a favor de la construcción de esa planta nuclear? Asumir que estudios previos han mostrado que σ sea de 0.3. 6.40. Este es un ejercicio adaptado del texto de Kottegoda et al. (2008) el cual está relacionado con el tamaño de muestra mínima para estimar la concentración de la media del oxígeno disuelto (O.D.). De esta manera, el monitoreo de los niveles de contaminación de corrientes similares en una región indica que la desviación estándar del O.D. es de 1.95 mg/L sobre un periodo de tiempo grande. Siendo así, desarrollar lo siguiente:
www.full-ebook.com
(a) ¿Cuál es el mínimo número de observaciones requeridas para estimar la media de O.D. dentro de ±0.7 mg/L con un nivel de confianza de 95%? (b) Si solamente 30 observaciones se sacan, ¿Cuál debería ser el nivel de porcentaje en los límites de confianza para la misma diferencia de medias? 6.41. Un ingeniero sanitario muestrea dos poblaciones de concentraciones de DBO provenientes de dos plantas de tratamiento de aguas residuales. Para la primera planta se toma una muestra aleatoria de n1 = 16 análisis del DBO y se calcula una media de 1 = 4.00 mg/L con s21 = 1.5. Igualmente, para la segunda muestra n2 = 15 análisis de DBO con una varianza de s22 = 1.3. El ingeniero desea hacer un intervalo de confianza de 95% para las diferencias de las media μ1 y μ2 de cada planta. ¿Cuál es este intervalo? 6.42. Una muestra aleatoria de 56 análisis de partículas atmosféricas de polvos dio una media de 148.48 ppm (partes por millón) con una desviación estándar de 12.44. Hacer un intervalo de confianza para μ, suponiendo que los datos están normalmente distribuidos. Sugerencia: usar el programa Minitab. 6.43. En cierto complejo industrial se tomó una muestra aleatoria de 500 industrias, de las cuales el 30% estaban contaminando el aire con partículas de polvo menores que 10 micras (PM10). En otro complejo industrial se tomó otra muestra aleatoria de 400 industrias, de las cuales 40 estaban contaminando el aire con el mismo tamaño de partículas. Construir un intervalo de confianza de 95% para las diferencias de las proporciones poblacionales, es decir, (ρ1 – ρ2). Usar el Minitab o un programa de cómputo.
www.full-ebook.com
Referencias 1. Comisión Internacional de Límites y Aguas. Presa Amistad de Ciudad Acuña, Coahuila, México 2. Standard Methods for the Examination of Water and Wastewater (1971), 13va edición. Preparada y publicada conjuntamente por: American Public Health Association, American Water Works Association y Water Pollution Control Federation. 3. http//www.epa.gov/air/criteria.html 4. Comisión Nacional del Agua. Oficina en Cd. Juárez, Chihuahua, México 5. Presa Falcón, Tamaulipas. Comisión Internacional de Límites y Aguas entre México y los Estados Unidos 6. Comisión Internacional de Límites y Aguas. Presa Amistad de Ciudad Acuña, Coahuila, México. 7. Kottegoda, N. T, Rosso, R. (2008). Applied Statistics for Civil and Environmental Engineers. Second edition. Blackwell publishing. .
www.full-ebook.com
Capítulo 7
www.full-ebook.com
Pruebas de hipótesis. Estadística de inferencia Dr. Héctor Adolfo Quevedo Urías (Ph.D.)
Temas descritos en este capítulo
7.2. Introducción
7.2. Componentes de las pruebas de hipótesis
7.3. Prueba estadística
7.4. Región de rechazo
7.5. Tipos de pruebas de hipótesis
7.6. Inferencia acerca de la descripción de un solo parámetro, es decir probando μ con σ2 conocida (distribución normal
7.7. Pruebas de hipótesis uniformemente más potentes usando el lema de Newman-Pearson
7.8. Pruebas de hipótesis para diferencias de dos medias poblacionales, (μ1 – μ2), para muestras grandes (n ≥ 30) usando la distribución normal, con varianzas conocidas e iguales (σ21 = σ22). Aquí se asume que las dos muestras son independientes
7.9. Inferencias acerca de (μ1 – μ2), cuando las varianzas σ21 y σ22 son desconocidas y con n1 > 30 y n2 > 30
7.10. Prueba de hipótesis nula para la media poblacional μ usando
www.full-ebook.com
la t de Estudiante
7.11. Mecanismos que se siguen para calcular el valor de la probabilidad p usando las tablas de las distribuciones de t de Estudiante, la JI cuadrada o la distribución F
7.12. Pruebas de hipótesis sobre las medias de dos distribuciones normales, con varianzas desconocidas
7.13. Prueba de t para observaciones pares, para detectar diferencias entre dos tratamientos hechos sobre los mismos elementos seleccionados de la población, asumiendo que hay dependencia
7.14. Distribución de JI cuadrada (χ2)
7.15. Distribución F. Función probabilística de la distribución F y su aplicación en la comparación de varianzas muestrales
7.16. Pruebas de hipótesis para una proporción
7.17. Pruebas de hipótesis para la diferencia de dos proporciones (Ho:p1 - p2) para muestra grandes 7.1. Introducción. La estadística inferencial (inducción estadística) usa métodos matemáticos, es decir, la aplicación de la teoría de probabilidad para deducir (inferir) las características de una población por medio de analizar una muestra aleatoria sacada de la población. En estadística de inferencia, la principal motivación es examinar una muestra en lugar de toda la población. La estadística de inferencia nos permite sacar conclusiones de las características de una población basada en una muestra, que es mucho más pequeña que toda la población o universo. Las pruebas de hipótesis se llaman pruebas paramétricas, porque éstas prueban el valor de los parámetros de la población como μ, σ2, σ, etc. Las hipótesis siempre se refieren a alguna población, no a un resultado en particular, por eso ponemos Ho: y HA: en términos de parámetros poblacionales.
www.full-ebook.com
7.2. Componentes de las pruebas de hipótesis. Clásicamente, las pruebas de hipótesis consisten de cinco componentes: 1. Hipótesis alternativa 2. Hipótesis nula 3. Prueba estadística usada (z, t, F, etc.) 4. Región de rechazo 5. Cálculo del valor de la probabilidad p 7.2.1. Hipótesis nula. La hipótesis nula, que convencionalmente se denota por Ho:, debe especificar siempre que el parámetro es igual a un solo valor. Ho:. Es decir, de la afirmación sobre una o más características poblacionales que, al inicio, se supone que es cierta (es decir, la creencia a priori) o de que no hay diferencia. La hipótesis nula se rechaza a favor de la hipótesis alternativa, solo si la evidencia muestral sugiere que Ho: es falsa. Si los resultados y el valor de p no contradicen decididamente a Ho:, ésta se retiene o no se hace ninguna decisión. 7.2.2. Hipótesis alternativa. Más importante todavía es la prueba de hipótesis alternativa denotada, convencionalmente, por HA: Esta prueba es la más importante, porque es, precisamente, la hipótesis que responde a nuestra pregunta. En otras palabras, HA: es la afirmación que sospechamos o estamos esperanzados que sea verdadera, en lugar de la hipótesis nula Ho: La hipótesis alternativa puede asumir tres posibles formas: 1. Mayor que el valor mostrado en la hipótesis nula, e. g., HA:μ > μo. 2. Menor que el valor mostrado en la hipótesis nula, e.g., HA:μ < μo. 3. Diferente que el valor mostrado en la hipótesis nula, e. g., HA: μ ≠ μo o bien, H1: μ < μo o HA:μ > μo 7.2.3. Resumiendo las pruebas de hipótesis. Generalmente, las pruebas de hipótesis se pueden resumir de la siguiente manera: 1. Si la prueba de hipótesis nula es Ho:μ = μo, la prueba es bilateral y la hipótesis
www.full-ebook.com
alternativa es HA:μ ≠ μo, donde μo es el valor esperado. 2. Si la prueba de hipótesis nula es Ho:μ ≥ μo, la prueba es unilateral izquierda y la hipótesis alternativa es HA: μ < μo. 3. Si la prueba de hipótesis nula es Ho: μ ≤ μo, la prueba es unilateral derecha y la hipótesis alternativa es HA: μ > μo. En las pruebas de hipótesis, el investigador estadístico o científico decide si va a usar una o dos colas, aunque si bien, la prueba bilateral es la más común. Pero todo esto se basa en lo que se quiera obtener y en los resultados que se puedan esperar o basándose en la experiencia. De cualquier manera, si el nivel de probabilidad resultante es menor que el nivel de α seleccionado se rechaza la hipótesis nula y seinclina por la hipótesis alternativa, y se concluye que el promedio es diferente. 7.3. Prueba de hipótesis estadística. El propósito de hacer pruebas de hipótesis es para determinar si es o no apropiado rechazar o no rechazar la hipótesis nula. La prueba estadística es el punto estimador del parámetro de población que se prueba. Por ejemplo, el promedio muestral es el punto estimador del promedio poblacional μ. 7.4. Región de rechazo. Cuando hablamos de este tópico es menester introducir términos como regiones críticas o de rechazo, niveles de significancia (α = 0.05 y α = 0.01, los más comunes), tipo de error I o alfa y tipo de error II o beta, pruebas de una o dos colas y valor de probabilidad p. Por ejemplo, la región crítica o de rechazo se especifica antes de hacer la prueba de hipótesis. Puede ser de una o dos colas y los niveles de significancia mas comunes son α = 0.05 y α = 0.01. La tabla 7.1 de abajo muestra los niveles críticos y niveles de significancia usados para hacer pruebas de hipótesis para la distribución normal. 7.4.1. Regiones críticas. Antes de establecer las pruebas de hipótesis, es necesario establecer las regiones críticas usando los niveles de significancia de 95% o 99%, etc.
www.full-ebook.com
Tabla 7.1. Tabla mostrando las regiones críticas que se definen de acuerdo al valor del nivel de significancia usado, es decir, si la prueba de hipótesis es bilateral, unilateral derecha o unilateral izquierda. Estos datos se usan para la distribución normal. 7.4.2. Errores tipo I y II. En aplicaciones estadísticas no es posible desarrollar pruebas que sean absolutamente conclusivas. Las pruebas de hipótesis tienen la posibilidad de dos tipos de errores, es decir, de rechazar una hipótesis nula o de aceptar una hipótesis falsa. Estos errores se llaman error tipo I (alfa) y error tipo II (beta), respectivamente. Debido a que la conclusión que se saca de las pruebas de hipótesis se basa en una muestra, la probabilidad de cometer estos tipos de dos errores siempre existe. Como se ve en la figura de abajo, la hipótesis nula es, ya sea verdadera o falsa, y por lo tanto, tenemos que decidir en rechazarla o no rechazarla. Por lo tanto, hay dos decisiones posibles: rechazar Ho: cuando es falsa, o no rechazarla cuando es correcta. Conversamente, dos decisiones incorrectas son posibles: rechazar Ho: cuando es verdadera (tipo error I y la probabilidad de cometerlo es α) o de no rechazar Ho: cuando es falso (tipo error II) y la probabilidad de cometerlo es β. De cualquier manera, como se ve en la figura de abajo, la manera de evitar cometer ambos errores es aumentando el tamaño de la muestra o disminuyendo el valor de la desviación estándar σ. Esta situación es mucho muy crítica e importante.
www.full-ebook.com
Figura 7.1. Figura mostrando la distribución de los promedios de dos muestras de las curvas A y B ilustrando el tipo de error II o beta con μ = 50 (en curva A) y σ = 10, con un nivel de significancia de α = 0.05 y con un tamaño de muestra de n = 16.
Figura 7.1a. Esta figura demuestra que, al disminuir la desviación estándar de
www.full-ebook.com
10 a 1, esto hace que las dos curvas se separen, lo que evita cometer ambos errores I y II. Al analizar la figura de arriba, es de notarse que, si el tamaño de la muestra n aumenta de 16, a digamos 100, y la desviación estándar de los promedios muestrales se reduce de 10/√16 o 2.5 a 10/√100 o 1, entonces, la dispersión de las dos curvas se reduce y, consecuentemente, la extensión del solapamiento disminuye. De esta manera, el valor de la línea C1 del extremo izquierdo se mueve de 45.1 a 49.80. Análogamente, el valor de la línea C2 del extremo derecho se mueve hacia la izquierda, es decir, de 54.9 a 50.196. Esto reduce la probabilidad de cometer ambos errores α y β. 7.4.3. Potencia de la Prueba. La potencia o poder de una prueba se define como 1 – β. La potencia de la prueba es la probabilidad de rechazar una hipótesis nula o falsa Ho:, es decir, de no inclinarse por la hipótesis alternativa (HA:) o la probabilidad de cometer el error tipo II). A medida que la potencia de la prueba aumenta, la probabilidad de cometer el error tipo II disminuye. La probabilidad de un error tipo II se refiere a la tasa negativa falsa (β). De aquí que la potencia de la prueba es igual a 1 – β. Cuando se especifica el nivel del error β, también se especifica el nivel de la potencia. Por ejemplo, si se especifican los valores de 0.05, 0.10 o 0.20, también se están especificando los valores correspondientes de la potencia β de 0.95, 0.90 y 0.80. 7.5. Tipos de pruebas de hipótesis. Algunos tipos de pruebas de hipótesis son: 1. Inferencia acerca de la descripción de un solo parámetro, es decir probando μ con σ2 conocida (distribución normal). 2. Inferencia de μ con σ2 desconocida (distribución de t de estudiante) 3. Inferencia acerca de la comparación de dos poblaciones, es decir: (μ1 – μ2) cuando σ21 y σ22 se conocen (distribución normal) 4. Inferencia acerca de la comparación de dos poblaciones, es decir, (μ1 – μ2) cuando σ21 y σ22 se desconocen (distribución de t de estudiante) 5. Inferencia acerca de (μ1 – μ2) para la distribución pareada (distribución de t de estudiante). 6. Pruebas de hipótesis para una varianza y para la diferencia de dos varianzas
www.full-ebook.com
usando la distribución de la JI cuadrada, χ2 asumiendo que la población muestreada es normal La prueba de hipótesis se hace para sacar inferencias acerca de una población muestreada aleatoriamente. Más adelante se discutirán cuatro procedimientos que da el Minitab para hacer pruebas de hipótesis e intervalos de confianza para el promedio poblacional μ, para la diferencia de dos promedios, para distribuciones pareadas, etc. Esto es, usando la distribución z, la distribución t o la JI cuadrada. 7.5.1. Interpretación de las pruebas de hipótesis. Como se asentó anteriormente, en las pruebas de hipótesis, la prueba de hipótesis alternativa, HA: es la más importante, porque es precisamente HA: la que responde a la pregunta; no la hipótesis nula, Ho: Es por esto que, siempre es deseable inclinarse por la hipótesis alternativa HA: Este punto es crucial, porque lo que se quiere mostrar estadísticamente está representado por la prueba de hipótesis alternativa, HA: El rechazo de Ho: es una conclusión fuerte, y, por lo tanto, se debe enunciar la importancia de los hechos resultantes involucrados en torno a la hipótesis alternativa HA:, no en la hipótesis nula. Acordemente, toda la idea de hacer pruebas de hipótesis es la de tratar de producir evidencia para refutar la hipótesis nula. Si la hipótesis nula no se rechaza, esto puede ocurrir debido a que hubo un insuficiente tamaño de muestra o un error experimental excesivo. Los investigadores científicos siempre están esperanzados en rechazar la prueba de hipótesis nula (es decir, de inclinarse por la hipótesis alternativa HA:), de sus trabajos de investigación, porque esto denota conclusiones fuertes acerca de los resultados obtenidos en sus investigaciones o experimentos científicos. Las pruebas de hipótesis también se usan para el control de calidad en ingeniería industrial o de manufactura. En este renglón, cuando se hace una prueba de hipótesis para control de calidad, es siempre deseable rechazar la hipótesis nula, lo cual indica que la línea de operación de la planta está funcionando normalmente. De cualquier manera, la forma de interpretar el rechazo de la hipótesis nula y el apoyo de la hipótesis alternativa, conjuntamente con el valor de la probabilidad p, depende del área de ingeniería, ciencias y/o el tipo de problema o diseño que se está haciendo 7.5.2. Significado e interpretación del valor de la probabilidad p. En las
www.full-ebook.com
pruebas de hipótesis clásicas o tradicionales (del siglo antepasado) se seleccionan los valores o regiones críticas de acuerdo al nivel de significancia usado (α = 0.05 o 0.01, los más comunes). Entonces, si el valor de la prueba estadística cae en las regiones críticas, se rechaza la hipótesis nula, y si no ocurre así, la hipótesis nula se retiene. Sin embargo, en las pruebas de hipótesis no tradicionales, se usa el valor de p para decidir si se rechaza la hipótesis nula. Esto involucra la comparación del valor de p con el valor de α de 0.05 o 0.01 (si el valor de p es menor que el valor de α se rechaza la hipótesis nula y se inclina por la hipótesis alternativa). El valor de p se interpreta como la probabilidad de obtener una prueba estadística que es, cuando menos, más extrema que el valor actual calculado, si la hipótesis nula es verdadera. Si el valor de p es menor que el nivel de significancia de α usado, se rechaza la hipótesis nula Ho: y se inclina por la hipótesis alternativa HA: Esto dice que el valor de p de una prueba de hipótesis, es el valor más pequeño de α que conlleva al rechazo de la hipótesis nula. 7.5.3. El valor de p en la toma de decisiones cuando se hacen pruebas de hipótesis. Cuando se hacen pruebas de hipótesis hay otra forma alternativa o no tradicional de interpretar los resultados de prueba, es decir, usando el valor de p (en lugar de simplemente rechazar la hipótesis nula, cuando el valor de la estadística es mayor o menor que las regiones críticas). El valor de p es la probabilidad, bajo la hipótesis nula, de obtener un valor tan inusitado o más inusitado que el de la muestra, cuando la hipótesis nula es verdadera (una situación inusual). De esta manera, en esta prueba de hipótesis no tradicional se lleva a cabo usando el valor de p. Esto es importante, porque cuando se rechaza o se acepta una hipótesis nula y se inclina por la hipótesis alternativa, con un nivel de significancia de α = 0.05 o de α = 0.01, es necesario saber, qué tanta certidumbre se puede tener al hacer una decisión estadística (cuando se rechaza Ho:) y eso lo da el valor de la probabilidad p. Esto es crítico, porque el simple rechazo de una prueba de hipótesis no le dice nada al tomador de decisiones estadístico, debido a que lo deja en una situación de incertidumbre, especialmente, si la prueba estuvo en el umbral del rechazo. En términos simples, un valor pequeño de p (digamos de .01 o .001), eso indica que hay suficiente evidencia para apoyar la hipótesis alternativa (o de rechazar la hipótesis nula). Sin embargo, un valor grande de p (digamos > .01) indica que una evidencia muy pequeña para apoyar la hipótesis
www.full-ebook.com
alternativa. En conclusión, el valor de p es un resultado muy importante, porque mide el nivel o cantidad de evidencia estadística que apoya la hipótesis alternativa. 7.6. Inferencia acerca de la descripción de un solo parámetro, es decir probando μ con σ2 conocida (distribución normal). La estadística que se usa para hacer pruebas de hipótesis para un solo promedio poblacional μ, con varianza conocida α usando la distribución normal, a sabiendas de que la población muestreada es normal o que n ≥ 30 casos, es: z = ( – μo) / σ/ √n
(7-1)
Donde: z = variable aleatoria normal estándar = promedio estadístico μo = valor esperado del promedio poblacional σ = desviación estándar conocida n = tamaño de la muestra Ejemplo 7.1. En un estudio de contaminación del aire, se saca una muestra aleatoria de 36 mediciones de óxidos de azufre (SO2), en unidades de partes por millón (ppm) de una zona industrial. Para esto, se calcula una media estadística de = 92.0 ppm. Estudios previos indican una desviación estándar conocida de σ = 9.0. Hacer lo siguiente: (a) Establecer las hipótesis nula y alternativa. Probar la hipótesis de que el valor esperado de μo es 96.0 ppm. (b) Establecer las regiones críticas asumiendo α = 0.05. Hacer una gráfica señalándolas. (c) Calcular el valor de la probabilidad p. Hacer gráficas que muestren los valores de p y los valores de X asociados. Sugerencia: Para hacer esta gráfica usando el Minitab (versión 15) irse a: Graph →Probability Distribution Plot. En la ventana de “Probability Distribution Plots” puntear “View Probability” y “OK”. Luego, en la ventana de “Probability
www.full-ebook.com
Distribution Plot-View Probability” seleccionar la distribución deseada y poner los valores de la media y la desviación estándar. Enseguida, seguir con las demás instrucciones (Si se desea cambiar los datos de los ejes, dar doble clic). (d) Si se rechazare la hipótesis nula, con un valor de p significante o muy significante, ¿qué relación práctica tendría esto con el diseño experimental de la susodicha zona industrial? (e) Si no se pudiera rechazar la hipótesis nula, enlistar los factores físicos o estadísticos que pudieran haber intervenido. Solución: (a) La hipótesis alternativa es H1:μo ≠ 96.0, o bien H2:μo > 96.0, H3:μo < 96.0. La hipótesis nula es Ho:μ = 96.0 Las suposiciones son que la poblacional de los gases atmosféricos es normal, σ es conocida y, la muestra es aleatoria. (b) Con el nivel de significancia de α = 0.05 (nivel de confianza 95%), las regiones críticas y los coeficientes críticos son de ±1.96. La estadística usada es la de la distribución (1) z = ( – μo) / σ/√n Sustituyendo los valores de = 92.0, μo = 96.0.0, σ = 9.0 y n = 36 en la fórmula de arriba da: z = (92.0 – 96.0) / 9.0/= - 2.67 Ahora comparando la zcalc. = – 2.67 con la z tabulada ztab. = -1.96, se rechaza la hipótesis y nos inclinamos por H3:μo < 96. Las gráficas se dan abajo.
www.full-ebook.com
Figura 7.2. La gráfica del lado izquierdo muestra la distribución normal con media = 92.0 y desviación estándar = 9.0 con las regiones críticas correspondientes a z0.05/2 ±1.96. La gráfica del lado derecho muestra los valores de X iguales a 74.4 y 110.0, correspondientes a las regiones críticas de ±1.96. (c) El valor de la probabilidad p se calcula buscando el valor de –2.67 en la tabla de la distribución normal, y da .0038. Además, como la prueba es bilateral, entonces, se multiplica .0038 por 2, es decir, (2)(.0038) = .0076. Este valor es mucho muy significante y da mucha evidencia para apoyar el rechazo de la
www.full-ebook.com
hipótesis. Los valores asociados a p con los valores de X son de 66.1 y 118.0, respectivamente. La gráfica de abajo muestra esta situación.
Figura 7.2a. Gráfica mostrando la distribución de los óxidos de azufre y los valores de p para la prueba de hipótesis bilateral (d) El hecho que el valor de p = .0076 sea mucho, muy significante, esto dice que, no hay mucha variación y el diseño estadístico es apropiado y confiable. (e) En la eventualidad de que no se pudiera rechazar la hipótesis nula, los factores que pudieran haber intervenido serían tamaño de muestra pequeño, mucha variación en los datos, factores no controlados y así sucesivamente. Todas estas variantes serían situaciones que condicionarían el valor de p. Ejemplo 7.1ª. Hacer el mismo ejemplo 7.1 anterior del estudio atmosférico, donde se sacó una muestra aleatoria de 36 mediciones de óxidos de azufre (ppm), es decir, donde se calculó una media estadística de = 92.0 ppm. Sin embargo, ahora hacer el problema usando el Minitab y luego comparar los resultados. Solución:
www.full-ebook.com
Irse a: Stat → Basic Statistics → 1-Sample Z. Luego, en la ventana de diálogo de “1-Sample Z (Test and Confidence Interval)” puntear “Summarized Data”, enseguida, en las ventanillas de “Sample Size”, “Mean” y “Stándar Deviation”, poner el tamaño de la muestra, la media y la desviación estándar, respectivamente. Las entradas de la información se muestra en la figura de abajo.
Figura 7.3. Diagrama esquemático de la hoja del Minitab mostrando las entradas de los valores requeridos en este problema.
www.full-ebook.com
Los resultados se muestran en la figura de abajo.
Figura 7.3a. Resultados impresos del Minitab. Ejemplo 7.2. En aplicaciones a las tecnologías del agua, se saca una muestra aleatoria (promediadas por 2 años) de 36 análisis de nitritos (NO-2), expresados en mg/L, procedentes de una descarga de aguas municipales a una corriente, mostró una media estadística de = 74.0 mg/L. Suponiendo que la varianza sea conocida e igual a σ2 = 81.0 mg/L, usando α = 0.05, hacer lo siguiente: (a) ¿Indicaría esto que un límite de concentraciones de NO-2 esté arriba de 70 mg/L?. (b) Calcular el valor de p e interpretarlo acordemente. (c) Hacer una gráfica que señale el valor de p e interpretar su significado. Solución: (a) Primeramente se procede a hacer los siguientes cálculos. 1. La prueba de hipótesis nula debe ser Ho:μ ≤ 70, porque la hipótesis alternativa, dada por el problema, es HA:μ > 70. Por lo tanto, la prueba de hipótesis es una prueba unilateral derecha. 2. La región crítica es zα = z0.05 = 1.645
www.full-ebook.com
3. La estadística usada es z = ( – μo) / σ/ √n Sustituyendo los valores del promedio = 74, de la desviación estándar σ = 9, n = 36 y μo = 70 en la función estadística z da: z = (74 – 70) / 9/ = 2.66 (b) Al comparar el valor de zcalc. = 2.66, con ztab. = 1.645, se rechaza la hipótesis nula y se dice que, HA:μ > 70, con un valor de p = .0039, cuyo valor apoya muy contundentemente, la decisión de haber rechazado la hipótesis nula. Aquí, nótese que el valor de p no se multiplica por 2, porque la prueba es unilateral derecha. Como resultado, la evidencia a favor de HA: es más fuerte que la sugerida por un nivel de significancia de 0.05 (porque .0039 < 0.05). (c) La Figura 7.4 muestra el valor de p.
Figura 7.4. Gráfica mostrando la distribución de los nitritos con media = 74 y valor de p = .0039. En términos simples, este valor de dice que existen, aproximadamente, 4 posibilidades en 1000 de haber hecho una decisión equivocada en haber rechazado la hipótesis nula.
www.full-ebook.com
La conclusión de haber rechazado la hipótesis sustentada con un valor de p tan pequeño, dice que este experimento y los datos son confiables. Así, entre más grande sea el valor de z calculado, con respecto al valor de la z tabulada, más pequeño será el valor de p y más confiabilidad habrá en los resultados obtenidos. Si no se hubiera rechazado la hipótesis sustentada, esto indicaría que el error estándar del promedio (μ = σ/√n) es grande, por mucha variación en los datos, que se traduce en resultados no confiables. Esto nos llevaría a pensar que se necesitan refinar las técnicas de laboratorio o de campo o sacar muestras más grandes. En términos simples, el valor de p igual a 0.0039 dice que existen aproximadamente, 4 posibilidades en 1000 en contra (o de 996 posibilidades en nuestro favor) de haber hecho una decisión equivocada en haberse inclinado por la hipótesis alternativa. Ejemplo 7.2ª. Hacer el mismo Ejemplo 7.2 de de arriba, pero ahora usando el Minitab. Solución: Seguir las mismas instrucciones anteriores del Ejemplo 7.1ª, y en la ventanilla de “1 Sample Z Options” en la ventanilla de “Alternative” cambiar a “greater than” y proseguir con las demás instrucciones. Esto genera los datos mostrados en la figura de abajo. Figura 7.5. Datos impresos generados por el Minitab.
www.full-ebook.com
Ejemplo 7.3. El estándar para el agua potable, en cuanto a sólidos disueltos totales (SDT) es de 500.0 mg/L. Para probar esta aseveración se saca una muestra aleatoria de 144 casos y da un promedio aritmético estadístico de 495.0 mg/L, con una desviación estándar de 15.0 mg/L. Asumiendo un nivel de significancia y usando α = 0.05, hacer lo siguiente: (a) Probar la hipótesis alternativa, de que el valor esperado es menor que 500.0 mg/L. (b) Calcular el valor de p y decir si la prueba es significante. Solución: (a) La prueba de la hipótesis nula es Ho:μ ≥ 500 y la hipótesis alternativa debe ser HA:μ < 500. La región crítica es unilateral izquierda, esto es, zα = z0.05 = -1.645. (3) Ahora, sustituyendo los valores correspondientes de = 495, σ = 15, n = 144 y μo = 500, en la función de z nos da: zcalc. = (495 – 500) / 15/
= - 4.0
Nótese que aquí s = σ porque el tamaño de la muestra es muy grande. 5. En conclusión, debido a que el valor de z = - 4.0 se introduce en el extremo izquierdo de la distribución (zcalc. = -4.0 < ztab. = -1.645), se rechaza la hipótesis nula y se inclina por la hipótesis alternativa. (b) El valor de la probabilidad p se calcula buscando el valor de -4.0 en la tabla de la distribución normal, pero como no está se toma el valor correspondiente a z = -3.89 (o dependiendo de la tabla de z usada) y da .0001. Este valor es mucho muy significante. Aquí, nuevamente, este valor tan pequeño de p, nos indica que los datos de este experimento son precisos y confiables (debido a una muestra muy grande y a una desviación estándar muy pequeña).
www.full-ebook.com
Ejemplo 7.3ª. Hacer el mismo Ejemplo 7.3 anterior, pero ahora usando el Minitab. Solución: Seguir las mismas instrucciones de los ejemplos anteriores, únicamente que, en esta ocasión, en la ventanilla de “1- Sample Z - Options” en la ventanilla de “Alternative” cambiar a “less than” y proseguir con las demás instrucciones. Esto genera los datos mostrados en la figura de abajo. Figura 7.5. Datos impresos generados por el Minitab.
7.7. Pruebas de hipótesis uniformemente más potentes usando el lema de Newman-Pearson. En algunas ocasiones, al establecerse las pruebas de hipótesis puede existir más de una estadística que pueda usarse en la toma de decisiones. Para explicar esta situación, los investigadores Quevedo et al. (2008) recapitulan, en esta sección, el lema de Newman-Pearson. Así, de esta manera, es deseable que la estadística de prueba y la región de rechazo para la hipótesis nula se hagan fijando la probabilidad de cometer el error I (error α), para minimizar la probabilidad de cometer el error II (error beta). Esto dice que de todas las regiones críticas de significancia igual a α se desea tener la de menor valor de β = P(error II), si esto es posible, se dirá que se tiene la mejor prueba de hipótesis. Siendo así, cuando se prueban dos hipótesis, el lema de NewmanPearson da la guía para encontrar la mejor prueba. De acuerdo a esta fuente de
www.full-ebook.com
información, esto se explica a continuación. Teorema 7.1. Aplicando el lema de Newman-Pearson para la prueba de hipótesis. Ho:θ = θ0 contra HA:θ = θ1 Acordemente, la mejor región crítica de α es de la forma:
(7.2) Donde k es una constante positiva Esto dice que, cuando se tiene una muestra al azar, la mejor decisión se hace con la siguiente regla: (a) Si L(θ0)/(Lθ1) < k, entonces se rechaza la hipótesis nula (si ocurre en la región crítica C) (b) Si L(θ0)/L(θ1) ≥ k, entonces, no se rechaza Ho: (si ocurre en Cc) Demostración: Si C es una región crítica de tamaño α para Ho: se tiene lo siguiente: • Probabilidad de error I = P(C| θ = θ0) = θ • 1 – P(Error II) = 1 – P(C|θ = θ1) = P(C|θ = θ1) = 1 – βc = Potencia en C
www.full-ebook.com
Para probar que C es la mejor región crítica se debe ver que, para cualquier otra región de rechazo C* de tamaño α; el error tipo II tiene una probabilidad menor en C, que en C* (βc < βc*). En consecuencia, la potencia es mayor en C que en C*. El error tipo I y el error tipo II en la región C*: • P(Error I) = P(C* |θ = θ0) = α • 1 – P(Error II) = 1 – P(C*c |θ = θ1) = P(C* |θ = θ1) = 1 – βc’ potencia en C*. La prueba se hará considerando que la distribución generadora de la muestra es continua y, con algunas modificaciones, se puede hacer la demostración para variables discretas. Las dos regiones críticas se pueden descomponer en la unión de dos conjuntos mutuamente excluyentes, esto es: C = (C ∩ C*) ∪ (C ∩ C*c) y C* = (C* ∩ C) ∪ (C* ∩ Cc). Acordemente: P(C|θ = θ0) = P(C ∩ C*|θ = θ0) + P(C ∩ C*c|θ = θ0) = α P(C*|θ = θ0) = P(C* ∩ C|θ = θ0) + P(C* ∩ Cc|θ = θ0) = α 3a)
(7-3) (7-
Consecuentemente: P(C|θ = θ0) – P(C*|θ = θ0) = P(C ∩ C*c|θ = θ0) – P(C* ∩ Cc|θ = θ0) = 0 (7-3b) Prosiguiendo con la demostración, se calculará cada uno de los términos de la diferencia.
www.full-ebook.com
• P(C ∩ C*c|θ = θ0) = ∫C∩C*c f(x1;θ0) f(x2;θ0)…f(xn;θ0)dx1dx2… (7-3c) En la región C ∩ C*c se satisface que L(θ0)/L(θ1) < k. Entonces se tiene que: P(C ∩ C*c|θ = θ0) ≤ k ∫C∩C*c f(x1;θ1)…f(xn;θ1) dx1dx2…dxn = kP(C ∩ C*c|θ = θ1) (7-3d) • -P(C* ∩ Cc|θ = θ0) = -∫C*∩Cc f(x1;θ0)f(x2;θ0)…f(xn;θ0)dx1dx2…dxn (7-3e) En la región C* ∩ Cc se satisface que L(θ0)/L(θ1) ≥ k, entonces se razona que: -P(C* ∩ Cc|θ = θ0) ≤ k -∫C*∩Cc f(x1;θ1)…f(xn;θ1) dx1dx2…dxn = -kP(C* ∩ Cc|θ = θ1) (7-3f) Finalmente, se concluye que: 0 < k[P(C ∩ C*c|θ = θ1) – P(C ∩ C*c|θ = θ1)] = k[P(C|θ = θ1) – P(C*|θ = θ1)] (7-3g) Por lo tanto, para probar que la potencia en C es mayor que la potencia en C*, entonces, P(C*|θ = θ1) ≤ P(C|θ – θ1). Esto prueba que C es la mejor región crítica. En resumen, lo que dice el lema de Neyman-Pearson es que la probabilidad de cometer el error II en C es menor que en C*, o sea que la mejor región crítica está en C. Ejemplo 7.4. Este es un ejemplo adaptado de Quevedo et al. (2008), el cual está relacionado a una aplicación a los usos del agua. Para esto se saca una muestra
www.full-ebook.com
aleatoria de 9 mediciones, la cual está normalmente distribuida, con promedio de μ y una varianza = 1. Probar la hipótesis nula μ = 10 mg/L contra la hipótesis μ = 11 mg/L, con un nivel de significancia de α = 0.05. Aplicar el lema de NeymanPearson y encontrar la región crítica. Solución: Las hipótesis de prueba son: Ho:μ = μo = 10 contra la hipótesis alternativa de HA: μ = μ1 = 11 La función de verosimilitud está dada por: L(μ;x1,..,xn) = 1/(2πσ)0.5 exp-(x1-μ)2/2σ2 1/(2πσ)0.5exp-(x2-μ)2/2σ2…1/(2πσ)0.5 exp-(xn-μ)2/2σ2 (7-4)
Ahora, aplicando el lema de Neyman-Pearson se obtiene:
Por consecuencia, la hipótesis nula Ho: se rechaza si se cumple que:
www.full-ebook.com
Enseguida, al obtener el logaritmo (base e) de esta desigualdad se obtiene:
Ahora, al estandarizar la suma, da:
Finalmente, se concluye que la región crítica está dada por: zc = [9( - μo)]0.5 /σ > 1.645
(7-4d)
7.8. Pruebas de hipótesis para diferencias de dos medias poblacionales, (μ1 – μ2), para muestras grandes (n ≥ 30) usando la distribución normal, con varianzas conocidas e iguales (σ21 = σ22). Aquí se asume que las dos muestras son independientes.
www.full-ebook.com
Hasta ahora, hemos discutido pruebas de hipótesis de una sola muestra aleatoria, es decir, para una sola media. Ahora, vamos a ver pruebas de hipótesis donde se involucran dos muestras provenientes de dos poblaciones. De esta manera, en muchos problemas prácticos estamos interesados en comparar dos poblaciones con relación a alguna característica cuantitativa. Por ejemplo, la comparación de dos métodos para medir el mismo proceso cualitativo o cuantitativo. En ingeniería ambiental relacionada con estudios atmosféricos, por ejemplo, se pueden comparar las concentraciones promedio de dos complejos industriales diferentes de algún contaminante del aire. Análogamente, en ingeniería ambiental del agua, se pueden comparar dos métodos para medir las concentraciones de algún contaminante en muestras de agua. Otra aplicación sería medir dos métodos para el análisis químico del cio en dos muestras de agua, y así sucesivamente. En términos estadísticos, si se tienen dos poblaciones con medias μ1 y μ2 y con varianzas σ1 y σ2 respectivamente, el estimador puntual de la diferencia de los promedios, es decir, (μ1 - μ2), y lo da el estadístico ( 1 – 2). Por lo tanto, para obtener una estimación puntual de (μ1 – μ2) se seleccionan dos muestras aleatorias independientes, una de cada población de tamaños n1 y n2 y se calcula la diferencia, ( 1 – 2). De esta manera, dejemos que 1 y 2 sean las medias de dos muestras grandes de tamaños n1 y n2 sacados de dos poblaciones que tienen medias de μ1 y μ2 y desviaciones estándar de σ1 y σ2, respectivamente. Entonces, si ponemos μ1 = μ2 estamos diciendo que no hay diferencias entre ambos promedios poblacionales, que es lo mismo que decir, que dos muestras se sacaron de poblaciones que tienen la misma media, μ. La estadística para semejantes fines, cuando σ21 y σ22 son conocidas es: z = [(
2 2 0.5 1 - 2) - (μ1 - μ2)] / (σ 1/n1 + σ 2/n2)
Donde: 1, 2 = medias de muestras uno y dos, respectivamente σ21, σ22 = varianzas de muestras uno y dos respectivamente
(
1 – 2) = estimador puntual de (μ1 – μ2)
www.full-ebook.com
(7-5)
n1 y n2 = tamaños de muestras uno y dos, respectivamente z = variable normal estándar Si se asume que σ1 = σ2 = σ, la estadística de arriba se reduce a: z = (
1 – 2) – (μ1 – μ2) / σ
(7-5a)
Las funciones para las pruebas de hipótesis nulas y las alternativas, son: Ho:μ1 - μ2 = 0 es decir, que Ho: μ1 = μ2 (7-5b) H1:μ - μ2 ≠ 0 y H2:μ1 - μ2 > δ y H3:μ1 - μ2 < δ (7-6c) Aquí, aunque δ puede ser cualquier valor constante, muchas veces el valor de δ es de 0 y se prueba la hipótesis nula de no “diferencia”, es decir Ho:μ1 = μ2. Ejemplo 7.5. Con la ingeniería ambiental del aire, en una investigación relacionada con las concentraciones de plomo (Pb) atmosférico, se sabe que el plomo es un veneno muy peligroso, en el cual el cuerpo se adapta crónicamente a las acumulaciones de este metal pesado. La presencia de Pb en el aire puede venir de emisiones atmosféricas de fundiciones de metales. Hay algunos métodos para determinar las concentraciones del contaminante atmosférico Pb. Uno de ellos es el método de absorción atómica espectrométrico (método A) y el método calorimétrico (método B). En este ejemplo se pretende comparar los resultados de los métodos de absorción atómica y el de ditizona en el análisis del Pb. El método de absorción atómica espectrométrica consiste en aspirar la muestra preparada en una flama y atomizándola. El otro método consiste en extraer en tetracloruro de carbono (CCl4), el Pb en una solución ligeramente básica. Los datos debajo dan las concentraciones (en μg/m3) de dos muestras de método A y método B. Asumir un nivel de significación de 0.05. También, asumir varianzas iguales y que las poblaciones muestreadas son normales. Hacer los siguientes cálculos usando el programa Excel: (a) Probar que no hay diferencia entre las dos poblaciones usando la estadística apropiada. (b) Usando el programa de cómputo Excel, calcular las regiones críticas y los
www.full-ebook.com
valores de p para una y dos colas. (c) Usar el Minitab y hacer los mismos cálculos que en los incisos anteriores. La tabla de abajo muestra los resultados de las concentraciones usando los dos métodos A y B. Tabla 7.2. Tabla mostrando las mediciones de Pb en unidades de μ/m3.
Solución: (a), (b). El procedimiento usando el Excel y los resultados de estos incisos se dan abajo. Usando el Excel proceder de la siguiente manera: Excel irse a: Tools → Data Analysis→ t-Test: Two Sample Assuming Unequal variances. Luego en la ventana de “t-Test Two-Sample Assuming Unequal Variantes”, introducir el rango de las dos variables y proseguir con las demás instrucciones. Esto da los resultados impresos mostrados en la Tabla 7.3 de abajo Tabla 7.2a. Tabla mostrando los resultados impresos del Excel que incluyen las regiones críticas y los valores de p, para una y dos colas.
www.full-ebook.com
(c) Usando el programa Minitab se obtienen los siguientes datos mostrados en la figura de abajo. Figura 7.6. Valores impresos del Minitab.
Aquí se observa que los resultados del Minitab incluyen también el intervalo de confianza, pero no incluyen las regiones críticas, sino que únicamente, dan el
www.full-ebook.com
valor de la probabilidad p y el lector tiene que sacar sus propias conclusiones acerca de los resultados. En conclusión, vemos que la hipótesis nula se rechaza con una y dos colas con valores de p muy significantes. Nota: en este contexto, el programa Minitab no incluye pruebas de hipótesis para diferencias de dos promedios poblacionales, (μ1 – μ2), usando la distribución normal, con varianzas conocidas e iguales (σ21 = σ22).
7.9. Inferencias acerca de (μ1 – μ2), cuando las varianzas σ21 y σ22 son desconocidas y cuando n1 > 30 y n2 > 30. En la sección anterior, acerca de las inferencias de (μ1 – μ2), se asumía que las varianzas poblacionales eran iguales y conocidas. Sin embargo, es raro que μ1 y μ2 sean desconocidas mientras que las varianzas σ21 y σ22 sean conocidas. Para solventar esa situación, esta sección estudia inferencias acerca de (μ1 – μ2) cuando las varianzas σ21 y σ22 son desconocidas. La estadística usada para semejantes casos es:
Donde: 1, s21 y n1 son la media, la varianza y el tamaño de la primera muestra, respectivamente. 2 2, s 2 y n2
son la media, la varianza y el tamaño de la segunda muestra, respectivamente. Ejemplo 7.6. En un estudio de dos cuencas hidrológicas, se recolectaron los
www.full-ebook.com
siguientes datos de muestras aleatorias de flujos de agua, expresadas en metros cúbicos por segundo: 1 = 43.0 (m3/seg), 2 = 41.0 (m3/seg), s21 = 11.0, s22 = 26.0 n1 = 50, n2 = 40. Probar lo siguiente: (a) Ho:(μ1 – μ2) = 0, contra HA: (μ1 – μ2) ≠ 0. Luego calcular el valor de la variable aleatoria z. (b) Calcular el valor de p usando α = 0.05. Solución: (a) Usando la función (7-6) y sustituyendo da:
Esta es una prueba de hipótesis bilateral y las regiones críticas con α = 0.05 son ±1.96 (b) Al comparar el valor de 2.15 con el valor crítico de 1.96 se rechaza Ho: con un valor de p igual a 0.017 (que se calculó de la tabla de z), pero como la prueba es bilateral se multiplica por 2 para dar .035. Comentario: En aplicaciones de pruebas de hipótesis, Maidment (1993) discute aplicaciones de pruebas de hipótesis nulas y alternativas con los estándares de usos del agua formulando preguntas como: ¿está el agua de este acuífero violando los estándares del agua potable? ¿Están los picos anuales de inundaciones aumentando sobre el tiempo como resultado del desarrollo del embalse? ¿Está la concentración del contaminante bajando como resultado de la instalación de una nueva planta tratadora de las aguas residuales? ¿Son las conductividades hidráulicas diferentes en unidades inferiores y superiores de este acuífero? Estas y otras más preguntas son importantes en la aplicación y desarrollo de pruebas de hipótesis, a la hidrología, es decir, cuando se estudia la inferencia acerca de la descripción de un solo parámetro, probando μ con σ2 conocida, usando la distribución normal.
Ejemplo 7.7. Hacer el mismo problema anterior del estudio de hidrología, pero
www.full-ebook.com
ahora probar que la diferencia de los dos promedios es mayor que cero. Solución: Bajo estas condiciones, la hipótesis nula debe ser Ho: (μ1 – μ2) = 0 y la alternativa es HA: (μ1 – μ2) > 0. La región crítica es del lado derecho con un valor de 1.645. Al comparar el valor de 2.15 con 1.645, se rechaza la hipótesis nula con un valor de p = .018 (El estudiante deberá comprobar esto). 7.10. Prueba de hipótesis nula para la media poblacional μ usando la t de Estudiante (teoría de muestreo pequeño). Cuando se usa la distribución normal z, una de las limitaciones de ésta, es de que se necesita conocerse la varianza poblacional, σ2. No obstante, debido a que σ2 es usualmente desconocida, tenemos que sustituirla por la varianza muestral s2 y usar la distribución de t de estudiante. De esta manera, se sabe que, cuando la población muestreada es normal se puede usar la distribución t. La distribución de t se diseñó para sojuzgar la limitación al uso de la variable aleatoria z normal, que está limitada a conocer la varianza σ2. Por lo tanto, si la varianza poblacional σ2 se sustituye por s2 en la variable aleatoria t, da la función de de t de estudiante. Teorema 7.2. Si muestras repetidas de tamaño n se sacan de una población normal, la distribución de muestreo de t se describe como: t = ( – μo) / s/√ n
(7-7)
Donde: = media muestral μo = la media poblacional que se desea probar s = desviación estándar de la muestra Ejemplo 7.8. En un estudio de química del agua, se saca una muestra aleatoria
www.full-ebook.com
de 8 observaciones de pH (potencial de hidrógeno que varía de 0 a 14, 7 siendo neutral, < 7 ácido y > 7 alcalino o básico), cuyos valores se usan para calcular la acidez y alcalinidad de muestras de agua industrial. Los datos se dan en la Tabla 7.3 de abajo. Probar la hipótesis nula de que el valor esperado del pH es de cuando menos 6.5. Asumir α = 0.05. Tabla 7.3. Tabla mostrando los datos
Solución: La hipótesis nula es Ho:μ ≥ 6.5, y la alternativa es H1:μ < 6.5. Esto dice que la prueba es unilateral izquierda. Usando la tabla de t se establece la región crítica izquierda, la cual es t[α;ν] = t[0.05;7] = - 1.895. Enseguida, usamos la estadística (7-7) y sustituyendo los valores da: t = ( – μo) / s/√ n = (5.0 – 6.5) / 0.756/√ 8 = - 5.6 Debido a que tcalc.= - 5.6 < ttab. = - 1.895, se rechaza la hipótesis nula y nos inclinamos por la hipótesis alternativa H1:μ < 6.5. Nota: Cuando se hacen prueba de hipótesis con el uso de la distribución de t, z, F, etc., no es suficiente
www.full-ebook.com
establecer las regiones críticas y luego decir si se rechaza o si se acepta la hipótesis nula. Esto se debe a que, si la prueba se trunca ahí, pues no hay manera de decir si la prueba fue significativa, sobretodo si el valor de la estadística calculada estuvo en el umbral de la región crítica. Si el investigador no reporta el valor de p, está impidiendo al investigador científico la oportunidad de hacer una decisión independiente de rechazar o no rechazar la hipótesis nula en términos probabilísticos. Es por esto que, es necesario calcular y reportar el valor de la llamada probabilidad p. Siendo así, antes de continuar, con las pruebas de hipótesis, las siguientes líneas discuten el procedimiento para calcular los valores de la probabilidad p necesarios con el uso de la distribución t. Además, con los programas de cómputo, como el Minitab, cuando se hacen pruebas de hipótesis, estos programas no calculan las regiones críticas, y únicamente, dan el valor de p y el lector tiene que interpretarlo. Es por esta razón que es muy importante dar una explicación, de cómo calcular e interpretar el valor del estadístico p. De esta manera, la siguiente sección discute los mecanismos para calcular el valor de p.
7.11. Mecanismos que se siguen para calcular el valor de la probabilidad p usando las tablas de las distribuciones de t de Estudiante, de la JI cuadrada o de la distribución F. Aquí, para calcular el valor de la probabilidad p se puede hacer usando la función t, es decir, haciendo interpolaciones aplicando una fórmula empírica diseñada por el autor de estas líneas y por la Dra. Socorro Arteaga (El Paso Community College). (λ2 – λ1) / (t2 – t1) = (λ2 - X) / (t2 – tcalc.)
(7-8)
Donde: λ2 = el nivel de confianza más alto de la tabla de la t de Estudiante λ1 = el nivel de confianza más bajo de la tabla de la distribución de t t1 = punto porcentual correspondiente a λ1 t2 = punto porcentual correspondiente a λ2 X = valor desconocido de λ tcalc.= valor de la estadística de t, con el nivel significante deseado, e.g., α = .05 o α = .01 Nota: si se usa la distribución de JI cuadrada o la distribución F, únicamente se substituye t por χ2 o por F, respectivamente.
Ejemplo 7.9. Con referencia al anterior Ejemplo del estudio del pH, hacer lo siguiente:
www.full-ebook.com
(a) Calcular el valor de la probabilidad p y definirlo. (b) Hacer gráficas que muestren las regiones críticas y el valor de p. Solución: (a) Para calcular el valor de p se hace buscando el valor absoluto de |-5.6| con ν = 7 grados de libertar en la tabla de la distribución t y se sustituyen los valores de λ2 = .99975, t2 = 6.082, λ1 = .9995 t1 = 5.408 y tcalc. = -5.61 en la fórmula de interpolación (7-8) y se resuelve por X.: (.99975 - .9995)/(7.885 – 5.408) = (.99975 – X)/(7.8885 – 5.6) Resolviendo por X, el valor de la probabilidad es p = 0.00048, el cual es mucho, muy significante. Aquí, el valor de 0.00048 se define como la probabilidad de obtener un valor de la muestra estadística que es, cuando menos, más extremo o inusitado, que aquel valor que se obtuvo de los datos de la muestra asumiendo que la hipótesis nula es verdadera. (b) Las Figuras de abajo muestran lo requerido por el problema. Sugerencia: Para hacer estas gráficas usando el Minitab irse a: Graphs → Probability Distribution Plot. Luego en la ventana de diálogo de “Probability Distribution Plots” puntear la ventanilla de “View Probability” y “OK”. Enseguida en la ventana de “Probability Distribution Plot-View Probability: y en la ventanilla de “Distribution” buscar y poner t y los grados de libertad. Luego irse a la ventanilla de “Shaded Area” y continuar con las demás instrucciones como se dan en otros ejemplos al final de este capítulo. Nota: Los grados de libertad son afectados por el tamaño de la muestra y el número de parámetros en el modelo estadístico usado. Por ejemplo, con la t de estudiante, cuando se está estimando un solo parámetro, e.g., la media poblacional μ, el tamaño de la muestra n constituye n piezas de información para estimar la media poblacional y su variabilidad. Un grado de libertad se consume en la estimación de la media y el resto de los n -1 grados de libertad estiman la variabilidad. Por lo tanto, al usar la t de estudiante, ésta usa una distribución de t con n -1 grados de libertad.
www.full-ebook.com
Figuras 7.7(a)-(b). Gráficas mostrando lo pedido por el problema. Ejemplo 7.9a. Hacer el mismo Ejemplo 7.9 del pH, pero ahora usando el Minitab y comparar los resultados. Solución: Trasponer los datos del pH a la hoja del Minitab. Luego, irse a: Stat → Basic
www.full-ebook.com
Statistics → 1-Sample t. Enseguida, en la ventana de “1-Sample t (Test and Confidence Interval)” puntear la ventanilla de “Samples in Columns” e introducir los datos que se van a procesar en la columna 1 y puntear “Select”. Luego, puntear la ventanilla de “Perform Hypothesis Test” e introducir el valor esperado de μo. Después, irse a “Options” y como la prueba es del lado izquierdo puntear “less than” y “OK”, OK”. Los resultados de estas instrucciones se muestran abajo. Figura 7.8. Resultados impresos del Minitab
Ejemplo 7.10. Este ejemplo da una explicación más explícita para calcular el valor de p, cuando se usa la t de estudiante, es decir, calculando el valor de p manualmente, y haciendo gráficas mostrando las regiones críticas y los valores de p con la ayuda del Minitab. Siendo así, supongamos que queremos hacer la prueba de hipótesis no tradicional con la función t, es decir, calculando el valor de la probabilidad p. Entonces, si el valor de la tcalc. = 2.83 con 4 grados de libertad, con α = 0.05, para Ho:μ = μo buscamos el valor absoluto de 2.83 en la tabla, pero no lo encontramos (si el valor de t fuera negativo, se busca el valor absoluto en la tabla de la distribución de t). Sin embargo, vemos que está entre 2.776 y 3.747, con sus respectivos valores de λ de .99 y .975. Entonces para encontrar X, procedemos usando la fórmula de interpolación de arriba, para la t de estudiante, donde los valores correspondientes son: λ2 = .99, λ1 = .975, t2 = 3.747, t1 = 2.776, tcalc. = 2.83 Ahora, sustituyendo estos valores en la fórmula de interpolación y sustituyendo: (.99 - .975) / (3.747 – 2.776) = (.99 – X) / (3.747 – 2.83)
www.full-ebook.com
Resolviendo por X da X = 0.976. Por lo tanto, p = 1 – 0.976 = 0.024. Esta situación se observa en la Figura 7.9 del lado derecho. Si el lector está interesado en hacer estas figuras que muestran las regiones críticas con un nivel de significancia de 95% y los valores de p, se procede como se hizo anteriormente.
www.full-ebook.com
Figura 7.9. Gráficas mostrando la distribución de t con valores críticos de ±2.78 (figura izquierda), y los valores de p con sus valores de la variable aleatoria x asociados a éstos (figura derecha). 7.12. Pruebas de hipótesis sobre los promedios de dos distribuciones normales, con varianzas desconocidas. Aquí es necesario considerar dos casos o situaciones diferentes: 1. Caso 1. En el primer caso estudiaremos una situación, en la cual se prueba la hipótesis para la diferencia de dos medias poblacionales (μ1 – μ2), cuando las varianzas de las dos distribuciones normales son desconocidas, pero iguales, v.g., (σ21 = σ22 = σ2). 2. Caso 2. En el segundo caso estudiaremos una situación en la cual se prueba la hipótesis, para la diferencia de dos medias poblacionales (μ1 – μ2), cuando las varianzas de las dos distribuciones son desconocidas y, no necesariamente, iguales. 7.12.1. Caso 1. Prueba de hipótesis para la diferencia entre dos medias poblacionales con varianzas iguales (σ21 = σ22), pero desconocidas. Como se asentó, hay situaciones en pruebas de hipótesis, para la diferencia de dos medias poblacionales, cuando las varianzas son iguales, pero desconocidas. De esta manera, en este caso 1, si ambas distribuciones son normales se usa la prueba de t de varianza combinada. Siendo así, supóngase que las poblaciones están normalmente distribuidas con las varianzas poblacionales iguales, pero desconocidas. Al sacar muestras independientes de cada una dos las dos poblaciones, se usa la función de abajo (Aquí, en contraste con la aplicación de la función pareada que requiere que haya dependencia en las muestras sacadas, la función del caso 1 requiere independencia de las dos distribuciones muestreadas).
www.full-ebook.com
Donde: s2p = la varianza combinada de las dos muestras. Es decir,
1, 2 = promedios aritméticos de las dos distribuciones
n1, n2 = tamaños de las dos muestras μ1, μ2 = parámetros de población uno y dos a estimarse s12, s22 = varianzas de muestras uno y dos, respectivamente Grados de libertad = (n1 + n – 2) Nótese que aquí se pierden dos grados de libertad, porque se están estimando dos parámetros poblacionales, es decir, μ1 y μ2. Para esta función, la prueba de hipótesis nula es (μ1 – μ2) = do Las pruebas de hipótesis alternativas son: (μ1 – μ2) > do (μ1 – μ2) < do (μ1 – μ2) ≠ do. Las regiones críticas son, respectivamente:
www.full-ebook.com
t > tα
t < tα
t < -tα/2
y
t > tα/2.
Ejemplo 7.11. Esta es un estudio en la cual se analizan las concentraciones de nitrógeno (N) y de nitratos (NO3-) en el agua residual usando dos métodos de análisis, es decir, el método de ácido fenoldisulfónico y el método de ultravioleta espectrofotométrico (Ver Standard Methods for the Examination of Water and Wastewater). En este contexto, el nitrato representa la fase más oxidada del ciclo del nitrógeno y alcanza concentraciones altas en las fases finales de la oxidación biológica. Los nitratos ocurren en pequeñas cantidades en las aguas superficiales. (El límite impuesto por la Environmental Protection Agency de E. U. es de 45 mg/L). Concentraciones altas de nitratos en el agua potable causan en los niños lo que se llama metemoglobinemia. De cualquier manera, los dos métodos, es decir, de ácido fenoldisulfónico (Método A) y el de ultravioleta espectrofotométrico (Método B), se dan en la tabla de abajo. Asúmase que las varianzas son iguales. Tabla 7.4. Tabla mostrando las mediciones de concentraciones de nitratos usando los métodos A y B.
Hacer lo siguiente:
www.full-ebook.com
(a) Probar Ho:(μ1 – μ2) = 0 contra HA:(μ1 – μ2) > 0. Se rechaza Ho:(μ1 – μ2)= 0, cuando tcalc. > tα. (b) Calcular el valor de p. Solución: Usando un paquete de cómputo, primero calculamos, manualmente, los promedios y las varianzas, usando los datos de arriba y obtenemos: 2 1 = 46.81, s 1 = 0.691,
2 2 = 45.27, s 2 = 0.536, n1 = n2 = 8,
1 = 46.9,
2 =
45.16. Usamos la función (7-9a) de varianzas combinadas de las dos muestras. Pero, primero calculamos la varianza combinada s2p usando la función (7-9). Sustituyendo estos valores en la fórmula de las varianzas combinadas da s2p = 0.783. Ahora usando la función (7-8) y sustituyendo los valores apropiados da t = 3.93. En conclusión se rechaza Ho:(μ1 – μ2) = 0, porque tcalc. = 3.93 > t(0.05;14) = 1.761 y se dice que si hay diferencias entre los resultados de los dos métodos de análisis de nitratos. El valor de p se calcula como p = .0008 ≈ .001. Ejemplo 7.10ª. Hacer el mismo Ejemplo 7.10 de los nitratos, usando los dos métodos de análisis, es decir, el método de ácido fenoldisulfónico y el método de ultravioleta espectrofotométrico, pero ahora usando el programa de cómputo Minitab. Solución: Primeramente, copiar los datos a la hoja del Minitab. Luego, irse a: Stat → Basic Statistics → 2-Sample t (Test and Confidence Interval)”. Enseguida puntear “Samples in Different Columns” y en las ventanillas de “First” and “Second” introducir los datos de las dos columnas y puntear “Select” cada vez. Como el problema está asumiendo varianzas iguales, pues puntear la ventanilla de
www.full-ebook.com
“Assume equal variances”. Finalmente, puntear “Options” y continuar con las instrucciones pedidas. Esto genera los datos de abajo. Figura 7.10. Figura mostrando los resultados impresos del Minitab.
7.12.2. Caso 2. Prueba de hipótesis para la diferencia entre dos medias poblacionales con varianzas desiguales (σ21 ≠ σ22). En algunas situaciones no se espera que las varianzas de las dos distribuciones, σ21 y σ22 sean iguales. Para probar la hipótesis nula Ho:(μ1 – μ2) = 0 no hay una estadística de t que sea exacta. No obstante, la función (7-10) de abajo tiene una distribución que se aproxima a una distribución de t, con ν grados de libertad, como se ve en la función (7-10ª) de abajo.
Si la hipótesis nula es verdadera, para calcular los grados de libertad, se usa la fórmula:
www.full-ebook.com
Donde: s21 y s22 = varianzas de las muestras uno y dos n1 y n2 = tamaños de las muestras uno y dos Para esta función: La prueba de hipótesis nula es: (μ1 – μ2) = do Las pruebas de hipótesis alternativas son: (μ1 – μ2) > do, (μ1 – μ2) < do, (μ1 – μ2) ≠ do. Las regiones críticas son, respectivamente: t > tα, t < -tα, t < -tα/2 y t > tα/2. Ejemplo 7.11. En un estudio de ingeniería ambiental relacionado con las tecnologías del agua, para comparar las eficiencias de dos plantas de tratamiento de aguas residuales, para la reducción del DBO5 se hacen dos pruebas, una con una laguna de estabilización y otra con una planta de filtros por goteo. Se selecciona una muestra aleatoria (promediadas por 5 años) de 25 de la laguna de oxidación e igualmente, se selecciona una muestra de 12 para la planta mecánica. De la laguna de estabilización se calcula una media de 40.1 mg/L con una varianza de 42 para las concentraciones de nitratos. Igualmente, se calcula la media de las concentraciones de DBO5 de la planta y da una media de 31.7 mg/L con una varianza de 44. Se asume que las dos poblaciones de nitratos están normalmente distribuidas. También se asume que las dos varianzas poblacionales son iguales. Usar un nivel de significancia de α = 0.05. Hacer lo siguiente: (a) Calcular el valor del estadístico de prueba t apropiada (b) Calcular las regiones críticas y probar Ho:(μ1 – μ2) = 0 contra HA:(μ1 – μ2) > 0.
www.full-ebook.com
(c) Calcular el valor de p luego hacer una gráfica señalándolo. Asumir una prueba con varianzas desiguales y con α = 0.05. Solución: (a) Usando la función (7-10) del caso 2 y sustituyendo los valores requeridos da:
(b) Para calcular las regiones críticas, primero usamos la función (7-10a) para calcular los grados de libertad: Con s21 = 42.0, n1 = 25, s22 = 44, n2 = 12 y sustituyendo da:
La prueba de hipótesis nula es: Ho:(μ1 – μ2) = 0 y la alternativa es: HA:(μ1 – μ2) > 0 La región crítica derecha es: t > t0.05;21 = 1.721 En conclusión debido a que tcalc.= 3.63 > t > t0.05;21 = 1.721 se rechaza la hipótesis nula sustentada Ho:(μ1 – μ2) = 0, y se inclina por la hipótesis alternativa de HA:(μ1 – μ2) > 0 (c) Usando la función de interpolación y sustituyendo los datos de abajo y
www.full-ebook.com
redondeando el valor de X da: t2 = 3.819, λ2 = .0005, t1 = 3.527, λ1 = .001, tcalc. = 3.63 (.0005 - .001) / (3.819 – 3.527) = (.0005 – X) / (3.819 – 3.63) X = p = 0.0008 La gráfica de abajo muestra lo requerido por el problema.
Figura 7.11. Gráfica mostrando el valor de p para la prueba unilateral derecha de este problema, con región crítica de 1.721. Aquí nótese el diferimiento tan grande entre 1.721 y 3.73, lo que llevó a un valor de p = 0.0008, mucho muy significante Ejemplo 7.11ª. Hacer el mismo Ejemplo 7.11 del DBO5 de las plantas de estabilización y de filtros por goteo, pero ahora usando el Minitab y comparar los resultados. Solución: Seguir los mismos pasos que en el ejemplo anterior, excepto que ahora como los
www.full-ebook.com
datos ya esta procesados, puntear la ventanilla de “Summarized data”. Luego llenar los seis espacios que aparecen, acordemente. Finalmente, en la ventanilla de “Assume equal variances” dejarla en blanco. Luego continuar con las demás instrucciones. Esto dará los resultados de abajo. Figura 7.11ª. Diagrama mostrando los resultados impresos del Minitab.
Nótese que si no se asumen varianzas iguales, el resultado es un poco diferente 7.13. Prueba de t de Estudiante, para observaciones pares, con el objeto de detectar diferencias entre dos tratamientos hechos sobre los mismos elementos seleccionados de la población, asumiendo que hay dependencia. Un caso especial de estadística de inferencia, acerca de una sola población es cuando los datos consisten de observaciones pareadas. Se pueden diseñar observaciones pareadas de diferentes maneras. Por ejemplo, podemos tomar mediciones sobre “algo antes y después” de algún tratamiento o de condiciones ambientales diferentes. Otra forma de diseñar observaciones pareadas es a través de emparejamientos de acuerdo a características semejantes, para luego aplicar un tratamiento a un miembro de cada par y un tratamiento diferente al otro miembro. Aquí, sin embargo, hay que estar consciente de que, en contraste a las funciones de pruebas de hipótesis para la diferencia de dos medias poblacionales (μ1 – μ2), donde había independencia, en el caso de las funciones pareadas hay dependencia y el método de selección en el emparejamiento de los pares de las observaciones de las distribuciones es deliberado. Además, el tamaño de las
www.full-ebook.com
muestras pares debe ser igual. También, en el caso de las observaciones pareadas, las condiciones de las dos poblaciones, no se asignan en forma aleatoria a las unidades experimentales, sino que cada unidad experimental homogénea recibe ambas condiciones de las poblaciones, de tal manera que, cada unidad experimental tiene un par de observaciones, es decir, una para cada población. En los usos del agua, la prueba de hipótesis pareada tiene aplicaciones, como por ejemplo, para evaluar el funcionamiento de una planta de tratamiento de aguas residuales. Es decir, para medir las concentraciones del DBO en la entrada y, luego, en la salida. Bajo estas condiciones hay dependencia, porque estamos hablando de la misma planta, situada en el mismo lugar. Esta función pareada también tiene mucha aplicación en la agricultura, para ver los efectos de la cantidad de agua, tipos de suelos, temperaturas, etc., que pueden afectar la producción agrícola. La función de t para observaciones pares usada para tales fines se da abajo.
Donde: = Media de la muestra de las diferencias de las observaciones del par de distribuciones s = Desviación estándar de las diferencias de las observaciones del par de distribuciones n = número de observaciones o casos Las pruebas de hipótesis nulas y alternativas para la función pareada son: Ho:μD = do
HA: μD ≠ do
H1: μD > do
H2: μD < do
Las regiones críticas correspondientes son:
www.full-ebook.com
t < -tα/2 y t > tα/2
t > tα
t < -tα
Ejemplo 7.12. Para probar la eficiencia de una planta de tratamiento de lodos activados se midió la concentración del DBO5 en la entrada y en el efluente (salida). Se requiere saber, qué tan eficiente es este sistema de tratamiento del drenaje. En otras palabras, ¿está la planta de tratamiento de aguas residuales funcionando en forma adecuada? Tabla 7.5. Tabla mostrando las concentraciones de DBO de la entrada y la salida de la planta y las diferencias de éstas.
Solución: Usando los valores de la tabla de arriba sacamos las diferencias entre las concentraciones en la entrada y en el efluente. Esto se muestra en la tercera columna de la Tabla 7.5. Una vez hecho esto, se calcula el promedio aritmético de las diferencias (que es igual a ) y la desviación estándar (que es igual sd), el error estándar, etc. 1. Usando un paquete de computadora se calcula el valor del promedio = =
www.full-ebook.com
36.37, la desviación estándar igual a sd = 22.95, n = 10 y el error estándar = 7.26 2. La prueba de hipótesis nula es de Ho:μ = 0, o sea, que no hay diferencias entre el DBO de la entrada y del efluente. La hipótesis alternativa es HA:μ ≠ 0. 3. El nivel de significancia es α = 0.05. La región crítica es del extremo derecho y es igual a t.95;9 = 2.262, es decir, con 9 grados de libertad. 4. Se usa la función (7-11) de arriba y sustituyendo los valores da: t = ( – μo) / sd /√ n t = (36.37 – 0)/7.26 = 5.01 5. Al comparar el valor de tcalc. = 5.01 con el valor de la t crítica de t.95;9 = 2.262, se rechaza la hipótesis nula y decimos que sí hay diferencias entre las concentraciones de la entrada y de la salida del drenaje. 6. Para calcular el valor de la probabilidad p usamos la fórmula de interpolación. Para esto buscamos 5.01 con 9 g.l. en la tabla de la t de Estudiante y vemos que está entre los valores porcentuales de λ2 = .00025 con t2 = 5.291 y λ1 = .00025 con t1 = 4.781. Ahora usando la fórmula de interpolación y sustituyendo todos los valores da: (.00025 - .0005)/(5.291 – 4.781) = (.00025 – X)/(5.291 – 5.01) Resolviendo por X da p = .0005 y luego se multiplica por 2 (porque la prueba es bilateral) para dar p = .001 Este valor de p es mucho muy significante y apoya, muy contundente, la decisión de haber rechazado la hipótesis, de que no hay diferencias entre las concentraciones de la entrada a la planta y de la salida. En conclusiones prácticas, esto es lo mismo que afirmar que la planta de tratamiento está operando eficientemente.
www.full-ebook.com
6. En conclusión rechazamos la hipótesis Ho:μ = 0, esto es, de que no hay diferencias entre las concentraciones de la entrada y del efluente (¡en verdad si hay mucha diferencia, al juzgar por el valor tan pequeño de la probabilidad p!). Este valor tan pequeño de p = .0004 sugiere que la planta de lodos activados está funcionando acordemente. 7. Aquí es de notarse que, si no se rechazara la hipótesis, entonces, se tendría que investigar las fuentes de variabilidad que pudieron haber intervenido. Por ejemplo, ¿se debió esta variación (que ocasionó que el error estándar fuera grande y, por lo tanto, a la aceptación de la hipótesis nula), a descargas fugitivas de sustancias químicas o tóxicas que entraron a la planta de tratamiento y que afectaron la función de las bacterias? ¿Se debió tal vez a que los reactivos del laboratorio pudieran estar contaminados? ¿O tal vez la variación pudo ocurrir debido a un mal funcionamiento de los aparatos, como los medidores de pH, balanzas del laboratorio. También, ¿Se debió esta variación a que los técnicos de la planta estaban mal entrenados o mal pagados, o tal vez se haya debido al mal funcionamiento del tratamiento primario o del tratamiento secundario, de la planta, falta de mantenimiento, etc.? Aquí es de notarse que la estadística descubre situaciones anómalas, cuando se razona acordemente. Ejemplo 7.12ª. Hacer el mismo Ejemplo 7.12 de la planta de tratamiento de lodos activados, pero ahora usando el Minitab y comparar los resultados. Solución: Primeramente, introducir los datos en la hoja del Minitab. Luego irse a: Stat → Basic Statistics → Paired t. Enseguida, en la ventana de “Paired t (Test and Confidence Interval)” puntear “Paired t (Test and Confidence Interval)” y luego puntear “Samples in Columns” e introducir los datos de las dos columnas punteando “Select” en cada caso. Luego, irse a “Options” y en la ventanilla de “Test Means” poner el valor de la media μ probada (cero en este caso). Finalmente, “OK” “OK”. Esto genera los resultados impresos de abajo. Aquí nótese que el Minitab también da los intervalos de confianza. Figura 7.12. Resultados impresos del Minitab para este ejemplo.
www.full-ebook.com
7.14. Distribución de JI cuadrada (χ2). La distribución de JI cuadrada está relacionada con la varianza. Esta distribución se usa para hacer intervalos de confianza para la varianza poblacional y pruebas de hipótesis para la varianza poblacional. Esta estadística de χ2 también se usa para hacer pruebas de bondad de ajuste. Esto se hace para ver si los datos provienen de una población, que sigue alguna distribución especificada, como discreta o continua, es decir, comparando los datos teóricos con los observados. Finalmente, la JI cuadrada también se usa para hacer pruebas de independencia y así sucesivamente. La distribución de JI cuadrada está críticamente condicionada a muestreos de poblaciones normales, porque de otra manera puede conducir a errores muy grandes. Además, un tamaño de muestra grande, no garantiza una prueba confiable. 7.14.1. Función de probabilidad de densidad de la JI cuadrada. La función de probabilidad de densidad de la JI cuadrada se da como (NIST/SEMATECH):
Donde ν es el parámetro de forma y Γ es la función gamma
www.full-ebook.com
La gráfica de función de probabilidad de densidad de la distribución de JI cuadrada para diferentes grados de libertad, ν = 1, ν = 2, ν = 6 y ν = 10 se da como:
Figura 7.13. Gráfica de probabilidad de densidad para diferentes grados de libertad (g.l.) usando las funciones (7-12) (7-12ª). Nótese que, a medida que aumentan los grados de libertad, la distribución se hace más simétrica. 7.14.2. Función de probabilidad acumulada de la JI cuadrada. La función de la distribución acumulada de la JI cuadrada χ2 para un valor dado de x y de grados de libertad, ν se da como (MathWorks):
www.full-ebook.com
Donde Γ es la función gamma y t es la función de t y de estudiante De acuerdo a la fuente anterior, cada elemento de x es el valor cuya probabilidad acumulada, bajo la distribución de la función acumulada definida por los correspondientes grados de libertad en ν es especificada por el valor correspondiente en p. La gráfica de función de probabilidad acumulada de la distribución de JI cuadrada para diferentes grados de libertad, ν = 1, ν = 2, ν = 6 y ν = 10 se da como:
Figura 7.13b. Gráfica de probabilidad acumulada (fra) de la JI cuadrada para diferentes grados de libertad (g.l.). 7.14.3. Propiedades de la distribución de JI cuadrada (χ2). 1. La distribución de JI cuadrada no es simétrica, como la distribución normal o la de t de estudiante. Los valores de la JI cuadrada pueden ser de cero o positivos, pero no negativos. 3. La distribución de densidad de la JI cuadrada es una familia de curvas, y hay una distribución diferente para cada número de grados de libertad, ν. Sin embargo, a medida que el número de grados de libertad aumenta, la distribución
www.full-ebook.com
de la JI cuadrada se aproxima a la distribución normal. 7.14.4. Pruebas de hipótesis para la varianza usando la distribución de la JI cuadrada, χ2 asumiendo que la población muestreada es normal. La función estadística usada para hacer pruebas de hipótesis para la varianza es la función descrita abajo: χ2 = (n – 1)s2 / σ2
(7-12c)
Donde: χ2 = estadística de la distribución de la JI cuadrada s2 = varianza muestral σ2 = varianza poblacional (la dada en la hipótesis nula) n = tamaño muestra Ejemplo 7.13. El gerente de una industria de pulpa y papel, cuya planta está situada adyacente a un río, está descargando varios tipos de contaminantes (como cianuro entre otros), afirma que, la desviación estándar poblacional de CN- es menor que 3 partes por trillón (ppt). Para verificar esto, se saca una muestra aleatoria de tamaño 10, se analiza y se calcula una desviación estándar muestral de 1.6. ¿Existe suficiente evidencia con α = 0.05 para apoyar la contención del gerente de la industria en cuestión? Solución: 1. Primeramente, debido a que se requiere determinar si la desviación estándar es menor o menos que 3 partes por trillón (ppt), la prueba de hipótesis alternativa es H1:σ2 < 9. Por lo tanto, la prueba de hipótesis nula debe ser Ho:σ2 ≥ 9 2. La región de rechazo es χ2calc. < χ21-α;n-1 o sea χ2< χ2.95;9, es decir, χ2 < 3.33 3. La estadística a usarse es: χ2 = (n – 1)s2 / σ2
www.full-ebook.com
4. Usando la función (7-12c), los cálculos son: χ2 = 9(1.6)2 / 9 = 2.56 5. En conclusión, debido a que χ2calc. = 2.56 < 3.33, o sea que se introduce en la región crítica izquierda se rechaza la hipótesis nula y se dice que si hay suficiente evidencia para apoyar la contención de los directivos de esta industria. 6. El valor de p se hace buscando 2.56 en la tabla de la distribución de JI cuadrada con ν = 9 y vemos que es (.025 < p < .01). Sin embargo, si se requiere más precisión en los cálculos se usa la función de interpolación dada abajo. (α2 – α1)/(χ22 – χ21) = (α2 – X)/( χ22 – χ2calc.)
(7-12d)
Donde
α2 = 0.025, α1 = 0.01, χ22 = 2.7, χ21= 2.09, χ2calc.= 2.56
Ahora, usando la función de interpolación (7-12d) y sustituyendo los valores da: (0.025 – 0.01)/(2.7 – 2.09) = (0.025 – X)/(2.7 – 2.56) y se resolviendo por X da p = 0.022. Las figuras de abajo muestran las gráficas con la región crítica y el valor de p.
www.full-ebook.com
Figura 7.14. La gráfica de la izquierda muestra la región crítica de 3.33 con 9 grados de libertad y α = 0.05 comparada con el valor de cuyo valor de χ2calc.= 2.56 el cual es menor que 3.33, lo que hace que se rechace la hipótesis nula sustentada. La gráfica de la derecha muestra el valor de p = 0.022
www.full-ebook.com
correspondiente al valor 19.4. Nota: De acuerdo a un artículo publicado por la Environmental Protection Agency de Estados Unidos (www.epa.gov/nmrm/pubs/635r), los contaminantes más comunes arrojados al agua por la industria de pulpa y papel son: cianuro (CN-), base hidróxido de sodio (NaOH), ácido sulfúrico (H2SO4), ácido clorhídrico (HCl), ácido sulfhídrico (H2S), amoniaco (NH3), plomo (Pb), cromo (Cr), resinas, etc.
Ejemplo 7.13ª. Hacer el mismo Ejemplo 7.13 de la industria de pulpa y papel, pero ahora usando el Minitab. Solución: Irse a: Stat → Basic Statistics → 1 Variance. En la ventana de “1-Variance” puntear “Summarized data”, luego introducir los valores del tamaño de la muestra y la desviación estándar. Enseguida, puntear la ventanilla de “Perform hipothesis test” e introducir la desviación estandar que se probará. Finalmente, puntear “Options” y seguir con las demás instrucciones pedidas. Esto genera los resultados impresos de abajo. Figura 7.14. Figura mostrando los resultados impresos del Minitab.
www.full-ebook.com
Ejemplo 7.14. Encontrar el valor de la probabilidad p si el valor de la estadística es χ2 = 30.0 con un tamaño de muestra de n = 16. Hacer una gráfica mostrando los datos. Solución: Aquí los grados de libertad son ν = 16 – 1 = 15. Buscando en la tabla de la distribución de JI cuadrada, el valor de χ2 = 30.00 con ν = 15 vemos que este valor está entre 30.578 y 27.488 con sus valores porcentuales de 0.01 y 0.025, esto es, χ22 = 30.578, χ21 = 27.488, λ2 = 0.01, λ1 = 0.05. Esto dice que el valor de p debe estar entre 0.025 > p > 0.01. Pero si se requiere más precisión se puede usar la fórmula empírica. De esta manera, sustituyendo los valores de arriba en la susodicha fórmula da: (0.01 – 0.025)/(30.578 – 27.488) = (0.01 – X)/(30.578 – 30.0). De manera que X = p = 0.0128.
www.full-ebook.com
La gráfica mostrando el valor de p = 0.0128 se da abajo en la Figura 7.18.
Figura 7.15. Gráfica de JI cuadrada mostrando el valor de p, con ν = 15 grados de libertad. 7.15. Distribución F. Función probabilística de la distribución F y su aplicación en la comparación de varianzas muestrales. La distribución F la inició R. A. Fisher. La distribución F tiene mucha aplicación en la comparación de varianzas muestrales. La función F se usa en situaciones de dos muestras para sacar inferencias acerca de las varianzas de población. Debido a que, la estadística F se define como una relación, la distribución F de probabilidad tiene dos parámetros representados por ν1 y ν2, donde estos valores son enteros positivos. El parámetro ν1 se llama número de grados de libertad del numerador y ν2 se llama el número de grados de libertad del denominador. Para estimar los grados de libertad ν1 y ν2 se usa la tabla de la distribución F dada en el apéndice de este libro. La distribución de F es similar a la distribución de t de Estudiante y de JI cuadrada (χ2), en el sentido de que es una familia de distribuciones. Cada par de valores de ν1 y ν2 especifican una distribución de F diferente. Además, F es una variable aleatoria continua que varía de cero hasta infinito. Debido a que las
www.full-ebook.com
varianzas en ambos, el numerador y denominador de la relación F, están elevadas al cuadrado, el valor de F es siempre positivo. La forma de la curva F es asimétrica y sesgada hacia la derecha. Sin embargo, la distribución F tiende hacia la simetría, a medida que ν1 y ν2 aumentan. No obstante, la prueba de F es extremadamente sensible a distribuciones que no son normales, y esta falta de robustez no se mejora con muestras grandes. La distribución de F se usa en situaciones con dos muestras para sacar inferencias acerca de más de dos varianzas poblacionales, como en el caso de problemas de análisis de varianza (ANOVA). Por ejemplo, si s21 y s22 son las varianzas de muestras aleatorias independientes de tamaño n1 y n2 tomadas de poblaciones normales con varianzas poblacionales σ21 y σ22, respectivamente, entonces, la relación de abajo: F = s21/σ21 / s22/σ22
(7-13)
= σ22 s21 / σ21 s22
(7-13a)
tiene una distribución de F con ν1 = n1 – 1 y ν2 = n2 – 1 grados de libertad La función anterior es ampliamente usada para hacer pruebas de hipótesis, para analizar si las varianzas son iguales o desiguales. Existe una relación importante entre la variable F y las variables de JI cuadrada (χ2). Por ejemplo, si X1 y X2 son variables aleatorias de χ2 independientes con ν1 y ν2 grados de libertad, respectivamente, entonces se puede demostrar que la variable aleatoria de abajo: F = X1 / ν1 / X2 ν2
(7-13b)
muestra que la relación entre las dos variables de el cociente de JI cuadrada, χ2 tiene una distribución F.
www.full-ebook.com
7.15.1. Función de probabilidad de densidad de la distribución F. (Engineering Statistics Handbook). De acuerdo a esta fuente de información, la fórmula para calcular probabilidades de densidad usando la distribución F se da como:
Donde ν1 y ν2 son los parámetros de forma y Г es la función de gamma. Donde, la fórmula para la función de gamma es:
De acuerdo a la anterior fuente de información, en un contexto de prueba, la distribución F se maneja como una “distribución estandarizada”, es decir, sin parámetros de localización o escala. Sin embargo, en el contexto de modelado distribucional, la distribución F, por si misma, se puede transformar con un parámetro de localización μ y un parámetro de escala σ. La gráfica de probabilidad de densidad de la distribución F con diferentes grados de libertad del numerador (ν1) y del denominador (ν2), es decir, ν1 = 30, ν2 = 30, ν1 = 20, ν2 = 6, ν1 = 6, ν2 = 6, usando las funciones (7-13b) y (7-13c) se da como:
www.full-ebook.com
Figura 7.16. Gráfica de la distribución de densidad F con diferentes grados de libertad. 7.15.1. Función de probabilidad acumulada de la distribución F. La fórmula para calcular probabilidades acumuladas usando la función acumulada de la distribución F se da como: F(x) = 1 – Ik(ν2/2, ν1/2)
(7-13e)
Donde k = ν2/(ν2+ν1x) y Ik es la función beta incompleta. La fórmula para la función beta incompleta se da como:
Donde B es la función Beta dada como:
www.full-ebook.com
Ejemplo 7.15. Calcular las siguientes cantidades: (a) F.05;5,9. Dibujar la gráfica con punto crítico superior. (b) F.01;4,6. Encontrar el valor de F, bajo las condiciones dadas. (c) F.95;5,8. Encontrar el punto crítico inferior. Dibujar la gráfica. (d) F.99;4,7. Encontrar el valor de F, bajo las condiciones dadas. (e) Encontrar F0.95;10,5. Encontrar el valor de F, bajo las condiciones dadas. (f) Encontrar P(F ≤ 15.21) para ν1 = 6 y ν2 = 4 grados de libertad (g) Si el tamaño de una muestra es de n1 = 3 y el tamaño de otra muestra es de n2 = 10, encontrar la región crítica con α = 0.05 y 0.01. Solución: (a) Se busca en la tabla de la distribución F, ν1 = 5 g.l. y ν2 = 9 g.l. con α = 0.05 y da 3.48. Para hacer la gráfica seguir las instrucciones dadas anteriormente. Esta figura se da en la gráfica de abajo.
www.full-ebook.com
Figura 6.10. Gráfica mostrando el punto crítico de la distribución F para F0.05;5,9, con 5 y 9 grados de libertad y es igual a 3.48. (b) Para F.01;4,6, esto se hace en forma análoga a como se hizo en el inciso (a). Para esto se busca en la tabla de la distribución F, ν1 = 4 y ν2 = 6, con α = 0.01 y da 9.15 (c) Para encontrar el punto crítico inferior de F(0.95;5,8) se usa la función F(1α;ν1,ν2) = 1/F(α;ν2,ν1). Así, el número que captura 0.95 del área a su derecha (0.05 a la izquierda), bajo la curva F con v1 = 5 y v2 = 8, se hace usando la función de los puntos críticos de la cola inferior y da F(.95;5,8) = 1/(F.05;8,5) = 1/4.82 = 0.207. La gráfica es:
www.full-ebook.com
Figura 6.10ª. Gráfica de F(.95;5,8) = 1/(F.05;8,5) = 1/4.82 = 0.207 (d) Para F.99;4,7 se procede en forma similar como en (c) y da F.99;4,7 = 1 / F.01;7,4 = 1 / 14.98 = .067 (e) Para F0.95;10,5 se busca en la tabla de F, F0.05;5,10, por lo tanto, da F0.95;10,5 = 1/ F.05,5,10 = 1/3.33 = 0.283 (f) Para encontrar P(F ≤ 15.21) con ν1 = 6 y ν2 = 4, en la tabla de F el valor de 15.21 con 6 y 4 grados de libertad y .010 (g) Bajo estas condiciones, si el tamaño de una muestra es de n1 = 3 y el tamaño de otra muestra es de n2 = 10, las regiones críticas con α = 0.05 y 0.01, son, respectivamente, F0.05;2,9 = 4.26 y F0.01;2,9 = 8.02 Ejemplo 7.16. Este problema está encaminado a estimar el valor de la probabilidad p para pruebas de F. Por ejemplo, con α = 0.05, para una prueba de hipótesis con n1 = 5 y n2 = 7 y
www.full-ebook.com
con un valor de Fcalc. = 5.70 la región crítica derecha es F0.05;4,6 = 4.53. Entonces, al comparar el valor de Fcalc. = 5.70 con la tabulada F0.05;4,6 = 4.53 se rechaza la hipótesis nula. Sin embargo, esta prueba de hipótesis tradicional no dice, qué tanta fidelidad se le puede dar a el resultado obtenido. Para esto, se hace una prueba de hipótesis no tradicional usando el valor de la probabilidad p. Siendo así, se busca en la tabla de la distribución F el valor de Fcalc. = 5.70, con 4 y 6 grados de libertad y con α = 0.05, pero vemos que no está explícitamente mostrado. Sin embargo, vemos que está entre 4.53 y 6.23 con sus valores respectivos de α = 0.025 y .050, por lo tanto la probabilidad es .05 < p < .025. Ahora, para obtener un valor de p más preciso se usa la fórmula de interpolación dada abajo: (λ2 – λ1)/(F2 – F1) = (λ2 – X)/(F2 – Fcalc.)
(7-15)
Donde λ2 = valor porcentual más alto que el valor de Fcalc., λ1 = valor porcentual más bajo que Fcalc., F2 = valor de la distribución F correspondiente a λ2, F1 = valor de la distribución F correspondiente a λ1, X valor que se quiere interpolar y Fcalc. = valor calculado. Ahora con λ2 = 0.025, λ1 = 0.05, F2 = 6.23, F1 = 4.53 y Fcalc. = 5.70 y sustituyendo y resolviendo por X da: (0.025 – 0.05)/(6.23 – 4.53) = (0.025 – X)/(6.23 – 5.70) X = p = 0.0172
www.full-ebook.com
Figura 7.18. Gráfica mostrando la posición del valor de p = 0.0172 En conclusión debido a que el valor de p < α, es decir, 0.0172 < 0.05 se rechaza la hipótesis nula y se inclina por la hipótesis alternativa. Ejemplo 7.17. La intención de este ejercicio es la de sacar inferencias con relación a dos varianzas poblacionales, es decir, usando la distribución F. La prueba de dos varianzas es una prueba de hipótesis para determinar, si dos varianzas poblacionales son significantemente diferentes. Para tales fines se dan los siguientes datos: tamaño de muestra uno es n1 = 28, con varianza s21 = 2766.76, tamaño de muestra dos es n2 = 26 y s22 = 7089.64. Probar la hipótesis nula de Ho:σ21 = σ22 contra HA: σ21 < σ22. Hacer lo siguiente: (a) Manualmente, calcular el valor de F. (b) Calcular el valor crítico de F con α = 0.05 usando la tabla de los valores críticos para la distribución F. (c) Probar la hipótesis nula de que dos varianzas son iguales, esto es, Ho:σ21 = σ22 contra las alternativas de H1:σ21 < σ22 (lado izquierdo), H2:σ21 > σ22 (lado derecho) o HA:σ21 ≠ σ22.
www.full-ebook.com
Solución: (a) Usando la función (7-13) y sustituyendo los valores da: F = s21/σ21 / s22/σ22 = 2,766.76/7,089.64 = 0.3903 (b) Para calcular el valor crítico de F, al nivel de α = .05, la hipótesis nula, Ho: será rechazada si Fcalc. ≤ F[.95;27,25]. Para obtener el valor crítico necesitamos F[.05;25,27]. De la tabla de los valores críticos para la distribución F, entonces, F[.05;25,27] = 1.92. De esta manera, F[.95;27,25]. = 1/1.92 = 0.521. Aquí es importante observar que, la prueba de hipótesis es del lado izquierdo, porque el valor del numerador es menor que del denominador. Ahora, puesto que el valor de Fcalc. = 0.3903 ≤ Ftab. = 0.521 (el valor de 0.3909 se introduce en lado izquierdo de la distribución) se rechaza Ho: al nivel de 0.05 y se inclina por HA: σ21 ≠ σ22. Ejemplo 7.17a. Hacer el mismo Ejemplo 7.17 de arriba, pero ahora usando el Minitab. Enseguida, hacer una gráfica de la distribución de p. Solución: Usando el Minitab (versión 15) proceder de la siguiente manera: Irse a: Stat → Basic Statistics → 2 Variances. En la ventana de diálogo de “2 Variances”, puntear “Summarized data”, y luego poner los tamaños de muestras 1 y 2 así como también las varianzas 1 y 2. Luego, puntear “Options” y en la ventana de “Variances-Options”, poner el nivel de confianza deseado (95% en este caso). Finalmente, poner “OK” “OK”. Esto da los resultados de abajo. Figura 7.19. Diagrama esquemático mostrando los resultados impresos para este
www.full-ebook.com
ejemplo.
Figura 7.19a. Gráfica mostrando la región crítica y el valor de p = 0.021. Ejemplo 7.18. Este es un estudio en el cual se hicieron mediciones de las precipitaciones de lluvia (milímetros por hora) en dos diferentes zonas. Los datos se dan en la tabla de abajo. Tabla 7.6. Los datos de las precipitaciones pluviales de las dos cuencas hidrográficas se dan abajo.
www.full-ebook.com
Hacer lo siguiente: (a) Usando la distribución F, probar la hipótesis nula de que no hay diferencias entre las dos varianzas poblacionales σ 2 1 y σ 2 2 , de las zonas 1 y 2. (b) Hacer una gráfica que muestre las regiones críticas con α =0.05. (c) Calcular el valor de p y hacer una gráfica que muestre la asociación del valor de p con su valor de x correspondiente. (Aquí ocurre que, cuando el valor de p es menor que .001 la tabla de F del apéndice no lo incluye. Sin embargo, el Minitab si lo calcula) Solución: (a) Usando un paquete de cómputo se calcula s21 = .122, s22 = .030
www.full-ebook.com
Procedimiento para hacer la prueba de hipótesis 1. Se quiere probar que las varianzas son iguales, esto es, σ21 = σ22. 2. Si la contención original es falsa, entonces, σ21 ≠ σ22. 3. Debido a que la hipótesis nula contiene la condición de igualdad se tiene que: Ho:σ21 = σ22
HA: σ21 ≠ σ22
4. Debido a que la prueba involucra dos poblaciones de varianzas se usa la distribución F = s21 / s22 , con s21 = 0.122 y s22 = 0.030 F = s21 / s22 = 0.122/0.030 = 4.0 5. Para los valores críticos la prueba es de dos colas con 0.025 en cada lado, pero como la varianza más grande está en el numerador, esto hace que la prueba sea del lado derecho. De esta manera, consultando la tabla de F, F(0.05;24,24) = 1.98. 6. Debido a que, Fcalc. = 4.0 es mayor que Ftab. = 1.98, el valor de la estadística, F = 4.08 cae adentro de la región crítica derecha. (b), (c) Gráficas que muestra las regiones críticas con α =0.05 y la que muestra el valor de p, se dan abajo. Para calcular el valor de p se busca F = 4.08 en la tabla de F y da p << .001
www.full-ebook.com
Figura 7.20. Gráficas mostrando las regiones críticas y los valores de p (figura izquierda con α = 0.05 y la figura derecha con α = 0.01). Ejemplo 7.18ª. Hacer el mismo Ejemplo 7.18, pero ahora usando el Minitab.
www.full-ebook.com
Solución: Usando el Minitab irse a: Stat → Basic Statistics → 2 Variances. Luego en la ventana de dialogo de “2 Variances”, puntear “Samples in one columnn” y poner los datos a procesarse de cada columna, luego irse a “Options” y seguir con las demas instrucciones. Esto da: Figura 7.21. Resultados impresos del Minitab.
7.16. Pruebas de hipótesis para una proporción. Cuando hablamos de pruebas relacionadas con proporciones es decir, con relación a la proporción muestral con muestras aleatorias de tamaño n de la población, se pueden hacer cuando n es grande o cuando n es pequeña. Por ejemplo, cuando n es pequeña, en relación con el tamaño poblacional, X tiene, aproximadamente, una distribución binomial. Sin embargo, cuando n es grande, X y el estimador de la proporción muestral = X/n tiene una distribución normal. Este capítulo, sin, embargo, se centrará en pruebas de hipótesis con muestras grandes, y discutirá someramente, el caso de muestras pequeñas, que usan directamente la distribución binomial. 7.16.1. Pruebas de hipótesis acerca de la proporción poblacional ρ. En este renglón, la prueba de hipótesis nula y la prueba de hipótesis alternativa se hacen en forma análoga a como se hizo con las pruebas de μ. Sin embargo, aquí, nuevamente, se enfatiza el hecho de que la prueba de hipótesis alternativa es la más importante (no la hipótesis nula), porque responde a la pregunta que estamos formulando. La prueba estadística se deriva de la distribución de muestreo de para muestras grandes se da como:
www.full-ebook.com
Donde: z es la variable aleatoria de la distribución normal para muestras grandes es la proporción de la muestra y es igual a X/n, donde X es el número de eventos y n es el número de ensayos q es igual a 1 - ρ es la proporción poblacional La proporción muestral algunas veces se da directamente, pero otras veces no. Por ejemplo, se pueden dar el número de eventos (X) y el número de ensayos (n) y de ahí se puede calcular . Los valores críticos zα se calculan de la tabla de la distribución normal, una vez que se calcula z. Por ejemplo, en una prueba bilateral es zα/2 y para una prueba unilateral es zα, ya sea con α = 0.05 o α = 0.01, con sus respectivas regiones críticas de ±1.96 o 1.641, etc. Como se dijo antes, para el caso de muestras pequeñas, se usa el modelo binomial en donde se tiene un número fijo de ensayos independientes, que tienen probabilidades constantes, en la que cada ensayo es binario, es decir, “éxito” o “fracaso”. Así, cuando se usa la distribución normal, como aproximación al modelo binomial, la media es μ = np y la desviación estandar es σ = (npq)0.5. Esto es importante, especialmente cuando se trata de hacer gráficas para el cálculo de las regiones críticas cuando se hacen pruebas de hipótesis para proporciones. Esto se debe a que, el Minitab requiere de los valores de la media
www.full-ebook.com
y la desviación estandar, para esos menesteres. Esto se explicará en el ejemplo de abajo. Ejemplo 7.19. Se da la siguiente información: Ho:ρ = 0.42, HA: ρ ≠ 0.42, n = 100, proporción muestral, , α = 0.05. ¿Qué tanta certeza se le puede dar a los resultados de la prueba de hipótesis, es decir, de acuerdo al valor de la probabilidad p? Dibujar gráficas con los valores de las regiones críticas y de los valores de la probabilidad p. Usar el programa Minitab para hacer las gráficas. Solución:
Se usa el estadístico de prueba porque n es grande y tiene, aproximadamente, una distribución normal. Aquí la proporción muestral es , q = .40, el numero de ensayos es n = 100, el número de eventos es 60 ( •100), el valor esperado de la proporción poblacional es ρ = .42 y la región de rechazo es z > zα/2 = 1.96 en una prueba bilateral. Sustituyendo los valores en el estadístico de prueba da: z = (.6 – .42)/[(.6)(.4)/100]0.5 = .18 /.05 = 3.6 Conclusión: debido a que 3.6 > 1.96 se rechaza Ho: con p = 2(1 - .9998) = .0004 (leída de la tabla de la z). Las gráficas se dan abajo.
www.full-ebook.com
Figura 7.22. Gráficas mostrando los valores de las regiones críticas y los valores de p. Hay mucha certidumbre o mucha confiabilidad en los resultados obtenidos porque el valor de p = 0.0002 es mucho muy significante. Ejemplo 7.19a. Hacer el mismo Ejemplo 7.19, pero ahora usando el Minitab.
www.full-ebook.com
Solución: Irse a: Stat → Basic Statistics → 1 Proportion. Luego en la ventana de diálogo de “1 Proportion (Test and Confidence Interval)” puntear “Summarized Data”. Enseguida, en la ventanilla de “Number of events” poner el valor de X (Calculado de = X/n) y en la ventanilla de “Number of Trials” poner el tamaño de n. Enseguida, poner el valor de la proporción hipotetizada. Finalmente, puntear “Options” y luego puntear la ventanilla de “Use test and interval based on normal distribution” y luego poner “OK” “OK”. Esto genera los datos impresos de la figura de abajo: Figura 7.23. Datos impresos del Minitab.
7.17. Pruebas de hipótesis para la diferencia de dos proporciones (Ho:p1 - p2) para muestra grandes. A pesar de que la distribución de proporciones sigue a la distribución binomial (con muestras pequeñas) se usa la distribución normal para la derivación de la función, para hacer pruebas de hipótesis para las diferencias de dos proporciones. Estos estadísticos de prueba pueden aplicarse a los usos del agua, como por ejemplo, para conocer las diferencias de las eficiencias de dos sistemas de tratamientos de aguas residuales diferentes. Asimismo, en hidrología, se pueden hacer aplicaciones para conocer los flujos de dos cuencas hidrológicas, y así sucesivamente. El procedimiento para la derivación del estadístico de prueba para hacer pruebas de hipótesis, para la diferencia de dos proporciones (con muestras grandes) es laborioso, sin embargo, seguiremos la demostración dada por Montgomery et al. (1996), la cual es simple y fácil de entender. De esta manera, supóngase que se toman dos muestras aleatorias independientes de tamaños n1 y n2 de dos poblaciones, siendo X1 y X2 el número de observaciones que pertenecen a la clase de interés de dos muestras
www.full-ebook.com
aleatorias 1 y 2 respectivamente. Además, supóngase que se aplica la aproximación normal, a la distribución binomial (muestras pequeñas), de cada población, de modo que los estimadores de las dos proporciones poblacionales 1= X1/n1 y 2 = X2/n2 tienen distribuciones, aproximadamente normales. Ahora, si la hipótesis nula Ho:p1 = p2 es verdadera, entonces, usar el hecho de que, p = p1 = p2, la variable aleatoria Z es:
Tiene, aproximadamente, una distribución normal, N(0,1). Un estimador del parámetro común p es:
Entonces, el estadístico de prueba para Ho:p1 – p2 es:
7.17.1. Tipos de pruebas de hipótesis para las diferencias de dos proporciones: 1. Prueba de dos colas:
www.full-ebook.com
Ho:p1 - p2 = 0 vs Ho: p1 - p2 ≠ 0 La región de rechazo, con un nivel de α dado es: ya sea z ≥ zα/2 o bien, z ≤ - zα/2 2. Prueba de la cola superior: Ho: p1 - p2 ≤ 0 vs. HA: p1 - p2 > 0 La región de rechazo, con un nivel de α dado es: z ≥ zα 3. Prueba de la cola inferior: Ho: p1 - p2 ≥ 0 vs. HA: p1 - p2 < 0 La región de rechazo, con un nivel de α dado es: z ≤ zα Para calcular los valores de la probabilidad p se busca el valor de Zo calculado en la tabla de la distribución normal. Ejemplo 7.20. Se da la siguiente información: Ho: (p1 - p2), HA: (p1 - p2) , α = 0.05, X1 = 120, n1 = 300, X2 = 150, n2 = 500 Hacer lo siguiente: (a) Calcular el estadístico Zo. El nivel de significancia es α = 0.05. Rechazar Ho: p1 - p2, si z ≥ zα/2 o bien z ≤ - zα/2 es decir, si Zcalc. ≥ 1.96 o bien Zcalc. ≤ - 1.96 (b) Calcular el valor de la probabilidad p.
www.full-ebook.com
Solución: (a) Primeramente se calcula lo siguiente:
Usando la función (7-17ª) y sustituyendo da:
Ahora usando (7-17b)
La prueba es del lado derecho. Debido a que 2.90 > 1.96 se rechaza Ho: (p1 - p2) y se inclina por la prueba de hipótesis alternativa, HA:(p1 - p2) y se dice de que si hay diferencias entre las dos proporciones poblacionales. (b) El valor de la probabilidad p se calcula buscando 2.90 en la tabla de z y da .0019, pero como la prueba es bilateral, se multiplica por 2 para dar .0038 ≈ .004. Ejemplo 7.20ª. Hacer el mismo Ejemplo 7.20 anterior, pero ahora usando el Minitab y comparar los resultados. Solución:
www.full-ebook.com
Irse a: Stat → Basic Statistics → 2 Proportions… En la ventana de “2 Proportions (Test and Confidence Interval)” puntear “Summarized data”. Luego en las ventanillas de “First”, “Second”, “Events” and Trials” poner los valores de los eventos y ensayos de cada distribución. Enseguida, puntear “Options” y en la ventana de “2 Proportion-Options” seguir con las instrucciones pedidas de las pruebas de hipótesis y luego puntear la ventanilla “Use pooled estimate of p for the test” y “OK” “OK”. Esto da los resultados de abajo. Figura 7.24. Resultados impresos del Minitab para este ejemplo.
Ejercicios 7.1. Decir de cuántos extremos de la distribución se harán las siguientes pruebas de hipótesis y describir las pruebas de hipótesis alternativas: (a) Si la prueba de hipótesis nula es de Ho: μ = 14.00, entonces, las pruebas alternativas son de… (b) Si la prueba de hipótesis nula es de Ho: μ ≥ 14.00, entonces la prueba alternativa es de… (c) Si la prueba de hipótesis es de Ho: μ ≥ 14.00, entonces la prueba alternativa es de…. 7.2. Si se usa el valor significante de α = 0.01, encontrar los valores críticos de la
www.full-ebook.com
z tabulada (ztab.) si se usa: (a) Prueba bilateral, es decir de dos colas. (b) Prueba bilateral con α = 0.10. (c) Prueba bilateral con α = 0.005. 7.3. En una investigación de química ambiental, se calcula una media muestral de 5.0 mg/L de cio (Cd), para medir la calidad del agua de cierta región lacustre adyacente a una zona industrial. Esto se hace sacando una muestra aleatoria (promediada durante 2 años) de 36 observaciones de Cd que se analizan en el laboratorio, acordemente. Hacer lo siguiente: (a) Una prueba de hipótesis con μo = 4.85 mg/L, con α = 0.05 y α = 0.01 (b) Además, calcular el valor de la probabilidad p e interpretarlo acordemente. Asumir que la desviación estándar poblacional es de 0.3. (c) Luego hacer una gráfica señalando la posición del valor de p. 7.4. Con la química ambiental, se dan las siguientes mediciones de análisis de cobre (Cu) para analizar la calidad del agua industrial. Asumir un nivel de significancia de α = 0.05.
www.full-ebook.com
Hacer lo siguiente: (a) Una gráfica de probabilidad normal. (b) Hacer un diagrama de caja que señale el promedio y la mediana. Además, hacer un diagrama de tallo y hoja. (c) Probar la hipótesis nula Ho:μ = 37.5, contra la hipótesis alternativa de HA: ≠ 37.5. (d) Calcular el valor de p e interpretarlo acordemente. 7.5. Para una muestra al azar de 36 casos de análisis de aguas conteniendo cloratos (mg/L de ClO3-), se usa el método argentométrico de titulaciones (Ver Standard Methods, 1971). Los resultados dan = 138.84 y una desviación
www.full-ebook.com
estándar igual a 10.0. (a) Probar la hipótesis de que el promedio poblacional es igual a 145.0 mg/L, con niveles de significancia de α = 0.05 y α = 0.01. (b) Calcular el valor de la probabilidad p e interpretarlo acordemente. (c) Estimar el intervalo de confianza de 95% para el promedio poblacional 7.6. Este es un ejercicio adaptado del texto de Quevedo et al. (2008), el cual está relacionado a una aplicación de análisis químicos del agua para fines domésticos. Para esto se saca una muestra aleatoria de 10 análisis de cobre (mg/L), la cual está normalmente distribuida, con promedio de μ y una varianza igual a 1. Probar la hipótesis nula μ = 12.0 mg/L contra la hipótesis μ = 14.0 mg/L, con un nivel de significancia de α = 0.05. Aplicar el lema de NeymanPearson y encontrar la región crítica. 7.7. La media aritmética de una muestra aleatoria de 100 análisis de sulfatos (SO4-2) es de 1,570.0 mg/L, con una desviación estándar de 120.0 mg/L. Si μ es el promedio de todos los casos de sulfatos, hacer lo siguiente: (a) Probar la hipótesis nula de Ho:μ = 1600.0 mg/L, contra la hipótesis alternativa de H1:μ ≠ 1600.0 mg/L usando el nivel de significación de 0.05. (b) Calcular el valor de p y mostrarlo en una gráfica. 7.8. Si se observa un valor de z = 1.87 con un nivel de significación de α = 0.05 y con una prueba de hipótesis de Ho:μ = 10, entonces, calcular el valor de la probabilidad, p. Además, si el valor de la variable aleatoria es de z = 2.73, α = 0.05 y Ho:μ = 10, encontrar el valor de p. 7.9. Calcular el valor de la probabilidad p con niveles de significancia de α = 0.05 y α = 0.01. Para esto, se dan los siguientes valores: n = 50, = 31.8 y σ = 0.25. Hacer lo siguiente: (a) Probar la hipótesis nula Ho:μ ≥ 32 contra H1: < 32.
www.full-ebook.com
(b) Hacer gráficas señalando los valores de la distribución de p. (c) ¿Calcular los valores de X correspondientes al valor de la región crítica con α = 0.05 y α = 0.01? (b) Hacer una gráfica señalando el valor de la distribución de p para α = 0.05. (c) Calcular el valor de X correspondiente al valor de la región crítica con α = 0.05. 7.10. Con referencia al Ejemplo 6.1, del Capítulo 6 de las temperaturas de la Presa Amistad, de Cd. Acuña Coahuila, México, hacer lo siguiente: (a) Probar Ho:μo = 22 oC contra HA:μ ≠ 22 oC con un nivel de significancia de α = 0.05. (b) Calcular el valor de p e interpretarlo acordemente. (c) Hacer una gráfica de la distribución de p señalando la posición de su valor. 7.11. Este es un estudio relacionado con las precipitaciones anuales de la Presa Falcón de la Comisión Nacional de Límites y Aguas de Tamaulipas, correspondientes al periodo 1954-2006, dados en el Ejemplo 4.55 del Capítulo 4. Se dan los siguientes datos: Media muestral anual igual a 510.50 mm con una desviación estándar igual a 198.89. Siendo así, hacer lo siguiente: (a) Una prueba de hipótesis nula de que la media poblacional es igual a 560.0 mm. Calcular el valor de p. (b) Un intervalo de confianza de 95% para la media poblacional. 7.12. Con relación al Ejercicio 1.22 del Capítulo 1 de las temperaturas (oC) de la estación meteorológica de la Presa Amistad, Coahuila, México (1977-2006), cuyos datos de temperatura son de media anual igual a 21.33 oC con una desviación estándar de 1.213, hacer lo siguiente: (a) Probar que la temperatura anual es de cuando menos 22.0 oC. Calcular el valor de p e interpretarlo acordemente. (b) Hacer un intervalo de confianza de 95% (c) Hacer una gráfica de densidad de muestre el valor de p y los valores de las temperaturas.
www.full-ebook.com
7.13. En un estudio se saca una muestra aleatoria de humedades (%) del suelo. Los valores se dan en la tabla de abajo. Tabla mostrando los porcentajes de humedades del suelo.
Hacer lo siguiente: (a) Probar la hipótesis nula de que el porcentaje de humedad es igual a 11.0%. Calcular el valor de p e interpretarlo acordemente. (b) Hacer un intervalo de confianza de 95% para el promedio poblacional de todas las humedades. (c) Hacer una gráfica señalando el valor de p. 7.14. Este es un estudio relacionado con el análisis químico de aguas industriales de calcio (Ca), en unidades de mg/L, usando el método gravimétrico. Para esto, se saca una muestra de 48 análisis y se calcula un promedio estadístico de 76.4 mg/L con una desviación estándar de 3.6. Usando un nivel de significancia de
www.full-ebook.com
0.05 probar la hipótesis de que el promedio poblacional es mayor que 75 mg/L, luego calcular el valor de p. 7.15. Con referencia al Ejemplo 4.27, del Capítulo 4, usando los datos de precipitaciones proporcionados por Comisión Nacional del Agua (CONAGUA), que da la estadística histórica de los promedios anuales de precipitaciones pluviales (en milímetros) correspondientes al periodo de 1957 al 2006 de Cd. Juárez, Chihuahua, México, desarrollar todos los siguientes enunciados: (a) Probar la hipótesis nula de Ho:μ ≥ 273.8 mm contra la hipótesis alternativa de H1:μ < 273.8 mm y calcular el valor de p. Asumir α = 0.05. (b) Hacer un intervalo de confianza de 95% para la media poblacional. 7.16. Usando los datos de precipitaciones anuales de 128 años de la National Oceanic Organization istration (NOOA) de El Paso, Texas, dados la sección de ejecicios del Capítulo 4, hacer lo siguiente: (a) Probar la hipótesis de que la media poblacional es mayor que 8.0 pulgadas de precipitación anual. Asumir α = 0.05. (b) Hacer una gráfica que señale la(s) región(es) críticas (c) Calcular el valor de la probabilidad p (y su correspondiente valor de x) y hacer una gráfica señalando esos valores. 7.17. En estudios del agua, se sacó una muestra al azar de 49 análisis de sólidos suspendidos totales de aguas residuales y se calculó una media de = 100 mg/L con desviación estandar de s = 9.0 mg/L. Asumiendo α = 0.05, hacer lo siguiente: (a) Calcular el valor de la estadística z y probar la hipótesis nula de que el verdadero promedio poblacional μ es de 105.0 mg/L. (b) Calcular el valor de p e interpretarlo acordemente. 7.18. Se hace un estudio de una muestra aleatoria de análisis de concentraciones de magnesio (Mg) con los siguientes datos: n = 48, promedio igual a 149.27, s =
www.full-ebook.com
13.17, probar las siguientes hipótesis nulas y alternativas, calculando el valor de p en cada uno de sus casos y decir si la prueba es significante: (a) El promedio poblacional μ es de cuando menos 155. (b) El promedio poblacional μ es de 155. (c) El promedio poblacional μ es mayor que 155. 7.19. Con relación a la calidad del agua para fines domésticos, en cierta localidad, la junta municipal de agua necesita hacer un estudio para ver la factibilidad de expandir la tubería de distribución del agua en esa ciudad. El ingeniero estadístico de la Junta afirma que, el uso promedio del consumo del agua es mayor que 1,124.0 L/día. Para esto se saca una muestra aleatoria de 65 s (por 1 año) y mostró un promedio diario de 1,145 L/día con una varianza de 2,025 L/día. Siendo así hacer lo siguiente. (a) Establecer la hipótesis nula y la alternativa. (b) Se puede concluir, con un nivel de significancia de α = 0.05, que la aserción del ingeniero es correcta? (c) Calcular el valor de la probabilidad p y graficar los resultados. 7.20. Este es un estudio de una corriente de agua usada para pulir los remanentes de aguas residuales de plantas mecánicas, en la cual se sacó una muestra aleatoria de mediciones de flujos, en m3/segundo. Supóngase que se quiera hacer una prueba de hipótesis usando las mediciones de la tabla de abajo. Asumir α = 0.05. Tabla mostrando la información de los datos de los volúmenes de agua (m3/seg) del problema.
www.full-ebook.com
(a) Hacer una estadística descriptiva. (b) Probar que la hipótesis nula es Ho:μ = 56.0 m3/segundo, contra HA: ≠ 56.0. (c) Calcular el valor de p. (d) Hacer gráficas mostrando las regiones críticas y la distribución de p. 7.21. Con relación a la contaminación ambiental, para un análisis de pesticidas clorados hidrocarbonados (estos pesticidas ya no se usan en países industrializados por su persistencia tan acentuada), en aguas residuales, es decir, usando cromatografía de gas, se dio una muestra conteniendo este pesticida a dos laboratorios. Los tamaños de las muestras fueron de 40 y 45 observaciones, respectivamente. Si los análisis procedentes del primer laboratorio dan un resultado de 1 = 74.0 con desviación estándar de σ1 = 8.0, y los resultados del segundo laboratorio dan un promedio de 2 = 75.1 con una desviación estándar de σ2 = 7.0, decir si hay una diferencia significante entre los resultados de los dos laboratorios. Asumir niveles de significancia de α = .05 y α = .01. 7.22. En aplicaciones a los usos del agua, para medir la calidad del agua de un ecosistema lacustre, con relación a las concentraciones de fosfatos (PO-34), se sacaron dos muestras aleatorias de tamaños 30 y 40, respectivamente, cuyas medias fueron de 56 mg/L y de 59 mg/L. Asumir que las varianzas de estas poblaciones son conocidas e iguales a 15.0 mg/L. También asumir un nivel de
www.full-ebook.com
significancia de α = .05. Usando el valor de la significancia de p, probar que no hay deferencias entre las dos poblaciones muestreadas, que es lo mismo que μ1 = μ2, esto es, μ1 – μ2 = 0. Expresar la hipótesis alternativa. Calcular el valor de p. 7.23. Supóngase que en un estudio de usos del agua para termoeléctricas, se saca una muestra aleatoria de 8 análisis de sulfatos de cobre (II) (CuSO4) y se calcula una media de = 5.90 mg/L, con una desviación estándar, s de 0.249. Probar la hipótesis nula de que el promedio poblacional es de 5.5. Usar niveles de confianza de 95% (α = 0.05) y 99% (α = 0.01). Usar el Minitab y la fórmula de t para resolver este problema. ¿Qué nos está diciendo el valor de p? Se le pide al estudiante responder a esta pregunta. 7.24. En un estudio precipitaciones pluviales, se dan los siguientes datos de precipitaciones anuales (periodo de 1994-2009) de la Presa Boquilla, Chihuahua, México, suministrados por la Comisión Nacional del Agua. Probar la hipótesis nula de que la media esperada, μo es de 330 mm de lluvia anual. Tabla mostrando las precipitaciones anuales de la Presa Boquilla, Chihuahua, México
www.full-ebook.com
Fuente: Comisión Nacional del Agua (CONAGUA) de Cd. Chihuahua, Chih. México.
7.25. Supóngase que se saca una muestra de 8 mediciones de fosfatos (PO4-3), de una descarga de agua residual industrial a un sistema lacustre (esto con el objeto de diagnosticar el crecimiento del lirio acuático que está causando la eutrificación de los lagos, es decir, el proceso por el cual un cuerpo de agua, se convierte rico en nutrientes disueltos, como fosfatos, que causan una deficiencia de oxígeno disuelto, por los escurrimientos de los residuos de fertilizantes agrícolas). Se calcula un valor de t = - 3.62, con un nivel de significancia de α = 0.05. Probar HA:μ ≠ 32.0. Hacer lo siguiente: (a) Calcular el valor de la probabilidad p y decir si es significante. (b) Hacer gráficas que muestren los valores de las regiones críticas y de los valores de p. Sugerencia: Usar la función de p para dos colas dada como: P = P(t.025 < -|t|) + P(t.025 > |t|) 7.26. Se dan los siguientes datos de una muestra aleatoria de 15 mediciones
www.full-ebook.com
(PM2.5 micras) de partículas atmosféricas expresadas en μ/m3. Asumiendo que los datos siguen a una distribución normal, responder a las siguientes preguntas: (a) ¿Realmente, siguen los datos a una distribución normal? Probar gráficas de probabilidad para decidir cual distribución estadística es la más factible. (b) Probar la hipótesis nula de que el verdadero promedio poblacional es de 19.8. Establecer la hipótesis alternativa y la hipótesis nula. Asumir α = 0.05 (c) Hacer una gráfica señalando la región crítica y el valor de X asociado. (d) Hacer una gráfica de la distribución de p y señalar el valor de X asociado. Tabla mostrando los datos de las mediciones de partículas.
Nota: Las partículas PM2.5 tienen un tamaño de 2.5 micrómetros y su inhalación es más peligrosa que las particulas de tamaño de 10 micrómetros, PM10.
7.27. Se saca una muestra de mediciones de residuos fijos (el residuo que permanece después de una ignición por 1 hora a 550 oC), de una descarga industrial en un río, cuyos datos son expresados en miligramos por litro (mg/L).
www.full-ebook.com
Asumir α = 0.05. Los datos se dan abajo. Responder a las siguientes inquisitorias. (a) ¿A qué tipo de distribución siguen los datos? Para esto, hacer gráfica de probabilidad y decidir cual distribución es la más factible. (b) Usar la estadística apropiada y hacer una prueba de hipótesis, y probar que el valor esperado de μo es de 650.0 mg/L. Calcular el valor de p. Hacer esto manualmente usando las funciones dadas en este capítulo. Luego, usar el Minitab y comparar los resultados. (c) Hacer gráficas de las regiones críticas y de la distribución del valor de p. 7.28. Supóngase que se saca una muestra aleatoria de tamaño 7 de sólidos totales suspendidos de análisis de aguas residuales, la cual tiene una media aritmética de 13.0 mg/L y una desviación estándar de 3.0 mg/L. Siendo así, se le pide al lector encontrar la probabilidad de que la media esté en error por más de 1.0. 7.29. La agencia protectora del medio ambiente sospecha que un ingenio azucarero está contaminando las aguas de un río adyacente a este establecimiento, con concentraciones altas de DBO5, arriba de los límites estipulados por las agencias del medio ambiente. No obstante, el gerente de este ingenio, en defensa de sus propios intereses afirma qué, el promedio de sus descargas de DBO5 es menor que 50 miligramos por litro. Para comprobar esta aseveración, el ingeniero de la agencia ambiental sacó una muestra aleatoria de 25 análisis y encontró una media estadística de = 55.5 mg/L, con una desviación estándar de s = 5.0. Asumir un valor significante de α = 0.05. Hacer lo siguiente: (a) Probar la aseveración del gerente del ingenio azucarero de que las descargas del ingenio, no están violando los límites ambientales establecidos. (b) Hacer una gráfica señalando el valor de la probabilidad p. Sacar las conclusiones debidas. 7.30. Con relación al estudio del ingenio azucarero, se estableció que el valor de p era mucho menor que el valor de α. Entonces siendo así, para convencer, aun más definitivamente, al gerente del ingenio azucarero, de que está fuera de la ley
www.full-ebook.com
ambiental, se le pide al lector mostrarle gráficas de la distribución de p señalando su valor, así como también de los valores de las regiones críticas. Para esto hacer lo siguiente: (a) ¿De cuantas órdenes de magnitud es el diferimiento entre el valor de p y el nivel de significancia usado? (b) ¿De cuánto es el diferimiento entre el valor de la región crítica y el valor de la variable aleatoria X asociado con el valor de p? 7.31. Una muestra aleatoria de 16 observaciones de análisis de Calcio (Ca), en agua industrial, en mg/L, se sacaron de una población normal. Asumir una prueba bilateral. La muestra de los resultados de los análisis se da abajo. Tabla mostrando los datos en unidades de mg/L.
Usar el nivel de significancia de .05. Hacer lo siguiente: (a) Calcular el valor de t y probar la hipótesis alternativa: HA:μ ≠ 47.0 (b) Probar la hipótesis de que el valor esperado de μ sea de, a lo más 47.0, calcular p. (c) Probar la hipótesis de que el valor esperado de μ sea de, cuando menos 47.0, calcular p.
www.full-ebook.com
7.32. Un ingeniero ambiental mide la cantidad de DBO5 procedentes de 15 lugares a lo largo de una corriente, la cual está contaminada por a una descarga industrial. El ingeniero calcula un promedio de 70.0 mg/L Como información inicial se sabe que la suma de los cuadrados es igual a 508.1 mg/L. Hacer lo siguiente: (a) Una prueba de hipótesis y razonar que μo = 80. (b) Calcular el valor de p. 7.33. Con los usos del agua, se dan los siguientes datos de una muestra aleatoria de 15 mediciones de azufre (S) procedentes de una muestra de agua residual industrial las cuales son dadas en la tabla de abajo. Asumir α = 0.05. Tabla mostrando los datos.
(a) Hacer una estadística descriptiva que incluya el promedio, la desviación estándar, el sesgo, kurtosis, mediana, etc., para revisar por la suposición de normalidad. (b) Hacer una gráfica de probabilidad normal, para ver si los datos siguen a esa distribución de probabilidad y calcular el valor de la estadística de bondad de ajuste A-D. ¿Es realmente, la distribución normal la función estadística más
www.full-ebook.com
apropiada para este problema? (c) Probar la hipótesis nula de Ho:μ = 34.5 contra la hipótesis alternativa de H1:μ ≠ 34.5 y calcular el valor de p. (d) Probar la hipótesis de Ho:μ ≥ 34.5 contra la hipótesis alternativa de H1: μ < 34.5. Calcular el valor de p. (e) Probar la hipótesis nula de Ho:μ ≤ 33.2 contra H1:μ > 33.2 y calcular el valor de p. 7.34. Hacer una gráfica de probabilidad normal con las mediciones de los flujos. Examinar el valor de la prueba de bondad de ajuste de Anderson-Darling, la cual mide, qué tan distantes están los puntos en la gráfica de la línea ajustada. Acordemente, decir qué tan plausible es la distribución normal. Si es así, justificar la aserción. (a) Hacer una gráfica de probabilidad normal con las mediciones de los flujos. Examinar el valor de la prueba de normalidad de Anderson-Darling, la cual mide, qué tan distantes están los puntos en la gráfica de la línea ajustada. Acordemente, decir qué tan plausible es la distribución normal. Si es así, justificar la aserción. (b) Probar la hipótesis nula de que las mediciones de los flujos son iguales a 321.1 m3/seg. (c) Calcular el valor de p e interpretarlo acordemente, luego hacer una gráfica mostrando su posición. Tabla mostrando los datos
www.full-ebook.com
7.35. En un estudio relacionado con la ingeniería de la calidad del agua, se analiza la concentración de bacterias coliformes (indicadores de la calidad del agua), por metro cuadrado, en dos ríos diferentes localizados en dos estados diferentes de un país del hemisferio norte. Los datos se dan en la tabla de abajo. Tabla mostrando los datos del problema.
www.full-ebook.com
Hacer lo siguiente: (a) Hacer una gráfica de probabilidad para ver que distribución encaja mejor en los datos. (b) Usando la función estadística más apropiada, hacer una prueba de hipótesis y calcular el valor de p. 7.36. Se dan los siguientes datos de una muestra aleatoria de fenoles (C6H5OH) en agua residual industrial: 1 = 10.0 mg/L, n1 = 15, s21 = 1.3, 2 = 6.19 mg/L, n2 = 13, s22 = 1.0. Probar la hipótesis nula de que no hay diferencias entre los dos promedios (μ1 – μ2). 7.37. Se hace un estudio relacionado con los volúmenes de agua (m3/seg), de dos corrientes de agua situadas en diferentes zonas, para ver la factibilidad de usar esas corrientes para el pulimiento de de remanentes de plantas de tratamientos de drenajes. Se sacan dos muestras aleatorias de cada corriente. La tabla de abajo muestra los valores de los volúmenes del agua expresados en metros cúbicos por segundo. Tabla mostrando la información para este problema.
www.full-ebook.com
Aplicando la estadística más apropiada, hacer lo siguiente: (a) Un intervalo de confianza de 95% para la diferencia de las dos poblaciones de flujos. (b) Probar la hipótesis nula de que no hay diferencias entre las dos poblaciones de flujos. (c) Calcular el valor de p y mostrarlo en una gráfica (el lector lo deberá hacer). 7.38. En un estudio química ambiental relacionado con la aplicación del pH (potencial hidrógeno que tiene una escala de 0 a 14, donde 7 es neutral y abajo de 7 es ácido y arriba de 7 es alcalino, pero pueden ocurrir valores fuera de este rango) para medir la alcalinidad y la acidez de soluciones acuosas, un científico, dedicado al estudio de la contaminación ambiental, asegura que dos muestras con el ácido (A y B) provienen del mismo lugar de un río, donde supuestamente hubo un descarga industrial de ácido clorhídrico (HCl). Si esto fuera cierto, entonces el pH de las dos muestras de soluciones acídicas serían iguales. Asumiendo que las observaciones provienen de poblacionales normales, probar la hipótesis nula de igualdad de los promedios de pH. Asumir α = 0.05. Hacer las siguientes estimaciones:
www.full-ebook.com
(a) Hacer estos cálculos usando la distribución más idónea y probar la hipótesis nula de que no hay diferencias entre las poblaciones. Calcular el valor de la probabilidad p. (b) ¿Desaprueban los datos la afirmación del científico? La tabla de abajo muestra la información requerida para este problema. Tabla mostrando los datos de las mediciones del pH.
7.39. En un estudio de tecnologías del agua relacionado con lagunas de estabilización, para la oxidación de las aguas residuales de una planta piloto, se pretende estudiar las eficiencias o los porcentajes de reducción de la demanda bioquímica de oxígeno de 5 días (DBO5), relacionados con el tiempo de retención. En este renglón, es bien sabido que los factores que intervienen en el diseño de estas lagunas son la radiación solar, la relación simbiótica de las bacterias y las algas, temperaturas ambientales, el tiempo de retención, la localización geográfica, la profundidad de la laguna, la intensidad de la radiación ultravioleta, intensidades de vientos, intensidades de lluvias, entradas de los volúmenes del agua residual a la laguna, etc. Supóngase que se sacan dos muestras aleatorias de análisis de DBO5 usando diferentes tiempos de retención, digamos de 45 y 60 días (manteniendo todos las demás variables constantes). Desarrollar los siguientes enunciados:
www.full-ebook.com
(a) Se requiere probar la hipótesis nula de que la media poblacional de las diferencias de las dos distribuciones de porcentajes de reducción del DBO5 es igual a 50.0%. (b) Asumiendo un nivel de confianza de 99% usar la estadística más apropiada para resolver este problema. Los datos se dan en la tabla de abajo. Tabla mostrando los porcentajes de las reducciones del DBO5 de las dos distribuciones usando tiempos de retención de 60 y 45 días manteniendo fijos todas las demás variables. 7.40. Este es un estudio donde hay una interacción entre la ingeniería ambiental y la hidrología (esta interacción empezó a ser más notoria después de la era industrial), es decir, donde se trata de comparar dos distribuciones de flujos de agua de una misma corriente, cuyos valores son correspondientes a los años de 1985 y 2005. Esto se hace con el objeto de investigar si el calentamiento global ha estado distorsionando los patrones pluviales. Para tales fines probar la hipótesis nula de que no hay diferencias entre las dos medias poblaciones de los flujos de 1985 y 2005. Para esto se sacaron muestras aleatorias, mismas que se dan en la tabla de abajo. Usar la estadística mas apropiada y calcular el valor de p. Asumir un nivel de confianza de 95%. Tabla mostrando las mediciones de flujos de agua de ambas distribuciones.
www.full-ebook.com
7.41. En un estudio de usos del agua, se hace una prueba para medir las concentraciones de plomo en muestras de agua adyacentes a una fundición de metales, donde se usó cierto tratamiento experimental terciario para evaluar la reducción de las concentraciones de plomo en el agua, antes y después del tratamiento. Aquí es de notarse que existen varios métodos para el análisis del plomo en muestras de agua. Por ejemplo para mencionar algunos, está el método de absorción atómica de espectrometría. Otro es el método de ditizona, método polarográfico, o el método de bajas concentraciones. Para esto, usar la estadística de más apropiada para resolver este problema y sacar las conclusiones debidas. La tabla de abajo muestra la información requerida para este experimento. Tabla mostrando los datos del problema.
www.full-ebook.com
7.42. Este es un estudio de las tecnologías del agua relacionado con lagunas de oxidación o de estabilización. Estos tipos de plantas de tratamiento son lagunas diseñadas para degradar las aguas residuales de poblados pequeños o de complejos industriales. Los factores que intervienen en el diseño de estas lagunas son la interacción de la luz solar, la relación simbiótica bacteria-alga. Otros factores incluidos en el diseño son la temperatura del agua, el tiempo de retención, la localización geográfica de la laguna, la profundidad del vaso, la intensidad de la radiación ultravioleta, intensidades de vientos, intensidades de lluvias, influjos de los volúmenes del agua residual, etc. (ver referencias bibliográficas sobre este tema al final de este capítulo). Para este ejercicio se estudia el efecto de los tiempos de retención en la reducción (%) de la demanda bioquímica de oxígeno (DBO5) de la materia orgánica. Supóngase que se sacan dos muestras aleatorias de análisis de DBO5 usando diferentes tiempos de retención, digamos de 30 y 45 días (manteniendo todos los demás factores constantes). Decir que estadística es la más apropiada para resolver este problema. Los datos se dan en la tabla de abajo.
www.full-ebook.com
Tabla mostrando los porcentajes de las reducciones del DBO5 de las dos distribuciones usando tiempos de retención de 30 y 45 días manteniendo fijos todos las demás variables.
7.43. Para cada una de las siguientes pruebas de hipótesis acerca de σ2, encontrar la región(es) de rechazo y ponerlas en una gráfica. Luego decir si se acepta o se rechaza Ho: Después calcular el valor de p y decir si la prueba es significante. (a) Ho:σ2 = 100, contra HA:σ2 > 100, α = .05, n = 19, si χ2calc. = 38.0. Calcular p. (b) Ho: σ2 = 510, contra HA:σ2 < 510, α = .01, n = 21, si χ2calc. = 11.0. (c) Ho: σ2 = 25, contra HA:σ2 ≠ 25, α = .01, n = 41, si χ2calc. = 60.0. Calcular p. 7.44. En un estudio relacionado con análisis de oxígeno disuelto (OD), dos laboratorios se avocaron a hacer estos análisis usando el método de Winkler (MW) (titulación) y el método de electrodos (ME) (ver Standard Methods). Usar la estadística apropiada y probar que no hay diferencias entre los dos métodos. Usar α = .05. Calcular el valor de p. Los datos se dan en la tabla de abajo. La tabla de abajo muestra los datos de oxígeno disuelto (OD) de varios laboratorios usando el método de Winkler y el método de electrodos. Las concentraciones del oxígeno disuelto (OD), se expresan en mg/L son en mg/L. Sugerencia: Usar el programa de computadora Minitab o Excel.
www.full-ebook.com
Tabla mostrando los datos del problema.
7.45. Se saca un valor de n = 25 de una población normal de mediciones de partículas de cio atmosférico (μg/m3) emitidas por una compañía de fundición de metales. Se calcula s2 = 30. Usar α = .05. Hacer lo siguiente: (a) Calcular χ2. (b) Estimar las regiones críticas χ2α/2;n-1 y χ21-α/2;n-1 (c) Probar Ho:σ2 = 75, contra HA:σ2 ≠ 75 y calcular el valor de p. (d) Probar Ho: σ2 ≥ 75, contra HA: σ2 < 75 y calcular el valor de p. (e) Hacer gráficas señalando los valores de los niveles de significancia y del valor de p, para cada uno de los incisos (c), (d) 7.46. En un estudio de abastecimiento público de agua potable tratada con cloro, se saca una muestra de tamaño 25 proveniente de una distribución normal y se encuentra que, la varianza muestral del cloro es igual a 12.50 mg/L. Siendo así, hacer lo siguiente:
www.full-ebook.com
(a) Encontrar el intervalo de confianza para σ2 con α = 0.05 y α = 0.01 (b) Probar Ho:σ2 = 7.0 contra HA:σ2 ≠ 7.0 usando α = 0.05. (c) Calcular el valor de p y decir si la prueba es significante. Hacer una gráfica señalando el valor de p. 7.47. En estudios relacionado con los usos del agua para fines domésticos, un ingeniero desea saber la variación en los contenidos de las botellas de refrescos que tienen un volumen requerido de 300.0 centímetros cúbicos (cc). Para semejante tarea se selecciona una muestra de 15 botellas y se miden los volúmenes correspondientes. La tabla de abajo da los da los resultados de las mediciones de los volúmenes.
www.full-ebook.com
(a) Confirmar que efectivamente los datos siguen a una población normal de volúmenes haciendo una gráfica de probabilidad normal y una estadística descriptiva. (b) Probar la hipótesis nula de que la varianza poblacional σ2 = 1.3 cc. Asumir α = 0.05. Hacer una gráfica de JI cuadrada e indicar las regiones críticas y decir si se inclina por la hipótesis nula de Ho:σ2 = 1.3, contra las hipótesis alternativas de H1:σ2 < 1.3 y H2:σ2 > 1.3
www.full-ebook.com
(c) Calcular el valor de p e interpretarlo acordemente Nota: En este renglón es necesario recapitular el hecho de que, tradicionalmente, la forma de reportar el resultado de la prueba de hipótesis consistía en decir si Ho: fue rechazada, para un nivel de significancia especificado, como α = .05 o α = .01. Sin embargo, este enfoque no dice nada acerca de si el valor estadístico de prueba estuvo en el umbral de la región de rechazo o si rebasó el valor crítico, por un amplio margen. El valor de p, si da mucha información en la evidencia en contra de Ho: y a favor de HA: comparando el valor de p con α y aporta conclusiones decisivas a cualquier nivel de significancia, en términos de probabilidad. La tabla de abajo da la información para este ejercicio.
Tabla mostrando la información para este ejercicio.
www.full-ebook.com
7.48. Este es un ejercicio encaminado al uso de la distribución de JI cuadrada para estudios de inferencia estadística de pruebas de hipótesis. Para esto se dan las siguientes mediciones de demanda química de oxígeno (DQO) de una muestra de agua residual industrial. En este contexto, la determinación del DQO provee una medición del oxígeno equivalente a la porción de la materia orgánica en una muestra que es susceptible de ser oxidada. Por otra parte, se puede hacer una correlación estadística entre la demanda bioquímica de oxígeno (DBO) y el carbón orgánico total (COT). Estos estudios, sin embargo, se verán en el capítulo de regresión y correlación. La tabla de abajo muestra la información pertinente. Hacer lo siguiente: (a) Revisar por la simetría de los datos. ¿Es plausible una distribución normal? (b) Encontrar el mejor punto estimador de la varianza poblacional, σ2. (c) Probar la hipótesis nula de que la varianza poblacional σ2 es igual a 200 con 95% nivel de confianza.
www.full-ebook.com
7.49. En una muestra de tamaño 25 de una distribución normal se encuentra que, la varianza muestral es igual a 125. Siendo así, hacer lo siguiente: (a) Calcular χ2 y probar Ho:σ2 = 70 contra HA:σ2 ≠ 70 usando α = 0.05. (b) Calcular el valor de p y decir si la prueba es significante. 7.50. Encontrar el valor de la probabilidad p si el valor de la estadística de JI cuadrada es χ2 = 24.00 con un tamaño de muestra de n = 5. Hacer una gráfica señalando el valor de p. 7.51. Para cada una de las siguientes pruebas de hipótesis acerca de la varianza σ2, encontrar la región(es) de rechazo y ponerlas en una gráfica. Luego decir si se acepta o se rechaza Ho: Después calcular el valor de p y decir si la prueba es significante. (a) Ho:σ2 = 100, contra HA:σ2 > 100, α = .05, n = 19, si χ2calc. = 38.0 (b) Ho: σ2 = 510, contra HA:σ2 < 510, α = .01, n = 21, si χ2calc. = 11.0 (c) Ho: σ2 = 25, contra HA:σ2 ≠ 25, α = .01, n = 41, si χ2calc. = 60.0. Calcular el valor de p. 7.52. En este ejercicio usar el programa Minitab para resolverlo. Para esto se dan los siguientes datos: n1 = 28, s21 = 2766.76, n2 = 26, s22 = 7089.64. Asumiendo α = 0.05, probar que Ho:σ21 = σ22 contra HA: σ21 < σ22 y calcular el valor de p y mostrarlo en una gráfica. 7.53. Con una prueba de hipótesis de F, calcular y describir toda la información acerca del valor de p, dibujar una gráfica señalando el valor de X asociado con p, para cada inciso, con las siguientes características: (a) ν1 = 4, ν2 = 9, prueba de cola superior con F = 4.5 (b) n1 = 30, n2 = 36, s1 = 4.000, s2 = 5.4772
www.full-ebook.com
7.54. Se dan los siguientes datos en un estudio de datos experimentales y de datos de control en un estudio de análisis de aguas residuales industriales, usando la función de comparación de dos varianzas, tomando en consideración los datos de abajo: n1 = 25, 1 = 6.9, s21 = 13.1; n2 = 20, 2 = 7.5, s22 = 3.4 y ν1 = n1 – 1 = 25 – 1 = 24, ν2 = n2 – 1 = 23. Hacer una prueba de hipótesis para refrendar que ambos grupos tienen la misma varianza. Asumir α = 0.05. Calcular el valor de p manualmente, y luego usar el Minitab y complementar el estudio haciendo una gráfica con la posición del valor de p. 7.55. En un estudio de una corriente de agua contaminada con sulfuros (S-2), por una tenería, se encontró que la varianza muestral (durante un lapso de 2 años) de 30 análisis de sulfuros (usando el método colorimétrico) tenía una varianza de 40.0 mg/L. En otra corriente de agua contaminada por una fábrica de papel (que también contamina el agua con sulfuros producidos durante la elaboración del papel) se coleccionó otra muestra de 29 análisis y se calculó una varianza de 20.0 mg/L. Asumiendo que las dos poblaciones madres están normalmente distribuidas, probar, al nivel de significancia de 0.05 que no hay diferencias entre los dos juegos de análisis de sulfuros. Calcular el valor de p y decir si es significante. 7.56. Se sacan muestras aleatorias de agua de dos lagos diferentes contaminados con residuos de pesticidas agrícolas, arrastrados hacia esos vasos lacustres por las lluvias. Luego, se aplica la distribución F, es decir, sacando dos muestras estadísticas cuyos valores fueron promediados durante 5 años. Esto se hizo para comparar las varianzas de las poblaciones madres. Aquí es importante recapitular que, en la prueba de hipótesis acerca de las varianzas de dos poblaciones, se asume que las dos poblaciones son independientes una de la otra (esto es cuando la muestra seleccionada de una población no está relacionada con la muestra seleccionada de la otra población). Además otra suposición es de que las dos muestras están normalmente distribuidas (esta suposición es muy crítica, es extremadamente sensible y no disminuye con muestras grandes). La tabla de abajo muestra los datos. Tabla mostrando los datos.
www.full-ebook.com
Asumiendo un nivel de significancia de α = 0.05, hacer lo siguiente: (a) Una gráfica de probabilidad normal y una estadística descriptiva para revisar por la normalidad de los datos. (b) Probar que la varianza de la muestra uno es igual a la varianza de la muestra dos, esto es Ho:σ21 = σ22, contra la hipótesis alternativa de HA:σ21 ≠ σ22. (Aquí, se nota que esta es una prueba de dos colas, pero al estipular que la varianza más
www.full-ebook.com
grande se pone en el numerador de la prueba estadística F = s21/s22, necesitamos encontrar únicamente la región crítica derecha). Dibujar la gráfica con las regiones de rechazo y de aceptación. (c) Calcular manualmente el valor de p usando la fórmula de interpolación dada en otra parte de este capítulo. (d) Usar el Minitab y resolver los incisos (a, (b) y (c). Sugerencia: Usando el Minitab, irse a: Stat → Basic Statistics → 2 Variances. Proseguir con las demás indicaciones. 7.57. Este es un estudio de usos del agua relacionado con la comparación de dos varianzas poblacionales. Para esto se hace la prueba de hipótesis nula especificando que las dos varianzas poblacionales de las dos muestras de agua son iguales, es decir, usando la distribución F. Se usa la función Ho:σ21/σ22 = 1. Luego se formulan cualquiera de tres posibles hipótesis alternativas, esto es: 1. HA:σ21/σ22 ≠ 1, donde la región de rechazo es Fcalc. > F[α/2;ν1,ν2] o bien Fcalc. < F[1-α/2;ν1ν2]. 2. HA:σ21/σ22 >1, donde la región de rechazo es Fcalc. > F[α]. 3. HA:σ21/σ22 < 1 Información adicional. Debido a que siempre se prueba Ho:σ21/σ22 = 1, la prueba estadística es: F = s21/s22, donde ν1,= n1 – 1 y ν2 = n2 – 1 Además, el valor de la probabilidad p se puede calcular usando la fórmula empírica: (α2 – α1)/(F2 – F1) = (α2 – X)/( F2 – F1). Donde: α2 = valor de alfa más alto, α1 = valor de alfa más bajo, F2 valor de F más alto, F1 valor de F más bajo, X el valor que se quiere interpolar, Fcalc. el valor calculado de F. Con toda la información anterior, hacer lo siguiente: (a) Probar las siguientes hipótesis:
www.full-ebook.com
Ho:σ21/σ22 = 1 contra HA:σ21/σ22 > 1, con n1 = 10, n2 = 13, s21 = 25.0, s22 = 5.0. Para esto, calcular manualmente el valor de Fcalc. y las regiones críticas. Luego calcular el valor de p. (aquí queremos hacer la prueba del lado derecho, ¿porque?). (b) Calcular los valores pedidos en el inciso (a), pero ahora usando el Minitab. (Sugerencia: Irse a: Stat → Basic Statistics → 2 Variances. Luego en la ventana de “2 Variances” puntear “Summarized Data” y seguir las instrucciones. 7.58. Con la prueba de hipótesis de F, calcular el valor de p, y el valor de x asociado con éste. Describir toda la información acerca del resultado, con las siguientes características: n1 = 6, n2 = 11, s1 = 3.4641, s2 = 1.41421, asumiendo una prueba bilateral. 7.59. En un estudio de higiene industrial y seguridad, en una fábrica de ensamblajes automotrices, se sacó una muestra aleatoria de 49 mediciones de ruidos (en decibeles, dB) para probar la hipótesis nula de Ho:μ = 145 contra HA:μ ≠ 145. Si la media muestral es de 138.0 dB con una desviación estándar de 15 dB, hacer lo siguiente: (a) Usar la estadística apropiada para este problema. (b) Calcular el valor de p e interpretar su significado. Hacer una gráfica señalando su valor. 7.60. Se dan los siguientes datos de un estudio relacionado con la calidad del agua: muestra uno con n1 = 29, varianza uno igual a s21 = 2768. Muestra dos igual a n2 = 27, varianza dos igual a s22 = 7060. Hacer lo siguiente: (a) Establecer la hipótesis nula y la hipótesis alternativa
www.full-ebook.com
(b) Calcular el valor crítico. (c) Calcular el valor de F = s21/σ21 / s22/σ22 (d) Calcular el valor de p (e) Hacer los mismos cálculos anteriores, pero ahora usando el programa Minitab. 7.61. La agencia del medio ambiente hace un sondeo dentro de un complejo industrial donde potencialmente algunas industrias están contaminando el aire con SO3 y se sospecha que, cuando menos 42% no están cumpliendo con los límites ambientales estipulados. Se saca una muestra aleatoria de 200 industrias y se encuentra que, solamente, 80 están dentro de la ley ambiental, con una desviación estándar de 10. Hacer lo siguiente: (a) Probar la hipótesis de que, a lo menos 42% de las industrias visitadas están fuera de la ley ambiental. Calcular el valor de p. Asumir α = 0.05. (b) Hacer una gráfica señalando la(s) región(es) crítica(s) y la posición(es) del valor de z. (c) Hacer una gráfica señalando la posición del valor(es) de p y el valor(es) de z asociado(s). 7.62. Con relación al calentamiento global, la mayor parte de los científicos no convencionales están de acuerdo que este fenómeno está alterando el clima (no cambiándolo), es decir, causando eventos extremos, como por ejemplo, veranos muy calurosos alternados con inviernos muy fríos, muchas inundaciones alternadas con sequías, muchos aires huracanados, tornados, granizadas, quemas de bosques y pastizales y así sucesivamente. En cierta región del continente Europeo, por observaciones a posteriori se ha visto que, en cierta ciudad llueve el 60% de las veces. Sin embargo, de los registros hidrográficos de ese lugar, de los últimos 15 años se sacó una muestra aleatoria y se encontró que estuvo lloviendo 180 días por año. Hacer lo siguiente: (a) Probar la hipótesis nula de que el calentamiento global no está alterando los patrones de lluvia. Establecer la hipótesis nula y la alternativa. (b) Calcular el valor de p e interpretar el resultado práctico.
www.full-ebook.com
7.63. Probar las siguientes hipótesis de las diferencias de dos proporciones y calcular el valor de p para cada prueba: (a) Ho:(p1 – p2) = 0 contra HA: (p1 – p2) ≠ 0, n1 = 550, n2 = 450, x1 = 170, x2 = 110 (b) Ho:(p1 – p2) = .05, HA: (p1 – p2) > .05, n1 = 550, n2 = 400, x1 = 210, x2 = 105 7.64. Si Ho:ρ = .70, HA: ρ > 0.70, número de ensayos = 150, número de eventos 120, α = 0.05, contestar lo siguiente. (a) ¿Es significante la prueba? (b) Hacer gráficas que señalen la región crítica y el valor de p y su asociación con el número de eventos. 7.65. Se hace un estudio tendiente a encontrar el número de ciudades de cierto país que tiene plantas de tratamiento de aguas residuales municipales y se contiende que el 40% de esas ciudades tienen plantas de tratamiento. Sin embargo, un grupo de activistas ambientales, no está totalmente de acuerdo con la anterior contención y hace un sondeo, y se saca una muestra de 100 ciudades y se encuentra que 50 tienen algún tipo de tratamiento de sus aguas residuales. Hacer lo siguiente: (a) Establecer la hipótesis alternativa y la hipótesis nula. (b) Establecer las regiones críticas usando α = 0.05. (c) Calcular el valor de p. (d) Hacer gráficas que muestren las regiones críticas y los valores de p. 7.66. En un estudio de ingeniería de tecnologías del agua, se desea comparar la eficiencia de dos sistemas de tratamiento de aguas residuales, es decir, de dos tipos de lagunas de estabilización: una con ventiladores sumergidos y la otra con ventiladores flotantes, manteniendo fijas todas las demás variables. Para esto, de la laguna de ventiladores sumergidos se saca una muestra de 150 análisis de concentraciones de DBO5 de los cuales 30 tenían una media de = 30 mg/L. Para la segunda laguna, es decir, para la de ventiladores flotantes, se sacó otra
www.full-ebook.com
muestra de 170 análisis de DBO5 de los cuales 55 tenían una media de 55 mg/L. ¿Es razonable concluir que, ambas lagunas de estabilización tienen la misma eficiencia en la reducción de la materia orgánica? 7.67. Una industria que emite partículas atmosféricas durante el procesado de sus productos, desea estudiar la factibilidad de reducir las emisiones de partículas (cuyos estándares establecidos por la EPA son de medias estándares anuales de 15 μg/m3 de aire y de los estándares diarios permitidos son de 35 μg/m3). Esto se hace, a través de la instalación de equipo de control de partículas usando precipitadotes electrostáticos, con el objeto de ver si efectivamente hay una reducción significante en las emisiones de partículas. Para esto se saca una muestra aleatoria de dos años y se hacen mediciones de las concentraciones de partículas, antes y después de la instalación del equipo de control. Asumir un nivel de significancia de α = 0.05, luego hacer lo siguiente: (a) ¿Cual es la función estadística apropiada para este experimento? (b) Probar la hipótesis nula de que no hay diferencias en las emisiones de partículas antes y después de la instalación del equipo de control relacionadas con los estándares anuales de 15 ug/m3. Establecer la hipótesis alternativa y la nula. (c) Hacer gráficas señalando los valores críticos asumiendo una prueba bilateral. (d) Calcular el valor de la probabilidad p y hacer una gráfica de la distribución de esta estadística señalando su valor. La tabla de abajo muestra los resultados de este experimento. (e) Hacer un histograma sobrepuesto de las diferencias de las dos distribuciones. (f) Hacer un intervalo de confianza de 95% para la diferencia de las dos distribuciones. La tabla de abajo muestra los resultados de este experimento. Tabla mostrando los resultados de las emisiones de partículas sin el equipo de control y con la instalación del equipo de control, usando unidades de micras por metro cúbico.
www.full-ebook.com
7.68. Para mantener el control de calidad en la fabricación de equipo de control (ciclones) para las emisiones de partículas atmosféricas, un fabricante supone que la manufactura de estos sistemas de control, para partículas menores que 10 micras tiene un eficiencia promedio de 32%. Para probar esta aseveración se tomó una muestra aleatoria de 8 ciclones y se midieron las eficiencias en cada uno de ellos para ese tamaño de partículas. La tabla de abajo muestra los valores de las eficiencias de los ciclones. Tabla mostrando las eficiencias (%) de los ciclones
Hacer lo siguiente:
www.full-ebook.com
(a) ¿Es correcta la afirmación del fabricante de los ciclones? (b) Calcular el valor de p e interpretar su significado 7.69. Se hace una investigación con una planta eléctrica que emite 151.0 g/seg de óxidos de azufre (SO2). Se sacó una muestra aleatoria, por un periodo de dos años, de concentraciones de óxidos de azufre provenientes de la chimenea de la planta eléctrica y se usó la siguiente información: La altura efectiva de la chimenea es de H = 150.0 metros. La intensidad del viento ( ) es de 4.0 m/seg, la cual provino de un anemómetro colocado a una altura de 10 metros. Los valores de las sigmas, σy y σz, en función de la distancia (consultar las gráficas de Pasquill, para obtener los pares de coeficientes de dispersión σy y σz, ver Figuras 2 y 3 de abajo) fue con clase de estabilidad B (para los índices de estabilidad atmosférica de Pasquill-Turner, ver Turner 1970). Aquí es de saberse que, el caso de estabilidad atmosférica B ocurre bajo condiciones subadiabáticas, es decir, cuando, la temperatura es menor que la referencia de la tasa de disminución de calor llamada tasa de lapso adiabático seco (Γ = dT/dz, donde T es la temperatura y z es la altura (es el punto de referencia con líneas quebradas como se ve en la Figura 4). Las distancias que se usaron viento abajo de la planta eléctrica (expresadas en kilómetros) fueron de x = 0.3, 0.4, 0.5, 0.6 0.8, 1.0, 5.0, 10.0, 20.0, 30.0, 40.0 y 50 kilómetros. Para el desarrollo de este problema se da la siguiente información: Ecuación general de dispersión Gaussiana (Turner 1970), para una fuente de punto (ver figura 1 de abajo de la chimenea con la dispersión en tres dimensiones, es decir, a lo largo de la pluma (x), dispersión horizontal (y) y dispersión vertical (z).
Donde:
χ(x,y,z,H) es la concentración del contaminante atmosférico (g/m3) en función de x
www.full-ebook.com
(a lo largo de la pluma, viento abajo), y (dispersión transversal), z (dispersión vertical) y altura de chimenea H Q es la emisión del contaminante que sale de la chimenea (g/seg) es la intensidad media del viento (m/seg) σy σz son las desviaciones estándares verticales y horizontales de la pluma (m) H es la altura efectiva de la chimenea (m) x, y, z son la distancia viento abajo, distancia transversal horizontal y distancia vertical, respectivamente. Sin embargo, como se quiere analizar la concentración del SO2 directamente, viento abajo, se pone y y z igual a cero. Entonces la ecuación de arriba se reduce a:
Usando la información dada arriba con la ecuación (2) y las gráficas de los coeficientes de dispersión σy, σz, en función de las diferentes clases de estabilidad (estabilidad B en este caso) mostradas en las figuras 2, 3 y 4 de abajo, se saca una muestra aleatoria de dos años y se estructura la Tabla 1 de abajo. Tabla 1. Tabla mostrando los resultados.
www.full-ebook.com
Como se observa en la tabla de arriba, la columna (1) muestra las diferentes distancias de la chimenea (km). La columna (2) muestra los valores de los coeficientes de dispersión (σy y σz, en metros) y la columna (7) muestra los valores de las concentraciones promedio del SO2 (χ(x, 0, 0, 150), para cada una de las distancias especificadas. Sin embargo, se requiere reducir las concentraciones del gas SO2 para cumplir con los estándares de la calidad del aire de ese contaminante. Para tales fines se instala un equipo de control, es decir, un limpiador de aire húmedo (scrubber) en la base de la chimenea, para reducir las concentraciones del SO2 en un 30%. Después de la instalación del equipo de control del gas, se vuelve a tomar otra muestra aleatoria por un periodo de 2 años, para comparar los resultados y observar si hubo una reducción en las concentraciones SO2. Para esto, hacer lo siguiente: (a) Estructurar una tabla como la Tabla 1 de arriba y calcular las nuevas concentraciones promedio del bióxido de azufre, χ(x, 0, 0, 150), con la emisión reducida en un 30 %, es decir, con Q = 105.7 g/seg. (b) Usando la estadística apropiada probar la hipótesis nula de que no hay diferencias entre los dos pares de distribuciones de las concentraciones del SO2., es decir, antes y después de la instalación del equipo de control. (c) Luego hacer un intervalo de confianza del 95% para la media poblacional. (d) Hacer una tabulación de las transformaciones logarítmicas en los ejes de la
www.full-ebook.com
ordenada y abscisa y luego estructurar una gráfica con los valores de las dos distribuciones y analizar su configuración. (e) De acuerdo a lo obtenido en (d) ¿Cuales fueron las concentraciones máximas (en mg/m3), y a que distancia de la fuente emisora ocurrieron, es decir, usando los dos niveles de emisiones, es decir, de Q = 151.0 y Q = 105.7 g/seg? (f) ¿Por cuál porcentaje se redujo la concentración máxima de los dos niveles especificados? En las figuras de abajo se da una información adicional para la solución de este ejercicio.
www.full-ebook.com
Figura 1. Sistema de coordenadas mostrando la distribución Gaussiana en tres dimensiones (x, z, y) de acuerdo a la ecuación (1). Fuente: Turner, D. Bruce (1970). Workbook of Atmospheric Dispersión Estimates. Environmental Protection Agency. Office of Air Programs, Research Triangle Park, North Carolina.
Figura 2. Gráfica mostrando los coeficientes de dispersión σy en función de las diferentes clases de estabilidad atmosférica (A, B, C, D, E, F) y de la distancia viento abajo (km). Fuente: Water treatment solutions LENNTECH. http://www.lenntech.com/air-purification/air-qualitydispersion-model.htm (Reproducido con permiso del autor David van Lennep)
www.full-ebook.com
Figura 3. Gráfica mostrando los coeficientes de dispersión σz, en función de las diferentes clases de estabilidad atmosférica (A, B, C, D, E, F) y de la distancia viento abajo (km). Fuente: Water treatment solutions LENNTECH. http://www.lenntech.com/air-purification/air-qualitydispersion-model.htm (Reproducido con permiso del autor David van Lennep)
www.full-ebook.com
Temperatura (oC) Figura 4. Figura mostrando la configuración de la pluma bajo condiciones inestables de categoría B (subadiabático), donde el punto de referencia es la línea quebrada, esto es, tasa del lapso adiabático seco, es decir Γ = dT/dz, donde T es la temperatura (oC) y z es la altura.
Figura 5. Figura mostrando la configuración de la pluma bajo condiciones inestables (subadiabaticas) de categoría B, forma de bucles.
www.full-ebook.com
7.70. Con referencia al ejercicio 7.69, hacer lo siguiente: (a) Graficar los valores en escala logarítmica, es decir, graficando las concentraciones viento abajo, versus la distancia cruzada a una distancia de x = 1000 metros. Para esto, usar incrementos de 100 metros hasta 500 metros del centro de la pluma. Para esto usar los valores de las concentraciones obtenidas con Q = 151.0 g/seg y 105.7 g/seg. (b) Con los valores de las dos distribuciones obtenidas en (b) hacer tablas como la de abajo. (c) Luego con los valores calculados de χ(x; y; 0) de ambas distribuciones aplicar la estadistica idónea y probar la hipótesis nula de que no hay diferencias entre las dos distribuciones de las concentraciones transversales de SO2. (d) Calcular el valor de p y hacer una gráfica de la distribución de esta estadística. Tabla sugerida mostrando las concentraciones del SO2 de viento cruzado, con Q = 151.0 y Q = 105.7 g/seg.
Referencias 1. Quevedo, H., Pérez, B. R. (2008). Estadística para la Ingeniería y Ciencia. Grupo Editorial Patria. (p. 270). 2. Standard Methods. Water Pollution Control Federation. American Public
www.full-ebook.com
Health Association, 1015 Eighteen Street, N. W., Washington, D. C. 20036. 3. Maidment, D. R. (1993). Handbook of Hydrology. McGRAW-HILL, INC. Standard Methods for the Examination of Water and Wastewater, 1971. Prepared and published tly by: American Public Association, American Water Works Association, and 4. NIST/SEMATECH e-Handbook of http://www.itl.nist.gov/div898/handbook/ (2010)
Statistical
Methods,
5. MathWorks. http://www.mathworks.com 6. www.epa.gov/nmrl/pubs/635r (2010) 7. Montgomery, D. C., Runger, G. C. (1996). Probabilidad y Estadística Aplicadas a la Ingeniería. McGraw-HILL INTERAMERICANA EDITORES, S. A. DE C. V. (p. 440) 8. Comisión Internacional de Límites y Aguas entre México y los Estados Unidos. Presa Falcón, Tamaulipas. 9. Comisión Internacional de Límites y Aguas de la Ciudad Acuña, Coahuila, México Presa Amistad, de Cd. Acuña Coahuila, México 10. Comisión Nacional del Agua (CONAGUA) Oficina en Cd. Juarez, Chihuahua, Mexico. 11. National Oceanic Organization istration (NOOA) de El Paso, Texas, U.S.A. 12. Comisión Nacional del Agua (CONAGUA) de Cd. Chihuahua, Chih. México. 13. Turner, D. Bruce (1970). Workbook of Atmospheric Dispersión Estimates.
www.full-ebook.com
Environmental Protection Agency. Office of Air Programs, Research Triangle Park, North Carolina.
www.full-ebook.com
Capítulo 8
www.full-ebook.com
Análisis de Varianza Dr. Héctor Adolfo Quevedo Urías (Ph. D.)
Temas descritos en este capítulo
8.1. Introducción
8.2. Clases de modelos de ANOVA
8.3. Análisis de varianza unilateral o de un sentido
8.4. Procedimientos para evaluar la calidad del modelo de ANOVA seleccionado
8.5. Análisis de varianza de diseño de bloque completamente aleatorizado
8.6. Efectos fijos en análisis de varianza de un sentido o de una clasificación
8.7. Experimentos factoriales: Análisis de varianza en dos factores o dos clasificaciones
8.8. ANOVA de tres sentidos: diseño completamente aleatorizado (Efectos fijos)
Lagunas de estabilización para la degradación del drenaje Las lagunas de estabilización son excavaciones de poca profundidad, en el cual se desarrolla una población microbiana compuesta por bacterias, algas y
www.full-ebook.com
protozoarios (que funcionan simbióticamente). Es un método sencillo y eficiente para eliminar, en forma natural, la materia orgánica de las aguas residuales municipales. La laguna está compuesta por un grupo de trampas que atrapan y separan los elementos sólidos no inherentes al diseño del sistema. Posteriormente, el agua residual pasa a una serie de lagunas (una o más), donde permanecen en o con el entorno, principalmente con el aire, experimentando un proceso de oxidación y sedimentación, transformándose así, la demanda bioquímica de oxígeno de la materia orgánica, en otros tipos de nutrientes que pasan a formar parte de una comunidad diversa de plantas y ecosistema bacteriano acuático. La eficiencia de las lagunas es de un 70 y un 85% del DBO, los cuales son estándares aceptables para la liberación de estas aguas tratadas hacia la naturaleza sin peligros para el medio ambiente o de problemas de enfermedades entéricas. Los tipos de lagunas de estabilización se pueden clasificar de la siguiente manera: Lagunas de estabilización aerobias (aireadas), es decir, cuando existe oxígeno en todos los niveles de profundidad. Lagunas de estabilización anaerobias (sin aireación), es decir, cuando la carga orgánica es tan grande que predomina la degradación sin oxígeno. Lagunas de estabilización facultativas, donde existe una combinación de capas aerobias y anaerobias, la parte superior aerobia y el fondo anaerobio. Lagunas de pulido: Son aquellas lagunas de estabilización, que se usan para refinar la calidad de los efluentes de las plantas de tratamiento mecánico. 8.1. Introducción al estudio de análisis de varianza. El método para comparar varias medias se llama análisis de varianza o, simplemente, ANOVA. En su más simple forma, el análisis de varianza compara varios tratamientos para determinar la igualdad de las medias. En contraste con la prueba de t de estudiante, que estudia la igualdad de dos poblaciones (Ho:μ1 = μ2), el análisis de varianza estudia más de 2 poblaciones, y usa la estadística F. Específicamente, el modelo ANOVA simple estudia las igualdades de más de 2 promedios, esto significa que estudia los efectos de más de dos “tratamientos,” es decir, de la hipótesis nula Ho:μ1 = μ2 = μ3 = ..... = μn, esto es, de que las varianzas de los promedios son igual a cero (σ2μ = 0), contra la hipótesis
www.full-ebook.com
alternativa de HA:μ1 ≠ μ2 ≠ μ3 ≠ ..... ≠ μn. No obstante, a pesar de que, el análisis de varianza estudia las medias poblacionales, analiza, de hecho, la varianza de las poblaciones, bajo estudio. Cuando hablamos del modelo estadístico de ANOVA, existen varias técnicas para comparar dos o más poblaciones, como por ejemplo, análisis de varianza completamente aleatorizados (de una clasificación o un sentido), análisis de varianza de diseño de bloque completamente aleatorizado, análisis de varianza de dos clasificaciones o de dos sentidos, de tres clasificaciones y así sucesivamente. Los modelos de análisis de varianza tienen una amplia aplicación a la infraestructura para el diseño de análisis ambientales, planeación de experimentos, estrategias de muestreo en aplicaciones a la química del agua, procesos químicos y biológicos en ingeniería ambiental, química ambiental, análisis instrumental de microbiología, procesos unitarios para la degradación de aguas residuales usando plantas mecánicas y lagunas de estabilización. Además los análisis de varianza tienen aplicaciones a estudios de difusión atmosférica de contaminantes provenientes de fuentes emisoras, en función de la distancia, variables físicas de la chimenea, factores meteorológicos tipos de terrenos, etc. Es decir, a la deposición y disminución de contaminantes del aire, aplicaciones al modelado de la difusión de contaminantes atmosféricos que involucran varias clases de contaminantes en la atmósfera, etc. En cuanto a la asociación del análisis de varianza a la hidrología y su interacción con la ingeniería ambiental, Chow (1964) discute algunas aplicaciones de ANOVA a problemas de hidrología. Por ejemplo, en el estudio de meteorología, relacionadas con precipitaciones, varios pluviómetros pueden ser usados y varias tormentas pueden ser medidas para cada registro hidrológico. Siendo así, dentro la variación total de todos los valores de precipitación medidos, hay una porción de variación, la cual se debe a la variación de los valores promedio registrados en cada pluviómetro (entre las muestras). Además, hay otra porción, la cual es el resultado de la variación de los registros individuales alrededor de esos valores promedio (dentro de las muestras). Con relación a la hidrología aplicaciones de ANOVA de una clasificación sería el estudio de cuencas en una región dada, en la cual se deseara determinar, si el desagüe regional puede considerarse como homogéneo. Otra aplicación más sería la de determinar si ha ocurrido un cambio brusco en el valor promedio de duraciones de precipitaciones o de flujos que pudieran existir entre varias cuencas hidrológicas. Otro ejemplo, en aplicaciones de ANOVA
www.full-ebook.com
multifactorial para la respuesta media, es cuando se toman en consideración factores como los gradientes de las cuencas y del canal principal, tipos de áreas como urbanas o rurales, duración de precipitación, etc., y ver si hay diferencias en las medias poblacionales (tal vez para atestiguar los impactos climatológicos del calentamiento global). Análogamente, con referencia a los usos del agua, hay aplicaciones de ANOVA, para ilustrar el uso de las comparaciones múltiples, como por ejemplo, cuando se monitorean varios lagos o ríos de donde se sacan muestras aleatorias de aguas contaminadas, para atestiguar si hay diferencias en los grados de contaminación de aguas residuales municipales o industriales de cada corriente o presa. Similarmente, en estudios de contaminación de corrientes (usando ANOVA de dos, tres o más clasificaciones) es de interés analizar los efectos de la distancia, tiempo, tipos de zonas bénticas y zonas de turbulencia (por donde pasa la corriente), temperaturas del agua, velocidades de la corriente, etc., y en el análisis los efectos principales y los efectos de interacción. Igualmente, en usos del agua para fines agrícolas, el modelo de ANOVA tiene muchas aplicaciones, especialmente para ahorrar recursos naturales como el agua. En aplicaciones a los recursos del agua, pues fue precisamente en el ámbito agrícola, donde tuvo uno de sus inicios las aplicaciones de análisis de varianza simple y múltiple. Por otro lado, en este capítulo se hará un uso muy extensivo de programas de cómputo, como el Minitab y el Excel. Esto es absolutamente necesario, para resolver y hacer cálculos de los problemas aplicando análisis de varianza, los cuales son muy largos y tediosos, cuando se hacen manualmente, con los modelos tradicionales de ANOVA. Sin embargo, en algunas ocasiones, los problemas se resolverán manualmente, y luego a través del Minitab o del programa Excel, es decir, con el objeto de que el lector resuelva los problemas manualmente, y luego compare los resultados usando programas de cómputo como el Minitab o Excel. 8.2. Tipos de modelos de ANOVA. Cuando se habla de análisis de varianza existen tres clases de modelos de ANOVA. Es decir, modelos de efectos fijos, modelos de efectos aleatorios y combinaciones de modelos de efectos fijos y aleatorios. 8.2.1. Modelo de ANOVA de efectos fijos y modelo de ANOVA de efectos aleatorios. En el caso de modelos de ANOVA de efectos fijos, esta clase de
www.full-ebook.com
modelos asumen que los datos provienen de poblaciones normales, que pueden ser diferentes solamente en sus medias. En el caso de modelos de efectos aleatorios, estos modelos asumen que los datos describen una jerarquía de poblaciones diferentes, cuyas diferencias están constreñidas por la jerarquía. (Wikipedia 2011). Por otra parte, de acuerdo a Daniel et al. (1989), las suposiciones bajo consideración en el análisis de varianza dependen de la manera en la cual se seleccionan los tratamientos. Acordemente, se pueden identificar dos situaciones: el modelo de efectos fijos y el modelo de efectos aleatorios. La diferencia radica en el hecho de que, cuando se usa el modelo de ANOVA de efectos fijos, estamos interesados en las poblaciones k representadas por los datos de la muestra y las inferencias se limitan a los tratamientos específicos que aparecen en el experimento. En contraste, con el modelo de efectos aleatorios, se consideran esas poblaciones k, de ser una muestra de tamaño n de una población de tratamientos. Asimismo, los modelos de ANOVA se pueden aplicar a la deposición y disminución de contaminantes del aire, aplicaciones al modelado de la difusión de contaminantes atmosféricos que involucran varias clases de contaminantes en la atmósfera, etc. Por ejemplo, aplicando el modelo de efectos fijos, supóngase que, en un estudio de agricultura, se tienen 3 tipos de fertilizantes, y cada tipo se usa para fertilizar 6 plantas de leguminosas seleccionadas aleatoriamente. Después de algún tiempo, se mide el rendimiento promedio de cada grupo de las 6 plantas y luego se hacen inferencias acerca de su efectividad productiva. Conversamente, en el caso del modelo de ANOVA de efectos aleatorios, supóngase que tenemos 10 tipos de fertilizantes y luego seleccionamos una muestra aleatoria de 3 fertilizantes, para un experimento agrícola. Después de algún tiempo, queremos hacer inferencias acerca de todo el conjunto de los 10 fertilizantes, es decir, basando el criterio en la calidad productiva agrícola de los 3 fertilizantes seleccionados aleatoriamente. No obstante, en este texto el estudio de ANOVA se centrará en el uso de modelos de efectos fijos. 8.2.2. Suposiciones del modelo de efectos fijos de ANOVA. 1. En estudios de ANOVA se usa la distribución F. Como se asentó en capítulos anteriores, esta distribución no es simétrica, sino sesgada, es decir, oblicua hacia la derecha.
www.full-ebook.com
2. En el modelo de ANOVA, los valores de F pueden ser cero o positivos, pero no negativos. 3. Las pruebas de hipótesis son siempre del lado derecho. 4. Hay una distribución de F diferente para cada par de grados de libertad, (g.l.). La Figura 8.1 muestra esta situación. Para denotar los grados de libertad para el numerador se usa la anotación, ν1 y para los grados de libertad el denominador se usa la anotación, ν2. 5. Las variables aleatorias X1, X2, … , Xk están normalmente distribuidas. 6. Las distribuciones poblacionales muestreadas tienen la misma varianza o desviación estándar (homoscedasticidad). Cada Xij está normalmente distribuida con E(Xij) = μ y V(Xij) = σ2. 7. Las muestras sacadas de cada población son aleatorias e independientes una de la otra. Si las condiciones anteriores no pueden ser cumplidas, la prueba de F será inválida.
www.full-ebook.com
Figura 8.1. Gráfica mostrando la distribución F. Hay una distribución diferente para cada par de grados de libertad (g.l.) del numerador, ν1 y del denominador, ν2. Para la línea negra los g.l. son ν1 = 4, ν2 = 25, para la línea roja son ν1 = 4, ν2 = 4 y para la línea verde son ν1 = 1, ν2 = 4. 8.3. Análisis de varianza unilateral o de un sentido. Diseños de análisis de varianza completamente aleatorizados. Existen dos tipos básicos de análisis de varianza: el diseño completamente aleatorizado y el diseño de bloque completamente aleatorizado. 8.3.1. Análisis de varianza completamente aleatorizado. En el caso del diseño completamente aleatorizado, conocido por análisis de varianza en un sentido, unilateral o de una clasificación, se asignan los tratamientos aleatoriamente a las unidades experimentales. En este diseño las muestras son independientes, por lo tanto, la selección de una muestra no afecta la selección de cualquier otra muestra. Para cada muestra se puede calcular la media, j y la varianza s2j. El formato de la tabla de ANOVA de un sentido completamente aleatorizado se da en la Tabla 8.1 de abajo. Esta tabla da una descripción de todos los componentes de clasificaciones unilaterales o de diseños completamente aleatorizados. La tabla de abajo muestra el formato usado para ANOVA de diseños completamente aleatorizados.
www.full-ebook.com
Tabla 8.1. ANOVA de una clasificación de diseños completamente aleatorizados.
Donde:
SSa Suma de cuadrados de tratamientos y representa la variación entre las diferentes muestras, donde hay una variación explicada.
SSe Suma de cuadrados del error y representa la variación dentro de las muestras debido a la casualidad, donde hay una variación inexplicada.
www.full-ebook.com
SSt Suma total de cuadrados y representa la suma total de los cuadrados, es decir, SSa + SSe MSa = SSa / (a – 1)
(8-1c)
MSa Media cuadrática del tratamiento s2e = SSe / [a(n – 1)]
(8-1d)
s2e Cuadrado medio del error F1 = MSa / s2
(8-1e)
(8-1f)
Fcalc. = F calculada, Ftab. = F tabulada = F[1-α;a-1,a(n-1)] Donde: xij = j-ésima observación del i-ésimo tratamiento i. = media de todas las observaciones para el i-ésimo tratamiento .. = media de todas las an observaciones o media de las medias n = número de tratamientos o tamaño de la muestra En este contexto, el término “tratamiento” no se refiere a un tratamiento propiamente dicho, sino a diferentes muestras, de las cuales son el resultado de diferentes factores que estamos analizando, es decir, combinaciones de un nivel de cada factor en el experimento. Además, el error o residual, no se refiere, precisamente a un “error”, sino a las variaciones de las observaciones individuales acerca de su propia media. El término “error” no es un error en el sentido estricto de la palabra. Este “error” algunas veces se llama variación inexplicable, porque el error de la suma de los cuadrados mide la diferencia entre los valores de la muestra, que son debidos a variación casual, por la que no se
www.full-ebook.com
encuentra una causa identificada. En estadística, el error puede ser la variación debido a factores que no pudieron se controlados o a un muestreo de error debido a la naturaleza arbitraria de la muestra seleccionada para representar a la población. Igualmente, con respecto al valor de p, éste tiene el mismo significado que el valor de p usado en las pruebas de hipótesis. Este valor se refiere al nivel de probabilidad de la cola derecha usando la distribución F. Cuando el valor de p es menor que un valor predeterminado de α, digamos 0.05, se rechaza la hipótesis de que la influencia de los términos es cero. 8.3.2. Descripción del modelo de análisis de varianza de una clasificación. El modelo poblacional para describir diseños completamente aleatorizados de una clasificación se da como: Yij = μ + αi + εij
(8-2)
Donde:
es la respuesta media
αi es el efecto del i-ésimo tratamiento εij es el error o residual poblacional y mide la desviación de la j-ésima observación de la i-ésima muestra de la que corresponde a la media del tratamiento. Además, i = 1, 2,…., a; j = 1, 2, … , n, Ejemplo 8.1. En un estudio de ingeniería ambiental de difusión atmosférica, se analizan los concentraciones de ozono (ozono artificial al ras del suelo, para distinguirlo del ozono natural en la estratosfera) promediados durante 5 años, de tres ciudades de cierta país. (En este contexto es de saberse que, desde 1997, los estándares de ozono de 8 horas eran de 0.08 partes por millón, pero actualmente se han reducido a 0.075 ppm). Se requiere saber si hay diferencias entre las tres
www.full-ebook.com
medias poblacionales de las concentraciones de ozono de esas tres cuencas atmosféricas. Asumir α = 0.05. La tabla de abajo muestra la información requerida para este estudio. Tabla 8.2. Tabla mostrando los datos de las concentraciones de ozono de las tres ciudades muestreadas, en unidades de partes por billón (ppb).
Desarrollar los siguientes enunciados: (a) Establecer la hipótesis alternativa y la hipótesis nula (b) Hacer un análisis de varianza simple usando el formato de la Tabla 8.1. (c) Hacer gráficas que muestren la región crítica y el valor de p. (d) Sacar las conclusiones debidas y decir si la prueba es significante. Solución: (a) La hipótesis alternativa es: HA:μ1 ≠ μ2 ≠ μ3 y la hipótesis nula es: Ho:μ1 = μ2 = μ3 (b) Para hacer la tabla de ANOVA, la secuencia de los cálculos es como sigue: 1. Primero hay que calcular la suma de los cuadrados usando la ecuación (8-1).
www.full-ebook.com
Pero antes se necesita calcular la media de todas las observaciones, para el iésimo tratamiento y la media de todas las an observaciones o media de las medias, es decir, Las medias de las observaciones ( i) de las ciudades 1, 2 y 3 son: 1. = (90.0 + 77.0 + ... + 132.1)/5 = 94.3 2. = (108.4 + 120.0 + … + 86.9)/5 = 120.3 3. = (48.8 + 34.1 +… + 93.0)/5 = 51.8
Enseguida hay que calcular .., o sea la media de todas las an observaciones (3x5), esto es: ..= (94.3 + 120.3 + 51.8)/3 = 88.80. 2. Ahora, se sustituyen todos los valores en la función (8-1):
3. Luego, se calcula la suma de los cuadrados del error, SSe usando la ecuación (8-1a), y sustituyendo los valores calculados da: SSe = [(90.0 – 94.3)2 + (77.0 – 94.3)2 + … + (132.1 – 94.3)2] + [(108.4 – 120.3)2 + (120.0 – 120.3)2 + ... + (151.0 – 120.3)2] + [(48.8 – 51.8)2 + (34.1 – 51.8)2 + ... + (93.0 – 51.8)2] = 944.3
www.full-ebook.com
4. Finalmente se calcula la suma de los cuadrados del total SSt, la cual es simplemente la suma de los cuadrados de los tratamientos y la suma de los cuadrados del error, esto es: SSt = SSa + SSe = 1197.3 + 944.3 = 2141.6 5. Ahora para calcular la media cuadrática o cuadrado medio MSa, se divide SSa entre los grados de libertad del primer renglón de la tabla. Igualmente, para calcular la media cuadrática del error s2e se divide entre los grados de libertar del renglón del residual. Análogamente, para calcular el valor de F, se divide MSa entre s2e. La F tabulada se obtiene buscando los grados de libertad del primer renglón (ν1 = 2) y del segundo renglón (ν2 = 12) en la tabla de la distribución F y da 3.89. 6. Usando el formato de la Tabla 8.1 se prosigue con el llenado de la Tabla 8.3 de abajo. Tabla 8.3. Tabla mostrando el llenado de los valores calculados.
Donde: a = 3, n = 5 Nota: El valor de la probabilidad p se puede calcular manualmente, con la tabla de la distribución F del apéndice de este libro, usando la relación empírica de abajo.
(λ2 – λ1) / (F2 – F1) = (λ2 – X) / (F2 – Fcalc.) Donde:
www.full-ebook.com
(8-3)
Fcalc. = valor calculado λ2 = valor porcentual de F más alto que el valor de Fcalc. λ1 = valor porcentual de F más bajo que el valor de Fcalc. F2 = valor de la distribución F correspondiente a λ2 F1 = valor de la distribución F correspondiente a λ1 X = valor que se quiere interpolar Para calcular el valor de p buscar el valor calculado de Fcalc. en la tabla de la distribución F, con ν1 y ν2 y el valor de p está entre .01 < p < .001. Usando la fórmula de interpolación (8-3) se obtiene un valor más preciso, por medio de sustituir los valores de λ1 = .01, λ2 = .001, F1 = 6.93, F2 = 12.97, Fcalc. = 7.61, y resolviendo por X se calcula un valor de p = .008 (c) Para hacer las gráficas mostrando la región crítica y el valor de p, usando el Minitab se procede como: Graph → Probability Distribution Plot. Luego en la ventana de diálogo de “Probability Distribution Plots” puntear la ventanilla de “View Probability” y proseguir con las demás instrucciones. Esto genera las gráficas pedidas por el problema, que se muestran abajo.
www.full-ebook.com
Figura 8.2. La gráfica del lado izquierdo muestra la región crítica de 3.89 con α = 0.05. La gráfica del lado derecho muestra el valor de p = .008, con su valor correspondiente de la variable aleatoria x. (d) En conclusión, debido a que el valor de Fcalc. = 7.61 es mayor que el valor de Ftab. = 3.89, se rechaza la hipótesis nula sustentada y se inclina por la hipótesis nula HA:μ1 ≠ μ2 ≠ μ3, y se dice que si hay diferencias entre los flujos de las tres cuencas atmosféricas, cuya decisión es apoyada por un valor de p mucho, muy significante. 8.3.3. Formato abreviado para calcular la tabla de ANOVA de una clasificación o unilateral. También hay otro formato para calcular los valores de ANOVA de un sentido. Como se explicó arriba, el formato anterior usado es algo tedioso. Sin embargo, hay otra forma de calcular los valores de la tabla de ANOVA, más rápidamente usando el formato de la Tabla 8.4. Tabla 8.4. Tabla de análisis de varianza (ANOVA) para una clasificación, con muestras de tamaños iguales usando el método abreviado.
www.full-ebook.com
Donde: T2 = cuadrado de los totales, g.l. = ν = grados de libertad n = tamaño de la muestra G = gran total a = número de muestras ΣX2=Suma de los cuadrados de cada una de las observaciones Ejemplo 8.2. En un estudio de usos del agua, se da la tabla de abajo con los datos de los análisis de las concentraciones de sulfuros (S-2), en unidades de mg/L, de muestras aleatorias de aguas residuales hechas por 3 laboratorios diferentes. Para tales fines, se usa el método colorimétrico descrito en el texto de Standard Methods (1971). Para esto, se seleccionaron 3 muestras de 5 observaciones cada una y se las asignaron a tres laboratorios diferentes. Asumir que las 3 muestras vienen de poblaciones normales aleatorias y que tienen la misma varianza. Asumir un nivel de significancia de α = 0.05. Hacer el problema manualmente aplicando el método corto de la Tabla 8.4. Desarrollar los siguientes enunciados: (a) Una tabla con un análisis de varianza para los análisis de los sulfuros. (b) Establecer la región crítica. (c) Probar la hipótesis nula de Ho: μ1 = μ2 = μ3, o sea que σ2μ = 0, es decir, que los promedios de las tres poblaciones de sulfuros, hechos por los tres laboratorios, son iguales. Además, establecer la hipótesis alternativa apropiada. (d) Si se rechaza Ho: calcular el valor de la probabilidad p. (e) En la eventualidad de que no se pudiera rechazar la hipótesis nula, ¿cuál sería la interpretación de semejante situación? El lector deberá responder a esa pregunta.
www.full-ebook.com
Se da la tabla de abajo con las mediciones de los sulfuros de los tres laboratorios asignados Tabla 8.5. Tabla mostrando los valores de los sulfuros (S-2).
Solución: (a) Para hacer la tabla de análisis de varianza para los sulfuros usando el método corto de la Tabla 8.4, se procede como se señala abajo. Siendo así, usando los valores de la Tabla 8.5, con el formato abreviado de ANOVA de una vía (Tabla 8.4), los cálculos son: G = ΣT = ΣX = T1 + T2 + T3 +...+ Tk = 25 + 45 + 20 = 90, an = (3)(5) = 15 Media general o media de las medias = = G / an = 90 / 15 = 6 También, se puede usar = (
1 + 2 + 3) / a = (5 + 9 + 4) / 3 = 6
Con ΣX 2 = 688, n = 5, a = 3, ΣT2 / n = 3,050 / 5 = 610 SS(entre las muestras) = ΣT2 / n - G2/an
www.full-ebook.com
= (252 + 452 + 202)/5 - (90)2 / [(3)(5)] = 70.0 Nota 1: la suma de los cuadrados SSa = SS(entre las muestras) mide la variación entre las medias muestrales.
SS(dentro de las muestras) = ΣX 2 - ΣT2/n = Σ(X - )2 = 688 - 610 = 78 Nota 2: SSr = SS(dentro de las muestras) mide la variación de las observaciones dentro de las medias muestrales.
SS(total) = SS(entre las muestras) + SS(dentro de las muestras) = ΣX 2 - G2/an = Σ(X - )2 Nota 3: SS(total) mide la variación total de las observaciones an.
La varianza de las medias muestrales es: s2 = media cuadrática de SS(entre las muestras) = Σ(X - )2 / a - 1 = [(5 - 6)2 + (9 - 6)2 + (4 - 6)2]/(3 – 1) = (-12 + 32 - 22)/2 = 7.0 s2e = Media cuadrática de SS(dentro de las muestras) = Σ(X - )2 / [a(n - 1)] = SS(dentro de las muestras) / a (n - 1) = 78 / 3(5 - 1) = 6.5 MSa = 70.0/2 = 35.00 y s2e = 78.0/12 = 6.5 y F = 35.90/6.5 = 5.38 Sustituyendo todos los valores de arriba en el formato de la tabla de ANOVA abreviada da lo siguiente. Tabla 8.6. Tabla mostrando la información relacionada con este ejemplo.
www.full-ebook.com
(b) La región crítica de la columna de Ftab. se calculó consultando la estadística F[1-α;a-1,a(n-1)] usando la tabla de la distribución F dada en textos de estadística. Así, con α = 0.05, a = 3 y n = 5 y sustituyendo da: F[1-0.05;3-1,3(5-1)] o sea F[0.95,2,12] = 3.89, es decir, con ν1 = 2 grados de libertad del numerador y ν2 = 12 grados de libertad del denominador. (c) Se prueba la hipótesis nula de Ho: μ1 = μ2 = μ3, contra la hipótesis alternativa HA: μ1 ≠ μ2 ≠ μ3. Debido a que Fcalc. = 5.38 es mayor que Ftab. = 3.89, se rechaza la hipótesis nula y se inclina por la hipótesis alternativa, y se dice que las medias de las tres poblaciones de sulfuros no son iguales. (d) El valor de la probabilidad p se calcula buscando el valor de 5.38 en la tabla de la distribución F con ν1 = 2 grados de libertad del numerador y ν2 = 12 grados de libertad del denominador y está entre 6.93 y 3.89 con α = .01 y .05, es decir (.050 < p < .010). Si se desea mayor precisión en el cálculo de p se puede hacer usando la fórmula de interpolación (8-3) para dar 0.030. 8.3.4. Procedimiento de comparaciones múltiples para saber cuáles poblaciones son iguales y cuáles son desiguales en las aplicaciones de ANOVA. Cuando el valor de la Fcalc. en la tabla de ANOVA no es significativo, el análisis de varianza se termina, porque no se identificaron diferencias entre las medias poblacionales μi. Sin embargo, si se encuentra una diferencia significante entre las medias de los tratamientos, la siguiente tarea consiste en determinar, cuáles tratamientos son diferentes y cuales son iguales. De esta manera, si rechazamos la hipótesis de igualdad (Ho:μ1 = μ2 = μ3 =…= μn), y nos inclinamos por la hipótesis alternativa de que las medias son desiguales, (HA:μ1 ≠ μ2 ≠ μ3 ≠…≠ μn), todavía no sabemos cuales de las medias son iguales y
www.full-ebook.com
cuales son desiguales. El uso del método de comparaciones múltiples implica hacer varias comparaciones emparejadas entre los tratamientos o promedios. Un método para proseguir con el ANOVA se llama procedimiento de comparaciones múltiples. Hay diferentes opciones para determinar cuales tratamientos son iguales y cuales son desiguales. El método más común es el de Tukey. Otros métodos son los Fisher LSD, Dunnett, Duncan, Newman-Keuls, Bonferroni, etc. El programa Minitab da el método de Tukey, Fisher y Dunnet. Por otra parte, el uso del método de comparaciones múltiples, explicado por Walpole et al. (1992) implica hacer varias comparaciones emparejadas entre los tratamientos o promedios. Por ejemplo, las funciones para comparaciones emparejadas de pruebas como la de abajo, las cuales dicen que son iguales o que no hay diferencia son: Ho:μi - μj = 0 H1:μi - μj ≠ 0
(8-4) (8-4a)
Para todas las i ≠ j De acuerdo a lo anterior, para hacer estas pruebas emparejadas usamos la versión de t de Estudiante de la forma de:
Donde: i = una de las medias que se quiera comparar j = otra de las medias que se quiera comparar
s = desviación estándar combinada o la raíz cuadrada del cuadrado medio del error (MSe) n = tamaño de la muestra de cada tratamiento
www.full-ebook.com
Ejemplo 8.3. Este es un ejemplo de ANOVA de una clasificación, para ilustrar el uso de las comparaciones múltiples de los resultados del análisis de varianza. La tabla de abajo da los datos relacionados con los usos del agua, es decir, con el muestreo de cinco lagos (sitios) de donde se sacaron muestras aleatorias del agua para la medición de sólidos totales suspendidos (STS). Asumir un nivel de significancia de 0.05. La tabla de abajo muestra los datos de este estudio. Tabla 8.7. Tabla mostrando los casos observados en cada uno de los cinco sitios muestreados.
Siendo así, desarrollar los siguientes enunciados: (a) Hacer una tabla de análisis de varianza usando el formato apropiado. Si el valor de la estadística F fuera significante, se rechaza la hipótesis nula de Ho:μ1 = μ2 = μ3 = μ4 = μ5. (Aquí, sin embargo, esto no dice que, necesariamente, todas las medias son desiguales), y se inclina por la hipótesis alternativa de que, cuando menos dos promedios son iguales. (b) Usando la funciones (8-4) y (8-5) probar la hipótesis nula de que la población del sitio 1 es igual a la población del sitio 5, es decir, Ho:μ1 = μ5 contra la hipótesis alternativa de HA:μ1 ≠ μ5. (c) Probar la hipótesis nula de que la población del sitio 4 es igual a la población del sitio 5, es decir, Ho:μ4 – μ5 = 0, contra HA:μ4 - μ5 ≠ 0.
www.full-ebook.com
(d) Probar la hipótesis nula de que la población del sitio 3 es igual a la población del sitio 4, es decir, Ho:μ3 = μ4 contra la hipótesis alternativa de HA:μ1 ≠ μ4. (e) Probar la hipótesis nula de que la población del sitio 1 es igual a la población del sitio 4, es decir, Ho:μ1 = μ4 contra la hipótesis alternativa de HA:μ1 ≠ μ4. (f) Probar la hipótesis nula de que la población del sitio 2 es igual a la población del sitio 4, es decir, Ho:μ2 = μ4 contra la hipótesis alternativa de HA:μ2 ≠ μ4. (g) Finalmente, usar el método de Tukey con el Minitab y comparar los resultados con aquéllos hechos manualmente. Solución: (a) Usar el formato del análisis de varianza de un sentido. Haciendo los cálculos manualmente, usando las técnicas anteriores, se genera la tabla de abajo: Tabla 8.7a. Tabla de ANOVA.
Nota: El valor de p se obtuvo usando la fórmula de interpolación (8-3) anteriormente descrita.
Usando un paquete de cómputo se calculan las medias de cada sitio: 1 = 539.833, 2 = 571.5, 3 = 611.167, 4 = 468.667, 5 = 611.5. La desviación estándar combinada es igual a la raíz cuadrada del cuadrado medio del error, esto es, √4627 = 68.02
www.full-ebook.com
(b) Sin embargo, el hecho de que se rechace la hipótesis nula, esto no necesariamente dice que todos las medias son iguales. Para probar la hipótesis de que la población del sitio 1 es igual a la población del sitio 5, se usan las relaciones: Ho:μ1 = μ5 y HA: μ1 ≠ μ5. Usando la función (8-5) y sustituyendo los valores calculados de los promedios de μ1 = 539.83, μ5 = 611.5, desviación estándar combinada = s = √4627 = 68.02 y n = 6 da:
Para calcular el valor de la probabilidad p se busca el valor absoluto, |-1.83| en la tabla de la distribución de t de Estudiante con 25 grados de libertad y vemos que está entre .025 < p < .05 o sea p = 0.043 y se concluye que este valor no es muy significante y, por lo tanto, se dice que “tal vez” (μ1 = μ5) (c) Aquí se quiere probar la hipótesis nula de que no hay diferencias entre las poblaciones de los sitios 4 y 5, esto es, Ho:μ4 = μ5, contra H1:μ4 ≠ μ5. Para esto, se procede en forma análoga al inciso (b) usando los valores promedio calculados de μ4 = 468.67, μ5 = 611.15, s = 68.96 y tamaño de muestra de n = 5. Sustituyendo todos estos valores da:
Se busca el valor absoluto de |-3.64| y está entre .0005 < p < 0.001. Por interpolación, el valor calculado de p es igual a 0.0008. Este valor apoya, muy contundentemente, la hipótesis alternativa de H1:μ4 ≠ μ5. (d) Aquí se quiere probar la hipótesis nula de que no hay diferencias entre las poblaciones de los sitios 3 y 4, esto es, Ho:μ3 = μ4, contra HA:μ3 – μ4 ≠ 0. Para
www.full-ebook.com
esto, se procede en forma análoga al inciso (c) usando los valores promedio calculados de μ3 = 611.17, μ4 = 468.667, s = 68.96 y tamaño de muestra de n = 6. Sustituyendo todos estos valores da:
Para calcular el valor de la probabilidad p para t = 3.63, se consulta la tabla de la distribución de t con 25 grados de libertad y vemos que el valor de t esta entre .0005 < p < .001. Este valor de p es mucho muy significante y provee mucha evidencia para inclinarse por la hipótesis alternativa de H1:μ3 ≠ μ4. (e) Aquí se quiere probar la hipótesis nula de que no hay diferencias entre las poblaciones de los sitios 1 y 4, esto es, Ho:μ1 = μ4, contra la hipótesis alternativa de HA:μ1 ≠ μ4. Para esto, se procede en forma análoga al inciso (c) usando los valores promedio calculados de μ1 = 539.83, μ4 = 468.667, s = 68.96 y tamaño de muestra de n = 6. Sustituyendo todos estos valores da:
Para calcular el valor de la probabilidad p para t = 1.81, se consulta la tabla de la distribución de t con 25 grados de libertad y vemos que el valor de t está entre .025 < p < .05. Este valor de p es no es significante y no provee mucha evidencia para inclinarse por HA:μ1 ≠ μ4. (f) Aquí se quiere probar la hipótesis nula de que la población del sitio 2 es igual a la población del sitio 4, es decir, Ho:μ2 = μ4 contra la hipótesis alternativa de
www.full-ebook.com
HA:μ2 ≠ μ4. Usando la función
Para calcular el valor de la probabilidad p para t = 2.62, se consulta la tabla de la distribución de t con 25 grados de libertad y vemos que este valor de t está entre .005 < p < .01. Este valor de p es muy significante y proporciona mucha evidencia para rechazar la hipótesis nula y de inclinarse por la hipótesis alternativa de HA:μ2 ≠ μ4. (g) Usando el Minitab se obtienen los siguientes resultados de la tabla de ANOVA y el método de Tukey. Esto se ve en la figura de abajo. Figura 8.3. Diagrama mostrando los resultados impresos.
8.4. Mecanismos para evaluar la utilidad del modelo de ANOVA
www.full-ebook.com
seleccionado. Cuando se hacen análisis de varianza es necesario evaluar la calidad del modelo de ANOVA. Esto se hace a través de diagnósticos objetivistas y diagnósticos subjetivistas o de gráficas de residuales. Por ejemplo, para valorizar el modelo de ANOVA usando diagnósticos objetivistas se han propuesto varias medidas de bondad de ajuste, pero la más común es el coeficiente de determinación R2. Siendo así, R2 se define como una relación, y el rango de su valor es de 0 a 1. Un valor de R2 cercano a 0 indica que no hay una buena relación lineal, mientras que un valor de R2 cercano a 1, indica un ajuste lineal perfecto. Aquí, sin embargo, hay que estar consciente que un valor alto de R2, no necesariamente indica un buen ajuste, ni tampoco un valor bajo pueda indicar que no exista un buen ajuste de los datos. Igualmente, existe otro diagnóstico estadístico llamado error estándar estimado, s. Aquí, el valor más pequeño que pueda asumir s es 0, lo cual ocurre cuando la suma de los cuadrados del error, SSe es igual a 0. Cuando su valor es pequeño, el modelo es bueno, pero si s es grande, el modelo es pobre. Estos diagnósticos estadísticos se retomarán en el tópico de regresión, donde se explicarán más detalladamente. También, para evaluar la calidad del modelo de ANOVA, se hace a través de gráficas de residuales estandarizados (también llamados residuales estudentizados), que se usan para examinar la prueba de bondad de ajuste en ANOVA y en regresión. El análisis de las gráficas de residuales ayuda a determinar, si las suposiciones de las sumas de los cuadrados están siendo satisfechas. Aquí es mejor usar los residuales estandarizados que los residuales crudos, porque los anteriores son más útiles para identificar los valores extremos debido a su varianza no constante. Aquí, las gráficas de residuales incluyen: (a) Histogramas de residuales (b) Gráfica de probabilidad normal de residuales (c) Residuales versus valores ajustados (d) Residuales versus órdenes. Por ejemplo, en cuanto al diagnóstico subjetivista, es decir, del histograma de residuales, éste es una herramienta exploratoria para mostrar las características generales de los residuos, los cuales incluyen valores típicos, esparcimiento y forma de la distribución. Por ejemplo, una cola larga en un lado del histograma puede indicar una distribución sesgada, además si una o dos barras están muy alejadas de las otras, esos puntos pueden indicar valores extremos. En cuanto a
www.full-ebook.com
la gráfica probabilidad normal de los residuales, si los puntos en la gráfica forman una línea recta, los residuales están normalmente distribuidos, pero si los puntos en la gráfica están alejados de la línea recta, la suposición de normalidad puede ser invalidada. Similarmente, con relación a la gráfica de residuales versus valores ajustados, esta gráfica debe de mostrar un patrón aleatorio de los residuales positivos y negativos en ambos lados de cero, pero si un punto está alejado de la mayoría de los demás puntos, esto puede indicar un valor extremo. Además, la configuración de los puntos no debe mostrar ningún patrón definido. A más de esto, si el esparcimiento de los valores de los residuales tiende a aumentar, a medida que los valores ajustados aumentan, esto puede indicar una violación a la suposición de varianza constante. Análogamente, en cuanto a la gráfica de órdenes versus residuales, el comportamiento de los puntos en la gráfica debe ser similar a la gráfica de los valores ajustados. Los diagnósticos objetivistas que incluyen el coeficiente de determinación R2, s, y otros más, además de los gráficos de residuales, se explicarán más detalladamente en el capítulo de regresión. 8.5. Análisis de varianza de diseño de bloque completamente aleatorizado. El caso de ANOVA de diseño de bloques completamente aleatorizados se usa cuando el error experimental es grande, lo que conlleva al no rechazo de hipótesis debido a que hay mucha variación. De manera que, al “bloquear” las observaciones se reduce la variación. El término “bloque” se deriva de diseños experimentales aplicados a la agricultura, en los cuales las parcelas de tierras de cultivos se refieren como “bloques”. En el caso del diseño de bloque aleatorio, los tratamientos se asignan aleatoriamente a unidades dentro de cada bloque que se quiera estudiar. Aquí, sin embargo, una suposición importante del modelo para un diseño de bloques completos aleatorizados es que los efectos de tratamiento y de bloqueo se asume que son aditivos (o independientes). Por ejemplo, para ilustrar esta situación, si se grafican los promedios poblacionales versus tratamientos, digamos de bloque 1 y 2 y, si las gráficas son paralelas, se dice que los efectos de tratamiento y de bloques son aditivos o que no interactúan. Sin embargo, si las líneas se cruzan entre si, se dice que hay interacción o no aditividad, es decir, falta de independencia entre las mediciones. El diseño de ANOVA de bloques completamente aleatorizados también se refiere como ANOVA con dos factores, en el sentido de que se usa I para representar el número de niveles del primer factor A y J para representar el número de niveles del segundo factor B (bloques). Siendo así, hay IJ posibles combinaciones que
www.full-ebook.com
constan de un nivel de factor A y otro de factor B. Cada una de estas combinaciones se llama tratamiento, por lo que hay IJ diferentes tratamientos. Aquí, en el diseño de bloques, el número de observaciones hechas en el tratamiento IJ se representan con Kij = 1, el cual es un caso especial del diseño de bloques aleatorizados, donde un solo factor A es de interés principal, y el otro factor (B) bloques es incluido para reducir el error experimental. En la siguiente discusión de ANOVA de dos factores, nos centraremos en el caso de Kij = K > 1, para diferenciarlo del diseño de bloques aleatorios con Kij = 1. En el caso de aplicaciones de ANOVA de bloques a la ingeniería ambiental usando modelos de difusión atmosférica, se esperaría que las concentraciones de los contaminantes del aire disminuyeran en función de la distancia, siempre y cuando, las alturas de los muestreadotes fueran iguales, las condiciones meteorológicas fueran uniformes, no hay emisiones fugitivas y el tipo de terreno por donde esta pasando la pluma fuera plano o similar. Al bloquear o controlar estas variables, las concentraciones de los contaminantes atmosféricos disminuirían exponencialmente, en función de la distancia de la fuente emisora, sin producir variaciones. Similarmente, con los usos del agua, en el caso de estudios de corrientes usadas como plantas de tratamiento naturales, para la estabilización de aguas residuales domésticas, se esperaría que las concentraciones del DBO disminuyeran en función de la distancia (siempre y cuando las temperaturas del agua a lo largo de la corriente fueran iguales, las velocidades de la corriente fueran uniformes, la turbulencia del agua fuera igual, el tipo suelo por donde está pasando la corriente fuera similar, etc.). Al controlar estos factores, las concentraciones del DBO disminuirían en función de la distancia del punto donde ocurrió la descarga, sin producir mucha variación. Para corregir la variación se pudiera seccionar por partes la longitud de la corriente por secciones que tuvieran características similares. Este enfoque, sin embargo, sería difícil. La tabla de abajo da el formato de ANOVA para el diseño de bloques completamente aleatorizados. Tabla 8.8. ANOVA de un diseño aleatorizado por bloques completos.
www.full-ebook.com
Donde:
Donde: i. = media de las observaciones para el i-ésimo tratamiento .j = media de las observaciones para el j-ésimo bloque .. = media de todas las ab observaciones o el promedio de los promedios
xij = j-ésima observación del i-ésimo tratamiento Ejemplo 8.4. Este es un ejemplo encaminado al uso del programa Excel para estructurar una tabla de ANOVA de bloques aleatorizados. Para esto, en un estudio de usos del agua, se muestrean cuatro diferentes presas para medir la calidad del agua, en cuanto al análisis de oxígeno disuelto (O.D.). La tabla de abajo muestra los valores del (O.D.) de los 5 sitios donde se muestreó el agua de
www.full-ebook.com
las presas en cuestión.
www.full-ebook.com
Tabla 8.9. Tabla mostrando los datos.
Hacer lo siguiente: (a) Una tabla de ANOVA de bloques aleatorizados que incluya el valor de p y las regiones críticas. (b) Hacer otra tabla más de ANOVA pero, en esta ocasión, sin bloquear y comparar los resultados del residual o error y del valor de la estadística F. (c) ¿Qué factores físicos (no estadísticos) pudieran bloquearse durante el muestreo del O.D., para poder reducir el error? Se le pide al lector responder a esta pregunta. Solución: Usando el Excel irse a: Tools → Data Analysis. En la ventana de diálogo de “Data analysis” irse a “ANOVA: Two Factor Without Replication” y “OK”. (a) La tabla de bloques aleatorizados se da abajo. Tabla 8.9a. La tabla de ANOVA con bloques aleatorizados se da abajo.
www.full-ebook.com
(b) Tabla 8.9b. Tabla de ANOVA sin bloquear.
En la Tabla 8.9a se nota que, en los renglones, al bloquear el valor de F es igual a 6.22, el valor de p es igual a .006, y el valor del error es de 8.09. Sin embargo, en la Tabla 8.9b, al no bloquear, el error es mucho más grande, valor de F es mucho más pequeño y el valor de p es mucho más grande, lo que conlleva a una aceptación de la hipótesis nula. La figura de abajo muestra las entradas a la hoja del Excel
www.full-ebook.com
Figura 8.4. Diagrama esquemático mostrando la hoja del Excel y las entradas de los datos. 8.6. Efectos fijos en análisis de varianza de un sentido o de una clasificación. Recapitulando lo que se dijo en las secciones anteriores, el término “efectos fijos” se usa para denotar factores en el diseño de ANOVA con niveles que fueron deliberadamente arreglados por el experimentador estadístico, es decir, en lugar de muestrearlos deliberadamente de una población infinita de niveles posibles (en cuyo caso se llaman efectos aleatorios). Por ejemplo, con la hidrología, si se está interesado en conducir un experimento a posteriori, para probar que las temperaturas altas (por el calentamiento global) aumentan la tasa de evaporación del agua en lagos o presas, uno posiblemente expondría a las aguas superficiales a temperaturas moderadas o altas y luego medir la tasa de evaporación subsecuente. En este caso, la temperatura sería un efecto fijo, porque los niveles de la temperatura del agua, fueron deliberadamente puestos o fijados por el
www.full-ebook.com
experimentador estadístico. 8.7. Experimentos factoriales: Análisis de varianza de dos factores o dos clasificaciones. Aquí vamos a considerar una situación donde se estudia el efecto de dos factores. El análisis de varianza en dos direcciones, o dos clasificaciones es útil para estudiar, más de dos tipos diferentes de tratamientos, digamos factores A y B. La característica del diseño factorial en dos sentidos es que, cada nivel de un factor, se usa en combinación con cada nivel del otro factor. Por ejemplo, considérese el caso de n réplicas de las combinaciones del tratamiento que se determinan por a niveles del factor A y b niveles del factor B. En este aspecto, las observaciones se estructuran por medio de un arreglo rectangular, donde los renglones representan los niveles del factor A y las columnas representan los niveles del factor B. Siendo así, hay ab celdas, cada una de las cuales contienen n observaciones (tamaño de la muestra). De esta manera, en estudios de modelos de difusión atmosférica, los contaminantes del aire se pueden modelar usando dos variables, es decir, la distancia y la altura de los muestreadores, manteniendo constantes otros factores meteorológicos como las intensidades del viento y la altura de la mezcla, características del terreno por donde pasa la pluma, etc. Por ejemplo en estudios de hidrología, se pudiera considerar el pico de las descargas anuales, es decir, considerando una cuenca hidrológica, que vaya en función de los niveles de profundidades promedio de la duración de lluvia y las pendientes del canal principal. Por otro lado, también pudieran considerarse los factores que afectan la evaporación del agua en presas, canales o lagos. Para mencionar algunos, son la temperatura (esto debido a que la presión del vapor de agua aumenta con incrementos de la temperatura). Otro factor que afecta la evaporación del agua es la intensidad del viento, además otros factores que afectan la evaporación del agua son la presión atmosférica y así sucesivamente. Estos tipos de análisis, sin embargo son difíciles de calcular debido a sus efectos interdependientes. Una aplicación de ANOVA de dos factores pudiera relacionarse tomando en consideración la tasa de evaporación del agua como variable de respuesta y considerando, digamos la temperatura y la intensidad del viento a diferentes niveles, pero poniendo las demás variables constantes. Por otro lado, en aplicaciones a los usos del agua para la agricultura, si un ingeniero agrónomo investiga el comportamiento de dos tipos de semillas, por
www.full-ebook.com
medio de variar el nivel del agua, digamos, a tres niveles, alto, mediano y bajo, un factor sería el tipo de semilla y el otro factor sería el nivel de agua. Este sería un ejemplo factorial con dos factores, el cual consistiría en usar seis tratamientos formados por medio de usar cada tipo de semilla con cada nivel de agua. Otro ejemplo, de ANOVA de dos factores está relacionado con la ingeniería ambiental del agua, es decir, con la medición de las concentraciones de contaminantes arrojados a una corriente de agua por una descarga industrial. Aquí, para un factor se pueden seleccionar diferentes niveles distancias de la descarga. Para las variables del otro factor se pueden seleccionar diferentes secciones de turbulencia a lo largo de la corriente, donde están situados los muestreadores (porque la velocidad y/o la turbulencia del agua afecta la degradación de contaminantes, ¿porque?), pero siempre se asuman constantes, las demás variables que pudieran afectar las concentraciones de los contaminantes. Lo mismo pudiera hacerse identificando los factores cualitativos que afectan el comportamiento del oxígeno disuelto en la corriente de agua. 8.7.1. Interacción (no aditividad) con experimentos de dos factores. El concepto de interacción en ANOVA factorial es de mucha importancia, porque descubre situaciones no esperadas por el investigador estadístico. En términos no eufónicos, la interacción es una acción recíproca o influencia mutua, que puede afectar los resultados. De esta manera, cuando se estudian experimentos factoriales es importante determinar, si los factores principales tienen una influencia en la respuesta media, además de analizar la interacción (no aditividad o dependencia entre las mediciones). Por ejemplo, la Figura 8.5 muestra una situación que involucra 4 niveles del factor A, 4 niveles del factor B y 4 niveles del factor C. En esta instancia, las líneas son paralelas, lo que indica que no hay interacción, o sea que hay independencia en las mediciones. Esto pudo ocurrir porque los niveles del factor A fueron constantes, previstos y/o controlados. Sin embargo, en la Figura 8.5a se ve qué, en ambas gráficas hay una respuesta media con interacción, es decir, que hay dependencia entre las mediciones de las 3 distribuciones, o sea que no hay un paralelismo como cuando no hay interacción. En términos simples, se dice que hay interacción entre dos factores (digamos A y B), si el cambio en uno de los factores (digamos factor B) produce un cambio en respuesta a un nivel (digamos nivel 1) del otro factor (digamos A) diferente de aquél producido en los otros niveles (digamos nivel 2) de este segundo factor A, donde un nivel es uno de los tratamientos dentro de un factor.
www.full-ebook.com
Figura 8.5. Gráfica con 3 factores de 4 niveles cada uno, indicando una respuesta media, sin interacción (aditividad o cuando hay independencia entre los datos de las distribuciones). Aquí, por esta razón, las líneas son paralelas.
Figura 8.5a. Gráficas indicando una respuesta media con interacción (no aditividad o cuando hay dependencia entre los datos de las distribuciones). Las líneas no son paralelas, sino que se cruzan unas con otras o se desvían entre si, lo
www.full-ebook.com
que indica que hay interacción. Cuando ocurre una interacción en un experimento estadístico se necesita investigar porque ocurrió así. Siendo así, cuando se estructura la tabla de análisis de varianza multifactorial, se analizan los comportamientos de los efectos principales y la posible interacción entre los factores bajo estudio. En términos estadísticos, si la F calculada es mayor que la F crítica eso indica que los factores están interactuando. No obstante, la interacción puede ocurrir casualmente, pero también puede ocurrir, causalmente, debido a algún valor extremo o a algún factor que no se pudo controlar. La interacción, también puede ocurrir debido a algún problema en los datos o a una respuesta errónea. De cualquier manera, cuando los datos obtenidos indican que existe una interacción grande, los efectos principales serán de poca utilidad. En estudios de corrientes usando el modelo de Streeter-Phelps, (ver Streeter, H. W. et al. 1925 y Tchobanoglous et al. 1984), este es un modelo matemático ampliamente usado en estudios de contaminación de corrientes de agua. Usando este modelo, es muy interesante analizar, si hay interacciones que puedan afectar las concentraciones de la demanda bioquímica de oxígeno o del oxígeno disuelto a lo largo de la corriente. Cuando se modelan las descargas de contaminantes en el agua, hay muchas variables que pueden afectar los resultados. Por ejemplo, pueden ocurrir cambios en las velocidades de la corriente (que causan turbulencia del agua y que hace que penetre el oxígeno del aire al agua), que no se previnieron, o tal vez descargas fugitivas o diferencias en los tipos de especies bentónicas (flora y fauna en el fondo de la corriente) que no se contemplaron. Además, puede haber cambios de temperatura del agua en diferentes secciones de la corriente, lluvias torrenciales, diferentes tipos de suelos en el lecho de la corriente, etc. Estas variables pueden contribuir a la interacción de los dos factores estudiados en ese tipo de ejemplos. Situaciones similares pueden ocurrir en estudios de agricultura. Por ejemplo, si el ingeniero agrónomo desea estudiar los rendimientos agrícolas usando dos factores, como el tipo de semilla y la cantidad de agua aplicada, tiene que analizar si hubo interacción entre los factores semilla-cantidad de agua. Si la hubo, esto pudo deberse a que, en las parcelas seleccionadas, para los cultivos experimentales, no había uniformidad de variables como humedad, tipos de suelos, cantidad de nutrientes, etc. Para remediar esta situación se tendría que
www.full-ebook.com
hacer un experimento por bloques aleatorizados, es decir, teniendo cuidado de que las parcelas agrícolas fueran todas uniformes en las variables anteriormente descritas. Comentarios adicionales sobre el fenómeno de interacción. La interacción en estudios de ANOVA multifactorial ocurre cuando no se cumple la aditividad, es decir, cuando hay dependencia entre las mediciones. Esto se ve en la tabla de ANOVA, cuando se rechazan las hipótesis nulas de no interacción. También, la interacción se descubre analizando las gráficas de interacción, porque bajo estas condiciones, las líneas no son paralelas, sino que se cruzan entre si o se desvían una de la otra. La hipótesis nula de no interacción suele probarse primero. Si ésta no se rechaza, entonces se procede a analizar los efectos principales. Sin embargo, cuando existe interacción significante, hay que investigar porque ocurrió así. La interacción significante encubre o menoscaba la significancia de los efectos principales. Cuando los efectos de interacción no son importantes, se investiga la presencia o ausencia de la magnitud de los efectos principales. Por ejemplo, en estudios de hidrología, en la relación de flujos de agua e intensidades de lluvia, si hubiese interacción, pudieron haber intervenido otros factores no previstos, como pendientes de las cuencas o de los principales canales, factores orográficos, tipos de suelos, climas distorsionados (por el calentamiento global) y así sucesivamente. Por otro lado, en estudios de modelado de corrientes de agua, para las mediciones del DBO, una interacción significante indica que hubo descargas fugitivas a lo largo de la trayectoria de la corriente o factores imprevistos que no se pudieron controlar. Igualmente, en estudios de contaminación atmosférica, una interacción significativa puede abanderar descargas fugitivas de emisiones industriales que no se contemplaron o de cambios meteorológicos abruptos que no se pudieron controlar. Por otro lado, si se rechazan la hipótesis de efectos principales, se concluye que el factor distancia afecta la magnitud de la variable de respuesta (disminución de las concentraciones de DBO y el aumento consecuente de recuperación del oxígeno disuelto del agua), como era de esperarse, de acuerdo a una lógica a posteriori (de experiencia) de estudios de contaminación corrientes. Todavía mejor, en estudios de usos del agua, digamos en el campo de la agricultura, es importante el estudio de la interacción, porque esto puede ayudar a conservar los recursos naturales, como el agua o a incrementar la producción agrícola, sin menoscabar su rendimiento. Por ejemplo, si existe interacción entre algún tipo de semilla y diferentes niveles de agua, y se observa que la producción agrícola es igual con niveles altos de agua, que con niveles bajos de agua pues, de acuerdo a un
www.full-ebook.com
razonamiento a posteriori, al seleccionar el nivel bajo de agua, esto ahorraría su uso. También es de saberse que, cuando la hipótesis de interacción no es rechazada, se puede emplear el método de Tukey para identificar diferencias importantes en los niveles de los factores. 8.7.2. Formato usado en la tabla de ANOVA de dos clasificaciones. La tabla de abajo muestra el formato que se usa para experimentos factoriales en dos sentidos o con dos clasificaciones. Tabla 8.10. Tabla de análisis de varianza en dos sentidos.
Donde:
www.full-ebook.com
Donde: MSa cuadrado medio del factor A MSb cuadrado medio del factor B MSab cuadrado medio de la interacción de A y B s2e cuadrado medio del error A = variación debido al primer factor B = variación debido al segundo factor AB = interacción entre el factor A y B (interacción que ocurre cuando no hay aditividad) xijk = suma de las observaciones en la (ij)-ésima celda i.. = media de las observaciones para el i-ésimo nivel del factor A … = media de todas las abn observaciones .j. = media de las observaciones para el j-ésimo nivel del factor B ij. = media de las observaciones en la (ij)-ésima celda xijk = k-ésima observación en el i-ésimo nivel del factor A y el nivel j-ésimo nivel del factor B a = número de muestras del primer factor b = número de muestras del segundo factor n = número total de casos Fcalc. y Ftab. Ya definidas anteriormente
www.full-ebook.com
8.7.3. Modelo de análisis de varianza de dos clasificaciones. El modelo de ANOVA de dos clasificaciones se da como: Yijk = μ + αi + βj + (αβ)ij + εijk
(8-8)
Donde: μ es la respuesta media total o sea el promedio de las respuestas medias de las poblaciones ab; αi es el efecto del i-ésimo nivel del primer factor, promediado sobre los niveles b del segundo factor; βj es el efecto del j-ésimo nivel del segundo factor; (αβ)ij es la interacción entre el i-ésimo nivel del primer factor y el j-ésimo nivel del segundo factor y, finalmente, εijk es el residuo o la desviación de los valores de Yijk de la respuesta media poblacional, para la ij-ésima población. Para i = 1, 2,… , a; j = 1, 2, …. , b; k = 1, 2, … , n. Donde es fácil verificar que:
8.7.4. Pruebas de hipótesis para el ANOVA de dos sentidos. Las tres pruebas de hipótesis que se hacen con el ANOVA de 2 clasificaciones son: 1. H’o: α1 = α2 = …= αa = 0, contra HA: no todas las αi = 0, i = 1, 2, … , a, o sea que, cuando menos una de las αi no es igual a cero. 2. H’’o: β1 = β2 = …. = βb = 0, contra H’’A: no todas las βj son iguales a 0, j = 1, 2, …, b, o sea que, cuando menos una de las βj no es igual a cero.
www.full-ebook.com
3. H’’’o:(αβ)11 = (αβ)12 = …. = (αβ)ab = 0, contra H’’’A: no todas la (αβ)ij = 0, i = 1, 2, …, a, j = 1, 2, .. , b. Ejemplo 8.5. Es bien sabido que, con las tecnologías del agua relacionadas en estudios de corrientes usadas para pulir las aguas residuales provenientes de plantas de tratamiento de aguas municipales, los factores que se toman en consideración son la distancia del punto de la descarga, la velocidad de la corriente causante de turbulencia, tiempo transcurrido después de la descarga, la temperatura del agua, tipos de fauna y flora del fondo de la corriente (zonas bénticas), época del año, descargas fugitivas, precipitaciones pluviales, etc. Siendo así, en un estudio piloto, para analizar los efectos de la distancia y velocidad en la degradación de la materia orgánica (DBO) de la descarga de aguas residuales, se instalaron, río abajo, tres estaciones muestreadoras, a tres diferentes distancias (3 niveles de A), a cuatro diferentes velocidades de la corriente de agua (4 niveles de B), con 2 observaciones obtenidas para cada una de las 12 combinaciones de distancia-velocidad. Para esto se dan los siguientes avances informativos: SSa = 7.00, SSb = 20.00, SSe = 7.0 y SSt = 45.00. Asumiendo un nivel de significancia de α = 0.05, resolver los siguientes enunciados: (a) Establecer lo hipótesis nula y la hipótesis alternativa. (b) Estructurar una tabla de análisis de varianza, que incluya la región crítica y el valor de p. (c) Analizar los efectos de interacción y los efectos principales y decir si son significativos. Solución: (a) Las hipótesis nulas y alternativas son: 1. La hipótesis nula, con respecto al factor distancia es: H’o:α1 = α2 = α3 = 0. Es decir, que no hay diferencias en las concentraciones promedio del DBO del drenaje, con respecto a las distancias, cuando se usan 3 distancias diferentes, en las cuales fueron situados los puntos de muestreo en donde se están midiendo las concentraciones del DBO. La hipótesis alternativa HA: no todas las concentraciones del DBO son iguales a cero.
www.full-ebook.com
2. La hipótesis nula con respecto al factor velocidad de la corriente es: H’’o: β1 = β2 = β3 = β4 = 0. Es decir, que no hay diferencias en las concentraciones del DBO, con respecto a las velocidades de la corriente de agua, cuando se usan cuatro diferentes velocidades, contra de la hipótesis alternativa, H’’A: no todas las concentraciones del DBO son iguales a cero. 3. La hipótesis nula es: H’’’o:(αβ)11 = (αβ)12 = (αβ)13 = (αβ)14 = 0, contra H’’’A: no todas las interacciones (αβ)ij son iguales a 0. (b) La estructuración de la tabla de análisis de varianza se da en la tabla de abajo Tabla 8.11. Tabla de ANOVA para el problema de los efectos de la distancia y velocidad de la corriente en las concentraciones del DBO en agua. Los valores en color azul se dieron por el problema. Los demás valores se calcularon usando el formato de ANOVA de dos clasificaciones.
(c) De acuerdo a los resultados de la tabla de ANOVA de arriba, con respecto a los efectos principales, se rechaza H’o: y se concluye que las concentraciones del DBO, por el efecto de la distancia son diferentes. Esta contención es apoyada por el valor de p = .022. Análogamente, H’’o: también se rechaza con un valor muy significativo de p << .001. En cuanto a los efectos de interacción, la interacción entre la distancia-velocidad, es decir, Fcalc. = 3.16 > Ftab. = 3.00 está en el umbral de la interacción, con un valor de p = .046. Esto indica que la
www.full-ebook.com
interacción debe de considerarse. Esto quiere decir que tienen que considerarse variables como el tipo de flora y fauna, cambios imprevistos en las condiciones de temperatura, precipitaciones pluviales, estaciones muestreadoras mal situadas, mal funcionamiento del equipo, técnicos de laboratorio o de campo mal entrenados, laboratorios deficientes, descargas fugitivas, inundaciones imprevistas y así sucesivamente. Ejemplo 8.6. Este es un ejemplo relacionado con las concentraciones atmosféricas de óxidos de nitrógeno (NO2) emitidos por una fuente industrial (cuyos estándares anuales son de 53 partes por billón (ppb) de acuerdo a la E. P. A de Estados Unidos) y en el cual se hace un estudio de ANOVA de dos clasificaciones. En este experimento se saca una muestra aleatoria, donde se involucran dos tipos de distancias de la fuente emisora (500 y 1000 metros), cada uno de estos factores usados en tres niveles de alturas (nivel del mar), es decir, a nivel del suelo, 100 metros y 200 metros. Validar el modelo objetivamente. La tabla de abajo muestra la información requerida para este problema. Asumir α = 0.05. Tabla 8.12. Concentraciones de óxidos nitrógeno emitidos por una fuente industrial, expresados en ppb.
Hacer lo siguiente: (a) Establecer las hipótesis nulas y las alternativas. (b) Estructurar la tabla de análisis de varianza de dos vías.
www.full-ebook.com
(c) Escribir el modelo apropiado y validar su utilidad a través de diagnósticos objetivistas, como el coeficiente de determinación R2 y el error estándar estimado. (d) Hacer gráficas de los efectos principales y de los efectos de interacción. (e) Sacar todas las conclusiones debidas. Solución: (a) Para las alturas de los muestreadores, la hipótesis nula es: H’o:α1 = α2 = α3 = 0, o sea que todas las concentraciones de NO2 son iguales. La hipótesis alternativa es: HA: no todas las concentraciones de NO2 son iguales. Para los tipos de distancia, la hipótesis nula es: H’’o: β1 = β2 = 0, es decir, que no hay diferencias en las concentraciones del NO2 usando las dos diferentes distancias. La hipótesis alternativa es: H’’A: no todas las concentraciones del NO2 son iguales. Para el efecto de interacción, la hipótesis nula es: H’’’o:(αβ)11 = (αβ)12 = (αβ)13 = 0, contra H’’’A: no todas las interacciones (αβ)ij son iguales a cero. (b) Para la estructuración de la tabla de ANOVA y para la validación del modelo, la secuencia de soluciones es como sigue: Usando el programa Minitab proceder como: 1. Introducir los datos en la hoja del Minitab como se ve en el diagrama de abajo. 2. Luego, irse a: Stat → ANOVA → Two Way 3. Antes de proseguir, sin embargo, tiene que estructurarse la matriz de los datos e introducirla a la hoja del Minitab como se muestra abajo.
www.full-ebook.com
Figura 8.6. Diagrama esquemático impreso mostrando las entradas de los valores a la hoja del Minitab. Los resultados de este problema usando el Minitab se muestran a continuación. Tabla 8.12a. Tabla de análisis de varianza mostrando los valores impresos para el experimento de difusión atmosférica de los óxidos de nitrógeno calculados usando dos distancias (500 y 1000 metros de la fuente emisora) y tres diferentes alturas (0, 100 y 200 metros sobre el nivel del mar).
www.full-ebook.com
(c) El modelo poblacional es: Yijk = μ + αi + βj + (αβ)ij + εijk. En cuanto a la validación del modelo seleccionado, la utilidad del modelo aceptable, puesto que el valor de R2 = 79.02% es relativamente alto y el valor del error estándar estimado = 0.4623 es relativamente bajo. (d) Para hacer las gráficas de los efectos de interacción y de los efectos principales, usando el Minitab proceder como: Stat → ANOVA → Interaction Plot o Main effects Plot. Estas instrucciones producen las figuras de abajo.
Figura 8.6a. Gráfica de interacción.
www.full-ebook.com
Figura 8.6b. Gráfica de efectos principales. (e) Conclusiones: 1. Hay mucha significancia en los efectos principales (alturas de los muestreadores), debido a que el valor de la estadística Fcalc. = 26.97 es mucho mayor que Ftab. = 3.55 (que se calculó de la tabla de la distribución F), lo que hace que se rechace la hipótesis de que no hay diferencias entre los niveles de las alturas, es decir Ho: μ1 = μ2 = μ3 y de inclinarse por la hipótesis alternativa de H1:μ1 ≠ μ2 ≠ μ3 . Esta decisión es apoyada por un valor de p muy significativo. Esto se observa en la Figura 8.6b. Sin embargo, la prueba de hipótesis para los efectos principales de las distancias es también significativa. Esto, nuevamente, se observa en la Figura 8.6b. 2. En cuanto a la interacción entre alturas de muestreadores y distancias, no hay una interacción significativa puesto que el valor de Fcalc. = 1.41 es menor que la Ftab. = 3.55. Esto se observa en la Figura 8.6a. 8.8. Análisis multifactorial de ANOVA de tres sentidos: diseño
www.full-ebook.com
completamente aleatorizado (Efectos fijos). Con relación al análisis de varianza de clasificaciones cruzadas o diseños factoriales, hay experimentos de ANOVA que involucran más de dos factores, lo cual nos lleva a análisis de varianza de clasificaciones de tres sentidos. Aquí, es necesario decir que, en el caso de modelos de ANOVA factoriales de tres clasificaciones pueden ser los tres fijos, los tres aleatorios, uno aleatorizado y dos fijos, o dos aleatorizados y el otro fijo. Aquí, se verán, únicamente, experimentos con tres factores fijos A, B y C, en los niveles a, b y c, respectivamente en diseños experimentales completamente aleatorizados y efectos fijos. Los números de los niveles de los tres factores están representados por I, J y K, respectivamente, y Lijk es igual al número de observaciones hechas con el factor A al nivel I, factor B al nivel J y factor C al nivel K. No obstante, es necesario afirmar que el análisis factorial es muy complicado cuando los valores de Lijk no son todos iguales, por lo tanto, este estudio se limitará a Lijk = L. 8.8.1. Aplicaciones de análisis de varianza de 3 clasificaciones, sentidos o de 3 factores. En ejemplos anteriores de ANOVA de dos clasificaciones, teníamos dos factores con diferentes niveles, pero si este experimento se hiciera con un análisis de varianza de tres sentidos, se le pudiera agregar otro factor más, con diferentes niveles. Por ejemplo, con la ingeniería ambiental relacionada con la difusión atmosférica de contaminantes provenientes de una industria, los factores o variables que se tienen que incluir en el modelado, son las características físicas de la fuente emisora (altura, diámetro de la chimenea, etc.). También, otros factores son la distancia de la fuente emisora, condiciones meteorológicas, como la intensidad y dirección del viento, inversiones térmicas, condiciones del terreno, por donde pasa la pluma, tiempo del día cuando se hace el modelado, estación (verano o invierno), tipos de estabilidades atmosféricas (A, B, C, D, E), y así sucesivamente. También, con el ANOVA de 3 sentidos pudiéramos aplicarlo a problemas de hidrología relacionados con los factores que intervienen en el estudio de escorrentías en cuencas hidrológicas. Por ejemplo, los factores que se pudieran estudiar serían la pendiente, la orografía, la temperatura, permeabilidad del terreno, longitud y área de la cuenca, tipo de suelos, precipitaciones, etc. Análogamente, esto se puede hacer con las tecnologías del agua, como en el caso del diseño de lagunas de estabilización. Aquí se tiene que hacer la identificación de las variables que intervienen la construcción de estas plantas de tratamiento de aguas residuales. Para mencionar algunas, son el diseño de los diques, el tiempo de retención, el flujo de entrada y salida, la temperatura del agua y del aire, la profundidad de la laguna, radiación solar, radiación UV, datos
www.full-ebook.com
meteorológicos como lluvia, aire, y evaporación del agua, etc. Estos factores serían algunas de las variables que pudieran intervenir en el análisis de varianza multifactorial para estos tipos de tecnologías del agua. Las clasificaciones cruzadas con tres factores, se diseñaron, tradicionalmente, para experimentos agrícolas, pero como se menciona arriba, también tienen muchas aplicaciones en otras áreas como en las tecnologías del agua y la hidrología. 8.8.2. Modelo poblacional de ANOVA de tres factores. El modelo poblacional de ANOVA de tres clasificaciones se da como: yijkl = μ + αi + βj + γk + (αβ)ij + (αγ)ik + (βγ)jk + (αβγ)ijk + εijkl (8-9) Donde: μ es la longitud total de la media; αi es el efecto promedio del i-ésimo nivel del factor A o promedio de las medias poblacionales para los tratamientos bc, que involucran el nivel i del factor A menos μ; βj es el efecto promedio del j-ésimo nivel del factor B (el efecto principal del factor A); γk es el efecto promedio del k-ésimo nivel del factor C (el efecto principal del factor C); (αβ)ij es la interacción del i-ésimo nivel del factor A, con el j-ésimo nivel del factor B (el efecto de interacción de los factores A y B); (αγ)ik es la interacción del i-ésimo nivel del factor A con el k-ésimo nivel del factor C (el efecto de interacción de los factores A y C); (βγ)jk es la interacción del j-ésimo nivel del factor B, con el késimo nivel del factor C (el efecto de interacción de los factores B y C); (αβγ)ijk es el efecto de interacción entre el i-ésimo nivel del factor A, el j-ésimo nivel del factor B y el k-ésimo nivel del factor C; εijkl es el error o residual, es decir, la desviación de Yijkl de la respuesta media poblacional para la ijk-ésima población. Para i = 1, 2, 3, … , a; j = 1, 2, 3, … , b; k = 1, 2, 3, … , c y l = 1, 2, 3,… , n
www.full-ebook.com
La tabla de abajo muestra el formato usado para experimentos factoriales de tres factores fijos. Tabla 8.13. Tabla de ANOVA de tres vías para modelo de efectos fijos.
*Nota: para calcular el valor de p, esto se hace buscando el valor de Fcalc. en la tabla de la distribución F, con sus respectivos grados de libertad ν1 del numerador y ν2 del denominador y, por interpolación o usando la función de interpolación empírica (8-3) dada en este capítulo, se calcula su valor.
Donde:
www.full-ebook.com
MSa= SSa/(a-1). Media cuadrática del tratamiento a.
www.full-ebook.com
MSb = SSb/(b-1). Media cuadrática del tratamiento b. MSc = SSc/(c-1). Media cuadrática del tratamiento c. MSab = SSab/(a-1)(b-1). Media cuadrática de la interacción de a y b. MSac = SSac/(a-1)(c-1). Media cuadrática de la interacción de a y c. MSbc = SSbc/(b-1)(c-1). Media cuadrática de la interacción de b y c. MSabc = SSabc/[(a-1)(b-1)(c-1)]. Media cuadratica de la interacción entre a, b y c. s2e = SSe/[abc(n-1)] . Media cuadrática del error. La simbología usada en las fórmulas anteriores se define de la siguiente manera: i… = media de las observaciones, para el i-ésimo nivel del factor A .... = media de todas las abcn observaciones .j.. = media de las observaciones, para el j-ésimo nivel del tratamiento B ..k. = media de las observaciones, para el k-ésimo nivel del tratamiento C ij.. = media de los casos para el i-ésimo nivel del factor A y el j-ésimo nivel del
factor B xijkl = denota la l-ésima observación de la combinación del ijk-ésimo tratamiento 8.8.3. Pruebas de hipótesis para ANOVA de 3 factores. Para hacer las pruebas de hipótesis de F, éstas son 7 pruebas de hipótesis nulas y sus correspondientes hipótesis alternativas, es decir, tres para los efectos principales A, B y C y cuatro para las interacciones, AB, AC, CB y ABC. Estas pruebas se describen como: 1. Hipótesis nula e hipótesis alternativa para el efecto principal de A. Ho:α1 + α2 + … + αa, contra HA:no todas las αi son iguales a cero. 2. Hipótesis nula e hipótesis alternativa para el efecto principal de B. Ho:β1 + β2 + … + βb, contra HA:no todas las βi son iguales a cero. 3. Hipótesis nula e hipótesis alternativa para el efecto principal de C. Ho:γ1 + γ2 + … + γc, contra HA:no todas las γi son iguales a cero.
www.full-ebook.com
4. Hipótesis nula e hipótesis alternativa para la interacción de dos factores A, B. Ho:(αβ)ij = 0, i = 1, 2, …, a, j = 1, 2, .., b, contra HA:no todas las (αβ)ij son iguales a cero. 5. Hipótesis nula e hipótesis alternativa para la interacción de dos factores A, C. Ho:(αγ)ik = 0, i = 1, 2, …, a, k = 1, 2, .., c, contra HA:no todas las (αγ)ik son iguales a cero. 6. Hipótesis nula e hipótesis alternativa para la interacción de dos factores B,C. Ho:(βγ)jk = 0, j = 1, 2, …, b, k = 1, 2, .., c, contra HA:no todas las (βγ)jk son iguales a cero. 7. Hipótesis nula e hipótesis alternativa para la interacción de tres factores A, B,C. Ho:(αβγ)ijk = 0, i = 1, 2, …, a, j = 1, 2, …, b, k = 1, 2, .., c, contra HA:no todas las (αβγ)ijk son iguales a cero. 8.8.4. Interacción de ANOVA con diseños factoriales de tres clasificaciones. Análogamente, como se hizo con el ANOVA de dos clasificaciones, en el problema de interacción, nuevamente, en el caso de análisis de varianza multifactorial es necesario discutir el efecto de interacción, porque la interacción puede afectar la interpretación que se hace con respecto a los efectos principales. Además, la presencia de interacción puede descubrir situaciones importantes que pueden ayudar a modificar el diseño experimental original, para hacerlo más representativo. Como se dijo anteriormente, las interacciones usualmente ocurren cuando los efectos principales son muy grandes, pero pueden desaparecer cuando el diseño experimental estadístico aminora las diferencias entre los niveles de un tratamiento, haciendo, con esto, que los efectos principales sean menos pronunciados. Con la ingeniería ambiental de usos del agua, es decir, en estudios de corrientes se puede hacer esto, para evaluar la utilidad de los modelos usados en estudios de contaminación de corrientes o para hacer estudios de impacto ambiental. Por ejemplo, una aplicación de esto sería para medir el oxígeno disuelto, el DBO o los contaminantes que ocurren a lo largo de la corriente de agua. Con relación al problema anterior de estudios de corrientes, que involucra la distancia y la
www.full-ebook.com
velocidad, se puede agregar otro factor más, a ese explicado anteriormente. En este caso, además de los factores distancia y velocidad, le podemos agregar un tercer factor relacionado con diferentes tipos de análisis de las muestras de agua. En cuanto el efecto de interacción, en estudios de impacto ambiental usando modelos de estudios de corrientes, la interacción de los factores, bajo estudio, puede descubrir situaciones que puedan afectar el estudio. Aunque si bien, los modelos de estudios de corrientes, v.g., el modelo de Streeter-Phelps, que asumen condiciones uniformes, no obstante, descargas fugitivas o las diferencias en los tipos de suelos como arenosos, arcillos, pedregosos, tipo de vegetación, temperatura del agua, etc., por donde pasa la corriente, pueden ocasionar que los factores bajo estudio, interactúen. Situaciones similares pueden ocurrir con diseños factoriales aplicados a la agricultura cuando se aplican dos factores como tipos de semilla y niveles de fertilizantes. Aquí se le puede agregar otro factor más, digamos, el nivel de agua para hacer un diseño factorial, es decir, con tres factores. Sin embargo, si hay interacción, tal vez los tipos de suelos de las parcelas no tienen las mismas características, es decir, de humedad, de tipos de suelos, tipos de temperaturas, tipos de nutrientes, etc., en cuyo caso hay que remitirnos a los diseños de bloques completamente aleatorizados. Ejemplo 8.7. Este es un estudio piloto de tecnología del agua, usando ANOVA de tres sentidos, donde se aplican algunas de las variables que caracterizan el diseño de una laguna de estabilización. Es decir, donde se estudian los efectos de la radiación solar (factor A), la temperatura (Factor B) y el periodo de retención (factor C). Se usa un análisis de varianza de tres sentidos, con tamaños de muestras de 3 observaciones (3 réplicas), para cada una de las combinaciones de niveles de los tres factores A, B y C. Para esto se da una avanzada de los valores en la siguiente forma: Suma de los cuadrados del factor A es SSa = 1.50 (4 niveles de radiación solar), suma de los cuadrados del factor B es SSb = 19.40 (con 2 niveles de temperaturas), suma de los cuadrados del factor C es SSc = 147.00 (con 4 diferentes periodos de retención), suma de los cuadrados de la interacción de factores A y B es de SSab = 0.006, suma de los cuadrados de la interacción de factores A y C es de SSac = 4.83, suma de los cuadrados de la interacción de B y C es de SSbc = 2.64, suma de los cuadrados de la interacción de los factores A, B y C es de SSabc = 0.75, suma total de los cuadrados de SSt = 183.72. Asumir un nivel de significancia de 0.05. Probar las hipótesis de los efectos principales, solamente, si todas las interacciones no son significativas.
www.full-ebook.com
Hacer lo siguiente: (a) Asignar los simbolismos apropiados para cada uno de los componentes de la fuente de variación. Identificar el número de combinaciones y de observaciones. (b) Construir una tabla de análisis de varianza de 3 vías que incluya la F crítica y el valor de p. (c) Hacer pruebas de significancia sobre los efectos principales (d) Hacer una prueba de significancia sobre todas las interacciones y sacar las conclusiones debidas. (e) Aseverar el modelo poblacional usado. El lector deberá contestar esta pregunta. Solución: (a) Con el primer factor A hay 4 niveles de radiación solar, esto es, i = 4. Con el segundo factor, B hay 2 niveles de temperaturas, esto es, j = 2, con el otro factor C hay 4 niveles de periodos de retención, esto es, k = 4. El número de casos es n = 3. Por lo tanto, el número de combinaciones es 4x2x4 = 32 y el número total de observaciones es 32x3 = 96. (b) La tabla de análisis de varianza de tres clasificaciones se da abajo siguiendo el formato de la ANOVA de tres clasificaciones. Tabla 8.14. Tabla mostrando los datos dados y el llenado de los faltantes en la tabla (color azul), de acuerdo a los datos proporcionados por el problema de la laguna de oxidación.
www.full-ebook.com
Tabla de ANOVA mostrando los datos dados en color azul. Nótese que el valor del error SSe no se dio, pero se puede calcular fácilmente por diferimiento de los demás valores de la suma de cuadrados (SS). Igualmente, los grados de libertad no se dan directamente, pero se pueden deducir por los niveles dados de cada factor. Para calcular el resto del llenado de la tabla hay que seguir el formato de la tabla de ANOVA de tres clasificaciones. El valor de p se puede calcular con la función empírica de interpolación, en forma análoga a como se hizo con el ANOVA de dos sentidos. (c) El efecto principal del factor A es significativo. Los efectos principales de los factores B (temperatura) y C (periodos de retención) son mucho, muy significantes sustentados con valores de p muy pequeños (p << .001). Al juzgar por estos valores de p, existen efectos principales muy fuertes de los factores B y C. Por otro lado, debido a que F7 = MSabc /s27 = 0.67 < F7[0.05;9,64] = 1.97, las interacciones entre los factores A (radiación solar), B no son de importancia. Sin embargo, las interacciones AC y BC son variables importantes del experimento. Además, la interacción de los 3 factores A, B y C, no son de mucha importancia. Ejemplo 8.8. Este es un ejemplo de ANOVA de 3 clasificaciones de efectos fijos tomado del texto de Quevedo, et al. (2008) con el uso del Minitab. De acuerdo a
www.full-ebook.com
estos autores, este ejemplo está encaminado a ilustrar, cómo se estructura una matriz con los datos que se introducen en el programa Minitab, para construir una tabla de ANOVA de tres clasificaciones y sus gráficas de efectos principales y de efectos de interacción y de diagnósticos gráficos para la validación del modelo. Siendo así, asumir un nivel de significancia de α = 0.05. Para esto, hacer lo siguiente usando el programa Minitab (versión 15): (1) Siguiendo las instrucciones dadas por el programa Minitab explicadas abajo, se crear una matriz con los datos del problema. Una vez hecho esto, se introducen manualmente los datos del problema y, nuevamente, se estructura la tabla de análisis de varianza de tres clasificaciones. (2) Enseguida siguiendo las instrucciones se generan gráficas de residuales para la evaluación del modelo de ANOVA. (3) Luego, siguiendo las instrucciones del paquete Minitab, hacer gráficas para analizar los efectos principales y las interacciones que pudieran suscitarse. (4) Sacar todas las conclusiones debidas y analizar los resultados de los criterios estadísticos para la evaluación del modelo. Los datos se dan en la tabla de abajo. Tabla 8.15. Tabla mostrando la información para este ejercicio.
www.full-ebook.com
Fuente: Quevedo, H., Pérez, B. R. Estadística para Ingeniería y Ciencias. Grupo Patria. (2008).
Solución: Aquí, el factor A tiene tres niveles (i = 1,…, a = 3); el factor B tiene dos niveles (j = 1,…, b = 2) y el factor C tiene dos niveles (k = 1,…, c = 2) o sea 3x2x2 = 12 combinaciones de tratamientos. Además hay l = 1,…, n = 4 observaciones en cada uno de las abc combinaciones de tratamientos (celdas) o sea abcn = 3x2x2x4 = 48 observaciones. Procedimiento para construir una tabla de ANOVA de tres factores o en tres sentidos para los datos de este problema señalados en la Tabla 8.15 de arriba. 1. Irse a: Stat → DOE → Factorial → Create Factorial Design 2. En la ventana “Create Factorial Design” puntear “General Full Factorial Design” señalado en el encabezado de “Type of Design”. En la ventanilla de “Number of Factors” puntear el diseño factorial deseado (3 factores, en este
www.full-ebook.com
caso). 3. Dentro de la misma ventana de “Create Factorial Design” puntear “Designs” y aparece la ventana “Create Factorial Design-Designs” con lo que aparece la ventana de “Create Factorial Design-Designs”. Ahí poner el número de niveles de cada factor A, B, C (en este caso, 3 niveles para el factor A y dos niveles para los factores B y C, respectivamente. Además, en la ventanilla de “Number of replicates” poner el número de réplicas (4 en este caso) y luego teclear “OK”. 4. Todo lo anterior lleva nuevamente a la ventana “Create Factorial Design”. De ahí irse a la ventanilla de “Results” y ahí aparece la ventana “Create Factorial Design-Results”. Ahí, puntear “Summary Table and Design Table” y teclear “OK” y “OK”. Esto crea la matriz de datos (con 7 columnas de las cuales las primeras 4 no se usan). 5. Ahora se procede a introducir manualmente los valores de Y para los factores A, B y C con sus respectivos niveles. (En este caso 3 niveles para el factor A, y 2 niveles para los factores B y C, respectivamente). Esta situación se ve en la Figura 8.7 de abajo. 6. Una vez hecho lo anterior, irse a: Stat → DOE → Factorial → Analyze Factorial Design y luego puntear “OK”. Con esto, aparece la ventana “Analyze Factorial Design” y poner C8 (los valores de Y) en la ventanilla de “Response” y “OK”. Esto genera la tabla de ANOVA de 3 sentidos dados en la figura de abajo.
www.full-ebook.com
Figura 8.7. Esquema impreso mostrando los valores de los factores A, B y C (columns C5, C6 y C7) siguiendo las instrucciones hasta el inciso 4. Este diagrama muestra la columna C8 con los valores de respuesta introducidos manualmente siguiendo las instrucciones del inciso 5. Aquí, nótese que las primeras cuatro columnas no se usan. Figura 8.7a. Figura esquemática mostrando los resultados impresos de ANOVA
www.full-ebook.com
de 3 sentidos usando el Minitab. Aquí se incluye la validación del modelo usando los diagnósticos R2 y s.
Nota: Aquí se observa que los resultados dados por el Minitab incluyen también los diagnósticos s, R-Sq y R-Sq(adj), que se usan para evaluar la utilidad del modelo de ANOVA. En este renglón, para que el modelo sea bueno, entre más pequeño sea el valor de s y más se aproxime el valor de R-Sq a 100% (además de otros más criterios como PRESS, etc.), tanto mejor será la calidad del modelo seleccionado. Estos criterios, sin embargo, se estudiaran muy detalladamente en el capítulo de regresión.
7. Optativamente, si se desea generar diagnósticos gráficos de residuales hacer lo siguiente:
www.full-ebook.com
(1) Irse a: Stat → DOE → Factorial → Analyze Factorial Design → Graphs → Standardize → Four in one → OK. (2) En la ventana de “Analyze Factorial Design” irse a la ventanilla de “Graphs”. (3) En la ventana de “Analyze Factorial Design-Graphs” puntear (si se desea) “Standardize y Four in One” y luego presionar las teclas de “OK” y “OK”. Todas estas indicaciones general las gráficas de los residuales para evaluar la utilidad del modelo de ANOVA como se muestra en la Figura 8.7b de abajo.
Figura 8.7b. Figuras mostrando los diagnósticos gráficos (gráficas de residuales) para la evaluación del modelo de ANOVA de tres sentidos. Con respecto a la Figura 8.7b de los diagnósticos gráficos de residuales, se observa que, en la gráfica de probabilidad normal, la mayoría de los puntos siguen a una línea recta, lo que sugiere que los datos siguen a una distribución normal. En la gráfica superior derecha, existe aleatoriedad en los puntos y existen aproximadamente, el mismo número positivo y negativo de residuales
www.full-ebook.com
estandarizados, lo que sugiere que no se está violando la condición de homoscedasticidad. Es decir, que la varianza de ε(σ2ε) es un valor fijo se satisface (esto se verá detalladamente en el capítulo de regresión). Igualmente, la gráfica inferior izquierda del histograma de residuales los residuales están normalmente aproximados. Finalmente, la gráfica inferior derecha de los ordenes vs. residuales estandarizados hay aleatoriedad y existen, aproximadamente, la misma cantidad de residuales estandarizados positivos y negativos. Nuevamente, esto sugiere que el modelo de ANOVA es apropiado. 8. Para hacer las gráficas de los efectos principales hacer lo siguiente: Irse a: Stat → ANOVA → Main Effects Plots. Esto lleva a la ventana de “Main Effects Plots. Luego la ventana de Main Effects Plots, llenar las ventanillas de “Responses” y “Factors” acordemente. Esto genera la gráfica de los efectos principales como se ve en la figra de abajo.
Figura 8.7c. Gráfica mostrando los efectos principales de los factores A, B y C. 9. Para generar las gráficas de los efectos de interacción, irse, nuevamente, a la ventana de “Factorial Plots-Interaction” y ahí puntear “Options”, lo que lleva a
www.full-ebook.com
la ventana de “Factorial Plots-Interaction”, ahí puntear “Draw full interaction matrix” y poner el título de la gráfica y luego puntear “OK”, “OK”. Esto genera la gráfica de los efectos de interacción. Estas gráficas se observan en la Figura 8.7d.
Figura 8.7d. Gráfica mostrando las interacciones de los factores A, B y C. Conclusiones: De acuerdo a los resultados de la Figura 8.7c, los efectos principales de los factores A, B y C son significantes sustentados con valores de p muy pequeños. Al juzgar por estos valores de p existen efectos principales muy fuertes entre los factores A, B y C. Las interacciones entre los factores A, B, y C se observan en la Figura 8.7d. Como se ve ahí, las interacciones entre los factores AB, son muy significantes. Igualmente, son de importancia, las interacciones entre los factores AC y BC. También, las interacciones entre los tres factores ABC son mucho muy significantes, las cuales son variables importantes del experimento. En cuanto a la evaluación del modelo de ANOVA de tres direcciones, es decir, con los diagnósticos objetivistas del coeficiente de determinación R2 = 94.42% y del valor de s = 1.09, esto indica que el modelo de ANOVA es bueno. Semejantemente, los gráficos de residuales (Figura 8.7b), sugieren un buen ajuste del modelo de ANOVA. Esto es sustentado por el hecho de que en la gráfica de probabilidad la mayoría de los puntos siguen a una línea
www.full-ebook.com
recta. Además en la gráfica de los residuales estandarizados vs. valores ajustados el esparcimiento de los puntos siguen a un patrón aleatorio y así sucesivamente. Ejemplo 8.9. Este es una aplicación a plantas de tratamiento de aguas residuales usando el modelo de ANOVA de cuatro clasificaciones para medir la eficiencia de cuatro lagunas de estabilización. Por ejemplo, el factor A se refiere a la carga de la demanda bioquímica de oxígeno de 5 días (DBO5), el factor B se refiere al tiempo de retención en las lagunas con las aguas residuales que se están tratando, el factor C está relacionado con la temperatura ambiental y el factor D está relacionado con intensidad de radiación solar. Dos observaciones fueron hechas para cada uno de los cuatro factores bajo consideración. Para el factor A (concentración de DBO), se usaron 3 niveles, es decir 3 tipos diferentes de cargas de DBO. Para el factor B (tiempo de retención) se usaron 2 niveles, es decir, 2 diferentes tiempos de retención. Igualmente, para el factor C se usaron 3 niveles, esto es, 3 diferentes temperaturas. Finalmente, para el factor D (radiación solar) se usaron 2 niveles, es decir, 2 tipos diferentes de radiación solar. Toda esta información resultó en las siguientes estadísticas: SSa = 449.0, SSb = 12.70, SSc = 106.00, SSd = 8.00, SSab = 11.00, SSac = 11.60, SSad = 8.10, SSbc = 8.40, SSbd = 8.01, SScd = 8.50, SSabc = 8.07, SSabd = 8.50, SSacd = 8.30, SSbcd = 8.02, SSabcd = 8.13, SStotal = 691.12. Asumiendo efectos fijos para todos los factores y un valor de signicancia de α = 0.05, con toda la información anterior dada, desarrollar los siguientes enunciados: (a) Hacer una tabla de ANOVA de 4 clasificaciones que incluya, aparte del valor de F, las regiones críticas y los valores de la probabilidad p. (b) Sacar y resumir todas las conclusiones debidas. Solución: (a) Sustituyendo la información dada por el problema, se estructura la tabla de ANOVA de 4 clasificaciones de efectos fijos dada abajo. Tabla 8.16. Resumen de la tabla de ANOVA de 4 clasificaciones para este problema.
www.full-ebook.com
Nótese que el valor del error (en color azul) no se dio en la información original, pero se puede calcular fácilmente por diferimiento entre el total y la suma de los cuadrados hasta ABCD. Conclusiones: Los efectos principales de A y B son muy significantes. Los efectos de interacción son significantes especialmente en tiempo de retención (B) y de radiación solar (D). Ejemplo 8.10. Este ejemplo esta encaminado a mostrar el uso del Minitab para construir una tabla de ANOVA. Para esto se da la siguiente información.
www.full-ebook.com
Tabla 8.17. Tabla mostrando la información para este ejercicio.
Hacer lo siguiente: (a) Establecer el modelo de ANOVA para estos datos. (b) Gráficas de los efectos principales y de los efectos de interacción. (c) Interpretar los resultados obtenidos del inciso (a) y el inciso (b) Solución: Procedimiento para construir una tabla de ANOVA de 4 clasificaciones (4 factores). Para esto primeramente, se construye la matriz de datos. Usando el Minitab seguir la secuencia de abajo: 1. Stat → DOE → Factorial → Create Factorial Design. 2. Luego en la ventana de “Create Factorial Design” puntear “General Full Factorial Design. Enseguida, en la ventanilla de “Number of Factors” poner el
www.full-ebook.com
número de factores usados (4 en este caso) 3. Más adelante, irse a “Designs” y aparece la ventana “Create Factorial DesignDesign”. Luego en esa misma ventana de “Create Factorial Designs-Designs” poner el número de niveles de cada factor (2 en este caso). Enseguida, en la ventanilla de “Number of Replicates” poner el número de réplicas (2 en este caso) y “OK”. 4. Todo lo anterior lleva a la ventana de “Create Factorial Design”. De ahí irse a la ventanilla de “Results” y en la ventana de “Create Factorial Design-Results” que aparece puntear “Summary Table and Design Table” y finalmente presionar “OK” “OK”. 5. Todo lo anterior crea la matriz de datos que incluye 7 columnas, de las cuales no se usan las primeras cuatro. Esto se ve en la Figura de abajo. 6. Ahora, se procede a meter manualmente los valores de la variable de respuesta Y (de la Tabla 8.20) de acuerdo a su posición. Esto se ve en la figura 8.10ª. 7. Una vez hecho lo anterior, para construir la tabla de ANOVA de 4 factores irse a: Stat → DOE → Factorial → Analyze Factorial Design y luego puntear “OK”. Esto genera la tabla de ANOVA mostrada en la Figura 8.8b.
www.full-ebook.com
Figura 8.8. Hoja impresa del Minitab mostrando la estructuración de la matriz de datos.
www.full-ebook.com
Figura 8.8ª. Hoja impresa del Minitab mostrando las entradas de la variable de respuesta Y, de acuerdo a la posición que tienen cada valor de Y con respecto a la Figura 8.10. (a) La estructuración impresa del modelo de ANOVA se ve en la Figura de abajo.
www.full-ebook.com
Figura 8.8b. Valores impresos de la tabla de ANOVA de 4 factores para este problema. La evaluación de gráficos de residuales se da en la figura de abajo.
www.full-ebook.com
Figura 8.8c. Gráfica de residuos para la evaluación de la calidad del modelo de ANOVA. (c) Para hacer las gráficas de los efectos principales y de los efectos de interacción con el Minitab, proceder de la misma manera, como se hizo en el Ejemplo 8.8 del ANOVA de 3 factores. Esto genera la gráfica de los efectos principales como se ve en la Figura 8.8d.
www.full-ebook.com
Figura 8.8d. Gráfica de efectos principales. Aquí se ve que el efecto principal del factor C es muy significante pero el menos significante es B. 3. Para generar las gráficas de los efectos de interacción, irse, nuevamente, a la ventana de “Factorial Plots-Interaction” y ahí puntear “Options”, lo que lleva a la ventana de “Factorial Plots-Interaction”, ahí puntear “Draw full interaction matrix” y poner el título de la gráfica y luego presionar “OK”, “OK”. Esto genera la gráfica de los efectos de interacción. Estas gráficas se observan en la Figura 8.8e.
www.full-ebook.com
Figura 8.8e. Gráfica de efectos de interacción. Conclusiones: Los efectos principales son muy significantes, excepto en el factor B. En cuanto los efectos de interacción, hay interacción mucho muy significante en los factores AC, AD, CD y ACD. También, la interacción entre los factores BD, ABC y BCD es muy significante, pero no tan acentuada con los factores ABCD. Sin embargo, la interacción entre los factores AB no es significante. Por otra parte, en el tópico de análisis de varianza, también existe lo que se llama diseños factoriales con todos los factores a dos niveles. Aquí se incluyen tópicos como combinaciones ortogonales lineales, diseños de replicaciones fraccionales, diseños anidados o jerárquicos, cuadrados latinos, etc. Estas funciones, sin embargo, no se discutirán aquí. El análisis de varianza, también se puede aplicar a problemas de regresión lineal y múltiple para evaluar la significancia total de la ecuación de regresión, es decir, probando la hipótesis nula de que todos los coeficientes poblacionales del modelo de regresión son iguales a cero. Este tema, sin embargo, se discutirá más ampliamente, en el capítulo dedicado a regresión lineal simple y múltiple.
www.full-ebook.com
Ejercicios 8.1. Con relación al tratamiento de aguas residuales, los siguientes datos se obtuvieron de un muestreo aleatorio de sulfatos (SO-24) en la salida de las aguas tratadas de 4 lagunas de estabilización, con ventiladores sumergidos, que estaban degradando desechos de fábricas de papel. Calcular lo siguiente: (a) Hacer un análisis de varianza con un nivel de significancia de α = 0.05 y/o llenar los faltantes de la tabla de abajo. (b) Ver si hay diferencias entre las concentraciones de sulfatos de las 4 pilas de oxidación. ¿Es significante el valor de p? (c) Usando el método de comparaciones múltiples calcular manualmente las diferencias de las medias. Luego usar el método de Tukey dado por el Minitab, comparar los resultados y decir cuales medias de sulfatos son diferentes y cuales son iguales. Tabla mostrando los datos de las concentraciones de sulfatos (mg/L).
Llenar los faltantes de la tabla de ANOVA de abajo.
www.full-ebook.com
8.2. En estudios de usos del agua, los nitratos (NO-3) representan la fase más oxidada en el ciclo del nitrógeno. Generalmente, esto ocurre en muy pequeñas cantidades en las superficies de los almacenamientos de agua, pero puede existir en grandes cantidades en algunas aguas subterráneas contaminadas. En cantidades excesivas, los nitratos pueden ocasionar enfermedades en los niños. Por esta razón, el límite establecido por la (Agencia de Protección Ambiental) Environmental Protection Agency de los Estados Unidos para los NO-3 es de 45 mg/L para el agua potable. Para los análisis de los nitratos, existen varios métodos. Para este estudio se aplicará el método del ácido fenoldisulfónico, el método de la reducción de cio, el método de ácido cromotrópico, y el método de brucina o de alcaloide tóxico (Standard Methods for the Examination of Water and Wastewater). La intención de este ejemplo es el de comparar los resultados de los cuatro métodos para analizar las concentraciones de los nitratos. Para esto, llamemos tratamiento (1) al método del ácido fenoldisulfónico, tratamiento (2) al método de la reducción del cio, tratamiento (3) al método de ácido cromotrópico, y tratamiento (4) al método de brucina. La tabla de abajo da los resultados en mg/L. Asumir un nivel de significancia de 0.05. Hacer los siguientes cálculos: (a) Enlistar las suposiciones implicadas por el modelo de ANOVA. (b) Hacer una tabla de análisis de varianza y probar que no hay diferencias entre los análisis de los 4 métodos. (c) Calcular el valor de la probabilidad p y sacar las conclusiones apropiadas. Tabla con los datos de las concentraciones de nitratos.
www.full-ebook.com
8.3. Con relación a un estudio de precipitaciones, por entidades federativas correspondientes al periodo de años de 1971 al 2000, se procesan los datos proporcionados por la Comisión Nacional del Agua, Subdirección General Técnica, Coordinación General del Servicio Meteorológico Nacional. La tabla de abajo muestra la información requerida. Desarrollar lo siguiente: (a) Hacer un análisis de varianza usando los datos mensuales de cada región federativa luego, calcular el valor de p y decir si es significativo. (b) Usando el procedimiento de comparaciones múltiples, para saber cuáles poblaciones son iguales y cuáles son desiguales en las aplicaciones de ANOVA de la sección 8.4.3, decir cuales regiones son iguales y cuales son desiguales. (c) Usar el método de Tukey dado por el Minitab y comparar los resultados del inciso (b). La tabla de abajo muestra las precipitaciones mensuales y anuales para cada una de las 13 regiones hidrológicas-istrativas. Tabla 8.19. Tabla mostrando las precipitaciones mensuales y anuales para cada una de las 13 regiones hidrológicas-istrativas.
www.full-ebook.com
8.4. Esta es una aplicación de análisis de varianza de bloques completamente aleatorizados. El propósito de esto es confirmar como, al bloquear los factores que intervienen en el estudio, es decir, agrupándolos por características similares, se reduce considerablemente el error o residual. Para esto se usan seis factores y el experimento se hace homogenizando todas las características que intervienen en el experimento. De acuerdo a la tabla de abajo, las observaciones se sacaron de un diseño de bloques aleatorizados, es decir, de seis poblaciones normales. La finalidad de este ejercicio es la de analizar las diferencias entre un diseño de ANOVA con bloques aleatorizados y otro experimento de ANOVA sin agrupar de las características involucradas. Tabla mostrando los datos de este experimento de bloques aleatorizados.
www.full-ebook.com
(a) Construir una tabla de ANOVA de bloques completamente aleatorizados. (b) Decir si los resultados pueden permitirnos concluir, a un nivel de significancia de α = 0.05, que los promedios de las seis poblaciones no difieren entre si. (c) Comparar en ambos casos los valores de F, p y del error o residual. (d) Si la información de este problema no se agrupara por características similares (para disminuir la variación entre las observaciones), ¿qué efectos tendría semejante acción en la decisión de rechazar o aceptar la hipótesis sustentada? Para explicar esto, hacer una tabla de ANOVA de una clasificación sin hacer bloqueo, luego comparar los resultados y sacar las conclusiones pertinentes. 8.5. Con el objeto de hacer un estudio de contaminación de corrientes, y ver cual corriente es más factible para la dilución de una descarga de aguas residuales, se analizan los flujos de tres corrientes de agua en cierta región. Se requiere saber si hay diferencias entre las tres medias poblacionales de los volúmenes de agua que entran a cada corriente. La tabla de abajo muestra la información requerida para este estudio. Tabla mostrando los datos de los flujos de agua de las tres cuencas hidrológicas.
www.full-ebook.com
Desarrollar los siguientes enunciados usando el programa Minitab: (a) Hacer una tabla de análisis de varianza y probar que no hay diferencias entre las tres poblaciones de flujos muestreadas. Calcular el valor de la F crítica y decir si se acepta o se rechaza la hipótesis nula de que no hay diferencias entre las medias de las tres distribuciones de flujos, es decir, Ho:μ1 = μ2 = μ3. Calcular la región crítica, el valor de la F calculada y el valor de p y decir si es significante. Asumir α = 0.05.
www.full-ebook.com
(b) Hacer comparaciones múltiples usando el método de Tukey, del Minitab y decir cuales medias son iguales y cuales son desiguales. 8.6. Este es un estudio relacionado con datos de precipitación proporcionados por la Comisión Nacional del Agua (CONAGUA), oficina en Cd. Chihuahua, donde se hace un diseño de aplicaciones estadísticas a las precipitaciones anuales (mm) de las presas Luis León, Tintero, Boquilla y de la ciudad de Ojinaga localizadas en Estado de Chihuahua, México, para el periodo de 1994 al 2009. La tabla de abajo muestra los datos de esos cuatro lugares de ese país mexicano. Tabla mostrando los datos anuales de las precipitaciones (mm) de la Presa Luis León, Presa del Tintero, Presa de Boquilla y de Ciudad de Ojinaga, para el periodo 1994-2009.
Hacer lo siguiente:
www.full-ebook.com
(a) Gráficas de probabilidad para ver a que distribución de probabilidad siguen los datos. (b) Una tabla de análisis de varianza para los cuatro sitios. Mostrar el valor de F y de p. (c) Usando el método de Tukey, decir cuales medias son iguales y cuales desiguales. (d) Hacer gráficas de probabilidades acumuladas y de densidad para cada una de las cuatro distribuciones de datos. (e) Calcular el primer cuartil, el segundo cuartil, el tercer cuartil, el primer decil y el rango intercuartílico. 8.7. La intención de este ejercicio es la aplicación de técnicas de análisis de varianza para ver cuales distribuciones son iguales y cuales son desiguales, es decir, usando el método de Tukey. Para tales fines, supóngase que se sacan 4 muestras aleatorias de concentraciones de óxidos de azufre, SO2, (promediados durante 5 años), de los estándares primarios, por 1 hora expresados en partes por billón (ppb), de 4 ciudades (cuencas atmosféricas) diferentes de acuerdo a la tabla de abajo. Hacer lo siguiente: (a) Hacer una tabla de ANOVA usando el programa Minitab asumiendo un nivel de significancia de α = 0.05. Sugerencia: Usando el Minitab irse a: Stat → ANOVA → One Way (Unstacked). En la ventana de “One Way Analysis of Variance” y en “Responses (In Separare Columns)” entrar las columnas con los datos. Luego puntear “Graphs” y puntear “Three in One” y “OK”, “OK”. (b) Decir cuales concentraciones de SO2 son iguales y cuales son desiguales. (c) Usar el método descrito en el Ejemplo 8.3. Luego comparar los resultados con aquéllos obtenidos con el Minitab. Tabla mostrando los datos de este ejercicio.
www.full-ebook.com
Nota: Los estándares primarios del SO2 son: 0.03 ppm de concentraciones promedio anuales, 0.14 ppm por 24 horas y 75 ppb por una hora.
8.8. La finalidad de este estudio es la aplicación de análisis de varianza de dos clasificaciones a usos del agua, es decir, con el objeto de descubrir, como se pueden ahorrar los recursos naturales, como el agua. Para esto se diseña un experimento de ingeniería agrícola, en el cual se usaron dos parcelas de tierra arenosa y de tierra arcillosa. Además, se aplicaron cuatro niveles de agua es decir, ínfimo, nivel bajo, nivel mediano y nivel alto. La cantidad de agua de irrigación fue uniforme, así como las temperaturas y los tipos de semillas plantadas. Aplicar el experimento de ANOVA apropiado y sacar todas las conclusiones debidas acerca de este experimento. La tabla de abajo da la información requerida. Tabla mostrando la información requerida para este experimento agrícola.
(a) Hacer una tabla de ANOVA, que incluya el valor de F calculada, F tabulada y p . (b) Hacer gráficas que muestren los efectos principales e interpretarlos
www.full-ebook.com
acordemente. (c) Hacer gráficas con los efectos de interacción e interpretarlos acordemente. 8.9. Este es un ejercicio adaptado de Quevedo et al. (2008), el cual está relacionado con un problema de difusión atmosférica. El experimento consiste en situar varios sensores para medir la calidad de aire, para medir la calidad del aire, con respecto al gas SO2. Los sensores fueron situados a tres diferentes distancias y a tres diferentes alturas de cierta industria de fundición de metales. La tabla de abajo muestra los datos de este problema. Asumiendo un nivel de significancia de α = 0.05, hacer lo siguiente: (a)Estructurar una matriz con los datos de la tabla e introducirlos el la hoja del Minitab. (b) Hacer una tabla de ANOVA. (c) Analizar las gráficas de los efectos principales y de los efectos de interacción que pudieran ocurrir entre los factores distancia de la fuente emisora y de las alturas de los muestreadores. (d) Sacar todas las conclusiones debidas. (Para resolverse por el lector). Tabla mostrando la información requerida para este problema.
8.10. Este un estudio piloto de usos del agua donde se usan dos niveles del factor A, con cuatro niveles del factor B. Los ocho tratamientos fueron asignados aleatoriamente. La tabla de abajo da la información requerida. Tabla mostrando los datos de este problema.
www.full-ebook.com
(a) Generar la matriz de datos e introducirlos a la hoja del programa Minitab. (b) Usar el modelo más apropiado de ANOVA y hacer una tabla de análisis de varianza (c) Hacer una gráfica que muestre los efectos principales de los dos factores y de los efectos de interacción y decir si son significantes. (d) Evaluar la utilidad del modelo de ANOVA a trabes de diagnósticos gráficos de residuales. 8.11. Este es un experimento de ANOVA aplicados a investigaciones de difusión atmosférica usando dos clasificaciones, es decir, factor A y factor B. Se da una avanzada de los datos y se le pide al lector cumplir con los llenados de la tabla de abajo. Asumiendo un nivel de significancia de α = 0.05 hacer lo siguiente: Decir si la interacción entre los dos factores A y B es significante. Incluir en la tabla el valor crítico de F. Tabla de ANOVA. Llenar los faltantes.
www.full-ebook.com
8.12. A pesar de que se ha hecho muchas investigaciones relacionada con la remoción del DBO en las lagunas de estabilización, existe poca información con respecto a la disminución del número de bacterias, como Coliformes, Escherichia coli y Enterococci. En este experimento de tecnologías del agua se usaron tres tipos diferentes de lagunas de oxidación, con dos tiempos de retención. Con esto se hace un total de 9 combinaciones de tratamientos. Los porcentajes de reducción de bacterias se analizaron con la finalidad de ver si los tres tipos diferentes de lagunas y los dos diferentes tiempos de retención tendrían algún efecto en la reducción de los porcentajes de las bacterias. Aquí se asume que las temperaturas, pH del agua residual, las cargas, y demás factores que pudieran influir en la remoción de las bacterias, estaban controlados. Tabla con las reducciones de los porcentajes de los tipos de bacterias y los tiempos de retención.
(a) Aplicar la función de ANOVA más apropiada (b) Analizar los gráficos de efectos principales y de interacción y sacar las conclusiones debidas. 8.13. En términos generales, las lagunas de estabilización se subdividen en varias categorías, es decir, lagunas anaerobias, aerobias, facultativas, lagunas de maduración, lagunas asistidas mecánicamente (ventiladores), etc. En un
www.full-ebook.com
experimento de ingeniería sanitaria, para evaluar la eficiencia de una laguna de estabilización usando diferentes tiempos de retención y diferentes tipos de ventiladores (sumergidos y flotantes), se dan los siguientes datos en la tabla de abajo. Asumiendo α = 0.05, hacer lo siguiente: (a) Llenar los faltantes de la tabla de abajo. (b) Si hubiese interacción entre los factores tiempo de retención-tipos de ventiladores, ¿Qué conclusiones se pudieran derivar de semejantes condiciones? Para resolverse por el lector
8.14. En un estudio piloto de contaminación de corrientes, se estudia la relación entre una muestra aleatoria de concentraciones de DBO, en función de la distancia, donde ocurrió la descarga, la temperatura del agua y tipos de zonas bénticas por donde pasa la corriente de agua. Llamemos la distancia, el factor A; las temperaturas, el factor B; y los tipos de zonas bénticas, el factor C. La tabla de abajo muestra los datos. Tabla mostrando los datos pertinentes para este problema.
www.full-ebook.com
(a) Generar la matriz de datos, introducirlos al programa Minitab y construir una tabla de análisis de varianza de tres sentidos de efectos fijos. (b) Hacer gráficas de los efectos principales, A, B y C. (c) Hacer gráficas de los efectos de interacción e interpretarlos acordemente. 8.15. Este es un estudio relacionado con lagunas de estabilización que sirven como plantas de tratamiento, para la degradación del drenaje doméstico o municipal. Estas lagunas consisten de vasos someros, no muy profundos, en donde los microorganismos (como las bacterias) degradan la materia orgánica bajo condiciones aerobias, anaerobias y facultativas. Sin embargo, el principal tratamiento ocurre en la zona anaerobia de la laguna donde se remueven los sólidos suspendidos. Las lagunas de oxidación pueden ser diseñadas con ventiladores o sin éstos. No obstante, las lagunas de estabilización no son tan eficientes como las plantas de lodos activados o de filtros por goteo. Sin embargo, las lagunas se adaptan bien países subdesarrollados, donde hay buena intensidad de radiación solar y temperaturas altas. De cualquier manera, aquí se hace un estudio de análisis de varianza de tres vías donde se estudia la relación entre el tiempo de retención (factor A), la temperatura (factor B) y la intensidad de radiación solar (factor C) y sus efectos en la degradación de la demanda bioquímica de oxígeno (DBO). Para esto se dan los siguientes datos: SSa = 22.63, SSb = .003, SSc = .40, SSab = .40, SSac = .07, SSbc = 0.063, SSe = 1.0 y SSt = 24.099. Para el factor A se usaron cuatro niveles, para el factor B y C se usaron dos niveles. Si se hicieron dos réplicas por combinación, entonces, con un nivel de significancia de α = 0.05, hacer lo siguiente.
www.full-ebook.com
(a) Decir cuántas combinaciones, replicaciones y cuantas observaciones se hicieron. (b) Construir una tabla de ANOVA y mostrar los valores de F calculada, de la F tabulada y de p para cada factor. (c) Identificar los efectos principales y las interacciones e interpretarlas acordemente. 8.16. Se hace un estudio hipotético relacionado con estudios de corrientes para la degradación del DBO. Para tales fines, se seleccionaron cuatro diferentes distancias río abajo del punto de la descarga del agua residual. Por ejemplo, llamemos las cuatro diferentes distancias el factor A (es decir I = 4 distancias de 500, 1000, 1500 y 2000 metros). Los análisis de los contaminantes se midieron con dos métodos de análisis, es decir, el tradicional y el método innovador usando microorganismos Klebsiella (http://patentstorm.us/patents/5356792/description.html), cuyo factor lo llamaremos B (es decir, J = 2). Además, se seleccionaron cuatro tipos de zonas bénticas, cuyo factor lo denominaremos C (es decir, K = 4 de tramos bénticos de 100, 200, 300 y 500 metros de longitud). Para todo esto, se hicieron L = 3 análisis para cada una de las 32 combinaciones de niveles de los tres factores (4 x 2 x 4). La tabla de abajo muestra los resultados de las mediciones. Asumiendo un modelo de ANOVA de efectos fijos en tres direcciones, de la forma poblacional yijkl = μ + αi + βj + γk + (βγ)jk + εijkl, con α = 0.05, hacer los siguientes cálculos: (a) ¿De cuántas clasificaciones es el diseño? ¿Cuántas combinaciones hay? (b) ¿Cuál es el número de réplicas? ¿Cuántas observaciones hay? (c) Hacer una tabla de análisis de varianza con las pruebas de significancia sobre los factores principales, v.g., distancia, tipos de análisis químicos y secciones bénticas.
www.full-ebook.com
(d) Hacer gráficas para analizar los efectos principales de distancia, tipos de análisis químicos y tipos de secciones bénticas y ver cuales son los efectos principales que pudieran aparecen como significantes. (e) Hacer gráficas para analizar los efectos de interacción de los factores distancia, tipos de análisis químicos y tipos de secciones bénticas. Asumir un nivel de significancia de α = 0.05. (f) Evaluar la utilidad del modelo de ANOVA a través de gráficas de probabilidad normal de residuales, gráficas de residuales versus valores ajustados, y gráficas de residuales versus orden de datos. Complementar la evaluación del modelo de ANOVA aplicando gráficos de residuales. Tabla mostrando las concentraciones de los contaminantes de DBO (mg/L) descargadas en la corriente, en función de la distancia, métodos analíticos químicos y tipos de zonas bénticas.
www.full-ebook.com
8.17. Este es un experimento piloto aplicado a una laguna de estabilización, el cual está relacionado con un diseño de ANOVA de cuatro factores (A, B, C, D). El factor A se aplica en tres niveles, es decir, a través de ventiladores superficiales con motores flotantes, ventiladores con motores sumergidos e inyectores de aire comprimido con difusores sumergidos. El factor B se aplica en dos niveles de tiempo de retención (5 y 10 días). El factor C se aplica en tres niveles de temperatura (20, 25 y 32 oC). El factor D se aplica a través de dos niveles de radiación ultravioleta (índices de UV de 9 y 11 que pudieran afectar la relación simbiótica de las bacterias y de las algas). Se hicieron dos réplicas para cada uno de los cuatro factores. Todo esto se hizo para ver el efecto que pudieran tener en las concentraciones de la demanda bioquímica de oxígeno de 5 días (DBO5), es decir, en la estabilización de la materia orgánica descargada en la laguna con ventiladores. Para resolver este diseño experimental de la tecnología del agua, se da una avanzada de los datos de la siguiente manera: suma de los cuadrados del factor A, SSa = 6,621.99, suma de los cuadrados del factor B, SSb = 70.95, suma de los cuadrados del factor C, SSc = 1475.34, suma de los
www.full-ebook.com
cuadrados del factor D, SSd = 0.07. Además, se da la suma de los cuadrados de interacción de dos factores, es decir, AB, AC, AD, BC, BD y CD de la siguiente manera: SSab = 45.00, SSac = 1665.00, SSad = 1.41, SSbc = 6.00, SSbd = 0.41 y SScd = 0.75. Igualmente, se da la suma de los cuadrados de tres factores, es decir, SSabc = 24.10, SSabd = 12.01, SSacd = 4.80, SSbcd = 0.90. Finalmente, se da la interacción de los cuatro factores, SSabcd = 2.10 y el cuadrado medio del error, MSe = 1.41. Siendo así, hacer lo siguiente: (a) Con los datos dados estructurar la tabla de ANOVA de cuatro factores fijos. (b) Sacar todas las conclusiones relacionadas con los factores principales y los factores de interacción. 8.18. Este es un estudio aplicado a lagunas de oxidación donde se analizan cuatro factores, es decir, el tiempo de retención (factor A), la temperatura (factor B), lagunas asistidas mecánicamente (factor C), y la radiación ultravioleta (factor D). La radiación ultravioleta, en sus formas A, B y C, antes del advenimiento de la era industrial, no era un factor que pudiera estar afectando a las plantas y a los microorganismos, como en el caso de las lagunas de oxidación, donde las bacterias intervienen en la degradación de la materia orgánica en una relación simbiótica con las algas. Sin embargo, teóricamente hablando, con el calentamiento global y la destrucción del cinturón de ozono estratosférico por los compuestos clorofluorcarbonados, la intensidad de radiación UV se ha hecho más notoria. Esta es una variable que pudiera estar interfiriendo con la labor simbiótica de las bacterias y de las algas en la degradación de la materia orgánica depositada en las lagunas de estabilización. De cualquier manera, este ejercicio está encaminado a hacer un análisis de varianza de 4 clasificaciones, para que el experimentador estadístico construya una tabla de ANOVA. Aquí se supone efectos fijos de todos los factores. Usar α = 0.05. La tabla de abajo da la información sacada de una muestra aleatoria, para este ejercicio. Hacer todo lo siguiente: (a) Decir a cuantos niveles están cada uno de los 4 factores y cuantas combinaciones existen. También decir cuantas replicaciones hay. (b) Usando el programa Minitab, hacer lo siguiente:
www.full-ebook.com
(1)Estructurar una tabla de ANOVA de 4 sentidos. Probar todas las hipótesis pertinentes y sacar todas las conclusiones debidas. (2) Hacer gráficas con los efectos principales y los efectos de interacción. Analizarlas en cada uno de sus casos y decir si son significantes. Tabla mostrando la información para este ejercicio.
8.19. Este es un estudio de tratamientos del agua o de tecnologías alternas de tratamiento de agua, aplicando un análisis de varianza de 5 clasificaciones con efectos fijos. (fuente: http://wikipedia.org/wiki/Tratamiento_del_agua_(tecnolog%C3%ADas_alternativas) Esta fuente de información describe los distintos métodos de tratamiento del agua, como (1) coagulación y floculación, (2) desalinización, (3) desinfección, (4) filtración, (5) almacenamiento y sedimentación, (6) aireación y así sucesivamente. De acuerdo a esta fuente de información, el método de coagulación y floculación puede usarse para eliminar los sólidos suspendidos, a través del pH, el gradiente de velocidad y el tiempo. En el caso del método de desalinización, existen varias formas para eliminar las sales del agua. Para
www.full-ebook.com
mencionar algunas son la osmosis inversa, destilación, congelación, evaporación relámpago y así sucesivamente. En cuanto al método de desinfección, esta es una forma de eliminar los microorganismos patógenos. Este método consiste en una desinfección química (con cloro), radiación solar y ebullición. Con respecto al método de filtración, éste se usa para eliminar los sólidos suspendidos en el agua, también es útil para filtrar los patógenos, los sabores y los olores. Acordemente, la aireación es otro método para tratar el agua, el cual consiste en agitaciones vigorosas del agua, lo que permite la eliminación de los compuestos volátiles, como el sulfuro de hidrógeno (H2S). De esta manera, en este estudio hipotético se analizan cinco factores con dos niveles cada uno y dos replicaciones, de la siguiente manera: Factor A: Coagulación-floculación a 2 niveles (pH y gradiente de velocidad). Factor B: Desalinización a 2 niveles (Destilación y Osmosis inversa). Factor C: Desinfección a 2 niveles (desinfección química y ebullición). Factor D: Filtración: a 2 niveles (absorción y filtración en arena). Factor E: Almacenamiento a 2 niveles de tiempo (1, y 3 días). La variable de respuesta es la producción de agua, en metros cúbicos por día. Para resolver este ejercicio basar el criterio en las gráficas dadas, de la siguiente manera: (a) Desarrollar una discusión acerca de los efectos principales. Si son de importancia complementar el razonamiento analizando las gráficas dadas. (b) Si hay interacción, decir cuales de los niveles de los 5 factores están interactuando. Interpretar el significado de la interacción usando los gráficas de interacción dadas abajo.
www.full-ebook.com
8.20. Con relación al ejercicio anterior (8-19) del agua o de tecnologías alternas de tratamiento de agua, aplicando un análisis de varianza de 5 clasificaciones, con efectos fijos, hacer lo siguiente usando el Minitab con los datos del experimento multifactorial dados abajo:
www.full-ebook.com
(a) Hacer una tabla de ANOVA de 5 vías y corroborar lo aprendido acerca de los efectos principales y de interacción en el ejemplo anterior. (b) Evaluar la calidad de este modelo de ANOVA de 5 clasificaciones, a través de diagnósticos objetivistas (R2 y s) y de gráficos de residuales. Tabla mostrando los datos de este experimento multifactorial de 5 factores.
8.21. En una aplicación de ingeniería ambiental relacionado con difusión atmosférica de partículas emitidas por una fuente industrial. (Los estándares para las partículas son: 150 ppm por 24 horas para PM10; 15 ppm por 1 año para PM2.5 y 35.0 ppm por 24 horas para PM2.5). En este estudio, en particular, se hace aplica un análisis de varianza de 3 clasificaciones para estudiar el comportamiento de las partículas PM2.5 cuyo estándar es de 35.0 ppm por 24 horas. Para tales fines se sacó una muestra aleatoria, donde se seleccionaron dos clases diferentes de sensores, situados a 4 diferentes alturas con 4 diferentes distancias viento abajo de la fuente emisora. Por ejemplo, llamemos las cuatro distancias el factor A (es decir, I = 4 distancias de 500, 1000, 1500 y 2000 metros. Las concentraciones de las partículas se midieron con 2 tipo de marcas
www.full-ebook.com
diferentes de sensores, cuyo factor lo llamaremos B (es decir, J = 2). Además se seleccionaron cuatro alturas en las cuales fueron situados los sensores, cuyo factor lo denominaremos C (es decir, K = 4 alturas de 100, 200, 300 y 500 metros de altura sobre el nivel del mar. Para todo esto se sacaron muestras aleatorias de L = 3 casos, para cada una de las 32 combinaciones de niveles de los 3 factores (4x2x4 = 32) y para un total de 96 observaciones de la muestra aleatoria de 2 años. La tabla de abajo muestra los resultados de las mediciones de partículas de la muestra aleatoria de 2 años. Asumiendo un nivel de significancia de α = 0.05 hacer los siguientes cálculos: (a) ¿Cuántas combinaciones hay? (b) ¿Cuál es el número de réplicas? (c) Hacer una tabla de ANOVA. (d) Hacer gráficas de los efectos de principales y de interacción. (e) Sacar todas las conclusiones debidas razonándolas acordemente. Tabla mostrando las concentraciones de partículas PM2.5 (24 horas) expresadas en partes por millón emitidas por la chimenea industrial, en función de la distancia, altura de los muestreadores y la marca de los sensores.
REFERENCIAS www.full-ebook.com
1. http://en.wikipedia.org/wiki/Analysis_of_variance (2011) 2. Daniel, W. W., Terrel, J. C. (1989). Business Statistics For Management and Economics, Fifth edition. Houghton Mifflin Company. (p. 388). 3. Chow, V. T. (1964). Handbook of Applied Hydrology. A Compendium of Water-resources Technology. McGRAW-HILL BOOK COMPANY. (pp. 8.72, 11-4) 4. Standard Methods for the Examination of Water and Wastewater. Treceava edición. Prepared and published by: America Public Health Association, American Water Works Association, Water Pollution Control Federation. Publication office: American Public Health Association, 1015 Eighteen Street, N. W. Washington, D. C. 20036. 5. Walpole, R. E., Myers, R. H., (1992). Probabilidad y Estadística para Ingenieros. Sexta edición. Prentice-Hall Hispanoamericana, S. A. (p. 480) 6. Streeter, H. W., and E. B. Phelps (1925). A study of the pollution and natural purification of the Ohio River. III. Factors concerned in the phenomena of oxidation and reaeration. U.S. Public Health Service, Bulletin No. 146. 7. Tchobanoglous, G., and E. D. Schroeder. (1984). Water quality: Characteristics, modeling, modification. Addison-Wesley, Massachussets. 8. Quevedo, H. A., Pérez, B. R. (2008). Estadística para Ingeniería y Ciencias. Grupo Editorial Patria. Primera Edición, México, D. F. (pp. 350-351). 9. Comisión Nacional del Agua (CONAGUA). Subdirección General Técnica, Coordinación General del Servicio Meteorológico Nacional. 10. Comisión Nacional del Agua (CONAGUA), oficina en la Cd. de Chihuahua. Ahí se da la información de aplicaciones estadísticas a las precipitaciones
www.full-ebook.com
anuales (mm) de las presas Luis León, Tintero, Boquilla y de la ciudad de Ojinaga localizadas en el Estado de Chihuahua, México. 11. Comisión Nacional del Agua (CONAGUA), oficina en Cd. Juárez, Chihuahua, México. 12. http://patentstorm.us/patents/5356792/description.html). 13. http://wikipedia.org/wiki/Tratamiento_del_agua_(tecnolog%C3%ADas_alternativas) (2010).
www.full-ebook.com
Capítulo 9
www.full-ebook.com
Modelos de regresión lineal, múltiple y polinomial Dr. Héctor Adolfo Quevedo Urías (Ph.D.)
Temas descritos en este capítulo 9.1. Introducción al análisis de regresión 9.2. Regresión lineal simple 9.3. Ecuaciones para derivar el valor del intercepto en la ordenada a y la pendiente b de la curva o línea de regresión, manualmente 9.4. Cálculos para determinar el coeficiente de determinación R2 muestral que estima a ρ2, el coeficiente de determinación poblacional 9.5. Tipos de correlación lineal 9.6. Intervalo de confianza para el coeficiente poblacional β componente de la línea de regresión μY|X = α + βX, estimado por b, la pendiente de la línea 9.7. Regresión y correlación lineal múltiple 9.8. Modelo de regresión múltiple generalizado 9.9. Regresión polinomial 9.10. Modelo polinomial poblacional de tercer orden (k = 3), o cúbico con una variable independiente
www.full-ebook.com
9.11. Evaluación de los modelos de regresión polinomiales 9.12. Análisis gráficos, para la evaluación subjetiva del modelo de regresión 9.13. Análisis de gráficos para diagnosticar colinialidad 9.14. Prueba de heteroscedasticidad y homoscedasticidad 9.15. Metodología para mitigar valores altos de VIFs causantes de colinealidad en problemas de regresión polinomial cuadrática o cúbica-Centrado de valores de X 9.1. Introducción al análisis de regresión. El análisis de regresión involucra el estudio entre dos juegos de variables cuantitativas, es decir, entre una variable dependiente (también llamada variable de respuesta) y una o más variables independientes (también llamadas variables predictoras o explicativas). El convencionalismo que se sigue en estudios de regresión es de usar la letra Y para denotar la variable dependiente y la letra X para denotar la variable independiente. Por ejemplo, en regresión lineal simple, las técnicas de regresión nos ayudar a entender, como el valor de la variable dependiente cambia, cuando la variable independiente varía. Análogamente, en regresión lineal múltiple, éstas técnicas nos ayudan a entender, como el valor de la variable dependiente cambia, cuando una de las variables independientes varía, mientras que las otras variables independientes se mantienen constantes. El análisis de regresión investiga la relación entre dos o más variables relacionadas de una manera no determinista (probabilística). Esto, sin embargo, no ocurre con una buena parte de las matemáticas, donde se estudian variables relacionadas de una manera determinista, porque cuando se da el valor de X, el valor de Y está especificado por completo. Por ejemplo, con la física el modelo que describe la fuerza igual a masa por aceleración (F = ma) es un modelo determinista. Igualmente ocurre con el modelo E = mc2, que relaciona la energía E, la masa m y la velocidad de la luz, c. Estos son ejemplos de modelos deterministas, porque excepto, por errores menores de medición, estas ecuaciones determinan el valor de la variable dependiente de los valores de las variables independientes. Esto no ocurre con la estadística, porque estamos hablando de una muestra aleatoria, lo que nos lleva
www.full-ebook.com
al área de probabilidad (no determinística). Este capítulo discute la aplicación de modelos de regresión lineal simple y múltiple, también discute regresión no lineal, es decir, regresión polinomial. La finalidad de estudiar regresión lineal simple, múltiple o polinomial, es para obtener el modelo de regresión más apropiado, es decir, una ecuación o modelo de regresión (que incluye la variable dependiente Y y las variables independientes, X), para fines de predicción y estimación. Para calcular la ecuación de regresión lineal y no lineal se usa lo que se llama el método de los cuadrados mínimos, que ajusta los datos de la muestra a la línea de regresión. Este método se relaciona con la propiedad de que, la suma de los cuadrados de las desviaciones verticales de la línea de regresión es la suma posible más pequeña. Esta metodología es una de las técnicas más usadas en investigaciones científicas, para encontrar la relación entre dos o más variables que están causalmente relacionadas entre si. Similarmente, el estudio de correlación está relacionado con la medición de la fuerza de la relación entre variables dependientes e independientes. Galton, en 1888, fue el primero en usar la palabra “correlación” (Daniel et al. 1989). El modelo de regresión tiene muchas aplicaciones en los campos de la ingeniería ambiental, los usos y tecnologías del agua, características del agua (densidad), en función de la temperatura, estudios de cambios climáticos relacionados con el calentamiento global, soluciones de gases (como el oxígeno o el CO2), en función de la temperatura, equilibrio químico en función de la temperatura, relaciones entre el DBO, DQO, y COT, relación entre el DBO, NO3-, NO2- y NH3, la hidrología y así sucesivamente. También, la regresión lineal es ampliamente usada en los comportamientos biológicos para describir la relación entre las variables usadas. Igualmente, con la hidrología, la clásica aplicación es la relación entre la escorrentía y la precipitación. Otros ejemplos incluyen los estudios de McCuen et al. (1986), en aplicaciones a problemas de hidrología, en la que se discuten el transferimiento de mediciones hidrográficas (gráficas de flujos o de sedimentos vs. tiempo en un punto dado) de una localización a otra. Como por ejemplo, el transferimiento (o extrapolación) de cartas hidrográficas de sitios con datos pluviométricos existentes, a otros sitios donde no existe esa información hidrográfica. Además, se discuten otros problemas de transferimientos que requieren un modelo, es decir, el transferimiento de información a un sitio con registros pluviométricos donde hay registros falta con
www.full-ebook.com
aquéllos en estaciones hidrológicas adyacentes. Similarmente, Chow (1964) discute el método de análisis de regresión para el llenado de datos faltantes y el entendimiento de registros cortos en una estación hidrológica por medio de relacionar la causa y efecto en un sitio hidrológico, como por ejemplo, la relación entre la precipitación y el agua de desagüe en el vaso de un río o de correlacionar los efectos o desagües de los flujos de dos ríos adyacentes. Clásicamente, el enfoque de regresión lineal simple en hidrología, es la relación causal entre la profundidad acumulada de agua y la lluvia. Similarmente, en estudios de hidrología, para estructurar un modelo de regresión lineal múltiple, para calcular caudales o gastos, esta variable se puede modelar en función de otras variables, como la pendiente de la cuenca o del canal principal, la presión atmosférica, la tasa de evaporación, los coeficientes de escorrentía, la temperatura, el área y longitud de la cuenca, la intensidad de la lluvia, permeabilidad del terreno, factores orográficos y así sucesivamente. Con relación a las tecnologías del agua, digamos en estudios de contaminación de corrientes, existe una relación entre la solubilidad del oxígeno en el agua, que va en función de la temperatura, la salinidad, la turbulencia, la actividad fotosintética, la presión atmosférica, las concentraciones de materia orgánica y actividad bacterial. Igualmente, Goodale et al. (1998) discuten la aplicación de modelos polinomiales de ecosistemas para CO2 y ciclado de agua, en función de las precipitaciones mensuales, temperaturas y radiación solar. También, Hanavis et al. (2010) discuten métodos alternativos a los métodos tradicionales de frecuencias de inundaciones, que usan una sola distribución y que tal vez no sean adecuados para describir la variabilidad de las inundaciones observadas. Finalmente, es importante recalcar que el calentamiento global (una parte muy importante de la ingeniería ambiental) está distorsionando los patrones de precipitación y, por lo tanto, debido a este fenómeno (que no se veía antes de la era industrial) en tiempos modernos, debe existir una relación cercana entre la ingeniería ambiental y la hidrología. 9.2. Regresión lineal simple. En regresión lineal simple se estudia la relación entre una variable dependiente (Y) y una variable independiente (X). Por ejemplo, usando la ecuación de regresión podemos predecir valores de Y, para un valor dado de X. También, para efectos de estimación se hacen intervalos de confianza e intervalos de predicción. Los componentes de esta ecuación de regresión lineal, con una sola variable independiente, también llamado modelo lineal de primer orden, son la variable explicativa, función de respuesta o variable dependiente Y, y, la variable independiente X. El modelo de esta
www.full-ebook.com
ecuación, que describe la relación de la variable X con la variable Y, se llama la ecuación de regresión de Y sobre X y, la gráfica de esta función, se llama la curva de regresión. El modelo de regresión lineal poblacional que describe la relación entre la respuesta o variable dependiente Y y, la variable independiente o predictora X, es: Y = βo + β1x1 + ε i = 1, 2, …., n
(9-1)
Donde: Y = variable dependiente o de respuesta poblacional (también se usa la anotación y o Y’) βo = coeficiente de regresión poblacional o intercepto en la ordenada β1 = pendiente de la ecuación de regresión x1 = variable independiente o regresora ε = error aleatorio con promedio de 0 y varianza σ2 constante. Este valor de ε es la diferencia entre el valor teórico de Y’ y el valor de Y calculado u observado. Las condiciones de ε son de que este parámetro debe estar normalmente distribuido; sus valores deben de ser independientes uno del otro y la varianza de ε es Var(ε) = σ2ε n = número de (X,Y) pares de observaciones La ecuación de regresión muestral, que estima al modelo de regresión poblacional (9-1) de arriba se da como: Y’ = a + bx + e
(9-1a)
www.full-ebook.com
Donde: Y’ = variable dependiente o de respuesta de la muestra a = coeficiente de la ecuación muestral o intercepto en la ordenada b = pendiente de la línea x = variable independiente, predictora o explicativa e = error o residual de la muestra denotado por ei = (yi - Yi). Esta estadística es la estimadora del parámetro ε 9.2.1. Suposiciones requeridas por el modelo de regresión lineal. 1. Linealidad. Debe haber una relación lineal derecha entre los valores de Y y X. Esta suposición se evalúa fácilmente, por medio de analizar una gráfica esparcida. 2. Varianza constante. La varianza de los residuos se asume que es constante para todos los valores de X o sea que la varianza del error es σ2 es constante. Esto es lo que se llama homoscedasticidad. La suposición de varianza constante se detecta por medio de graficar los residuos versus la variable independiente. Si esta gráfica muestra un patrón rectangular, se asume que hay una varianza constante; es lo que se denomina homoscedasticidad. No obstante, si la gráfica de residuos muestra una varianza no constante, es decir, en forma de arco, hay lo que se llama heteroscedasticidad, la cual debe corregirse ipso facto. Esto se puede hacer haciendo transformaciones de los ejes, como por ejemplo, transformaciones logarítmicas del eje Y. 3. Valores extrínsecos. Hay otras condiciones que deben corregirse para estar de acuerdo con las suposiciones del modelo de regresión lineal. Por ejemplo, los valores extremos (outliers) pueden causar varianza no constante o falta de normalidad. Los valores extremos se pueden eliminar considerando gráficas de Y y X, así como también graficando los residuos versus valores de X. 4. Normalidad. La suposición de normalidad de los datos debe de acatarse. Hay varias expectativas de revisar por esto. Por ejemplo, haciendo gráficas de
www.full-ebook.com
probabilidad, estadísticas descriptivas, aplicando la regla de 68-95-99.7, etc. 5. Independencia. Los residuos no deben estar correlacionados uno con el otro, lo que implica que los valores de Y tampoco deben estar correlacionados; debe haber independencia. 9.2.2. Evaluación de la utilidad del modelo de regresión seleccionado. Una vez que se obtiene el mejor modelo candidato, con la ecuación de regresión lineal, ésta se tiene que evaluar o validar para ver, qué tanta confiabilidad se le puede dar al modelo de regresión seleccionado para usos de predicción. Esto se hace usando enfoques objetivistas y subjetivistas. Por ejemplo, el enfoque objetivista se hace haciendo pruebas estadísticas de inferencia. Este enfoque se complementa usando enfoques subjetivos, es decir, analizando las gráficas de los residuos estandarizados o no estandarizados (crudos), es decir, a través de inspecciones visuales. 9.2.3. Análisis objetivistas estadísticos para la evaluación del modelo de regresión lineal. Como se dijo antes, una vez que se selecciona el mejor modelo de regresión, éste se tiene que evaluar. Para tales fines se usa lo que se llama enfoque objetivista (estadística inferencial), para la validación del modelo de regresión. Este enfoque incluye el uso de estadísticas como el coeficiente de determinación R2 (o r2), el coeficiente de determinación ajustado R2ajustado, el error estándar estimado, s, tablas de análisis de varianza, pruebas de t de Estudiante, intervalos de confianza, PRESS (predicted sum of squares por sus siglas en inglés o suma de los cuadrados de predicción, es decir, suma de los cuadrados pronosticados), etc. 9.2.3.1. Tipos de coeficientes de regresión. Cuando se habla de coeficientes usados en la evaluación de los modelos de regresión existen varios tipos de coeficientes de regresión. Ejemplos de éstos son: el coeficiente de determinación R2, el coeficiente de correlación R, el coeficiente de determinación ajustado (R2ajustado) y el coeficiente parcial de correlación múltiple (Rij.k). 9.2.3.2. Coeficiente de determinación lineal simple R2. Este coeficiente R2 es uno de los más importantes diagnósticos evaluatorios y representa la proporción de la variación total de los valores de la variable Y que se pueden explicar por
www.full-ebook.com
una relación lineal con los valores de la variable X. El coeficiente de determinación muestral R2 es el estimador del coeficiente poblacional ρ. El coeficiente de determinación R2 es la medida estadística más comúnmente usada para medir, qué tan bien encaja el modelo de regresión en los datos de la muestra. El uso de R2 es una técnica objetivista para valorizar la calidad del un modelo de regresión lineal seleccionado. Esta estadística se puede definir como una proporción o como un porcentaje. Como proporción, sus valores varían de cero a uno. Por ejemplo, si el valor de R2 está cercano a cero, esto indica que no hay una relación lineal entre Y y las X´s, mientras que, un valor cercano a uno, indica una ajuste perfecto. No obstante, aquí hay que aclarar que, el valor del coeficiente R2 no debe de interpretarse ligeramente, sin el apoyo de otras estadísticas objetivistas, como el error estándar estimado s, o la estadística PRESS. Además, todo lo anterior tiene que complementarse usando diagnósticos subjetivistas como gráficos de residuos estandarizados, y otros diagnósticos como la tabla de ANOVA o la estadística de Durbin-Watson (para regresión en series de tiempo). Todo lo anterior tiene que contemplarse antes de intentar hacer una decisión final sobre la calidad del modelo de regresión seleccionado. 9.2.3.3. Coeficiente de producto-momento de Pearson R. Este coeficiente, también llamado coeficiente de correlación lineal R, mide la asociación lineal entre la variable dependiente Y y las variables independientes X1, X2, X3,…, Xk. En contraste con el coeficiente de determinación R2, el rango del coeficiente de correlación es de 0 ≤ R ≤ 1. Esto se debe a que, R no indica la pendiente de la ecuación de regresión debido a que no es posible indicar los signos de todos los coeficientes de regresión que relacionan la variable dependiente Y, a las variables independientes Xi. Así, como en el caso de la correlación lineal múltiple, la medición del coeficiente de determinación R2 es más fácil de interpretar, que el coeficiente de correlación R. Otro tipo de correlación relacionado con regresión lineal y correlación múltiple es lo que se llama coeficiente parcial de correlación múltiple. Este coeficiente mide la fuerza de la relación lineal entre la variable dependiente Y y las variables independientes X1, X2, X3,…, Xk. Este coeficiente se puede expresar como Rij.k, el cual es el estimador del coeficiente de correlación múltiple poblacional ρij.k. Rij.k se puede usar para ver la relación causal entre Y y una de las variables independientes, manteniendo las demás constantes. Este coeficiente, también se puede usar para ver la relación entre dos variables independientes.
www.full-ebook.com
Este tema está relacionado con regresión lineal múltiple, que se verá más adelante. 9.2.3.4. Error estándar estimado, se (o error estándar de estimación), para evaluar la calidad del modelo de regresión seleccionado. El error estándar estimado (también llamado desviación estándar de residuos) mide el esparcimiento de los valores observados de Y alrededor de los valores correspondientes estimados de la línea de regresión ajustada. De la misma manera que la desviación estándar mide la desviación de los valores de su media, el error estándar estimado se es una medición, de cómo los datos de la muestra se desvían de su línea de regresión. En términos poblacionales, σε es la desviación estándar de la variable del error ε y, debido a que σε es un parámetro poblacional, es necesario estimar su valor usando sε. Esto se mostrará más adelante. En cuanto a la interpretación del valor de sε para la validación del modelo de regresión sabemos que el valor más pequeño que puede asumir sε, es cero, el cual ocurre cuando la suma de los cuadrados del error, SSe es igual a 0. Esto sucede cuando todos los puntos caen en la línea de regresión, lo que dice que el modelo de regresión es óptimo. Sin embargo, si sε es grande, el modelo es inaceptable. En términos generales, una manera de juzgar el valor de sε es comparando su valor con la media, pero esto es difícil, a menos de que sε esté muy cercano a cero. De cualquier manera, antes de emitir un juicio final sobre la utilidad del modelo, a ser tomando en consideración, todos los demás diagnósticos estadísticos como R2, PRESS, valor de F y p en la tabla de ANOVA, etc., deben analizarse cuidadosamente. 9.2.3.5. Criterio PRESS usado en la evaluación del modelo de regresión. Esta función PRESS se usa como un criterio o diagnóstico objetivista para evaluar la calidad del modelo de regresión. El término PRESS (predicted sum of squares por sus siglas en inglés) es la sigla de suma de cuadrados de predicción. Este criterio PRESS es definido, como una medida de, que tan bien el uso de los valores ajustados para un modelo, puedan predecir las respuestas observadas de Yi. Acordemente, modelos con valores pequeños de PRESS se consideran buenos modelos candidatos, y viceversa. Por lo tanto, modelos con valores de PRESS pequeños se ajustan bien en el sentido de que tienen errores de predicción pequeños. Esto ocurre porque cuando los errores de predicción son pequeños, también lo serán los errores de predicción cuadráticos y la suma de los errores de
www.full-ebook.com
predicción al cuadrado. 9.2.3.6. Análisis de varianza y su relación evaluatoria con el modelo de regresión. Más adelante, dentro de la categoría de análisis objetivos de estadística inferencial para evaluar la ecuación del modelo de regresión lineal, tenemos lo que se llama análisis de varianza (ANOVA) discutido en capítulos anteriores. En forma análoga como el uso de R2, este análisis es un método complementario para revisar las suposiciones del modelo de regresión. La confiabilidad de los resultados del ANOVA está mancomunada a la suposición de que los residuos están normalmente distribuidos. El uso de ANOVA prueba las medias poblacionales, donde se analiza la variación total. ANOVA evalúa la utilidad del modelo de regresión probando la hipótesis nula de que los coeficientes (βi) de la ecuación de regresión (pendientes) son iguales a cero. Los componentes del análisis de varianza o de ANOVA, son parecidos a los del análisis de varianza simple dados en capítulos anteriores. Por ejemplo, los componentes de la tabla de ANOVA son la fuente de variación, los grados de libertad, la suma de los cuadrados, la media cuadrática, la prueba de F y el nivel de probabilidad p. Así, la fuente de variación representa las particiones de la variación en Y. Hay cuatro fuentes de variación es decir, el intercepto, el modelo, el residuo o error y, el total ajustado. La prueba de inferencia con la estadística F se usa para probar la hipótesis nula de que todas las pendientes de la ecuación de regresión son iguales a cero, v.g., βi = 0 y el valor de p dictará la confiabilidad que se le dará a la decisión de rechazar la hipótesis nula. Otros estadísticos objetivistas para validar el modelo de regresión son las pruebas individuales de T de estudiante, para probar la hipótesis nula de los coeficientes de regresión. Además, se pueden usar los intervalos de confianza y de predicción. 9.2.3.7. Valor de p. El valor de p usado en la evaluación del modelo de regresión, con relación a la tabla de ANOVA, tiene el mismo significado que en las pruebas discutidas en el capítulo de pruebas de hipótesis. En el ANOVA relacionado con regresión, el valor de p es una medida, de cuanta evidencia estadística existe en el rechazo o aceptación de la prueba de hipótesis relacionadas con los valores de F. El valor de p es el valor de significancia más pequeño, con el cual la hipótesis nula se rechaza, cuando se hace una prueba de hipótesis específica. El valor de p es la probabilidad de obtener un estadístico de prueba, al menos tan contradictorio o más extremo para la hipótesis nula Ho:βi = 0, como el valor observado que se obtuvo, asumiendo que Ho: es verdadera. Si
www.full-ebook.com
el valor de p es menor qué, digamos el nivel de significancia α = 0.05, la hipótesis nula se rechaza; pero si el valor de p es mayor que α, no se rechaza la hipótesis nula y ésta se retiene. En términos simples, esto dice que, entre más pequeño sea el valor de p, mayor evidencia habrá para apoyar la hipótesis alternativa de HA: βi ≠ 0, y, por lo tanto, menos credibilidad tendrá la hipótesis nula. El rango del valor de p está entre cero y uno y entre más se aproxime a cero (aunque matemáticamente hablando el valor de p no puede ser cero ni uno, porque su valor es exponencial), más confiabilidad habrá en los datos. En forma análoga, entre más se aproxime el valor de p a uno, menos confiabilidad tendrán los datos. 9.2.3.8. Diagnósticos gráficos subjetivistas o gráficos de residuos para evaluar la calidad el modelo de regresión. En cuanto al uso de criterios subjetivistas, es decir, análisis de gráficos, para evaluar la utilidad del modelo de regresión lineal simple, esto se logra analizando los gráficos de los residuos estandarizados. Los residuos estandarizados son los residuos ei divididos por una estimación de su desviación estándar. Estos residuos estandarizados toman en consideración que los residuos pueden tener diferentes varianzas, lo cual hace que sea más fácil detectar valores inusuales extremos, que cuando se usan los residuos crudos, regulares o no estandarizados. El programa Minitab considera valores extremos aquellos residuos mayores que 2 o menores que -2. De acuerdo a la lógica del programa de computadora Minitab los diagnósticos gráficos subjetivos o gráficas de residuos se usan para ver, que tan bien encaja el modelo en los datos. También, estas gráficas de residuos se usan para detectar valores extrínsecos. Las gráficas de residuos se describen como: (1) Gráfica de probabilidad normal de residuos. (2) Gráfica de residuos en función de los valores ajustados. (3) Gráfica de residuos versus órdenes en que se coleccionaron los datos. (4) Histograma de residuos. Con respecto a la gráfica de probabilidad normal de residuos, los puntos en esta gráfica, generalmente, deberán formar una línea recta, si los residuos están normalmente distribuidos. Si no es así, la suposición de normalidad puede invalidarse. Siendo así, los valores de la variable aleatoria estadística ei deben estar normalmente distribuidos. Para lograr esto, se grafican los residuos de la
www.full-ebook.com
variable dependiente, en función de los valores de z o normales esperados. Para que se reúna la condición de normalidad de los datos, todos los puntos deben de estar dentro de las bandas de confianza (del 95% o 99%) y deben de estar muy cercanos a la línea de regresión. Además, si los términos del error ei están normalmente distribuidos, los residuos deberán estar, aproximadamente, de acuerdo con las reglas del 68%, 95% y 99.7%. Esto quiere decir qué, el 68% de los residuos deberán estar entre z = ±1; el 95% deberán estar entre z = ±2 y, finalmente, el 99.7% de los residuos deberán estar entre z = ±3. Con relación a la gráfica de residuos, en función de valores ajustados, ésta debe mostrar aleatoriedad de los residuos con, aproximadamente, el mismo número de residuos positivos y negativos, sin tendencias definidas que indiquen multicolinealidad o correlación en serie, es decir, falta de independencia entre las variables. Análogamente, la gráfica de los residuos versus órdenes está relacionada con todos los residuos en el orden en que los datos se coleccionaron, y se usa para encontrar errores no aleatorios, especialmente de efectos relacionados con el tiempo. Finalmente, el histograma de residuos es una herramienta exploratoria para analizar las características de los datos como valores inusuales, variación y forma. Cuando el error de la variable es aproximadamente normal, el histograma tiene forma de campana. Si una o dos barras están alejadas de las otras, esto puede abanderar valores extrínsecos. En las gráficas de residuos el Minitab da la opción de usar residuos crudos o no estandarizados y residuos estandarizados. Por ejemplo los residuales estandarizados (o residuales estudentizados) se usan para detectar valores extremos. De acuerdo al Minitab, si los residuos estandarizados > 2 o < -2 se consideran grandes y abanderan valores extrínsecos. Los residuos crudos son la diferencia entre la respuesta actual y el valor estimado del modelo, pero no dan la información que dan los residuos estandarizados (porque los residuos de observaciones no son directamente interpretables, porque no hay valores obvios de Y). 9.2.3.8.1. Criterios de homoscedasticidad y heteroscedasticidad. Otros diagnósticos importantes que tienen que revisarse en la valorización del modelo de regresión seleccionado, es lo que se llama homoscedasticidad (cuando se satisfacen las condiciones requeridas del modelo de regresión, e. g., la varianza de ε(σ2ε) es un valor fijo o constante). Esto, es cuando la variable aleatoria ei tiene la misma varianza. Esto se logra graficando los residuos, contra cada valor de las variables independientes (Xi). Como se dijo antes, aquí tiene que haber la
www.full-ebook.com
misma cantidad de valores positivos y negativos expresados en la gráfica, lo cual se denomina homoscedasticidad. Además, debe haber aleatoriedad en los puntos graficados, sin seguir patrones definidos. Sin embargo, de no ser así, existe el problema de heteroscedasticidad (cuando se viola el requerimiento de que, la varianza de ε(σ2ε) sea constante). Esta situación se retomará en la sección de regresión polinomial. Recapitulando todo lo anteriormente dicho, las condiciones o suposiciones requeridas para validar el modelo, subjetivamente, se hace a través de los análisis de los residuos estandarizados. Los llamados residuos se definen como las diferencias entre el valor actual de Y y el valor pronosticado de y por el modelo de regresión estimado. Los residuos se denotan por ei, esto es, ei = (Yi – Y´i). Las gráficas de los residuos dan información muy importante, acerca de la naturaleza y fuerza de la relación entre las variables. La figura de abajo muestra los residuos que son las diferencias entre los valores de Y1, Y2, Y3,…,Yk y los valores observados de Y´1, Y´2, Y´3,…,Y´k de la línea de regresión de la muestra. Por otra parte, los residuos estandarizados se obtienen dividiéndolos por sus respectivas desviaciones estándares. Figura. 9.1. Gráfica mostrando los residuos de un ejemplo.
Fuente: Tomado del texto de Quevedo et al. 2008
www.full-ebook.com
En resumen las suposiciones de los valores de residuos son: (a) En el modelo de regresión estadístico, los residuos ei están normalmente distribuidos. (b) Los residuos tienen la misma varianza, es decir, que ei son constantes. (c) Los residuos ei no están correlacionados, es decir, son independientes, debe existir aleatoriedad. Por otra parte, de acuerdo a Daniel et al. (1989), otro método menos popular que el análisis de los residuos, para evaluar la ecuación de regresión es comparando el diagrama esparcido de los puntos, con respecto a la línea de regresión, con la gráfica de los puntos con respecto al promedio de . Esto se debe a qué, sin importar el valor de X, el promedio siempre permanece constante (línea horizontal trazada en el diagrama esparcido de la gráfica). De esta manera, si la dispersión de los puntos con relación a la línea de regresión es menor, que la dispersión de los puntos con respecto a la línea horizontal de , entonces, se puede concluir que la ecuación de la línea de regresión da un buen ajuste para los datos muestrales. 9.3. Ecuaciones para derivar el valor del intercepto en la ordenada a y la pendiente b de la curva o línea de regresión, manualmente. Las variables a y b se obtienen de las ecuaciones normales de abajo, es decir, resolviéndolas simultáneamente: ΣY = a n + b ΣX ΣXY = a ΣX + b ΣX
(9-2) (9-2a)
Así, al resolverse simultáneamente dan el intercepto, a en la ordenada y la pendiente de la línea, b: Intercepto = a = [(ΣY)(ΣX 2) – (ΣX)(ΣXY)] / [(nΣX 2) – (ΣX)2] = – b
(9-2b)
www.full-ebook.com
Donde: Pendiente = b = [n ΣXY – (ΣX)(ΣY)] / [n ΣX 2 – (ΣX)2 ] = Σxy / Σx2
(9-2c)
(9-2d)
Donde: Σxy y Σx2 se dan por las ecuaciones (9-3) y (9-3a) de abajo. y son las medias de las variables aleatorias X e Y. Las siguientes ecuaciones son muy importantes y es conveniente memorizarlas. Σx2 = Sxx = ΣX2 – (ΣX)2 / n
(9-3)
Σxy = Sxy = ΣXY – ΣXΣY / n
(9-3a)
Σy2 = Syy = ΣY 2 – (ΣY)2 / n
(9-3b)
Donde Sxx, Sxy y Syy son las formas abreviadas de Σx2, Σxy y Σy2, respectivamente Nota: Es muy importante distinguir las diferencias entre el uso de las variables minúsculas y las mayúsculas en las ecuaciones de arriba.
9.4. Cálculos para determinar el coeficiente de determinación R2 muestral que estima a ρ2, el coeficiente de determinación poblacional. El coeficiente de determinación R2 es una función estadística muy importante usada para validar el modelo de regresión lineal. El coeficiente de determinación muestral R2 estima al coeficiente de determinación poblacional ρ2. Recapitulando lo anteriormente dicho, este coeficiente R2 mide la proporción de variación en la
www.full-ebook.com
variable dependiente Y explicada por la variable independiente X, y su valor varía de 0 a 1. Por ejemplo, un valor cercano a 0 indica que no hay una relación lineal entre Y y X, mientras que un valor cercano a 1 indica un ajuste lineal perfecto. Aquí, sin embargo, como se asentó anteriormente, es necesario estar conscientes que, un valor grande de R2, no necesariamente indica un buen ajuste del modelo de regresión. Esto ocurre, porque, a pesar de que R2 fuera grande, la suma cuadrática del error, MSe, pudiera, de todas maneras, ser muy grande para sacar inferencias útiles, cuando se requiere de mucha precisión. En forma análoga, si las observaciones pudieran haberse tomado, solamente, en algunos pocos niveles, entonces, a pesar de que el valor de R2 fuera grande, el modelo de regresión pudiera no ser de mucha utilidad, si la mayor parte de las predicciones requieren de extrapolaciones afuera de la región de observaciones. De la misma manera, un valor pequeño de R2 no necesariamente indica que el modelo no sea bueno. Es por estas razones que, antes de emitir un juicio sano, sobre la utilidad del modelo, se necesitan analizar cuidadosamente, todas las pruebas objetivistas y subjetivistas. Las funciones que definen el coeficiente de determinación muestral R2 se dan como:
Donde: SSa es la suma de los cuadrados de los tratamientos, SSt es la suma de los cuadrados del total y SSe es la suma de los cuadrados del error. Todas estas
www.full-ebook.com
funciones, ya se definieron en el capítulo de análisis de varianza, es decir, en el formato de la tabla de ANOVA. Además, Σxy, Σx2 y Σy2, ya se definieron por las funciones (9-3) – (9-3b) descritas anteriormente. Aquí, sin embargo, debido a que, 0 ≤ SSe ≤ SSt, por lo tanto, el rango de este coeficiente de determinación R2 es 0 ≤ R2 ≤ 1. En forma análoga, también hay el llamado coeficiente R2 de determinación ajustada (R2ajustado). Esta es una versión ajustada de R2, la cual muchos expertos en estadística usan para remover la variación debida a un tamaño de muestra pequeño. Este coeficiente se define como: R2ajustado = 1 – [(1 – R2) (n – 1)/(n – 2)]
(9-4b)
Donde: R2 ajustado ya definido anteriormente n es el tamaño de la muestra R2 ya definido anteriormente 9.4.1. Cálculos para determinar el coeficiente de correlación de productomomento de Pearson R de la muestra que estima a ρ, el coeficiente de correlación poblacional. El coeficiente de correlación de producto-momento de Pearson o simplemente, coeficiente de correlación R, estima a ρ. Este coeficiente es un índice de la fuerza de la asociación lineal entre las variables X e Y. El coeficiente de correlación R es igual a la raíz cuadrada de la función (9-4), y es dado por la función: R = √R2
(9-4c)
Este coeficiente de correlación de producto-momento de Pearson R explica el grado de asociación entre las variables aleatorias X e Y. El valor de este
www.full-ebook.com
coeficiente R varía de –1 a 0, si la correlación es negativa, es decir, con pendiente negativa, pero, si la correlación es positiva, entonces, el valor de R varía de 0 a 1. Así, medida que R se aproxima a ±1, mejor asociación habrá entre las variables X e Y y el valor de σ2 será igual a 0. Por otra parte, en caso de la regresión lineal múltiple, hay lo que se llaman coeficientes parciales de regresión, para medir la relación lineal entre la variable dependiente Y la variable independiente especificada. Por ejemplo, Hamburg (1989) discute los coeficientes de correlación parcial como ejemplos de otras medidas en regresión lineal múltiple. 9.4.2. Cálculos para determinar el error estándar estimado se, que estima al error estándar poblacional σε. Recordando que, de las secciones del capítulo de ANOVA, SSe se había definido como la suma de los cuadrados del error, es decir:
. Entonces, tomando en consideración esto, para calcular el estimador imparcial de σ 2ε, la función estadística usada es:
La raíz cuadrada de s2e es el error estándar estimado, el cual se da como: se = [SSe / (n – 2)]0.5
(9-5a)
www.full-ebook.com
Donde: se es el error estándar estimado o error estándar de la estimación SSe es la suma mínima de los cuadrados del error (n – 2) representa en número de grados de libertad alrededor de la línea de regresión ajustada. Aquí, el divisor (n – 2) se usa, porque 2 grados de libertad se pierden en calcular los coeficientes de regresión, es decir, el intercepto βo y la pendiente β1. Por otro lado, Keller et al. (1990), discuten un método corto para calcular la suma de los cuadrados del error, SSe. Este método corto se hace usando los estadísticos de resumen dadas como, Σx2 = ΣX2 – (ΣX)2/n, es decir Sxx, Σxy = ΣXY – ΣXΣY/n, esto es, Sxy; y Σy2 = ΣY 2 – (ΣY)2/n, es decir, Syy. De manera que, cuadrando Σxy se puede usar el método corto para calcular SSe, v. g.: SSe = Syy – (S2xy / Sxx)
(9-6)
Donde: Syy = Σy2, S2xy es el cuadrado de Σxy, y Sxx = Σx2. 9.5. Tipos de correlación lineal. 1. Correlación simple. Este tipo de correlación consiste de dos variables, la dependiente (Y) y la independiente (X). (a) Correlación directa. Esta correlación consiste en el incremento en una variable la cual es acompañada por el incremento de otra variable (correlación positiva). (b) Correlación inversa. Esta correlación consiste en el incremento de una
www.full-ebook.com
variable la cual es acompañada por el incremento de otra (correlación negativa). (c) Correlación no lineal. En esta correlación no hay ninguna asociación entre las dos variables. 2. Correlación múltiple. Aquí, hay más de dos variables. Una variable es dependiente (Y), mientras que las otras son independientes X1, X2,…, Xk, etc. Las figuras de abajo representan varios tipos de correlaciones.
www.full-ebook.com
www.full-ebook.com
www.full-ebook.com
Figura 9.2. (a) Correlación directa. Esta correlación consiste en el incremento de la variable Y, la cual es acompañada por el incremento de la variable X (correlación positiva perfecta), aquí el valor de R = +1.00. (b) Correlación positiva muy pobre o nula, aquí el valor de R es muy bajo. (c) Esta correlación
www.full-ebook.com
consiste en el decremento de la variable Y la cual es acompañada por el decremento de la variable X (correlación negativa perfecta), aquí el valor de R = -1.00. (d) Correlación negativa muy pobre, aquí el valor de R es muy bajo. (g) Correlación no lineal. Aquí no hay ninguna asociación, entre las dos variables. 9.6. Intervalo de confianza para el coeficiente poblacional β componente de la línea de regresión μY|X = α + βX, estimado por b, la pendiente de la línea. Antes del advenimiento de los programas rápidos de cómputo de la era cibernética, esta función era ampliamente usada. Sin embargo, actualmente, esta función ya casi no se usa y tiene un valor meramente didáctico. Esta función se da por la fórmula de abajo. b – t[1-α/2;n-2] s / √x2 < β < b + t[1-α/2;n-2] s / √x2
(9-7)
Donde: b = Σxy / Σx2 t[1-α/2;n-2] = valor de la distribución de t de Estudiante donde Σx2 = ΣX2 – (ΣX)2 / n s =
(9-7a)
= SSe / (n – 2)
(9-7b)
= - (bΣXY - ΣXΣY/n)] / n-2
(9-7c)
β = coeficiente poblacional de la pendiente de la línea, el cual es estimado por b = Σxy / Σx2 o sea el coeficiente de la línea de regresión muestral. s = desviación estándar estimada Nota: La ecuación de la varianza estimada s2 es simplemente el cuadrado de s.
www.full-ebook.com
9.6.1. Intervalo de confianza para el parámetro poblacional α, el intercepto de la ordenada de la línea de regresión μY|X = α + βX, cuyo estimador es a.
(9-8) Donde: a, ya definido anteriormente t[1-α/2;n-2] = a un valor usando la distribución de t de estudiante con ν = n – 2 grados de libertad s ya definido Sxx ya definido Nota: Con el advenimiento de los programas de computadora, estas funciones tienen un valor histórico o pedagógico, dentro del estudio de la estadística.
9.6.2. Intervalo de predicción. Es el rango en el cual la respuesta pronosticada para una nueva observación, con un juego de valores pronosticado dado, se espera que caiga entre los límites inferiores y superiores (como se pueda ver en una gráfica). La función abreviada para calcular el intervalo de predicción es: Yo’ ± tα/2;n-2 s [(1/n + (Xo - )2 / Σx2 )]0.5
www.full-ebook.com
(9-9)
Donde las variables de esta función ya se definieron anteriormente Comentario 1: Aquí es de notarse que, este intervalo de predicción descrito en (9-9), en comparación con el intervalo de confianza descrito en (9-8), si incluye la unidad en la raíz cuadrada. Como resultado de esto, el intervalo de predicción (como se ve en la Figura 9.5c del Ejemplo 9.2) es más ancho que el intervalo de confianza. Esto es de esperarse, porque la predicción de un solo valor (intervalo de predicción más ancho como en (9-9), como se pueda ver en la Figura 9.5c) es más difícil que la estimación del promedio de valores poblacionales.
Comentario 2: El programa Minitab tiene una función para estimar los intervalos de confianza y de predicción mostrados en una gráfica. Para esto, proceder como: Stat → Regression → Fitted Line Plot. Luego en la ventana de “Fitted Line Plot” poner las variables dependientes e independientes. Luego irse a “Fitted Line Plot – Options” y puntear las ventanillas “Display Confidence Interval” y “Prediction Intervals” y “OK”. Estas órdenes producirán una gráfica con bandas de confianza de 95% para los intervalos de confianza y de predicción (ver Ejemplo 9.2).
Ejemplo 9.1. En estudios de tratamiento del agua residual, se sabe que, el drenaje contiene sólidos totales (ST), que incluyen ambos, sólidos suspendidos y sólidos disueltos. Los autores Hari D. Sharma y Sangeeta P. Lewis (1994), dan una descripción la clasificación consistente del drenaje líquido. De acuerdo a esta información, el drenaje líquido contiene menos de 1% de sólidos suspendidos. De cualquier manera, es de saberse que hay una relación entre las concentraciones de sólidos suspendidos totales y la demanda bioquímica de oxígeno (DBO). Independientemente de lo anterior, para este estudio supóngase que se da una información entre las concentraciones de ST y el DBO. La tabla de abajo da los valores de los sólidos totales y del DBO. Tabla 9.1. Datos de ST y DBO
www.full-ebook.com
Hacer lo siguiente: (a) Identificar la variable dependiente y la independiente. Luego hacer un diagrama esparcido con los datos. Refiriéndose al método de los cuadrados mínimos, trazar a mano, la línea que mejor ajuste los datos. (b) Calcular manualmente la pendiente de la ecuación de regresión y el intercepto. Luego estructurar la ecuación de regresión. (c) Predecir el DBO cuando el valor de los sólidos suspendidos es igual a 1000 mg/L. (d) Calcular el coeficiente de determinación R2. (e) Calcular el error estándar estimado, s. Sugerencia: usar sε = [SSe / (n - 2)]0.5. (f) Estructurar una tabla de análisis de varianza, si se da como punto de partida SSa = 348.45. De esta tabla calcular el valor de p y la región crítica asumiendo α = 0.05.
www.full-ebook.com
Solución: (a) El DBO es la variable de respuesta y los sólidos totales la variable independiente. La Figura 9.3 da la gráfica como:
Figura 9.3. Gráfica mostrando el diagrama esparcido de la demanda bioquímica de oxígeno (DBO) y las concentraciones de sólidos totales. (b) Para calcular el modelo de regresión, primeramente, calculamos la pendiente de la ecuación de regresión, procediendo de la siguiente manera. (1) Sabemos que Σxy = ΣXY – ΣXΣY/n y Σx2 = ΣX2 – (ΣX)2/n. Entonces, usando los datos de la Tabla 9.1 se calculan ΣXY, ΣXΣY, ΣX2 y ΣY2 de la siguiente manera: ΣXY = (1050)(167) + (1200)(174) + … + (750)(150) = 782,200.0
www.full-ebook.com
(2)ΣXΣY / n = (4800.0)(808.0) / 5 = 775,680.0 (3) ΣX2 = 4,730,000.0, (ΣX)2/n = (4800)2/5 = 4,608,000 (4) ΣY2 = 130,922.0 y (ΣY)2/n = (808)2/5 = 130,572.8 (5) Por consiguiente: Σx2 = ΣX2 – (ΣX)2/n = 4,730,000 – 4,608,000 = 122,000.0 Σxy = ΣXY – ΣXΣY/n = 782,200.0 – 775,680.0 = 6,520.0. (6) Por lo tanto, pendiente = b = Σxy / Σx2 = 6,520.0 / 122,000.0 = 0.0534 (7) Igualmente, Σy2 = ΣY2 – (ΣY)2/n = 130,922.0 – 130,572.8 = 349.2 (8) Ahora se calcula la media de los valores de Y y la media de los valores de X y da: = 161.6, = 960. Con todos estos valores calculados ya se puede calcular el intercepto sustituyendo los valores en la función de abajo, esto es: Intercepto = – b = 161.6 – 0.0534(960.0) = 110.30 Por lo tanto, sustituyendo los valores en la ecuación de regresión lineal simple Y’ = a + bx da: DBO (Y) = 110.30 + .0534 (Sólidos totales) (c) Usando la ecuación de regresión y sustituyendo 1,000 da:
www.full-ebook.com
DBO (Y) = 110.30 + 0.0534 (1,000) = 163.7 mg/L Nótese que, de la Figura 9.3 también se puede calcular la pendiente y el intercepto usando la relación algebraica, m = (y2 – y1)/(x2 – x1). Debido a que esta ecuación también se puede reescribir como y = mx + b, donde b es el intercepto y m la pendiente. Entonces, usando un valor de y con su correspondiente valor de x, y resolviendo por b se calcula el intercepto (que también se puede calcular de la misma Figura 9.3). (d) Para calcular R2 usando la ecuación (9-4) y sustituyendo los valores calculados de Σy2 = 349.2, (Σxy)2 = (6520.0)2 = 42,510,400.0 y Σx2= 122,000.0, da: R2 = (Σxy)2 / Σx2Σy2 = (42,510,400.0 / [(122,000.0)(349.2)] = 0.998 (e) Aquí, ya sabemos que la forma abreviada de Σy2 es Syy = 349.2. Igualmente, Σx2= Sxx = 122,000.0. También, Σxy = Sxy = 6520.0 y S2xy = (6,520)2 = 42,510,400.0. Ahora, usando la función SSe = Syy – (S2xy / Sxx), y sustituyendo los valores da, SSe = 349.2 – (42,510,400.0/122,000.0) = 0.754 Ahora, para calcular el error estándar estimado sustituimos los valores correspondientes en la función del error estándar estimado y da: sε = [SSe / (n – 2)]0.5 sε = [0.754/(5 – 2)]0.5 = 0.50
www.full-ebook.com
(f) La tabla de ANOVA se da abajo. Tabla 9.2. Tabla de análisis de varianza, con el llenado de los faltantes para este ejemplo.
Aquí nótese que, 348.45 fue el valor dado de SSa y 0.754 fue el valor de SSe calculado usando el método corto mostradas en color lila. Las respuestas calculadas se dan en color azul. Ejemplo 9.1ª. Hacer el mismo ejemplo anterior del DBO y los sólidos totales, pero ahora usando el programa Minitab. Para esto, calcular la ecuación de regresión muestral, la tabla de ANOVA con el valor de F y p. Además, mostrar el valor de R2, el error estándar estimado s, y PRESS. Complementar los resultados objetivistas con los de los residuos estandarizados. Solución: Usando el Minitab irse a: Stat → Regression → Regression. Luego en la ventana de diálogo de “Regression” introducir la variable dependiente (de respuesta) y la independiente. Luego puntear las ventanillas de “Graphs” y “Options” y seguir con las demás instrucciones. Estas instrucciones generan los resultados dados en la figura de abajo. Figura 9.4. Resultados calculados por el Minitab dados en el impreso de abajo.
www.full-ebook.com
Nota: Los valores de R2, s, PRESS, F y p se muestran en color azul. En cuanto a la interpretación del valor del criterio PRESS, para la evaluación del modelo, esto ya se discutió anteriormente. Sin embargo, recapitulando, es de saberse que, modelos con valores bajos de PRESS son deseables, porque cuando los errores de predicción son bajos, también lo serán los errores del cuadrado de predicción y la suma de estos errores.
Figura 9.4a. Figuras mostrando las gráficas de los residuos. Aquí se ve que la gráfica de probabilidad es bastante aceptable, porque la mayoría de los puntos sigue a una línea recta. La gráfica de los valores ajustados también es aceptable, porque sigue a un patrón aleatorio. Ejemplo 9.2. Este es un problema de relacionado con las mediciones promedio
www.full-ebook.com
de registros de diez años, observados en una estación aforadora de un río. La tabla de abajo muestra los flujos del agua (cfs, pies cúbicos por segundo) y las alturas de las mediciones (pies). Tabla 9.3. Tabla mostrando los datos.
Hacer los siguientes cálculos usando el programa Minitab: (a) Identificar la variable dependiente y la independiente. Luego, hacer una gráfica que vaya en función de la variable dependiente Y, y la variable independiente X, con línea de regresión ajustada.
www.full-ebook.com
(b) Obtener la ecuación de regresión lineal simple. Validar la confiabilidad del modelo de regresión, a través de la emisión de un juicio objetivista calculando R2, s, PRESS (es la sigla de suma de cuadrados de la predicción), tabla de ANOVA, etc. Luego validar el modelo de regresión subjetivamente a través de gráficos de residuos. (c) Hacer intervalos de confianza y de predicción asumiendo α = 0.05. (d) ¿Cree usted que exista un relación entre este estudio hidrológico y la ingeniería ambiental relacionada con el calentamiento global, que está alterando los patrones pluviales (por eventos extremos, como muchas inundaciones y muchas sequías), mismos que pudieran estar afectando los flujos de agua y, por lo tanto, también las alturas de las mediciones de las corrientes de agua? (Para contestarse por el lector). Solución: (a) La variable dependiente o de respuesta es la altura del aforo y la variable independiente es el flujo del agua. La gráfica se da en la figura de abajo.
www.full-ebook.com
Figura 9.5. Diagrama esparcido de la altura y el flujo de agua. (b) La ecuación de regresión, y los evaluadores objetivistas del modelo de regresión (R2, s, PRESS, etc.) se dan en la figura impresa de abajo. Figura 9.5a. Figura mostrando los resultados del Minitab en el siguiente impreso.El coeficiente de determinación R2 y el error estándar estimado s, ya se definieron. PRESS es la diferencia entre los valores actuales de Y y los valores pronosticados de Y. Entre más pequeño sea el valor de PRESS, mejor será la utilidad del modelo de regresión candidato.
La evaluación subjetivista usando gráficas de residuos se da en la figura de abajo.
www.full-ebook.com
Figura 9.5b. Figura mostrando los gráficos de residuos. (c) Para hacer las bandas de confianza (95%), para el intervalo de confianza y de predicción usando el Minitab irse a: Stat → Regression → Fitted line Plot y seguir las demás instrucciones. Esto genera la Figura 9.5c de abajo:
www.full-ebook.com
Figura 9.5c. Gráfica mostrando la posición de los puntos dentro de las bandas de los intervalos de confianza (95% IC) y de predicción (95% IP), con nivel de confianza de 95%. Analizando la figura de arriba, se observa que el intervalo de confianza es más angosto (línea roja) que el intervalo de predicción (línea verde). Como se asentó anteriormente, esto se debe a que, el intervalo de predicción es más difícil de calcular, porque la predicción de un solo valor (observado en el intervalo de predicción más ancho) es más difícil de calcular, que la estimación del promedio de valores poblacionales (observado en el intervalo de confianza más angosto). Nota: Recapitulando, el cálculo del coeficiente de determinación R2, da la fuerza relativa de la relación lineal entre X e Y (mide la proporción de variación en Y que puede ser explicada por la variación en X). El valor del error estándar estimado s, se usa como una medida absoluta de la utilidad del modelo. Entre más se aproxime el valor de s, a cero, esto indica que la mayoría de los puntos están más cercanos a línea de regresión y el ajuste del modelo lineal es mejor. El valor de PRESS, como acrónimo de suma de los cuadrados de predicción se usa para validar la utilidad del modelo de regresión. Entre más pequeño sea el valor de PRESS, tanto mejor será el modelo de regresión.
9.7. Regresión y correlación lineal múltiple. En el estudio de regresión lineal múltiple, el objetivo es construir un modelo probabilístico que relacione una variable dependiente con dos o más variables independientes. Siendo así, muchas aplicaciones del análisis de regresión involucran situaciones donde se tiene más de una variable independiente (en contraste con regresión lineal simple, que tiene, solamente, una variable independiente). En la mayor parte de los problemas de investigación se necesitan varias variables independientes para ver el efecto en la variable dependiente. La variable dependiente o de respuesta (Y’) puede estar relacionada con muchas variables independientes o regresoras X1, X2, .., Xk. En el estudio de regresión lineal múltiple se pueden usar el enfoque matricial. 9.7.1. Aplicaciones de regresión lineal múltiple. La regresión múltiple tiene muchas aplicaciones a la ingeniería ambiental en las áreas de contaminación atmosférica y del agua. Por ejemplo, se pueden hacer aplicaciones a problemas relacionados con las concentraciones del oxígeno disuelto en función del tiempo de recorrido de una corriente de agua. Además, tiene aplicaciones a usos del agua y la hidrología. Por ejemplo, se puede aplicar regresión lineal múltiple a las características de vasos de ríos o corrientes de agua. De esta manera, la
www.full-ebook.com
escorrentía se puede relacionar a la precipitación anual y a la elevación de la cuenca. Además, en aplicaciones a usos del agua, es decir en la planeación de los recursos del agua para una región, es útil establecer la relación entre la escorrentía de una vertiente en función de la precipitación, el área de la cuenca, la altura, la longitud, la pendiente, etc. También, se pueden hacer aplicaciones al factor escorrentía que depende de variables como la precipitación pluvial, la evotranspiración, la topografía, geología, retención del agua, etc. Además, en estudios de tecnologías del agua, como en el caso de proyectos de dilución usando las corrientes como plantas naturales de degradación de remanentes de aguas residuales, el oxígeno disuelto en el agua va en función de la temperatura, de la velocidad de la corriente, turbulencia, distancia de la descarga, tipos de zonas bénticas, descargas fugitivas, presión atmosférica, etc. En este contexto, McCuen (1986) discute aplicaciones a la hidrología, relacionadas con el estudio de la descarga pico (cfs) en función de la precipitación (in), duración de la precipitación (in/día), los días antecedentes a la precipitación y así sucesivamente. Más adelante, otros factores que intervienen en la descripción de la lluvia y los volúmenes de las escorrentías (profundidades de desagües) son la impearmiabilidad del suelo, el área, la pendiente, tipos de suelos, rugosidad, etc. En este renglón, sin embargo, de acuerdo a Bedient et al. (1988) el área y el porcentaje de pearmiabilidad del suelo son los factores más importantes para una buena predicción de volúmenes de agua. 9.7.2. Diagnósticos o criterios usados en la evaluación de los modelos de regresión lineal múltiple. Para la evaluación de la utilidad de los modelos de regresión lineal múltiple, estos diagnósticos o criterios son análogos a los usados en la validación de los modelos de regresión lineal simple. Por ejemplo, también se pueden hacer análisis objetivos (estadística de inferencia), como los cálculos de los coeficientes de determinación R2, s, PRESS, etc. Igualmente, se pueden hacer gráficos de residuos para complementar la calidad del modelo de regresión lineal múltiple. También se pueden hacer pruebas de hipótesis e intervalos de confianza. Sin embargo, en este caso, se puede calcular el coeficiente de correlación general y coeficientes de correlación parciales, es decir, en forma análoga a como se hace con los coeficientes βo, β1, …, βk. 9.7.2.1. Coeficiente de determinación R2 de regresión lineal múltiple. Este coeficiente R2 mide la reducción proporcionada de la variación total en Y asociada con el uso de las variables X1, X2,… , Xk. Para la regresión lineal
www.full-ebook.com
múltiple, este coeficiente de determinación se da por las funciones: R2 = SSa / SSt = 1 – SSe / SSt
(9-10) (9-10a)
Donde SSa es la suma de regresión de los cuadrados de los tratamientos, SSt es la suma total de los cuadrados de los tratamientos y SSe es la suma de los cuadrados del error, todos éstos calculados de la tabla de ANOVA. Este coeficiente R2 también se puede dar como R2 = SSa / Syy = 1 – (SSe / Syy), donde estas variables ya se definieron anteriormente. De la misma manera que en el caso de regresión lineal simple, el rango del coeficiente de determinación múltiple R2 es 0 ≤ R2 ≤ 1. Como se asentó en la sección de regresión lineal simple, aquí, en la interpretación de R2, hay que estar conscientes de que, un valor grande de R2, no necesariamente implica que el modelo ajustado sea bueno. Esto ocurre, porque a pesar de que R2 sea grande, el error de la media cuadrática MSe todavía pueda ser muy grande, para sacar inferencias útiles. Similarmente, un valor bajo de R2, no necesariamente indica que el modelo de regresión no sea bueno. En el caso del coeficiente de correlación múltiple R, este coeficiente es simplemente, la raíz cuadrada de R, es decir, R = √R2. Este coeficiente de correlación múltiple R es una medida de asociación lineal entre Y y X1, X2,,…, Xk. Sin embargo, como en el caso de regresión lineal simple, R2 tiene ventajas sobre R, porque la medición de R2 es más fácil de interpretar, que el coeficiente de correlación R. Igualmente, se usa el coeficiente de correlación (R), el error estándar estimado, s, PRESS, etc., todo esto, como en el caso de la regresión lineal simple. 9.7.2.2. Definición del error estándar estimado sε. Para análisis de regresión lineal múltiple, el error estándar estimado se define como: sε = [SSe / (n – k - 1)]0.5
(9-11)
www.full-ebook.com
Donde k es el número de coeficientes (βo, β1, β2, … , βk) del modelo de regresión que se van a usar. Nota: En regresión múltiple este modelo debe de estimar un parámetro por cada término seleccionado que se incluye en el modelo y cada término “consume” un grado de libertad. Por lo tanto, la inclusión de términos excesivos en el modelo de regresión lineal múltiple reduce los grados de libertad disponibles, para estimar la variabilidad de los parámetros y lo puede hacer menos confiable.
Igualmente, se pueden hacer gráficos de residuos para complementar la calidad del modelo de regresión lineal múltiple. También se pueden hacer pruebas de hipótesis, intervalos de confianza, y así sucesivamente. 9.7.3. Otros criterios usados en la validación del modelo de regresión lineal múltiple (VIP’s, , Eigenvalues, etc.). Hay otros criterios o diagnósticos (aparte de las anteriores), que se usan en la evaluación del modelo de regresión lineal múltiple. Para mencionar algunos son los llamados factores de varianza inflada (VIPs o variance inflation factors por sus siglas en inglés), la estadística de Mallow (para la contabilización del número óptimo de variables en el modelo de regresión), Eigenvalues (donde la suma de los eigenvalues es igual al número de variables independientes y cuando el valor de los eigenvalues está cercano a cero, esto anuncia colinealidad), la estadística de Durbin-Watson (si hay una escala de tiempo en el eje X), etc. Por ejemplo, los factores de varianza inflada (VIF) son métodos para detectar problemas de multicolinealidad, los cuales causan toda clase de problemas con el análisis de regresión. En este renglón, para explicar el concepto de los factores de varianza inflada, es menester definir, primeramente, algunos términos como los siguientes: 9.7.4. Multicolinealidad. Colinealidad o multicolinealidad, es la existencia de una relación cercanamente lineal entre las variables independientes. La presencia de multicolinealidad causa toda clase de problemas con el análisis de regresión y es muy importante su identificación para corregirla. La multicolinealidad significa que algunas variables independientes están correlacionadas con otras variables predictoras. Para pronosticar el problema de multicolinealidad se puede hacer analizando los factores de varianza inflada (VIFs). 9.7.4.1. Efectos de multicolinealidad. La multicolinealidad puede crear
www.full-ebook.com
estimaciones inexactas de los coeficientes de regresión, infla los errores estándar de los coeficientes de regresión, desinfla las pruebas parciales de t para los coeficientes de regresión, da valores falsos de p que no son significantes y degrada la predicción del modelo de regresión. 9.7.4.2. Fuentes de multicolinealidad. Para corregir la colinealidad, se tiene que identificar su fuente. De acuerdo a Montgomery (1996), hay cinco fuentes de colinealidad: 1. Colección de datos. En este caso, los datos se han coleccionado de un subespacio angosto de variables independientes. La colinealidad ha sido creada por la metodología usada en el muestreo. Este problema de colinealidad se puede mitigar obteniendo más datos en un rango más expandido. 2. Otras fuentes de colinealidad son constreñimientos físicos del modelo lineal o poblacional. Esta fuente de colinealidad existirá sin importar que técnica de muestreo, se use. 3. Modelo sobre definido. Aquí hay más variables que observaciones. 4. Selección del modelo o especificación. Esta fuente de colinealidad viene por usar variables independientes que son poderes más altos o interacciones de un juego de variables originales. Debe de notarse que, si un subespacio de muestreo de Xj es angosto, entonces, cualquier combinación de variables con Xj aumentará el problema de colinealidad, aún más. 5. Valores extremos. Estos valores extremos en el espacio de X pueden causar problemas de colinealidad y mucha variación. 9.7.4.3. Métodos para la detección de colinealidad. Existen varias maneras para detectar colinealidad. Los siguientes pasos, de simple a complejo, se usan para detectar la colinealidad. 1. Empezar por estudiar las gráficas esparcidas de pares de variables independientes buscando relaciones cercanamente perfectas.
www.full-ebook.com
Desafortunadamente, la multicolinealidad no siempre se muestra cuando se consideran las variables, dos a un tiempo. 2. Considerar los factores de varianza inflada (VIFs). Los VIFs miden, cuanto de la varianza de un coeficiente de regresión estimado aumenta, si las variables pronosticadoras están correlacionadas. Valores grandes de VIFs anuncian variables colineales. Como se dijo antes, según la lógica del Minitab, si los VIFs < 1 no hay colinealidad, pero si son VIFs > 1 si puede haber colinealidad. Por otra parte, según la lógica del programa de cómputo NCSS, para que no haya problemas de colinealidad el promedio de los VIFs debe ser menor que 10. De acuerdo a esta fuente de información, el promedio de 10 es el VIF máximo aceptable. Aquí es de saberse que, no hay un consenso bien definido entre los investigadores estadísticos, acerca de valores aceptables de VIF. 3. Otros factores que se tienen que tomar en consideración son los llamados Eigenvalues. La suma de los valores de los Eigenvalues es igual al número de variables independientes. De acuerdo al programa de cómputo NCSS, valores de Eigenvalues cercanos a cero, dicen que hay colinealidad en los datos, es decir, que los datos están correlacionados (hay dependencia). Por ejemplo, un valor de un Eigenvalue de cero o cercano a cero indica la existencia de una dependencia lineal exacta. 4. Análogamente, de acuerdo a la lógica del NCSS, el diagnóstico da el número óptimo de variables para el modelo de regresión. Esta estadística, también llamada estadística de Mallow, es importante en la selección del número de variables incluidas en el modelo de regresión. El valor óptimo de deberá estar cercano a (p + 1), donde p es el número de variables independientes. No obstante, un valor de mayor (p + 1) indica que el modelo de regresión contiene muchas variables innecesarias, mismas que llevan al problema de colinealidad. Además, un modelo con un menor que (p + 1), indica que el modelo de regresión está subespecificado o que, cuando menos, una variable independiente fue omitida. 5. Otros estadísticos objetivistas para validar el modelo de regresión múltiple son las pruebas individuales de t de estudiante, para probar la hipótesis nula de que los coeficientes de regresión, β1, β2, β3,.. βk son iguales a cero. Además se pueden usar los intervalos de confianza. Por ejemplo, en regresión múltiple el
www.full-ebook.com
valor de t de estudiante se usa para probar la hipótesis de que uno de los coeficientes es igual a cero, después de remover la influencia de los otros. 6. Otra estadística relacionada con regresión lineal múltiple es la estadística Durbin-Watson para detectar problemas de autocorrelación en series de tiempo. Esta estadística se calcula como DW = 2(1 - r1). Aquí, debido a que r1 está en el rango de -1 y 1, la estadística de Durbin-Watson está entre 0 y 4. Si la estadística D-W está cercana a 2, entonces, r1 está cercana a cero, lo cual indica que los residuos no están correlacionados. Sin embargo, si la estadística D-W es muy diferente de 2, se dice que los residuos están correlacionados. Esta situación se explicará detalladamente, en el capítulo de series de tiempo. Más adelante, cuando hablamos de regresión lineal múltiple describiremos los tipos de modelos regresión lineal múltiple de primer orden con una y más variables independientes. Comentario. Usando un intelectualismo especulativo, aquí es interesante notar que el modelo económico de Estados Unidos de América, siempre ha padecido de colinealidad con valores menores que (p + 1). Esto ocurre, porque cuando hablamos del criterio de Mallow, éste dice que, un modelo con un menor que (p + 1), esto indica que el modelo de regresión está subespecificado o que, cuando menos, una variable independiente fue omitida. Tal parece que ese es el problema con el actual modelo económico de E. U., porque se está simulando como si fuera un sistema independiente del resto de los demás sistemas que interactúan con el hombre. Esto dice que, este modelo económico no se está modelando al unísono, con los demás sistemas como políticos, climatológicos, sociales y demás sistemas que gobiernan con el hombre moderno (A nivel mundial); se están omitiendo todas esas variables. No se está razonando que todos los sistemas universales (como los sistemas políticos, económicos, sociales, climatológicos, etc.) son partes dependientes de todo un macrosistema o conjunto universal, como parte independiente. (Ver Paztor 1998). La condición del actual modelo económico, es una situación que no se le ha dado importancia, porque aparentemente, la economía de E. U., todavía no se ha visto seriamente afectada, aunque algunos economistas arguyen que las predicciones del modelo económico no son precisas. (Por ahora, este modelo económico no ha sido muy seriamente afectado, tal vez por las influencias políticas y económicas que, tradicionalmente, se han ejercido a los demás países). Por otra parte, de mi punto de vista, sostengo la teoría de que, para que pueda haber predicciones más precisas, todos los sistemas que interactúan con el hombre deben modelarse conjuntamente, es decir, confabuladamente, para que pueda haber buenas predicciones. Usando un intelectualismo científico especulativo, el suscrito sostiene la teoría de que, si se modelara (al unísono) todo el conjunto de sistemas universales, que estuvieran en su estado perfecto de equilibrio original, la simulación matemática, bajo esas condiciones prístinas, daría como resultado final, la unidad. Por otro lado, predicciones imprecisas ya se han observado en el modelado del sistema climatológico mundial. El problema es que, este sistema se está simulando, como si fuera una parte independiente del conjunto universal, sin tomar en cuenta los sistemas económicos, políticos, sociales, de salud, etc. Como resultado de esta omisión; no ha habido un consenso definido en los resultados; ha habido disparidad en los resultados obtenidos en los países donde se han usado estos modelos que han tomado en consideración, únicamente, el sistema climatológico (como si fuera una parte independiente del resto de los demás sistemas), y no en combinación con los demás sistemas que interactúan con el hombre (como debiera ser). En términos analógicos, para aclarar, aun más esta situación, si consideramos, por ejemplo, un microsistema
www.full-ebook.com
como el cuerpo humano, sería un error tratar de simular el funcionamiento de cada órgano como parte independiente del resto del organismo. Es decir, como por ejemplo, del funcionamiento del corazón o de cualquier otro órgano del cuerpo, como si fuera una parte independiente de todo el organismo como unidad independiente. Esto daría resultados incorrectos. Esto ocurre así, porque en el caso del cuerpo humano, no se está razonando que todos los órganos o sistemas de este microconjunto, son partes dependientes de todo el organismo, como unidad independiente (Ver Paztor 1998).
9.8. Modelo de regresión múltiple generalizado. Cuando este modelo general es lineal en los coeficientes, se denomina modelo de regresión múltiple. Por ejemplo, para el caso de k variables independientes X1, X2, X3,..., Xk, el promedio está dado por Y|x1, x2, x3,..., xk y se da por el modelo de regresión múltiple poblacional: Y = μY|x1, x2, x3,..., xk = βo + β1x1 + β2x2 + ...+ βkxk + εk
(9-
12) Este modelo, también se puede expresar con otra anotación como: j = βo + β1X1j + β2X2j + ……. + βkXkj + εj
(9-12a)
Los parámetros βj, j = 0, 1, 2, 3,.., k se conocen como coeficientes de regresión poblacionales. Por ejemplo, el parámetro βj representa el cambio esperado en la respuesta Y, por unidad de cambio en Xj, cuando todos los demás pronosticadores Xi se mantienen constantes. Además, εi y ei son los errores aleatorios o residuos de población de la estadística asociados con la respuesta Yi. El modelo de regresión lineal múltiple de la muestra, que trata de armonizarse con el modelo poblacional de arriba es: Y = bo + b1X1 + b2X2 + ... + bk Xk + e
(9-12b)
Donde Y es la variable de respuesta y X1, X2 y Xk son las variables independientes, que tiene el mismo significado que en el caso del modelo de regresión lineal. Además, cada coeficiente de regresión parcial βi es estimado
www.full-ebook.com
por bi. Esto se debe a qué, cada coeficiente parcial βi mide el cambio esperado en Y por unidad de cambio en X1, cuando X2 se mantiene constante. Igualmente, β2 mide el cambio esperado en Y por unidad de cambio en X2 cuando X1 se mantiene constante. 9.8.1. Modelo de regresión de primer orden con dos variables independientes. Este tipo de modelo de regresión debe usarse cuando el investigador estadístico cree que, en promedio, la variable Y está relacionada linealmente para cada una de las variables x1 y x2. Este modelo poblacional se describe como: y = βo + β1x1 + β2x2 + ε
(9-13)
El estimador estadístico del modelo poblacional de arriba es: Y = bo + b1 x1 + b2 x2 + e
(9-13a)
Donde Y es la variable dependiente o de respuesta; x1 y x2 son las dos variables independientes o regresoras; bo, b1, b2 son los coeficientes de regresión y, e es el residuo o error aleatorio estadístico. Este modelo de regresión estadístico trata de concordar con el modelo de regresión poblacional de arriba. (Aquí se espera que la concordancia entre el modelo de regresión estadístico y el poblacional sea buena, cuando el tamaño de la muestra sea grande y la diferencia entre ei y εi sea pequeña). 9.8.2. Modelo poblacional de regresión lineal múltiple de primer orden con dos variables independientes con interacción. La interacción ocurre cuando los efectos de las variables independientes sobre la variable dependiente no son aditivos o sea que el efecto de una variable independiente depende en los niveles de las otras variables independientes. En términos simples, esto significa que el efecto de x1 sobre Y es influenciado por el valor de x2 y también significa que el efecto de x2 sobre Y es influenciado por el valor de x1. La ecuación del modelo poblacional de regresión de primer orden con dos variables independientes con
www.full-ebook.com
interacción se da como: y = βo + β1 x1 + β2 x2 + β3( x1 x2) + ε
(9-14)
El modelo estadístico que trata de armonizarse con el modelo poblacional de arriba, con interacción se da como: Y = bo + b1 x1 + b2 x2 + b3 (x1 x2) + e
(914ª)
Donde los componentes de este modelo ya se definieron anteriormente. 9.8.3. Modelo de regresión múltiple con más de dos variables independientes. Yi = βo + β1xi1 + β2xi2 + … + βp-1xi,p-1 + ε
(9-15)
El modelo de regresión estadístico que trata de concordarse con el modelo poblacional de arriba, es: yi = bo + b1xi1 + b2xi2 + … + bp-1xi,p-1 + e
(9-15ª)
Donde yi, la variable dependiente o de respuesta que denota la respuesta en las iésimas tentativas; xi1, xi2, xi,p-1 son las dos variables independientes; bo, b1, b2 son los coeficientes de regresión y, e es el error o residual. Como se asentó anteriormente, cuando hablamos de regresión lineal múltiple, el principal objetivo es la obtención de la ecuación de la línea de regresión muestral, para predicción y estimación, la cual emula a la ecuación poblacional. Sin embargo, antes de poder usar el modelo de regresión calculado, éste tiene que evaluarse, para ver qué tanta confiabilidad o fidelidad se le pueda dar. La evaluación o validación del modelo de regresión estimado se hace a través de análisis objetivos y subjetivos, en forma análoga como en el caso de la regresión lineal simple. Por ejemplo, los análisis objetivistas se hacen a través de
www.full-ebook.com
funciones estadísticas de inferencia. Posteriormente, para que la validación del modelo sea completa, el procedimiento se complementa usando enfoques subjetivistas, a través de análisis de las gráficas de los valores residuos. Si la validación no es satisfactoria, se procede con remediación del modelo, ya sea haciendo transformaciones de los ejes o probando otros modelos más apropiados, como cuadráticos o cúbicos, etc. El tópico de regresión polinomial se verá en el siguiente capítulo. Ejemplo 9.3. Este es un ejercicio relacionado con una variable de respuesta (Y) y dos variables independientes (X1, X2), para que el lector se familiarice con aplicaciones de modelos de regresión lineal múltiple. La tabla de abajo da la información pertinente para este ejercicio. Tabla 9.4. Tabla mostrando la información requerida para este problema de regresión lineal múltiple.
Usando el programa Minitab hacer lo siguiente: (a) Hacer una gráfica sobrepuesta que vaya en función de la variable de respuesta y las variables regresoras.
www.full-ebook.com
(b) Describir el modelo poblacional, que represente a estos datos. (c) Estructurar el modelo de regresión, que estime al modelo poblacional. (d) Validar la utilidad del modelo en (c) usando criterios objetivistas y subjetivistas (e) Incluir el factor de interacción en el modelo de regresión. ¿Es factible su inclusión? (f) Discutir todos los resultados obtenidos. (El estudiante lo deberá hacer) Solución: (a) La gráfica se da en la figura de abajo:
Figura 9.6. Gráfica sobrepuesta de la variable de respuesta Y y las variables independientes X1 y X2. (b) El modelo poblacional que representa a los datos se da como: y = βo + β1x1 + β2x2 + ε (c) La estructuración del modelo de regresión se da en la figura de abajo.
www.full-ebook.com
Figura 9.6a. Impreso mostrando los valores obtenidos del modelo de regresión y su evaluación correspondiente.
Figura 9.6b. Figura mostrando los gráficos de residuos que complementan la evaluación del modelo de regresión. (e) La inclusión del factor de interacción no mejora, de ninguna manera, la calidad del modelo de regresión. El estudiante deberá comprobar y argumentar, porque es así.
www.full-ebook.com
Figura 9.6c. Impresión esquemática de la hoja del Minitab mostrando los datos originales y los cálculos de la interacción. 9.8.4. Análisis de regresión con variables transformadas. En estudios de regresión, la transformación de los datos es necesaria para asegurarse de que los datos tengan una distribución normal, porque en el análisis de regresión se asume que los datos son lineales, normales y homoscedásticos. Para detectar mayores desviaciones de lo normal, lo primero que se tiene que hacer es graficar los datos. Luego hacer estadísticas descriptivas y analizar el sesgo y la kurtosis. Por ejemplo, una buena indicación de que los datos son normales es el sesgo, el cual debe estar en el rango de -0.8 a 0.8 y la kurtosis debe estar en el rango de -3.0 a 3.0 (ver referencia: http:/www.backrags.com). Si los datos no siguen a una distribución normal, en algunas ocasiones es necesario hacer transformaciones de las variables del modelo de regresión, con el objeto de mejorar su calidad de predicción. Keller et al. (1990) discuten varios casos de transformaciones. Por ejemplo, estos investigadores estadísticos recomiendan hacer una transformación logarítmica en la ordenada, cuando la varianza del error σ2ε aumenta a medida .
www.full-ebook.com
que los valores de y aumentan, es decir, cuando existe el problema de heteroscedasticidad. También recomiendan hacer este tipo de transformaciones logarítmicas, cuando la distribución de la variable del error no es normal, esto es, cuando la distribución se sesgada hacia la derecha. Igualmente, se recomienda hacer transformaciones cuadráticas (y’ = y2), cuando el error σ2ε es proporcional al valor esperado de y o cuando la distribución del error ε está sesgada hacia la izquierda. Más adelante, se recomienda hacer transformaciones de la raíz cuadrada de y, esto es, √y, cuando el error σ2ε es proporcional al valor esperado de y. Finalmente, estos investigadores recomiendan hacer transformaciones del recíproco, es decir, y’ = 1/y, es decir, cuando el error σ2ε significantemente se incrementa, esto es, cuando el valor de y aumenta más allá de algún valor crítico. Otras transformaciones que se pueden hacer son transformaciones de raíz cúbica, transformaciones angulares, transformaciones del arco-seno para proporciones, etc. Igualmente, otros investigadores (ver Sakia, 1992, y Box, 1964) discuten el uso de la familia de transformaciones de Box-Cox, el cual es un enfoque muy útil para transformar los datos en regresión lineal. Ejemplo 9.4. Este es un ejercicio d regresión lineal múltiple, usando una variable dependiente (Y) y dos variables independientes (X1 y X2), cuya finalidad es la aplicación de transformaciones para encontrar el mejor modelo candidato de regresión que represente los datos. Tabla 9.5. Tabla mostrando la información requerida para este problema.
www.full-ebook.com
Hacer lo siguiente: (a) Usando los datos originales de la tabla de arriba, estructurar un modelo de regresión lineal múltiple (b) Validar la utilidad del modelo en (a) usando criterios objetivistas y subjetivistas (c) Hacer una transformación logarítmica (base 10), y con los datos transformados y estructurar un modelo de regresión lineal múltiple (d) Evaluar la calidad del modelo de regresión con los datos transformados en (c). (e) Hacer comentarios acerca de los resultados de los dos modelos. ¿Hubo alguna una mejoría significante al transformar los datos? Solución:
www.full-ebook.com
Para hacer los cálculos con el Minitab proceder como: Irse a: Stat → Regression → Regression. En la ventana de diálogo de “Regresión” poner los valores de la variable dependiente y las variables independientes. Luego puntear la ventanilla de “Graphs” y puntear “Four in One” y “Standardized” y “OK”. Enseguida, puntear la ventanilla de “Variance inflation factors”, “PRESS” y teclear “OK”, “OK”. Esto genera los datos dados en la Figura 9.7 de abajo. (a) (b) La estructuración del modelo se da abajo con sus respectivos criterios evaluadores. Figura 9.7. Impreso de los resultados obtenidos usando los datos originales.
Figura 9.7a. Gráfica de residuos usando los datos originales.
www.full-ebook.com
(c), (d) La figura de abajo muestra los resultados después de hacer las transformaciones logarítmicas. Figura 9.7b. Impreso mostrando los resultados obtenidos al hacer las transformaciones.
www.full-ebook.com
Figura 9.7c. Gráficos de residuos con transformaciones. Nótese la diferencia y mejoría con respecto a la Figura 9.7a. (e) Se hacen los siguientes comentarios: Al hacer las transformaciones de los datos, el valor del error estándar estimado s bajó por una orden de magnitud, es decir, de 0.3498 a 0.0312. El valor de R2 subió a 94.2% de 85.7%. El valor de PRESS bajó por dos órdenes de magnitud, es decir, de 2.44 a 0.014. El valor de F subió a 73.0 de 26.93. En cuanto a los diagnósticos evaluadores de los residuales, se observa que la gráfica de probabilidad es más aceptable con las transformaciones, que sin éstas. La gráfica de residuales ajustados cuando se hace la transformación, existen la misma cantidad de residuales negativos y positivos, cosa que no fue así con los datos originales. Finalmente, el histograma con los datos transformados es más simétrico que con los datos originales.
www.full-ebook.com
Figura 9.7d. Impreso esquemático mostrando las entradas de los valores originales y de los valores transformados logarítmicamente. Ejemplo 9.5. Este ejemplo está relacionado con las lagunas de estabilización usadas en el tratamiento de aguas residuales. El experimento consiste en usar 4 variables independientes y una variable dependiente. Es decir, para la evaluación de la eficiencia (%) de la laguna de oxidación, en función de variables, como por ejemplo, el tiempo de retención (x1), temperatura (x2), índice de radiación ultravioleta, (x3) y sólidos suspendidos (x4). Comentario: La radiación ultravioleta (UV) era un problema que no se observaba antes de la era industrial. Esto se debe a que, actualmente, el cinturón de ozono natural o bueno que está situado en la estratosfera (para distinguirlo del ozono artificial o malo que se produce al ras del suelo, por las emisiones vehiculares e industriales), que protege a la tierra de los nocivos rayos UV-A y UV-B del sol, está siendo diluido por las emisiones industriales, es decir, de los compuestos clorofluorcarbonados, y por los óxidos de nitrógeno (NO), y por los NOx, etc., mismos que, al estar diluyendo la capa de ozono estratosférico, están dejando
www.full-ebook.com
pasar la radiación ultravioleta. Esta radiación UV es un tipo de radiación que tiene frecuencias más altas que la luz violeta y su longitud de onda es menor que cerca de 400 nanómetros (Atkins, et al. 1997). Es de saberse que la radiación UV-B, no tan solo está afectando a los humanos (causando cáncer en la piel, cataratas en los ojos, alteraciones del DNA, etc.), sino que también está afectando a los animales y las plantas. De esta manera, actualmente, es necesario incluir en el modelo de regresión la variable del índice de la radiación UV (cuyo rango es de 0-14 y hasta de 0 a 16), porque puede estar afectando a las algas y bacterias que, simbióticamente, trabajan en la degradación del drenaje en las lagunas de oxidación. Estas condiciones, por lo tanto, pueden estar afectando la eficiencia de las lagunas de estabilización.
Tabla 9.6. Tabla mostrando los datos de este problema.
Hacer lo siguiente: (a) Describir el modelo de regresión poblacional aplicable a este problema. (b) Estructurar el modelo de regresión estadístico y validar su utilidad, a través de diagnósticos objetivistas y subjetivistas. Solución:
www.full-ebook.com
(a) El modelo de regresión lineal múltiple poblacional, con cuatro variables independiente para este problema se da como: Y = βo + β1x1 + β2x2 + β3x3+ β4x4 + ε (b) El modelo de regresión lineal múltiple estadístico se da en la figura de abajo como: Y = 52.7 + 0.214 (X1) + 0.354 (X2) - 2.22(X3) + 0.0176 (X4) Figura 9.8. Figura mostrando los resultados impresos del Minitab.
www.full-ebook.com
Figura 9. 8a. Evaluación complementaria del modelo de regresión usando gráfica de residuales. 9.9. Regresión polinomial. La regresión polinomial o no lineal es un caso especial de la regresión lineal, en la cual la relación entre la variable dependiente y la variable independiente se modelan como un polinomio de un orden k. Dentro del tópico de regresión no lineal se incluye la regresión polinomial (cuadrática, cúbica, cuártica, etc.), la regresión logística, regresión con variables transformadas y así sucesivamente. Con relación a la regresión polinomial existen modelos polinomiales de segundo (cuadráticos) o tercer orden (cúbicos). Además, existen modelos con una variable independiente, con ecuaciones cuadráticas, cúbicas o con órdenes más altos que k = 3. También hay modelos polinomiales con dos o más variables independientes, con ecuaciones de segundo, tercer orden, etc. Igualmente, puede haber modelos de segundo orden o tercer orden con interacción. Sin embargo, los modelos polinomiales que tienen tres o más variables independientes, con valores de k > 3 son aplicaciones muy dificultosas y no se discutirán en este texto. Dentro del tópico de regresión, también hay modelos de regresión no lineal, como los modelos de regresión exponenciales, en los cuales los parámetros no son lineales. 9.9.1. Modelo de regresión polinomial poblacional. El modelo poblacional de regresión polinomial generalizado se da como:
www.full-ebook.com
y = βo + β1x + β2 x2 + ……… + βk xk + ε
(9-16)
El modelo estimador estadístico del modelo de regresión poblacional de arriba es: y = bo + b1x + b2 x2 + …… + bk xk + e
(9-16ª)
9.9.2. Modelo polinomial poblacional de segundo orden (k = 2), con una variable independiente. El modelo polinomial poblacional de segundo orden, con una variable independiente, con la función de respuesta cuadrática Y se da como: Y = βo + β1x + β2 x2 + ε
(9-17)
El modelo polinomial estadístico que estima al modelo polinomial poblacional de arriba es: y = bo + b1x + b2x2 + e
(9-17a)
Donde: y = variable dependiente o función de respuesta bo = intercepto en la ordenada que representa la respuesta media de y, cuando x = 0 b1 = coeficiente de regresión de efecto lineal b2 = coeficiente de efecto cuadrático x = variable independiente o regresora e = error aleatorio o residuo La forma básica de este modelo de regresión polinomial de segundo orden es una parábola de la forma f(x) = x2, o sea, una parábola abierta hacia arriba, es
www.full-ebook.com
decir, cuando b2 > 0. No obstante, cuando b2 < 0, la parábola se abre hacia abajo, y puede ser de la forma f(x) = -0.5x2 + 4. Estas situaciones se ven en las figuras de abajo.
Figura 9.9. En la gráfica del lado izquierdo, b > 0 y la parábola se abre hacia arriba. En la gráfica del lado derecho, b < 0 y la parábola se abre hacia abajo.
www.full-ebook.com
9.9.3. Modelo cuadrático de regresión con dos variables independientes, sin interacción. Este modelo de regresión poblacional se da como: = βo + β1 x1 + β2 x2 + β3 x21 + β4 x22 + ε
(9-18)
Su correspondiente estimador de regresión estadístico es: y = bo + b1 x1 + b2 x2 + b3 x21 + b4 x22 + e
(9-18ª)
Donde: y es la variable de respuesta, bo es el intercepto en la ordenada; b1, b2, b3, b4 son los coeficientes de la ecuación de regresión de efecto lineal. Además, x21, x22 son los coeficientes de efecto cuadrático y e es el error aleatorio. 9.9.3.1. Modelo cuadrático con dos variables independientes con interacción. El modelo de regresión cuadrático poblacional con dos variables regresoras se da como: Y = βo + β1 x1 + β2 x2 + β3 x21 + β4 x22 + β5(x1x2) + ε
(9-
19) Su correspondiente concordante de regresión estadístico es: y = bo + b1 x1 + b2 x2 + b3 x21 + b4 x22 + b5(x1x2) + e
(9-
19ª) Sin embargo, antes de discutir estos modelos de regresión, hay que definir el término interacción relacionado con regresión polinomial, en la misma forma que se hizo con la regresión lineal múltiple. Por ejemplo, en el caso de regresión polinomial con dos variables independientes (x1 y x2) con interacción, esto significa que no hay aditividad, y al graficar los resultados hay cruzamiento entre las líneas. Sin embargo, en el caso de no interacción, hay lo que se llama
www.full-ebook.com
aditividad, y al graficar los resultados las líneas no se cruzan entre si. De esta manera, si un investigador estadístico sospecha que en sus datos existe una interacción entre la variable dependiente (y) y las variables independientes x1 y x2, entonces, se debe de inclinar por el modelo de segundo orden con interacción, como el mostrado en la función (9-19ª). Nota: las aplicaciones de modelos de regresión cuadrática, con más de dos variables independientes son difíciles de hacer, porque casi siempre causan problemas de colinealidad haciendo que los VIFs sean muy altos. Por esta razón, en este texto no se darán ejemplos donde se involucren más de dos variables independientes. Sin embargo, el autor los menciona, únicamente para fines didácticos.
9.9.4. Modelo polinomial poblacional (de segundo orden o cuadrático), con tres variables independientes sin interacción. El modelo de segundo orden con tres variables independientes, cuando estas variables no interaccionan entre si (para fines didácticos) se da como: y = βo + β1x1 + β2 x2 + β3 x3 + β4 x21 + β5 x22 + β6 x23 + ε (9-20) 9.9.4.1. Modelo polinomial poblacional (de segundo orden o cuadrático), con tres variables independientes con interacción. De esta manera, el modelo de segundo orden con tres variables independientes, con interacción es: Y = βo + β1x1 + β2 x2 + β3 x3 + β4 x21 + β5 x22 + β6 x23 + β7(x1x2) + β8(x1x3) + β9(x2x3) + ε (9-21) Y el modelo estadístico que trata de concordarse con el modelo poblacional de arriba es: y = bo + b1x1 + b2 x2 + b3 x3 + b4 x21 + b5 x22 + b6 x23 + b7(x1x2) + b8(x1x3) + b9(x2x3) + e (9-21ª) Donde:
www.full-ebook.com
y = variable dependiente o función de respuesta bo = intercepto en la ordenada b7, b8, b9 son los coeficientes del efecto de interacción entre los pares de variables x1x2, x1x3 y x2x3 e, ya definido anteriormente Nota: Nuevamente, el autor menciona someramente estos modelos polinomiales con tres o más variables independientes, únicamente con fines didácticos o pedagógicos.
9.10. Modelo polinomial poblacional de tercer orden (k = 3), o cúbico con una variable independiente. y = βo + β1 x + β2 x2 + β3 x3 + ε
(9-22)
El modelo de regresión estadístico que trata de emular al modelo poblacional de arriba se da como: Y = bo + b1 x + b2 x2 + b3 x3 + e
(9-22a)
Donde: Y = variable dependiente bo = intercepto en la ordenada b1 = coeficiente de efecto lineal b2 = coeficiente de efecto cuadrático b3 = coeficiente de efecto cúbico. e = error La Figura de abajo muestra gráficas de un modelo cúbico.
www.full-ebook.com
Figura 9.10. Figura mostrando la gráfica de una ecuación cúbica de la forma f(x) = 2x3 – x2 – 5x. Nota: Los modelos polinomiales de poderes más altos que k = 3 deben de usarse con precaución. Esto se debe a que, la interpretación de los coeficientes es difícil, y las interpolaciones pueden ser peligrosas. Además, cuando hablamos de modelos con valores de k = 4, o k = 5, el comportamiento de semejantes modelos es extraño y de aplicaciones raras y, por lo tanto, no se discutirán aquí.
9.11. Evaluación de los modelos de regresión polinomiales. Como se dijo antes, la regresión polinomial es un caso especial de los modelos de regresión lineal simple y múltiple. La validación de estos modelos es análoga a la de los modelos de regresión lineal. Sin embargo, antes de estar totalmente seguros acerca de la utilidad del modelo de regresión seleccionado, para fines de predicción y estimación, hay que ver que el modelo represente adecuadamente la relación entre las variables. Esto se puede hacer en forma análoga a como se hizo con los modelos de regresión lineal o múltiple. Esto es, a través de enfoques objetivistas, es decir, de estadística de inferencia (R2, s, PRESS, etc.), y de enfoques subjetivistas, es decir, de análisis de gráficos de residuales. Para la validación de los modelos de regresión seleccionados, se puede proceder, jerárquicamente, es decir, ajustando modelos de segundo y tercer orden, con interacción y sin interacción y, luego se explora la posibilidad de ajustar un
www.full-ebook.com
modelo de orden más bajo como modelos de regresión lineal múltiple, pero con interacción y sin interacción. De cualquier manera, como se dijo antes, para evaluar los modelos de regresión polinomiales se procede explorando los criterios estadísticos, como el coeficiente de determinación múltiple (R2), el error estándar estimado (sε), el coeficiente de determinación múltiple (R2), el criterio de Mallow, PRESS o, los valores de t, etc. Además, se revisan los valores de VIF (factores de varianza inflada; en donde valores grandes de VIFs indican grandes diferencias entre los coeficientes de regresión estimados y los estandarizados), es decir, para ver posibles problemas de colinealidad. También, se puede usar la estadística de Durbin-Watson para revisar problemas de autocorrelación de los residuos, en series de tiempo. Aquí, para regresión múltiple, de acuerdo a la lógica del programa NCSS, ésta dice que, si esta función está cercana a 2, no hay autocorrelación, pero si es muy diferente de 2, entonces, si la hay. Similarmente, se pueden usar otros métodos como “Regresión por Pasos” o “Todas las Regresiones Posibles”, que seleccionan los modelos óptimos basándose en los criterios arriba citados, es decir, agregando y/o eliminando las variables independientes o de respuesta. Finalmente, todo esto se puede complementar analizando, subjetivamente, los gráficos de los residuos estandarizados o no estandarizados, esto es, examinando la prueba de normalidad, residuos versus valores ajustados, residuos versus los órdenes, etc. 9.11.1. Cálculos y definiciones de los estadísticos objetivistas, para evaluar la utilidad del modelo polinomial, usando diagnósticos estadísticos como R2, s, PRESS o criterio de Mallow. Por ejemplo, como se asentó anteriormente, el coeficiente de determinación R2 mide la reducción de proporción de variación total en Y asociada con el uso de las variables independientes X1, X2,.. Xp-1. Aquí, cuando p = 1, el coeficiente de determinación múltiple se reduce al coeficiente de determinación lineal simple, es decir, cuando hay una variable aleatoria X en el modelo de regresión. Este coeficiente de determinación usado en la validación del modelo de regresión lineal múltiple se describe como: R2 = SSa / SSt
(9-23)
= Syy – SSe / Syy
www.full-ebook.com
Donde: SSa y SSt son las sumas de los cuadrados de los tratamientos y suma de los cuadrados del total, respectivamente, y donde Syy = SSa + SSe, donde SSe = Σ(yi – Yi)2 o sea la suma de los cuadrados del error Similarmente, el cálculo del estadístico del error estándar estimado se da como: se = (SSe /n – 1 – k)0.5
(9-24)
Donde, SSe = Σe2i es la suma de los cuadrados del error o residuo ya definido anteriormente, n es el tamaño de muestra y, k es el número de coeficientes βi probados. Un valor de se cercano a cero, indica un buen ajuste del modelo, pero sin ser una medida absoluta de la utilidad del modelo, es decir, sin antes analizar todos los demás diagnósticos objetivistas y subjetivistas. No obstante, un valor grande de se indica un modelo pobre que tiene que mejorarse. El programa Minitab reporta el error estándar estimado como s. 9.11.2. Criterio o criterio de Colin Mallow. Este diagnóstico está relacionado con el error cuadrático medio de un valor ajustado. De acuerdo a una fuente de información cibernética de Wikipedia (ver referencias bibliográficas), uno de los problemas que pueden ocurrir con el modelo de regresión es el problema de colinealidad. Esta situación comúnmente ocurre cuando el investigador incluye muchas variables independientes en el modelo de regresión, esperanzado a que la predicción sea mejor. Sin embargo, si no se es parsimonioso, en la inclusión de las variables independientes, esto tendrá efectos de correlaciones altas, las cuales no se pueden estimar separadamente. Acordemente, cuando se incluyen muchas variables regresoras cuyos coeficientes deben ser estimados, se dice que el modelo esta “sobre ajustado.” El peor de los casos ocurre cuando el número de parámetros a ser estimados es más grande que el número de observaciones de tal manera que, algunos efectos no podrán ser estimados del todo. De acuerdo a la información anterior, si P regresores se seleccionan de un juego de valores K > P, la estadística se define como:
www.full-ebook.com
Donde:
es la suma de los cuadrados del error con P regresores s2 es la media cuadrática residual, después de la regresión sobre el juego completo de K regresores N es el tamaño de la muestra P es el número de variables independientes Aunado a lo anterior, generalmente se prefieren valores pequeños de . El modelo óptimo tiene un valor de cercano a (P + 1), donde, P es el número de variables independientes. Por ejemplo, un > (P + 1) indica que el modelo de regresión contiene variables innecesarias que puedan dar problemas de colinialidad. Sin embargo, si < (P + 1), esto indica que se han omitido variables importantes. 9.11.3. Criterio PRESS. Como se dijo antes, este criterio o diagnóstico estadístico mide, qué tan bien el uso de los valores ajustados, para un modelo pueden predecir las respuestas observadas de Yi. Modelos con valores bajos de PRESS son deseables, porque cuando los errores de predicción son bajos, también lo serán los errores del cuadrado de predicción y la suma de estos errores. (Ver Neter et al. 1996, para la función dada por estos autores).
www.full-ebook.com
9.12. Análisis gráficos, para la evaluación subjetiva del modelo de regresión. Para hacer la evaluación, subjetivamente, de la bondad de ajuste de los modelos polinomiales usados, son semejantes a aquéllos usados en la evaluación de los modelos de regresión lineal múltiple. Es decir, la gráfica de normalidad, gráfica de residuos versus valores ajustados de para la prueba de independencia (la más recomendada para análisis de regresión), valores ajustados vs. órdenes e histogramas de residuos, esto es, de los residuales vs. la secuencia de las observaciones. Por ejemplo, en cuanto a la gráfica de normalidad, aquí todos los puntos deben de formar una línea recta o estar muy cercanos de la línea de regresión ajustada. Igualmente, con respecto a la grafica de residuos estandarizados versus valores ajustados de Y, aquí, debe haber aleatoriedad de los residuos; no debe haber tendencias crecientes o decrecientes. Además, debe haber el mismo número de residuos positivos y negativos. De no ser así, se violan las suposiciones del modelo. Con respecto a la gráfica del histograma, es decir, de frecuencia vs. residuos estandarizados, las barras deben de tener una forma de campana, para revisar por la simetría de los datos. Finalmente, en cuanto a la gráfica de residuos estandarizados vs. las órdenes de las observaciones, nuevamente, aquí debe haber aleatoriedad, sin tendencia creciente o decreciente, y debe haber el mismo número de residuos positivos y negativos. 9.13. Análisis de gráficos para diagnosticar colinialidad. Cuando los gráficos de residuos abanderan una correlación o dependencia casi lineal entre las variables de regresión, entonces, para mitigar esto, se recomienda hacer transformaciones de la forma: Y´= Log Y, Y´ = Y 2, Y ´= √Y , Y´= 1/Y, etc. Las transformaciones de los ejes se discutirán en otra sección. 9.14. Prueba de heteroscedasticidad y homoscedasticidad. El término heteroscedasticidad (hetero- = desigual; -scedasticidad = esparcido) o de residuales no uniformes (implica error de varianza de σ2ε no constante en todos los casos. En contraste el término homoscedasticidad implica error de varianza σ2ε constante. Para diagnosticar el problema de heteroscedasticidad graficar los residuales versus valores pronosticados, Y. Análogamente, para diagnosticar este problema de heteroscedasticidad se puede hacer aplicando las pruebas de White y de Breusch-Pagan (1980). Para mitigar el problema de la falta de homoscedasticidad, esto se puede hacer por medio de transformaciones y
www.full-ebook.com
también se puede hacer probando otros modelos que ajusten mejor los datos. Ejemplo 9.6. Este es un estudio acerca de las características del agua relacionada con la densidad (g/mL) del líquido (asumiendo que esta agua no contiene impurezas), y la temperatura, en grados Celsius (oC). El investigador principal estadístico autor de este libro, contiende que la relación entre la densidad del agua y la temperatura se pueden modelar usando un modelo cuadrático. La tabla de abajo muestra la información requerida. Siendo así, hacer lo siguiente: (a) Una gráfica de diagrama esparcido para visualizar la configuración de los datos. Luego hacer la misma figura ajustando una línea de regresión cuadrática. (b) Estructurar el modelo de regresión que mejor ajuste los datos de las densidades en función de las as temperaturas del agua (uno cuadrático de acuerdo al autor de este estudio. (c) Validar la utilidad del modelo a través de diagnósticos estadísticos (R2, s, PRESS, tabla de ANOVA) y de gráficos de residuales estandarizados. (d) Con el modelo de regresión seleccionado, confirmar que la densidad del agua es de 1.0 g/mL, cuando la temperatura es de 4 oC. Tabla 9.7. Los datos (aproximados) de la densidad y temperatura se dan en la tabla de abajo.
www.full-ebook.com
Solución: (a) La Figura 9.11 de abajo muestra la gráfica de densidad vs. temperatura.
Figura 9.11. Figura mostrando la gráfica de la densidad del agua en función de la temperatura.
www.full-ebook.com
(b), (c) De acuerdo al diagrama de arriba, el mejor modelo candidato de regresión parece ser uno cuadrático. Usando el Minitab se obtienen los resultados impresos en la figura de abajo. Figura 9.11a. Figura mostrando la impresión de los resultados.
(d) Usando la ecuación de regresión arriba calculada, se obtiene: Densidad = 1.0000 + 0.00003 (4) - 0.000006 (4)2 = 1.000024 Con 6 figuras significantes)
www.full-ebook.com
Figura 9.11b. Gráficas de residuos, para complementar la validación del modelo cuadrático.
www.full-ebook.com
Figura 9.11c. Diagrama esquemático de la hoja del Minitab mostrando las entradas. 9.15. Metodología para mitigar valores altos de VIFs causantes de colinealidad en problemas de regresión polinomial cuadrática o cúbica-Centrado de valores de X. Como se ha estado mencionando, el problema de colinealidad causa toda clase de problemas en la predicción del modelo de regresión. El investigador estadístico Devore (2000) discute un procedimiento para reducir los valores de los VIFs. Este método consiste en generar una nueva variable X’ prima. Esto se hace por medio de restarle la media de los valores de X a cada valor Xi para obtener la nueva variable X’ = Xi - , para luego usar los valores de la X’i en lugar de las Xs. Este método se puede aplicar a problemas de
www.full-ebook.com
regresión cuadrática, cuando los valores de los VIFs son más altos que el criterio de 10. De acuerdo a esta información, el modelo poblacional cuadrático que se obtiene bajo estas circunstancias es: Y = βo* + β1*(X – ) + β2* (X – )2 + ε
(9-26)
Y su estimador estadístico es: Y = bo* + b1*(X – ) + b2* (X – )2 + e
(9-26ª)
Ejemplo 9.7. Se dan los siguientes datos en la tabla de abajo y se desea ajustar un modelo de regresión cuadrático. Sin embargo, si los valores de los valores de varianza inflada (que causan problemas de colinealidad) son mayores que los criterios aceptables, entonces, restarle el valor de la media de cada Xi para obtener X’ = Xi - y generar una nueva variable X’ prima. Todo esto, para mitigar los problemas de colinealidad, es decir, para describir el comportamiento de la función de regresión cerca del centro de la media de los datos. Tabla 9.8. Tabla mostrando los datos de este ejemplo.
www.full-ebook.com
Hacer lo siguiente: (a) Obtener el modelo de regresión cuadrático y evaluar su utilidad usando criterios estadísticos objetivistas como R2, R2ajustado, error estándar de estimación y PRESS y complementar la evaluación usando gráficos subjetivos. (b) Si los valores de los VIFs son mayores que 10, centrar los valores de X y generar una nueva variable X’ prima. Luego, calcular una nueva ecuación de regresión. (c) Enseguida, comparar los valores de los coeficientes de cada una de las ecuaciones de regresión obtenidas en (b) y (c). (d) Decir que fue lo que cambió y que fue lo que quedó igual. Solución: (a) La figura impresa de abajo muestra los resultados del modelo de regresión cuadrático usando los valores originales. Figura 9.12. Figura mostrando los impresos del modelo de regresión cuadrático usando los valores originales.
www.full-ebook.com
Nota: Los valores de los VIFs se dan en color azul.
La gráfica de abajo muestra la evaluación del modelo usando criterios subjetivistas de gráficas de residuos.
Figura 9.12a. Evaluación subjetiva del modelo a través de gráficos de residuos.
www.full-ebook.com
(c) Debido a que la media de los valores de los VIFs son más grandes que el criterio de 10, se procede a restarle la media a los valores de Xi originales. El diagrama de abajo muestra la hoja del Minitab impresa. Figura 9.12b. Resultados impresos usando los valores generados de X’ prima.
Aquí se nota que los valores de los VIFs bajaron considerablemente (color azul). (d) Las ecuaciones de regresión usando los valores originales y los transformados se dan abajo. y = 9.06 - 2.00 (X) + 0.241 (X)2 y = 4.95 + 0.169 (X - 4.5) + 0.241 (X - 4.5)2 (e) Lo que cambió, desde luego, fueron los valores de los VIFs y los coeficientes de los dos modelos de regresión. Los valores de T y de p también cambiaron. Todo lo demás quedó igual. Ejemplo 9.8. La intención de este ejercicio es demostrar como se puede reducir considerablemente, el problema de la multicolinealidad (correlación entre las
www.full-ebook.com
variables independientes), a modelos de regresión cúbicos, por medio de hacer un experimento de centrado de valores de X, para generar una nueva variable X’ restándole la media de cada Xi para obtener X’i = Xi - . Para esto se dan los siguientes datos mostrados en la tabla de abajo. Tabla 9.9.
Hacer lo siguiente: (a) Un diagrama esparcido para ver el tipo de función que representan los datos en la gráfica ajustando una línea de regresión no lineal a los datos esparcidos. (b) Hacer una gráfica con bandas de confianza para los intervalos de confianza y de predicción. (c) Estructurar el modelo de regresión que encaje mejor en los datos gráficos.
www.full-ebook.com
(d) Si hubiese problemas de colinealidad, restar la media ( = 3.0), a los datos de las variables aleatorias (Xi), con el objeto de generar una nueva variable (X’ prima) y ver si se puede mitigar la supuesta colinealidad. (e) Comparar los modelos de regresión con los datos originales y con los datos transformados sin colinealidad. (f) ¿Qué valores cambiaron, cuando le restamos el promedio a los valores de X? ¿Cuáles valores quedaron igual? ¿Cambiaron las gráficas de residuales? Solución: (a) El diagrama esparcido se da en la figura de abajo con línea de regresión ajustada.
Figura 9.13. Diagrama esparcido de los datos de la tabla de arriba. (b) Para hacer esta gráfica usando el Minitab proceder como:
www.full-ebook.com
Stat → Regression → Fitted Line Plot. En la ventana de “Fitted Line Plot” poner los valores de la variable de respuesta Y y la independiente X. Luego, en “Type Regression Model” puntear “Cubic”. Enseguida, irse a “Options” y en la ventana de “Fitted Line-Plot-Options” puntear “Display Confidence Interval” y “Display Prediction Interval” y “OK” “OK”. Estos comandos generan la gráfica con bandas de confianza ilustrada en la figura de abajo.
Figura 9.13a. Diagrama mostrando las bandas de los intervalos de confianza y de predicción del 95% para los datos de la tabla de arriba. Nótese que, en el recuadro de la gráfica también se da la ecuación de regresión y los valores de s y R2. (c) Los resultados impresos del Minitab se dan en la figura de abajo. Figura 9.13b. Impresión de los resultados obtenidos usando los datos originales.
www.full-ebook.com
Nota: Los VIFs se dan en color azul
Figura 9.13c. Gráfica de residuos con los datos originales. Con los resultados impresos del Minitab se observa claramente, que la media de los valores de VIFs es muy grande y mucho mayor que el criterio de 10. Ahora se calcula la media de los valores de X y da = 3.0, luego se le resta este valor a los datos originales para generar una nueva variable, que la llamaremos
www.full-ebook.com
X’ prima. Este procedimiento se muestra en la figura de abajo.
Figura 9.13d. Diagrama impreso de las entradas en la hoja del Minitab. Los resultados de la regresión bajo estas nuevas condiciones se dan en el impreso de abajo. Figura 9.13e. Diagrama impreso mostrando los resultados después de generar nuevos datos.
www.full-ebook.com
Aquí se nota que los valores de VIF bajaron dramáticamente (color azul). (e) La comparación de los modelos de regresión, con y sin colinealidad se da abajo. Y = 1.04 + 4.66 (X) - 1.89 X2+ 0.201 X3 (con colinealidad) Y = 3.46 - 1.23 (Xi - 3) - 0.0759 (Xi - 3)2 + 0.201 (Xi – 3)3 (sin colinealidad) (f) Los valores que cambiaron fueron, desde luego, los coeficientes de los modelos de regresión. También, cambiaron los valores de los VIFs, muy sustancialmente. Los valores de T y de p también cambiaron, todo lo demás quedó igual.
www.full-ebook.com
Ejercicios 9.1. Este es un estudio de ingeniería ambiental relacionada con el porcentaje de reducción la demanda química de oxígeno (DQO) y el porcentaje de reducción de sólidos totales (ST). Para esto se sacó una muestra aleatoria de los análisis y la tabla de abajo muestra la información requerida para este problema. Siendo axial, hacer lo siguiente: (a) Identificar la variable de respuesta y la variable regresora. (b) Ajustar el modelo de regresión más apropiado para ver la relación entre las dos variables. (c) Validar su utilidad acordemente usando los diagnósticos objetivistas y subjetivistas.
www.full-ebook.com
9.2. En estudios de contaminación atmosférica, el gas SO2 puede oxidarse a SO3, de varias maneras, dependiendo de la naturaleza en particular de la atmósfera, como cuando hay humedad, temperatura o presión atmosférica apropiadas, para formar la llamada “lluvia ácida”. Esta lluvia ácida es causada por emisiones de óxidos de azufre que reaccionan con las moléculas de agua en la atmósfera para producir ácidos. De esta manera, una vez que el SO3 se forma, este gas se puede disolver en gotitas de agua, para formar ácido sulfúrico, H2SO4 (como en el caso de la llamada lluvia ácida. La reacción química bajo tales condiciones es: SO3(gas) + H2O(líquido) → H2SO4(ac). Lo mismo puede ocurrir con las emisones de CO2 que, al reaccionar con el agua en el aire, producen ácido carbónico de acuerdo a la reacción: H2O(l) + CO2(g) ↔ H2CO3(ac)). De
www.full-ebook.com
cualquier manera, la reacción química del trióxido de azufre bajo tales condiciones es: SO3(gas) + H2O(líquido) → H2SO4(acuoso). En este estudio en particular, se saca una muestra aleatoria de 2 años y en el laboratorio se calcularon los siguientes valores:
Hacer lo siguiente: (a) Identificar la variable explicativa y la independiente. Luego, hacer una gráfica aplicando el método de los cuadrados mínimos. (b) Usar una aproximación lineal, como Y = a + bX. Luego, validar la utilidad del modelo usando criterios estadísticos y gráficas de residuales. (c) Con el modelo seleccionado, calcular Y, cuando el valor de X es de 0.40 milimoles/L. Comentario: El calentamiento global y la consecuente distorsión climática están alterando, no solamente a los patrones meteorológicos, sino también los recursos del agua, la agricultura, la salud, la economía, los
www.full-ebook.com
usos del agua, la política, el sistema social, y a todos los demás sistemas interactivos que gobiernan al hombre moderno.
9.3. Este es un estudio relacionado con la química del agua, donde se registraron las cantidades de cloruro de sodio (NaCl), el cual, cuando se disolvió en 100 gramos de agua destilada, a diferentes temperaturas en grados Celsius (oC), dio los siguientes resultados: Tabla mostrando los datos del problema.
Calcular los siguientes enunciados: (a) Hacer una gráfica en función de la cantidad de NaCl en función de la temperatura en grados Kelvin (K).
www.full-ebook.com
(b) Calcular la ecuación de regresión y estimar la cantidad de NaCl que se disolvió a una temperatura de 300 K. (c) Si se sabe qué, a medida que aumenta la temperatura, la disolución de las sales de sodio aumenta proporcional a la temperatura, entonces, usando estadísticas objetivistas y subjetivistas verificar que existe un buen ajuste del modelo. (d) Teóricamente, la disolución de muchas sales va en función directa a la temperatura y, en teoría, el valor del coeficiente de determinación, R2 debería de ser 1.0. Siendo así, enlistar 2 factores (en el laboratorio de química) que pudieran afectar la disolución de las sales y de no dar un valor de 1.0. 9.4. En investigaciones relacionadas con la contaminación del agua, se sabe que los metales pesados, como el mercurio (Hg), cromo (Cr), plomo (Pb), etc., pueden contaminar las aguas para uso doméstico. Los compuestos de mercurio, especialmente, los compuestos orgánicos son altamente venenosos, como en el caso del compuesto de mercurio CH3HgSCH3 (ver Atkins et al. 1989). De acuerdo a esta fuente de información, desperdicios de compuestos de Hg fueron los causantes de 52 muertes en Minimata, Japón, en 1952. De cualquier manera, en este estudio en particular se calcularon las medias de varios años en una planta piloto usada para las reducciones de las concentraciones de Hg, en microgramos por litro (μg/L), antes y después del tratamiento. Los resultados de las concentraciones de Hg se dan abajo. Tabla mostrando los datos.
www.full-ebook.com
Hacer los siguientes cálculos: (a) Hacer un diagrama esparcido con los datos dados. (b) Encontrar el modelo de regresión que mejor ajuste los datos. (c) Evaluar la calidad del modelo seleccionado usando diagnósticos objetivistas (R2, s, PRESS, tabla de ANOVA, etc.) y subjetivistas (gráficos de residuos). (d) Usando el modelo de regresión más idóneo, calcular Y cuando X = 300.
www.full-ebook.com
9.5. En estudios de tecnología del agua, se analizan treinta muestras del efluente de una planta de tratamiento para la medición de la demanda bioquímica de oxígeno de 5 días (DBO5)y la demanda química de oxígeno (DQO). Los datos se muestran en la tabla de abajo. Hacer lo siguiente: (a) Identificar la variable de respuesta y la variable independiente. Luego, graficar los datos con línea de regresión lineal. (b) Establecer el modelo de regresión que mejor ajuste los datos. Evaluar su utilidad a través de diagnósticos estadísticos objetivistas y diagnósticos subjetivistas. ¿Mejoraría la calidad del modelo de regresión una transformación logarítmica? (c) Determinar el DBO5 y el DQO que se excederá el 50% de las veces. (d) Determinar el DBO5 y el DQO que se excederá el 75% del tiempo. Tabla mostrando las concentraciones de DQO y de DBO5.
www.full-ebook.com
9.6. En un estudio de laboratorio, para ver la relación entre los sólidos suspendidos (SS) y las concentraciones de DBO, se sacó una muestra, con los datos que se muestran en la tabla de abajo. Tabla mostrando los datos.
www.full-ebook.com
(a) Identificar la variable dependiente y la variable independiente. Luego hacer una gráfica que vaya en función de la variable dependiente y de la variable independiente. (b) Estructurar un modelo de regresión que vaya de acuerdo a los datos. Validar su utilidad objetiva y subjetivamente. (c) Usando el modelo de regresión seleccionado, calcular el DBO5 cuando los sólidos suspendidos son de 80 mg/L. 9.7. Este es un ejemplo encaminado a ajustar modelos de regresión lineales múltiples y cuadráticos con, y sin interacción. Los datos se dan en la tabla de abajo. Hacer lo siguiente: (a) Probar un modelo de regresión cuadrático, con interacción. En este caso, lo llamaremos modelo superior o modelo completo. (b) Después, probar un modelo de regresión cuadrático, sin interacción. El este caso, lo llamaremos modelo abreviado.
www.full-ebook.com
(c) Finalmente, probar un modelo de regresión lineal múltiple, sin interacción. Este modelo, lo llamaremos modelo lineal simple. (d) Describir las ecuaciones de los modelos de regresión poblacionales de los incisos (a), (b) y (c). (e) Para decidir cual modelo es mejor, hacer una tabla con los resultados de los tres modelos, basándose en los diagnósticos objetivistas como las estadísticas R2, R2ajustada, s, PRESS, ANOVA, etc. Los datos se dan en la tabla de abajo. Tabla mostrando los datos de este ejercicio.
9.8. Este es un problema relacionado con la Ley de Henry, para explicar la solubilidad de los gases en el agua como el oxígeno (y su relación, como en el caso de estudios de contaminación de corrientes para analizar el comportamiento
www.full-ebook.com
del oxígeno disuelto), para la presión del gas óxido de azufre (SO2) en unidades de Pascales, a 30 oC, en función de kilogramos de SO2 por 100 kilogramos de H2O. En términos simples, la Ley de Henry tiene dos partes. La primera parte dice que, a medida que la presión aumenta, la solubilidad de los gases (como el O2 o CO2) en líquidos aumenta. Esto también dice que, a medida que la presión disminuye, esto hace que los gases escapen del líquido. La segunda parte dice que, a medida que la temperatura aumenta, la solubilidad de los gases disminuye. En forma análoga, esto también dice que, a medida que la temperatura disminuye, la solubilidad de los gases atmosféricos tiende a entrar en los líquidos (como el agua). De acuerdo a este razonamiento en estudios de tecnologías del agua, en corrientes usadas para pulir los efluentes de las plantas de tratamiento, el ingeniero ambiental siempre procura hacerlas durante el invierno, no en el verano. Esto ocurre, porque en el verano, las bacterias trabajan más aprisa y consumen el oxígeno disuelto en el agua mas rápidamente, que en invierno. Esta es una de las razones por la cual es más conveniente hacer estos proyectos de dilución en el invierno. Tabla mostrando la información requerida para este problema.
Hacer lo siguiente: (a) Identificar la variable de respuesta y la variable independiente. Luego hacer
www.full-ebook.com
una gráfica con línea de regresión usando el método de los cuadrados mínimos. (b) Estructurar el modelo de regresión que mejor ajuste los datos. ¿Cuál es el valor de la pendiente de la ecuación de regresión y cuál es su significado? (c) De acuerdo a un intelectualismo especulativo, cree usted que el calentamiento global, al estar aumentando la temperatura del agua de los océanos, esté propiciando el escape de los gases diluidos en el agua como el CO2 y el O2? ¿Cree usted que, al estar escapándose el CO2 del agua marina, este afectando el pH del agua? ¿Cree usted el escape del CO2 también esté contribuyendo aun más, al calentamiento de la tierra y a seguir ocasionando más eventos climatológicos extremos, como huracanes, tornados, sequías, inundaciones, calores y fríos extremos, aires huracanados, etc., debido a la distorsión climática mundial? Si la respuesta es afirmativa, justificarla usando argumentos científicos; si no, descalificarla, pero también usando argumentos científicos. (d) Nuevamente, en términos de un intelectualismo especulativo, si los huracanes son sistemas de baja presión, de acuerdo a la Ley de Henry, ¿cree usted que estos fenómenos estén propiciando el escape de los gases del agua marina como el CO2 (que es un gas de invernadero), y por lo tanto, contribuyendo a engrosar, aun más, el cinturón de gases de invernadero en la troposfera, mismos que están causando cambios extremos en el clima mundial? ¿Estarán estas situaciones envolviéndonos en un círculo vicioso? (e) En términos no estadísticos, ¿Cree usted que exista una relación entre la segunda ley de termodinámica (La segunda ley de termodinámica se puede definir de varias formas, pero aquí, en su forma simple, esta ley dice que la energía fluye de un medio más alto a uno más bajo hasta que se logra el equilibrio entre ambas interfases) y la Ley de Henry? 9.9. Con los usos del agua es bien sabido que la solubilidad de muchos gases va en función de la temperatura. Esto dice que, a mayor temperatura, los gases como el oxígeno, metano (CH4), bióxido de carbono (CO2), etc., su solubilidad disminuirá (asumiendo que el agua no contenga impurezas). Lo contrario también es correcto, porque a medida que disminuye la temperatura, la
www.full-ebook.com
solubilidad de estos gases aumenta. En este estudio se da una tabla con las concentraciones promedio de CO2 en milimoles/litro (mM/L) en función de la temperatura en grados Celsius. Tabla mostrando los datos de este ejercicio.
Hacer lo siguiente: (a) Una gráfica de mM/L en función de la temperatura en oC. ¿Mejoraría la representación gráfica con una transformación logarítmica? (b) ¿Es la reacción de primer orden en la concentración de la solubilidad? (c) Estimar la ecuación de regresión que mejor ajuste los datos. Evaluar la utilidad del modelo a través de diagnósticos objetivistas y de gráficos de residuos.
www.full-ebook.com
(d) Usando la ecuación de regresión, calcular la concentración de CO2 a 3 oC. (e) En alusión al calentamiento global de la tierra, y aplicando un intelectualismo especulativo, ¿Cree usted que el aumento de las temperaturas de los océanos, pueda estar sacando el CO2 del agua marina? 9.10. Este es un ejercicio de aplicaciones de tecnologías del agua. Siendo así, este ejemplo está relacionado con la determinación de las características de sedimentación de los sólidos suspendidos en una planta de lodos activados. En el contexto de ingeniería ambiental, las plantas de lodos activados, así como los filtros por goteo y lagunas de estabilización son procesos unitarios de tratamiento primario o secundario de aguas residuales. Las plantas de lodos activados consisten en inyectar mecánicamente aire al drenaje para que las bacterias lo degraden u oxiden bajo condiciones aerobias. De acuerdo a este estudio, la estructuración de una gráfica de la velocidad de sedimentación (pies por hora), de los sólidos suspendidos, en unidades de gramos por litro, (g/L), puede ser usada para dimensionar un clarificador final, para la tasa máxima de 50% del reciclado del lodo de la tasa del drenaje y la mezcla de un licor de sólidos suspendidos de concentración de 3500 g/l. Asumiendo que el drenaje que fluye hacia la planta es de 3785 m3 por día, desarrollar lo siguiente. (a) Hacer una gráfica de la velocidad de sedimentación (pies/hora), en función de la concentración de sólidos (g/L). Es decir, haciendo una gráfica con una línea de regresión que mejor ajuste los datos. (b) Establecer el modelo de regresión que mejor represente los datos. (c) Estimar la velocidad de sedimentación cuando la concentración del lodo es de 5000 g/L. Tabla mostrando las características de la sedimentación del lodo.
www.full-ebook.com
9.11. Este es un experimento de aplicaciones a la quimica ambiental relacionado con reacciones de equilibrio químico, se decir, de la reacción entre el nitrógeno en el agua y el hidrógeno, para producir amoniaco, cuyos datos reales se dan en textos de química. Siendo así, se puede aplicar la estadística para analizar los cambios de las constantes de equilibrio K, en función de la temperatura (en contraste con los cambios en las concentraciones o presiones totales que pueden causar cambios en el equilibrio, sin cambiar la constante K de equilibrio). Para esto, se da la ecuación química en equilibrio de la reacción exotérmica entre el nitrógeno en el agua y el hidrógeno, para la producción de amoniaco: N2(g) + 3H2(g) ↔ 2NH3(g) ΔHº = -92.22 kj mole-1
(1)
Aquí, en esta reacción química en equilibrio, el símbolo ↔ indica que NH3 puede formarse de N2 y H2, pero que también puede descomponerse, en esto dos elementos, dependiendo cambios en la temperatura, presión, concentración, catalizadores, etc., que se le impongan al sistema. En este caso, la constante Kc de equilibrio para este proceso es:
www.full-ebook.com
La tabla de abajo muestra los cambios en la constante K en función de la temperatura, en grados Kelvin manteniendo fijas las variables presión, volumen, catalizadores, o concentración. Tabla mostrando la información requerida para este problema.
Desarrollar los siguientes enunciados: (a) Hacer un diagrama esparcido con los datos originales de la tabla de arriba ajustando una regresión lineal. (b) Hacer una transformación logarítmica (base e) y nuevamente hacer un diagrama esparcido ajustando una regresión lineal. (c) ¿Cuál de las dos gráficas ajusta mejor los datos? (d) Establecer el modelo de regresión que mejor ajuste los datos, evaluar su utilidad a través de diagnósticos estadísticos y de gráficos de residuos.
www.full-ebook.com
(e) Con el mejor modelo candidato predecir la constante de equilibrio Kc, cuando la temperatura es de 450.0 K. (f) ¿Qué significado tiene la pendiente de la ecuación de regresión? Comentario: En usos del agua para fines agrícolas, cuando las parcelas agrícolas no están bien niveladas, el encharcamiento del agua de riego o lluvia hace que el nitrógeno, que necesitan las plantas se escape a la atmósfera, con el consiguiente perjuicio para la producción agrícola.
9.12. Se dan los siguientes datos de cierto experimento relacionado con el efecto de la temperatura en la solubilidad de cierta sal iónica en el agua. Siendo así, hacer lo siguiente: (a) Identificar la variable de respuesta y la variable independiente. Luego hacer un diagrama esparcido con línea de regresión ajustada. (b) Hacer gráficas de probabilidad para revisar por la simetría de los datos. (c) Calcular la ecuación de regresión que estima al modelo de regresión poblacional, el cual se da como Y = βo + β1X1 + ε. Para esto, calcular manualmente los valores de la pendiente y del intercepto de la ecuación de regresión. Una vez calculada la ecuación de regresión estadística, calcular el valor de la concentración de la sustancia iónica cuando la temperatura es de 5 oC. (d) Calcular manualmente e interpretar el coeficiente de determinación R2 (que mide la proporción de variabilidad de Y explicada por la variabilidad de X). También, calcular el valor del error estándar estimado. (e) Finalmente, usar el programa Minitab y calcular los resultados obtenidos de los incisos (a), (b) y (c) y comparar los resultados. Además, usando este paquete de cómputo, calcular el error estándar de lo estimado s, PRESS y hacer la tabla de ANOVA e interpretar el valor de p.
www.full-ebook.com
Tabla mostrando los datos del ejemplo.
9.13. Este es un estudio encaminado a encontrar la distribución de probabilidad más plausible que ajuste los datos dados en la tabla de abajo y de ajustar el modelo de regresión más factible. Siendo así, hacer lo siguiente: (a) Hacer gráficas de probabilidad para ver que distribución ajusta mejor los datos. (b) Ajustar el modelo de regresión que mejor represente a los datos. Evaluar su utilidad, acordemente. (c) Con la ecuación de regresión estimada en (b), calcular el valor de la variable explicativa, cuando el valor de la variable regresora es de 35.3147. 9.14. Este es un estudio relacionado con la lluvia y la profundidad del desagüe. Los factores que intervienen en la descripción de la lluvia y los volúmenes de desagüe (profundidades) son la impearmiabilidad del suelo, el área, la pendiente, tipos de suelos, evaporación, orografía y efectos del calentamiento global (como eventos extremos de temperaturas, inundaciones y sequías,etc.) Sin embargo, de acuerdo a Bedient et al. (1988) el área y el porcentaje de impearmiabilidad del suelo son los factores más importantes para una buena predicción de volúmenes hidrográficos. La impearmiabilidad del suelo de desagües urbanos puede hacerse por medio de medir semejantes áreas por fotografías aéreas considerando el uso de la tierra. Por ejemplo, de acuerdo a estos autores, con relación a los usos de la tierra, si el uso es residencial, el porcentaje medio de impermeabilidad es de 30%, para comercial es de 81%, para áreas abiertas es de 5% y axial sucesivamente. En este ejercicio, supóngase que se desea encontrar la relación
www.full-ebook.com
lineal entre la lluvia y la profundidad del desagüe, para una zona residencial con 16 eventos de precipitaciones como se da en la tabla de abajo. Tabla mostrando los datos de la precipitación y la profundidad del desagüe en pulgadas (in).
(a) Identificar la variable de respuesta y la variable independiente, luego hacer un diagrama esparcido. (b) Encontrar el modelo de regresión que mejor ajuste los datos. Validar su utilidad acordemente.
www.full-ebook.com
(c) ¿Cree usted que el calentamiento global, mismo que está distorsionado los patrones pluviales pueda estar afectando la profundidad de los desagües y la evaporación del agua? 9.15. En un estudio de ingeniería de usos del agua, en una escala pequeña, se obtuvieron los siguientes datos relacionados entre el DBO, DQO y sólidos totales (ST), expresados en mg/L. La tabla de abajo muestra los datos. Tabla mostrando los datos de este ejercicio.
Hacer lo siguiente: (a) Estructurar la ecuación de regresión que mejor ajuste los datos.
www.full-ebook.com
(b) Evaluar la utilidad del modelo de regresión seleccionado en (a), objetiva y subjetivamente. (c) Si el modelo de regresión adoleciera de valores altos de varianza inflada, centrar los valores de X restándoles la media y generar una nueva variable X’. 9.16. Este es un problema relacionado con el flujo promedio anual (m3/seg) en función del área (km2), la longitud (Km.) y la media anual máxima de profundidad de lluvia (cm.) de varias cuencas hidrológicas. En este estudio no se están considerando otros factores como temperaturas, impermeabilidad de los suelos, pendientes, orografía, etc., que pudieran modificar los resultados obtenidos. La tabla de abajo muestra los datos. Tabla mostrando los datos de este problema.
(a) Identificar la variable dependiente (Y) y las variables independientes (X1, X2, X3). Graficar los datos con línea de regresión ajustada. (b) Estimar un modelo de regresión para estas cuencas hidrológicas, ajustando el modelo más idóneo. Valorar su utilidad a través de diagnósticos objetivistas y de gráficos de residuos. (c) ¿Cree usted que el calentamiento global, mismo que está distorsionando los patrones de lluvias (por eventos extremos, como muchas inundaciones y/o muchas sequías) esté afectando la profundidad promedio anual máxima de las
www.full-ebook.com
vertientes hidrológicas? 9.17. Este es un estudio que está relacionado con las tasas de las escorrentías ocasionadas por la fundición de la nieve, las cuales sirven como fuente de irrigación, abastecimiento de agua, fuerza motriz, etc. Estas tasas van en función de la precipitación incidente a la acumulación de la nieve y la temperatura promedio diaria. La tabla de abajo da la información requerida para este ejercicio.
Hacer lo siguiente: (a) Establecer el modelo de regresión que mejor ajuste los datos. (b) Validar su calificación a través de estadísticos objetivistas y gráficos de residuales. (c) Con el modelo de regresión seleccionado, predecir la tasa de desagüe cuando
www.full-ebook.com
la temperatura es de 10 oC y la precipitación es de 9.5 mm/día. (d) ¿Cree usted que la concentración en la troposfera de gases de invernadero antropogénicos, mismos que están incrementando la temperatura global, estén afectando las tasas de desagüe por la fundición de la nieve? Pregunta para contestarse por el lector. 9.18. Este es un estudio relacionado con el problema del sedimento en muchos ríos. Siendo así, la carga de sedimento es un problema grande, que afecta la calidad del agua de muchas corrientes. Estos estudios son necesarios para el diseño de programas de control de sedimentos. La producción de sedimento (expresado en millones de toneladas métricas por año) va en función del área de la vertiente (km2) y de la descarga promedio de la corriente (m3/seg). Tabla mostrando los datos.
Desarrollar los siguientes enunciados: (a) Identificar la variable de respuesta y las variables independientes. (b) Hacer un diagrama esparcido con los datos.
www.full-ebook.com
(c) Aplicar el modelo estadístico más factible. Luego valorar su utilidad usando diagnósticos objetivistas y subjetivistas. 9.19. En aplicaciones a la ingeniería de tecnologías del agua, se sabe que, el drenaje contiene sólidos totales suspendidos (STS) y sólidos totales disueltos (STD). Por ejemplo, los STS incluyen el drenaje y otros desperdicios, entre otros. Por otra parte, los STD corresponden al residuo filtrable, que incluyen nitratos, entre otros contaminantes. (ver Sheila Murphy, http//bcn.boulder.co.us/basin/data/BACT/info/TTS.html). De cualquier manera, ambos tipos de contaminantes contribuyen a la demanda bioquímica de oxígeno. En este ejercicio se estudia la relación entre la demanda bioquímica de oxígeno última (DBOu) y los sólidos suspendidos y sólidos disueltos. Para resolver este problema usar el programa Minitab y hacer lo siguiente: (a) Estructurar un modelo de regresión lineal múltiple y evaluar su utilidad usando diagnósticos estadísticos, como el coeficiente de determinación R2, R2ajustada, error estándar estimado (s), PRESS, tabla de ANOVA. Además, complementar el diagnóstico estadístico usando el enfoque subjetivista, es decir, analizando todos los gráficos de residuos. (b) ¿Cree usted que la inclusión del factor de interacción pudiera mejorar la calidad del modelo sin menoscabar su precisión? (c) Hacer una transformación logarítmica en ambos ejes y estructurar un modelo de regresión. Validar su utilidad a través de diagnósticos objetivistas y subjetivistas. (d) ¿Cuál de los dos modelos es superior, el modelo con los datos originales o el modelo con las transformaciones logarítmicas? Tabla mostrando los datos del ejemplo.
www.full-ebook.com
9.20. Este es un estudio el cual está relacionado con la asociación que pueda existir entre la demanda bioquímica de oxígeno (DBO), la demanda química de oxígeno (DQO) y el carbono orgánico total (COT). De esta manera, el DQO se usa en la medición de compuestos orgánicos para la medir la calidad de las aguas superficiales. El COT se usa para medir la cantidad de carbono total y el carbono inorgánico que está presente en el agua. Hacer lo siguiente: (a) Identificar la variable de respuesta y las variables independientes. (b) Una gráfica sobrepuesta con las tres variables. (c) Decir que modelo de regresión es el más apropiado. Validar su utilidad a través de diagnósticos objetivistas (R2, s, PRESS) y gráficos de residuos. (d) Con la ecuación de regresión del mejor modelo candidato, predecir la concentración de DBO cuando el DQO es igual a 200.0 mg/L y el COT es igual a 201.0
www.full-ebook.com
(e) ¿Existen problemas de colinealidad en los datos? Sugerencia: usar el criterio de promedio de VIP ≤ 10. Tabla mostrando los datos
9.21. Este es un problema relacionado con la solubilidad del oxígeno, en unidades de milimoles por litro (mM/L), en función de la temperatura (oC). La disminución de la solubilidad de oxígeno en el agua, a medida que la temperatura del agua aumenta, es uno de los efectos de la llamada contaminación termal (producida por enfriamiento de calderas en procesos industriales, plantas eléctricas o plantas nucleares, y cuya agua caliente es arrojada a los lagos o ríos). Este efecto es una situación muy seria en vasos profundos de agua, porque el agua caliente es menos densa que el agua fría. Por
www.full-ebook.com
lo tanto, el agua caliente tiende a permanecer arriba del agua fría, es decir, en la superficie del agua. Esta situación impide la disolución del oxígeno a aguas más profundas, lo que ocasiona el sofocamiento de la respiración de la vida acuática que necesita del oxígeno disuelto. Todo esto sin mencionar el efecto en el metabolismo (que el agua caliente lo acelera) de la fauna marina (lo que ocasiona que los contaminantes en el agua sean mayormente absorbidos por la fauna marina expuesta). De un punto de vista intelectual especulativo, el calentamiento global pudiera estar causando efectos similares en aguas marinas, ríos, lagos, etc., aunque muy difícil de probar. De cualquier manera, este problema está relacionado con la solubilidad del oxígeno (en milimoles/L, con presión constante de 760 mm Hg sobre la solución), en función de la temperatura. Tabla mostrando la información requerida.
Hacer los siguientes cálculos: (a) Identificar la variable dependiente y la variable independiente y hacer un diagrama esparcido. (b) Ajustar el modelo de regresión más idóneo.
www.full-ebook.com
(c) Con el modelo de regresión calculado en (b) predecir la solubilidad del oxígeno, en mM/L, cuando la temperatura es de 60 oF o su equivalente en oC. 9.22. Este es un estudio donde se trata de hacer una relación entre el DBO como variable explicativa, y el DQO, sólidos totales disueltos suspendidos (STS) y sólidos totales disueltos (STD) usados como variables independientes. Por ejemplo, el DBO5 mide la cantidad de oxígeno requerida para oxidar la parte carbonosa de los contaminantes del agua. Sin embargo, después de 5 días, ocurre lo que se llama nitrificación, en la cual la demanda bioquímica de oxígeno última o total (DBOu) mide la concentración de nitratos. Aquí se usará el DBO último o total (DBOu) que incluye la nitrificación. Además, en química ambiental, el DQO es una medición de la cantidad de materia orgánica oxidable. Igualmente, los sólidos totales suspendidos (STS) se refieren al residuo no filtrable. Finalmente, los sólidos totales disueltos (STD) miden las sustancias filtrables como el nitrógeno, entre otros. Siendo así, hacer lo siguiente: (a) Identificar la variable de respuesta y las variables independientes. Luego, estructurar la ecuación de regresión que mejor represente los datos. (b) Validar la ecuación de regresión obtenida en (a) a través de diagnósticos objetivistas y gráficas de residuales. Tabla mostrando los datos de la demanda bioquímica de oxígeno (DBOu), demanda química de oxígeno (DQO), sólidos totales suspendidos (STS) y sólidos totales disueltos (STD) expresados en mg/L, de este problema.
www.full-ebook.com
9.23. Este es un ejemplo relacionado con la eficiencia de un equipo de control (ciclón) de partículas atmosféricas generadas por procesos industriales, en función de la relación del tamaño de la partícula. La tabla de abajo muestra los datos pertinentes a este problema. Tabla mostrando los datos
www.full-ebook.com
Hacer lo siguiente: (a) Una gráfica del porcentaje de la eficiencia de colección del ciclón en función del tamaño relativo de la partícula, misma que se da abajo. (Se le pide al lector hacer esta misma gráfica). (b) Estructurar el modelo de regresión que mejor ajuste los datos. Evaluar su utilidad acordemente. (c) Con el modelo de regresión seleccionado, atestiguar la eficiencia del ciclón cuando el tamaño relativo de la partícula es de 1.0. ¿Cuál es el porcentaje de error bajo esas circunstancias? (d) Qué significado tienen el coeficiente de determinación R2, el error estándar estimado y el valor de PRESS?
www.full-ebook.com
Figura mostrando la gráfica del % de eficiencia del ciclón vs tamaño relativo de la partícula. Aquí se observa que, a medida que aumenta el tamaño relativo de la partícula, la eficiencia aumenta hasta quedar constante. 9.24. Este es un estudio encaminado a ajustar un modelo de regresión cuadrático con dos variables independientes. Sin embargo, como usualmente ocurre, el diseño de estos modelos con dos o más variables independiente, casi siempre adolecen del problema de colinealidad, es decir, de valores altos de factores de varianza inflada (VIFs). Como se asentó anteriormente, el problema de multicolinealidad puede crear estimaciones inexactas de los coeficientes de regresión, infla los errores estándar de los coeficientes de regresión, desinfla las pruebas parciales de t para los coeficientes de regresión, da valores falsos de p que no son significantes y degrada la predicción del modelo de regresión. Es por esta razón que es muy importante detectar el problema de colinealidad y corregirlo acordemente. Siendo así, hacer lo siguiente: (a) Probar un modelo de regresión cuadrático sin interacción. Validar su utilidad usando diagnósticos objetivistas y gráficos de residuales subjetivistas. (b) Si los valores de los factores de varianza inflada fuesen altos en el inciso (a), seguir las indicaciones de la metodología descrita en los valores centrados de X, para mitigar valores altos de VIFs. Enseguida, valorar la utilidad del nuevo
www.full-ebook.com
modelo usando criterios objetivistas y subjetivistas. (c) ¿Cuáles diagnósticos cambiaron y cuales quedaron igual? Tabla mostrando los datos para este problema.
9.25. Este estudio es una aplicación de un problema de regresión cuadrática con dos variables independientes sin interacción. Los datos se dan en la tabla de abajo. Tabla mostrando los datos de este problema.
www.full-ebook.com
Hacer lo siguiente: (a) Estructurar un modelo de regresión cuadrático. Evaluar su utilidad a través de criterios objetivistas y subjetivistas. (b) Si los valores de los factores de varianza inflada (VIFs) fuesen muy altos, restarle la media de X a los valores de la variable aleatoria X, para cada uno de sus casos. Luego, estructurar la ecuación de regresión correspondiente. Evaluar su utilidad a través de criterios objetivistas y subjetivistas (c) Comparar los resultados obtenidos en los incisos (a) y (b), especialmente, en
www.full-ebook.com
lo relacionado con los factores de varianza inflada. ¿Qué otros valores que cambiaron y cuáles quedaron igual? 9.26. Se dan los siguientes datos en la tabla de abajo. Tabla mostrando la información para este problema.
(a) Hacer una gráfica de diagrama esparcido para analizar la configuración de los datos. (b) Luego estructurar el modelo de regresión más apropiado. Evaluar la utilidad del modelo obtenido a través de diagnósticos objetivistas y subjetivistas. (c) Si los valores de los factores de varianza inflada obtenidos en (b) fuesen muy altos, proceder acordemente, para disminuirlos y obtener un nuevo modelo de regresión. (d) Discutir los resultados obtenidos en los incisos (b) y (c). 9.27. Este es un estudio de contaminación atmosférica, en el cual se usó un modelo computacional de dispersión atmosférica y se obtuvieron los valores teóricos correspondientes de las concentraciones de óxidos de azufre (SO2) y sus correspondientes valores de campo provenientes en función de la distancia (kilómetros), de una compañía de fundición de metales. Sin embargo, para
www.full-ebook.com
calibrar la precisión del modelo computarizado y del diseño del experimento, se tomaron muestras físicas, durante 2 años, en cada una de las distancias dada por el modelo experimental, es decir, usando los tipos de sensores apropiados para la captura del SO2. La tabla de abajo da los resultados obtenidos de una muestra aleatoria de pruebas que se hicieron durante un año. Siendo así, hacer lo siguiente: (a) Hacer una tabla con los logaritmos de las concentraciones esperadas, los logaritmos de las concentraciones observadas y los logaritmos de las distancias, de los valores originales. (b) Ajustar un modelo de regresión con transformaciones logarítmicas y evaluar su utilidad en términos de diagnósticos objetivistas y subjetivistas. (c) Si hubiese discrepancias entre los dos juegos de valores de campo y teóricos, dar una explicación al respecto usando una lógica a posteriori de la ingeniería del aire. (d) Hacer una gráfica sobrepuesta con los dos juegos de valores teóricos y observados. Tabla mostrando los valores teóricos y de campo (observados), en función de la distancia viento abajo de la fuente industrial.
www.full-ebook.com
9.28. La tabla de abajo muestra datos sacados de un experimento, para la evaluación de la eficiencia (el porcentaje que quedó por degradarse), de una laguna de oxidación, que usa ventiladores flotantes. El experimento consiste de 4 variables independientes y una variable dependiente. La descripción de estas variables son: tiempo de retención (x1), temperatura (x2), radiación solar (x3) y evaporación (x4). Se usa un paquete de computadora, el cual selecciona tres de los modelos candidatos más apropiados, dependiendo del número de variables que se incluirán en el modelo. Tabla mostrando los datos originales.
www.full-ebook.com
Hacer lo siguiente: (a) Estructurar un modelo de regresión que incluya todas las variables independientes. (b) Estructurar un modelo de regresión que incluya las variables independientes X1, X2, X3. (c) Estructurar un modelo de regresión que incluya las variables independientes X2, X3. (d) Calcular el valor de usando la ecuación dada en este capítulo. (e) Llenar la tabla de abajo y de acuerdo a los resultados obtenidos y emitir un juicio para decidir cual modelo es superior. Tabla mostrando los faltantes.
www.full-ebook.com
9.29. La intención de este ejercicio es demostrar como se puede reducir considerablemente, el problema de la multicolinealidad (correlación entre las variables independientes), por medio de centrar los valores de X, para generar una nueva variable X’ restándole el promedio de la variable independiente. Para esto se dan los siguientes datos mostrados en la tabla de abajo. Tabla mostrando los datos.
Hacer lo siguiente: (a) Un diagrama esparcido para ver el tipo de función que representan los datos en la gráfica. Ajustar una línea de regresión no lineal a los datos esparcidos.
www.full-ebook.com
(b) Hacer una gráfica con bandas de confianza para los intervalos de confianza e intervalos de predicción. (c) Estructurar el modelo de regresión que encaje mejor en los datos gráficos. (d) Si hubiese problemas de colinealidad, restar el promedio de X a los datos de la variable independiente y ver si se puede mitigar la supuesta colinealidad. (e) Comparar los valores del coeficiente de determinación R2, s, PRESS y VIF en cada caso. (f) ¿Qué valores cambiaron, cuando le restamos el promedio a los valores de X? ¿Cuáles valores quedaron igual? ¿Cambiaron las gráficas de residuales? (g) Calcular el porcentaje de error, cuando X = 4, es decir, usando ambas ecuaciones obtenidas en (c) y (d). 9.30. De acuerdo a los datos de la tabla de abajo, hacer lo siguiente: (a) Un diagrama esparcido ajustando una línea de regresión no lineal a los datos esparcidos. (b) Con un nivel de significancia de 95%, hacer una gráfica con bandas de confianza para los intervalos de confianza e intervalos de predicción. (c) Estructurar el modelo de regresión que mejor encaje en los datos gráficos. (d) Si hubiese problemas de colinealidad, restar la media de X a los datos de la variable aleatoria independiente X, y generar una nueva variable (X’ prima), para ver si se puede mitigar la supuesta colinealidad. (e) Una vez hecho lo anterior en el inciso (d), comparar los coeficientes de los modelos de regresión, esto es, con los datos originales y con los datos generados después de restarle la media. (f) ¿Qué valores cambiaron, cuando le restamos el
www.full-ebook.com
promedio a los valores de X? ¿Cuáles valores quedaron igual? ¿Cambiaron las gráficas de residuales? (g) Calcular el porcentaje de error, cuando X = 1.4, usando ambas ecuaciones de regresión. Tabla mostrando los datos de este ejercicio.
9.31. Considerar los datos de la tabla de abajo. Usando el programa de computadora Minitab obtener el modelo de regresión más apropiado, es decir: (a) Un modelo múltiple lineal (Modelo 1) (b) Un modelo con transformación en el eje vertical (Modelo 2) (c) Un modelo con transformaciones de los ejes horizontales y del eje vertical (Modelo 3). (d) Hacer una tabla resumiendo los valores de las estadísticas para cada uno de los tres modelos. (e) Al juzgar por los resultados, se le pide al lector que decida,
www.full-ebook.com
cuál modelo es el más apropiado basando el criterio en los diagnósticos estadísticos y los gráficos de residuos. Tabla mostrando los datos bivariados de este ejercicio.
9.32. Este es un estudio del agua para usos domésticos. Siendo así, para una tasa de crecimiento bacteriano en el agua, con promedio de μ = 1.0 hora-1, (base de logaritmos naturales), ¿qué masa de microorganismos (en mg) estarían presentes después de 2 horas, si una concentración de 150 mg de microorganismos estuviera presente originalmente? Insinuación: asumir una reacción de primer orden, dx/dt = μx, donde x es el número total de microorganismos presentes, luego usar cálculo integral. 9.33. Este es un estudio en el cual se trata de hacer una correlación entre el DBO total, los nitratos (NO3-), los nitritos (NO2-) y el amoniaco (NH3). Las unidades para los cuatro parámetros usados son en miligramos por litro (mg/L). La tabla de abajo señala los datos sacados de una muestra aleatoria del DBO, NO3-, NO2y NH3. Tabla mostrando los datos requeridos para este problema.DBO, NO3-, NO2-,
www.full-ebook.com
NH3.
Se requiere hacer lo siguiente (a) Identificar la variable dependiente y las variables independientes. Luego hacer una gráfica sobrepuesta con las 4 variables con línea de regresión ajustada usando el método de los cuadrados mínimos o un programa de cómputo. (b) Ajustar el modelo de regresión más adecuado a los datos.
www.full-ebook.com
(c) Validar la utilidad del modelo de regresión seleccionado en (b) a través de diagnósticos objetivistas y subjetivistas. 9.34. La suma de los cuadrados del error de un modelo de regresión polinomial cuadrático completo, con interacción conteniendo dos variables independientes es de SSe = 200.00. La suma de los cuadrados del modelo simple, sin interacción, con una variable independiente es de SSa = 500.00. Asumiendo k1 = 4, k2 = 5, n = 50 y α = 0.05, entonces, determinar, cual de los dos modelos es superior. Sugerencia: Usar la función: F = (SSE1 – SSE2)/(k2 – k1)/ SSE2/(n – k2 – 1). Si la Fcalc. es menor que la Ftab. = 0.05 se dice que el modelo simple es superior o de otra manera. 9.35. En un estudio de microbiología ambiental se dan los siguientes datos de un experimento para evaluar la desinfección de un almacenamiento de agua, aplicando una dosis de cloro dada, para aniquilar las bacterias coliformes. Hacer una análisis de regresión estadística y contestar las siguientes preguntas de acuerdo a los datos dados en la tabla de abajo. (a) De la tabla de abajo, identificar la variable de respuesta y la variable independiente. (b) Calcular los coliformes que van siendo aniquilados. Luego hacer una gráfica sobrepuesta con los coliformes restantes y los que se van aniquilando. (c) Establecer el modelo de regresión que mejor ajuste los datos para los coliformes restantes. Evaluar su utilidad acordemente, es decir, a través de diagnósticos objetivistas y subjetivistas. (d) Decir el orden de la reacción de estos datos de (b). (e) Calcular la tasa de la reacción (b). (f) Calcular la vida media de las bacterias.
www.full-ebook.com
(g) Predecir el tiempo que se llevaría para aniquilar el 50% de las bacterias coliformes. (h) Calcular el valor de la estadística Durbin-Watson. ¿Hay problemas de autocorrelación? (ver capítulo 10 Series de tiempo) La tabla de abajo muestra los datos de este problema.
9.36. Cuando se habla de mediciones de ozono (O3), es necesario aclarar que hay dos tipos de ozono (O3): el ozono natural (“bueno”) situado en la estratosfera, que nos protege de la dañina radiación ultravioleta y el ozono artificial (“malo”), que se genera a nivel del suelo, mismo que se discute en este ejercicio. El O3
www.full-ebook.com
artificial es un gas contaminante secundario que se forma por la reacción química entre los óxidos de nitrógeno (NOx) y los compuestos orgánicos volátiles (COV), en la presencia de luz solar y la temperatura. Por esta razón, las concentraciones del ozono malo son más altas en verano y alcanzan los máximos al medio día. Los ingredientes químicos que intervienen en la formación del O3 malo son las emisiones vehiculares e industriales, vapores de la gasolina, solventes químicos y compuestos orgánicos volátiles y el calor. El O3 artificial es el principal constituyente en la formación del llamado smog fotoquímico. Los estándares del ozono por 8 horas son de 0.075 partes por millón (ppm) y de 0.012 (ppm), para 1 hora. De acuerdo a la Environmental Protection Agency (EPA) de los E. U. A., la exposición al O3 artificial (más común en verano) puede ocasionar varios problemas sintomáticos de salud, como dolor de pecho, tos, irritación de la garganta, irritación de los ojos y congestión. Además puede agravar los síntomas de la bronquitis, enfisema y el asma (que no son enfermedades particulares, sino síntomas de enfermedad, que no es lo mismo). La exposición continua al O3 puede causar cicatrices permanentes en los tejidos pulmonares. Para este estudio se usaron datos reales provenientes de dos estaciones de muestreo localizadas en El Paso, Texas, U.S.A., llamadas “Chamizal” y “UTEP”. Estas estaciones de muestreo son manejadas por la EPA, a través de la agencia estatal ambiental del estado de Texas (TNRCC). La información se tomó cada hora por 365 días del año correspondientes al periodo (1999-2004). Esto equivalió a 37,265 entradas. Después, se calcularon los promedios mensuales, en unidades partes por billón (ppb), para cada uno de los 6 años. Aquí, se asume que hay dependencia entre las concentraciones de ozono captadas por los dos muestreadores. Las tablas de abajo muestran las concentraciones promedio de O3 (ppb), para las estaciones de muestreo Chamizal y UTEP. Tabla mostrando las concentraciones promedio de ozono a nivel del suelo (ppb), para la estación muestreadora Chamizal correspondientes al periodo (19992004).
www.full-ebook.com
Hacer lo siguiente: (a) Hacer gráficas de probabilidad normal para cada uno de los 12 meses, para el periodo (1999-2004), para los datos de las dos estaciones de muestreo, para revisar por la simetría de los datos. (b) Hacer una correlación de Pearson y calcular el coeficiente R, entre los dos juegos de promedios de ozono de las dos estaciones. El coeficiente de correlación R es una medida de la extensión con que las dos mediciones varían conjuntamente. (c) Hacer una gráfica sobrepuesta que vaya en función de las concentraciones de ozono de cada una de las dos estaciones de muestreo y del tiempo en meses. 9.37. Se dan los siguientes datos de cierto experimento. Hacer lo siguiente: (a) Graficar los datos. (b) Hacer un diagrama esparcido con línea de regresión ajustada. Hacer gráficas de probabilidad para revisar por la simetría de los datos. (c) Calcular la ecuación de regresión asumiendo un modelo de regresión lineal simple. Sugerencia: Usar la ecuación de regresión estadística y = a + bx, misma que emula a la ecuación de regresión poblacional dada como Y = βo + β1X1 + ε. Una vez calculada la ecuación de regresión estadística, calcular el valor de la
www.full-ebook.com
variable independiente, cuando X = 5 (d) Calcular manualmente los valores de la pendiente y del intercepto de la ecuación de regresión. Sugerencia: usar las siguientes fórmulas: Pendiente = b = [n ΣXY – (ΣX)(ΣY)] / [n ΣX 2 – (ΣX)2 ] = Σxy / Σx2 Intercepto = a = [(ΣY)(ΣX 2) – (ΣX)(ΣXY)] / [(nΣX 2) – (ΣX)2] = – b Para esto usar las funciones dadas como: Σx2 = ΣX2 – (ΣX)2/n, Σxy = ΣXY – ΣXΣY/n, Σy2 = ΣY2 – (ΣY)2/n. Donde las letras mayúsculas de X e Y se refieren a los datos originales y, donde n es el tamaño de la muestra. (d) Calcular manualmente e interpretar el coeficiente de determinación R2 (que mide la proporción de variabilidad de y explicada por la variabilidad de X). Sugerencia: para el cálculo del coeficiente de determinación R2 usar la función: R2 = (Σxy)2 / Σx2Σy2 (e) Finalmente, usar el programa Minitab y calcular los resultados obtenidos de los incisos (a), (b) y (c) y comparar los resultados. Además, usando este paquete de cómputo, calcular el error estándar de lo estimado s, PRESS y hacer la tabla de ANOVA. Tabla mostrando los datos del ejemplo.
www.full-ebook.com
9.38. Este es un estudio relacionado con el radioisótopo sintético tecnetium-99 (99Tc), que emite radiación beta. Este tipo de radiación se puede parar fácilmente, en contraste con las radiaciones gamma que son las más peligrosas y difíciles de contener. Para este estudio se saca una muestra 17 desintegraciones por minuto, en función del tiempo (horas), el cual está encaminado a calcular la vida media, t1/2 del tecnetium-99. En este renglón, el término “vida media” es útil para determinar las edades de cualquier objeto. Así, la vida media, t1/2 es el tiempo requerido para que reaccione la mitad o el 50% de la cantidad inicial del isótopo (el isótopo de un elemento cualquiera tiene el mismo número atómico o sea el mismo número de protones en el núcleo, pero diferente número de masa o sea diferente número de neutrones). La segunda vida media es la mitad de la cantidad restante de la primera vida media, y así sucesivamente. Cada isótopo tiene su propia característica de vida media. Por ejemplo, la vida media del isótopo del carbono 14C es de 5,700 años emitiendo radiación beta. Siendo así, como información adicional se sabe que la tasa del decaimiento radiactivo de cualquier isótopo es una reacción de primer orden. Esta reacción se puede describir como k = 2.30/t (log No/Nt), donde k es la constante de la tasa de la reacción de primer orden, t es el intervalo de tiempo, por el cual se mide el decaimiento, No es el número inicial de núcleos a un tiempo de t = 0, y Nt es el número de núcleos que queda después del intervalo de tiempo. Los datos aproximados de las desintegraciones por minuto en función del tiempo de estas variables se dan abajo.
www.full-ebook.com
Hacer lo siguiente: (a) Identificar la variable dependiente y la independiente. Luego hacer un diagrama esparcido que vaya en función de las dos variables. (b) Hacer una transformación logarítmica (base e) de la variable dependiente. Luego, hacer una gráfica. (c) Calcular la ecuación de regresión más adecuada. Luego, validar la calidad del modelo de regresión seleccionado a través de diagnósticos objetivistas y subjetivistas.
www.full-ebook.com
(d) ¿Hay problemas de autocorrelación de los residuales, es decir falta de independencia? Examinar el valor de la estadística de Durbin-Watson y emitir un juicio, acerca de esto (ver Capítulo 10 Series de Tiempo). (e) Calcular la vida media de esta reacción de primer orden, si la concentración inicial de Tc es de 180.0 gramos. (f) Hacer una gráfica con seis vidas medias del isótopo Tc, esto es, primera vida media, segunda vida media, tercera vida media, etc., en función del tiempo en horas. Calcular la concentración de Tc que va quedando y la concentración de Tc que se va oxidando en cada caso, con sus respectivas vidas medias. 9.39. Este es un estudio de uso de corrientes de agua, en el cual se usó el modelo computacional de Streeter-Phelps, también llamado curva de la comba del oxígeno. Este es un modelo matemático usa las corrientes de agua como plantas naturales de tratamiento para degradar la materia orgánica restante de las plantas mecánicas de tratamiento. Este procedimiento representa el método racional más económico para el pulido de las aguas residuales, usando las técnicas de ingeniería con el objeto de no menoscabar la capacidad de asimilación de las corrientes de agua usadas para tales fines. El modelo se usa para predecir el tiempo y la distancia que ocurre el déficit del oxígeno crítico en el agua después de la descarga del agua residual. La ecuación de Streeter-Phelps usada en este estudio es:
Donde: Dt = déficit de oxígeno a un tiempo t (mg/L)
www.full-ebook.com
Lo = demanda última, primera etapa, o porción carbonosa del DBO (es decir, de la ecuación monomolecular y = Lo(1 – 10-kt)) k1 = tasa de desoxigenación k2 = tasa de renovación del oxígeno atmosférico Do = Déficit inicial del oxígeno de saturacion (mg/L) en el punto de la descarga t es el tiempo transcurrido a lo largo de la corriente (días). El procedimiento que se usó fue sustituyendo en la ecuación de arriba, los siguientes valores: k1 = 0.126 a 25 oC, k2 = 0.26 a 25 oC (porque se asume una temperatura ambiental de 25 oC) Lo = 28.0 mg/L corregido a 25 oC (que se obtuvo de la ecuación monomolecular o carbonacea del DBO5, y = 28.0(1 – 10-0.126(5)) = 21.44. Do déficit inicial de saturación igual a 0.18 (que se obtuvo de la diferencia entre la saturación de oxígeno disuelto (OD) a 25 oC o sea asumiendo 8.38 mg/L restando el OD de la mezcla de agua de la corriente y el agua residual asumiendo 8.20 mg/L, para dar 8.38 – 8.20 = 0.18. El tiempo sustituido en la ecuación de arriba, expresado en días fue de 0, 0.5, 1.0, 1.5, 2.0, 2.5, 3.0, 3.5, 4.0, 4.5, 5.0, 5.5, 6.0, 6.5, 7.0. Después de sustituir los valores en el modelo de Streeter-Phelps se obtuvo la relacion dada abajo: Dt = (0.126)(28.00)/(0.23 – 0.126) (10-0.126t – 10-0.26t) + 0.18(10-0.26t) Posteriormente se hizo un estudio de campo y se sacó una muestra aleatoria de 2 años, es decir, haciendo análisis en el laboratorio de los valores de Dt correspondientes a cada una de las distancias usadas en el modelo teórico. Después de sustituir los valores del tiempo citados arriba en la ecuación (2) y los valores de campo se
www.full-ebook.com
generó la siguiente tabla de abajo
*Asumiendo una velocidad de la corriente de 8.64 Km./día Hacer lo siguiente: (a) Una estructuración del modelo de regresión que mejor ajuste los datos de la siguiente manera. (1) Usar los datos originales (valores teóricos y de campo), para la estructuración del modelo. Luego evaluar la utilidad del modelo a través de diagnósticos objetivistas (estadísticos como R2, s, PRESS, etc.) y subjetivistas (gráficos de residuos)
www.full-ebook.com
(2) Usar transformaciones logarítmicas y estructurar un modelo de regresión (logaritmos de valores teóricos y valores de campo). Luego, evaluar su utilidad a través de diagnósticos objetivistas y subjetivistas (b) Al juzgar por los diagnósticos objetivistas y subjetivistas obtenidos en (1) y (2) decidir, cual modelo es mejor. (c) ¿Cuál es el objeto de hacer estudios de regresión estadística? (d) Hacer una gráfica sobrepuesta de los valores teóricos y de campo vs. tiempo. Observar las discrepancias y del punto de vista de ingenieria, decir que pudo haber ocurrido ahí. (e) Hacer una gráfica sobrepuesta con los valores del déficit de oxígeno y los valores del oxígeno disuelto (OD). ¿Cuál es el valor mínimo de OD, y a que tiempo y distancia ocurrió? (f) Si no se cumpliese el criterio de Ellis de 5 mg/L, (para la preservación de vida acuática útil), es decir, del punto de vista de tecnologías del agua de ingenieria ambiental, idear que se pudiera hacer para corregir esta anomalía.
www.full-ebook.com
REFERENCIAS 1. Daniel, W. W., Terrel, J. C. (1989). Business Statistics. For Management and Economics. Hougton Mifflin Company. 2. McCuen, R. H., Snyder, W. M. (1986). Hydrologic Modeling. Statistical Methods and Applications. Prentice-Hall, Englewood Cliffs, New Jersey 07632. (p. 215). 3. Chow, V. T. (1964). Handbook of Applied Hydrology. A Compendium of Water-resources Technology. McGRAW-HILL Book Company (pp. 8.44-8-45) y (p.8.61) 4. Goodale, C. L. , Aber, J. D., Ollinger, S. V. (1998). Mapping Monthly Precipitation, Temperature, and Solar radiation for Ireland with Polynomial Regression and Digital Elevation Model. Climate Research, Vol 10:35-49. 5. Hanavis, S. A. , Rajagapolon, B., Lall, U. (2010). Local Polynomial Based Flood Frequency Estimation of Mixed Population. Journal of Hydrologic Engineering. 6. Quevedo, H., Pérez, B. R. (2008). Estadísica para Ingeniería y Ciencias. Grupo Editorial Patria, S. A. de C. V. (p. 364) 7. Hamburg, M. (1989). Statistical Analysis for Decision Making. Quinta edición. Harcourt Brace Jovanovich, Publishers (p. 547). 8. Keller, G., Warrack, B, Bartel, H. (1990). Statistics for Management and Economics. Second edition. Wadsworth Publishing Company. (p. 775). 9. Sharma, H. D. Sharma, Lewis, S. S. (1994). Waste Containment Systems, Waste Stabilization and Landfill, Design and Evaluation. John Wiley & Sons, Inc.
www.full-ebook.com
10. Bedient, P. B., Huber, W. C. (1988). Hydrology and Floodplain Analysis. Addison-Wesley Publishing Company. (p. 342) 11. Montgomery, D. C., Runger, G. C. (1996). Probabilidad y Estadística Aplicadas a la Ingeniería. McGraw-HILL INTERAMERICANA EDITORES, S.A. DE C..V. 12. NCSS (Statistical Software). Computer Program for statistical analyses, created in 1981. NCSS LLC is the company that produced NCSS. 13. Paztor, A. R. (1998). Una Nueva Filosofía Médica Racionalista: Cáncer y SIDA y la Importancia de Vivir Naturalmente. Naturheilkunde Publishing Company. El Paso, Texas, U. S. A. E:mail:
[email protected]. 14. http:/www.backrags.com (2010). 13. Keller, G., Warrack, B, Bartel, H. (1990). Statistics for Management and Economics. Second edition. Wadsworth Publishing Company. (p. 775). 15. Sakia, R. M. (1992). The Box-Cox Transformation Technique: a Review. The Statistitian, 41, 169-178. 16. Box, G. E. P. and Cox, D. R. (1964), An Analysis of Transformations, Journal of the Royal Statistical Society, 211-243, discussion 244-252. 17. Neter, J., Kutner, M. H., Nachtsheim, C. J., Wasserman, W. (1996). Applied Linear Regression Models. The McGraw-Hill Companies, Inc. (p.345). 18. White, H. (1980). A Heteroscedasticity-Consistent Covariance Matrix and Direct Test for Heteroscedasticity. Econometrica, p. 48:817-838) 19. Devore, J. L. (2000). Probability and Statistics for Engineering and the
www.full-ebook.com
Sciences. Duxbury Thomson Learning. (p.568-569, p. 571). 20. Atkins, P., Jones, L. (1997). Chemistry. Molecules and Matter. W. H. Freeman and Company, New York. (P. 223, P. 822). 21. Sheila Murphy. General Information on http//bcn.boulder.co.us/basin/data/BACT/info/TTS.html). (2010).
solids.
22. White, H. (1980). A Heteroscedasticity-Consistent Covariance Matrix and Direct Test for Heteroscedasticity. Econometrica, p. 48:817-838). 23. http://www.epa.ohio.gov/portals/35/documents/ewhdojus.pdf
24.http://ir.library.oregonstate.edu/xmlui/bitstream/handle/1957/4182/SR%20no.%20141_ocr. df?sequence=1
www.full-ebook.com
Capítulo 10
www.full-ebook.com
Series de tiempo Dr. Héctor Adolfo Quevedo Urías (Ph.D.)
Temas descritos en este capítulo
10.1. Introducción a las series de tiempo
10.2. Aplicaciones de las series de tiempo a la ingeniería ambiental y ramas afines
10.3. Componentes de movimientos de series de tiempo. Componentes o tipos principales de series de tiempo
10.4. Análisis de modelos de series de tiempo. Modelo multiplicativo y aditivo
10.5. Métodos de pronóstico de promedios móviles y suavizamiento exponencial
10.6. Medias móviles en series de tiempo
10.7. Suavizamiento exponencial en series de tiempo
10.8. Método de Winters
10.9. Mediciones de variaciones estacionales
10.10. Análisis de tendencia
10.10.3. Modelo polinomial de tendencia a largo plazo
10.11. Método de descomposición
www.full-ebook.com
10.12. Tipos de funciones matemáticas para líneas de tendencia
10.13. Autocorrelación en series de tiempo
10.14. Técnicas autorregresivas
10.15. Método de Box-Jenkins
10.16. Derivación de la función de cinética química (relacionada con la intensidad o velocidad de reacciones químicas), es decir, de la fórmula monomolecular de la demanda bioquímica de oxígeno de 5 días (DBO5). Su relación con las series de tiempo
10.17. Reacciones consecutivas
Ciclo hidrológico El ciclo hidrológico o ciclo del agua es el proceso de circulación del agua entre las distintas partes de la hidrosfera. El ciclo hidrológico es un ciclo biogeoquímico, en el cual hay una intervención mínima de reacciones químicas, y el agua solamente se traslada de unos lugares a otros o cambia de estado (gaseoso, sólido o líquido). El agua de la hidrosfera seca procede de la desfragmentación del metano (CH4), donde tiene una presencia significativa, por los procesos de las erupciones volcánicas. Una parte del agua puede reincorporarse al manto con los sedimentos oceánicos de los que forma parte cuando éstos acompañan a la litósfera, en subducción (con la geología, esto es el buzamiento de una placa litosferita de orden oceánico bajo una placa adyacente, es decir, de naturaleza continental). La mayor parte de la masa del agua se encuentra en forma líquida, sobre todo en los océanos y mares y en menor medida en forma de agua subterránea (acuíferos) o de agua superficial (en ríos, corrientes o arroyos). El segundo compartimiento del ciclo hidrológico por su importancia es el del agua acumulada en forma sólida, como hielo, sobre todo en los casquetes glaciares (ártico y antártico), con algo de participación de los glaciares montañosos, sobre todo de las latitudes altas y medias. Por último, una fracción menor del ciclo hidrológico está presente en la atmósfera, como vapor
www.full-ebook.com
o, en estado gaseoso, como en el caso de las nubes. Esta fracción atmosférica es, sin embargo, muy importante para el intercambio entre compartimentos y para la circulación horizontal del agua, de manera que se asegura un suministro constante a las regiones de la superficie continental alejadas de los depósitos principales de agua. 10.1. Introducción a las series de tiempo. Este capítulo provee varias aplicaciones a la ingeniería ambiental y demás disciplinas afines. Además, discute las componentes de las series de tiempo y describe los análisis de modelos de series de tiempo; así como los modelos aditivo y multiplicativo. También, describe los métodos de pronóstico de promedios móviles y suavizamiento exponencial y el método de Winters. Igualmente, este capítulo describe el análisis de tendencia, diversos métodos para encontrar líneas de tendencia, autocorrelación en series de tiempo, pruebas de hipótesis usando el estadístico de Durbin-Watson, técnicas autorregresivas, el método de BoxJenkins, métodos de análisis de correlación y modelado de ARIMA y así sucesivamente. Finalmente, se hace un uso muy extensivo del programa Minitab. Por otra parte, el análisis de los datos de las series de tiempo es de interés para aquéllos quienes deseen entender la naturaleza de los datos pasados y presentes. También, las series de tiempo son de interés para aquellos investigadores, quienes deseen usar el conocimiento de datos pasados para predecir el futuro. Las gráficas como los histogramas o diagramas de tallo y hoja son métodos visuales útiles para mostrar la variación en los datos. Sin embargo, el tiempo es un factor muy importante, que contribuye a la variación observada de los datos, que los histogramas o las gráficas de caja no toman en cuenta. 10.2. Aplicaciones de las series de tiempo a la ingeniería ambiental y ramas afines. Clásicamente, las aplicaciones de series de tiempo son comunes en estudios económicos. Sin embargo, las series de tiempo tienen muchas aplicaciones a la ingeniería ambiental y tecnologías del agua, la hidrología y usos del agua. Por ejemplo, las series de tiempo se pueden usar para describir las propiedades del agua, como los ciclos hidrológicos. Además, se usan los datos de las series de tiempo para mostrar la cantidad de lluvia que ha caído dentro de una cuenca en un día, el año anterior o por 10 años. Con esta información, combinada con el análisis adicional de series de tiempo, se puede calcular la cantidad de escorrentía para determinar la descarga total en la cuenca y los flujos
www.full-ebook.com
y niveles de agua de un río, con el objeto de diseñar nuevos sistemas de ríos. Las series de tiempo pueden estar compuestas, solamente, de eventos determinísticos, solamente de eventos estocásticos o una combinación de los dos tipos de eventos. Por ejemplo, las series de tiempo hidrológicas pueden estar compuestas de un componente estocástico sobrepuesto en un componente determinístico. Siendo así, las series de tiempo compuestas de promedios de temperaturas diarias en algún sitio pueden tener variaciones estacionales, y del componente determinístico, además de las variaciones aleatorias de valores estacionales. Las tendencias en las series de tiempo en hidrología pueden estar relacionadas con las condiciones de una cuenca hidrológica sobre un periodo de muchos años, lo que resulta en cambios de las características que se muestran en tendencias de datos de flujos de corrientes de agua. Con relación a aplicaciones de series de tiempo a la hidrología, es obvio que hay muchas demandas para el manejo de los recursos del agua que incluyen su uso industrial, doméstico, agrícola, recreativo, de construcción de obras hidráulicas y sus periodos de retorno y así sucesivamente. De esta manera, la hidrología se encarga de manejar los usos del agua y de mantener los promedios de los flujos en los ríos para propósitos agrícolas, de navegación o del punto de vista de la ingeniería ambiental. Todo esto se hace para enfrentar las variaciones estadísticas en función del tiempo de los patrones de precipitación que están ocurriendo (eventos extremos de sequías e inundaciones o de temperaturas altas y bajas) debido al calentamiento global y la consecuente distorsión climática. Se pueden usar un amplio rango de modelos estocásticos aplicados a las series de tiempo hidrológicas para poder planear las obras hidráulicas con predicciones a corto y largo plazo para alertar a la población de los posibles riesgos que entrañan los eventos extremos debidos a la distorsión climática mundial. Con respecto a la ingeniería ambiental, actualmente hay una interacción entre la ingeniería ambiental y la hidrología que no existía antes del advenimiento de la era industrial, porque el calentamiento global está afectando los patrones pluviales y los periodos de retorno. Al presente, esta condición está ocasionando, en una serie de causa y efecto, la distorsión climática, misma que está impactando a los proyectos hidrológicos y periodos de retorno o los fenómenos meteorológicos. Por otro lado, las series de tiempo son muy útiles en el establecimiento de modelos de regresión para predecir los aumentos de los gases de invernadero, como el CO2, el metano (CH4) o vapor de agua, que se están emitiendo a la atmósfera, en función del tiempo. Además, las tendencias de los
www.full-ebook.com
incrementos de la temperatura de las superficies del mar es otro factor que está generando toda clase de eventos extremos como huracanes, tormentas tropicales, vientos huracanados, fríos o calores extremos. Otros investigadores (Huff et al. 1973) discuten aplicaciones de tiempo a condiciones cambiantes de cuencas sobre periodos de varios años correspondientes a cambios de las características de los flujos de corrientes, es decir, como tendencias en series de tiempo de datos de escorrentías. Estos estudiosos, también discuten las aplicaciones de series de tiempo, a los problemas de urbanización en gran escala, que pueden resultar en cambios en la precipitación que se muestran como tendencias en la precipitación. Por otra parte, Mathevet et al. (2004) en estudios de sistemas cársticos (regiones irregulares de piedra caliza con cavidades, corrientes de agua subterráneas, cavernas y acuíferos) hicieron aplicaciones de series de tiempo al funcionamiento hidrológico de un sistema cárstico alpino. Más adelante, en otras investigaciones relacionadas con aplicaciones de series de tiempo a la incidencia de huracanes, Than (2006), en una publicación cibernética afirma que, el aumento de las temperaturas en las superficies de los océanos ha sido el factor primordial en la formación de huracanes más fuertes, desde 1970. De acuerdo a esta investigación estadística, hay una tendencia alarmante en el número de huracanes de categorías 4 y 5 (de acuerdo a la escala de vientos Zaffir-Simpson, los huracanes categoría 3 tienen vientos sostenidos de 111-130 mph, la categoría 4, de 131-155 mph y la categoría 5 mayor que 155 mph). Por ejemplo, se afirma que en los años 70’s el número promedio de categorías 4 y 5 de huracanes, a nivel mundial, era de 10 por año, pero desde 1990 ese número de huracanes con esas categorías casi se ha doblado, con una media de cerca de 18 por año. Similarmente, en otras investigaciones relacionadas con los efectos del calentamiento global, Biello (2007) afirma que hay una tendencia significante, desde 1890 en huracanes más fuertes empezando en cualquier tiempo antes de 1920. Además, este investigador contiende que, globalmente, las áreas de océanos calientes, casi se ha triplicado en tamaño desde el comienzo del siglo XX, es decir, de 17 millones de millas cuadradas a más de 46 millones de millas cuadradas. Finalmente, este investigador contiende que existe un promedio de un ciclón tropical adicional por cada 0.1 oC de aumento de temperatura en la superficie marina y de un huracán por cada 0.2 oC de aumento de temperatura de la superficie oceánica. Por otra parte, en términos científicos especulativos, algunos científicos afirman que, a medida que se generalice la fundición de las capas polares, la incidencia de huracanes tenderá a desaparecer. ¿Será por el enfriamiento de las aguas marinas?
www.full-ebook.com
También, con la ingeniería ambiental, las series de tiempo son muy útiles en el establecimiento de modelos de regresión para predecir los aumentos de los gases de invernadero, como el CO2, el metano (CH4) o vapor de agua, que se están emitiendo a la atmósfera, en función del tiempo. Como se dijo antes, anteriormente a la era industrial no existía una relación entre los aumentos de gases de invernadero artificial que están calentando la tierra y los efectos en la hidrología. Por otro lado, las tendencias de los incrementos de la temperatura de las superficies del mar es otro factor que está generando toda clase de eventos extremos como huracanes, tormentas tropicales, vientos huracanados, fríos o calores extremos. Por otra parte, en aplicaciones de análisis de series de tiempo, los activistas y protectores del medio ambiente quieren saber cuáles son las tendencias en los aumentos de los gases de invernadero, como el bióxido de carbono (ocasionado por la emisiones vehiculares, la industria, fuegos forestales, etc.), que están calentando la Tierra, fundiendo los glaciares montañosos y las capas polares y alterando el clima mundial. También es interesante saber las tendencias y los aumentos de la radiación ultravioleta, en función del tiempo, para cuantificar, qué tanto daño está causando al ser humano (en sus formas de UV-A y UV-B que están causando cáncer en la piel, en sus tres formas, melanoma, basal y escamoso y daños en la visión y alteraciones en la estructura del DNA), y que también están afectando la flora y la fauna, de lagos, ríos, corrientes, océanos, las eficiencias de las lagunas de oxidación, etc. Este tipo de radiación, que no existía en esta escala antes de la era industrial, tiene su origen en la destrucción del ozono natural estratosférico, causado por la irracionalidad del hombre moderno. También, como se dijo anteriormente, las series de tiempo se pueden aplicar al análisis de las tendencias de las emisiones de gases de invernadero, como bióxido de carbono, metano, u óxidos de nitrógeno. La presencia de estos gases antropogénicos, en la troposfera contribuye al efecto invernadero artificial (para distinguirlo del efecto invernadero natural), que están causando distorsiones climáticas, como cambios en los patrones pluviales, incidencia de huracanes, sequías, inundaciones, tornados, granizadas, vientos huracanados, cambios en el eje polar de la tierra (mismo que traerá muchos disturbios climatológicos), etc. Igualmente, se pueden aplicar series de tiempo para analizar las tendencias de
www.full-ebook.com
los aumentos promedio de temperatura tanto, local, como geográfica y global. Igualmente, las series de tiempo aplican a estudios de contaminación de corrientes para saber las concentraciones del oxígeno disuelto en el agua en función del tiempo, la temperatura y de la distancia de la descarga. Análogamente, las series de tiempo tienen aplicaciones en el estudio de la cinética de la demanda bioquímica de oxígeno que va en función del tiempo, misma que tiene muchas aplicaciones en las tecnologías del agua, como en el diseño de plantas de tratamiento de aguas residuales, estudio de contaminación de corrientes, etc. En aplicaciones a las tecnologías del agua, el estudio de cinética química es de gran importancia en la aplicación de series de tiempo. Aquí se discuten temas como reacciones de primer orden, reacciones de segundo orden y reacciones consecutivas, en función del tiempo. Por ejemplo, las reacciones de primer orden tienen aplicaciones en la solución del oxígeno en el agua en función del tiempo. Este tipo de reacciones también aplican a la tasa de muerte de microorganismos, en función del tiempo, en procesos de desinfección del agua. Más importante todavía, es la aplicación de reacciones de primer orden en la derivación de la ecuación monomolecular para estudios de la cinética de la demanda bioquímica de oxígeno (DBO) con relación al tiempo, parámetro que tiene muchas aplicaciones en el diseño y operación de plantas de tratamiento de aguas residuales. Análogamente, las reacciones de segundo orden tienen algunas aplicaciones en estudios del agua. Por otro lado, las reacciones consecutivas son de mucha importancia en tecnologías del agua. Por ejemplo, estas reacciones consecutivas son ampliamente usadas en describir el déficit de oxígeno en estudios de corrientes (usando el modelo de Streeter-Phelps: ver Water Environmental Research 68(5):917-926), como plantas naturales de pulimento de remanentes de plantas mecánicas de tratamiento de drenajes. También, las reacciones consecutivas se pueden usar en la descripción de la nitrificación bacterial del nitrógeno orgánico, el cual se oxida a nitritos (NO2-) y, posteriormente, a nitratos (NO3-), por la acción bacterial de las nitrosomonas y nitrobacter. Los cambios en las formas del nitrógeno son típicas en filtros por goteo, en tratamientos anaerobios y en estudios de corrientes (ver Sawyer et al. 1967). 10.3. Componentes de movimientos de series de tiempo. Componentes o
www.full-ebook.com
tipos principales de series de tiempo. El análisis clásico de series de tiempo es un método que clasifica sus componentes en cuatro variantes: 1. Tendencias a largo plazo o movimientos seculares. 2. Movimientos o fluctuaciones cíclicas. 3. Variaciones estacionales o movimientos estacionales. 4. Variaciones o movimientos irregulares o aleatorios. Las figuras de abajo muestran ejemplos de algunos posibles patrones de tendencia en series de tiempo.
Figura 10.1. Gráficas mostrando los tipos de tendencias en series de tiempo. La gráfica (a) muestra una tendencia de línea a largo plazo o de movimiento secular. La gráfica (b) muestra una línea de tendencia a largo plazo con un movimiento cíclico sobrepuesto. La gráfica (c) muestra fluctuaciones cíclicas a largo plazo y movimientos estacionales. 10.3.1. Tendencias a largo plazo. La tendencia a largo plazo o tendencia secular de una serie de tiempo es la componente uniforme que representa el crecimiento o disminución de la serie de tiempo tiempos, sobre un periodo grande de tiempo. La tendencia secular se refiere a la dirección general en la cual la gráfica de una serie parece moverse durante un intervalo de tiempo. La tendencia de una serie de tiempo no siempre es lineal. Ejemplos de estos tipos de tendencias están documentados por la investigadora Loveleena Rajeev en una información cibernética relacionada con el calentamiento global por las emisiones del gas de invernadero metano que ha estado aumentado en función del tiempo. En este estudio se afirma que el potencial de calentamiento global por las emisiones de
www.full-ebook.com
metano es aproximadamente 21 veces más absorbente del calor que el CO2. Igualmente, otra investigación (Naik, 2010) afirma que en el año de 1750 la concentración de metano en la atmósfera era de 700 partes por billón (ppb), la cual se incrementó a 1745 ppb en 1998. Similarmente, Lenart et al. (2006) afirman que el CO2 atmosférico ha aumentado desde la era industrial de 280 ppm a 380 ppm en 2005. Esto dice que los niveles se han incrementado por cerca de 1 a 2 ppm por año. En este renglón, es de saberse que los aumentos de CO2 tienen ramificaciones significantes ecohidrológicas e hidrológicas (por el calentamiento global y distorsión climática que conlleva a la alteración de los patrones pluviales y de los periodos de retorno). 10.3.2. Componentes cíclicos de series de tiempo. Los componentes cíclicos de las series de tiempo, se refieren a los movimientos recurrentes arriba y abajo de las tendencias de las series de tiempo. Estas fluctuaciones de onda, llamadas ciclos de los negocios, son diferentes de las fluctuaciones estacionales. Es decir, en el sentido de que cubren periodos largos de tiempo, tienen causas diferentes y son menos predecibles. Las fluctuaciones duran de 2 a 10 años, o más, cuando se miden las ondas de cresta a cresta o de valle a valle. Con la hidrología, ejemplos de componentes cíclicos son los periodos de sequías e inundaciones. Esta situación se ve en la Figura 10.1 (b). Más adelante, investigadores como Webster et al. (2005), en un estudio de series de tiempo relacionada con los cambios en el número de ciclones tropicales su duración e intensidad debido al calentamiento global, es decir, con el aumento de la temperatura de la superficie del mar, afirma que pudiera existir una relación entre la actividad de huracanes y las temperaturas de la superficie marina. Para sustentar esta contención, estos investigadores afirman que la temperatura de la superficie marina ha aumentado aproximadamente 0.5 oC, entre los años de 1970 y 2004. También, otras investigaciones hechas por la Universidad de Oregon muestran las gráficas de las concentraciones de metano de la estación muestreadora de Mauna, Loa, Hawai. El metano, como gas de invernadero, al igual que el CO2 y todos los demás gases de invernadero, están contribuyendo a la distorsión climática mundial. Estas condiciones están afectando, en una secuencia de causa y efecto, los ciclos hidrológicos, los periodos de retorno, los usos del agua y todo lo demás relacionado con los recursos del agua. Todo esto, sin contar los efectos que el calentamiento global está teniendo en todos los demás sistemas climáticos, económicos, políticos, de salud, etc.
www.full-ebook.com
10.3.3. Variaciones estacionales en series de tiempo. Este tipo de series de tiempo se refieren a variaciones periódicas, pero no están limitadas a variaciones con la estación del año. Estos son patrones de periodos en las series de tiempo que se completan en un año o menos y, luego se repiten de acuerdo al mismo patrón de periodo en años subsecuentes. La unidad de tiempo en variaciones estacionales es menos que un año, pero pueden ser de un mes, una semana, o parte del día. Esta situación se ve en la Figura 10.1(c). El interés de investigar variaciones estacionales pueda ser para estudiar estos movimientos o para ser medidos para eliminarlos, de manera que las fluctuaciones cíclicas y de tendencia de alguna aplicación en particular, puedan ser más claramente reveladas. 10.3.4. Variación irregular en series de tiempo. Este tipo de variación se llama algunas veces variación errática o variación aleatoria. Este es un tipo de variación que no está considerado por tendencias, ciclos o factores estacionales, sino que se compone de fuerzas no recurrentes, esporádicas que no se describen como o atribuidas a factores de tendencias, ciclos, o estacionales. Ejemplos de variaciones irregulares son movimientos esporádicos de series de tiempo debido a inundaciones, granizadas, heladas, tornados, huracanes, sequías, fuegos forestales, huelgas inesperadas, decisiones políticas imprevistas, etc. 10.4. Análisis de modelos de series de tiempo. Modelo multiplicativo y aditivo. Una vez dada la descripción de los cuatro componentes de una serie de tiempo, ahora es necesario investigar la relación entre ellos. La relación entre los componentes de las series de tiempo se describe usualmente por dos modelos: el modelo multiplicativo y el modelo aditivo. De esta manera, ahora investigaremos la naturaleza de la relación entre estos componentes. Por ejemplo en el modelo aditivo, el valor de las series de tiempo a un tiempo t, se describe como la suma de los factores tendencia, cíclico, estacional y de movimiento irregular, esto es: Y = T + C + S + E
(10-1)
Donde, Y es un valor observado de la variable de interés, T es el componente de
www.full-ebook.com
tendencia, S es el componente estacional, C es el componente cíclico y E es el componente de movimientos irregulares o erráticos. En algunas ocasiones, una serie de tiempo en particular puede representarse mejor por el modelo aditivo. Esto puede ocurrir cuando los componentes de tendencia, estacional, cíclico y errático interactúan de una manera aditiva para producir una serie dada. Este modelo aditivo asume que los componentes son independientes uno del otro. Además, en este modelo aditivo los efectos de los factores individuales son diferenciados y sumados juntos para modelar los datos. Finalmente, este modelo se usa cuando la magnitud de los datos no afecta su patrón estacional. No obstante, el modelo más ampliamente usado es el modelo multiplicativo, donde se asume que la variable Y es el producto de las variables T, C, S y E, esto es: Yt = Tt• Ct• St•Et= TCSE
(10-1a)
El análisis de series de tiempo consiste en una investigación de los factores T, C, S y E y esto se refiere comúnmente como descomposición de una serie de tiempo en los movimientos de los componentes básicos. El modelo multiplicativo para descomposición se usa cuando el tamaño de los patrones estacionales depende del nivel de los datos. Este modelo multiplicativo asume que, a medida que los valores aumentan, también aumenta la magnitud del patrón estacional. La mayoría de las gráficas de series de tiempo exhiben este comportamiento. En este modelo, la tendencia y los componentes estacionales se multiplican y luego se multiplican al componente del error. Ambos modelos, el multiplicativo y aditivo, son igualmente aceptables. En el modelo aditivo todos los valores son expresados en las unidades originales, pero en el modelo multiplicativo, solamente, el componente de tendencia se expresa en las unidades originales y los otros componentes se expresan como porcentajes o unidades relativas. Sin embargo, es más fácil entender las técnicas asociadas con el análisis de series de tiempo, si nos referimos al modelo multiplicativo. Los componentes
www.full-ebook.com
cíclicos (Ct) y los componentes aleatorios (Et), no son usualmente predecibles y, por regla no pueden ser pronosticados. Por lo tanto, la ecuación del modelo multiplicativo anteriormente descrito puede tomar la forma: F = T • S
(10-1b)
En la ecuación anterior, los factores de tendencia y de estacionalidad, cuando están presentes, son estimados de datos de análisis históricos. Por lo tanto, debido a que cada uno de estos componentes (de tendencia y estacionales) puedan estar o no en un juego de datos de series de tiempo, los procedimientos de pronóstico deben considerar las siguientes situaciones (Daniel et al. 1989): 1. Los componentes de tendencia y estacional no están presentes 2. Solamente el componente de tendencia está presente 3. Solamente el componente estacional está presente 4. Ambos componentes de tendencia y estacional están presentes Nota: El programa Minitab da la opción de incluir los componentes del modelo de la siguiente manera: Componente de tendencia más el componente estacional o bien, solamente el componente estacional. Esto se describirá en las siguientes secciones.
10.5. Métodos de pronóstico de medias móviles y suavizamiento exponencial en series de tiempo. Estos métodos están basados en el hecho de que, pronósticos confiables pueden hacerse por medio de patrones de modelado en los datos visibles en las gráficas de series de tiempo y, de ahí, para poder extrapolar esas tendencias hacia el futuro. En términos simples, estos métodos descomponen los datos, dentro de sus componentes para luego extrapolar los estimados de los componentes hacia el futuro para proveer pronósticos confiables. Hay varios métodos de pronóstico disponibles. Sin embargo, uno de los factores que se consideran en la selección del tipo de modelo, que se desea usar, son las medidas de precisión del pronóstico como el MAPE (Mean Absolute Percentage Error, por sus siglas en inglés o Porcentaje de error medio absoluto), MAD (Mean Absolute Deviation, por sus siglas en inglés o Desviación media absoluta), y MSD (Mean Square Deviation, por sus siglas en inglés o Desviación Media Cuadrada). Aquí es conveniente usar estas tres estadísticas para comparar los ajustes de los diferentes modelos y decidir cuál modelo se ajusta mejor a los datos.
www.full-ebook.com
Por ejemplo, el MAPE mide la precisión de los valores ajustados de las series de tiempo como un porcentaje. Aquí, entre más pequeño sea el valor del MAPE, mejor es el ajuste del modelo. La ecuación de abajo describe la medida de precisión MAPE. MAPE = Σ|(Yt – Ft)/Yt| (100/n)
(10-2)
Donde: yt es igual al valor actual de las series de tiempo en un tiempo t, Ft es igual al valor ajustado y n es el número de observaciones o número de periodos de tiempo. Similarmente, el MAD o sea la media de la desviación absoluta, mide la precisión de los valores de las series de tiempo ajustadas, y ayuda a conceptualizar la cantidad de error. Aquí, entre más pequeño sea el valor de MAD mejor será el ajuste del modelo. El modelo matemático que describe esta medida de precisión (MAD) es:
Donde: yt es el valor actual de las series de tiempo a un tiempo t, Ft es el valor del pronóstico o valor ajustado y n es el número de observaciones o número de periodos de tiempo. La otra medida de precisión usada en la medición de pronósticos es el MSD o sea el promedio de las desviaciones cuadráticas. Esta medida siempre se calcula usando el mismo denominador n, sin importar el modelo, de manera que se
www.full-ebook.com
puedan comparar valores MSD con otros modelos (lógica de Minitab).
Donde: yt es igual al valor actual, Ft es igual al valor pronosticado y n es el número de pronósticos. Los cálculos manuales de estas tres mediciones de precisión son largos y tediosos. Sin embargo, el programa Minitab calcula estas tres medidas de precisión, para cada uno de los métodos de pronóstico en forma rápida y precisa. En las tres mediciones, el valor más pequeño determina el mejor ajuste del modelo en cuestión. Ejemplo 10.1. Dos modelos de pronóstico (modelo 1 y modelo 2) fueron usados para predecir valores futuros de una serie de tiempo. Los datos se dan en la tabla de abajo. De acuerdo a los valores de MAPE y MAD señalados en la tabla de abajo, determinar cuál modelo es más preciso. Tabla 10.1. Tabla mostrando los datos para este problema.
www.full-ebook.com
Solución: Usando las ecuaciones de (10-2) MAPE y MAD y sustituyendo los valores da: Para el modelo 1: MAPE = 710.5 Para el modelo 2: MAPE = 708.82 Para el modelo 1: MAD = 1.425 Para el modelo 2: MAD = 0.625 En conclusión, el modelo 2 es mejor, porque los valores de MAPE y MAD son más pequeños. 10.6. Medias móviles en series de tiempo. Las medias móviles suavizan los datos, por medio de promediar observaciones consecutivas en series, y provee pronósticos a corto plazo. Este procedimiento es deseable, cuando los datos no tienen tendencia o componentes estacionales. Sin embargo, hay maneras de usar promedios móviles cuando los datos tienen tendencia y/o estacionalidad. Cuando se calculan promedios móviles, se pueden tener problemas, cuando el número de periodos es par, porque se tiene un problema para poner las medias móviles en una gráfica. Lo mismo ocurre, cuando las medias móviles caen entre periodos, porque causan problemas en el graficado. Estas situaciones son fácilmente sorteadas por el Minitab. El procedimiento que se sigue para calcular medias móviles usando el Minitab es como sigue:
www.full-ebook.com
1. Stat → Time Series → Moving Average. En la ventana de diálogo de “Moving Average” y en la ventanilla de “Variables” poner la columna conteniendo las series de tiempo. 2. Luego en la ventanilla de “MA Length” poner un íntegro positivo que indique la longitud deseada del promedio móvil. Por ejemplo, con series de tiempo no estacionales, es común usar medias móviles cortas para suavizar las series, sin embargo, la longitud seleccionada depende de la cantidad de ruido en las series. Una media móvil grande filtra más ruido, pero es menos sensible a cambios en las series. De cualquier manera, con series estacionales es común usar medias móviles de tamaño igual a la longitud del ciclo anual. 3. En cuanto al uso de las medias móviles centrales, si se usa esta opción, el Minitab pone los valores en el periodo que está en el centro del rango, en lugar de ponerlo al final del rango. Esta opción posiciona las medias móviles en sus posiciones centrales con el tiempo, de acuerdo al valor de la longitud, ya que sea par o impar. Ejemplo 10.2. En aplicaciones a medias móviles, supóngase que se tienen los siguientes datos mostrados en la tabla de abajo. Tabla 10.2. Tabla mostrando la información requerida para este problema.
www.full-ebook.com
Calcular la media móvil centrada usando una longitud del promedio móvil igual a 4. Hacer una tabla resumiendo los valores calculados y una gráfica. Solución: Siguiendo las instrucciones dadas arriba se generan los siguientes resultados. Tabla 10.3. Tabla mostrando el resumen de los resultados.
Figura 10.4. Gráfica mostrando la media móvil para las series de tiempo de este
www.full-ebook.com
ejemplo. 10.7. Suavizamiento exponencial en series de tiempo. El uso de técnicas de suavizamiento exponencial permite calcular una media suavizada al final de cualquier periodo de tiempo. A pesar de que los métodos de promedios móviles de series de tiempo discutidos anteriormente son satisfactorios para algunas situaciones, estos métodos, sin embargo, tienen desventajas. Por ejemplo, estos métodos no tienen medias móviles para los primeros y últimos juegos de periodos de tiempo. Esto ocurre, porque si las series de tiempo tienen pocas observaciones, los valores omitidos pueden presentar información importante perdida. Además, estos métodos omiten muchas de los valores de series de tiempo previas. Existen dos enfoques de suavizamiento exponencial, v.g., el suavizamiento exponencial único o básico y el suavizamiento exponencial doble. Por ejemplo, el primero suaviza los datos por medio de calcular medias sopesadas exponencialmente y da pronósticos a corto plazo. Este método trabaja mejor con datos sin tendencias o patrones estacionales y para pronósticos a corto plazo. En contraste, el método de suavizamiento exponencial doble, suaviza los datos por medio de un suavizamiento exponencial doble y da pronósticos a corto plazo. Este método trabaja con tendencias constantes y no constantes y con patrones no estacionales. En cálculos de suavizamiento exponencial, el peso es el parámetro o constante de suavizamiento α. Valores grandes de α (valor de α cercano a 1) resultan en cambios mas rápidos en la línea ajustada, mientras que valores pequeños de α (valor de α cercano a cero) resultan en cambios menos rápidos en la línea ajustada. 10.7.1. Suavizamiento exponencial básico. Este enfoque provee pronósticos a corto plazo y asume que los datos no tienen tendencias o componentes estacionales. La ecuación básica de suavizamiento exponencial (NIST/SEMATECH), se da como: Ft= α yt-1 + (1 – α)Ft-1 0 <α ≤ 1 t ≥ 3 Donde: Ft es el pronóstico en el periodo de tiempo t
www.full-ebook.com
(10-3)
y es la observación original α es la constante de suavizamiento exponencial. Ejemplo 10.3. Este es un ejemplo relacionado con el uso de suavizamiento exponencial básico. Para tales fines, considérense los siguientes datos asumiendo que la información no tiene tendencias o patrones estacionales. Hacer esto de la siguiente manera: (a) Usar un valor de la constante de suavizamiento de α igual a 0.1, para ayudar a detectar los componentes de las series de tiempo. (b) Usar un valor de la constante de suavizamiento de α igual a 0.9, para ayudar a detectar los componentes de las series de tiempo, bajo estas condiciones. Tabla 10.4. Tabla mostrando los datos de este problema.
Solución:
www.full-ebook.com
Usando el programa Minitab proceder como: Stat → Time Series → Single Exponential Smoothing. En la ventana de diálogo de “Single Exponential Smoothing” y en la ventanilla de “Variable” poner los valores originales (yt). Luego, poner el valor de la constante α deseado y seguir con las demás instrucciones. Las figuras de abajo muestran los resultados obtenidos.
www.full-ebook.com
Figura 10.5. Gráficas de suavizamiento exponencial simple con valores de constantes de suavizamiento de α = .1 (figura izquierda) y α = .9 (figura derecha), respectivamente. De las gráficas de arriba se observa que cuando el valor de α es igual a .9, el suavizamiento es más rápido, mientras que con α igual a .1, el suavizamiento es muy poco o lento. Aquí, también se observa que los valores de MAPE, MAD y MSE son más bajos cuando se aplica la constante de suavizamiento de α = .9. 10.7.2. Suavizamiento exponencial doble en series de tiempo. El suavizamiento exponencial doble provee pronósticos a corto plazo y maneja situaciones donde hay tendencias. Esto se hace usando dos constantes de suavizamiento, es decir de nivel y tendencia. Para esto, el suavizamiento exponencial doble introduce una segunda constante gamma (γ) que debe ser seleccionada en conjunción con la constante α que se usó en el suavizamiento exponencial básico. De esta manera, hay dos ecuaciones asociadas con el suavizamiento exponencial doble (NIST/SEMATECH): St = α yt + (1 – α) (St-1 + bt-1) 0 ≤ α ≤ 1
(10-4)
bt = γ (St – St-1) + (1 – γ) bt-1 0 ≤ γ ≤ 1
www.full-ebook.com
(10-4a)
Donde: γ es la constante de suavizamiento de tendencia, la cual se puede obtener a través de técnicas de optimización no lineal. bt, se puede definir de tres maneras de acuerdo a la fuente de información anterior como: b1 = y2 - y1 b1 = [(y2 - y1) + (y3 - y2) + (y4 - y3)] / 3 b1 = (yn - y1)/(n - 1) De acuerdo a la anterior fuente de información, los significados de las dos ecuaciones del suavizamiento exponencial son como sigue: la primera ecuación ajusta St directamente para la tendencia del periodo anterior bt-1 por medio de sumarse al último valor suavizado St-1. La segunda ecuación actualiza la tendencia, la cual es expresada como la diferencia entre los dos últimos valores de S. Ejemplo 10.4. Se da la siguiente información en la tabla de abajo, con los valores de las constantes (pesos) de suavización exponencial doble igual a α = 1.0 y γ (tendencia) = .03, respectivamente. Hacer lo siguiente: (a) Hacer una tabla que incluya el tiempo, los valores originales, los valores suavizados, los valores pronosticados y el error (b) Hacer una gráfica con los valores pronosticados.
www.full-ebook.com
Tabla 10.5. Tabla mostrando los datos.
Solución: Sugerencia usar el Minitab para resolver este problema: Stat → Time Series → Double Exponential Smoothing. Luego en la ventana de diálogo de “Double Exponential Smoothing” y en la ventanilla de “Variable” pone la columna con los valores de los periodos. Luego, en “Weight to use in Smoothing” puntear “Use” e introducir los valores de las constantes seleccionadas, v.g., alfa (α = 1.0) y gamma (γ = 0.03). Luego seguir con las demás instrucciones. Esto genera la tabla y la figura de abajo. Tabla 10.6. Tabla mostrando los periodos de tiempo los valores originales y los valores pronosticados.
www.full-ebook.com
Figura 10.6. Gráfica mostrando el suavizamiento de los valores dados en este problema. Es de notarse que los resultados también incluyen los valores de precisión, MAPE, MAD y MSD. 10.8. Método de Winters. En este renglón, se puede extender el concepto básico de suavizamiento exponencial a un modelo que incluya componentes estacionales y/o de tendencia. Cuando es apropiado, se puede usar el modelo de Winters, como base para pronosticar valores de alguna variable, tales como demanda de servicios de agua potable en alguna ciudad o poblado, para periodos
www.full-ebook.com
de tiempo futuro. De esta manera, el método de Winters suaviza los datos por medio del suavizamiento exponencial de Holt-Winters para dar pronósticos a corto y mediano plazo. Este método de Winters se puede usar cuando están presentes tendencias y estacionalidades, con estos dos componentes, ya sean aditivos o multiplicativos. Finalmente, el método de Winters calcula estimados dinámicos para tres componentes: nivel, tendencia y estacional. Los pasos que se siguen usando el Minitab con el método de Winters son: 1. Seleccionar la columna que contiene las series de tiempo. 2. Entrar la longitud del patrón estacional. Este valor debe ser un íntegro positivo igual o mayor que 2. 3. Seleccionar el tipo de modelo apropiado, ya sea el modelo multiplicativo o aditivo. Por ejemplo, seleccionar el modelo multiplicativo cuando el patrón estacional en los datos depende del tamaño de los datos. Dicho en otras palabras, esto dice que, la magnitud del patrón estacional aumenta a medida que las series aumentan, o bien disminuye a media que las series bajan. Seleccionar el modelo aditivo cuando el patrón estacional de los datos no dependa del tamaño de los datos. Esto dice que la magnitud del patrón estacional no cambia a medida que las series se van hacia arriba. 4. Pesos usados en el suavizamiento. Por omisión (default), los tres pesos o parámetros de suavizamiento alfa (nivel), gamma (tendencia) y delta (estacional) se ponen en 0.2. Debido a que un modelo equivalente de ARIMA existe solamente para una forma muy restringida del modelo de Holt-Winters, parámetros óptimos no se encuentran para el método de Winters, porque son para suavizamiento básico y suavizamiento exponencial doble. De cualquier manera, si el desea cambiar los valores de los niveles, los valores de las tendencias y los valores estacionales, lo puede hacer. Por ejemplo para el valor del nivel, el valor debe ser de 0 a 1, igualmente ocurre para la tendencia y la estacionalidad. 5. Generación de pronósticos. Si se puntea la ventanilla de “Forecasts” en la ventanilla de “Starting from the Origin” poner un número positivo para indicar el
www.full-ebook.com
punto de partida para los pronósticos. Por ejemplo, si se especifican 4 pronósticos y 48 para el origen, el Minitab calcula pronósticos para los periodos 49, 50, 51 y 52 basado en los componentes de nivel y tendencia en el periodo 48 y los componentes estacionales correspondientes. Si se deja en blanco este espacio, el Minitab genera pronósticos desde el final de los datos. Ejemplo 10.5. Asúmase que, para cierta ciudad el consumo de agua potable (millones de metros cúbicos), para los 12 meses del año 2000 fue registrado como se muestra en la tabla de abajo: Tabla 10.7. Tabla mostrando los consumos de agua potable, en miles de metros cúbicos.
Usar el default del programa para los valores de α, γ, y δ, además, usar un valor de 2 para la longitud del patrón estacional. Usar ambos, modelos, el multiplicativo y el aditivo y decir, cuál modelo ajusta mejor los datos de acuerdo a los valores de MAPE, MAD y MSD. Solución: Usando el Minitab irse a: Stat → Time Series → Winters’s Method. Luego en la ventana de diálogo de “Winter’s Method” y en la ventanilla de “Variable” seleccionar la columna conteniendo la serie de tiempo. Proseguir con las demás instrucciones.
www.full-ebook.com
Figura 10.7. Figuras mostrando las gráficas del método de Winters para los datos de este problema. De acuerdo a los valores de MAPE, MAD y MSD, el modelo aditivo (figura derecha) es un poco mejor que el multiplicativo, porque los valores de sus mediciones de precisión son un poco más bajas. 10.9. Mediciones de variaciones estacionales en series de tiempo. Variaciones estacionales pueden ocurrir dentro de un año o dentro de un intervalo de tiempo
www.full-ebook.com
más corto como un mes, una semana o un día. Para medir el efecto estacional se construyen índices estacionales, que tratan de medir el grado por el cual las estacionalidades difieren una de la otra. En términos prácticos, el término variación estacional se puede relacionar con aquellas fluctuaciones asociadas con el clima, especialmente, en estos tiempos modernos en los cuales el calentamiento global ha distorsionado los patrones climáticos de cada año. Hay varios métodos para calcular índices estacionales. Para mencionar algunos son usando el método del porcentaje medio, en el cual los datos para cada mes son expresados como porcentajes de la media para ese año. Entonces, los porcentajes para los meses correspondientes de diferentes años se promedian usando, ya sea la media o la mediana. Los doce porcentajes resultantes dan el índice estacional. Si la media anual de esos porcentajes no es 100%, o sea que si la suma de las medias mensuales no es 1200%, entonces éstos se pueden ajustar por medio de multiplicarlos por un factor de normalización apropiado. Hay otro método, es decir, el método de porcentaje de tendencia para calcular índices estacionales. Con este método los datos para cada mes se expresan como porcentajes de los valores de la tendencia mensual. Entonces, una media apropiada de los porcentajes para los meses correspondientes da el índice requerido. Al igual que en los cálculos del método de la media porcentual descrito anteriormente, si los cálculos no se promedian a 100%, se ajustan de la misma manera, que los primeros. Más adelante, hay otro método referido como media del porcentaje móvil, en el cual una media móvil de 12 meses se calcula. En esta instancia, debido a que los resultados obtenidos caen entre meses sucesivos, en lugar de la mitad del mes, como para los datos originales, se calcula una media móvil de 2 meses de este promedio móvil de 12 meses. Después de que se han hecho estos cálculos, los datos originales, para cada mes se expresan como un porcentaje de la media móvil centrada de 12 meses correspondientes a eso. Con relación a los datos desestacionalizados, si los datos mensuales originales se dividen por sus correspondientes números de índices estacionales, los datos resultantes se dicen que están desestacionalizados o ajustados en su variación estacional. Semejantes datos incluyen tendencia, tendencias cíclicas y movimientos irregulares. Con respecto a la estimación de variaciones cíclicas, una vez que los datos han sido desestacionalizados, también se pueden ajustar para el cálculo del factor cíclico por medio de dividir los datos por sus valores de tendencia correspondientes. La diferencia fundamental entre las variaciones
www.full-ebook.com
cíclicas y las variaciones estacionales radica en la longitud del periodo de tiempo bajo consideración. Además, los efectos estacionales son predecibles, mientras que los efectos cíclicos, se visualizan como impredecibles, es decir, variando en duración y amplitud, y no necesariamente siendo repetitivos. No obstante, las variaciones cíclicas necesitan ser aisladas para estudiarse en detalle. 10.10. Análisis de tendencia. Para pronosticar las tendencias se necesitan mediciones o métodos más precisos acerca de la tendencia. De esta manera, la tendencia puede ser lineal o no lineal y logarítmica o exponencial y polinomial y también puede tomar muchas otras formas funcionales. La forma más sencilla de aislar la tendencia a largo plazo es por medio de análisis de regresión, donde la variable independiente es el tiempo. Enseguida los porcentajes para los meses correspondientes se promedian, lo que da el índice de tendencia requerido. Finalmente, si estos porcentajes no dan una media de 100%, se ajustan como se hizo con los dos métodos descritos anteriormente. 10.10.1. Modelo lineal para tendencia a largo plazo. Por ejemplo, si se cree que la tendencia a largo plazo es esencialmente lineal se puede usar el modelo paramétrico lineal dado como: y = α + βt + ε
(10-5)
Su modelo estadístico que emula al modelo (10-5), para la tendencia a largo plazo es dado como: Y = a + bt + e
(10-5ª)
Donde: t es el periodo de tiempo (índice codificado) Y es el valor de la tendencia para un valor dado del periodo t a representa el intercepto Y de la línea de tendencia o valor de la tendencia cuando t = 0
www.full-ebook.com
b es la pendiente de la línea de tendencia e el error aleatorio con media igual a cero y varianza σ2e. Aquí se nota que la ecuación de regresión Y = a + bt + e es la misma que se usó en el capítulo de regresión lineal simple y múltiple, a excepción de que, aquí, la ecuación involucra el tiempo. Los valores del intercepto y la pendiente se pueden obtener por el método de los cuadrados mínimos (como los usados manualmente en el capítulo de regresión) y/o por ajustamiento a mano libre. Estos procedimientos, sin embargo, en la actualidad se obtienen fácilmente usando programas de cómputo, como el Minitab. Ejemplo 10.6. La tabla de abajo señala muestras aleatorias de concentraciones de partículas atmosféricas, PM2.5 (cuyos estándares de calidad de aire ambiental son de 15.0 μg/m3), las cuales fueron registradas durante los años 1983-1998. Se contiende que la tendencia sobre este periodo de tiempo es básicamente lineal. Para esto, ser requiere hacer lo siguiente: (a) Un diagrama de dispersión y si el diagrama esparcido sugiere un modelo lineal, hacer otra gráfica con línea de regresión ajustada. (b) Hacer una gráfica de análisis de tendencia y calcular la línea de tendencia junto con aquélla con los datos originales. (c) Estructurar el modelo de regresión que mejor represente los datos. (d) Validar la utilidad del modelo seleccionado usando criterios objetivistas y subjetivistas. (e) Usando la ecuación de regresión predecir la concentración de PM2.5 para el año 2010.
www.full-ebook.com
Tabla 10.8. Tabla mostrando los datos de este problema.
Solución: Sugerencia: Para hacer la gráfica de análisis de tendencia usando el Minitab irse a: Stat → Time Series → Trend Analysis. Enseguida en la ventana de diálogo de
www.full-ebook.com
“Trend Analysis” y en la ventanilla de “Variables” poner la columna C3 de los valores de los flujos presionando “Select”. Después de esto, presionar la ventanilla de “Time” y en la ventanilla de diálogo de “Trend Analysis-Time” y en la ventanilla de “Start Value” poner (1) en el inciso de los años codificados y en la ventanilla de “Increments” poner (1) y “OK”. Después, volviendo a la ventana de “Trend Analysis” presionar la ventanilla de “Graphs” y en la ventana de diálogo de “Trend Analysis-Graphs” puntear la ventanilla de “Four in One” y luego presionar “OK”, “OK”. Estas órdenes generan la gráfica de análisis de tendencias para las concentraciones de partículas menores que 2.5 micras en este ejemplo. (a) El diagrama esparcido con línea de regresión ajustada se da abajo. (b) La gráfica con la línea de tendencia junto con aquélla de los datos originales se da abajo. Las gráficas para los incisos (a) y (b) se dan abajo.
www.full-ebook.com
Figura 10.8. La gráfica del lado izquierdo muestra las concentraciones de PM2.5 en función de los años codificados. La gráfica del lado derecho muestra el análisis de tendencia de las series de tiempo, con línea de regresión de tendencia sobrepuesta en la gráfica (valores ajustados en color rojo) y la cual muestra una tendencia claramente hacia arriba. Aquí se observa que, los resultados del Minitab, también incluyen los cálculos de MAPE, MAD y MSD. (c) Los resultados impresos del modelo de regresión es decir, del ajuste de una línea de tendencia recta aritmética se dan en la figura de abajo: Figura 10.9. Resultados impresos del Minitab.
www.full-ebook.com
El valor de R2 sugiere un ajuste de los datos al modelo lineal relativamente bueno. El valor de la estadística Durbin-Watson de 1.97 está muy cercano al criterio de 2, lo que dice que no hay serios problemas de autocorrelación. (d) La validación subjetiva de gráficos de residuos es:
Figura 10.9a. Gráficas de residuos. La primera gráfica superior izquierda muestra que los errores siguen prácticamente un comportamiento normal, aunque la tercera gráfica inferior izquierda muestra un histograma un tanto asimétrico. La segunda gráfica superior derecha, al no mostrar un patrón
www.full-ebook.com
reconocible, implica que los errores tienen varianza constante; mientras que la gráfica del lado derecho inferior muestra que los errores no están correlacionados entre sí. (e) Concentraciones de PM2.5 = 18455 + 1388 (Año codificado) El año 2010 tiene un año codificado de 28. Ahora, sustituyendo este valor en la ecuación da: Conc. partículas PM2.5 = 8.46 + 1.39 (28) = 46.54 10.10.2. Modelo logarítmico o exponencial para tendencia a largo plazo. El modelo logarítmico o exponencial puede ser usado para ilustrar series de tiempo que muestran crecimiento sin signos de igualación. Este modelo logarítmico poblacional se da como: y = βo(β1)t ε
(10-6)
Su correspondiente modelo estimador estadístico se da como: Y = bo(b1)t e
(10-6ª)
Donde: bo es el intercepto en la ordenada b1 es el gradiente de la ecuación de regresión t es el tiempo e es el error aleatorio Ahora, tomando el logaritmo de ambos lados de la ecuación Y = bo(b1)t e nos da: Ln y = Ln bo + Ln b1(tiempo) + Ln e
www.full-ebook.com
(10-6b)
O bien
y´ = β´o + β´1(tiempo) + ε´
(10-6c)
Ejemplo 10.7. En las tecnologías del agua es interesante conocer el comportamiento de la descomposición del nitrógeno orgánico (NH3) en función del tiempo, es decir, cuando el NH3 se descompone en NO2- y NO3- cuando se relaciona con una reacción de primer orden consecutivo. Los datos se dan abajo. Tabla 10.9. Tabla mostrando las concentraciones relativas de NH3 en función del tiempo.
Hacer lo siguiente: (a) Una gráfica de diagrama esparcido. Luego hacer otra gráfica con las transformaciones logarítmicas base e.
www.full-ebook.com
(b) Estructurar el modelo de regresión de acuerdo a la información obtenida en (a). (c) Validar el uso del modelo usando diagnósticos estadísticos y gráficos de residuos. (d) Predecir el porcentaje relativo de NH3 cuando el valor relativo del tiempo es de 3.0. (e) Gráfica de análisis de tendencia para el NH3. (f) ¿Cuál es el valor de la estadística de Durbin-Watson? ¿Cuál es su significado? (g) ¿Cuál es la tasa de la reacción? ¿Cuál es su significado? (Para resolverse por el lector) Solución: (a) (b) La gráfica del diagrama esparcido y del diagrama con transformación logarítmica se dan abajo.
www.full-ebook.com
Figura 10.10. La figura del lado izquierdo muestra el diagrama esparcido del porcentaje de descomposición del amoniaco vs. el tiempo. La Figura del lado derecho muestra que, la descomposición del amoniaco sigue a una reacción de primer orden, cuando se hacen transformaciones logarítmicas en el eje vertical.
www.full-ebook.com
(b), (c). El modelo de regresión se calcula haciendo transformaciones (Loge) en el eje Y. Los resultados impresos de la ecuación de regresión y de los diagnósticos objetivistas (R2, s, PRESS, etc.), así como los gráficos de residuos se dan abajo. Figura 10.11. Impresión de los resultados dados por el Minitab.
Aquí nótese que la ecuación de regresión obtenida en este ejercicio es la misma que Ln y = Ln bo + Ln b1(tiempo) Nótese que el valor de la estadística D-W es un poco mayor que el criterio de 2 lo que hace, en este caso que, los datos estén ligeramente autocorrelacionados positivamente.
www.full-ebook.com
Figura 10.12. Gráfica de residuos. (d) Cuando el tiempo relativo es de 3.0, el % de amoniaco es: Ln y = 4.29 - 0.144 (3.0) = 47.3705 (e) La gráfica de análisis de tendencia para el NH3 se da en la figura de abajo.
www.full-ebook.com
Figura 10.13.Gráfica mostrando el análisis de tendencia para el amoniaco vs. el tiempo codificado. Aquí se nota que la gráfica incluye los cálculos de MAPE, MAD y MSD, mismos que se discutirán mas adelante. (f) El valor de la estadística de D-W igual a 2.2 está un poco más arriba del criterio de 2 e indica que no hay problemas serios de autocorrelación. (g) La tasa de la reacción es la pendiente de la ecuación de regresión. 10.10.3. Modelo polinomial de tendencia a largo plazo. A pesar de que existen varios modelos no lineales, aquí también se puede considerar el modelo polinomial. Por ejemplo, si se piensa que la serie de tiempo es una función no lineal, con un cambio en el gradiente, el mejor modelo es uno polinomial. Este modelo se puede aplicar cuando el valor de una variable experimenta un crecimiento rápido seguido de una nivelación inevitable. De esta manera, el modelo polinomial para tendencias a largo plazo es: y = βo + β1t + β2t2 + ε
(10-7)
Su correspondiente modelo estimador estadístico es: Y = bo + b1t + b2t2 + e
(10-7ª)
Donde bo, b1 y b2 son los coeficientes de regresión del modelo y e es el error. Ejemplo 10.8. En cierta región, para atestiguar los eventos inusuales o extremos, causados por el calentamiento global se registran el número de eventos extremos como granizadas inusuales, vientos huracanados, inundaciones, sequías, calores y fríos extremos, tornados y quema de vegetación, que ocurrieron en el periodo de tiempo (1982-2005). Tabla 10.10. Tabla mostrando los datos de este problema.
www.full-ebook.com
Hacer lo siguiente: (a) Una gráfica que vaya en función del número de eventos y el tiempo codificado. (b) Ajustar el mejor modelo de regresión que represente a los datos. (c) Hacer una gráfica de análisis de tendencia.
www.full-ebook.com
Solución: (a) La gráfica se da abajo.
Figura 10.14. Figura mostrando el número de eventos inusuales, en función del tiempo para este ejemplo. (b) Los resultados impresos del modelo cuadrático ajustado se dan en la figura de abajo. Figura 10.15. Resultados impresos dados por el Minitab.
www.full-ebook.com
Figura 10.16. Gráficos de residuos que complementan la evaluación del modelo de regresión seleccionado. (c) La gráfica de análisis de tendencia es:
www.full-ebook.com
Figura 10.17. Figura mostrando análisis de tendencia para el número de eventos. Aquí se observa que los resultados también incluyen cálculos de MAPE, MAD y MSD, mismos que se discutieron anteriormente. Ejemplo 10.9. Este es un estudio relacionado con los estándares primarios de la calidad del aire de monóxido de carbono de una ciudad, expresados en miligramos por metro cúbico de aire, mg/m3 en función del tiempo (periodo 1986-2000) y cuyo estándar primario es de 10 mg/m3 por 8 horas. Usando series de tiempo. Se requiere hacer lo siguiente: (a) Ajustar un modelo de regresión lineal (modelo 1). (b) Ajustar un modelo de regresión logarítmico o exponencial (modelo 2). (c) Ajustar un modelo de regresión cuadrático (modelo 3) (d) De acuerdo a los valores de MAPE, MAD y MSD, en cada uno de los modelos ajustados en (a)-(c), decidir cuál de los tres modelos 1, 2, y 3 ajusta mejor los datos. (e) Corroborar lo decidido en (b) usando técnicas de regresión lineal,
www.full-ebook.com
exponencial y cuadrática, es decir, de acuerdo a la evaluación objetivista y subjetivista. Analizar la estadística de D-W en cada caso. (f) Hacer una tabulación de los resultados obtenidos en los incisos anteriores. (g) De acuerdo a los datos obtenidos, decidir cuál modelo es el más apropiado (el estudiante lo deberá hacer) Los datos se dan en la tabla de abajo. Tabla 10.11. Tabla mostrando los datos de los volúmenes de agua de la presa (en millones de m3) en función del tiempo (periodo 1986-2000).
Solución: Sugerencia: Usando el Minitab irse a: Stat → Time Series → Trend Analysis. Enseguida en la ventana de “Trend Analysis” y en la ventanilla de “Variable” poner la variable de respuesta (volumen de agua en este caso). Luego, en “Model
www.full-ebook.com
Type” puntear el tipo de función deseada, v.g., “Linear”, “Quadratic”, “Exponential”, etc. Después seguir con las demás instrucciones (Ver figura esquemática de abajo). (a) Las gráficas de los tres modelos (1), (2) y (3) se dan en las figuras de abajo.
www.full-ebook.com
Figura 10.18. Figuras mostrando los tres tipos de modelos, v.g., el modelo lineal (figura derecha), el exponencial (figura de en medio) y el cuadrático (figura derecha), señalando los valores calculados de MAPE, MAD y MSD para cada
www.full-ebook.com
tipo de modelo. (b) De acuerdo a los valores de MAPE, MAD y MSD, el modelo que mejor ajusta los datos es el modelo de regresión cuadrático, porque el valor de MAPE es el más bajo. (c) Usando técnicas de regresión en series de tiempo, las estadísticas objetivistas y subjetivistas se dan en la tabla y figuras de abajo. (d) La tabla con los valores resumidos se abajo. Tabla 10.12. Tabla mostrando la tabulación de los valores de MAPE, MAD, MSD, los valores de R2, s, PRESS y estadística de Durbin-Watson (discutida más adelante), para cada uno de los tres modelos.
www.full-ebook.com
Figura 10.19. Diagramas mostrando las gráficas de los residuos para cada uno de los tres modelos.
www.full-ebook.com
Figura 10.20. Impresión esquemática de las entradas en la hoja del Minitab del tiempo, años codificados y mediciones del monóxido de carbono. Se ratifica la decisión de que el modelo 3 es el más factible, porque el valor del coeficiente de determinación 90.2% y el valor de la estadística D-W. = 2.09 así lo sugieren. 10.11. Método de descomposición. En este respecto se puede usar el método de descomposición para separar las series de tiempo en tendencia lineales y componentes estacionales, así como también el error y de dar pronósticos. Este es un procedimiento usado para construir de los datos observados, un número de componentes de series que tienen diferentes características. Por ejemplo, series de tiempo mensuales de eventos climatológicos usualmente se pueden descomponer en componentes de tendencia, cíclicos, estacionales o irregulares.
www.full-ebook.com
Además, con el método de descomposición desplegado por Minitab se puede seleccionar si el componente estacional es aditivo o multiplicativo con tendencia. La interpretación de los resultados es como sigue: la descomposición genera tres gráficas: (1) Una gráfica de series de tiempo que muestra las series originales con línea de tendencia ajustada, valores de predicción y pronosticados. (2) Una gráfica de análisis de componentes, mostrando en gráficas separadas la serie de tiempo original, los datos sin tendencia, los datos ajustados estacionalmente y los datos ajustados estacionalmente y sin tendencia. (3) Un análisis estacional esto es, gráficas de índices estacionales y porcentaje de variación dentro de cada estación relativa a la suma de variación por estación y gráficas de caja de los datos y de los residuos por periodo estacional. Se recomienda usar este método cuando se desea pronosticar cuando hay un componente estacional en las series o simplemente, si se desea examinar la naturaleza de las partes componentes de los datos. Usando el Minitab, el procedimiento que se sigue para usar el método de descomposición es: 1. Entrar la columna que contiene la serie de tiempo. 2. En la ventanilla de “Seasonal Length” entrar un valor íntegro positivo igual o mayor que 2. Este valor es la longitud del componente estacional, por ejemplo, si se tienen datos mensuales, puede usarse un valor de 12. 3. En el tipo de modelo “Model Type” se puede usar el modelo multiplicativo o el aditivo. 4. En “Model Components” seleccionar el componente de tendencia en la descomposición, es decir, el componente de tendencia más el componente estacional o bien, solamente, el componente estacional (si a los datos se les quitó la tendencia con el análisis de tendencia). Aquí el Minitab da una advertencia la cual dice que, si los datos contienen un componente de tendencia, y si esto se omite de la descomposición, los estimados de los índices de tendencia pueden ser afectados. 5. Si se desea hacer pronósticos puntear la ventanilla de “Generate forecasts” y
www.full-ebook.com
poner un número íntegro con el número de pronósticos deseados, de otra manera dejarla en blanco y el Minitab generará los pronósticos empezando desde el final de los datos. 6. Seguir con las demás instrucciones. Ejemplo 10.10. Este es un estudio de tecnologías del agua relacionado con los volúmenes de agua tratada procedentes de un lago, para cierta ciudad. Usar el método de descomposición, aplicando ambos modelos, el multiplicativo y el aditivo con componentes de tendencia y de estacionalidad para ambos casos. Tabla 10.13. Tabla mostrando los resultados de los volúmenes de agua tratada.
www.full-ebook.com
Hacer lo siguiente: (a) Una descomposición para separar las series de tiempo en líneas de tendencia y componentes estacionales, para examinar la naturaleza de las partes de los componentes, procediendo de la siguiente manera: (1) Usar el modelo multiplicativo con los componentes estacionales y de tendencia. (2) Hacer lo mismo que en el inciso (1) pero ahora, solamente, con el componente estacional. (3) Usar el modelo aditivo con los componentes estacionales y de tendencia. (4) Hacer lo mismo que en (3), pero ahora usando solamente el componente
www.full-ebook.com
estacional. (b) De acuerdo a los resultados obtenidos MAPE, MAD y MSD decir cual modelo es mejor. Solución: (a) (1)(2)(3)(4). Los resultados para estos incisos se dan en las gráficas siguientes.
www.full-ebook.com
Figura 10.21. Figuras mostrando los resultados de este ejercicio usando el
www.full-ebook.com
modelo multiplicativo para componentes de tendencias y estacionales. Por ejemplo, la gráfica del lado izquierdo muestra la descomposición de las series de tiempo usando el modelo multiplicativo mostrando los valores de MAPE, MAD y MSD. La figura central muestra los componentes de los análisis usando el modelo multiplicativo. La gráfica del lado derecho muestra el análisis estacional de los índices estacionales y datos originales estacionales usando el modelo multiplicativo.
www.full-ebook.com
www.full-ebook.com
Figura 10.21a. Figuras mostrando los resultados de este ejercicio de los volúmenes de agua tratados. Por ejemplo, la gráfica del lado izquierdo muestra la descomposición de las series de tiempo usando el modelo multiplicativo, con componentes estacionales. La figura central muestra los componentes de los análisis usando el modelo multiplicativo de datos originales y datos ajustados estacionalmente. La gráfica del lado derecho muestra el análisis estacional usando el modelo multiplicativo con componentes estacionales, es decir, para los índices estacionales, los datos, el porcentaje de variación por estacionalidad, y los residuales por estacionalidad.
www.full-ebook.com
www.full-ebook.com
Figura 10.21b. Figuras mostrando los resultados de este ejercicio. Por ejemplo, la gráfica del lado izquierdo muestra la descomposición de las series de tiempo usando el modelo aditivo, con componentes de tendencia y estacionalidad. La figura de en medio muestra los componentes de los análisis usando el modelo aditivo con componentes de tendencia y estacionalidad. La gráfica del lado izquierdo muestra el análisis estacional usando el modelo aditivo con componentes de modelos de tendencia y estacionalidad.
www.full-ebook.com
www.full-ebook.com
Figura 10.21c. Figuras mostrando los resultados de este ejercicio. Por ejemplo, la gráfica del lado izquierdo muestra la descomposición de las series de tiempo usando el modelo aditivo con componentes de estacionalidad, únicamente. La figura de en medio muestra los componentes de los análisis usando el modelo aditivo con componente de estacionalidad. La gráfica del lado izquierdo muestra el análisis estacional usando el modelo aditivo con componente de modelo de estacionalidad. (b) De acuerdo a los resultados obtenidos, el modelo aditivo, con el componente de tendencia y estacional, es el mejor, porque tiene el MAPE, MAD y MSD más bajos. 10.12. Tipos de funciones matemáticas para líneas de tendencia. Las ecuaciones o funciones matemáticas más comunes para aproximar los datos gráficos de líneas de tendencia de un diagrama esparcido se dan en la tabla de abajo. Aquí, las letras a, b y c representan valores constantes y, las letras X e Y, representan las variables independientes y dependientes, respectivamente. Por ejemplo, la Tabla 10.14 de abajo muestra los tipos de funciones matemáticas más
www.full-ebook.com
comunes usadas para líneas de tendencia como las funciones relacionadas con líneas rectas, funciones cuadráticas, funciones cúbicas, funciones cuárticas, funciones polinomiales, funciones logarítmicas, funciones de Weibull, etc. Tabla 10.14. Tabla mostrando los tipos de funciones matemáticas más comunes usadas para líneas de tendencia.
Para decidir, cuál función matemática es la más apropiada, para ajustar los datos se puede hacer viendo un diagrama esparcido de la gráfica de los datos. Por ejemplo, si el diagrama esparcido en papel semilogarítmico de Log (y) vs. x muestra una relación lineal, la ecuación tiene la forma de la curva exponencial (6). Si se usa el papel logaritmo completo, Log y-Log x, y los datos muestran una relación lineal, la ecuación tiene la forma de una curva geométrica (7). De cualquier manera, los paquetes de computadora, como el Minitab, SAS, NCSS, etc., son las mejores herramientas para encontrar la función que mejor ajuste los datos. Esto se logra construyendo gráficas o diagramas esparcidos. 10.13. Autocorrelación en series de tiempo. Cuando se hacen aplicaciones de
www.full-ebook.com
modelos de regresión a series de tiempo (ST), estos modelos son susceptibles a lo que se llama autocorrelación. La autocorrelación en ST es una situación en la cual los errores aleatorios εi están correlacionados entre sí. De manera que, cuando ocurre esto, existe la autocorrelación en series de tiempo. La existencia de una autocorrelación fuerte, tiende a destruir la validez del análisis de regresión. Hay dos tipos de autocorrelación que se pueden encontrar, es decir, autocorrelación positiva y autocorrelación negativa. Por ejemplo, la autocorrelación positiva ocurre cuando un término de error positivo, en un periodo de tiempo t, tiende a ser seguido por un término de error positivo, en uno a más periodos de tiempo. Esto dice que los residuos en un periodo de tiempo i, tienden a tener el mismo signo como en el periodo de tiempo residual (i-k), donde k es el retraso en periodos de tiempo. Similarmente, la autocorrelación negativa ocurre cuando un término de error negativo, en un periodo de tiempo t, tiende a ser seguido por un término de error negativo en uno o más periodos de tiempo. Esto dice que, el residuo en un periodo de tiempo i, tiende a tener el signo opuesto, como en el tiempo residual en el periodo de tiempo (i-k). De acuerdo a la lógica del programa de cómputo de NCSS 2000 y 2000, la presencia de autocorrelación, entre los residuos, en aplicaciones de series de tiempo, tiene varios impactos adversos, como por ejemplo: (1) Los coeficientes de regresión son imparciales, pero no eficientes. (2) En correlación positiva, el error de la media cuadrática (MSe) puede ser seriamente subestimado. Esto conlleva a inflar las pruebas de t parciales, es decir, de aparentar como significantes, cuando en realidad no lo son. Además, los intervalos de confianza son más cortos, de lo que en realidad deberían de ser. (3) Cualquier prueba de hipótesis o límites de confianza que requieran del uso de las distribuciones t o F serían invalidadas. Las figuras de abajo muestran situaciones en las cuales hay autocorrelación.
www.full-ebook.com
www.full-ebook.com
Figura 10.22. Gráficas de residuales en función del tiempo mostrando autocorrelación. 10.13.1. Medidas para remediar la autocorrelación en series de tiempo. Como se mencionó anteriormente, un problema muy importante que ocasiona la autocorrelación en las series de tiempo es la omisión en el modelo de importantes variables independientes. La otra causa de autocorrelación positiva es la presencia de extensión sistemática de errores en la variable dependiente en las series de tiempo (Neter et al.1996). De manera que, para corregir este problema se puede hacer a través de dos maneras: la identificación y adición de las variables claves que le faltan al modelo y/o a través de variables transformadas.
www.full-ebook.com
10.13.2. Estadística de Durbin-Watson para probar por autocorrelación. La estadística Durbin-Watson (D-W) está relacionada con el problema de autocorrelación, cuando se habla de regresión en series de tiempo. Esta estadística fue originalmente ideada por James Durbin y Goeffrey Watson en 1951 (Biometrica I y II, 1950, 1951). La estadística D-W es usada en la evaluación de la utilidad del modelo de regresión, cuando el tiempo es la variable independiente. De esta manera, la estadística de Durbin-Watson está relacionada con el problema de autocorrelación, cuando se habla de regresión en series de tiempo. Esta prueba de D-W se usa para probar por correlación en serie o correlación de primer orden positiva o negativa. En general, en estudios de regresión, cuando las observaciones se relacionen con series de tiempo, la estadística D-W es aplicable; de otra manera, se puede ignorar (ver capítulo de regresión). La estadística D-W permite al investigador estadístico determinar si, en estudios de series de tiempo, existe o no existe evidencia de autocorrelación de primer orden, o sea la existencia de una relación entre los residuos ei, y (ei – 1), donde i es el periodo de tiempo. La presencia de autocorrelación tiene varios impactos negativos en las series de tiempo como se discutió en la sección anterior. Matemáticamente, la ecuación de Durbin-Watson (D-W), se define como (Biometrica I y II, 1950, 1951):
Donde:
www.full-ebook.com
D es la estadística de D-W ei, e2, …., en son los residuos de la muestra ordenados de acuerdo al tiempo n es el número de observaciones Por otra parte, de acuerdo a una información muy importante aparecida en el portal de Wikipedia (ver referencias bibliográficas), se afirma que, el valor de la estadística D-W está siempre entre 0 y 4. Cuando el valor de la estadística de DW es igual a 2, esto indica que no hay autocorrelación. Sin embargo, cuando el valor de D-W es sustancialmente menor que 2, hay evidencia de correlación serial positiva. También, si el valor de D-W es menor que 1, esto es inaceptable. Igualmente, valores pequeños de D-W indican que, los términos de los errores sucesivos están, generalmente, cercanos en valores unos a los otros, o positivamente correlacionados. No obstante, si el valor de la estadística de D-W es mayor que 2, hay evidencia de correlación serial negativa y los términos de los errores sucesivos son, generalmente, muy diferentes en valor, uno del otro, es decir correlacionados negativamente. 10.13.3. Pruebas de hipótesis usando la estadística de D-W. Se pueden hacer pruebas de hipótesis para autocorrelaciones de primer orden positivas o negativas usando la estadística de D-W. Para tales fines se usa la tabla de los valores críticos de D-W con niveles de significancia de α = 0.05 y α = 0.01, cuyas tablas se dan en el apéndice de este libro. La tabla de D-W de los valores críticos de D-W exhibe valores de dL y dU de tal manera que P(D < dL) = P(D > dU) = 0.05. Igualmente la tabla de α = 0.01 da valores de dL y dU, de tal manera que P(D < dL) = P(D > dU) = 0.01. De cualquier manera, se puede usar la prueba estadística de Durbin-Watson para probar la hipótesis nula Ho: es decir, que los residuos no están autocorrelacionados contra las respectivas hipótesis alternativas, esto es, como se muestra a continuación: (1)HA: Los residuos están positivamente autocorrelacionados (2) HA: Los residuos están negativamente autocorrelacionados
www.full-ebook.com
(3) HA: Los residuos están, ya sea positivamente autocorrelacionados o negativamente autocorrelacionados Acordemente, las reglas de decisión para estos tres tipos de hipótesis, requiere de la determinación de las tablas publicadas por Durbin y Watson, esto es, de dos valores críticos de la estadística D. Estos valores críticos se llaman dL y dU. Por ejemplo, para las hipótesis (1) y (2), dL y dU se obtienen de las tablas de D-W (del apéndice de este libro) de acuerdo al nivel de significancia deseado (e.g., α = 0.05 o α = 0.01). Igualmente, para la hipótesis (3), los valores críticos se obtienen de la tabla correspondiente a la mitad del nivel de significancia deseado. De acuerdo a la información anterior, las reglas de decisión pueden establecerse de la siguiente manera: (1) HA: Los residuos están positivamente autocorrelacionados Si D < dL, rechazar la hipótesis nula Ho: Si D > dU, los residuos no están positivamente autocorrelacionados Si dL ≤ D ≤ dU la prueba es inconclusa (2) HA: Los residuos están negativamente autocorrelacionados Si 4-D < dL, rechazar la hipótesis nula Ho: Si 4-D > dU, los residuos no están negativamente autocorrelacionados Si dL ≤ 4-D ≤ dU la prueba es inconclusa Las tablas de D-W del apéndice dan los valores críticos para una variedad de
www.full-ebook.com
valores de n entre 15 y 100, y para valores de k = 1, 2, 3, 4 y 5, donde n es el tamaño de la muestra y k es el número de variables independientes usadas. (Ver Savin et al. 1977). Ejemplo 10.13. Supóngase que se da un valor de
con un tamaño de muestra de n = 25 y una sola variable independiente. Probar la hipótesis nula Ho: ρ = 0 (los errores no están correlacionados), contra HA: ρ > 0 (los errores están correlacionados positivamente). Usar un nivel de significancia de α = 0.05 y α = 0.01. Solución: Usando la estadística de Durbin-Watson y sustituyendo da:
Ahora, usando las tablas del Apéndice de los valores críticos de la estadística DW, con α = 0.05, n = 25 y con k = 1 (porque hay una sola variable independiente) da: dL = 1.29 y dU = 1.45, entonces debido a que D = 2.033 es mayor que dU = 1.45, se concluye que los términos del error, no están positivamente
www.full-ebook.com
autocorrelacionados. Lo mismo ocurriría con un nivel de significancia de α = 0.01, donde dL = 1.05 y dU = 1.21. Aquí se observa que, ya desde un principio, debido a que, D = 2.033, ya se sabe de antemano que no existe autocorrelación, porque el valor de 2.033 es casi idéntico al criterio aceptable de D-W. = 2.00. Ejemplo 10.14. Supóngase que se da un valor de la estadística de DurbinWatson de D = 0.7043. Se desea saber, si los errores están positivamente autocorrelacionados. Los datos relevantes son de un estudio de contaminación del aire por partículas de plomo, que comprende un periodo de 16 años, usando una variable independiente. Asumir α = 0.05. Solución: 1. Las hipótesis nula y alternativa son: Ho: Los residuales no están autocorrelacionados HA: Los residuales están positivamente autocorrelacionados 2. La prueba estadística es usando la estadística de Durbin-Watson, D 3. La regla de decisión es: Rechazar Ho: si D < dL y aceptar HA: si D > dU no rechazar Ho: Ahora consultando la tabla de D-W del Apéndice, con n = 16 se lee dL = 1.10 y dU = 1.37. 4. Decisión estadística: Debido a que 0.7043 < 1.10 se rechaza Ho: a un nivel de significancia de α = 0.05. 5. Conclusión: Los residuales están positivamente autocorrelacionados.
www.full-ebook.com
Ejemplo 10.15. Este es un estudio de contaminación del aire de cierta ciudad relacionada con el ozono (O3), a nivel del suelo (cuyos estándares son de 0.075 ppm por 8 horas). Para esto se coleccionaron datos de las concentraciones del O3 durante un periodo de tiempo de 15 años. Se ajustó un modelo cuadrático calculado como: Concentraciones de O3 (ppm) = 1.57 + 15.2 (Tiempo) - 1.38 (Tiempo)2. Este modelo tuvo un coeficiente de determinación de R2 = 95.6%, un error estándar estimado de 2.47 y un PRESS de 119.0. Además se calculó la estadística de Durbin-Watson, la cual dio un valor de 2.04. Hacer una prueba de hipótesis y concluir si los residuos están o no correlacionados, es decir, de la siguiente manera: 1. Ho: Los residuales no están autocorrelacionados. HA: Los residuales están autocorrelacionados 2. La regla de decisión es: rechazar Ho: si D < dL y concluir HA. Si D > dU concluir Ho: 3. Ahora consultando la tabla de D-W del Apéndice, con n = 15 se lee dL = 1.08 y dU = 1.36. 4. Debido a que 2.04 > 1.08 se rechaza Ho: y se inclina por HA: con un nivel de significancia de α = 0.05. 5. Conclusión: Los residuales no están autocorrelacionados. 10.14. Técnicas autorregresivas. Cuando se hacen pruebas relacionadas con la estadística de Durbin-Watson que acusen autocorrelación, esta condición se puede usar ventajosamente, para hacer pronósticos precisos. De esta manera, un modelo conocido como modelo autorregresivo se puede desarrollar para lograr este fin. En el modelo autorregresivo, la variable dependiente rezaga uno o más periodos de tiempo y se usa como una variable independiente adicional en el pronóstico del modelo. Esto quiere decir que, un modelo autorregresivo que expresa un pronóstico individual es una función de valores previos de las series
www.full-ebook.com
de tiempo bajo consideración. Si se cree que hay correlación entre residuales consecutivos, se puede usar el modelo autorregresivo de primer orden para regresión lineal simple, dado en textos de estadística para pronosticar valores futuros de y. yt = βo + β1yt-1 + ε
(10-9)
Su correspondiente modelo estadístico es: Yt = bo + b1 Yt-1 + e
(10-9a)
Donde, Yt es el valor de los pronósticos de valores futuros de Y, Yt-1 es el valor de la variable dependiente en el año t – 1, bo es el intercepto en la ordenada y b1es la pendiente de la ecuación de regresión estadística. Igualmente, cuando se habla de regresión lineal múltiple se puede usar el modelo generalizado de regresión múltiple cuando los términos de error del modelo autorregresivo de primer orden son como sigue (Neter et al. 1996): Yt = βo + β1Xt1 + β2Xt2 + …. + βp-1 Xt,p-1 + ε
(10-
9b) Donde: εt = ρ εt-1 + ut Donde: |ρ| < 1, ut es una variable aleatoria que sigue una distribución normal independiente N(0,σ2) Ejemplo 10.16. Los registros históricos de los porcentajes de incrementos en los niveles de agua de presas son importantes, porque ayudan a istrar los usos del agua, ya sea para fines domésticos, industriales, agrícolas, de recreación, producción eléctrica, pesca, etc. La tabla de abajo muestra los datos para este problema. Se quiere pronosticar el porcentaje de cambio para el año 2010. ¿Cree usted que el calentamiento global que está ocasionando eventos extremos como
www.full-ebook.com
muchas inundaciones, muchas sequías, temperaturas altas y bajas, etc., estén impactando los niveles de aguas en las presas, lagos o y lagunas? Tabla 10.15. Tabla mostrando los porcentajes de incrementos en los niveles del agua de esta presa.
Solución: Se requiere estimar el modelo poblacional:
www.full-ebook.com
yt = βo + β1 yt-1 + εt usando su correspondiente modelo estadístico Yt = bo + b1 Yt-1 +et Usando los datos de este problema se calcula la ecuación de regresión y demás resultados. Porcentaje de incrementos = 5.81 - 0.118 (Años) Error estándar estimado = 3.31003, coeficiente de determinación R2 = 3.0% PRESS = 211.567 Estadística de Durbin-Watson = D = 0.187518 Estos resultados dicen que el modelo de regresión ajustado es muy pobre indicando una correlación positiva muy grande, porque el valor de D-W = 0.1875. Debido a esta condición, un modelo autorregresivo aparenta ser una técnica apropiada. De manera que, para pronosticar el porcentaje de cambio en los niveles de agua, usamos la ecuación Yt = 5.81 - 0.118 Yt-1. Si se quiere hacer el pronóstico para el año 2010, entonces, Y2010 = 5.81 - 0.118 Y2009 = 5.81 – 0.118(1.1326%) = 5.68%. Esto quiere decir que, el modelo autorregresivo pronostica que en el año 2010 el aumento del nivel del agua en la presa deberá incrementarse por 5.68%. 10.15. Método de Box-Jenkins. Este es un método de pronóstico iniciado por George E. P. Box y Gwilym M. Jekins. El análisis de Jenkins se refiere a un método sistemático de identificar, ajustar, revisar y de usar modelos de series de tiempo integrados autorregresivos (ARIMA, por sus siglas en inglés, autoregressive integrated moving averages). Este método es apropiado para series de tiempo de longitud media a longitud grande, de cuando menos 50 observaciones. Este método toma en consideración la autocorrelación que está usualmente presente en series de tiempo. Este es un procedimiento capaz de acomodar cualquier patrón de comportamiento en series de tiempo, ya sea de tendencia, estacional o cíclica. Uno de los pasos en el método de Box-Jenkins es el de transformar una serie estacional a otra no estacional, es decir, estacionaria u horizontal. Este método de Box-Jenkins es muy complejo y, únicamente, se
www.full-ebook.com
puede usar con la ayuda de una computadora (Ver Box et al., 1994 y Vandaele, 1983). También, de acuerdo a información compendiada en Engineering Statistics Handbook (NIST/SEMATECH), el modelo más generalizado de BoxJenkins incluye operadores de diferencias, términos autorregresivos, términos de movimientos estacionales y términos de medias móviles estacionales. Sin embargo, como en el caso del modelado en general, solamente, los términos estrictamente necesarios deberían incluirse en el modelo (consultar Box, Jenkins and Reisel (1994), Chatfield (1996), o Brockwell and Davis (2002)). Igualmente, de acuerdo a información recabada de Engineering Statistics Handbook, ahí se hacen un par de comentarios relacionados con el modelo de Box-Jenkins: (1) El modelo de Box-Jenkins asume que, las series de tiempo son estacionarias. Box y Jenkins recomiendan la diferenciación de las series no estacionarias, una o más veces para lograr que se hagan estacionarias. Haciendo esto se produce un modelo ARIMA con la “I” significando “Integrated” o “Integración”. (2) Los modelos Box-Jenkins pueden extenderse a incluir términos autorregresivos estacionales y medias móviles estacionales. A pesar de que esto complica la notación y la matemática del modelo, los conceptos subordinados para términos autorregresivos estacionales y términos de medias móviles estacionales, son similares a los términos autorregresivos no estacionales y términos de medias móviles. Ejemplo 10.17. Este es un estudio relacionado con las concentraciones de bióxido de carbono (CO2) procedentes de los registros instrumentales que comenzaron a registrarse en 1958 en la estación muestreadora de Mauna Loa, Hawai. En esta investigación se aplicará el método de Box-Jenkins para el análisis de series de tiempo. La tabla de abajo da los valores de las concentraciones mensuales y anuales, expresadas en partes por millón en función del tiempo. Se requiere hacer una modelación de los niveles mensuales del CO2 aplicando la metodología de Box-Jenkins para el análisis de series de tiempo. (Problema diseñado y resuelto por el investigador estadístico Humberto García (2010) del ITESM (Campus Juárez)
www.full-ebook.com
Tabla 10.16.Tabla mostrando las concentraciones atmosféricas de bióxido de carbono para el periodo 1959-2008.
Fuente: Datos correspondientes a los registros instrumentales que comenzaron en 1958 en Mauna Loa, Hawai. Los datos fueron coleccionados por C. D. Keeling y T. P. Whorf. http://cdiac.esd.ornl.gov/ftp/trends/co2/maunaloa.co2.
www.full-ebook.com
(Reproducción de los datos para este libro permitida por C. D. Keeling). Solución: El desarrollo de este problema se hará de la siguiente manera: Paso 1. Identificación del comportamiento de la serie de tiempo. Se realizó la gráfica de la serie original (Nota: los niveles de Febrero, Marzo y Abril de 1964 fueron sustituidos por el valor promedio (319.21) de los 9 meses restantes del ano de 1964. Se prefirió esta sustitución ya que al usar, por ejemplo, la mediana de Febrero de todos los meses compendiados (1959-2008) se obtuvo un valor mayor de lo esperado--en relación con los valores contiguos —debido a la tendencia ascendente de los niveles del CO2 a lo largo de estos años). La figura de abajo muestra la gráfica de series de tiempo del CO2 mensual.
www.full-ebook.com
Figura 10.23. Gráfica de series de tiempo del bióxido de carbono mensual. En esta gráfica el diagrama de dispersión indica claramente una estacionalidad de orden 60, es decir, cada 60 meses o 5 años se repite el comportamiento de la serie de tiempo. Esta sospecha se ve confirmada por el correlograma (gráfica de los coeficientes de autocorrelación ACF o Rk), el cual se muestra abajo a continuación. La figura de abajo muestra la autocorrelación para el CO2 mensual.
Figura 10.23a. Gráfica mostrando la función de autocorrelación para el CO2 mensual. En esta figura se observan los siguientes comportamientos: (1) Los Rk del 1 al 11 indican un comportamiento de tendencia (T) (2) Los Rk positivos tienen sus máximos valores locales en R50, R100, R150, etc., lo que implica un comportamiento estacional de orden 50, E(50).
www.full-ebook.com
(3) Los Rk negativos significativos tienen sus máximos valores absolutos locales en R25 y R75, lo que implica un comportamiento estacional de orden 25, E(25). Conclusión: la serie de tiempo despliega una mezcla de comportamiento T y E(50) Nota: El comportamiento E(50) es más relevante que el E(25) debido a que el primero tiene Rk mayores que los valores absolutos de los Rk respectivos del E(25)
Paso 2. Análisis de la horizontalidad de la serie de tiempo. Aquí como los datos no son estacionarios (H) es necesario aplicar los procesos de diferenciación, tanto para la T como para la E(50). Esto significa que los datos originales deben sujetarse a una diferenciación de primer orden para la T. Es decir: Y’t = Yt – Yt-1 = Yt – BYt = (1 – B)Yt, y una diferenciación del orden 50 para eliminar la no horizontalidad asociada al comportamiento E(50), es decir: Y’t = Yt – Yt-50 = Yt – B50Yt = (1 – B50)Yt. De esta manera, se genera la serie de tiempo modificada Y’t dada por la ecuación Y’t = (1 – B)(1 – B50) Yt. Nota: Las instrucciones de Minitab aplicadas para tal efecto fueron:
Stat → Time Series → Difference → Lag 1. Luego, a esta serie diferenciada, se le aplicó la diferencia con el LAG 50. Paso 3. Identificación del comportamiento de la serie modificada. Se hace una gráfica de los valores de las series de tiempo modificadas en función del periodo de tiempo. Se hace otra gráfica de función de autocorrelación para las series de tiempo modificadas. Las gráficas se dan en las figuras de abajo.
www.full-ebook.com
Figura 10.23b. Figuras mostrando la gráfica de las series de tiempo modificadas y la gráfica de función de autocoerrelación modificada para las series de tiempo. Aquí se observa que la figura del lado izquierdo del diagrama de dispersión sugiere fuertemente un comportamiento H, lo que es confirmado por el correlograma de la figura del lado derecho, ya que prácticamente solo el coeficiente R1 es estadísticamente significativo. Paso 4. Identificación del modelo ARIMA de la serie modificada Y’t = (1 – B)(1 – B50) Yt. Las figuras de abajo muestran la función de autocorrelación para la serie de tiempo modificada TS y la función de autocorrelación parcial para la TS modificada.
Figura 10.23c. Figuras mostrando la función de autocorrelación para la serie de tiempo modificada ACF (ACF autocorrelation function for the modified TS, por sus siglas en inglés) y la función de autocorrelación parcial para la serie de tiempo modificada PACF (PACF partial autocorrelation function for the
www.full-ebook.com
modified TS, por sus siglas en inglés). Analizando las figuras de arriba usando el correlograma de las ACF y de los coeficientes parciales PACF se observa que: (1) Los ACF de la figura izquierda muestran un solo pico negativo en el Lag 1 para luego hacerse prácticamente cero. (2) Los PACF de la figura derecha muestran un decaimiento exponencial en el lado negativo (θ1> 0). Lo anterior implica que la serie de tiempo modificada Y’t cumple con el modelo MA(1) [Moving average de orden 1] (ver Makridakis, Forecasting Methods and Applications, p. 342), es decir, la serie sigue Y’t sigue al modelo ARIMA (0,0,1): Y’t = (1 – B)(1 – B50) Yt = c + et – θ1et-1 (ver Makridakis (1998, p. 339)). Al aplicar en Minitab la serie de instrucciones: Stat → Time Series → ARIMA se obtiene el siguiente impreso:
www.full-ebook.com
El impreso de abajo muestra la hoja de Minitab con las entradas cuando se usa el ARIMA
Figura 10.23d. Impreso mostrando las entradas en la hoja del Minitab. Paso 5. Modelo final para pronóstico de la serie modificada. Las ecuaciones de abajo señalan las fórmulas usadas para el pronóstico de la serie modificada: Yt = (1 – B)(1 – B50) Yt = 1 – B)(Yt – Yt-50 – Yt-1 + Yt – 51 = c + et – θ1 et-1 Yt – Yt-50 – Yt-1 + Yt-51 = 0.001438 + et – 0.7323 et-1 Yt = 0.001438 + Yt-1+ Yt-50 – Yt-51+ et- 0.7323 et-1 Paso 6. Verificación del comportamiento de los residuos. Las figuras de abajo muestran las gráficas de las series de tiempo para RESI1, de funciones de autocorrelación para RESI1 y la gráfica de funciones de autocorrelación parcial para RESI1.
www.full-ebook.com
Figura 10.23e. Gráficas mostrando las series de tiempo para RESI1, de funciones de autocorrelación para RESI1 y la gráfica de funciones de
www.full-ebook.com
autocorrelación parcial para RESI1. El diagrama de dispersión de los residuos sugiere un comportamiento H o bien aleatorio (A). El correlograma indica prácticamente un comportamiento A, ya que los valores de la mayoría de los Rks son no significativos y los que son significativos usando un nivel de confianza del 10%. Lo mismo se puede afirmar del correlograma de los ACF parciales. Conclusión: El comportamiento de los residuales parece ser un buen modelo, que no necesita de un mayor refinamiento. 10.16. Derivación de la función de cinética química (relacionada con la intensidad o velocidad de reacciones químicas), es decir, de la fórmula monomolecular de la demanda bioquímica de oxígeno de 5 días (DBO5). Su relación con las series de tiempo. Esta función monomolecular es ampliamente usada con las tecnologías del agua, es decir para usos del agua, en el diseño de plantas o sistemas de tratamiento, estudios de contaminación de corrientes, etc., usados en la degradación de la materia orgánica. De esta manera, cuando se habla de reacciones de cinética química, es decir, de reacciones de primer orden, éstas pueden ser aplicadas a problemas relacionados con los usos del agua, esto es, para la medición de la demanda bioquímica de oxígeno de 5 días (DBO5). Este parámetro es muy importante y tiene muchas aplicaciones en el diseño de proyectos relacionados con plantas mecánicas de tratamiento de aguas residuales, estudios de contaminación de corrientes, lagunas de estabilización, digestores anaerobios, etc. De cualquier manera, esta sección está encaminada, a derivar lo que se llama la ecuación monomolecular (que mide únicamente la parte carbonosa del drenaje), para medir el DBO5 en cualquier tiempo. Además, esto está encaminado a medir la cantidad de materia orgánica que se va oxidando (o que se esta satisfaciendo) y la concentración del material orgánico que va quedando. Siendo así, los siguientes pasos están encaminados a derivar la ecuación monomolecular para medir el DBO5: 1. Supóngase que la tasa de descomposición de la materia orgánica es directamente proporcional a la cantidad de drenaje (materia orgánica) que va
www.full-ebook.com
quedando, esto se puede expresar como: -dC/dt = kC
(10-10)
Donde el signo negativo indica la pérdida de materia orgánica con el tiempo, y k es la constante de la reacción. 2. Si la concentración inicial de la materia orgánica, a un tiempo t = 0 es Co y, si después de algún tiempo t, la concentración baja a Ct, la integración de la ecuación (10-10) da: C t
- ∫ 0 dC/C = k = k ∫Co dt (10-12a) - Ln C/Co = Ln Co/C = kt
(10-10b)
C/Co = e-kt
O sea
(10-10c)
3. Sin embargo, en aplicaciones a la demanda de oxígeno (DBO5) es preferible usar L en lugar de C, para expresar las concentraciones del DBO5. También se pueden usar logaritmos base e o base 10. Siendo así, la ecuación (10-10c), para calcular el DBO5 se puede expresar como: Lt/Lo= e-k’t = 10-kt
(10-10d)
Donde, k = k’/2.3 El valor de k es un promedio que varía de país a país dependiendo de los hábitos alimenticios de la gente. Por ejemplo, en Estados Unidos el promedio de k es de 0.1. No obstante, aquí es importante, aclarar que el valor de L es un promedio que denota la concentración de la materia orgánica (mg/L) o también la cantidad
www.full-ebook.com
de oxígeno requerido por las bacterias en la degradación del drenaje. La ecuación (10-10d) dice que, la cantidad de materia orgánica que queda después de algún tiempo t, es una fracción de L correspondiente a 10-kt, es decir, que el DBO que no ha sido oxidado (DBO5 restante) es un porcentaje (probabilidad) de L correspondiente a 10-kt. No obstante, en la ingeniería de usos del agua se está interesado en la cantidad de DBO oxidado o ejercido, en función del tiempo. Entonces, es deseable transformar los resultados de la demanda bioquímica de 5 días, a un DBO total (L) o, a un DBO relacionado a cualquier otro tiempo. Esto se logra modificando la ecuación (10-10d), para derivar la ecuación monomolecular. Es decir, y = L(1 - e-k1t)
(10-10e)
O con base Log10
y = L(1 - 10-kt)
(10-10f)
Donde y es igual al DBO ejercido a cualquier tiempo t y L es la media de la demanda última o total de la concentración de la materia orgánica. Además, k(k1) es la tasa de la constante de la reacción (que se calcula experimentalmente). Aquí, es importante afirmar que las muestras del agua residual se incuban en el laboratorio a 20oC y a 5 días, para evitar la nitrificación, que interfiere con la oxidación de la materia carbonosa. 10.16.1. Derivación de diversos modelos matemáticos usados en estudios de corrientes de agua. En estudios de tecnologías resulta que, las corrientes de agua o ríos, se pueden usar como plantas de tratamiento naturales, mientras que su capacidad de asimilación no se exceda. Esta es una responsabilidad muy crítica del ingeniero ambiental. De manera que, mientras la capacidad de la corriente no se sobrepase (para que no ocurran condiciones anaerobias que perjudiquen la flora y fauna), las corrientes representan el método más económico para la oxidación del drenaje. Para tales fines, en esta sección se mostrará la derivación matemática de la ecuación que calcula el déficit de oxígeno en la corriente. Siendo así, la ecuación que describe la acción simultánea de la tasa de desoxigenación y de la tasa de reaireación del oxígeno atmosférico en el agua es:
www.full-ebook.com
- dD/dt = k’1L – k’2D
(10-11)
Donde: - dD/dt es el cambio en el déficit de oxígeno con respecto al cambio en el tiempo; D es el déficit de saturación inicial de oxígeno (la diferencia entre la saturación de oxígeno disuelto, a una determinada temperatura y el oxígeno disuelto (O.D.) de la corriente, Do); L es la concentración de materia orgánica (demanda bioquímica de oxígeno, DBO); k’1 es el coeficiente de desoxigenación y k’2 es la tasa por la cual el oxígeno atmosférico penetra en el agua. No obstante, la concentración de la materia orgánica (drenaje) L debe expresarse en términos de la concentración inicial, última o total Lo en el punto de la descarga. De manera que: L = Lo e-k’1t
(10-11a)
Donde Lo = concentración inicial o total del DBO (mg/L) Ahora, sustituyendo L en la ecuación - dD/dt = k’1L – k’2D e integrando (la derivación se dará más adelante) ésta nos da el clásico modelo de StreeterPhelps el cual es ampliamente usado en problemas de contaminación de corrientes: D = k’1Lo/k’2 – k’1 (e-k’1 – e-k’2) + Do
(10-11b)
Donde D = Dt = déficit de oxígeno en el tiempo t, (mg/L), Do es el déficit de saturación inicial de oxígeno en el punto de la descarga (mg/L). La ecuación anterior también se puede usar con logaritmos comunes, debido a que e-k’1 = 10-kt, donde k = 0.434 k1 Aquí es importante notar que, k1 va en función de la temperatura, y lo mismo ocurre con k2, pero más importante todavía es que, k2 está condicionada a la
www.full-ebook.com
turbulencia o velocidad de la corriente. En verdad k2 se puede aproximar por la fórmula de abajo (O’Connor-Dobbins formula): ka = 12.9 U0.5/H1.5. Donde: U = velocidad en pies por segundo, H = profundidad de la corriente en pies (http://www.ecs.umass.edu/cee/reckhow/courses/577/577symp.html, 1996). K2T = k2-20 x 1.047 T-20
(10-11c)
Donde K2T = tasa de reaireación a una temperatura T, k2-20 es el coeficiente reaireación a 20oC (temperatura ambiental). La ecuación de Streeter-Phelps o de la comba de oxígeno que calcula el déficit de oxígeno, indica el punto crítico donde ocurre la concentración mínima del oxígeno disuelto. Esto es muy importante, porque las faunas sensibles a concentraciones bajas de oxígeno disuelto pueden ser perjudicadas (criterio de Ellis de 5 ppm. Ver Quality Criteria for Water (1976)). De esta manera, el punto crítico en la corriente es el lugar donde la tasa de cambio del déficit es cero y k1L = k2D. Ahora, usando la ecuación dD/dt = k’1L – k’2D y sustituyendo L = Loe-k’1t da: k’2 Dc = k’1L = k’1Loe-k’1tc (10-11d) Ahora resolviendo por el tiempo crítico tc se obtiene la ecuación que calcula el tiempo crítico donde ocurre el nivel más bajo del oxígeno disuelto.
La gráfica de abajo muestra la curva del oxígeno disuelto
www.full-ebook.com
Localización de la descarga de aguas residuales DBO total de la corriente = Lo Valor de saturación
Tiempo del flujo (días) Figura 10.35. Figura mostrando la comba del déficit de oxígeno (Dt) en función del tiempo (días). Esta figura también muestra la localización del punto de la descarga del agua residual. Igualmente, se muestra el valor de saturación de oxígeno (línea quebrada). La variable Do es el déficit de saturación inicial de oxígeno, en el punto de la descarga (mg/L), y Dc es el déficit crítico. Finalmente, esta gráfica muestra el cambio del déficit de oxígeno, con respecto al cambio en el tiempo (dD/dt = k1L – k2D). Los valores de las constantes de reaireación varían dependiendo del tamaño de la corriente y de la velocidad del agua. Por ejemplo, Peavy, Rowe and Tchobanoglous (1985) dan los valores de las constantes k2 a 20 oC, para diferentes tipos de velocidades de corrientes y volúmenes de agua. Siendo así,
www.full-ebook.com
para velocidades de corrientes lentas y lagos grandes el rango de k2 es de 0.23 a 0.35. Igualmente, para corrientes grandes de bajas velocidades el rango se da como 0.35 a 0.46. Análogamente, para corrientes rápidas los valores de k2 son de 0.69 a 1.1.5 y así sucesivamente. (Ver http://environmentalet.hypermart.net/env2101/sagcurve.htm) 10.17. Reacciones consecutivas. Las reacciones consecutivas son de mucha importancia en trabajos de tecnologías del agua, es decir, en el diseño de plantas de tratamiento para las aguas municipales e industriales. Por ejemplo, en la nitrificación (que ocurre después de 5 días descrita en la cinética de la demanda bioquímica de oxígeno, DBO), la descomposición del nitrógeno orgánico (NH3) en nitritos (NO-2) y en nitratos (NO-3) es una reacción clásica de reacciones consecutivas. En términos generales, la ecuación de abajo muestra los pasos que se siguen en las reacciones consecutivas.
De acuerdo a la ecuación de arriba, el reactivo A se convierte en el producto B, a una tasa determinada por la constante k1. Enseguida, el producto B, en turno, se convierte en el reactivo para el segundo paso y es convertido en producto C, determinado por la tasa de la constante k2. De esta manera, si las tasa de cada reacción consecutiva se consideran reacciones de primer orden, entonces las ecuaciones diferenciales que describen las tasas de descomposición y de formación de los reactivos y productos se dan como sigue: -dCa /dt = k1Ca
(10-12a)
-dCb/dt = k1Ca – k2Cb
www.full-ebook.com
(10-12b)
Y
dCc/dt = k2Cb
(10-12c)
Donde C es la concentración (mg/L), de la sustancia en cuestión. Si a un tiempo t = 0, se tiene Ca = Ca°, Cb = Cb°, y Cc = Cc°, entonces, la solución para la concentración de cada constituyente a cualquier otro tiempo t se calcula integrando matemáticamente, las ecuaciones (10-12ª-10-12c), para dar: Ca = Ca°e-k1t
(10-12d)
La ecuación (10-12f) es la misma que se describió en la sección de derivación de modelos matemáticos usados en estudios de corrientes de agua, aunque con diferente anotación. En la ingeniería del agua, el ejemplo clásico de una reacción consecutiva es la descomposición del nitrógeno orgánico para dar nitratos y nitritos, en función del tiempo. Esto se ve en la figura de abajo.
www.full-ebook.com
Figura 10.30. Cambios que ocurren en la nitrificación (que ocurre después de 5 días durante la oxidación del DBO orgánico) asumiendo una reacción consecutiva de primer orden. Por ejemplo, el nitrógeno orgánico (NH3) se oxida a nitritos (NO-2) y luego a nitratos (NO-3).
www.full-ebook.com
Ejercicios 10.1. Tres modelos de valores de pronóstico Ft (modelos 1, 2 y 3) fueron usados para predecir valores futuros de una serie de tiempo. Los datos se dan en la tabla de abajo. De acuerdo a los valores de MAPE y MAD señalados en la tabla de abajo, determinar cuál modelo es más preciso. Tabla mostrando los datos para este problema.
10.2. Supóngase que el número de registros defectuosos meteorológicos acumulados durante los años de 1980 a 1994 se registraron como se dan en la tabla de abajo. Siendo así, el objetivo es usar medias móviles de series de tiempo y calcular la media móvil de 3 años para estos registros. La tabla de abajo muestra esta situación. Tabla mostrando los registros pluviométricos defectuosos de cierta cuenca hidrológica para el periodo de 1980-1994.
www.full-ebook.com
10.3. Para las siguientes series de tiempo, calcular: (a) La media móvil de 3 años. (b) La media móvil de 5 años. (c) Una vez que se estructuren las gráficas, leer las medias móviles de la gráfica para cada media móvil pedida.
www.full-ebook.com
Tabla mostrando los datos para este problema.
10.4. Este ejemplo de meteorología de precipitaciones en función del tiempo, el cual está encaminado a aplicar un suavizamiento exponencial simple y un suavizamiento exponencial doble, con el objeto de observar, cual suavizamiento simple o exponencial ajusta mejor los datos. Asúmase que pueda o no pueda haber tendencia o estacionalidad. Para el primer modelo se da un valor de constante de suavizamiento de α = 0.1 y para el segundo modelo se da una constante de suavizamiento de tendencia de γ = .2. Los datos se dan en la tabla de abajo.
www.full-ebook.com
Tabla mostrando los datos de la lluvia y el tiempo.
10.5. Se da la tabla de abajo con datos de precipitaciones pluviales (centímetros) en función del tiempo (horas) de cierta región. Hacer lo siguiente: (a) Ajustar un modelo de regresión lineal (modelo 1). Enseguida, ajustar un modelo de regresión logarítmico (modelo 2). Luego ajustar un modelo de regresión cuadrático (modelo 3) (b) De acuerdo a los valores de MAPE, MAD y MSD, en cada uno de los modelos ajustados en (a) decidir cual de los tres modelos ajusta mejor los datos. (c) Corroborar lo decidido en (b) usando técnicas de regresión lineal, exponencial y cuadrática, es decir, de acuerdo a la evaluación objetivista y subjetivista en cada uno de sus casos. Analizar la estadística de Durbin-Watson en cada caso.
www.full-ebook.com
(d) Hacer una tabla que incluya los resultados obtenidos en los incisos anteriores. (e) Finalmente, de acuerdo a los datos obtenidos, decidir cuál modelo es el más apropiado Tabla mostrando los datos.
www.full-ebook.com
10.6. Este es un ejercicio usando el método de Winter relacionado con el gasto de agua residual (pies3/segundo) de cierta ciudad. Usar los valores de α = 0.2, γ = 0.2, y δ = 0.2. Además, usar un valor de 2 para la longitud del patrón estacional. Asúmase que, los volúmenes de drenajes para esta ciudad para los 12 meses del año 2005 fueron registrados como se muestra en la tabla de abajo:
www.full-ebook.com
Tabla mostrando los volúmenes de aguas negras generados por la ciudad en cuestión expresadas en miles de metros cúbicos mensuales.
Hacer lo siguiente: Usar ambos, modelos, el multiplicativo y el aditivo y decir, cual modelo ajusta mejor los datos de acuerdo a los valores de MAPE, MAD y MSD. 10.7. Se desarrolló el siguiente modelo auto regresivo: yt = 16.0 + 2.5yt-1. Siendo así, pronosticar las series de tiempo, si la última observación fue de 12. 10.8. Este es un estudio relacionado con las concentraciones atmosféricas de óxidos de nitrógeno NO2) emitidos por un complejo industrial (estándar primario del NO2, en partes por billón por 1 hora) para un periodo de 14 años (19751988). El estudio está encaminado a calcular manualmente, una ecuación de regresión usando el método de los cuadrados mínimos. Luego hacer lo mismo, pero ahora usando el programa Minitab. Los datos se dan en la tabla de abajo.
www.full-ebook.com
Tabla mostrando la información para este problema.
(a) Usando un programa de cómputo, hacer un diagrama esparcido, luego usando el método de los cuadrados mínimos y trazar a mano en el diagrama esparcido, la línea recta que mejor se ajuste los datos. (b) Usando el Minitab hacer una transformación logarítmica en la ordenada y calcular la ecuación de regresión. (c) Validar la utilidad del modelo seleccionado en (b) a través de diagnósticos estadísticos y de gráficos de residuales. ¿Cuál es el valor y el significado de la
www.full-ebook.com
estadística D-W? (d) Con la ecuación de regresión estimada, calcular el caudal para el año 1990. (e) Hacer una gráfica de análisis de tendencia y calcular los valores de MAPE, MAD y MSD. 10.9. Para un estudio relacionado con la infiltración del agua del suelo de una cuenca, se da la tabla de abajo con los siguientes datos de las tasas de infiltración del agua (pulgadas por hora) en función del tiempo (horas). Tabla mostrando los datos de las tasas de infiltración en función del tiempo.
Hacer lo siguiente: (a) Una gráfica con línea de regresión ajustada.
www.full-ebook.com
(b) Una gráfica de análisis de tendencia. (c) Calcular MAPE, MAD y MSD (d) Estructurar el modelo de regresión más apropiado. (e) Validar la utilidad del modelo seleccionado usando diagnósticos objetivistas (R2, s, PRESS, tabla de ANOVA) y diagnósticos subjetivistas (gráficos de residuos). (f) Con la ecuación de regresión obtenida en (d), predecir la tasa de infiltración, cuando el tiempo es de 15 minutos. (g) De acuerdo al valor de la estadística de Durbin-Watson, ¿Existen problemas de autocorrelación? 10.10. Usando los datos de las medias mensuales de la tabla de abajo de la demanda de agua para fines domésticos de cierta ciudad, hacer una gráfica de descomposición, gráfica de análisis de componentes y gráfica de análisis estacional, es decir, con tendencia y estacionalidad. Para este ejemplo, se desea examinar la naturaleza de las partes componentes de los datos. Tabla mostrando la demanda de agua en millones de litros mensuales.
www.full-ebook.com
10.11. Se da la siguiente información de datos obtenidos usando la estadística Durbin-Watson (D). (a) D = 0.89 (b) D = 2.90 (c) D = 2.01 (d) D = 0.99 con una prueba de hipótesis de dos colas y con α = 0.05, n = 20, k = 2.
www.full-ebook.com
Decir si los valores de la estadística D-W están correlacionados positivamente, negativamente o si no hay autocorrelación, para cada uno de los inciso (a)-(d). 10.12. Se da la siguiente información: n = 20, k = 2, α = 0.05, estadística de D-W = 0.96. Hacer una prueba de D-W para determinar si existe autocorrelación de primer orden. 10.13. Se da la siguiente información: n = 20, k = 2 y α = 0.05 y se desea hacer una prueba bilateral con D = 0.83. Establecer las regiones críticas y decir se rechaza o acepta Ho:. 10.14. Con relación a la regresión lineal múltiple donde se involucran series de tiempo, se tomaron 25 observaciones para estimar el modelo de regresión poblacional dado como: Y = βo + β1x1 + β2x2 + β3x3 + β4x4 + ε. La estadística de Durbin-Watson fue igual a 1.05. Siendo así, contestar lo siguiente: (a) ¿Se puede concluir, con un nivel de significancia de α = 0.05 de que existe una autocorrelación de primer orden? (b) Establecer la prueba de hipótesis y la región crítica. 10.15. En un estudio se coleccionaron datos de precipitaciones durante un periodo de tiempo de 15 años, el ingeniero estadístico encargado de este estudio contiende que los datos siguen a un modelo de regresión cuadrático (con una variable independiente). Para apoyar esta contención, el ingeniero basa su criterio en el hecho de que, la validación del modelo seleccionado es bastante aceptable, porque el coeficiente de correlación R2 es igual a 98.1 %, el error estándar estimado es igual a 1.59, el valor de PRESS es igual a 53.55 y el valor de la estadística D-W., es igual a 2.05. Igualmente, en la validación complementaria usando gráficas de residuos, el ingeniero argumenta que el modelo ajustado es bueno, porque en la gráfica de probabilidad normal, la mayoría de los puntos siguen a una línea recta, y en la gráfica de los residuos estandarizados vs. valores ajustados, existe el mismo número de residuos
www.full-ebook.com
positivos y negativos. De acuerdo a los razonamientos o criterios anteriores, el modelo cuadrático ajustado se da como: Precipitaciones (cm). = - 7.58 + 15.0 (Tiempo) - 1.37 (Tiempo)2. Hacer una prueba de hipótesis para la estadística de Durbin-Watson y decir si los residuos están o no están autocorrelacionados. La tabla de abajo muestra los datos.
10.16. En un estudio de microbiología ambiental aplicado a los usos de agua se hace un cultivo de agar (medio de cultivo de microorganismos que contiene agar, un extracto gelatinoso coloidal de alga roja), a de una muestra aleatoria de
www.full-ebook.com
análisis de agua para observar el crecimiento bacterial en función del tiempo. Los datos se dan en la tabla de abajo. Tabla mostrando los datos.
Hacer los siguientes cálculos: (a) Hacer un diagrama esparcido con los datos. (b) Probar un modelo de regresión con transformaciones logarítmicas (base e) en la ordenada y evaluar su utilidad a través de diagnósticos estadísticos y gráficos. (c) De acuerdo al valor de la estadística Durbin-Watson calculado por el Minitab, hacer una prueba de hipótesis de la siguiente manera: Ho:ρ = 0 contra HA:ρ > 0. (d) Examinar el comportamiento de los residuos versus valores ajustados en los gráficos de residuales. ¿Siguen los residuos estandarizados vs. valores ajustados, a un patrón definido? La configuración de los datos de esta gráfica ¿está de acuerdo con el valor de la estadística D y de los resultados de la prueba de hipótesis?
www.full-ebook.com
(e) Hacer una gráfica de tendencia de serie de tiempo y ajustar un modelo exponencial y uno cuadrático. De acuerdo a los valores de MAPE, MAD y MSD decir cuál modelo es mejor. 10.17. Los siguientes datos dan una información relacionadas con las precipitaciones anuales de una estación meteorológica localizada en Ojinaga, Chihuahua, México, cuyos datos fueron otorgados por la oficina de CONAGUA en Cd. Chihuahua.
www.full-ebook.com
Fuente: Comisión Nacional del Agua (CONAGUA). Oficina de CONAGUA en Cd. Chihuahua.
Hacer lo siguiente: (a) Ajustar el modelo de regresión más plausible. Evaluar su utilidad a través de diagnósticos estadísticos y gráficos de residuos. (b) Analizar el valor de la estadística de Durbin-Watson. ¿Existen problemas de autocorrelación en series de tiempo? (c) Una gráfica de análisis de tendencia. (d) Comparar los valores de los coeficientes de las dos modelos de regresión calculados en (a) y 10.18. En una investigación de usos del agua, se observaron los siguientes valores promedio provenientes de un experimento, para evaluar la desinfección de un almacenamiento de agua potable (que estaba contaminada por falta de mantenimiento). Se aplicó una dosis de cloro para aniquilar las bacterias coliformes (indicadoras de la calidad del agua, cuyo estándar es de 5%). Dejar que Co sea igual al % total de la concentración de bacterias, a un tiempo t = 0, y también dejar que Ct sea igual a porcentaje de concentración de bacterias que van quedando, después de un tiempo t. (a) Hacer una gráfica sobrepuesta con los porcentajes de bacterias que van quedando y el porcentaje de las bacterias que se van aniquilando, en función del tiempo. (b) Decir el orden de la reacción del experimento. (c) Estructurar un modelo de regresión que mejor ajuste los datos. Validar la calidad del modelo usando diagnósticos objetivistas y subjetivistas. (d) ¿Existen problemas de autocorrelación en series, con el modelo ajustado en
www.full-ebook.com
(c)? Hacer una prueba de hipótesis para la estadística de Durbin-Watson y decir si hay o no hay autocorrelación de primer orden. (e) Calcular la tasa de desinfección. (f) Predecir el tiempo que se llevaría para aniquilar el 50 % de las bacterias. (g) Con el mejor modelo de regresión, calcular la concentración de bacterias que quedaron en 35 minutos por ml, asumiendo una concentración de 100 bacterias/ml. Tabla mostrando los datos de este problema.
10.19. En un estudio de química atmosférica relacionada con la descomposición del bióxido de nitrógeno (un precursor de la formación de ozono a nivel del suelo y componente importante del llamado smog fotoquímico) se da la descomposición del NO2(gas) en función del tiempo de acuerdo a la tabla de abajo:
www.full-ebook.com
(a) Hacer una gráfica de la concentración molar del bióxido de nitrógeno vs. tiempo. (b) ¿Es la reacción de primero o segundo orden? (c) Ajustar el modelo de regresión más factible para estos datos. (d) Validar la utilidad del modelo de regresión seleccionado a través de diagnósticos objetivistas y subjetivistas. (e) De acuerdo al valor de la estadística D-W, ¿existen problemas de autocorrelación en series de tiempo? (f) Con la ecuación de regresión obtenida en (c) calcular la concentración del NO2 cuando el tiempo es de 1 minuto. 10.20. Con referencia al estudio de los datos históricos (de 30 años, periodo 1977-2006) de precipitaciones anuales de la Presa de la Amistad (Ejercicio 1.22, Capítulo 1) suministrados por la Comisión Internacional de Límites y Aguas de la Ciudad Acuña, Coahuila, México, hacer lo siguiente:
www.full-ebook.com
(a) Hacer una gráfica de los promedios mensuales de las precipitaciones versus los 12 meses del año. (b) Hacer una gráfica de precipitaciones versus tiempo (años). (c) Usando series de tiempo calcular el modelo de tendencia más apropiado y basar el razonamiento en los valores de MAPE, MAD y MSD. (d) Aplicar un método de suavización exponencial en donde el tiempo es la variable X. 10.21. Usando el mismo estudio relacionado del Capítulo 4 (Ejercicio 4.19) con los datos históricos de 50 años (periodo 1954-2006) de precipitaciones mensuales y anuales de la Presa Falcón, hacer lo siguiente: (a) Una gráfica de los promedios mensuales de las precipitaciones versus los 12 meses del año. ¿En que mes ocurrió la precipitación máxima y la mínima? (b) Una gráfica de las precipitaciones anuales. ¿En que año ocurrió la precipitación máxima y la mínima? (c) Usando análisis de series de tiempo, hacer una gráfica de análisis de tendencia para las precipitaciones anuales. Calcular el modelo de tendencia lineal. 10.22. En estudios de tecnologías del agua es muy importante conocer las concentraciones (mg/L) de la demanda bioquímica de oxígeno de 5 días (DBO5) en muestras de drenajes. Esto se hace con el objeto de diseñar y estructurar los componentes de la planta de tratamiento de aguas residuales. Para tales fines se tomaron varias muestras y se calcularon las medias del DBO oxidado, como se muestra en la tabla de abajo en función del tiempo (1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, días). Siendo así, hacer lo siguiente:
www.full-ebook.com
(a) Calcular las concentraciones promedio del DBO restante. (b) Hacer una gráfica con las concentraciones del DBO oxidado y las concentraciones del DBO restante para el número de días especificado. (c) Estructurar el modelo de regresión que mejor ajuste los datos. Validarlo acordemente (d) Hacer una gráfica de análisis de tendencia que mejor ajuste los datos y calcular el valor de MAPE, MAD y MSD. (d) ¿De acuerdo al valor de la estadística de Durbin-Watson, existen problemas de autocorrelación? (e) Comparar los resultados de los dos modelos de regresión obtenidos en (c) y (d) usando un valor de 5 días. Tabla mostrando las medias de las concentraciones de DBO oxidado.
www.full-ebook.com
10.23. Este es un estudio de la descomposición del nitrógeno orgánico (NH3) en función del tiempo, es decir, cuando el NH3 se descompone en NO2- y NO3cuando se relaciona con una reacción de primer orden consecutivo. Los datos se dan abajo. Tabla mostrando las concentraciones relativas de NH3 en función del tiempo.
www.full-ebook.com
Hacer lo siguiente: (a) Una gráfica de diagrama esparcido. Luego hacer otra gráfica con las transformaciones logarítmicas base e. (b) Estructurar el modelo de regresión de acuerdo a la información obtenida en (a). (c) Validar el uso del modelo usando diagnósticos estadísticos y gráficos de residuos. (d) Predecir el porcentaje relativo de NH3 cuando el valor relativo del tiempo es de 3.0.
www.full-ebook.com
(e) Gráfica de análisis de tendencia para el NH3. (f) ¿Cuál es el valor de la estadística de Durbin-Watson? ¿Cuál es su significado? (g) ¿Cuál es la tasa de la reacción? ¿Cuál es su significado? (Para resolverse por el lector) 10.24. Este es un estudio de contaminación de corrientes, en el cual se sacaron muestras aleatorias durante un periodo de varios años y se midió el déficit de oxígeno (Dt) de una corriente. Los promedios anuales calculados se dan en la tabla de abajo, los cuales se usaron con el modelo de Streeter-Phelps (una ecuación algebraica derivada por medio de integrar la ecuación diferencial, la cual es ampliamente usada para describir la comba del oxígeno en estudios de contaminación de corrientes para calcular el déficit de oxígeno). (Ver referencias bibliográficas relacionadas con el modelo de Streeter-Phelps). Tabla mostrando el déficit de oxígeno (Dt) en función del tiempo (días).
www.full-ebook.com
Hacer lo siguiente: (a) Una gráfica del déficit de oxígeno Dt (mg/L) vs. tiempo en días. (b) Establecer el modelo de regresión que mejor ajuste los datos del déficit de oxígeno. ¿Cuál es el valor de la estadística Durbin-Watson? ¿Existen problemas de autocorrelacion? (c) Usando la ecuación del modelo de regresión obtenido en (b), calcular el déficit de oxígeno de 5 días.
www.full-ebook.com
REFERENCIAS 1. García, J. H. (2009). Maestro e investigador del Instituto de Estudios Superiores de Monterrey (Campus Juárez). 2. Sawyer, N. C., McCarty, P. L. (1967). Chemistry for Sanitary Engineers. Segunda edición. McGraw-Hill. (pp. 200-202) 3. Chow, V. T. (1964). Handbook of Applied Hydrology. A Compendium of Water-resources Technology. McGRAW-HILL Book Company. (p.8.9) 4. Mathevet, T, Lepiller, M., Mangin, A. (2004). Applications of time series analyses to the hydrological functioning of an Alpine Karstic System: the case of Bange-L’Eau-Morte. Hydrology and Earth Systems Sciences, 8(6), 1051-1064. 5. Saffir-Simpson Team: T. Scott, C Landsea, G. Hafele, J. Lorens, A Taylor, H. Thurm, B. Ward, M. Wllis, y W. Zaleski. The Saffir-Simpson Hurricane Wind Scale. National Weather Service, National Hurricane Center. 6. Brown, T. L., LeMay, H. E., Bursten, B. E. (2000).Chemistry. The Central Science. Eight edition. Prentice Hall Upper Saddle River, New Jersey. 7. Huff, F. A., Changnon, S. A. (1973). Precipitation Modification by Major Urban Areas. Bulletin American Metereological Society. 54 (12):1220-1232. 8. Than, K. (2206). WarmerSeas Creating Stronger Hurricanes, Study Confirms. http://www.livescience.com/environment/060316_hurricane_sst.html. 9. Biello, D. (2007). Stronger Link Found Betweeen Hurricanes and Global Warming. http://www.scientificamerican.co/article.cfm?idstronger-link-foundbetween-hurricanes.. 10. Ellis, T. G., D. S. Barbeau, B. F. Sivets y C. P. L. J. Grady (1996). “Respirometric Technique for Determination of Extant Kinetic Parameters
www.full-ebook.com
Describing Biodegradation. Water Environmental Research 68(5): 917-926. 11. Webster, P. J., Holland, G. J., Curry, J. A., Chang, H. R. Changes in Tropical Cyclone Number, Duration and Intensity in a Warming Environment. Science 16 September 2005. Vol. 309 No. 5742, pp. 1844-1846. DOI: 10 1126/science. 1116448. http://www.sciencemag.org/cgi/content/full/309/5742/1844 12. Rajeev, L. NASA Goodard Institute for Space Studies. http:www.buzzle.com/articles/methane-and-global-warming. potential.html. 13. Naik, A. (2010). Methane and Global http:www.buzzle.com/articles/methane-and-global-warming.html.
Warming.
14. Lenart, M, Jones, C., Kimball, B. (2006). Rising Carbon Dioxide Levels and forest Management. The University of Arizona, College of Agriculture and Life Sciences, Tucson, Arizona 85721. http://ag.arizona.edu/pubs/natresources 15. http://cdiac.esd.ornl.gov/ftp/trends/co2/maunaloa.co2 16. http://zebuuoregon.edu/2004/es399/lec02.html 17. O’Connor, J. D., Dobbins, W. E. (1958). Mechanisms of Reaeration in Natural Streams, Trans,. Am. Soc. Civil Engrs., vol. 123, p. 34. 18. Ellis, M. M. (1937). Detection and Measurement of Stream Pollution. U. S. Bureau of Fisheries Bulletin 22. 19. Standard Methods for the Examination of Water and Wastewater. (1995). Prepared and published tly by: American Public Association, American Water Works Association, and Water Pollution Control Federation. American Public Health Association, 1015 Eighteen Street, N. W., Washington, D. C. 20036. (P. 489). 20. Programa de cómputo CNSS 2000 y 2000.
www.full-ebook.com
21. Durbin, J., Watson, G. S. (1950). Testing for Serial Correlation in LeastSquares Regression, I. Biometrica 37, p.409-428. 22. Durbin, J., Watson, G. S. (1951). Testing for Serial Correlation in LeastSquares Regression, II. Biometrica 38, p.159-179. 23. http://en.wikipedia/wiki/Durbin%E2%80%93WatsonStatistics.21. 24. Neter, J., Kutner, M. H., Nachtsheim, C. J., Wasserman, W. (1996). Applied Linear Regression Models. Third edition. IRWIN. McGraw-Hill Companies, Inc. (p. 507-508), (p. 501). 25. Daniel, W. W., Terrel, J. C. (1989). Business Statistics For Management and Economics. Fifth edition. Houghton Mifflin Company. (p. 760). 26. Box, G. E. P., Jenkins, G. M. (1994). Time Series Analysis Forecasting and Control. Third edition. Prentice-Hall. 27. Vandaele, W. (1983). Applied Time Series And Box-Jenkins Models. Academic Press, Inc. 28. Steele, L. P, Krummel, P. B., Langenfelds,R. L. Common Wealth, Scientific and Industrial Research Organisation, Asendale, Victoria, Australia 3195 29. NIST/SEMATECH. http://www.itl.nist.gov/div898/handbook/pmc/secti. 30. NIST/SEMATECH. http://www.itl.nist.gov/div898/handbook/pmc/section4/pmc433htm. 31. Makridakis, S. G., Wheelwright, S. C., Hyndman, R. J. (1998). Forecasting Methods and Applications. Third edition (p. 342). John Wiley & Sons, Inc.
www.full-ebook.com
32. Savin, N.E., White, K.J. (1977). “The Durbin-Watson Test for Serial Correlation with Extreme Sample Sizes or Many Regressors,”Econometrica 45, p.1989-1996. 33. Chow, V. T., Maidment, D. R., Mays, L. W. (1997). Hidrología Aplicada. McGRAW-HILL Interamericana, S. A. 34. Ponce. http://ponce.sdsu.edu/do_sag_equation.html 35. Streeter, H. W., and E. B. Phelps. 1925. A study of the pollution and natural purification of the Ohio River. III. Factors concerned in the phenomena of oxidation and reaereation. U.S. Public Health Service, Bulletin No. 146. 36. Tchobanoglous, G., and E. D. Schroeder. 1984. Water quality: Characteristics, Modeling, and Modification. Addison-Wesley, Massachusetts. 37. www.ifh.uni-karlsruhe.de/lehre/envflu_i/s/cou 37. Ellis, M. M. Quality Criteria for Water (1976). U. S. Environmental Protection Agency, Washington, D. C. 20460. PB-263 943. 38. http://www.ecs.umass.edu/cee/reckhow/courses/577/577symp.html
www.full-ebook.com
Apéndice de respuestas a los ejercicios con número impar
Capítulo 1
1.9. (a) Sesgo negativo, (b) Hacia la derecha
www.full-ebook.com
1.11. (a) Sesgo negativo. El promedio > mediana > moda. (b) El valor de la kurtosis es -0.42 es negativo y la distribución es aplastada. 1.13. Media = 95.54, s = 15.69, Moda = 75, 78, 86 y 94, hay 4 modas, Mediana = 94, primer cuartil 80.5; tercer cuartil = 108, Rango = 51, Rango intercuartílico = 27.5 1.15. (a) Media = 17.11, varianza = 0.017, desviación estándar = 0.132 (b) Rango intercuartílico = 0.2 (c) Histograma
(d) 0.77% (e) Tiene sesgo hacia la derecha (f) Primer cuartil = 17, mediana o segundo cuartil = 17.1, tercer cuartil = 17.2 1.17. (a) Promedio = 139.0, s = 50.7, s2 = 2569.4, V = 36.46, Q1 = 109.0, Mediana = 135.0, Q3 = 167.7, IQ = 58.7, sesgo = 0.09,
www.full-ebook.com
(c) Gráfica de frecuencia relativa acumulada
www.full-ebook.com
El número de observaciones son: Q1 = 105, donde 6 observaciones caen abajo y 19 arriba. Q3 = 173.4, donde 20 observaciones caen abajo y 5 encima de éste. Primer decil = 70, donde 2 observaciones caen abajo y 23 arriba de éste. 1.19. (a) La estadística es:
www.full-ebook.com
(b) Diagrama de tallo y hoja:
www.full-ebook.com
(c) El diagrama de caja es:
www.full-ebook.com
Los valores extrínsecos son 1.6, 1.9, 4.7 1.21. (a) La gráfica es:
(b) La estadística descriptiva es:
www.full-ebook.com
(c) La gráfica de precipitaciones es:
1.23. (a)-(e) se dan como:
www.full-ebook.com
(f) El diagrama de tallo y hoja es:
Capítulo 2 2.1. Debido a que la moneda tiene dos caras, águilas o soles, la probabilidad es
www.full-ebook.com
igual a 0.5. 2.3. Los incisos (a), (c) son mutuamente excluyentes, porque no pueden ocurrir a la misma vez, pero el inciso (b) es evento no mutuo excluyente. 2.5. A
B = {a, b, c, d, e, f}
2.7. 3/110 2.9. 18 arreglos 2.11. (a) 0.51, (b) Se usa la regla multiplicativa para eventos dependientes 2.13. (a) 2/5, (b) 0.25, (c) 0.10 2.15. Los eventos son dependientes 2.17. 0.296 2.19. 256 2.21. (a) 140,608, (b) 132,600 2.23. 360 2.25. 210 2.27. (a) 0.5, (b) 0.5, (c) 0.625, (d) 0.375, (e) 0.9 2.29. 12/30 2.31. 12/30
www.full-ebook.com
2.33. 0.888 2.35. 9 arreglos 2.37. P(A ∩ B) = 0.15 2.39. {z|2 < z < 10}
Capítulo 3 3.1. (a) .1239, (b) 0.2786, (c) 0.6348, (d) 0.7176, (e) 0.000655 3.3. (a) 0.78802, (b) 0.02869, (c) 0.209473, (d) 0.78155, (e) 0.57604 La gráfica es:
3.5. (b) (1) La gráfica de P(X ≥ 3) es:
www.full-ebook.com
(b)(2) La gráfica de P(X ≤ 4) es:
(b)(3) La gráfica de P(X = 2) es:
www.full-ebook.com
3.7. Se usa la distribución binomial (a) P(X = 0) = 0.4070 (b) P(X ≥ 1) = 0.5330 (c) P(1 ≤ X ≤ 5) = 0.5329 (d) P(X > 5) = .0001 (e) P(5 < X > 10) = .0001 3.9. (a) 0.078 ≈ 0.08, (b) 0.034, (c) P((X ≤ 10) – P(X ≤ 4)) 3.11. Se usa la distribución binomial (a) P(X = 5) = 0.246 (b) P(X ≤ 2) = 0.055 (c) P(X ≥ 9) = 0.0110 (d) P(3 ≤ X < 5) = 0.3568 3.13. (a) Usando la Poisson p(x) = μx e-μ/x! = p(0) = [(0.72)0 e-.72]/0! = 0.48675,
www.full-ebook.com
etc. 3.15. Usando la binomial (a) P(X = 2) = P(X ≤ 2) – P(X ≤ 1) = 0.0988 (b) P(X ≥ 2) = 1 – P(X ≤ 1) = 0.1176 (c) P(X < 1) = P(X = 0) = 0.5386 (d) P(2 ≤ X ≤ 5) = P(X ≤ 5) – P(X ≤ 1) = 0.1176 (e) P(2 < X < 5) = P(X ≤ 4) – P(X ≤ 2) = 0.0187 (f) P(S) = 1 (g) Las gráficas se dan abajo.
3.17. Se usa la binomial, con p = 0.40, n = 6 y X = 4, para dar P(X = 4) = 0.1382. 3.19. (a) Aquí se usa la función hipergeométrica, con N = 30, n = 10, k = 8. (b) (1) P(X = 2) = .1324, (2) P(X ≤ 2) = .4519, (3) P(X ≥ 4) = 1 – P(X ≤ 3) = 1 .7699 = 0.2301 (4) P(4 ≤ X) = .9438, (5) P(X = 0) = .0215, (6) las gráficas son:
www.full-ebook.com
(7) Media = 2.67, varianza = 0.733 3.21. 0.268 3.23. (a) 0.968172, (b) 0.0681, (c) 0.000157, (d) 0.2376, (e) 0.1333, (f) 0.1331 3.25. Aquí ponemos n = 10 industrias. Entonces, la probabilidad de una industria contaminante es: p = 10% = 0.10 y μ = np = (10)(0.10) = 1.0, x = 2. Usando la Poisson p(x) = (μx e-μ)/x!, donde p = 0.1, μ = np = (10)(0.1) = 1.0, entonces, P(X = 2) = (1.0)2(e-1)/2! = 0.1839 3.27. (a) .0593, (b) .8314, (c) 0.9587, (d) .041317, (f) Media hipergeométrica = 13.33, varianza = 7.41; media binomial = 13.32 y varianza = 7.41 3.29. (a) Se usa la hipergeométrica con n = 10, k = 4, n = 3, X = 0, 1, 2, 3,… (b) La tabulación es:
www.full-ebook.com
(c) Las probabilidades son: (1) P(X = 1) = 0.500 (2) P(X ≤ 2) = .9667 (3) P(1 ≤ X ≤ 3) = 0.8333 (4) P(X ≥ 2) = 0.3333 3.31. (a) Poisson (b) Las gráficas son:
www.full-ebook.com
(c) P(2 ≤ X ≤ 4) = 0.6161 (d) P(X = 0) = 0.049787 (e) P(X ≥ 4 camiones) = 0.3528 (f) P(X = 8) = 0.008102 3.33. (a) Se usa la distribución Poisson como una aproximación a la binomial, porque n es muy grande (1) P(X = 10 sensores) = 0.001265
(2) P(X ≥ 8 sensores) = 0.01168 (3) P(X ≤ 6 sensores) = 0.95538 (4) P(5 ≤ X ≤ 11) = 0.2193 (5) P(X = 0) = 0.040762 (c) Las gráficas son:
3.35. Tabla mostrando las probabilidades de densidad.
www.full-ebook.com
Usando la tabulación de arriba, en la columna de X = 5, la probabilidad es de 0.0184474.
Capítulo 4. 4.1. (a) 0.9850, (b) 0.3413, (c) 0.9338, (d) .8664, (e) .0669, (f) .9876 Las gráficas son:
www.full-ebook.com
(a) P(-∞ ≤ z ≤ 2.17)
(c) P(-3.4 ≤ z ≤ 0)
www.full-ebook.com
(e) P(z ≥ 1.5) 4.3. Aquí queremos P(0 < X < 1) en el intervalo [0,1]. Entonces,
4.5. = 72, s = 20 4.7. 0.5764 4.9. (b)-(c)
www.full-ebook.com
(d): (1) .7506, (2) 0.658789, (3) 0.2144, (4) 0.8684, (5) 0.297558, (6) 0.3958 4.11. (b) Las gráficas son:
www.full-ebook.com
(c) La Poisson se aproxima a la normal a medida que, λ→∞
www.full-ebook.com
4.13. 0.14899 4.15. La gráfica es:
4.17. (a) .3679, (b) .1354, (c) .0498, (d) .5998, (e) .9502 Sugerencia: dar valores de X = 0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60. Usar el Minitab con la función exponencial, poniendo la media = 10 4.19. (d) Usando los datos originales: (1) 0.0700, (2) .0007, (3) 0.028 4.21. Usando P(T,n) = 1 = (1 – 1/T)n con T = 80 años y n = 10 y sustituyendo da: P(80,10) = 1 – (1 – 1/80)10 = 0.0125 4.23. (a) La gráfica es:
www.full-ebook.com
(b)(1) .8341, (2) .3031, (3) .5044, (4) .0857 (e) La gráfica es:
4.25. (a) 1.74 con α = 0.05, 2.58, α = 0.01. (b) 1.697 con α = 0.05, 2.457 con α =
www.full-ebook.com
0.01 4.27. -2.145
4.29. (a) 21.026, (b) 3.571 (c) Las gráficas son:
www.full-ebook.com
4.31. (a) 7.261, (b) 11.591, (c) 34.764, (d) 2.73
www.full-ebook.com
4.33. Probabilidad es 0.05 4.35. Usando la distribución lognormal da: (a) .135807, (b) .0027, (c) .0013, (d) .2257, (e) .0346 4.37. (b) .00008, (c) .000003, (d) .2759, (e) .6166 4.39. a) .3044, (b) .0786, (c) .4222, (d) .5415 4.41. (a) 0.2823, (b) 0.1512 4.43. Usando la tabla generada por el Minitab da los siguientes resultados: Para P(30 ≤ X ≤ 60) = 0.2547. Para P(X ≤ 18) = 0.6473 4.45. (a) 293.6. (b) 5. (c) 0.9418. (d) ≈ 4. (e) .0003 4.47. (a) 0.3297. (b) .3691 4.49. (a) 0.9975, (b) .0025, (c) .9999, (d) .99988, (e) 0.0025, (f) 0.0497, (g) 3.000 4.51. (a) .00003, (b) 0.386622, (c) 0.0705, (d) 0.1206 4.53. (a) 0.400239, (b) 0.1836, (c) 0.6169, (d) 0.416123, (e) 0.170288 4.55. (a) 0.1247, (b) 0.2985, (c) 0.0114 4.57. (b) 0.4959, (c) 0.001097, (d) .9489, (e) .0011 4.63. (b) La gráfica sobrepuesta se da como:
www.full-ebook.com
(c)-(f) Las probabilidades pedidas se calculan por interpolación usando la gráfica del inciso (b) 4.65. (a) P(X = 800) = 0.0099736, (b) P(X ≥ 900) = 1 - 0.99334 = 0.00666, (c) P(X ≤ 800) = 0.50000
Capítulo 5 5.1. La distribución muestral de la media es aproximadamente normal con μ = 2000 horas y σ = 400/√20 = 89.49. El valor de z es z1800 = (1800 – 2000)/89.49 = -2.23. Por lo tanto, P( < 1800) = P(Z < -2.23) = 0.0129 5.3. Debido a que estamos usando una distribución de medias muestrales, usamos los parámetros μ = 2000 horas y σ . Usamos la variable z, Z = ( - μ )/ σ = (140 – 150)/20/√36 = -3.0 y la probabilidad es igual a .0013 5.5. (a) 7.83, 21.77, 4.67, (b) μ = 7.83, (c) σ = 3.05
Capítulo 6
www.full-ebook.com
6.1. Con α = 0.05: (29.8281 < μ < 30.1719), con α = 0.01: (29.7741 < μ < 30.2259) 6.3. Para 99% (1872.1, 2211.3) 6.5. (a) 23.1276, (b) 25.3391, (c) 22.7802, (d) 25.6865 6.7. (a) Para 95%: (230.0, 280.8). Para 99%: (222.0, 288.8), (b) (199.70, 284.26) 6.9. El extremo inferior del intervalo es: - zα/2√n = 20 – 1.96(25)√100 = 15.1 El extremo superior del intervalo es: - zα/2√n = 20 + 1.96(25)√100 = 24.9 El intervalo es 15.1 < μ < 24.9 con 95% nivel de confianza 6.11. (a) Para α = 0.05, 1.75. Para α = 0.01, 2.583. (b) Para α = 0.05, 1.70. Para α = 0.01, 1.701 (c) Para α = 0.05, 2.33. Para α = 0.01, 2.33 (d) Las gráficas son:
www.full-ebook.com
6.13. (a) 2.145, (b) 3.012, (c) 1.833, (d) 2.262
www.full-ebook.com
6.15. 2.97061 < (μ1 – μ2) < 4.64939 6.17. Se usa la función: n = z2α/2(σ21 + σ22) / E2 con α/2 = 0.05 que equivale a un nivel crítico de 1.96. También σ21 = 1.5 y σ22 = 1.2 y E = 1. Entonces n = z2α/2(σ21 + σ22) / E2 = 1.962 (1.5+1.2)/12 = 11 6.19. 0.150223, 0.249777, (b) 0.134582, 0.265418 (c) La gráfica es:
6.21. Intervalo de confianza de 90%: 0.0331259 < (ρ1 – ρ2) < 0.133541) 6.23. (a) (454.7 < σ2 < 109.1), (b) (38.21 < σ2 < 92.06) 6.25. (a) (453.7 > σ2 > 109.1), (b) (92.06 < σ2 < 611.3)
www.full-ebook.com
6.27. (a) El punto estimador de la varianza es 65.65, (b) (12.95 < σ < 6.178) 6.29. (a) 0.00300, (b) 0.00188 < σ2 <0.00555 6.31. 1.826 < σ21 / σ22 < s21/s22 < 2.03 6.33. (a), (b) Las gráficas son:
www.full-ebook.com
6.35. Para (a), (c), las gráficas se dan abajo.
www.full-ebook.com
6.37. 36 6.39. 43 6.41. -0.467 < (μ1 – μ2) < 1.267 6.43. 0.150223 < (ρ1 – ρ2) < 0.249777
Capítulo 7 7.1. (a) HA: μ ≠ 14.00 o bien, H1: μ > 14.00 o H2: μ < 14.00. (b) HA: μ < 14.00, (c) HA: μ > 14.00 7.3. (a) z = 3.0. (b) p = .0026 con α = 0.05
www.full-ebook.com
(c) La gráfica se da abajo.
7.5. Para α = 0.05 (a) z = -3.70, (b) p = .0001, mucho, muy significante, (c) 135.57 < μ < 142.11 7.7. (a) z = -2.50, (b) p = 0.012 7.9. (a) z = -5.66, p = .0001 (b) Las gráficas son:
www.full-ebook.com
(c) Se leen de las gráficas 7.11. (a) z = -1.79, p = .07, (b) 456.5, 564.6
www.full-ebook.com
7.13. (a) z = -2.79, p = .005, (b) 9.346, 10.711 (c) La gráfica es:
7.15. (a) z = -1.42, p = 0.078. (b) 230.0 < μ < 280.8 7.17. (a) z = -3.89, p <<< .0001 el cual es mucho, muy significante 7.19. (a) Ho:μ ≤ 1124 y HA:μ > 1124, (b) se rechaza Ho:, (c) p = .0001 7.21. z = -2.5, p = 0.012 7.23. t = 4.54, p = .003 7.25. (a) p = .0043 (b). Las gráficas se muestran abajo.
www.full-ebook.com
7.27. (a) Los datos siguen a una distribución normal con A-D = 0.127, (b) t = -4.74, con p = .002
www.full-ebook.com
7.29. (b) p = .00001 una prueba mucho muy significativa. La gráfica es:
7.31. (a) t = 2.16, p = .047, (b) p = 0.024, (c) p = .976 7.33. (a) = 33.82, mediana = 33.91, s = 0.54, sesgo = -0.335. (b) A-D = .204. (c) tcalc. = -5.04, p = .0002, (d) tcalc. = -5.03, p = .0002, (e) tcalc. = 4.59, p = .0014 7.35. (b) Hay independencia en las dos distribuciones, y no se puede usar la t pareada, sino t = 1.96, p = 0.065 7.37. (a) 395, 3025, (b) t = 2.83, valor p = 0.015 7.39. t = -38.96, p = 0.000 7.41. Se usa la función de t pareada 7.43. (a) χ2 = 28.869, p << .005, (b) χ2calc. = 11.0, (c) χ2calc. = 60.0, .025 < p < .01
www.full-ebook.com
7.45. (a) 9.6, (b) χ2α/2;n-1 = χ2.024;24 = 12.4 y χ21-α/2 = χ20.975;24 = 39.4, (c) Debido a que χ2 = 9.6 < 12.4, se rechaza Ho: σ2 = 75 y se acepta H2: σ2 > 75. 7.49. (a) χ2 = 42.86, (b) .019 7.51. (a) .01 < p < .005, (b) Es una prueba unilateral izquierda usando χ21 - α;n-1 = χ21 – 0.05;21 = χ2.95;20 = 10.851, (c) El valor de p es .025 < p < .01. 7.53. (a) p = 0.0069, muy significante, (b) p = 0.086 La gráfica para (a) es:
7.55. F= 2.00, p = 0.070. 7.57. (a) Fcalc. = 5.0, Fcrítica = 2.80 y se rechaza Ho: Valor de p = .016
www.full-ebook.com
7.59. (a) Se usa la z y da z = -3.27 con p = 0.001 (b) La gráfica es:
7.61. (a) Se usa la distribución z. La hipótesis nula y alternativa son HA:μ < 42% Ho: μ ≥ 42%, p = .0001. Las gráficas para (b)-(c) son:
www.full-ebook.com
7.63. (a) Z = 2.29, p = 0.022, (b) Z = 2.29, p = 0.011
www.full-ebook.com
7.65. (a) Ho:(p1 – p2) = 0, contra HA: (p1 – p2) ≠ 0, (b) ±1.96, (c) p = .05, (d) Las gráficas son:
www.full-ebook.com
7.67. (a) Se usa la t pareada, (b) t =5.01, p = 0.001 (c) (d). Las gráficas son:
www.full-ebook.com
(e) La gráfica del histograma es:
www.full-ebook.com
(f) (f) 1.995 < μ < 5.279
Capítulo 8 8.1. (b) (c) La laguna 1 y 2 son diferentes, la 2 y la 3 son iguales, la 1 y la 4 son diferentes. 8.3. (a) F = 4.09, p << .0001 8.5. (a) F = 9.06, Región crítica 3.15, p << .001, (b) Cuencas 2 y 3 son desiguales 8.7. (a) La tabla de análisis de varianza se da abajo.
www.full-ebook.com
(b) (b) Las ciudades 2 y 3 son diferentes (c) El lector lo deberá hacer. 8.9. (b) Two-way ANOVA: Concentraciones versus Alturas de sensor, Distancia fuente emisora
(c) Las gráficas de efectos principales y de interacción son:
www.full-ebook.com
www.full-ebook.com
8.13. (a) La tabla de ANOVA con los faltantes repuestos se da como:
8.15. (a) 16 combinaciones, 2 réplicas y 32 observaciones. (c) El efecto principal
www.full-ebook.com
de A es muy significativo, pero los efectos de B y C no son significativos. La interacción de ABC es significativa, pero no las de los factores AB, AC o BC 8.17. (a) Con los datos dados anteriores, se estructura la tabla de ANOVA de cuatro sentidos para el problema de la laguna de estabilización. Completar los faltantes.
8.19. Las soluciones para (a)-(b) se sacan de las gráficas de abajo.
www.full-ebook.com
Capítulo 9 9.1. (a) La variable dependiente es el % DQO y la variable independiente es % reducción de ST. (b) El modelo de regresión es uno lineal simple: DQO (%) = 3.57 + 0.969 Reducción sólidos (%). s = 3.04408 R2 = 78.6%, PRESS = 278.741.
www.full-ebook.com
9.3. (a) La gráfica es:
(b) 20.31, (c) R2 = 99.4, s = 1.12, PRESS = 23.98 9.5. (a) La variable de respuesta es el DBO y el DQO es la independiente. (b) Log DBO = - 0.187 + 0.922 (Log DQO), s = 0.0202701, R2 = 95.4%, PRESS = 0.0116818. (c) 200, (d) 450. 9.7. Un modelo lineal simple es el mejor candidato. 9.9. (a) Las gráficas son:
www.full-ebook.com
(b) La ecuación es de primer orden
www.full-ebook.com
(c) Ln solubilidad = 4.31 - 0.0333 (Temperatura) 9.11. (a) (b) Las gráficas son:
www.full-ebook.com
(c) La transformación logarítmica (base e) se ajusta mejor. (d) Ln Kc = 56.9 - 10.9 Ln (temp.) (e) 0.00006185 (f) La pendiente es la constante de la reacción. 9.13. (a) La distribución más factible es la lognormal. (b) Log Y = 2.30 + 0.580 (Log X), s = 0.00555018, R2 = 99.9%, PRESS = 0.000603125. (c) 199.53 cm. 9.15. (a) DBO = 203 + 0.134 DQO + 0.0933 Sólidos totales (b) s = 4.49529 R2 = 89.7% R2(adj) = 86.7% PRESS = 582.024 R2(pred) = 57.44%
www.full-ebook.com
9.17. (a) Tasa de desagüe (mm/día) = - 0.057 + 1.16 (Temperatura, oC) + 0.176 Precipitación (mm/dia) (b) s = 0.645741 R2 = 99.4% R2(adj) = 99.3% PRESS = 7.22572 R2(pred) = 99.12%
www.full-ebook.com
(b) s = 0.0428419, R2 = 99.7% PRESS = 0.0303466. (c) 1.14 cm/día (c) Tasa de desagüe (mm/día) = - 0.057 + 1.16 (10) + 0.176 (9.5) = 13.22 9.19. (a) Y = 23.9 + 0.115 (STS) + 0.133 (STD). s = 6.86262, R2 = 67.6%, PRESS = 1075.91. (b) La inclusión de la interacción no mejora el modelo. (c) Log y = 0.519 + 0.346 (Log STS) + 0.236 (Log STD), s = 0.0462633, R2 = 74.8%, PRESS = 0.0487215. (e) El modelo de regresión con transformaciones logarítmicas es el mejor modelo candidato. 9.21. (a) Solubilidad de O2 es la variable de respuesta y la temperatura es la independiente. La gráfica es:
www.full-ebook.com
(b) Uno cuadrático. Solubilidad del oxígeno = 2.11 - 0.0461 (Temperatura) + 0.000459 (Temperatura)2. (c) 1.399 mM/L 9.23. (b) % de eficiencia = - 17.3 + 73.1 (Tamaño relativo de partícula) - 11.3 (Tamaño partícula)2 (c) 44.5%. El porcentaje de error es: 0 0.66 % 9.25. (a) Y = - 748 + 205 X1 + 45.6 X2 - 8.37 (X1)2 - 5.91 (X2)2 s = 20.6353 R2 = 80.9% R2(adj) = 73.3%. PRESS = 33509.7 R2(pred) = 0.00% (b) Y = 593 - 5.67 (X1 - 12.597) - 10.0 (X2 - 4.707) - 8.37 (X1- 12.597)2 - 5.91 (X2 - 4.707)2 s = 20.6353, R2 = 80.9%, R2(adj) = 73.3%, PRESS = 33509.7, R2(pred) = 0.00% 9.27. (a) Para hacerse por el lector. (b) Ln Valores esperados = - 0.294 + 1.07 (Ln valores observados) s = 0.232056 R2 = 99.3% R2(adj) = 99.3% PRESS = 1.12369 R2(pred) = 98.60%
www.full-ebook.com
(c) Para resolverse por el lector (d)La gráfica sobrepuesta es:
www.full-ebook.com
9.29. (a) La gráfica esparcida es:
(b) (b) Gráfica con intervalos de confianza es:
www.full-ebook.com
(c) El modelo de regresión con datos originales es: Y = - 2.76 + 7.60X - 2.17 X2 + 0.179 X3 El modelo de regresión con datos transformados es: Y = 4.44 + 1.17X - 0.0517 X2 - 0.179 X3 9.31. En conclusión: tal parece que el modelo con la transformación en Y es el mejor modelo candidato 9.33. (a) El DBO es la variable dependiente (b) El modelo de regresión es: DBO = 5.07 - 0.0069 (NO3-)- 0.13(NO2-) + 2.13 (NH3) s = 0.139950 R2 = 91.4% R2(adj) = 89.9% PRESS = 0.456141 R2(pred) = 88.19% (c) La validación subjetivista es:
www.full-ebook.com
9.35. (c) Ln % coliformes restantes = 4.63 - 0.0873 (Tiempo, minutos) (d) Primer orden (e) - 0.0873
Capítulo 10 10.1. El modelo 3 es más preciso 10.3. (a) (39.6667, 3), (36.6667, 4), (35.3333, 5), (33.3333, 6), (36.6667, 7), (37.0000, 8), (39.6667, 9), (41.6667, 10), (43.0000, 11), (40.6667, 12), (35.000, 13). (b) (37.4, 9), (35.8, 11), (35.8, 13), (35.8, 15), (37.6, 17), (39.6, 19), (41.6, 21), (40.0, 23), (38.4, 25). 10.5. (e) De acuerdo a los resultados de MAPE, MAD y MSD, el mejor modelo es el cuadrático. 10.7. 41.0 10.9. (a), (b) Las gráficas se dan abajo. La gráfica de tendencia lineal es:
www.full-ebook.com
www.full-ebook.com
(c) MAPE = 45.13, MAD = .0357, MSD = .002 (d) Tasa de infiltración = 1.52 - 5.80 (Tiempo horas) (e) No existen problemas de autocorrelación, porque el valor de la estadística Durbin-Watson de 2.08 está en el umbral de aceptación de 2.0. (g) No existen problemas de autocorrelación porque el valor de la estadística DW está muy cercano al criterio de 2.0 10.11. (a) Hay autocorrelación positiva. (b) Hay autocorrelación negativa. (c) No hay autocorrelación. (d) Hay autocorrelación positiva. 10.13. Se rechaza Ho: y se acepta HA: 10.15. Se rechaza Ho: y se acepta HA: 10.17. (b) No hay autocorrelación, porque el valor de la estadística de DurbinWatson de 2.06, está muy cercano al criterio de 2. 10.19. (a) La gráfica es:
www.full-ebook.com
(b) La reacción es de segundo orden, porque la gráfica de 1/[NO2] da una línea recta.
(c) (d) 1/conc. [NO2] = 99.3 + 0.546 Tiempo s = 0.819986 R2 = 100.0% R2(adj) = 100.0% PRESS = 6.26586 R2(pred) = 99.97% Durbin-Watson statistic = 1.81176
www.full-ebook.com
(f) 1/conc. [NO2] = 99.3 + 0.546 (60) = .007552 10.21. (a) La gráfica se da abajo y la precipitación máxima ocurrió en septiembre (106.0 mm) y la mínima ocurrió en marzo (14.25 mm)
www.full-ebook.com
(b) La gráfica se da abajo. En 1967 y 2004 ocurrieron las máximas precipitaciones de 948 y 900 mm, respectivamente. La precipitación mínima de 151 mm y ocurrió en 1956.
(c) La gráfica se da abajo. La tendencia es de pendiente positiva.
www.full-ebook.com
10.23. (a) (b) La gráfica del diagrama esparcido y del diagrama con transformación logarítmica se dan abajo.
www.full-ebook.com
www.full-ebook.com
La figura del lado izquierdo muestra el diagrama esparcido del porcentaje de descomposición del amoniaco vs. el tiempo. La Figura del lado derecho muestra que, la descomposición del amoniaco sigue a una reacción de primer orden, cuando se hacen transformaciones logarítmicas en el eje vertical. (b), (c). El modelo de regresión se calcula haciendo transformaciones (Loge) en el eje Y. Los resultados impresos de la ecuación de regresión y de los diagnósticos objetivistas (R2, s, PRESS, etc.), así como los gráficos de residuos se dan abajo. Ln y = 4.29 - 0.144 (tiempo relativo, x) s = 0.0175025 R2 = 100.0% R2(adj) = 100.0% PRESS = 0.00515816 R2(pred) = 99.97%
www.full-ebook.com
Durbin-Watson statistic = 2.20813
(d) Cuando el tiempo relativo es de 3.0, el % de amoniaco es: Ln y = 4.29 - 0.144 (3.0) = 47.3705 (e) La gráfica de análisis de tendencia para el NH3 se da en la figura de abajo.
www.full-ebook.com
Gráfica mostrando el análisis de tendencia para el amoniaco vs. el tiempo codificado. Aquí se nota que la gráfica incluye los cálculos de MAPE, MAD y MSD, mismos que se discutirán mas adelante. (f) El valor de la estadística de D-W igual a 2.2 está un poco más arriba del criterio de 2 e indica que no hay problemas serios de autocorrelación. 10.25. (a) La gráfica de la comba del oxígeno se da abajo.
www.full-ebook.com
(b) Se asume un modelo cuadrático: Dt = 0.488 + 1.96 (tiempo) - 0.164 (tiempo)2 (c) Dt = 6.2 mg/L
www.full-ebook.com
Apéndice de Tablas
A.1. Probabilidades acumuladas binomiales
A.2. Probabilidades acumuladas Poisson
A.3. Áreas de la curva normal estándar
A.4. Valores críticos de las distribuciones de t de estudiante
A.5. Valores críticos de las distribuciones de JI cuadrada
A.6. Valores críticos de las distribuciones F
A.7. Función de Gamma incompleta
A.8. Valores críticos para la estadística Durbin-Watson
Apéndice A1. Probabilidades acumuladas binomiales:
www.full-ebook.com
www.full-ebook.com
www.full-ebook.com
Tabla de la distribución binomial preparada en este texto, con la ayuda de un programa de cómputo.
www.full-ebook.com
Ejemplos mostrando el uso de la distribución binomial Ejemplo 1. Encontrar P(X ≤ 3) dando n = 7, x = 3 y p = 0.2 usando la tabla binomial, la fórmula binomial y el programa Minitab. Luego, hacer una gráfica. Para resolver esto usando la tabla binomial (b. n = 7), se busca n = 7, x = 3 y p = 0.20 y da 0.96666. Ahora, Usando la fórmula P(x) = n! / [(n – x)!x!] px qn-x, para x = 0, 1, 2, …, n y sustituyendo da:
Usando el programa Minitab se dan valores de x = 0, 1, 2, …, 9, con p = 0.2, n = 7 y x = 3 y siguiendo las instrucciones apropiadas da 0.96666. La gráfica se muestra abajo.
P(X ≤ 3) = 0.9666
www.full-ebook.com
Ejemplo 2. Usando los mismos datos del ejemplo anterior, calcular P(X = 3). Para esto, usar la tabla de probabilidades binomiales y el programa Minitab. Luego hacer una gráfica. Para resolver este problema proceder usando la tabla binomial: P(X = 3) = P(X ≤ 3) – P(X ≤ 2) = B(3;7,0.2) – B(2;7,0.2) = 0.96666 0.85197 = 0.11469. Ahora, usando el programa Minitab se le dan valores de x = 0, 1, 2, 3, 4, 5, 6, 7 y siguiendo las instrucciones apropiadas da P(X = 0) = 0.114688. La gráfica se da abajo.
P(X = 3) = 0.1147 Ejemplo 3. Encontrar P(X ≥ 3) dando n = 7, x = 3 y p = 0.20 usando la tabla binomial, la fórmula binomial y el programa Minitab. Luego, hacer una gráfica. Para resolver este problema usando la tabla binomial, entonces, P(X ≥ 3) = 1 P(X ≤ 2) = 1 – B(2;7,0.2) = 1 - 0.85197 = 0.1480. Ahora, usando el programa Minitab se le dan valores de x = 0, 1, 2, 3, 4, 5, 6, 7 y siguiendo las instrucciones apropiadas da P(X ≥ 3) = 1 – 0.85197 = 0.1480. La gráfica se da abajo.
www.full-ebook.com
P(X ≥ 3) = 0.1480 Apéndice A2. Probabilidades acumuladas de Poisson
www.full-ebook.com
www.full-ebook.com
Tabla de la distribución de Poisson preparada en este texto, con la ayuda de un programa de cómputo. Ejemplos para ilustrar el uso de la tabla de Poisson Ejemplo 1. Encontrar P(X ≤ 4), donde X tiene una distribución Poisson con λ = 3 usando la tabla de Poisson, la fórmula de Poisson y el programa Minitab. Luego hacer una gráfica. Para encontrar el valor de P(X ≤ 4), irse a la columna donde está λ = 3 y luego moverse a la columna donde está x igual a 4 y da .8153. Para encontrar P(X ≤ 4), usando el modelo Poisson p(x;λ) = (e-λ λx) / x!, entonces,
www.full-ebook.com
y sustituyendo valores da 0.8152. Para encontrar la probabilidad usando el Minitab se dan valores de x = 0, 1, 2, 3, 4 y siguiendo las instrucciones da 0.815263. La gráfica de P(X ≤ 4) es: P(X ≤ 4) = 0.8153 Ejemplo 2. Encontrar P(X ≥ 4), donde X tiene una distribución Poisson, con λ = 3, usando la tabla de Poisson, la fórmula de Poisson y el programa Minitab. Para encontrar el valor de P(X ≥ 4) usando la tabla de Poisson, buscar en la columna donde está λ = 3 y luego moverse a la columna donde está x igual a 4 y da .8153. Usando el modelo Poisson
y sustituyendo valores da .8147 Usando el Minitab dando valores de x = 0, 1, …, 5 da 0.815263 Ejemplo 3. Encontrar P(X = 4), donde X tiene una distribución Poisson, con λ = 3, usando la tabla de Poisson, la fórmula de Poisson y el programa Minitab. Luego, dibujar la gráfica.
www.full-ebook.com
Para encontrar el valor de P(X = 4) usando la tabla de Poisson, buscar en la columna donde está λ = 3 y luego moverse a la columna donde está x igual a 4 y da .8153, luego restarle .6472 para dar .168. Para encontrar el valor de P(X = 4) usando el modelo Poisson, entonces, p(4;3) = (e-3 ∙ 34)/4! = 0.1681. Para encontrar el valor de P(X = 4) usando el Minitab dar valores de x = 0, 1, 2, …, 5 e introducir el valor de la media μ = 3 y seguir con las instrucciones y da 0.168031.
www.full-ebook.com
Apéndice A.3. Áreas de la curva normal estándar Φ(z) = P(Z ≤ z)
www.full-ebook.com
www.full-ebook.com
Tabla de la distribución normal preparada en este texto, con la ayuda de un programa de cómputo. Ejemplos para ilustrar el uso de la distribución normal Ejemplo 1. Supóngase que se tiene un valor de z = -1.64 y se quiere encontrar la
www.full-ebook.com
probabilidad o el área correspondiente. Para esto, se busca z = -1.64 en la tabla y da .0505. La figura de abajo muestra el área, proporción o probabilidad correspondiente.
Ejemplo 2. Supóngase que se tiene un valor de z = 2.64 y se quiere encontrar la probabilidad, proporción o el área al lado derecho de ese valor. Para esto, se busca z = 2.64 en la tabla y da 1 - .9958 = .0042. La figura de abajo muestra el área o probabilidad correspondiente.
www.full-ebook.com
Ejemplo 3. Supóngase que se quiera encontrar la probabilidad correspondiente al lado derecho de z = -1.54. Para esto, se busca z = -1.54 en la tabla y da .06178, pero como queremos el área a la derecha de z = -1.54, le restamos 1 y da 1 - .06178 = .93822. La figura de abajo muestra el área o probabilidad correspondiente.
www.full-ebook.com
Ejemplo 4. Supóngase que se tiene un valor de z = 2.00 y se quiere encontrar la probabilidad o el área al lado izquierdo de ese valor. Para esto, se busca z = 2.00 en la tabla y da .9772. La figura de abajo muestra el área o probabilidad correspondiente al lado izquierdo de z = 2.00.
Ejemplo 5. Supóngase que se saca una muestra aleatoria de 200 mediciones y se calcula una media de 150.0, con una desviación estándar de 15.0 y se quiere encontrar el número de mediciones que sean igual a 130.0. Dibujar la gráfica. Para solucionar esto, se dice que las mediciones que son igual a 130.0 tienen mediciones entre 129.5 y 130.5 y estandarizando da: z129.5 = (129.5 – 150.0)/15.0 = -1.366 y z130.5 = (130.5 – 150.0)/15.0 = -1.300. Entonces, la proporción requerida de mediciones = (área entre z = -1.366 y z = -1.300) = (área entre z = -1.366 y z = 0) – (área entre z = - 1.300 y z = 0) = 0.0968 - 0.0853 = 0.0115. Finalmente, el número de mediciones igual a 130.0 es de (200)(0.0115) = 2.3 ~ 2. Usando el Minitab se da la gráfica de abajo.
www.full-ebook.com
www.full-ebook.com
Apéndice A.4. Percentiles de la distribución de t de Estudiante P(t ≤ t0).
P(t5 ≤ 2.571)
ν\λ
t0.90 t0.95 t0.975 t0.99 t0.995 t0.9975 t0.999 t0.9995 t0.99975
1 3.078 6.314 12.706 31.821 63.657 127.321 318.309 636.619 1273.239 2 1.886 2.920 4.303 6.965 9.925 14.089 22.327 31.598
44.705
3 1.638 2.353 3.182 4.541 5.841
7.453
10.214 12.924
16.326
4 1.533 2.132 2.776 3.747 4.604
5.598
7.173
8.610
10.306
5 1.476 2.015 2.571 3.365 4.032
4.773
5.893
6.869
7.976
6 1.440 1.943 2.447 3.143 3.707
4.317
5.208
5.959
6.788
7 1.415 1.895 2.365 2.998 3.499
4.029
4.785
5.408
6.082
8 1.397 1.860 2.306 2.896 3.355
3.833
4.501
5.041
5.618
9 1.383 1.833 2.262 2.821 3.250
3.690
4.297
4.781
5.291
10 1.372 1.812 2.228 2.764 3.169
3.581
4.144
4.587
5.049
11 1.363 1.796 2.201 2.718 3.106
3.497
4.025
4.437
4.863
12 1.356 1.782 2.179 2.681 3.055
3.428
3.930
4.318
4.716
www.full-ebook.com
13 1.350 1.771 2.160 2.650 3.012
3.372
3.852
4.221
4.597
14 1.345 1.761 2.145 2.624 2.977
3.326
3.787
4.140
4.499
15 1.341 1.753 2.131 2.602 2.947
3.286
3.733
4.073
4.417
16 1.337 1.746 2.120 2.583 2.921
3.252
3.686
4.015
4.346
17 1.333 1.740 2.110 2.567 2.898
3.223
3.646
3.965
4.286
18 1.330 1.734 2.101 2.552 2.878
3.197
3.610
3.922
4.233
19 1.328 1.729 2.093 2.539 2.861
3.174
3.579
3.883
4.187
20 1.325 1.725 2.086 2.528 2.845
3.153
3.552
3.850
4.146
21 1.323 1.721 2.080 2.518 2.831
3.135
3.527
3.819
4.110
22 1.321 1.717 2.074 2.508 2.819
3.119
3.505
3.792
4.077
23 1.319 1.714 2.069 2.500 2.807
3.104
3.485
3.768
4.048
24 1.318 1.711 2.064 2.492 2.797
3.090
3.467
3.745
4.021
25 1.316 1.708 2.060 2.485 2.787
3.078
3.450
3.725
3.997
26 1.315 1.706 2.056 2.479 2.779
3.067
3.435
3.707
3.974
27 1.314 1.703 2.052 2.473 2.771
3.057
3.421
3.690
3.954
28 1.313 1.701 2.048 2.467 2.763
3.047
3.408
3.674
3.935
29 1.311 1.699 2.045 2.462 2.756
3.038
3.396
3.659
3.918
30 1.310 1.697 2.042 2.457 2.750
3.030
3.385
3.646
3.902
35 1.306 1.690 2.030
2.438 2.724
2.996
3.340
3.591
3.836
40 1.303 1.684 2.021 2.423 2.704
2.971
3.307
3.551
3.788
45 1.301 1.679 2.014 2.412 2.690
2.952
3.281
3.520
3.752
50 1.299 1.676 2.009 2.403 2.678
2.937
3.261
3.496
3.723
55 1.297 1.673 2.004 2.396 2.668
2.925
3.245
3.476
3.700
60 1.296 1.671 2.000 2.390 2.660
2.915
3.232
3.460
3.681
70 1.294 1.667 1.994 2.381 2.648
2.899
3.211
3.435
3.651
80 1.292 1.664 1.990 2.374 2.639
2.887
3.195
3.416
3.629
90 1.291 1.662 1.987 2.368 2.632
2.878
3.183 3.402
3.612
100 1.290 1.660 1.984 2.364 2.626
2.871
3.174
3.390
3.598
120 1.289 1.657 1.980 2.351 2.618
2.860
3.153
3.373
3.579
200 1.286 1.652 1.972 2.345 2.601
2.838
3.131
3.340
3.539
500 1.283 1.648 1.965 2.334 2.586
2.820
3.107
3.310
3.504
∞
2.807
3.090
3.291
3.481
1.282 1.645 1.960 2.326 2.576
Tabla de la distribución de t de Estudiante preparada en este texto, con la ayuda de un programa de cómputo.
www.full-ebook.com
Ejemplos ilustrando el uso de la distribución de t de Estudiante Ejemplo 1. Este es un ejemplo que ilustra como se puede interpolar algún valor que no aparece en la tabla. Siendo así, si se desea encontrar el punto porcentual de ν = 32 con λ = 0.95 proceder de la siguiente manera: 35 – 1690 32 – X 30 – 1.697 (32 – 30) / (35 – 30) = X / (1.697 – 1.690) y resolviendo por X da X = .0028 Ahora, agregar .0028 a 1.609 para dar 1.6923. Por lo tanto, el valor de t0.95;32 = 1.693 Ejemplo 2. Se saca una muestra aleatoria de 8 mediciones y se requieren hacer gráficas mostrando las regiones críticas con un nivel de significancia de α = 0.05, para uno y dos extremos. Siendo así, para resolver este problema, para dos extremos, con α = 0.05 buscar en la tabla de la distribución de t en la columna de t0.975 con 7 grados de libertad, para dar ±2.365. Igualmente, para un extremo de la distribución, buscar en la columna de t0.95 para dar 1.895. Estas situaciones se muestran en las figuras de abajo.
www.full-ebook.com
Ejemplo 3. Hacer el mismo ejemplo anterior de las 8 mediciones, pero ahora usando un nivel de significancia de α = 0.01, para una y dos colas de la distribución. Siendo así, para encontrar el valor crítico para un extremo de la distribución buscar en la columna de 0.99 para dar 2.998. Igualmente, para dos extremos, se busca en la columna de 0.995 con 7 grados de libertad y da ±3.499. Las gráficas se dan abajo.
www.full-ebook.com
Ejemplo 4. Se dan los siguientes datos: n = 16, = 5.5, s = 0.5. Probar Ho:μ ≥ 5.0. Usar α = 0.05. Calcular el valor de t. Luego, hacer una gráfica que muestre
www.full-ebook.com
la región crítica y otra grafica más que muestre la distribución de p y el valor asociado a éste. Para solucionar este problema establecemos la región crítica buscando el valor porcentual en la columna de t.95 con ν = 15 y da 1.753.Usando la función de t = ( - Xo) / s/√n y sustituyendo da t = (5.5 – 5.0)/0.5/√16 = 4.0. Debido a que 4.0 > 1.753 se rechaza Ho: El valor de la probabilidad p se calcula buscando el valor absoluto de 4.0 con 15 grados de libertad en la tabla de la t de estudiante y vemos que está entre los valores porcentuales de t2 = 4.073 y t1 = 3.733 con sus respectivos valores de λ2 = 0.0005 y λ1 = 0.001. De esta manera, el valor aproximado de p está entre 0.0005 < p < 0.001. Para más precisión se puede usar la fórmula empírica de interpolación dada en este texto y se calcula p = 0.0006. Las gráficas que señalan la región crítica y la distribución de p son:
www.full-ebook.com
www.full-ebook.com
Apéndice A.5. Valores críticos de la distribución de JI cuadrada. Critical Points of the Chi Square Distribution
D. F.
Cumulative probability 0.005
0.010 0.025 0.05 0.10 0.25 0.50
1
0.39E-4
2
0.0100 0.0201 0.0506 0.103 0.211
3
0.0717 0.115 0.216 0.352 0.584 1.21 2.37 4.11
9.35 11.3 12.8
4
0.207
0.297 0.484 0.711 1.06 1.92 3.36
11.1
14.9
5
0.412
0.554 0.831 1.15 1.61 2.67 4.35
11.1 12.8
16.7
6
0.676
0.872 1.24
1.64 2.20 3.45 5.35
14.4
18.5
7
0.989
1.24
1.69
2.17 2.83 4.25 6.35
16.0
20.3
8
1.34
1.65
2.18
2.73 3.49 5.07 7.34
17.5
22.0
9
1.73
2.09
2.70
3.33 4.17 5.9 8.34 11.4
19.0
23.6
10 2.16
2.56
3.25
3.94 4.87 6.74 9.34
20.5
25.2
11 2.60
3.05
3.82
4.57 5.58 7.58 10.3
21.9
26.8
12 3.07
3.57
4.40
5.23 6.30 8.44 11.3
23.3
28.3
13 3.57
4.11
5.01
5.89 7.04 9.3 12.3
24.7
29.8
14 4.07
4.66
5.63
6.57 7.79 10.2 13.3
26.1
31.3
15 4.60
5.23
6.26
7.26 8.55 11.0 14.3
27.5
32.8
16 5.14
5.81
6.91
7.96 9.31 11.9 15.3
28.8
34.3
17 5.70
6.41
7.56
8.67 10.1 12.8 16.3
30.2
35.7
18 6.26
7.01
8.23
9.39 10.9 13.7 17.3
31.5
37.2
19 6.84
7.63
8.91
10.1 11.7 14.6 18.3
32.9
38.6
20 7.43
8.26
9.59
10.9 12.4 15.5 19.3
34.2
40.0
21 8.03
8.90
10.3
11.6 13.2 16.3 20.3
35.5
41.4
22 8.64
9.54
11.0
12.3 14.0 17.2 21.3
36.8
42.8
23 9.26
10.2
11.7
13.1 14.8 18.1 22.3
38.1
44.2
24 9.89
10.9
12.4
13.8 15.7 19.0 23.3
39.4
45.6
25 10.5
11.5
13.1
14.6 16.5 19.9 24.3
40.6
46.9
26 11.2
12.2
13.8
15.4 17.3 20.8 25.3
41.9
48.3
27 11.8
12.9
14.6
16.2 18.1 21.7 26.3
43.2
49.6
28 12.5
13.6
15.3
16.9 18.9 22.7 27.3
44.5
51.0
29 13.1
14.3
16.0
17.7 19.8 23.6 28.3
45.7
52.3
1.39
www.full-ebook.com
5.02
7.88
7.38
10.6
30 13.8
15.0
16.8
18.5 20.6 24.5 29.3
47.0
53.7
31 14.5
15.7
17.5
19.3 21.4 25.4 30.3
48.2
55.0
32 15.1
16.4
18.3
20.1 22.3 26.3 31.3
49.5
56.3
33 15.8
17.1
19.0
20.9 23.1 27.2 32.3
50.7
57.6
34 16.5
17.8
19.8
21.7 24.0 28.1 33.3
52.0
59.0
35 17.2
18.5
20.6
22.5 24.8 29.1 34.3
53.2
60.3
36 17.9
19.2
21.3
23.3 25.6 30.0 35.3
54.4
61.6
37 18.6
20.0
22.1
24.1 26.5 30.9 36.3
55.7
62.9
38 19.3
20.7
22.9
24.9 27.3 31.8 37.3
56.9
64.2
39 20.0
21.4
23.7
25.7 28.2 32.7 38.3
58.1
65.5
40 20.7
22.2
24.4
26.5 29.1 33.7 39.3
59.3
66.8
41 21.4
22.9
25.2
27.3 29.9 34.6 40.3
60.6
68.1
42 22.1
23.7
26.0
28.1 30.8 35.5 41.3
61.8
69.3
43 22.9
24.4
26.8
29.0 31.6 36.4 42.3
63.0
70.6
44 23.6
25.1
27.6
29.8 32.5 37.4 43.3
64.2
71.9
45 24.3
25.9
28.4
30.6 33.4 38.3 44.3
65.4
73.2
0.005 D. F.
0.010 0.025 0.05 0.10 0.25 0.50 Cumulative Probability
Fuente: Tabla reproducida con el permiso escrito del autor William Knight de la Universidad de New Brunswick, Canadá.
www.full-ebook.com
Apéndice A.6. Valores críticos de la distribución F
www.full-ebook.com
Apéndice A.6. Valores críticos de la distribución F (continuación)
www.full-ebook.com
Apéndice A.6. Valores críticos de la distribución F (continuación)
www.full-ebook.com
Apéndice A.6. Valores críticos de la distribución F (continuación)
www.full-ebook.com
Apéndice A.6. Valores críticos de la distribución F (continuación)
www.full-ebook.com
Apéndice A.6. Valores críticos de la distribución F (continuación)
www.full-ebook.com
Fuente: David S. Moore, George P. McCabe (1993). Introduction to the Practice of Statistics. Second Edition. W. H. Freeman and Company New York. Tabla reproducida con el permiso escrito del autor David S. Moore. Ejemplos ilustrando el uso de la distribución de F
www.full-ebook.com
Ejemplo 1. Encontrar los valores críticos de F0.05;6,10. Dibujar la gráfica. Para resolver esto, se busca en la tabla de F, los grados de libertad del numerador, ν1 = 6 y los grados de libertad del denominador, ν2 = 10. Con un valor de significancia de α = 0.05 de la tabla de F se lee 3.22. Por lo tanto, F(0.05;6,10) = 3.22. La gráfica se da abajo.
Ejemplo 2. Encontrar los valores críticos de F0.01;5,9. Dibujar la gráfica. Para resolver esto, buscar en la tabla de F, los grados de libertad del numerador, ν1 = 5 y los grados de libertad del denominador, ν2 = 9. Ahora se busca α = 0.01 en la tabla de F con ν1 = 5 y ν2 = 9, por lo tanto, F(0.01;5,9) = 6.06. La gráfica es:
www.full-ebook.com
Ejemplo 3. Obtener el valor crítico de F.95;6,8 y dibujar la gráfica correspondiente señalando el valor crítico. Para resolver esto, se usa la función F1-α;ν1,ν2 = 1/Fα;ν2,ν1. Para obtener el valor crítico se necesita F.05;8,6. De la tabla de F, F.05;8,6 = 4.15. Entonces, F(.95;6,8) = 1/4.15 = 0.2409.
Apéndice
A7.
Función
de
www.full-ebook.com
Gamma
incompleta.
α
x
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1 0.6321 0.2642 0.0803 0.0190 0.0037 0.0006 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 2 0.8647 0.5940 0.3233 0.1429 0.0527 0.0166 0.0045 0.0011 0.0002 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 3 0.9502 0.8009 0.5768 0.0133 0.1847 0.0839 0.0335 0.0119 0.0038 0.0011 0.0003 0.0001 0.0000 0.0000 0.0000 4 0.9817 0.9084 0.7619 0.5665 0.3712 0.2149 0.1107 0.0511 0.0214 0.0081 0.0028 0.0009 0.0003 0.0001 0.0000 5 0.9933 0.9596 0.8753 0.7350 0.5595 0.3840 0.2378 0.1334 0.0681 0.0318 0.0137 0.0055 0.0020 0.0007 0.0002 6 0.9975 0.9826 0.9380 0.8488 0.7149 0.5543 0.3937 0.2560 0.1528 0.0839 0.0426 0.0201 0.0088 0.0036 0.0014 7 0.9991 0.9927 0.9704 0.9182 0.8270 0.6993 0.5503 0.4013 0.2709 0.1695 0.0985 0.0533 0.0270 0.0128 0.0057 8 0.9997 0.9970 0.9862 0.9576 0.9004 0.8088 0.6866 0.5470 0.4075 0.2834 0.1841 0.1119 0.0638 0.0342 0.0173 9 0.9999 0.9988 0.9938 0.9788 0.9450 0.8843 0.7932 0.6761 0.5443 0.4126 0.2940 0.1970 0.1242 0.0739 0.0415 10 1.0000 0.9995 0.9972 0.9897 0.9707 0.9329 0.8699 0.7798 0.6672 0.5421 0.4170 0.3032 0.2084 0.1355 0.0835 11 1.0000 0.9998 0.9988 0.9951 0.9849 0.9625 0.9214 0.8568 0.7680 0.6595 0.5401 0.4207 0.3113 0.2187 0.1460 12 1.0000 0.9999 0.9995 0.9977 0.9924 0.9797 0.9542 0.9105 0.8450 0.7576 0.6528 0.5384 0.4240 0.3185 0.2280 13 1.0000 1.0000 0.9998 0.9989 0.9963 0.9893 0.9741 0.9460 0.9002 0.8342 0.7483 0.6468 0.5369 0.4270 0.3249 14 1.0000 1.0000 0.9999 0.9995 0.9982 0.9945 0.9858 0.9684 0.9379 0.8906 0.8243 0.7400 0.6415 0.5356 0.4296 15 1.0000 1.0000 1.0000 0.9998 0.9991 0.9972 0.9924 0.9820 0.9626 0.9301 0.8815 0.8152 0.7324 0.6368 0.5343
Fuente: Tabla diseñada por Servio Tulio de la Cruz del Departamento de Ingeniería Civil de la Universidad Autónoma de Cd. Juárez, con la ayuda de un programa de cómputo. Ejemplos para ilustrar el uso de la tabla gamma incompleta Ejemplo 1. Evaluar Г(5). Aquí, usamos la relación Г(α) = (α – 1)! y sustituyendo α = 5 en la función anterior da: Г(5) = (5 – 1)! = 24. Ejemplo 2. Evaluar F(5;7) usando la función de gamma incompleta, cuya función matemática se dada por:
www.full-ebook.com
Para evaluar F(5;7) se usa la tabla de la función de gamma incompleta buscando x = 5 y α = 7 y da 0.2378. También se pudiera calcular F(5;7) sustituyendo x = 5 y α = 7 en la función de arriba. Ejemplo 3. Supóngase que una muestra aleatoria de cierto experimento sigue a una distribución gamma estándar, con α = 3. Siendo así, calcular P(X ≥ 5). Esta situación nos lleva a calcular P(X ≥ 5) = 1 – P(X ≤ 4) = 1 – F(4;3). Ahora usando la tabla de la función de gamma incompleta nos da P(X ≥ 5) = 1 – P(X ≤ 4) = 1 – F(4;3) = 1 – 0.7619 = 0.2381. Ejemplo 4. Hacer el mismo ejemplo de arriba con α = 3, pero ahora calcular la probabilidad de que el valor de la variable aleatoria X esté entre 6 y 3. Esto nos lleva a calcular P(3 ≤ X ≤ 6) = F(6;3) – F(3;3) = 0.9380 – 0.5768 = 0.3612 (Usando la tabla de gamma incompleta). Ejemplo 5. Supóngase que se saca una muestra aleatoria que tiene una distribución gamma con α = 8 y β = 10. Siendo así encontrar P(50 ≤ X ≤ 110). Para resolver este problema procedemos de la siguiente manera: P(50 ≤ X ≤ 110) = P(X ≤ 110) – P(X ≤ 50) = F(110/10;8) – F(50/10;8) = F(11;8) – F(5;8) = 0.8568 – 0.1334 = 0.7234 (de la tabla de gamma incompleta) Ejemplo 6. Hacer el mismo problema anterior con α = 8 y β = 10, pero ahora usando el programa Minitab. Para tales fines proceder de la siguiente manera: Primeramente darle valores
www.full-ebook.com
apropiados a x, digamos de 49, 50,109, 110. Luego irse a: Calc → Probability distributions → Gamma. En la ventana de diálogo de “Gamma distribution” introducir los valores de “Shape parameter” (α = 8) y “Scale parameter” (β = 10). Esto genera la tabla de abajo:
De manera que: P(50 ≤ X ≤ 110) = 0.8568 – 0.1333 = 0.7235 Apéndice A8. Valores críticos de la estadística Durbin-Watson.
www.full-ebook.com
Valores críticos de la estadística Durbin-Watson (Cont.)
www.full-ebook.com
Valores críticos de la estadística Durbin-Watson (Cont.)
www.full-ebook.com
www.full-ebook.com