GUIA DE EJERCICIO PARA REGRESIÓN LINEAL MÚLTIPLE
1) Se desea establecer una ecuación que permita predecir la resistencia a la abrasión del caucho en función de la cantidad de láminas de sílice 𝑋1 adheridas a él por un agente amalgamante cuya cantidad 𝑋2 se mide en porcentaje respecto al total de la masa del caucho. Se realizaron seis mediciones obteniendo los siguientes resultados: Resistencia a la abrasión Cantidad en miles de láminas Cantidad de amalgamante 83
6
2
92
2
6
95
4
7
80
4
1
100
7
4
92
1
4
a) A través de una regresión, determine una ecuación lineal que permita predecir la resistencia en función de las dos variables independientes. Considere que: 1,94̅ −0, 2̅ −0, 2̅ ′ −1 (𝑋 𝑋) = (−0, 2̅ 0,0425 0,0131) −0, 2̅ 0,0131 0,0425 b) Determine si el modelo de regresión contribuye significativamente a predecir Y en función de las variables independientes utilizando una significancia de 0,025. c) Realice un intervalo de estimación para 𝛽1 con un 95% de confianza d) Calcule el coeficiente de determinación 𝑅 2 e interprételo
2) Un mineral metálico es extraído desde una mina de la región. Una vez extraído, se somete a un proceso de depuración, luego es fusionado en un horno industrial y posteriormente solidificado en planchas metálicas. Finalizado este proceso, se mide el porcentaje de impurezas que tienen las planchas metálicas. Se sospecha que existe una relación entre la temperatura a la que actuó el horno y el porcentaje de impurezas de la plancha metálica. Para determinar una ecuación de regresión que relaciones ambas variables, se analizaron 15 planchas metálicas. Los resultados del análisis se presentan en la siguiente tabla:
Temperatura (℃) % impurezas 387
4,87
361
3,93
433
6,46
343
3,33
381
4,38
383
4,70
346
3,50
376
4,50
350
3,58
358
3,64
419
5,90
378
4,43
371
4,38
373
4,42
378
4,25
a) Identifique la variable independiente X y la variable dependiente Y b) Formule una ecuación de regresión lineal que permita predecir Y en función de X. (Calcular la inversa de la matriz X’X es relativamente sencillo considerando que será una matriz simétrica de 2x2) c) Realice un análisis de varianza para definir si el modelo es significativo utilizando 𝛼 = 0,01 d) Calcule el coeficiente de determinación del modelo e interprételo. e) Suponga que una plancha metálica de este mineral fue fusionada a 400℃. Estime, mediante un intervalo del 90% confianza, el porcentaje de impurezas que la plancha tendrá.
3) Diversos estudios han concluido que, en los días más calurosos, existe un consumo mayor de energía, probablemente debido a la mayor utilización de ventiladores, aparatos de aire acondicionado y artículos eléctricos de refrigeración. El gerente de una planta generadora de electricidad busca un modelo que permita predecir cuánta electricidad será consumida diariamente por la población de una ciudad en función de la mínima y la máxima temperatura que tendrá ese día.
Para definir una ecuación de regresión, se observaron 10 días del último año seleccionados al azar. La ecuación de regresión obtenida, parte de la matriz (𝑋 ′ 𝑋)−1 y parte del análisis de varianza son mostrados a continuación 𝑌̂ = −255,8657 + 4,873 𝑋1 + 11,6861 𝑋2 ′
−1
(𝑋 𝑋)
Fuente de variación Regresión
Suma de cuadrados 17867,5344
17,0178 −0,5783 −0,2111 =( 0,0387 −0,0037) 0,0089 Grados de libertad
Medias Cuadráticas
𝐹0
Error Total
19263,6
a) Complete la matriz (𝑋 ′ 𝑋)−1 y la tabla Anova b) Determine si el modelo es significativo para predecir Y en función de X utilizando una significancia de 0,05 c) Determine si cada variable independiente ayuda significativamente a predecir la electricidad consumida utilizando α = 0,05. Interprete los resultados d) Calcule el coeficiente de determinación e interprételo e) Realice una estimación del parámetro 𝛽2 con un 97% de confianza f) Si el día de mañana la temperatura en esa ciudad tendrá 19℃ y 30℃ de mínima y máxima respectivamente. Realice una estimación con un 95% de confianza del consumo de electricidad en esa ciudad.
4) Sea Y: ventas de un restaurante de comida rápida (miles de dólares), X1= número de restaurantes competidores a una milla a la redonda, X2= población dentro de una milla de radio (miles de personas) y X3 es una variable indicadora igual a uno si el restaurante tiene una ventanilla para automovilistas y 0 si no la tiene. Suponga que el modelo de regresión verdadero es 𝑌 = 10 − 1,2𝑋1 + 6,8𝑋2 + 15,3𝑋3 + 𝜀 a)
b)
c)
¿Cuál es el valor medio de ventas cuando el número de restaurantes competidores es dos, hay 8000 habitantes en un radio de una milla, y el restaurante tiene una ventanilla para automovilistas? ¿Cuál es el valor medio de ventas de un restaurante sin ventanilla para automovilistas, que tiene tres restaurantes competidores y 5000 habitantes en un radio de una milla? Interprete 𝛽3 .
5) Un análisis de regresión efectuado para relacionar Y: tiempo de reparación para un sistema de filtración de agua (h), con X1: tiempo transcurrido desde el servicio previo (meses) y X2: tipo de reparación (1 si es eléctrico y 0 si es mecánico), dio el siguiente modelo basado en 12 observaciones: 𝑌 = 0,950 + 0,400𝑋1 + 1.250𝑋2 Además, Syy= 12,72, SSE=2,09, y √𝑀𝑆𝐸 ∗ 𝐶22 =0,312. a)
b)
c) d)
¿Parece haber una relación lineal útil entre el tiempo de reparación y los dos predictores del modelo? Realice una prueba de las hipótesis apropiadas usando un nivel de significación de 0,05. Dado que el tiempo transcurrido desde el último servicio sigue en el modelo, ¿el tipo de reparación da información útil acerca del tiempo de reparación? Exprese y pruebe las hipótesis apropiadas usando un nivel de significación de 0,01. Calcule e interprete un intervalo de confianza de 95% para 𝛽2 . La desviación estándar estimada de una predicción para el tiempo de reparación, cuando el tiempo transcurrido sea de 6 meses y la reparación es eléctrica, es de 0,192. Pronostique el tiempo de reparación bajo estas circunstancias al calcular un intervalo de predicción de 99%. ¿El intervalo sugiere que el modelo estimado dará una predicción precisa? ¿Por qué sí o por qué no?
6) El diseño eficiente de ciertos tipos de incineradores de desechos municipales exige que se disponga de información acerca del contenido energético de los desechos. Los autores del artículo “Modeling the Energy Content of Municipal Solid Waste Using Multiple Regression Analysis” (J. of the Air and Waste Mgmt. Assoc., 1996: 650-656) bondadosamente nos proporcionaron la información siguiente acerca de Y:contenido energético (kcal/kg), las tres variables físicas de composición X1 : % de plástico por peso, X2 : % de papel por peso y X3: % de basura por peso, y la variable próxima de análisis X4: % de humedad por peso para especímenes de desechos de cierta región.
Las matrices resultantes de estos datos son: 𝑋 𝑇 ∗ 𝑋: 30 599.98 702.41 1180.38 1515.72
599.98 702.41 12161.0686 14016.385 14016.385 16776.8055 23571.5564 27386.9959 30259.6561 35486.8473
1180.38 23571.5564 27386.9959 46918.768 59665.177
1515.72 30259.6561 35486.8473 59665.177 76896.8488
(𝑋 𝑇 ∗ 𝑋)−1 31.6471823 -0.2940285 -0.2825810 -0.2420727 -0.1898627
-0.2940285 -0.2825810 0.0071791 0.0017252 0.0017252 0.0054440 0.0013749 0.0029867 0.0011076 0.0000614
-0.2420727 0.0013749 0.0029867 0.0037799 -0.0000807
-0.1898627 0.0011076 0.0000614 -0.0000807 0.0033538
𝑋𝑇 ∗ 𝑌 38438 774525.34 900549.22 1510802.26 1928724.17 𝑌 𝑇 ∗ 𝑌 = 49939038
a) b)
c)
Calcule los estimadores para los parámetros de las 4 variables explicativas Exprese y pruebe las hipótesis apropiadas para determinar si el ajuste del modelo a los datos especifica una relación lineal útil entre contenido energético y al menos uno de los cuatro predictores. Dado que el % de plástico, % de papel y % de agua permanecen en el modelo, ¿el % de basura da información útil acerca del contenido energético? Exprese y pruebe las hipótesis apropiadas usando un nivel de significación de 0,05.
7) La estatura de un bebé al nacer (en cm.) y el período de embarazo (en días) son: x y
48 277,1
49 279,3
50 281,4
51 283,2
52 284,8
a) Ajustar una recta de regresión minimizando los desvíos cuadráticos entre los valores de Y y su correspondiente estimación lineal. b) Construir intervalos de confianza para sus coeficientes. c) ¿Es la relación lineal? 8) La variable X representa en miles, el número de asnos en España y la variable Y el tanto por ciento del presupuesto del Estado dedicado a la Educación en distintos años. Sea: Año X Y
1950 1.006 5.5
1955 1.162 4.8
1960 1.479 7.8
1965 805 8.2
1970 795 8.6
1975 747 9.7
1980 732 9.6
1985 683 8.9
1990 686 11.4
1995 493 10.6
2005 476 12.7
2010 386 11.5
2015 368 11.4
Se pide construir una recta de regresión e interpretar los resultados. 9) Galton estudió en 1.877 la relación entre el diámetro de los guisantes y el diámetro medio de sus descendientes con los resultados siguientes: Diámetro Padres Diámetro medio descendientes
21
20
19
18
17
16
15
17.26
17.07
16.37
16.40
16.13
16.17
15.98
Los datos están en pulgadas x 100 (1 pulgada = 2.54 cm.). Se pide: a) Por medio de las ecuaciones normales (XTX)-1*(XTY) determine los estimadores de los coeficientes βi . Calcular la recta de regresión. ¿Qué conclusiones puede extraerse? b) Prever el diámetro medio en milímetros de los descendientes de guisantes con diámetro 5 milímetros. 10) Se desea verificar si el personal de un laboratorio es capaz de detectar correctamente la cantidad de un cierto antibiótico presente en muestras de sangre. Se envían al laboratorio 13 muestras de las cuales se conoce la cantidad de antibiótico presente (variable x) y se pide al personal medir la cantidad de antibiótico presente en cada una de ellas (variable y). Obteniéndose los siguientes datos: Cantidad presente (x) g/ml 0 5 5 5 10 10 10 20 20 20 40 40 40
a)
Cantidad hallada (y) g/ml 0 4,5 5 4,8 8,9 8,9 8,9 17,0 18,2 15,4 32,6 36,1 31,5
Si el laboratorio pudiese detectar exactamente la cantidad de antibiótico presente en las muestras, tendríamos que las variables x e y serían iguales y, por lo tanto la recta de regresión debería ser aquella que tiene pendiente 1 y pasa por el origen. Observe la nube puntos y diga si esta parece ser la situación en este caso. b) Ajuste a estos datos un modelo de regresión lineal simple. En base a lo obtenido diga si cumple la situación planteada en la parte a). c) Utilizando los resultados de la parte b), realice la prueba para la hipótesis nula H0: 1=1, frente a la hipótesis alternativa Ha: 1 1. ¿Cuál es el valor p o nivel de significación de lo observado en este caso?
11) La dirección de una empresa quiere estudiar la rentabilidad de su inversión en publicidad. Para ello se ha recogido datos del volumen de ventas y del gasto en publicidad referido a los últimos años y expresados en miles de euros Año
Ventas Gasto publicidad
2007
50
10
2008
100
15
2009
150
18
2010
200
20
2011
200
25
2012
300
35
2013
400
50
2014
500
55
2015
650
60
2016
700
65
a) Especifica y estima el modelo lineal que explique las ventas de la empresa en función de la inversión publicitaria. Interpreta los parámetros estimados. b) En el año 2017, la empresa va a invertir 450.000 euros en publicidad. Calcula el volumen de ventas esperado. c) Se plantea el modelo Yi = βXi + εi
i = 1, .....n
Hallar el estimador mínimo cuadrático de β. d) Aplicar el resultado del apartado anterior para explicar el volumen de ventas en función de los gastos en publicidad. Comprueba que la media de los residuos no es nula. 12) La tabla siguiente contiene la edad X y la máxima presión sanguínea Y de un grupo de 10 mujeres: Edad Presión
56 14,8
42 12,6
72 15,9
36 11,8
63 14,9
47 13,0
55 15,1
49 14,2
38 11,4
4 14,1
a) Determine las matrices X e Y y realice el proceso matricial necesario para conseguir los estimadores de los coeficientes del modelo e interprete que indican b) Calcular el coeficiente de correlación lineal entre las variables e interpretar qué indica.
c) Determinar la recta de regresión de Y sobre X, justificando el ajuste de un modelo lineal. Interpretar los coeficientes del modelo. d) Hacer las predicciones siguientes, considerando la que tenga sentido: Presión sanguínea de una mujer de 51 años. Presión sanguínea de una niña de 10 años. Presión sanguínea de un hombre de 54 años. 13) A menudo se utiliza el tratamiento térmico para carburar partes metálicas como los engranes. El espesor de la capa carburada se considera una característica importante de engrane y contribuye a la confiabilidad general de la parte. Debido a la naturaleza crítica de esta característica, se lleva a cabo una prueba de laboratorio en cada carga del horno. La prueba es destructiva, donde una parte real se corta de forma transversal y se remoja en un químico durante cierto tiempo. Esta prueba implica correr un análisis de carbón sobre la superficie del paso de engranaje (parte superior de los dientes del engrane) y la raíz del engrane (entre los dientes). Los siguientes datos son los resultados del análisis de carbón del paso de engranaje para 19 partes. T.Remojo Engranaje T.Remojo Engranaje
0,58 0,013 1,17 0,021
0,66 0,016 1,17 0,019
0,66 0,015 1,17 0,021
0,66 0,016 1,20 0,025
0,66 0,015 2,00 0,025
0,66 0,016 2,00 0,026
1,00 0,014 2,20 0,024
1,17 0,021 2,20 0,025
1,17 0,018 2,20 0,024
1,17 0,019
a) Ajuste una regresión lineal simple que relacione el análisis de carbón en el paso de engranaje y contra el tiempo de remojo. Pruebe la hipótesis H0: 1=0. b) Si la hipótesis de la parte a) se rechaza, determine si el modelo lineal es adecuado. 14) Jay Footclamper es presidenta y oficial ejecutivo en jefe de la Fiber Shoes, Inc., una compañía que fabrica suecos de madera para las competencias de danza con suecos. Jay está preocupada por contratar mejor personal de ventas. Uno de los esfuerzos por contratar mejores opciones de vendedores está basado en un análisis del desempeño de la fuerza de ventas actual en cuatro pruebas de aptitud que estas personas hicieron cuando fueron contratadas. Jay ha recabado datos sobre el crecimiento de ventas de 25 vendedores, junto con su resultado en las cuatro pruebas de aptitud (creatividad, habilidad mecánica, pensamiento abstracto, y cálculos matemáticos). Hizo una regresión y obtuvo el siguiente resultado. VARIABLE_DEP. CRECIMIENTO FUENTE MODELO ERROR C TOTAL
DF 4
ANÁLISIS DE VARIANZA SUMA DE CUADRADOS 1050,697
24
1134,662
VARIABLE INTERSECCION CREAT MEC ABSTR MATE
DF
ESTIMACIÓN DE PARAMETRO 70,065659 0,421601 0,271403 0,745042 0,419545
CUADRADOS MEDIOS VALOR F PROB>F
R CUADRADO ERROR ESTANDAR 2,130314 0,171915 0,218402 0,289818 0,068712
0,9261 t
PROB>t
Dé la ecuación de regresión para que Jay pueda predecir el crecimiento en ventas de un vendedor a) ¿Cuánto de la variación en el crecimiento de ventas es explicado por las cuatro pruebas de aptitud? b) A un nivel de significación de 0,05, ¿Cuáles de las pruebas de aptitud son variables explicativas significativas del crecimiento en las ventas? c) ¿Es el modelo completo significativo como un todo? d) El vendedor Paul ha tenido el siguiente resultado en las cuatro pruebas: CREAT=12, MEC=14, ABSTR=18 Y MATE=30. Dé un intervalo de confianza aproximado de 95% para el crecimiento de ventas de Paul.
15) Los datos que se han reunido de 40 muestras, representan el empuje de un motor de turbina (Y) y seis variables de regresión candidatas: X1 = velocidad de rotación primaria, X2 = velocidad de rotación secundaria, X3 = rapidez de flujo de combustible, X4 = presión, X5 = temperatura de escape y X6 = temperatura ambiente al momento de efectuar la prueba Los resultados obtenidos se han procesado obteniéndose la siguiente información: (XTX)-1 8505,21842 0,301897083 0,301897083 0,000116781 0,052095942 -1,5221E-06 -0,40546306 -9,37732E-06 0,635777553 -0,000939899 0,693297264 -2,97837E-05 6,986432978 7,43697E-05
XTY
0,052095942 -0,405463063 0,635777553 -1,5221E-06 -9,37732E-06 -0,000939899 2,08023E-06 -3,19361E-06 -7,1628E-06 -3,19361E-06 1,98244E-05 -5,88482E-05 -7,1628E-06 -5,88482E-05 0,010268521 8,58106E-07 -3,58073E-05 0,000510048 4,60605E-05 -0,000336697 0,00321117
0,693297264 -2,97837E-05 8,58106E-07 -3,58073E-05 0,000510048 0,000175071 0,000264616
6,986432978 7,43697E-05 4,60605E-05 -0,000336697 0,00321117 0,000264616 0,009769033
Además se ha calculado la media de los cuadrados del error 156160
CME = 702,71627976079
287571830 3062352081 4631760166 27708929 259142680 15200200
Pregunta: Analice cada variable, indicando que variables son las que es aconsejable considerar dentro del modelo de regresión lineal múltiple. Justifique sus respuestas
16) La distancia promedio Y requerida para detener un vehículo es una función de la velocidad del vehículo. El conjunto de datos fue observado en 10 automóviles a diferentes velocidades, cuyas observaciones han sido registradas y analizadas.
Modelo 1: Asuma que la distancia de detención promedio varía linealmente con la velocidad. Esto es 𝑌 = 𝛽0 + 𝛽1 𝑥. Estime 𝛽0 , 𝛽1 y 𝑆𝜀 .
SUMMARY OUTPUT Regression Statistics Multiple R 0.985355831 R Square 0.970926114 Adjusted R Square 0.967291879 Standard Error 6.496098168 Observations 10 ANOVA df Regression Residual Total
Intercept Velocidad (mph)
SS 11274.00567 337.5943313 11611.6
1 8 9
MS F Significance F 11274.00567 267.1610184 1.9769E-07 42.19929141
Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0% -9.758193091 4.151031901 -2.350787304 0.046623921 -19.33048982 -0.185896362 -19.33048982 -0.185896362 1.998582817 0.122274418 16.34506098 1.9769E-07 1.716617503 2.28054813 1.716617503 2.28054813
Modelo 2: Asuma que la distancia de detención varía con la velocidad como 𝑌 = 𝛽0 + 𝛽1 𝑥 + 𝛽2 𝑥 2 . Estime 𝛽0 , 𝛽1 , 𝛽2 y 𝑆𝜀 . Compare ambos modelos.
SUMMARY OUTPUT Regression Statistics Multiple R 0.986228218 R Square 0.972646099 Adjusted R Square 0.964830699 Standard Error 6.736070903 Observations 10 ANOVA df Regression Residual Total
2 7 9
SS 11293.97744 317.6225584 11611.6
MS F Significance F 5646.988721 124.4524987 3.38507E-06 45.37465121
Coefficients Standard Error t Stat P-value Lower 95% Intercept -6.043299815 7.062675737 -0.855667178 0.420502775 -22.74387415 Velocidad (mph) 1.665766841 0.517427028 3.219327074 0.014667084 0.442246342 Velocidad^2 (mph^2) 0.005295599 0.007982032 0.66344001 0.528285139 -0.013578906
Upper 95% Lower 95.0% 10.65727451 -22.74387415 2.889287341 0.442246342 0.024170105 -0.013578906
Upper 95.0% 10.65727451 2.889287341 0.024170105
a) Determine el mejor modelo, base su elección en fundamentos estadísticos y los criterios estudiados en el curso. b) Calcule un intervalo de confianza para la media al 95% de confianza. c) Calcule un intervalo de predicción para el valor de una única observación al 99% de confianza.
17) Las tablas muestran los resultados de veinte tipos de hojas de acero trabajadas en frío que tienen diferentes composiciones de cobre y temperaturas de templado. Donde se pide una ecuación que relacione la Dureza de Rockwell 30-T (y) con el contenido de cobre(x1) y la temperatura de templado (x2). Estadísticas de la regresión Coef. correlación 0.94712238 Coef. determinación R^2 0.8970408 R^2 ajustado 0.87416098 Error típico Observaciones 12 ANÁLISIS DE VARIANZA G. de Lib. Regresión Residuos Total
Intercepción Contenido de Cu Temperatura
SC
Cuad. Medios
2 11 Coeficientes 154.388542 40.78125 -0.0805
F 39.2066346
121.3404167 13.4822685 1178.529167 Error típico 11.07363741
t
2.51312464 0.009480601 8.49102313
a) Complete los datos faltantes en las tablas. b) ¿Qué porcentaje de la variabilidad de la dureza de Rockwell 30-T es explicado por el modelo? Interprete. c) Calcule el valor p del modelo. ¿Qué puede concluir con respecto a la validez del modelo? d) Calcule los valores p para cada coeficiente. ¿Qué puede concluir con respecto a la importancia de cada variable independiente? e) En función de sus respuestas anteriores, ¿cómo evaluaría el modelo? Fundamente. 18) En un artículo se describe un experimento realizado para evaluar el impacto de la fuerza (gm) x1 , potencia (mW) x2 , temperatura (°C) x3 y tiempo (ms) x4 en la resistencia cortante de la unión de la bola (gm). Se entregan los resultados incompletos de un modelo de regresión lineal para estos datos.
SUMMARY OUTPUT Regression Statistics Multiple R 0.844961111 R Square 0.713959279 Adjusted R Square 0.668192763 Standard Error Observations 30 ANOVA df Regression Residual Total
Intercept Fuerza Potencia Temperatura Tiempo
SS
MS
F 15.60003578
26.60474667 2325.258667 Coefficients Standard Error -37.47666667 0.211666667 0.210573608 0.070191203 0.129666667 0.042114722 0.258333333 0.210573608
t Stat -2.86089247 7.099655143 3.078891695 1.226807745
1.
Construcción del Modelo a) Complete los datos faltantes en las tablas entregadas. b) Plantee la ecuación de regresión de acuerdo a los datos ajustados.
2.
Aplicación del Modelo a) Estime la resistencia cortante de la unión de bola cuando la fuerza es de 35 [gm], la potencia de 75 [mW], la temperatura de 200 [°C] y el tiempo de 20 [ms]. ̂2 . b) Interprete y explique el significado del parámetro 𝛽
3.
Evaluación del Modelo a) ¿Qué porcentaje de la variabilidad de la resistencia cortante de unión de la bola es explicado por el modelo? Interprete. b) Calcule el valor p del modelo. ¿Qué puede concluir con respecto a la validez del modelo? c) Calcule los valores p para cada coeficiente. ¿Qué puede concluir con respecto a la importancia de cada variable independiente? d) En función de sus respuestas anteriores, ¿cómo evaluaría el modelo? ¿qué recomendaciones daría al investigador para mejorar su modelo propuesto? Fundamente.