Universidad Autónoma de Chapingo, México Universidad Agraria de La Habana, Cuba
“ Metodologías para el procesamiento de datos en Investigaciones Científicas. Uso de Software ” Dra. C Lucía Fernández Chuairey Profesor Titular
[email protected]
Dirección General Académica (UACh) Secretaría de Relaciones Exteriores de México (SRE)
Problemas actuales La Estadística Matemática, la Modelación y Simulación de procesos entre otros aspectos, son herramienta indispensable en la solución de problemas y tomas de decisiones en las investigaciones agrarias, biológicas y sociales. Necesidad de actualizarse en modelos y otras herramientas estadísticas de avanzada cuyo uso favorecen las investigaciones y sistemas productivos.
Estadística como Ciencia (que se ocupa en general de los fenómenos observables); Método de Investigación, tecnología del Método Científico, herramientas sumamente útiles para la investigación. (Bernard Ostle)
¿Qué instrumento utilizar? ¿Cómo usarlo? ¿Cómo interpretar el resultado?
1
“ Metodologías para el procesamiento de datos en Investigaciones Científicas. Uso de Software ” Teoría - Práctica
METODOLGÍA DE TRABAJO
Tema de generalidades del trabajo Estadístico (uso de software) Tema de Modelación de Procesos (Uso del cálculo Diferencial e Integral, lenguaje matemático –biológico (interpretación de resultado) Algunos tópicos de Análisis Multivariado
En una investigación Agropecuaria se desea analizar el rendimiento de cierta variedad de maíz teniendo en consideración cuatro tipos de suelos diferentes (c.suelo, vermicompost, 1/3, 1/4) . Por tal motivo se realizaron estudios previos, donde se observó la longitud del tallo (en cm) de estas plantas al cabo de los 21 días, para un total de 120 observaciones (30 observaciones por tipo de suelo). Defina el tipo de variable Caracterizar y /o describir en comportamiento de cada muestra seleccionada. A partir de la muestra inferir para la población, con niveles de confianza superior al 90%
Comprobar científicamente si existen diferencias estadísticamente significativa entre las alturas promedios de las plaantas debido al factor suelo ¿DATOS? ESTADISTICA DESCRIPTIVA , ESTADISTICA INFERENCIAL, DOCIMAS DE HIPOTESIS
2
Se desea probar dos nuevos medicamentos A y B que van a ser utilizado para combatir cierta enfermedad. Se tiene la sospecha que el medicamento A hace disminuir mas los glóbulos rojos que el medicamento B durante el tratamiento y se desea verificar dicha sospecha. Por tal motivo se seleccionaron al azar 32 animales de laboratorio y 16 de ellos fueron tratados con el medicamento A y 16 con el medicamento B . Pasado el tiempo se hizo un conteo de glóbulos rojos 1.
Caracterizar y /o describir en comportamiento de cada muestra seleccionada.
2.
A partir de la muestra inferir para la población, con niveles de confianza superior al 90%
3.
Comprobar científicamente la eficiencia de un medicamento. Comparación de medias
EATADÍSTICA UNIVARIADA Pruebas paramétricas y No paramétricas
De un experimento en aves , se conoce el peso vivo promedio (g) durante las primeras 35 semanas dado por : (1 , 56) (3, 120.3) (5, 219.5) (7, 350.5) (9, 410)(11, 375)( 13 , 685) (15, 840) ( 17, 1039) (19, 1137) (21, 1300) (23, 1401) (25, 1410) (27, 1439) (29, 1500) (31, 1559) ( 33,1616) (34, 1808) (35, 1580) Se desea conocer • La dinámica del crecimiento con respecto al tiempo
•Indicadores zootécnicos como son: ganancia diaria, edad en que se produce la máxima tasa de ganancia, peso promedio en la madurez , etc. ¿Cómo describir el crecimiento animal?
Uso de herramientas estadísticas (regresión), del Cálculo Diferencial y con Interpretación Biológica del resultado
3
“Modelación Estadístico-Matemática Proceso de crecimiento
¿Cómo ajustar datos a expresiones matemáticas? Análisis de Regresión ¿Cómo describir el proceso de crecimiento? f(x) y Predicción
Ganancias instantáneas f´(x), OPTIMOS Punto de inflexión asociado a la pubertad (es donde el animal empieza a rendir económicamente). ¿peso a la madurez? Asíntota INDICADORES ZOOTECNICOS:
De un experimento en Plantas, se conoce la altura promedio (en cm) durante los primeros 294 días dados por: (21, 9.9) (42, 30.8) (63, 84.0) (84,140.3) (105, 177.3) (126, 196) (147, 204.3) (168, 207.8) (210, 209.8) (252,210.2) (294,210.2)
Y se desea conocer la dinámica del crecimiento de las mismas con respecto al tiempo, velocidad de crecimiento,
edad en que se
produce la máxima velocidad de crecimiento, altura promedio a la que se estabiliza el crecimiento, entre otras.
¿Cómo describir el crecimiento vegetal?
4
En un análisis económico de funciones de producción versus agua aplicada mediante regadío. Se conoce cantidad total de agua aplicada (m 2/ha) y sea la variable dependiente el rendimiento de alfalfa (kg/ha) dadas por: (2 000 , 8 100)(3 000, 10 000) (4 000, 13 500) (5 000, 15 010) (6 000, 16 000)
(7 000, 16 500)(8 000, 17 100)( 9 000 , 17 300) (10 000, 17 500)
Y se desea conocer la dinámica del comportamiento del rendimiento de este producto en las diferentes cantidades de agua aplicada
Se ha observado el crecimiento de una población de bacterias, obteniéndose los datos siguientes referidos a una unidad de volumen Días (X)
1
3
5
7
9
11
Millones de bacterias (Y)
1.6
4.5
13.8
40.2
125
300
En un estudio de producción de leche de cierta raza en el trópico, bajo condiciones de experimentación y con suplemento alimentario adecuado, se realizaron los pesajes mensuales en una muestra de 3 655 animales cuyos promedios son de: Días (x)
1
30
60
90
120
150
180
210
240
270
300
Prod leche (y)
9
12
14
11
10
8
9
7
5
4
3,9
REGRESIONES NO LINEALES
ESTADÍSTICA BIVARIADA ASPECTOS METODOLÓGICOS A TENER EN CUENTA EN LA MODELACIÓN ESTADÍSTICO - MATEMÁTICO DE PROCESOS
5
En un experimento se estudió el comportamiento del rendimiento de 10 variedades de calabaza sometidas a 8 ambientes o condiciones diferentes de estrés de temperatura y humedad. Los resultados se presenta en la siguiente tabla: Ambientes Variedades
E1
E2
E3
E4
E5
E6
E7
E8
1
8.44
8.01
2.50
3.29
1.33
0.80
1.84
1.19
2
9.57
5.63
3.60
6.27
0.37
1.35
1.76
1.54
3
10.93
5.42
3.70
6.10
0.90
0.99
1.30
0.14
4
8.60
8.87
5.10
4.90
0.90
0.91
1.22
1.57
5
9.60
3.37
1.45
2.80
0.35
0.56
0.97
0.62
6
6.58
2.53
2.83
2.97
0.57
0.13
3.10
0.13
7
4.66
3.64
2.80
1.52
0.35
0.32
2.74
0.37
8
5.70
4.65
2.74
1.83
0.92
0.20
1.46
0.37
9
5.33
3.03
1.92
2.91
1.09
0.27
1.71
0.54
10
3.40
3.68
2.38
1.62
0.41
1.65
0.72
0.52
Se presentan los datos correspondientes a siete variables socioeconómicas para 14 países (Batista Forguet y Martines Áreas 1989) Estas son : Densidad de población, porcentaje de personas empleadas en la agricultura, renta (ingreso nacionales percápita), Inversiones de rendimiento de capital en maquinaria y otros , . tasa de mortalidad Infantil, consumo de energía por 100 habitantes, aparatos de TV por 100 habitantes
Manual de Estadística para proyectos de Investigación Autor Pereyra A.M; Abbiati,N ,N; Fernández, E.N Universidad Nacional de Lomas de Zamora ISBN 987-9455-33-9, Argentina, año 2004) Pág. 124
6
Se estudió el comportamiento de 18 variedades de boniato, a las que se le evaluaron un total de 10 variables
Var.
Peso (g)
Largo (cm)
Ancho (cm)
.
.
.
Azuc. Total.
Ceniza (%)
Fibra (%)
1
191.2
11.0
4.5
.
.
.
5.95
1.46
1.28
2
150.4
13.5
5.0
.
.
.
4.39
1.53
1.51
3
155.7
15.0
6.5
.
.
.
4.43
1.25
1.26
. . .
. .
.
.
. . .
. . .
.
.
.
. . .
17
237.8
23.5
6.0
.
.
.
3.98
0.83
1.11
18
176.8
15.5
4.0
.
.
.
3.71
0.82
1.04
FUENTE: Varela, M. Análisis Multivariado de Datos. Aplicación a las Ciencias Agrícolas. Monografía. ISBN:959-7023-04-0. Ediciones INCA. 1998.
ESTADISTICA MULTIVARIADA
Gran parte de los procesos de investigación generan un conjunto de datos de diferentes características, muchos de los cuales necesitaran de un análisis estadístico. De ahí la necesidad de comprender la naturaleza del proceso estadístico íntimamente relacionado con el de investigación y de conocer algunos métodos mas comúnmente usados en el Diseño de experimentos, encuesta y en el análisis de datos (Pereyra y col, 2004) PROCESOS DE INVESTIGACION
GENERAN DATOS
REQUIEREN DE UN ANÁLISIS ESTADÍSTICO
MÉTODOS DE RECOLECCIÓN DE DATOS EN UN PROCESOS DE INVESTIGACIÓN
• • •
Observación La encuesta Experimentación
7
•CONTENIDOS Papel de la Bioestadística en las investigaciones Agrarias. Generalidades del trabajo Estadístico. Consideraciones sobre el manejo y resumen de datos. Estimación y pruebas según las escalas de medición, metodologías Estadístico– Matemáticas para el procesamiento de la información. Interpretación de resultados. Uso de software Estadístico.
¿Cómo ajustar datos a expresiones matemáticas?. Análisis de regresión. Regresión lineal y no lineal. Métodos de ajuste. Uso de diferentes ecuaciones en la modelación de proceso. Bondad de ajuste, criterios para la selección. Discriminación entre modelos. Aplicaciones Modelación estadístico-Matemático de Procesos Biológicos (curvas de crecimiento animal y vegetal, curvas de lactancia, entre otros procesos). Consideraciones prácticas de los modelos. Interpretación de los modelos. Empleo del cálculo diferencial e integral en la búsqueda de soluciones óptimas en el contexto descrito. Elementos generales de análisis multivariado. Método de Componentes Principales, Análisis de Cluster. Aplicaciones e interpretación de resultados. Seminarios teórico-práctico con aplicaciones afines con el perfil de los profesionales (evaluación final)
OBJETIVOS Actualizar a los profesionales en cuanto al empleo de Métodos Estadísticos con el correspondiente procesamiento, presentación e interpretación de los resultados en función de las características propias de su objeto de estudio, con vistas a lograr una mayor eficiencia en la actividad docente y científica –Investigativa. Valorar aspectos teóricos y prácticos relacionados con el uso adecuado de las herramientas estadísticas, a partir de consideraciones metodológicas correspondientes con el tipo de variable y el objeto de estudio.
8
•EVALUACIÓN
Seminario taller: Debates de contenidos teóricos y prácticos. Trabajo final: Discusión de un trabajo relacionado con una problemática de la especialidad que permita medir el usos de los Modelos Matemáticos, así como los paquetes estadísticos y software empleados para su realización. REFERENCIAS BIBLIORAFIACAS Bouxa,C.N; Sistachs Vivian. Estadística. Teoría Básica y ejercicios. Editorial Félix Varela, 2006
Guerra, C.W. Estadística. Editorial Pueblo y Educación Cuba, 1987. Peña, D. Estadística Modelos y Métodos (parte I y II) Alianza Editorial. Madrid. 2000. Pereyra A.M; Abbiati,N ,N; Fernández, E.N. Manual de Estadística para proyectos de Investigación Autor Universidad Nacional de Lomas de Zamora ISBN 987-9455-33-9, Argentina, año 2004.
CONTENIDO (tópico 1) •Papel de la Bioestadística en las investigaciones Agrarias. Generalidades del trabajo Estadístico. Consideraciones sobre el manejo y resumen de datos. Estimación y pruebas según las escalas de medición, metodologías Estadístico–Matemáticas para el procesamiento de la información. Interpretación de resultados. Uso de software Estadístico.
9
TRABAJO CON VARIABLE (ESTADÍSTICA UNIVARIADA) ¿VARIABLE? Una variable es una propiedad que puede variar y cuya variación es susceptible de medirse Ejemplo de variables:
INVESTIGACIÓN Altura de plantas •Rendimiento •Evaluación sanitaria •DATOS •
•Rendimiento de un cultivo (ton/ha, kg./ha). • Evaluación sanitaria de un producto (M, B, E) •Tipos de suelo •Número de cerdos por camada •
•Altura de las plantas (cm) •Producción de leche (kg./día). • raza
•
•altura, temperatura, presión, humedad etc
Caracterizar el área en estudio • ¿existe diferencia entre los rendimientos promedios debido al factor variedad, o al tipo de suelo, o época siembra u otro factor? Describir un proceso en búsqueda de óptimos. • Resumir información • entre otros aspectos
Pasos en un estudio Estadístico Estadística Descriptiva ¿Tipo de variable? ¿Qué dice el dato? ¿Para que me sirve? TIPO DE VARIABLES CUALITATIVAS (sus valores
no se pueden asociar a un número)
NOMINALES
ORDINALES
CUANTITATIVAS
(sus valores son númericos)
DISCRETAS
CONTINUAS
Nominales (Sus valores no se pueden ordenar ): variedad, color, Sexo Ordinales (sus valores se pueden ordenar) : Evaluación B R M, nivel de infección Discreta (Si toma valores enteros): Número de hijos, cdad de cerdos por camada. Continua (toman valores en un intervalo, corresponden a medir magnitudes continuas): costo, ganancia, rendimiento, producción, etc
10
TRABAJO CON VARIABLE ¿VARIABLE? Una variable es una propiedad que puede variar y cuya variación es susceptible de medirse
EJERCICIO Clasifique las siguientes variables: •Rendimiento de un cultivo (ton/ha, kg./ha). • Evaluación sanitaria de un producto (M, B, E)
Tabulación y Presentación de datos
•Tipos de suelo •Número de cerdos por camada •Altura de las plantas (cm) )
Diagramas de barras Histogramas de frecuencia
•Producción de leche (kg./día). • raza •altura, temperatura, presión, humedad etc
Histograma
Diagrama de Barras de evaluaciones 6
8
frecuencia
frecuencia
10
6 4
5 4 3 2 1
2
0
0 B
M
R
0
1
2
3
4
5
6
evaluac num
VARIABLE CUALITATIVA:
Ejemplo: Estudio de la evaluación sanitaria de una muestra de 30 piñas, tres días después de cosechado el producto
Tabulación y presentación de datos Tabla de Frecuencia para las evaluaciones ------------------------------------------------------------------Relative Cumulative Cum. Rel. Class Value Frequency Frequency Frequency Frequency ------------------------------------------------------------------1 B 10 0,3333 10 0,3333 2 E 6 0,2000 16 0,5333 3 M 4 0,1333 20 0,6667 4 MB 5 0,1667 25 0,8333 5 R 5 0,1667 30 1,0000 -------------------------------------------------------------------
Nota: Hay momentos en que es conveniente codificar variables con números, pero no debemos olvidar el tipo de variable con que se esta trabajando y su significado.
11
Uso de SOFTWARE Statgraphics (versión 6.1)
EJERCICIO Estudio de la evaluación sanitaria de una muestra de 30 piñas, tres días después de cosechado el producto
VARIABLE CUALITATIVA: Estudio de la evaluación sanitaria de una muestra de 30 piñas, tres días después de cosechado el producto
Tabulación y presentación de datos Tabla de Frecuencia para las evaluaciones ------------------------------------------------------------------Relative Cumulative Cum. Rel. Class Value Frequency Frequency Frequency Frequency ------------------------------------------------------------------1 B 10 0,3333 10 0,3333 2 E 6 0,2000 16 0,5333 3 M 4 0,1333 20 0,6667 4 MB 5 0,1667 25 0,8333 5 R 5 0,1667 30 1,0000 -------------------------------------------------------------------
Las tablas de Frecuencia y las representaciones gráficas son dos maneras EQUIVALENTES de presentar la información. Las dos exponen ordenadamente la información recogida
MATERIALES Y MÉTODOS – RESULTADOS Y DISCUSIÓN
12
EJERCICIO
En
una
Investigación
Agraria,
relacionada
con
la
caracterización de tipos y subtipos de suelos, se analizaron las 21 subregiones correspondientes al área en estudio, obteniéndose
los
siguientes resultados :Leyenda :1-Pardo con Carbonatos 2-Ferralitico Rojo Lixiviado 3-Ferralitico Rojo
4-Ferralitico Purpura 5-Ferralitico
Amarillento De una caracterización, teniendo en cuenta el tipo de dato. Represente gráficamente. Interprete el resultado 2, 1, 3, 3, 4, 3, 1, 4, 5, 1, 2, 5, 3, 2, 4, 3, 4, 5, 3, 4, 2.
MATERIALES Y MÉTODOS – RESULTADOS Y DISCUSIÓN
A MODO DE EJEMPLO MATERIALES Y MÉTODOS La descripción del tipo de suelo y subsuelo se llevo a cabo mediante el muestreo de las 21 subregiones correspondiente al área en estudio ubicada al…., para la caracterización del suelo de la región se realizó una estadística descriptiva que incluyó tablas de frecuencia y diagramas de barras. Para el procesamiento de la información se utilizó el software…….. Versión….
RESULTADOS Y DISCUSIÓN El estudio realizado en cuanto a tipo de suelo mostró (tabla. 1) la presencia de cinco tipos de suelos, donde los suelos que mayormente prevalecen en la región son los Ferralíticos Rojos (28.57% del total) y con menor frecuencia predominan los suelos Pardos con Carbonatos y los Ferralíticos Amarillentos (14.29 % del total), similares resultados fueron encontrados por García (2014) quien considera que esto pudiera favorecer en gran medida …………………………,.Se puede apreciar que CRITERIO DEL AUTOR
13
Descripción estadística de una variable: cualitativa y cuantitativa discreta continua El Diagrama de barras se utiliza para representar datos
cualitativos y
cuantitativos discretos Diagrama de barras: Se deja un hueco entre barras para indicar los valores que no son posible
Histogramas:
Se utilizan para variables cuantitativas continuas.
En una investigación Agropecuaria se desea analizar el rendimiento de cierta variedad de maíz teniendo en consideración cuatro tipos de suelos diferentes (c.suelo, vermicompost, 1/3, 1/4) . Por tal motivo se realizaron estudios previos, donde se observó la longitud del tallo (en cm) de estas plantas al cabo de los 21 días, para un total de 120 observaciones (30 observaciones por tipo de suelo). Defina el tipo de variable. Construya la tabla de frecuencias e histograma para datos correspondiente a c suelo . Caracterizar y /o describir en comportamiento de cada muestra seleccionada. A partir de la muestra inferir para la población, con niveles de confianza superior al 90% Comprobar científicamente si existen diferencias estadísticamente significativa entre las alturas promedios debido al factor suelo ¿DATOS? ESTADISTICA DESCRIPTIVA , ESTADISTICA INFERENCIAL, DOCIMAS DE HIPOTESIS
14
15
Descripción estadística de una variable Histogramas: Conjunto de rectángulos que representa un intervalo de agrupación o clase. Los Histogramas muestran la distribución de los datos. Distribuciones teóricas de probabilidad
¿¿Prueba de normalidad??
Descripción (variable cuantitativa)
Medidas de tendencia central, de posición y dispersión
Estadística Descriptiva Variables CUANTITATIVA
Resumen de datos Descripción de datos
MUESTRA
POBLACIÓN
Parámetros : Es una cantidad numérica calculada sobre una Población ; 2
Estadígrafo: Es una cantidad numérica calculada sobre una muestra 2
x ; s
16
Estadística Descriptiva
Estadística Inferencial
Resume la masa de datos y los describe. No hace conclusiones sobre el grupo
Se infieren y se toman importantes conclusiones de la población del análisis de la muestra
•
•
Moda (Mo)
Medidas de tendencia central y posición
x
•
Medidas de asimetría Medidas de apuntamiento
n
(X
S 2 i 1
n
n 1
Mide el promedio de las desviaciones (al cuadrado) de las observaciones respecto a la media
s CV .100 x Medida de dispersión relativa Permite además comparar conjuntos de observaciones con respecto a su dispersión
S
i 1
i
n
S2
Curtosis
DESVIACIÓN ESTANDAR
n
CV= S *100 X
Coeficiente de asimetría
VARIANZA
( X i X ) 2
i
i 1
(S, )
Coeficiente de Variación •
x
( S2 , 2 )
Desviación Estándar
mas
n
Mediana (Me) Varianza
Medidas de dispersión
)
(x ,
Media
X) 2
i 1
i
X ) 2
n 1
ERROR ESTANDAR
ES X
n 1
Grado de espaciamiento de las observaciones con respecto la media Tiene la misma dimensión que la variable
(X
S n
En que medida se puede estar equivocado. Mientras más pequeño sea el ES más cerca se esta de la media Se utiliza para determinar los intervalos de confianza
Teorema: Si se extraen repetidamente muestras aleatorias de tamaño fijo n de una población que tiene media y desviación típica . La distribución resultante de las medias será aproximadamente normal con media y S desviación típica n (error típico o estándar o típico), a medida que n crece. X
x ES
Ley de los grandes números
17
Estadística Descriptiva ¿medidas de dispersión ? Normal Distribution Medida de tendencia central más importante, Normal Distribution VENTAJA: es fácil de calcular, se 0,6 entiende rápidamente
0,24
MEDIA
0,5
DESVANTAJA: Está afectada por los valores extremos y por consiguiente puede 0,4 estar muy lejos de ser una representación 0,3de la muestra. density
density
0,2 0,16 0,12 0,08 0,04
0,2 0,1
Producción de leche (kg/día) 0
0
1
2
3
4
5
6
7
8
9
0
10
0
1
muestra 1
Muestra 1
3
4
5
6
7
8
9
10
muestra 2
( 3, 5, 8, 5, 4)
Muestra 2
Count = 5 Average = 5,0n Median = 5,0 i Mode = 5,0 12 Variance = 3,5 ikg Standard deviation = 1,87 kg. Standard error = 0,83666 Skewness = 1,14541 Stnd. skewness = 1,04561 Coeff. of variation = 37,4166%
x
2
x n
S
( 6, 5, 5 , 4, 5)
Count = 5 Average = 5,0 n Median2= 5,0 ( X i Mode X ) = 5,0 i 1 Variance = 0,5 kg2 Standard deviation = 0,70 kg. n 1 Standard error = 0,316228 Skewness = 0,0 Stnd. skewness = 0,0 Coeff. of variation = 14,1421%
Características Distribución Normal • Simétrica respecto a x= µ • Según sea σ habrá mayor o menor concentración de los datos respecto al valor central (µ) PROPIEDADES DE LAS TRES SIGMAS Toda distribución Normal con media µ , tiene la característica de tener el área de la curva de su función de densidad distribuida de la forma siguiente
p X 68.27 % p 2 X 2 95.45 % p 3 X 3 99.73 %
18
Matriz de datos
Para las variables en escala nominal: No tiene sentido la media, ni la desviación estándar, ni máximo ni mínimo. Para las variables en escala ordinal no tiene sentido ni la desviación estándar, pero si el máximo y mínimo Para las variables continuas tiene sentido todas estas medidas.
Ejercicio En una investigación Agropecuaria se desea analizar el rendimiento de cierta variedad de maíz teniendo en consideración cuatro tipos de suelos diferentes (c.suelo, vermicompost, 1/3, 1/4) . Por tal motivo se realizaron estudios previos, donde se observó la longitud del tallo (en cm) de estas plantas al cabo de los 21 días, para un total de 120 observaciones (30 observaciones por tipo de suelo). Pregunta 1¿Se desea caracterizar los grupos con los diferentes tipos de suelo?. DISEÑO v.a Longitud del tallo (continua) C. suelo •
Factor suelo
Equipo 2 S. vermicompost
•
Cuatro tratamientos
Equipo 3 1/3
Equipo 4 1/4
19
Algunos conceptos básico Tratamiento: (Asignaciones del factor o combinaciones de niveles de factores, cuyos efectos serán medidos) Es el factor cuyo efecto será medido: Ejemplo tipos de suelo en el crecimiento de un cultivo,
dosis de un herbicida para determinado cultivo, otro
ejemplo es el ambiente es decir se analiza el rendimiento de un cultivo bajo diferentes condiciones ambientales o estrés. Cantidad de tratamientos dependen de los Niveles y factores en estudio
Un experimento puede ser : Unifactorial: Si Solamente se estudia un factor, todos los demás permanecen constantes Multifactoriales o Factoriales: Se estudian como mínimo dos factores y los demás permanecen constantes Factor Suelo Niveles A, B, C, D en una Variedad Tratamientos 1 x 3 =3 1A, 1B, 1C Unifactorial
Factor Fertilizante Niveles A, B, C Factor variedad Niveles 1 y 2 Tratamientos 2 x 3 = 6 1A, 2A, 1B, 2B, 1C, 2C multifactorial
Caracterizar el comportamiento de la longitud del tallo teniendo en cuenta el tipo de suelo. Que herramientas estadísticas utilizó en este análisis. ?¿Cuál grupo de observaciones resultó más variable?. Fundamente su respuesta.
MATERIALES Y MÉTODOS El análisis del rendimiento del maíz, requirió de un estudio preliminar que consistió en medir la longitud del tallo de las plantas (en cm) a los 21 días de germinadas, las mediciones se realizaron a partir del diseño utilizado (DESCRIBIR EL DISEÑO) ---------por lo que se tuvo en cuenta los cuatro tipos de suelos diferentes (C. suelo, vermicompost, 1/3 y 1/4). Se tomo un total de l20 plantas (30 observaciones por tratamiento). Para la caracterización de la variable se utilizó una estadística descriptivita que incluyo medidas de tendencia central y dispersión. Para el procesamiento de la información se utilizó el software…….. Versión….
20
Caracterizar el comportamiento de la longitud del tallo teniendo en cuenta el tipo de suelo. Que herramientas estadísticas utilizó en este análisis. ?¿Cuál grupo de observaciones resultó más variable?. Fundamente su respuesta.
RESULTADOS Y DISCUSIÓN En la tabla 1 se observa que las longitudes promedios del tallo oscilaron entre 4, 96 cm y 7,37 cm, con errores estándar inferiores a 0,29cm, estos resultados …………… . Por otra parte el grupo que presentó menor variabilidad fue el relacionado con el suelo vermicompost con Coeficientes de Variación de 9,24% esto pudiera estar explicado …………………………… Cuidar en la redacción el vocabulario estadístico Tener en cuenta que la estadística descriptiva, solo permite describir, NO compara
Estadística Inferencial Parámetros: Indicador constante que caracteriza la población Estadígrafos: Es una función de n valores muestrales
Muestra
Población
1- cercanos a 1 0.90 0.95 0.99
Probabilidad Estimación puntual Estimación intervalo de confianza
~ pˆ x ˆ s ˆ p
...
s p I x t n 1 1 n 1 2 ES
percentil
Nivel de confianza
21
p I x
s t n 1 1 n 1 2
5.24 0.240721 * 2.04 5.24 0.491
t n 1 t029 .975 2.04 1
5.24 0.491 ; 5.24 0.491 4.75 ; 5.73
2
Se estima con un 95% de confianza que la altura promedio de las plantas sembradas en suelos vermicompst a los 21 días de germinada oscila entre 4,74 cm y 5,73cm
¿Existirá diferencias estadísticamente significativas entre la longitud promedio del tallo alcanzada en las plantas sembradas en C,suelo y S. vermicompost?
¿Existirá diferencias estadísticamente significativas entre la longitud promedio del tallo alcanzada en las plantas sembradas en los diferentes tipos de suelo??
22
MATERIALES Y MÉTODOS ------ RESULTADOS Y DISCUSIÓN
¿Cómo comparar si existen diferencias significativas entre dos o más poblaciones ? ¿comparación de medias? Muestras Independientes
Muestras Pareadas
Estimación y Dócima de hipótesis sobre parámetros poblacionales
¿Existirá diferencias estadísticamente significativas entre la longitud promedio del tallo alcanzada en las plantas sembradas en C,suelo y S. vermicompost? Muestras Independientes Lenguaje estadístico
H 0 : cs sv H1 : cs sv
H 0 : cs sv Ó
H1 : cs sv
¿Qué SIGNIFICA ACEPTAR a Ho?
23
Estimación y dócima de medias Análisis de Varianza (ANOVA)
PROBLEMAS RELACIONADOS CON LA TOMA DE DECISIONES
Hipótesis estadística: Es un enunciado, una suposición de algo posible de lo que se saca una conclusión
¿Quién es H0 y H1? H0: Hipótesis nula (están los valores de probabilidad que pertenecen a H 0) H1: Hipótesis alternativa TOMA DE DECISIONES
H0 CIERTA H0 SE RECHAZA H0 SE ACEPTA
H0 FALSA DECISIÓN ACEPTADA
ERROR DE TIPO I
ERROR DE TIPO II
DECISIÓN ACEPTADA
Tipos de Contrastes: unilateral y bilateral (zona de aceptación o de rechazo de H 0)
2
2 2
2
24
P A 0,1
Definiciones y axiomas de PROBABILIDAD se tiene que:
Suceso seguro P(A)=1
suceso imposible P(B)=0
suceso aleatorio 0 ≤ P(C) ≤ 1
Espacios muestrales finitos)
p( A)
NA N
NA
- Números
de resultados favorables de A
N -Número de todos los resultados elementales posible del experimento
Ejemplo : La probabilidad de que “al lanzar una moneda se obtenga cara ” Experimentador nro. de tiradas nro. de caras Bufón 4040 2048 K Pearson 12000 6019 K Pearson 24000 12012
v.a.d
P A 0,1
F (t ) P ( x t )
( P( x)
v.a.c
frecuencia 0.5070 0.5016 0.5005
Área bajo la curva
f (t)dt 1 x
x t
Tipos de Contrastes: unilateral y bilateral (zona de aceptación o de rechazo de H 0)
2 2
2
2
¿ Comparación de medias ? PARA MUESTRAS INDEPENDIENTES o MUESTRAS PAREADAS Lenguaje estadístico
H 0 : A B H1 : A B
H 0 : A B H1 : A B
H 0 : A B H1 : A B
Se toma (1 - ) nivel de confianza cercanos a 1
0.90 , 0.95 ó 0.99
25
COMPARACIÓN DE MEDIAS
H 0 : A B H1 : A B Estadígrafo
Tcalculada
xy (n1 1) S12 (n2 1) s22 n1 n2 2
Marca la Región de rechazo
Ttabulada T1n1 n2 2
1 1 n1 n2
Probabilidad
P rechazar H0 / H0 cierta
entonces rechazo a H0
En una muestra de 30 plantas se observó la longitud del tallo de plantas de maíz (en cm) al cabo de los 21 días. Al procesar los datos se obtuvieron los siguientes resultados en la altura promedio alcanzadas en los diferentes tipos de suelo. C. suelo, S. vermicompost
¿Existirá diferencias estadísticamente significativas entre la longitud promedio del tallo alcanzada en las plantas sembradas en C,suelo y S. vermicompost?
T calculada
Lenguaje estadístico
H 0 : A B H1 : A B
T
xy (n1 1)S (n 2 1)s 22 n1 n 2 2 2 1
1 1 n1 n 2
Dos vías para decidir •
Estadígrafo
•
P-valor
Ttabulada T1n1 n2 2
26
H 0 : A B
¿nivel de confianza?
H1 : A B
T calculada
T tabulada n1 n2 2 1
t
t
t058.95 1.64
1-α = 0.95
3030 2 0.95
T
T
xy (n1 1)S (n 2 1)s 22 n1 n 2 2 2 1
1 1 n1 n 2
5.2433 7.3733 7.864 (30 1) 1.7384 (30 1) 0.46478 1 1 30 30 2 30 30
Cae en la región de Rechazo de H0
Procesar por el STATGRAPHIS
Se estima con un 95% de confianza que existe diferencias significativas entre las longitudes promedios de los tallos, analizados en estos dos tipos de suelo.
H 0 : A B H1 : A B
27
p rechazar H 0 / H 0cierta
0.0000
entonces
rechazo a H 0
0.05
Rechazo a H0
H0 : A B H1 : A B Se estima con un 95% de confianza que existe diferencias significativas entre las longitudes promedios de los tallos, analizados en estos dos tipos de suelo.
En una investigación Agropecuaria se desea analizar el rendimiento de cierta variedad de maíz teniendo en consideración cuatro tipos de suelos diferentes (c.suelo, vermicompost, 1/3, 1/4). Por tal motivo se realizaron estudios previos, donde se observó la altura (cm) del cultivo, para un total de 120 observaciones (30 observaciones por tipo de suelo). C. suelo, S. vermicompost , 1/3 , 1/4
EJERCICIO (Equipo 1)
EMPLEAR SOFTWARE ESTADÍSTICO
¿Existirá diferencias estadísticamente significativas entre la longitud promedio del tallo alcanzada en las plantas sembradas en C,suelo y S. 1/3? EJERCICIO (Equipo 2) ¿Existirá diferencias estadísticamente significativas entre la longitud promedio del tallo alcanzada en las plantas sembradas en S ¼ y S. 1/3?
28
Equipo 1
¿Existirá diferencias estadísticamente significativas entre la longitud promedio del tallo alcanzada en las plantas sembradas en C,suelo y S. 1/3?
H 0 : A B H1 : A B
t058.95 1.64
Se estima con un 95% de confianza que NO existe diferencias significativas entre la longitud promedios de los tallos al ser sembrados en estos dos tipos de suelos.
p rechazar H 0 / H 0cierta
entonces
rechazo a H 0
??
0.5876
0.05
NO Rechazo a H0
H0 : A B H1 : A B Se estima con un 95% de confianza que NO existe diferencias significativas entre la longitud promedios de los tallos al ser sembrados en estos dos tipos de suelos.
29
Equipo 2 ¿Existirá diferencias estadísticamente significativas entre la longitud promedio del tallo alcanzada en las plantas sembradas en S ¼ y S. 1/3?
H 0 : A B H1 : A B
t058.95 1.64 Se estima con un 95% de confianza que NO existe diferencias significativas entre la longitud promedios de los tallos al ser sembrados en estos dos tipos de suelos.
p rechazar H 0 / H 0cierta
entonces
H0 : A B
?? 0.2965
rechazo a H 0
0.05
H1 : A B
NO Rechazo a H0
Se estima con un 95% de confianza que NO existe diferencias significativas entre la longitud promedios de los tallos al ser sembrados en estos dos tipos de suelos. RESUMEN Pasos para docimar Plantear la hipótesis H0 y H1 Fijar el nivel de significación α Calcular el estadígrafo Determinar la región crítica Tomar la decisión de aceptación o rechazo Conclusiones
ó
Hacer el análisis a partir del P-valor
30
¿Existirá diferencias estadísticamente significativas entre la longitud promedio del tallo, al ser sembradas en cuatro tipos de suelos diferentes? En caso de existir diferencia ¿Cuáles difieren?????’ C. suelo,
S. vermicompost ,
¿Cómo comparar dos o más poblaciones?
Fundamento teórico del Análisis de Varianza
1/3 , 1/4
Análisis de Varianza
ANOVA
ANOVA SIMPLE ANOVA DOBLE ANOVA MULTIFACTORIAL
• Aditividad de efectos: Esta suposición está implícita en el modelo desde el momento en que se asume que la variable aleatoria “y”, puede expresarse como una combinación lineal de los efectos presentes en el modelo. • Distribución normal de los errores: Se asume que los errores aleatorias normalmente distribuidas.
son variables
• Incorrelación de errores: Los errores son variables aleatorias independientes entre sí. • Homogeniedad de varianza: Los errores son variables aleatorias con media cero y varianza homogénea 2. Variación Total = Variación entre niveles + Variación dentro de niveles
31
Variación Total = Variación entre niveles + Variación dentro de niveles
MEDIA GENERAL MEDIA
5.2433
7.3733
5.1666
4.96
5.6858
32
I
ni
SC error eˆi2 i 1 j 1
MEDIA
5.2433 I
7.3733
5.1666
eˆij yij yi
4.96
ni
ˆij2 2,243332 (1,94333) 2 .... 0,162 192,631 SC error e i 1
j 1
¿Existirá diferencias estadísticamente significativas entre la longitud promedio del tallo, al ser sembradas en cuatro tipos de suelos diferentes?
; 119 Ftab F1 I 1; n I F03.95 2.68
33
H 0 : 1 2 3 4 H 1 : Al menos dos i difieren
Dos vías para decidir •Estadígrafo
Yi i ei
•P-valor
FACTOR SUELO
AL MENOS DOS LONGITUDES PROMEDIO DIFIEREN DEBIDO AL TIPO DE SUELO OTRA VÍA
p rechazar H 0 / H 0cierta
entonces
rechazo a H 0
P-valor <0.05 entonces rechazo a Ho 0.0000 <0.05 entonces rechazo a Ho AL MENOS DOS LONGITUDES PROMEDIO DIFIEREN DEBIDO AL TIPO DE SUELO
EJERCICIO. Procesar LOS DATOS por el software estadístico???
34
ANOVA
AL MENOS DOS LONGITUDES PROMEDIO DIFIEREN DEBIDO AL TIPO DE SUELO
¿Cuáles difieren?????’ DOCIMAS DE COMPARACIÓNES MÚLTIPLES
PRUEBAS O DÓCIMAS DE COMPARACIONES MÚLTIPLES Una vez efectuado un Análisis de Varianza y rechazada la igualdad de medias de un efecto
Se requiere determinar cuales son los que difieren
PRUEBAS O DOCIMAS DE COMPARACIONES MÚLTIPLES •M.D,S- Prueba de Mínima Diferencia Significativa. •Prueba de comparaciones Múltiples de Duncan •Prueba de comparaciones Múltiples de Tukey. •Prueba de comparación con un control de Dunnett •Otras.
35
¿¿¿Interpretación de resultados??
DOCIMAS DE COMPARACIÓN MÚLTIPLES
EJERCICIO. En un experimento se estudió el comportamiento del rendimiento de una variedad de calabaza sometidas a 5 ambientes diferentes de estrés de temperatura y humedad. Los resultados se presenta en la siguiente tabla: Ambientes
media
E1
E2
E3
E4
E5
8.44
5.01
3.50
8.29
6.33
8.57
5.63
3.60
8.27
6.37
8.93
5.42
3.70
8.10
5.90
9.01
5.87
3.10
8.90
5.90
9.00
5.37
3.45
8.80
5.35
8.58
5.53
2.83
8.97
5.57
8.75
5.47
3.36
8,55
5.90
Diseño Completamente aleatorizado, cinco tratamientos , seis réplicas o repeticiones.
36
Modelo que describe la información
Yij i eij Yij - rendimiento de la i-esima repetición del tratamiento i. μ - es el promedio general αi
-
eij
-
es el efecto del ambiente (E) i es el error aleatorio correspondiente a la j-esima repetición del tratamiento i.
H 0 : 1 2 3 4 5
H1 : Al menos dos i difieren
Yi i ei
37
H 0 : 1 2 3 4 5
H1 : Al menos dos i difieren p rechazar H 0 / H 0 cierta entonces rechazo a H 0 0.000
<
0.05
Existen diferencias significativas entre los rendimientos promedios alcanzados en los diferentes ambientes
¿Cuáles difieren???????????
Emita sus criterios de los resultados alcanzados en la presente investigación
38
MATERIALES Y MÉTODOS Se utilizó un diseño completamente aleatorizado, y se observó el rendimiento (t/ha) bajo cinco tipos de ambientes diferente (DESCRIBIR LOS AMBIENTES), se realizaron seis replicas por tratamiento para un total de 30 observaciones. Para caracterizar en rendimiento en cada ambiente se utilizó una estadística descriptica (media , error estándar y coeficiente de variación) y se realizó un Análisis de Varianza (ANOVA) simple para comparar los rendimientos promedios, así como la docima de Duncan en caso de diferencias significativas. Para el procesamiento de la información se realizó mediante el software……
RESULTADOS Y DISCUSIÓN
ANOVA SIMPLE ANOVA DOBLE ANOVA MULTIFACTORIAL
Suponga que se desea analizar la altura a los 21 días de sembrado de cierta variedad de maíz (cm), teniendo en consideración los cuatro tipos de suelos y tres sistemas de riego, y se disponen de 10 observaciones por combinación de tratamientos, el resto de las condiciones del experimento son homogéneas. De acuerdo a esta problemática, ¿Que análisis y herramientas usted emplearía para caracterizar, describir y comparar los resultados alcanzados?
Yij i j eij Factor Riego
Factor Suelo
Factor Riego H 0 : RAS RA RL
Factor Suelo
H1 : al
H1 : al menos dos difieren
menos dos difieren
H 0 : S1 S 2 S 3 S 4
39
Tipo de riego
Tipos de suelos Csuelo
vermicompost
3 1/3
4 1/4
RAs
3 3,3 4,1 4,6 7 6,4 4,2 4 5 4,3
8 8 8 8 8,3 7,3 8 7,7 7,3 7,1
5,9 6,4 2,4 4 5,1 4,6 6,2 6,3 5,9 6,4
6,2 6,3 6,2 4,1 4 2,2 6,6 6,4 6,7 4,3
RA
4,6 5,1 5,5 6 6 5 5,3 5,1 3 7,3
6,6 6,2 6,5 7,2 8 8 8 8 8,3 7,3
2,4 4 5,1 4,6 6,2 6,3 5,9 6,4 2,4 4
4,4 2,5 2,6 6,2 6,3 6,2 4,1 4 2,2 6,6
RL
7,5 5,3 5,8 5,9 6 7 7,6 3,2 6 4,2
8 7,7 7,3 7,1 6,6 6,2 6,5 7,2 6,5 6,3
5,1 4,6 6,2 6,3 6,5 5,2 5,5 6,3 2,5 6,3
6,4 6,7 4,3 4,4 2,5 2,6 6,9 6,8 5,3 4,8
ANOVA MULTIFACTOR
¿Cómo entrar los datos?? ¿Cómo procesar la información??
40
En una investigación Agropecuaria se desea analizar el rendimiento de cierta variedad de maíz teniendo en consideración cuatro tipos de suelos diferentes (c.suelo, vermicompost, 1/3, 1/4) . Por tal motivo se realizaron estudios previos, donde se observó la longitud del tallo (en cm) de estas plantas al cabo de los 21 días, para un total de 120 observaciones (30 observaciones por tipo de suelo).
Equipo 1 C. suelo Equipo 2 S. vermicompost Equipo 3 1/3 Equipo 4 1/4
•
v.a Longitud del tallo
•
v.a. continua
¿Existirá diferencias estadísticamente significativas entre la longitud promedio del tallo alcanzada en las plantas sembradas en los diferentes tipos de suelo y tipos de riego??
Yij i ( suelo) j ( riego) eij FACTOR SUELO
H 0 : CS VC 13 14 H1 : al menos dos difieren FACTOR RIEGO
H 0 : RAs RA RL H1 : al menos dos difieren
41
Factor riego
0.467 < 0.05 NO existen diferencias significativas en al menos dos alturas promedios debido al factor riego
Factor suelo
0.000 < 0.05 Existen diferencias significativas en al menos dos alturas promedios debido al factor suelo
Interacción entre los factor riego y suelo
42
Interacción entre los factor riego y suelo
EJERCICIO. En una investigación realizada sobre la calibración de una asperjadora, se observó el gasto en litros/minuto a diferentes niveles de presión (2, 5, 8, 10 kg/cm2). ¿Existen diferencias significativas en el gasto promedio (litros/minuto) que se obtiene en los diferentes niveles de presión (2, 5, 8, 10 kg/cm2)
43
Comparar medias en cuatro poblaciones
ANOVA SIMPLE H 0 : P 2 P 5 P 8 P10 H1 : Al menos dos i difieren
Yi i ei
H 0 : P 2 P 5 P 8 P10 H1 : Al menos dos i difieren
p rechazar H 0 / H 0 cierta entonces rechazo a H 0 0.000
<
0.05
Existen diferencias significativas entre al menos dos promedios de cantidad de L/min que se obtienen debido a los diferentes niveles de presión
44
Cuáles difieren????
En la una Empresa Azucarera se quiere evaluar el rendimiento agrícola de caña de Azúcar logrado por la aplicación de tres tecnologías de preparación de suelo: Laboreo Tradicional (LT), Laboreo Mínimo con inversión del prisma de suelo (LM) y Laboreo Localizado (LL) Se cuenta con los datos brindados en toneladas por hectárea por un experimento montado con las tres variantes y seis réplicas. De acuerdo a esta problemática, ¿Que análisis y herramientas usted emplearía para caracterizar, describir y comparar los resultados alcanzados? Utilice un software estadístico para el procesamiento de la información e interprete los resultados alcanzados
45
Situación problémica Se desea probar el efecto de 5 distancias de siembra sobre el rendimiento (en t/ha) de cierto cultivo, el cual ha sido preparado con la misma tecnología de preparación de suelos. Se dispone de 20 parcelas con características similares de tipo de suelo, condiciones climáticas y de manejo pero se conoce por la topografía del terreno, que puede haber variación en la fertilidad del suelo en un solo sentido, de menos a más fertilidad y se debe tener en cuenta a la hora de diseñar el experimento
El diseño a aplicar, ¿será el completamente al azar? Por qué? No, porque las unidades experimentales no son homogéneas.
¿Qué Diseño experimental debe aplicarse? Diseño de bloques al azar MODELO QUE DESCRIBE LA SITUACIÓN
Yij i j eij
Datos. Después de aplicar el diseño v,a. rendimiento (t/ha)
DISTANCIA
F E R T I L I F A D
T1
T2
T3
T4
T5
I
0,9
2,3
3,6
2,7
0,5
II
1,4
1,8
3,2
2,3
3,6
III
1,4
2,3
4,5
2,3
2,7
IV
2,3
2,3
4,1
1,9
0,9
BLOQUE
46
T1
T2
T3
T4
T5
BLOQUE
I
0,9
2,3
3,6
2,7
0,5
II
1,4
1,8
3,2
2,3
3,6
III
1,4
2,3
4,5
2,3
2,7
IV
2,3
2,3
4,1
1,9
0,9
H 0 : T 1 T 2 T 3 T 4
H1 : Al menos dos i difieren
47
observ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
observ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
C,suelo S.vermicompost tall 1/3 3 8 5,9 3,3 8 6,4 4,1 8 2,4 4,6 8 4 7 8,3 5,1 6,4 7,3 4,6 4,2 8 6,2 4 7,7 6,3 5 7,3 5,9 4,3 7,1 6,4 4,6 6,6 2,4 5,1 6,2 4 5,5 6,5 5,1 6 7,2 4,6 6 8 6,2 5 8 6,3 5,3 8 5,9 5,1 8 6,4 3 8,3 2,4 7,3 7,3 4 7,5 8 5,1 5,3 7,7 4,6 5,8 7,3 6,2 5,9 7,1 6,3 6 6,6 6,5 7 6,2 5,2 7,6 6,5 5,5 3,2 7,2 6,3 6 6,5 2,5 4,2 6,3 6,3
tall 1/4 6,2 6,3 6,2 4,1 4 2,2 6,6 6,4 6,7 4,3 4,4 2,5 2,6 6,2 6,3 6,2 4,1 4 2,2 6,6 6,4 6,7 4,3 4,4 2,5 2,6 6,9 6,8 5,3 4,8
C,suelo S.vermicompost tall 1/3 3 8 5,9 3,3 8 6,4 4,1 8 2,4 4,6 8 4 7 8,3 5,1 6,4 7,3 4,6 4,2 8 6,2 4 7,7 6,3 5 7,3 5,9 4,3 7,1 6,4 4,6 6,6 2,4 5,1 6,2 4 5,5 6,5 5,1 6 7,2 4,6 6 8 6,2 5 8 6,3 5,3 8 5,9 5,1 8 6,4 3 8,3 2,4 7,3 7,3 4 7,5 8 5,1 5,3 7,7 4,6 5,8 7,3 6,2 5,9 7,1 6,3 6 6,6 6,5 7 6,2 5,2 7,6 6,5 5,5 3,2 7,2 6,3 6 6,5 2,5 4,2 6,3 6,3
tall 1/4 6,2 6,3 6,2 4,1 4 2,2 6,6 6,4 6,7 4,3 4,4 2,5 2,6 6,2 6,3 6,2 4,1 4 2,2 6,6 6,4 6,7 4,3 4,4 2,5 2,6 6,9 6,8 5,3 4,8
RAS
RA
RL
48
49