Entrenamiento Stata 14 Miguel Angel Bello Instructor
Contenido del curso Manejo Básico 1. Introducción: •. ¿Qué es Stata? •. Versiones de Stata •. Ventajas y desventajas
4. •. •. •. •.
Gráficos Línea Torta Scatter Histogramas
2. Manejo de la interfaz •. Ventanas y Menús •. Tipos de Archivos •. Sintaxis de los comandos
5. Análisis de datos •. Estadística básica •. Tablas (frecuencias, cruzadas, etc)
3. Manejo de Base de datos •. Abrir, importar, exportar y guardar datos •. Creación, transformación, eliminación de variables y observaciones •. Filtros •. Combinar bases de datos •. Labels (variables y observaciones)
6. Inferencia Estadística •. Pruebas sobre la media, varianza y proporciones •. Intervalos de confianza.
Manejo Intermedio Regresión lineal
Modelos de selección discreta (Logit-Probit)
¿Qué es Stata? Stata es un paquete estadístico operado por líneas de comando por líneas de comando , por lo cual se define como un lenguaje de programación, aunque también funciona bajo entorno grafico (por la barra menú). Ofrece la flexibilidad como también múltiples herramientas para el manejo de base de datos, y opciones de gráficos, lo cual facilita al principiante aprender a manejarlo. Adicionalmente, desde el programa se puede acceder a actualizaciones y bases de datos disponibles en internet.
Versiones de Stata help limits
Small Stata
Versión estudiantil de Stata
Intercooled Stata
Versión estándar de Stata
Stata/SE
Versión especial de Stata para manejo de base de datos grandes.
Stata/MP
Versión especial de Stata diseñada para trabajar en equipos con más de un procesador o núcleo (2 a 32 procesadores).
Ventajas y Desventajas Ventajas
Desventajas
1. Uso combinado de lenguaje de programación 1. Solo esta disponible en el idioma ingles y ventanas. (programación). 2. Manuales disponibles con información especializada. 3. Actualización permanente con solo tener a internet. 4. Libros técnicos especializados con aplicaciones en Stata. 5. Es usado en las principales instituciones de investigación, universidades, empresas públicas y privadas alrededor del mundo. 6. Versiones para sistemas operativos Linux, Windows y Mac. 7. Módulos especializados para análisis micro y macro. 8. Programación Matrices
Ventana de revisión
Manejo de la Interfaz de Stata
Ventana de variables
Ventana de resultados Ventana de propiedades de variables Ventana de comandos
Menús Barra de nombre Barra de menús Barra de herramientas
Tipos de archivos Tipo de Archivo Archivos de datos Archivos gráficos Bitácoras de salida Archivos de comandos Archivos de programación Programación Diccionarios
Extensión *.dta *.gph *.smcl *.do *.ado *.mata *.dct
Sintaxis de los comandos help syntax help regress
Manejo de bases de datos Abrir y exporta una base de datos
Creación de variables help generate
Operadores lógicos y matemáticos Tipo de operador
Símbolo
Descripción
Matemático
+ * / ^
Adición Substracción Multiplicación División Potencia
Lógico
! | &
No O Y
Relacionales
> < >= <= == !=;~=
Mayor Menor Mayor o igual que Menor o igual que Igual Diferente
Transformación de variables help replace
de variables
Eliminar y conservar variables
Filtros help browse; help list; help table
Combinar bases de datos help append
Para combinar dos bases de datos de manera vertical se debe tener EXACTAMENTE los mismos nombres en ambas bases de datos
Combinar dos bases de datos help merge
Labels (Variables & Values)
Gráficos scatter
Gráficos Tortas y Barras
Gráficos Correlaciones
Análisis de datos: Manejo de tablas de datos help summarize
Análisis de datos: Manejo de tablas de datos
Produce un cuadro de frecuencias para diferentes valores o categorías de una variable. También permite generar cuadros de frecuencia de 2 vías, incluyendo la prueba Pearson, donde la hipótesis nula es que estas dos variables son independientes.
Análisis de datos: Manejo de tablas de datos
Permite crear tablas de contingencia doble o múltiple y a su vez definir el tipo de contenido estadístico para los campos de una tabla
Introducción a la regresión
¿Qué es?
La regresión como técnica estadística analiza la relación de una variable desconocidas a partir de una o mas variables conocidas.
•
A pesar de que el análisis de regresión tiene que ver con la dependencia de una variable respecto a otras variables, esto
no
implica
causalidad
necesariamente. •
¿Para qué sirve?
Estimar y/o predecir el valor promedio poblacional de la variable dependiente en términos de los valores conocidos o fijos de las variables independientes. Objetivos: Predecir y evaluar su estructura.
Las ideas de causalidad deben venir de estadísticas
externas
y, en
último
termino de una u otra teoría. •
Para aducir causalidad se deben acudir a consideraciones a priori o teóricas.
Introducción a la regresión REGRESIÓN
•
En el análisis de correlación el objetivo principal es medir la fuerza o el grado de asociación lineal entre dos variables. En el análisis de regresión se trata de estimar o de predecir el valor promedio de una variable sobre la base de valores fijos de otras variables.
•
El análisis de regresión supone asimetría en los valores, por un lado una variable dependiente aleatoria,
CORRELACIÓN
y por otro lado, una variable independiente con valores fijos.
Fases del modelo de regresión
Validación
Estimación
Pruebas individuales.
Partiendo de una función lineal entre dos variables, se puede estimar una relación de tal manera que la variable independiente
explique
de
manera
exclusiva
el
comportamiento de la variable dependiente, este modelo de regresión es llamado determinístico
Donde β0 y β1, representan respectivamente, el valor de corte con el eje de las ordenadas cuando la variable independiente toma el valor de cero y la pendiente de la recta de la regresión.
Pronóstico
Especificación
Dependencia lineal Se debe encontrar una recta que se ajuste a la nube
R cuadrado y R cuadrado ajustado.
de punto.
Homocedasticidad
A partir de esta recta podemos usar los valores de X
No autocorrelación
para predecir los de Y.
No multioclinealidad
Normalmente se utiliza el método de los mínimos
Independencia
cuadrados
independientes.
que
minimiza
observaciones a la recta.
la
distancia
de
las
del
error
Modelo bien especificado Estabilidad de los coeficientes.
con
las
variables
Análisis de regresión: Selección de variables Analista
¿Qué sucede si no existe ninguna consideración a priori o teoría para seleccionar las variables del modelo?
Cr se iteri le os cc d ió e n
Mejor bondad de ajuste
1. 2. 3.
Valor del coeficiente de determinación. Coeficiente de correlación parcial entre cada variable independiente y la dependiente. El grado de reducción de error típico cada vez que se incorpora una variables.
Mé t se odo le c s d c ió e n
Existen diferentes métodos para seleccionar variables independiente. Los de mayor aceptación son los métodos de selección por pasos (stepwise) 1. Se selecciona la mejor variable de acuerdo algún criterio estadístico. 2. A continuación, la mejor de las restantes. 3. Así sucesivamente hasta que no se encuentre variables significativas.
Métodos de selección de la variables 1. Método hacia delante: * Las variables se incorporan al modelo de regresión una a una. * PRIMER PASO: se selecciona la variable independiente que, además de superar criterios de entrada, presente un alto grado de correlación. * SEGUNDO PASO: se van incorporando al modelo las variables que posean un coeficiente de correlación parcial alto en valor absoluto. La selección de variables se detiene cuando no quedan variables que superen el criterio de entrada. 2. Método hacia atrás * Comienza incluyendo en el modelo todas la variables independientes, para luego proceder a eliminarlas una a una. * PRIMER PASO: se elimina aquella variable que, además de cumplir los criterios de salida, posee el coeficiente de regresión mas bajo en valor absoluto. * SIGUIENTES PASOS: se van eliminando las variables con coeficientes de regresión no significativos. La eliminación de variables se detiene cuando no quedan variables que cumplan los criterio de salida 3. Pasos sucesivos……es una mezcla de los dos métodos anteriores.
Formas Funcionales de los Modelos de Regresión • Nota previa
–Supongamos que tenemos una variable y –Esta variable puede transformarse a Logaritmo natural de y –La derivada del ln(y) es equivalente a:
• Medir la elasticidad: Modelo Log-Lineal –Consideremos un modelo de regresión exponencial
Formas Funcionales de los Modelos de Regresión • Medir la elasticidad: Modelo Log-Lineal
–Consideremos un modelo de regresión exponencial
La principal característica de este modelo es que el coeficiente que acompaña las variables independientes mide la elasticidad constante de Y respecto de X, es decir, el cambio porcentual en Y ante un pequeño cambio porcentual en X . En la notación de cálculo, la elasticidad se define como:
Formas Funcionales de los Modelos de Regresión • Medir tasas de crecimiento: Modelo Semilogarítmico Log-Lin
Si se multiplica por 100 , dará entonces el cambio porcentual o la tasa de crecimiento instantánea (en un momento dado), en Y ocasionada por un cambio absoluto en X. Para estima la tasa de crecimiento compuesta se debe sacar el antilogaritmo de y restarle uno
Formas Funcionales de los Modelos de Regresión • Modelo Lin-Log:
En este caso debe ser divida entre 100 para mostrar un cambio absoluto en Y dado por un cambio en 1% en X.
Formas Funcionales de los Modelos de Regresión • ¿Que forma funcional se debe elegir? –Mirar la bondad de ajuste con un grafico de dispersión con ajuste lineal siempre y cuando sea regresión simple. –Sugerencias a partir de la teoría y consideraciones a priori (signos que se deben esperar). –Comparación e interpretación de coeficientes modelos (tasa de cambio y elasticidad). –Comparación de R cuadrados ajustados, sin embargo, se debe tener una mayor preferencia por: justificación teórica, signos de los coeficientes estimados y su importancia estadística. – En ocasiones no es fácil ponerse de acuerdo con una forma funcional u otra, en tal caso se puede usar las transformaciones Box-Cox.
Modelos ANOVA • Inclusión de variables de escala nominal que permiten analizar, manteniendo constantes variables de escala de
razón, el comportamiento de la variable dependiente. Esta variables toman valores artificiales dependiendo de la presencia o ausencia de un atributo. Las variables que adquieren tales valores 0 y 1 se llaman variables dicotómicas. Tales variables son, por tanto, en esencia, un recurso para clasificar datos en categorías mutuamente excluyentes. • El Modelo ANOVA, es un modelo de regresión que contienen variables explicativas exclusivamente dicótomas o cualitativas. El modelo tiene la siguiente expresión:
Donde es la variable dependiente, es el valor medio de la categoría base y es el coeficiente de intercepto diferencial.
Modelos ANOVA • Para tener en cuenta: 1. No incluir todas las categorías que pueda tener una variables, esto generaría colinealidad perfecta, es decir una relación lineal exacta entre variables. Es imposible estimar un modelo de este tipo (incluyendo la constante). De esta manera, si una variable cualitativa tiene m categorías, sólo hay que agregar (m-1) variables dicótomas. 2. La categoría a la cual no se asigna variable dicótoma se conoce como categoría base, de comparación. Además, todas las comparaciones se hacen respecto de la categoría de comparación. 3. El valor del intercepto representa el valor medio de la categoría de comparación. 4. Los coeficientes que acompañan las variables categóricas se conocen como coeficientes de intercepto diferencial, debido a que indican la medida en que el valor de la categoría que recibe el valor de 1 difiere del coeficiente del intercepto correspondiente a la categoría de comparación
Modelos ANOVA • Interpretación de variables dicótomas en regresiones semilogarítimicas
El intercepto proporciona el logaritmo medio y el coeficiente de la pendiente, la diferencia entre el logaritmo entre las dos categorías. Si se toma el antilogaritmo de , lo que ahora se tendría no es el valor medio de la variable dependiente, sino la mediana. Y si se toma el antilogaritmo de (+, se obtiene la mediana de la variable categórica. El antilogaritmo de es la semielasticidad de la variable dicotómica.
Resumen: Interpretaciones de coeficientes Forma Funcional
Interpretación Elasticidad: es el cambio porcentual esperado de Y ante un cambio porcentual en X. Cambio esperado en nivel en Y ante un cambio porcentual en X. se debe dividir entre 100 para su interpretación. Semi-elasticidad: es el cambio porcentual esperado de Y ante un cambio marginal en X. se debe multiplicar por 100 para su interpretación. Efecto marginal: cambio esperado en nivel en Y ante un cambio marginal en X. es la media de la categoría que esta como base. es el cambio diferencial de la categoría que toma el valor de 1 con respecto a la categoría base. Exp( es la mediana de la categoría base. Exp(+) es la mediana cuando la categoría de esta variable toma el valor de 1. Exp()1*100 es el cambio porcentual de estar en esa categoría con respecto a la categoría base.
MODELOS DE SELECCIÓN DISCRETA Modelos de regresión donde la variable dependiente es binaria o dummy. Por ejemplo: Un modelo que trata de explicar los factores determinantes de que una familia sea propietaria de una casa. En particular, cuantificar la relación ingreso y propiedad. Determinar los factores que afectan a que una persona pague o no pague una deuda con una institución financiera. Para el caso de ser propietario de una casa, se selecciona una muestra de hogares y se registra el ingreso y si la familia es propietaria o no de una casa. El modelo puede expresarse de la siguiente manera:
Donde Yi=1 si el hogar es propietario de su casa y cero en caso contrario y Xi es el ingreso del hogar i.
MODELOS DE SELECCIÓN DISCRETA Se puede aplicar el técnica de mínimos cuadrados ordinarios, modelo de probabilidad linela –MPL- pero existen cinco inconvenientes. 1. Las predicciones del modelo no necesariamente estarán entre cero y uno. 2. No normalidad de los errores; considérese el termino de error, para un valor dado de Xi el término del error solo puede tomar uno de los siguientes dos valores. Cuando Yi=0 el error seria igual a Cuando Yi=1 el erro seria igual a De esta manera los errores no se distribuyen como una normal (Lo hacen como una distribución binomial. 3. Se puede demostrar que los errores son heterocedástico. 4. Coeficientes de determinación muy bajos. 5. Probabilidad marginal constante.
MODELOS DE SELECCIÓN DISCRETA Restricciones del modelo Solución
1. La probabilidad marginal constante de un cambio en el ingreso sobre la probabilidad de ser propietario (Beta). Se esperaría un efecto bajo para ingresos muy altos y muy bajos, y un efecto mayor para
ingresos promedio.
Esto implicaría una
relación de este tipo: probabilidad de ser propietario e ingreso. 2. La relación es no lineal. 3. La variable dependiente esta restringida entre cero y uno.
Función logística
Función de distribución normal acumulada
MODELOS DE SELECCIÓN DISCRETA: Logit Expresando el modelo explícitamente términos de probabilidades tenemos
en
Se define la razón de probabilidades (Odds Ratio) como: En el caso de la propiedad de las casas representa la razón de la probabilidad de que una familia posea casa respecto de la probabilidad que no la posea. Por ejemplo, si Pi=0.8 significa que las probabilidades son 4 a 1 a favor de que la familia posea una casa.
1
p 0.8
0.6
Si se toma el logaritmo natural de la razón de probabilidades se obtiene
0.4
0.2
0
X
De esta manera Li resulta lineal X y también en los parámetros . L es llamado modelo Logit.
MODELOS DE SELECCIÓN DISCRETA: Probit La aproximación al problema es similar al Logit pero supone una relación no lineal distinta (aunque muy similar ente Xi y Pi. Se basa en la distribución normal acumulada. Se supone que la decisión de poseer o no una casa depende de un índice I (Conocido como variable latente). El índice I está determinado por una o varias variables explicativas. Por ejemplo, el ingreso. Cuanto mayor sea el índice, mayor será la probabilidad de tener una casa.
Se supone un umbral critico I* a partir del cuál, si I supera I* entonces una familia posee una casa. El umbral I*, al igual que I no es observable. Si se supone que esta distribuido normalmente con la misma media y varianza, es posible estimar los praemtr4os del índice y también alguna información sobre el I*.
MODELOS DE SELECCIÓN DISCRETA: Probit
Donde Z es una variable estándar normal, con media cero y varianza constante. F es la función de distribución de probabilidad acumulada. De esta manera:
MODELOS DE SELECCIÓN DISCRETA: Probit 1
Pi = F(Ii)
p 0.8
Pr (I*i≤ Ii)
0.6
0.4
0.2
0
Ii = + Xi
X
Series de tiempo Muchas de la series de tiempo se comportan en función del tiempo. La econometría ha desarrollado métodos para el tratamiento de este tipo de datos. Estos métodos consisten en descomponer la parte determinística y separarla del componente aleatorio. • Determinístico: supone que no existe aleatoriedad en la información de la variables,
por lo tanto, cuando se realiza un modelo, se tiene con “certeza toda la información”. • Estocástico: no existe toda la información disponible, por lo tanto, existe
incertidumbre.
Componentes de una serie de tiempo •
Es importante reconocer e identificar los patrones de comportamiento que presenta la serie de tiempo a través de los periodos, t. Este procedimiento de identificación se llama descomposición. Una serie de tiempo presenta cuatro componentes
principales;
la
tendencia,
el
estacionalidad y el componente irregular de la serie.
ciclo,
la
Descomposición: Tendencia •
Tendencia, : son movimientos a lo largo de una serie de tiempo, estos movimientos son de largo plazo. La tendencia es el componente que representa el crecimiento (o la declinación) subyacente en una serie de tiempo, durante un periodo extenso. Para una serie de tiempo con tendencia, el nivel de la serie no es contante, en otras palabras, es una serie no estacionaria
Descomposición: Ciclo • Ciclo, : son fluctuaciones en forma de onda alrededor de la tendencia y corresponde a un
componente de largo plazo, por tanto, tienen una duración de más de un año. Las fluctuaciones indican aumentos y caídas que no tienen un periodo fijo; los ciclos se identifican por lo general en cinco fases, para el ciclo de los negocio: auge, crisis, recesión, depresión y recuperación; y para el ciclo de vida de un producto: introducción, crecimiento, madurez, saturación y declive. Los patrones cíclicos son difíciles de modelar porque sus patrones generalmente son inestables, al ser difíciles de identificar y complejos de separar de la serie tendencial, con frecuencia el ciclo de la serie de tiempo se le atribuye como parte de la tendencia, para formar así un componente , que contiene el componente tendencia-ciclo
Descomposición: Estacionalidad •
Estacionalidad, : es una serie de tiempo con un patrón de cambio que se repite a si mismo año tras año. Es un cambio más o menos estable que aparece regularmente a lo largo del tiempo. En otras palabras es un componente de corto plazo que se repite periódicamente en periodos inferiores a un año (casa “S” periodos). Para datos anuales, la estacionalidad no tendría sentido estimarla porque no existe la posibilidad de modelar un patrón con datos que se recopilan una vez por año.
Descomposición: Irregular •
Irregular, : es un componente de corto plazo que captura las fluctuaciones impredecibles o aleatorias que se presentan por sucesos inusuales y no corresponden a los tres componentes antes mencionados, por lo tanto, su comportamiento es un efecto residual de la serie de tiempo.
Modelos de predicción determinista Promedio móvil simple: se utiliza para suavizar una series, es decir, elimina los picos de una serie, en otras palabras elimina los componentes de corto plazo para visualizar mejor los de largo plazo (tendencia y ciclo). También se utiliza para pronosticar. El promedio móvil es un modelo de pronóstico cuyo nuevo valor incorpora la información mas reciente y elimina la observación mas antigua.
Modelos de predicción determinista • Promedio móvil doble: una manera de pronosticar los datos de las series de tiempo que tienen una tendencia lineal es usar promedios móviles dobles.
, es un factor de ajuste adicional, es similar a la medida de cambio a lo largo de la serie.
Modelos de predicción determinista • Modelo de suavizamiento exponencial: es un modelo de pronóstico cuyo nuevo valor es un promedio
ponderado de los valores actuales y pasados. A diferencia del promedio móvil, el suavizamiento incluye toda la información disponible y pondera mas las observaciones recientes.
La expresión anterior representa la fórmula del suavizamiento exponencial donde α corresponde a la constante de suavizamiento o factor de ponderación, es decir, determina el grado de influencia sobre el pronóstico de la observación mas reciente ; representa el valor de la serie en el periodo t. es el valor pronosticado de la serie en el periodo t y es el valor a predecir de la serie en el periodo siguiente
Modelos de predicción determinista •
Método de Holt: modelos de dos parámetros, este método suaviza la estimación de la tendencia de la serie de tiempo.
Modelos de predicción determinista • Método de Holt-Winter: el método de suavización exponencial lineal y estacional de tres parámetros de Winters, es
una extensión del método de Holt que podría representar mejor los datos y reducir el error del pronóstico cuando existe un patrón de estacionalidad. En el método de Winters se emplea una ecuación adicional para estimar la estacionalidad
Resumen: Métodos de predicción determinista
NO ESTACIONALIDAD • SIN TENDENCIA
CON TENDENCIA
PROMEDIO SIMPLE.
MÓVIL
•
SUAVIZAMIENTO EXPONENCIAL SIMPLE
•
PROMEDIO MÓVIL DOBLE.
•
SUAVIZAMIENTO EXPONENCIAL DOBLE.
CON ESTACIONALIDAD •
ADITIVO ESTACIONAL.
•
MULTIPLICATIVO EXPONENCIAL.
•
ADITIVO HOLT-WINTERS.
•
MULTIPLICATIVO HOLTWINTERS.
¿Qué modelo evaluar? • MAD “Desviación media absoluta”: Mide la exactitud del pronóstico , promediando la magnitud de los errores.
• MSE “Error cuadrático medio”: Sanciona errores grandes en la elaboración de pronósticos.
• RMSE “Raiz cuadrada MSE”
¿Qué modelo evaluar? • MAPE “Error porcentual absoluto medio”
• MPE “Error porcentual medio”: Mide el sesgo del pronóstico. • Coeficiente de desigualdad de Theil: Permite analizar la bondad de ajuste del modelo. un coeficiente cercano a cero, indica igualdad entre el valor observado y el valor estimado.
Teoría económica de los modelos de series de tiempo •
• Si el objetivo es explicar el valor que toma, en un momento determinado del tiempo, un fenómeno económico que muestra dependencia temporal, un procedimiento factible consiste en recoger información sobre su evolución a lo largo del tiempo, y explotar el patrón de regularidad que muestran los datos. • Para construir un modelo de series de tiempo, lo único que se necesita es la información muestral de la variable a analizar. • Si se desea explicar el comportamiento de una variable temporal Yt, un modelo de series temporales puede plantearse como:
Teoría económica de los modelos de series de tiempo • AR(1) Modelo autorregresivo
Teoría económica de los modelos de series de tiempo • AR(1) Modelo autoregresivo
El coeficiente mide el grado de asociación lineal entre Yt y Yt-k, siendo k el orden del rezago. Ahora se aplica varianzas a cada lado:
Teoría económica de los modelos de series de tiempo •
Algunas características de las series financieras
1. 2. 3. 4. 5. 6. 7.
Fuertes tendencias. Difícil de distinguir tendencias y ciclos. Ciclos estocásticos, difíciles de predecir. Comportamientos estacionales marcados Oscilaciones muy erráticas, no hay tendencias ni ciclos obvios. Covariaciones sugerentes. Cambios estructurales.
Algunas características de las series financieras
La serie muestra: Un perfil creciente (tendencia). Fluctuaciones estacionales. Una variabilidad que crece a medida que aumenta el nivel de la serie
La serie muestra: Una fluctuación estable en torno a una media nula. Muestran periodos de alta y baja volatilidad.
Los primeros y segundos momentos (media y varianza) de distintas series temporales pueden comportarse de formas muy diferentes. Las series temporales de naturaleza similar (por ejemplo, financieras) a menudo presentan rasgos comunes que son de gran utilidad para analizarlas.
Conceptos básicos • Proceso estocástico es un conjunto de variables aleatorias asociadas a distintos instantes de tiempo de manera sucesiva. Una serie de tiempo es la realización particular de un proceso estocástico. • Serie temporal es un conjunto de observaciones o medidas realizadas secuencialmente en intervalos predeterminados y de igual, o aproximadamente igual, duración. • El objetivo del análisis de series temporales es inferir la forma del proceso estocástico a partir de las series temporales que genera. • Proceso estocástico estacionario es cuando los parámetros como media y varianza son constantes en el tiempo y los valores de la covarianza entre dos periodos no depende del tiempo sino de la distancia o rezago que hay entre dos periodos.
Principales hipótesis • Los supuestos más comunes son:
–Linealidad, el valor que toma hoy la serie (o el proceso) depende linealmente de sus valores pasados y los valores presentes y pasados de otras series.
–Estacionariedad, la media y varianza incondicional de una serie (o proceso) son constantes, las autocovarianzas entre dos valores solo dependen de la distancia temporal que los separa. Formalmente:
–Normalidad, el proceso estocástico generado sigue un modelo normal de distribución de probabilidad.
Procesos estocásticos elementales ••
Proceso puramente aleatorio o Ruido Blanco.
Es el proceso mas aleatorio que existe. Es por construcción estacionario. Es una colección de variables aleatorias con media cero y no correlacionadas entre ellas.
Un proceso ruido blanco no es posible pronosticar utilizando modelos ARIMA. Un proceso Ruido Blanco no tiene memoria, es decir, que el último dato conocido recoge toda la información histórica disponible. • Paseo aleatorio, un paseo aleatorio representa una variable cuyos cambios son ruido blanco y, por tanto, imprevisibles. La característica fundamental de este proceso es la falta de afinidad de las series a una media estable.
Procesos estocásticos elementales ••
Modelos de series de tiempo
Hasta el momento t-1 se tiene los valores pasados de la serie y las innovaciones pasadas. Según la información disponible, hay tres tipos de modelos: Modelos de medias móviles (MA) Modelos autoregresivos (AR) Modelos Mixtos (ARMA)
Modelos ARIMA • SUPUESTOS: 1.
Toda serie de tiempo ha sido generada por un proceso estocástico cuya naturaleza puede ser caracterizada o descrita mediante un modelo.
2.
Dicho modelo no se presenta en los términos tradicionales de una relación y de otras variables sino en esta caso el valor de la serie depende de su pasado, es decir, de sus propios rezagos.
3.
Se requiere que la serie a modelar sea estacionaria. •.FASES DEL MODELO:
1.
Identificación
2.
Estimación
3.
Validación del modelo
4.
Pronóstico
Fase de identificación • Proceso estadístico que genero la serie, para identificar el proceso se requiere de herramientas graficas y estadísticas. –Grafico –Correlograma: representación grafica del diagrama de dispersión entre los coeficientes de correlación y el orden del rezago. A medida que aumenta el orden del rezago, el coeficiente de autocorrelación tiende a cero. -1
0
1
El área que esta entre las líneas punteadas corresponden a los intervalos de confianza. . Cuando esta dentro de estadísticamente que es cero.
la
banda
significa
Fase de identificación ••
Estadístico Q-Prueba conjunta
• Estadístico LB pero para muestras pequeñas- Ljung Box
Fase de identificación • El correlograma sirve para: • Saber si es Ruido Blanco • Estacionaria->Converge a cero rápidamente después de que los
tres primeros rezagos son no significativos. • Estacional -> presenta coeficientes de autocorrelación simple
significativos de forma periódica asociados al orden de la estacionalidad.
Fase de identificación ••
Prueba de raíz unitaria o Test Dickey Fuller
–Este test sirve para probar si la serie es o no es estacionaria. La aplicación de la metodología Box-Jenkins precisa la utilización de seres económicas estacionarias en varianza y en media.
La presencia de una raíz unitaria en una serie de tiempo económica revela directamente inestabilidad de la misma, siendo necesario transformarla para poder trabajar con ella.
Series estacionarias • La serie debe ser estacionaria para la metodología de Box-Jenkins
1.
Tendencia 1.
Lineal->Primera diferencia
2.
Tendencia cuadrática->Segunda diferencia
2.
Varianza-> logaritmo
3.
Tendencia y varianza no son constantes->diferencia logarítmica
4.
Estacionalidad->Diferencia estacional
Una serie no es estacionaria cuando: –.TendenciaMedia no constante –.Varianza explosiva-volátil-no constante –.Estacional
TODO RUIDO BLANCO ES ESTACIONARIO. UNA SERIE ESTACIONARIA NO SIEMPRE ES RUIDO BLANCO.
Proceso estocástico que genero la serie •
• Se requiere analizar simultáneamente las funciones FAS Y FAP –FAS->conjunto de datos que representa una función de autocorrelación y su comportamiento (rompe o no rompe la banda) –FAP->mide el grado de asociación lineal entre Yt y Yt-k manteniendo constante las correlaciones de rezagos intermedios. –Modelos ARIMA • Ar(p)-> • Ma(q)->-> en función de una constante y varios términos de error hasta el rezago q. • ARMA(p,q)-> • ARIMA(p,d,q)-> d, es el número de veces que se tuvo que diferenciar la serie para que fuera estacionaria.
Modelos autorregresivos de orden 1: AR(1) • Un proceso autorregresivo de primer orden, Ar(1), representa una variable cuyo valor actual esta relacionado con su valor anterior mediante un modelo de regresión. • El modelo incorpora la última observación, el proceso Ar(1) se reconoce por una ACF infinita y una PACF que se anula a partir del segundo retardo. Si los datos tienen media, es necesario especificar un término constante
Modelos de Medias Móviles de orden q: MA(q) ••
El modelo incorpora la información de las últimas q innovaciones.
• Sus características básicas son: –Siempre estacionario –Solo q innovaciones pasadas entran en el modelo –La función de autocorrelación se corta tras q retardos –Las innovaciones persisten q periodos. Un proceso de medias móviles de primer orden MA(1), representa una variable cuyo valor actual está relacionado con el valor actual y anterior de las innovaciones mediante un modelo de regresión. El modelo incorpora la innovación actual y anterior
Modelos de Medias Móviles de orden q: MA(q)
El proceso MA(1) se reconoce por una PACF Infinita y una ACF que se anula a partir del segundo retardo
Procesos Mixtos: ARMA (p,q) • Incluyen p retardos de la propia variable y q innovaciones pasadas.
Parte autorregresiva. Responsable de la estacionariedad. Responsable de la estructura de la función de autocorrelación.
Parte de medias móviles. Responsable de la invertibilidad. Responsable de la ausencia de estructura de la función de autocorrelación.
En resumen, sobre las funciones de autocorrelación
ACF
PACF
Finita
Infinita
Finita
Ruido Blanco
AR
Infinita
MA
ARMA
Ajuste por Arch(p) • Generalmente se supone que la varianza de una serie cronológica es constante, y el serlo es una condición necesaria para que una serie de tiempo sea estacionaria. Sin embargo, en ocasiones no es así; en particular tratándose de la volatilidad de las series financieras se presenta el fenómeno de heterocedasticidad, es decir, la varianza de la serie tiene cambios sistemáticos a través del tiempo. Para estos casos se diseñaron los modelos ARCH (Autorregresivo condicional heterocedástico) y los modelos GARCH (generalización de los modelos ARCH). Estos modelos permiten estimar una ecuación de varianza que se supone deja de ser constante debido a choques o innovaciones aleatorias.
Ajustes por Betas GARCH(p,q) •• El precio de un activo se distribuye como una log normal, partiendo de este supuesto se tiene:
+ Modelos ARCH (q), modelo de la varianza del error en función de los errores rezagados
Para garantizar que exista reversión a la media, la sumatoria de debe ser menor que uno. Esta sumatoria se conoce como persistencia del modelo. Entre mas cerca a 1, implica que los choques aleatorios que afectaron el modelo son más persistentes y tardaran mucho tiempo en desaparecer.
Ajustes por Betas GARCH(p,q) • El modelo GARCH (p, q), se describe de la siguiente manera:
Además de incluir en la especificación los errores rezagados tienen en cuenta las varianzas del modelo Un modelo GARCH (1,1) se describe de la siguiente manera:
Existe homocedasticidad, es decir, no existe efecto ARCH ni GARCH Volatilidad de ayer, la varianza de hoy es mayor si ayer se obtuvo grandes perturbaciones. Varianza de la predicción de ayer, el efecto persiste por mucho tiempo.
Datos o longitudinales Un conjunto de datos consta de una serie temporal para cada miembro del corte transversal en el conjunto de datos.
La característica principal de los datos , que los distinguen de las combinaciones de cortes transversales, es el hecho de que se da seguimiento a las mismas unidades transversales ya sean individuos, países, regiones, entre otros durante cierto periodo de tiempo.
La ventaja es que al tener las mismas unidades es posible controlar ciertas características inobservables de individuos. Otra ventaja es que permite estudiar la importancia de los rezagos en el comportamiento o el resultado de tomar una decisión.
Análisis de datos
Usar estos comando Xtdescribe Xtsum Xttab Xttrans Xtline xtdata
El principal objetivo de aplicar y estudiar los datos en , es capturar la heterogeneidad no observable, ya sea entre individuos como en el tiempo, dado que esta heterogeneidad no se puede detectar ni con series de tiempo ni tampoco con modelos de corte transversal. La heterogeneidad no observable: puede partir de los efectos individuales específicos y los efectos temporales. Los efectos individuales específicos son aquellos que afectan de manera desigual a cada uno de los individuos los cuales son invariables en el tiempo y que afecten de manera directa las decisiones que tomen dichas unidades. Los efectos temporales serian aquellos que afectan por igual a todas las unidades individuales del estudio pero que no varían en el tiempo.
Combinación de corte transversales en el tiempo Métodos simples Combinación independiente de cortes transversales Muchos estudios de personas, familias y empresas se repiten a intervalos regulares, a menudo cada año. Si se extrae una muestra aleatoria en cada periodo, al combinar los resultados de cada muestra se obtiene una combinación independiente de cortes transversales. Este es un aspecto clave también en el análisis de corte transversal (independencia muestral) ya que excluye la correlación en los términos de error para distintas observaciones.
Una razón para utilizar una combinación independiente de cortes transversales es que el tamaño de muestra se incremente. Al combinar muestras aleatorias extraídas de la misma población, pero en distintos puntos del tiempo, se obtienen estimadores mas precisos y estadísticos con mayor potencia de prueba. Este tipo de combinación es útil a este respecto sólo en la medida en que la relación entre la variable dependiente y al menos algunas de las variables independientes permanece constante con el paso del tiempo.
Combinación de corte transversales en el tiempo Métodos simples • reflejar el hecho de que es posible que la población tenga distintas distribuciones en diferentes periodos, se Para
permite que el intercepto difiera a través de los periodos. Esto se consigue fácilmente si se incluyen variables binarias para todos los años excepto una, la primera, que se elige como año base de la muestra. A veces resulta de interés el patrón de coeficientes de la variables binarias temporales.
MIREMOS UN EJEMPLO: Fertilidad de las mujeres en el tiempo. Estime el siguiente modelo con la base de datos llamada FERTIL 1. Encuesta nacional para los años pares desde 1972 hasta 1984. Se busca estimar un modelo que explique el número total de hijos que tiene una mujer.
Combinación de corte transversales en el tiempo Métodos simples Preguntas: ¿Qué variables no son estadísticamente significativas? ¿Qué ha ocurrido con la tasa de fertilidad respecto al tiempo? ¿Qué pasa con las mujeres que tienen un mayor número de años escolares? ¿Cuál es la edad en que la mayoría de las mujeres han dejado de tener hijos?
Combinación de corte transversales en el tiempo Métodos simples • También se puede interactuar una variable binaria anual con las variables explicativas que son clave para ver si el
efecto de esa variable ha cambiado a lo largo de un cierto periodo. Ejemplo: CAMBIOS EN LA RENTABILIDAD DE LA EDUCACIÓN Y EN LA DIFERENCIA DE SALARIO POR GÉNERO)
Preguntas: ¿Qué es y ?-> Intercepto de 1978 e Intercepto de 1985. ¿Qué es y ?->Impacto de la Educación en 1978 e Impacto de la Educación en 1985. ¿Qué es y ?->Diferencia de Salario entre las mujeres y los hombre en 1978.
Combinación de corte transversales en el tiempo Métodos simples Prueba de Chow para el cambio estructural en el tiempo Es simplemente una prueba F, se utiliza para determinar si una función de regresión múltiple difiere en dos grupos. Esta prueba también se puede aplicar a dos periodos diferentes. Para este caso, se puede interactuar cada variable con una variable binaria anual para cada uno de los años y se prueba la significancia conjunta de la variable binaria anual y de todos los términos de interacción. En caso de que se tengan mas periodos de análisis, por lo general es mas interesante permitir que los interceptos cambien con el tiempo y luego probar si los coeficientes de las pendientes han sufrido cambios en el tiempo, de esta manera se puede realizar el siguientes estadístico de prueba. CORTE TRANSVERSAL
COMBINACIÓN DE CORTES
Combinación de corte transversales en el tiempo Métodos simples Análisis de Políticas con Combinación de Cortes Transversales
Contexto El rumor de que se construiría un nuevo incinerador de Basura en North Andover comenzó después de 1978 y la construcción inició en 1981. Se esperaba que el incinerador entrara en operación poco después del comienzo de su construcción; en realidad comenzó a operar en 1985. Se utilizarán datos sobre los precios de las casas que se vendieron en 1978 y otra muestra de aquellas que se vendieron en 1981. La hipótesis es que el costo de las casas ubicadas cerca del incinerador estaría por debajo del precio de las viviendas mas lejanas. Se considera que una casa está cerca del incinerador si se halla en un radio de 3 millas.
Combinación de corte transversales en el tiempo Métodos simples • Especificación del estimador DIF en DIF
Dado que es un modelo de regresión simple sobre una sola variable binaria, el intercepto es el precio de venta promedio de las casas que no están cerca del incinerador y el coeficiente acompañado de la variable es la diferencia entre el precio promedio de las casas cercanas y aquél de las casas lejanas. ¿Cómo distinguir entonces si el incinerador reduce el valor de la vivienda? La clave es considerar la forma en que el coeficiente de nearin cambia entre 1978 y 1981
Combinación de corte transversales en el tiempo Métodos simples • ¿Cómo saber si es estadísticamente significativa?
Entonces es el precio promedio de una casa no cercana en 1978. El parámetro captura los cambio de valor de todas las casas de 1978 a 1981.
mide el efecto de la ubicación que no se debe a la presencia del incinerador y mide la
disminución en el valor de las casas debida al nuevo incinerador, siempre y cuando se suponga que las casas, tanto las cercanas como las lejanas al incinerador, no se revalorizaron a tasas distintas por otras razones. Ahora incluya age y age2 Ahora incluya age, age2, intst, land, área, romos y baths. ¿Qué sucede con nearinc? Esto indica que las
características incluidas capturan en buena medida las características de las casas que resultan más importantes para determinar el precio de la vivienda. Ahora utilice logprice o logrprice para obtener el efecto de manera porcentual.
Combinación de corte transversales en el tiempo Métodos simples La • metodología empleada en el ejemplo anterior cuenta con numerosas aplicaciones, en especial cuando los datos surgen de un experimento natural (o de un cuasiexperimento). Un experimento natural tiene lugar cuando algún evento exógeno, a menudo un cambio en las políticas gubernamentales, modifica el ambiente en que se desenvuelven los individuos. Un experimento de esta índole siempre cuenta con un grupo de control, que no se ve afectado por el cambio de las políticas , y un grupo de tratamiento, que sí se ve afectado por este cambio. A diferencia de un experimento verdadero, en el cual los grupos de control y de tratamiento se eligen de manera aleatoria y explicita, en los experimentos naturales los grupos surgen a partir del cambio de una política en particular. Para controlar las diferencias sistemáticas entre estos dos grupos, se necesitan datos de dos años, un año antes y otro después del cambio de la política. Sea C el grupo de control y T el grupo de tratamiento, donde dT es igual a 1 para los del grupo de tratamiento y 0 en caso contrario. De esta manera, suponiendo que d2 indica una variable binaria para el segundo periodo (después del cambio de política), la ecuación que nos interesa es:
mide el efecto de la política, sin otros factores en la regresión, será el estimador de diferencia en diferencias:
Combinación de corte transversales en el tiempo Métodos simples Ejemplo de Estimador de Diferencia en Diferencias Antes
Después
Antes-Después
Control Tratamiento Tratamiento-Control El parámetro será el estimador de diferencia en diferencias, algunas veces llamado efecto promedio del tratamiento (debido a que mide el efecto del “tratamiento” o la política sobre el resultado promedio de y), puede estimarse de dos maneras: i) calcular las diferencias de los promedios entre los grupos de tratamiento y control para cada periodo, y luego obtener la diferencia de los resultados respecto al tiempo y ii) calcular el cambio en los promedios respecto al tiempo para cada uno de los grupos de tratamiento y de control, y después determinar la diferencia entre estos cambios, lo cual simplemente se escribe .
Combinación de corte transversales en el tiempo Métodos simples • Análisis de datos de para un periodo de dos años
Una manera de utilizar datos de es clasificar los factores no observables, que influyen en la variable dependiente, en dos tipos: aquellos que son constantes y aquellos que varían con el tiempo. Considerando que i es la unidad de corte transversal y t el tiempo, se puede escribir un modelo con una sola variable explicativa observada como: Modelo de efectos inobservables Modelo de efectos fijos
En la notación , i denota el individuo y t indica el periodo. La variable es una variable binaria que es igual a cero cuando t=1 y a uno cuando t=2; no cambia en i, razón por la cual no tiene subíndice i. Por consiguiente, el intercepto para t=1 es , y el intercepto para t=2 es . La variable captura todos los factores inobservables (heterogeneidad individual), constantes en el tiempo, que influyen en . El error con frecuencia se llama error idiosincrático o error variable en el tiempo.
Combinación de corte transversales en el tiempo Métodos simples • ese caso como se estimaría ?: una posibilidad es tan solo combinar los dos años y utilizar MCO, sin embargo se ¿ en
pueden presentar dos inconvenientes, el más importante es que para hacer MCO genere un estimador consistente de , tendría que suponer que el efecto inobservable , no se correlaciona con . En la mayoría de las aplicaciones, la razón principal para reunir datos de es permitir que el efecto inobservable , se correlacione con las demás variables explicativas. Resulta que es muy fácil propiciar esto: como , es constante en el tiempo se pueden diferenciar los datos a lo largo de los dos años. De manera más precisa, para la observación de corte transversal i, se pueden denotar los dos años como:
Si se resta la segunda ecuación de la primera se obtiene:
Datos de Estimación de efectos fijos • Supuestos para los efectos fijos 1.
Para cada i, el modelo es:
Donde los son los parámetros a estimar y es el efecto 2. Se tiene una muestra aleatoria en la dimensión de corte transversal. 3. Cada variable explicativa cambia con el tiempo (al menos para cada alguna i), y no existe una relación lineal perfecta entre las variables explicativas. 4. Para cada t, el valor esperado del error idiosincrático, dadas las variables explicativas en todos los periodos y el efecto inobservable, es cero: Con base en los primeros cuatro supuestos, los cuales son idénticos a los supuestos del estimador de primeras diferencias, el estimador de efectos fijos es insesgado. De nuevo, la clave es el supuesto de exogeneidad estricta, 4. Bajo estos mismo supuestos, el estimador de EF es consistente con un T fijo conforme N 5. =
Datos de Estimación de efectos fijos 6. • Para todo ts , los errores idiosincráticos no están correlacionados (de manera condicional en todas las variables
explicativas y en ): Cov
Con base en estos seis supuestos, el estimador de efectos fijos de los es el mejor estimador lineal insesgado. El supuesto que hace que EF sea mejor que PD es el último supuesto, lo que implica que los errores idiosincráticos no se correlacionan serialmente.
7. De manera condicional en y en los son independientes e idénticamente distribuidos como Normal (0, )
El supuesto 7 implica los supuestos 4,5 y 6, pero es más fuerte, ya que supone una distribución normal para los errores idiosincráticos. Si se agrega 7, el estimador de EF se distribuye normalmente y los estadísticos t y F tienen distribuciones exactas t y F. Sin 7, se puede confiar en las aproximaciones asintóticas. Pero, sin hacer suposiciones especiales, estas aproximaciones requieren una N grande y un T pequeño.
Datos de Estimación de efectos fijos • Transformación de efectos fijos
Ahora para cada i, se promedia la ecuación en el tiempo y se obtiene
La transformación de efectos fijos también se llama transformación intragrupal (within)
•
Bajo el supuesto de exogeneidad estricta sobre las variables explicativas, el estimador de efectos fijos es insesgado: aproximadamente, el error idiosincrático no debe correlacionarse serialmente con ninguna variables explicativa en todos los periodos. El estimador de efectos fijos permite la correlación arbitraria de y las variables explicativas en cualquier periodo, al igual que las primeras diferencias.
•
El otro supuesto necesario para que el estimador por MCO directo sea valido es que los errores , sean homocedasticos y no estén serialmente correlacionados (en t)
•
El R-Cuadrado within se interpreta como la cantidad en la variación temporal en que se explicar por la variación temporal en las variables explicativas.
Datos de Estimación de efectos fijos • Regresión de Variables Binarias Un punto de vista tradicional respecto del modelo de efectos fijos es suponer que el efecto inobservable, , es un parámetro que debe estimarse de cada i. Por tanto, en la ecuación, , , es el intercepto para el individuo i que debe estimarse junto con las .
La forma que se estima un intercepto para cada i es asignar una variable binaria para cada observación de corte transversal, junto con las variables explicativas.
Algunos paquetes econométricos que soportan la estimación de efectos fijos reportan un “intercepto”, lo cual puede crear confusión en vista de que el tiempo deducido elimina todas las variables constantes en el tiempo. Los reportes de un intercepto general en le estimación de efectos fijos surgen de considerar como parámetros a estimar. El intercepto reportado es el promedio en i de las En otras palabras, el intercepto generalmente es, en realidad, el promedio de los interceptos específicos individuales, el cual es un estimador insesgado y consistente.
Datos de Estimación de efectos fijos • EFECTOS FIJOS O PRIMERAS DIFERENCIAS
Cuando se tiene T=2, las estimaciones, así como todos los estadísticos de pruebas son idénticos. Cuando se tiene T3, los estimadores no son los mismos. En virtud de que ambos son insesgados, con base en los
supuestos 1 a 4, no es posible utilizar el insesgamiento como criterio. Para N grande y T pequeño, la elección entre estimadores depende de su eficiencia relativa, y esto esta determinado por la correlación serial de los errores idiosincráticos, . Cuando las no se correlacionan serialmente, los estimadores de efectos fijos son mas eficientes que los de primeras
diferencias. El hecho teórico importante es que en el estimador de PD el sesgo no depende de T, mientras que el sesgo en el
estimador de EF tiende a cero a razón de 1/T. Por lo general resulta difícil elegir entre estimadores de EF y PD cuando generan resultados sustancialmente distintos.
Datos de Estimación de efectos aleatorios • Supuestos para los efectos aleatorios: Los supuestos ideales de efectos aleatorios comprenden los supuestos de efectos fijos (1,2,4,5,6 “7 se podría agregar a la lista, pero es poco practico porque se debe estimar ). Como solo se esta restando una fracción de los promedios en el tiempo, ahora se puede permitir variables explicativas constantes. Así el supuesto 3 se reemplaza con: 1.
No existen relaciones lineales perfectas entre las variables explicativas
El costo de permitir regresores constantes en el tiempo es que se deben añadir supuestos acerca de cómo se relaciona el efecto inobservable, , con las variables explicativas.
2.
Además del supuesto 4, el valor esperado de dada todas las variables explicativas es constante: |
Este es el supuesto que rige la correlación entre el efecto inobservable y las variables explicativas, y es la distinción fundamental entre los EF y EA. Como se supone que no se correlaciona con ninguno de los elementos es posible incluir variables explicativas constantes en el tiempo.
3.
Además del supuesto 5, la varianza de dada todas las variables explicativas, es constante: | Con base en los seis supuestos de efectos aleatorios, el estimador de EA es consistente y se distribuye asintóticamente como normal. Para los coeficientes de las variables explicativas que cambian en el tiempo, el estimador de EA es mas eficiente que el de EF.
Datos de Estimación de efectos aleatorios Se• comienza con el mismo modelo de efectos inobservables donde se incluye, de manera explicita, un intercepto de modo que se puede suponer que el efecto inobservable, , tiene media cero.
Esta ecuación se estima cuando se da por sentado que el efecto inobservable no se correlaciona con ninguna variable explicativa. , Si se define el término de error compuesto como , entonces se tendría: Como esta en el error compuesto en cada periodo, las se correlacionan serialmente en cada periodo de tiempo.
Para eliminar la correlación serial en los errores se requiere la transformación por MCG de la siguiente manera: ;
Datos de Estimación de efectos aleatorios • EFECTOS ALEATORIOS O EFECTOS FIJOS Dado que los efectos fijos permiten una correlación arbitraria entre y las , mientras que los efectos aleatorios no, se considera ampliamente que los EF constituyen una herramienta más convincente para las estimación de los efectos ceteris paribus. No obstante, los efectos aleatorios se aplican en ciertas situaciones. Evidentemente, si la variable explicativa clave es constante en el tiempo. Desde luego, sólo se puede utilizar EA debido a que se esta dispuesto a suponer que no se correlacionas con .
Sigue siendo común ver a investigadores que aplican tanto EF como EA, y luego prueban de manera formal las diferencias estadísticas significativas en los coeficientes de las variables explicativas que cambian con el tiempo. Hausman propuso este tipo de prueba, donde la Ho es aplicar EA o EF indistintamente y la Ha es aplicar EF. “se debe hacer una distinción entre una diferencia significativa en la practica y una diferencia estadísticamente significativa”
Modelos econométricos para datos El •modelo general viene determinado de la siguiente manera:
Error compuesto, efecto no observado y error idiosincrático. Bajo supuestos distintos sobre el intercepto y los componentes de error, el modelo puede ser.
1. Modelo agrupado (Pooled): Si el intercepto es constante, y no hay heterogeneidad entre individuos. Exogeneidad
Cov(, )=0 2. Modelo de efectos fijos: Si el intercepto es constante, y hay heterogeneidad entre individuos. Cov(, )0 3. Modelo de efectos aleatorios: Si el intercepto es constante, y hay heterogeneidad entre individuos. Cov(, )0
Modelos econométricos para datos La principal diferencia entre efectos fijos y aleatorios es que el primero supone que las variables explicativas se correlacionan con el efecto no observado fijo en el tiempo (el que denominamos ai) por lo que se transforma el modelo para eliminar dicho efecto fijo. Pero el modelo de efectos aleatorios supone que no se correlaciona el efecto con la(s) variable(s) explicativa(s) del modelo por lo que no se elimina el efecto fijo, si no se elimina el efecto fijo éste queda en el término de error. Dado que el efecto fijo no varía en el tiempo pero si por individuo, el error de cada individuo en el periodo t está correlacionado con el error del mismo individuo en el periodo t-1, t-2.... (dependiendo del número de periodos).
Regresión Pooled La regresión agrupada se evalúa sin tener en cuenta de que los datos son datos de agrupados.
Comandos: *global *sort (i) (t) *reg, vce (ckuster id) *predict, resid *correlate
Estimación del modelo de efectos fijos
Comandos: *xtreg, fe *xttest3 *xtserial *xtregar
Es• una estimación a través de la transformación within, tomando la desviación respecto a la media en el tiempo para cada individuo con el propósito de eliminar .
Media temporal al interior de cada observación (Modelo intragrupos)
Estimación del modelo de efectos aleatorios
Comandos: *xtreg, re *xttest1 *xtserial *xtregar
La estimación se puede realizar mediante tres métodos: el primero hace énfasis en evaluarlo en primeras diferencias, el segundo por el método de mínimos cuadrados generalizados y tercero con el método Between.
¿Qué modelo escoger? Para elegir el mejor modelo a estimar se puede hacer una prueba con el comando hausman FE RE, sigmamore.
La hipótesis nula de esta prueba es que la diferencia de los coeficientes no es sistemática, de otra manera no existe diferencia entre los modelos fijos y aleatorios, se podría evaluar cualquier de los dos modelos. Por otro lado, si se rechaza la hipótesis nula, la mejor manera para estimar el modelo seria efectos fijos.
Análisis Multivariante: Análisis Discriminante El análisis discriminante se usa para estimar la relación entre una variable dependiente categórica y un conjunto de variables independientes en escala de intervalo. Las técnicas de Análisis Discriminante se describen por el número de categorías contenidas en la variable de estudio: • 2 categorías: Análisis Discriminante de 2 grupos • 3 o más categorías: Análisis Discriminante Múltiple
La diferencia principal entre AD de 2 grupos y AD múltiples es que con el primero sólo es posible estimar una función discriminante mientras que con el segundo más de una función puede ser computada. FUNCIÓN DISCRIMINANTE: combinación lineal de variables independientes generadas por el Análisis Discriminante que mejor segregue entre las categorías de la variable dependiente.
Análisis Multivariante: Análisis Discriminante • Nominal: nombres o clasificaciones que se utilizan para datos en categorías distintas y separadas.
Distintas y separadas hace referencia a variables que pueden registrarse exclusivamente.
• Ordinal: son las que clasifican las observaciones en categorías con un orden significativo.
• Intervalo: medidas en una escala numérica en la cual el valor de cero es arbitrario pero la diferencia
entre valores es importante.
• Razón: medidas numéricas en las cuales cero es un valor fijo en cualquier escala y la diferencia
entre valores es importante.
Análisis Multivariante: Análisis Discriminante • Modelo de análisis discriminante:
Donde: D: valor discriminante (discriminant score) b’s: coeficientes discriminantes (o pesos) X: predictores (o variables independientes)
Análisis Multivariante: Análisis Discriminante 1. Formular el problema 2. Estimar los coeficientes de la función discriminante 3. Determinar la significancia de la función discriminante 4. Interpretar los resultados 5. Evaluar la validez del análisis discriminante
Análisis Multivariante: Análisis Discriminante • Formulación del problema: objetivos, variables de interés y variables independientes.
NOTA IMPORTANTE: respecto a las variables independientes, recordar que su criterio de selección debería fundamentarse en la teoría, investigación previa o en la experiencia del investigador (en casi de análisis exploratorio).
• Dividir la muestra en dos parte: muestra de análisis y muestra de validación (validación cruzada)
Análisis Multivariante: Análisis Discriminante Estimar Análisis Discriminantes (Canónico Lineal) • Análisis discriminante lineal canónico (candisc) candisc Análisis: cómo sólo hay dos grupos, sólo una función discriminante es calculada.
Análisis Multivariante: Análisis Discriminante Open Describe o F2 Grafico de dispersión entre tamaño del lote e ingreso Análisis Discriminante: tablas de confusión
Análisis Multivariante: Análisis Discriminante Estimar los coeficientes •
Estimar análisis discriminante (canónico lineal)
Candisc if, group() Análisis: cómo sólo hay dos grupos, sólo una función discriminante es calculada. •
Resumir media y desviación estándar de las variables según categoría visit para la muestra de análisis.
Estat grsummarize, n mean sd cv Análisis: determinar la variable que ofrece una separación significativa entre grupos.
Análisis Multivariante: Análisis Discriminante Estimar los coeficientes •
Revisión matriz de correlación agrupada (within-group)
Estat correlations, within p Análisis: la matriz de correlación indica la fuerza y nivel de significancia entre las predictoras. •
Realiza ANOVA para estimar la significancia individual
ANOVA: técnica estadística para examinar la diferencia entre las medias para dos o más poblaciones. Estat anova Análisis: la significancia estadística del estadístico F.
Análisis Multivariante: Análisis Discriminante Estimar los coeficientes •
Estimar función discriminante
Estat canontest Análisis: – eigen-valor(el valor propio asociado y la varianza explicada). para cada función discriminante, el valor propio es la razón entre las sumas de cuadrados de los grupos between y within. Eigenvalores altos implican funciones superiores) – Correlación Canónica. Mide la extensión de la asociación entre los valores discriminantes y los grupos. Es una medida de asociación entre la función discriminante y el set de variables dummy que definen la pertenencia a un grupo.)
Análisis Multivariante: Análisis Discriminante Estimar los coeficientes Determinar la significancia de la función discriminante. Análisis: o Ho: Las medias de los grupos son iguales en la población son iguales para todas las funciones discriminantes. •
SPSS -> Wilk’s (lambda) ->transformación chi2 -> valor p
• Stata -> Likelihood ratio -> transformación F -> valor p -> Valor p =.0001, Ho se rechaza, luego es significativa la discriminación y por tanto puede procederse a interpretar los resultados.
Análisis Multivariante: Análisis Discriminante Interpretación de resultados Interpretación de los resultados Análisis: la interpretación de los coeficientes discriminantes es similar a la de los coeficientes de regresión lineal múltiple. • Coeficientes de la función canónica discriminante. estat loadings, unstandardized • Coeficientes estandarizados de la función canónica discriminante. • Estructura canónica (o cargas canónicas, o cargas discriminantes) •
(Correlaciones estructurales: también conocidas como cargas discriminantes, representan las correlaciones simples entre las predictoras y la función discriminante)
• Medias de grupo en las variables canónicas (o centroides) •
(Correlaciones estructurales: también conocidas como cargas discriminantes, representan las correlaciones simples entre las predictoras y la función discriminante)
•
(Centroide: es el valor medio de los valores discriminantes (D) para un grupo en particular
Análisis Multivariante: Análisis Discriminante Validez Análisis Discriminante Razón de éxito (hit ratio): el porcentaje de casos clasificados correctamente por el análisis discriminante. • Tabla de clasificación (o matriz de confusión). Original Validación cruzada (estat classtable, looclass) Sobre base de validación (no de análisis): (predict scores, classification -> hallar razón de éxito manualmente)
Miguel Angel Bello
[email protected]