INTRODUCCION AL MODELO DE REGRESION

Ajuste de Curva

Los datos que describen el movimiento de una variable  a lo largo del tiempo son llamados  datos de series de tiempo y pueden ser diarios, semanales, trimestrales o anuales. Los daros que describen las personas individuales, empresas u otras unidades en un punto dado en el tiempo son llamados de corte transversal.


Cuadro 1. Promedio de calificaciones e ingreso familiar

Y
X
(Promedio de calificaciones)
(Ingreso de los padres en miles de dólares)
4.0
21.0
3.0
15.0
3.5
15.0
2.0
9.0
3.0
12.0
3.5
18.0
2.5
6.0
2.5
12.0


La relación entre dos variables X y Y. Para describir esta relación de manera estadística necesitamos un conjunto de observaciones para cada variable y una hipótesis que exponga la forma matemática explícita de la relación.  Si se desea explicar las calificaciones en relación al ingreso económico de sus padres, se manejaría de la siguiente manera.


Figura 1: Diagrama de dispersión



 Tambien se puede dar una línea punteada que paresca ajustarse a la dispersión completa de puntos. Un procedimiento mejor sería  legir una línea de modo que la suma de las distancias  verticales (positiva y negativa) de los puntos en la gráfica a la línea sea cero. Esto aseguraría que las deviasiones son iguales en magnitud e iguales en signo se les da igual importancia. Sin embargo las desviaciones pueden tener también signo negativo en tamaño, cancelandose dando como resultado cero.

Se puede mejorar este método si se minimiza el valor absoluto de las desvaciones  de los puntos muestrales  de la línea ajustada, donde la desviación es proporcional a su magnitud.  Aunque la minimización de la suma de las desviaciones absolutas es atractiva, sufre varias desventajas. La primera es que el procedimiento es difícil desde el punto de vista del cálculo. También podría ser que las desviaciones grandes serán tratadas con una atención relativamente mayor que las desviaciones  pequeñas. Por ejemplo, es probable que una predicción que implique un error de dos unidades se consideraría peor que una predicción que implicara dos errores de una unidad cada uno.

Figura 2: Desviaciones



Existe un procedimiento cuyo cálculo es simple y que penaliza relativamente más los errores grandes que los errores pequeños. Éste es el método de mínimos cuadrados. El criterio de mínimos cuadrados es el siguiente: Se dice que la “línea de mejor ajuste” es aquella que minimiza la suma de las desviaciones  al cuadrado de los puntos de la gráfica desde los puntos de la línea recta (con distancias medidas en forma vertical).

Un problema con los mínimos cuadrados ocurre cuando hay uno o más desviaciones grandes.  Supóngase que se cometió un error de reporte con respecto al promedio de calificaciones del primer estudiante, habiéndose reportado una calificación de 1.0 en lugar de la cifra correcta de 4.0.


Figura 3:  a) Función de pérdida;  b) Función de pérdida alternativa




Llamamos a puntos atípicos aquellos puntos que están as más de una cierta distancia de la línea de regresión.  La solución más simple es volver a calcular la recta de mínimos cuadrados  original como la nueva y las intersecciones, podemos determinar la sensibilidad de nuestros resultados  ante la presencia de puntos atípicos.


0 comentarios:

miércoles, 18 de noviembre de 2015

INTRODUCCION AL MODELO DE REGRESION

Ajuste de Curva

Los datos que describen el movimiento de una variable  a lo largo del tiempo son llamados  datos de series de tiempo y pueden ser diarios, semanales, trimestrales o anuales. Los daros que describen las personas individuales, empresas u otras unidades en un punto dado en el tiempo son llamados de corte transversal.


Cuadro 1. Promedio de calificaciones e ingreso familiar

Y
X
(Promedio de calificaciones)
(Ingreso de los padres en miles de dólares)
4.0
21.0
3.0
15.0
3.5
15.0
2.0
9.0
3.0
12.0
3.5
18.0
2.5
6.0
2.5
12.0


La relación entre dos variables X y Y. Para describir esta relación de manera estadística necesitamos un conjunto de observaciones para cada variable y una hipótesis que exponga la forma matemática explícita de la relación.  Si se desea explicar las calificaciones en relación al ingreso económico de sus padres, se manejaría de la siguiente manera.


Figura 1: Diagrama de dispersión



 Tambien se puede dar una línea punteada que paresca ajustarse a la dispersión completa de puntos. Un procedimiento mejor sería  legir una línea de modo que la suma de las distancias  verticales (positiva y negativa) de los puntos en la gráfica a la línea sea cero. Esto aseguraría que las deviasiones son iguales en magnitud e iguales en signo se les da igual importancia. Sin embargo las desviaciones pueden tener también signo negativo en tamaño, cancelandose dando como resultado cero.

Se puede mejorar este método si se minimiza el valor absoluto de las desvaciones  de los puntos muestrales  de la línea ajustada, donde la desviación es proporcional a su magnitud.  Aunque la minimización de la suma de las desviaciones absolutas es atractiva, sufre varias desventajas. La primera es que el procedimiento es difícil desde el punto de vista del cálculo. También podría ser que las desviaciones grandes serán tratadas con una atención relativamente mayor que las desviaciones  pequeñas. Por ejemplo, es probable que una predicción que implique un error de dos unidades se consideraría peor que una predicción que implicara dos errores de una unidad cada uno.

Figura 2: Desviaciones



Existe un procedimiento cuyo cálculo es simple y que penaliza relativamente más los errores grandes que los errores pequeños. Éste es el método de mínimos cuadrados. El criterio de mínimos cuadrados es el siguiente: Se dice que la “línea de mejor ajuste” es aquella que minimiza la suma de las desviaciones  al cuadrado de los puntos de la gráfica desde los puntos de la línea recta (con distancias medidas en forma vertical).

Un problema con los mínimos cuadrados ocurre cuando hay uno o más desviaciones grandes.  Supóngase que se cometió un error de reporte con respecto al promedio de calificaciones del primer estudiante, habiéndose reportado una calificación de 1.0 en lugar de la cifra correcta de 4.0.


Figura 3:  a) Función de pérdida;  b) Función de pérdida alternativa




Llamamos a puntos atípicos aquellos puntos que están as más de una cierta distancia de la línea de regresión.  La solución más simple es volver a calcular la recta de mínimos cuadrados  original como la nueva y las intersecciones, podemos determinar la sensibilidad de nuestros resultados  ante la presencia de puntos atípicos.


0 comentarios:

Con la tecnología de Blogger.

Copyright © / ECONOMIA

Template by : Urang-kurai / powered by :blogger