Patentes Bayesianas

6 07 2008

Una vez más se demuestra que el camino de nuestros amigos empresarios va en contravía con las corrientes altruistas del mundo académico preocupado por su función vital en el desarrollo de la sociedad contemporánea. Esta vez veo con mucho asombro como el sueño ridículo de un conocido empresario en el ámbito de la investigación de mercados se materializa poco a poco: Producción de patentes de métodos estadísticos aplicados.

En este link usted encontrará el principio del fin de las publicaciones seriadas y respetadas en materia de métodos y aplicaciones estadísticas (como la JASA, Biometrika, etc.) que van siendo reemplazadas por patentes de las oficinas gubernamentales. Bueno, cabe resaltar que al menos, en particular, el tema de esta patente es innovadora y se trata de una aplicación bayesiana a los modelos lineales mediante un algoritmo que el autor de la patente afirma ser su inventor. Lo anterior lo menciono porque el reconocido empresario quería patentar el análisis de correspondencias que en alguna ocasión yo implementé y que él transformó con MS PowerPoint y un poco de ingenio costeño cambiándole el nombre original por uno más comercial: PLASMA. Lo llamó plasma porque en mi informe yo describía, como es mi costumbre con palabras amenas y sin tecnicismos, que el método de correspondencias múltiples plasmaba en dos dimensiones el comportamiento de la categoría en el mercado. Eso fue suficiente para que el astuto empresario (famoso por la mala paga, opresión a los trabajadores y una halitosis infernal) quisiera hacer la idea más comercial y de paso asegurarse de que nadie la copiara. De hecho, yo aún pienso que no se trataba de ingenio empresarial sino de miedo paranoico que posiblemente hizo que este tipo, en sus primeros pasos por el mundo de la investigación de mercados, quisiera patentar los diagramas de barras y los diagramas de pastel.

Es increíble que la ambición por el dinero esté, poco a poco, infectando nuestro querido gremio. De ahora en adelante, no habrá que visitar la biblioteca, ni ingresar a JSTOR ni a Google Academics, para buscar un artículo clave en nuestras investigaciones académicas, sino que por el contrario habrá que hacer una larga fila en la oficina de patentes para suplicar una copia del algoritmo estadístico utilizado por los grandes monopolios industriales en sus procesos.

La siguiente es una traducción del resumen de la patente de regresión bayesiana lineal:

Se desarrolló un simple, pero poderoso, modelo bayesiano de regresión lineal con aplicaciones en el aprendizaje de máquinas. A diferencia de los tratamientos previos que buscan estimar los hiper-parámetros a través de máxima verosimilitud o han usado una distribución a priori no informativa y sencilla para hacer los cálculos computacionales más sencillos, este método usa una combinación de álgebra e integración numérica para poder trabajar las distribuciones a posterí de manera completa. El algoritmo resultante es muy eficiente y muy útil en la práctica y puede verse como una versión bayesiana del algoritmo discriminante de mínimos cuadrados.

Bueno, los dejo porque se me hizo tarde para llegar a una cita con un empresario que quiere patentar la regresión bayesiana no lineal… y, llámenme mal amigo, creído o incluso petulante, pero nunca, nunca incumplido, eso sí que no.





Gosset y la cerveza

2 07 2008

Para JC y su particular gusto por el Merlot (¿Malbec?)…

William Gosset descubrió la distribución t mientras trabajaba para la compañía cervecera Guinness. Dado que los empleadores prohibían a los empleados la publicación de artículos de los resultados encontrados en sus estudios de control de calidad, Gosset publicó su investigación bajo el seudónimo de Student – razón por la que la famosa distribución no se lleva su apellido sino que se conoce como la distribución t de Student. Esta historia hace parte del viejo arsenal de anécdotas que los profesores de estadística utilizamos para amenizar la clase de inferencia estadística repleta de fórmulas, enunciados y teoremas.

De alguna manera, este cuentico de hadas se puede volver más interesante si nos preguntamos lo siguiente: ¿por qué razón tal descubrimiento surgió de las entrañas de una cervecera y no de una compañía vinícola (fabricante de vinos)?

John Cook,  afirma que los cerveceros siempre se han enorgullecido de la consistencia de sus cervezas, mientras que los productores de vino se enorgullecen de la variedad de sus cosechas. Por esta razón nunca escucharemos a ningún amante de la cerveza exclamar que 1998 fue un “buen año”, de la manera que lo haría un sommeliér (experto en vinos) refiriéndose a alguna cosecha de alguna cepa de algún país. De hecho, la variedad de las cepas es en gran parte la culpable de que una botella de vino de la misma marca, pero de diferente cosecha, tenga un sabor distinto en el paladar. Por otro lado, el sabor de una cerveza destapada hoy será el mismo sabor que el de una cerveza destapada hace un año. Por tanto, los cerveceros valoran tanto la consistencia que invierten dinero y recursos en departamentos de investigación en control de calidad.

Es hora de que las grandes cerveceras en Colombia se metan la mano al dril para patrocinar los estudios rigurosos de algunos de sus estadísticos, si es que emplean estadísticos en sus procesos de control de calidad. Si pueden apoyar el deporte, en particular el futbol, con grandes sumas de dinero pues que también aporten al desarrollo de la ciencia.

 





Modelos estadísticos

22 06 2008

En alguna ocasión, un director de estudios en una empresa de investigación de mercados, físico de profesión y con una prepotencia digna de él mismo, me explicaba que los modelos de mercadeo y, en general, de cualquier campo son acepciones de la realidad que buscan describirla más no explicarla a cabalidad. Es así como el modelo astronómico de Tolomeo describía con gran precisión la posición de los planetas en la bóveda celeste, aunque como bien lo sabemos no era un modelo que explicara la realidad porque simplemente la tierra no es el centro del universo. Sin embargo ¿era un mal modelo? Seguramente no, el modelo lograba su función y desde un punto de vista pragmático, era lo que se tenía en esa época y funcionaba bien.

Steele compara la noción general de un modelo cualquiera con un modelo estadístico y empieza por considerar dos ejemplos concretos:

  1. Modelos arquitectónicos: Planos o maquetas hechos a escala que son fundamentales en la etapa de diseño y el proceso de construcción de cualquier obra.
  2. Modelos de ingeniería: Túneles de viento o simulación de corrientes fluviales.

Steeles piensa que un modelo debe ser visto como un mapa. Incluso el mapa más barato de una ciudad puede responder a todas las preguntas razonables que uno pueda imaginar acerca del posicionamiento de la ciudad: ¿dónde queda el aeropuerto? ¿Qué tan lejos estoy de la alcaldía? Etc. Un buen mapa turístico es capaz de ubicar sitios históricos que ni siquiera, hoy en día, existen.

Sin embargo, la construcción de un modelo estadístico requiere otro tipo de abstracciones. Los estadísticos usamos la palabra modelo de una forma bien diferente a los anteriores ejemplos, ya lo diría G.E.P Box al exclamar:

“Todos los modelos son errados, pero algunos son útiles”

 Es común considerar la bondad del ajuste del modelo. Típicamente, un modelo estadístico se considera adecuado si, después de haber sido calibrado con los datos reales, cumple significativamente con los supuestos considerados en el diseño del estudio.

Podríamos objetar esta definición. En particular, parece muy ingenuo ignorar que el comportamiento de las unidades seleccionadas en la muestra, en algunas ocasiones diverge radicalmente, del comportamiento de las unidades que no están en la muestra, o que fueron seleccionadas en la muestra pero para las cuales existe ausencia de respuesta. Ahora, si el modelos falla en la incorporación de “toda la información relevante” ¿Debería ser considerado como un modelo no adecuado?

Steeles propone cambiar la popular frase bondad del ajuste (goodness of fit, por su traducción al inglés) por algo más terrenal como ajuste selectivo (fitness for purpose). Desde mi punto de vista personal, estoy de acuerdo con esta filosofía, no se puede dejar de lado que el usuario de los modelos estadísticos (o de sus primos: los modelos estocásticos o econométricos) tiene unos objetivos claros y definidos al iniciar la investigación. El estadístico debe formular el modelo que mejor ajuste consiga de manera selectiva con los objetivos de la investigación, teniendo en cuenta los fundamentos teóricos y supuestos del modelo (tarea nada fácil).

Ya lo diría Tukey cuando afirmaba

“Mantén tu mirada en la ciencia y conserva tus herramientas estadísticas muy simples”





La moneda sesgada

14 06 2008

 

“Se lanza una moneda con probabilidad p>0 de que el resultado sea cara” Woodroofe ( 1975, p. 108 )

“Suponga una moneda con probabilidad 0.7 de que el resultado del lanzamiento sea cara” Ross ( 2000, p. 82 )

 

La moneda sesgada es el unicornio de la teoría de la probabilidad. Todo el mundo ha escuchado acerca de su existencia, pero nadie lo ha visto en carne y hueso porque, simplemente no existe. Así mismo, la moneda sesgada no existe.

Profundicemos un poco en el evento: Lanzamiento de una moneda. ¿Es realmente un evento aleatorio? Está comprobado científicamente que las leyes físicas determinísticas inducen los resultados del evento en cuestión. Este simple ejemplo, muestra cuán difícil es separar lo aleatorio de lo determinístico.

La moneda obedece a leyes de Newton acerca del movimiento y estas leyes determinan el estado final de la moneda dependiendo de su velocidad angular (tasa de giro) y tiempo de viaje (velocidad de lanzamiento). Por otra parte la ley de la conservación del momento angular afirma que una vez que la moneda es lanzada al aire, ésta girará a una tasa constante.

Para cualquier tasa de giro, la moneda durará la mitad del tiempo de viaje con la cara hacia arriba y la otra mitad con la cara hacia abajo. Así que, cuando la moneda aterriza en el suelo, la probabilidad de que el resultado sea cara es la misma que la probabilidad de que el resultado sea sello.

Si la moneda es físicamente alterada, al momento de lanzarla, ésta girará alrededor de su centro de gravedad (sin importar que éste difiera de su centro geométrico). Por tanto, no importa cómo sea alterada la moneda, el resultado ya está determinado por las leyes físicas.

Por supuesto, la probabilidad de que el resultado del lanzamiento sea cara puede dejar de ser un medio si la moneda es sumamente alterada de tal forma que sea tan liviana que al lanzarla no gire en el aire sino que flote como una pluma al caer. En el anterior caso, la moneda habría sufrido un proceso, no de alteración sino, de transformación. Dejó de ser una moneda y se convirtió en un peculiar billete.

PD: Nótese que la aleatoriedad de este evento está dada por la incertidumbre del estado inicial de la moneda antes de ser lanzada.

 





Diplomado en metodología de encuestas

10 06 2008

La empresa IntStat (International Statistics),  dictará un seminario de diseño y metodología de encuestas dirigido a todos aquellos profesionales de las diferentes ramas del saber cuyo desarrollo profesional y/o proyecto de vida esté encaminado en el diseño, análisis y estimación de encuestas.

El enfoque del seminario es el diseño práctico de encuestas en diferentes escenarios y campos profesionales como investigación de mercados, encuestas gubernamentales, políticas y de negocios, estudios ambientales. Sin embargo, no se deja de lado la robustez teórica en la estimación de los parámetros.

La inscripción y petición de información está disponible al escribir al siguiente correo electrónico:

spad@cable.net.co




Tecnología en estadística

7 06 2008

Las primeras experiencias de consultoría del estadístico egresado son del siguiente estilo:

Ok, señor estadístico… necesitamos que seleccione una muestra simple de n hogares para tal ciudad.

O también,

Ok, señor estadístico… necesitamos que seleccione n unidades experimentales para dos tratamientos y un control

No debería hacerse llamar estadístico aquel que, sin pensar en los fundamentos filosóficos del diseño estadístico, se sienta en frente del computador y realiza la selección de las n unidades.

Nos estamos haciendo máquinas operativas bastante caras, en algunos casos. En el ejemplo anterior, ya es demasiado tarde (incluso antes de la recolección de la información) porque las más importantes decisiones del diseño estadístico ya están tomadas. A saber: método de diseño, tipo y número de unidades primarias y número y clase de casos. Los aspectos cruciales del diseño estadístico no deberían decidirse, sin la oportuna intervención del estadístico que contribuiría bastante en la validación y eficiencia del diseño.

La estadística sin diseño estadístico es una ciencia incompleta, que en el campo laboral se torna aburrida y estresante. Ya lo diría el señor Fisher en 1935 cuando argumentaba que

“El estadístico no se puede excusar a sí mismo de la responsabilidad de aclarar su mente en cuanto a los principios de la inferencia científica, de igual forma ningún otro hombre pensante puede evadir esta obligación.”

Existe un núcleo común de problemas en materia de diseño estadístico en los diversos campos de las ciencias sociales, económicas, políticas y de mercado. Sin embargo, también existe una diferencia substancial en la teoría, métodos de medición y aspectos no estadísticos de los anteriores campos. Por supuesto, el análisis estadístico para cada campo es diferente y debe manejarse así. Pero los aspectos estadísticos de diseño pueden ser percibidos dentro de un marco común. El estadístico debe tener la habilidad de manejar el aspecto de diseño estadístico paralelamente con el análisis estadístico.

La mayoría de cursos estadísticos, libros y revistas tratan primeramente (o únicamente) con el análisis, la estimación y cálculo, dejando los problemas de selección, colección o minería de los datos a un lado. A veces, nos hundimos en las fórmulas matemáticas y nos olvidamos que éstas carecen de sentido estadístico sin los datos, y que en primer lugar se debe recolectar la información.

El diseño estadístico trata con los aspectos y problemas que pertenecen a la estadística y a los estadísticos, porque la estadística y los estadísticos estamos (o deberíamos estar) mejor equipados para lidiar con estos problemas que son omitidos del análisis estadístico, el cual está íntimamente ligado con el núcleo matemático. Se debe profundizar aún más en los métodos y filosofía de la estadística, porque la mayoría de estos son de tipo no matemático, aunque esta sea la razón por la cual son tan rechazados en la literatura clásica.

Es necesario buscar más fuentes de métodos para rodear el área de diseño estadístico, la fuentes más importantes provienen de estudios observacionales, investigaciones controladas, ensayos clínicos, diseño cuasi-experimentales, difundidos en varios campos de aplicación como en la epidemiología, psicometría o investigación social y económica.

 

PD1: El autor de esta entrada rechaza rotundamente la idea que ha venido tomando fuerza en algunos departamentos de estadística de cancelar los cursos de diseño estadístico y señala al respecto que no todos los estadísticos egresados están interesados en tener un PhD. Como decía un excelente profesor, ahora pensionado, el propósito de la vida es ser feliz. Por tanto es muy, pero muy respetable que el proyecto de vida de la mayoría de los egresados esté dirigido hacia el campo laboral y no hacia el campo académico. Si lo anterior es cierto, ¿por qué cancelar los cursos que, de alguna manera, preparan al estadístico en las buenas prácticas de selección de muestras y/o unidades experimentales?

PD2: Ha ganado Obama.





Apuntes de estadística en Facebook

29 05 2008

Si usted está entrando en el mundo de la WEB 2.0. y su gigantesca masa de información, le será grato encontrarnos en Facebook. Sólo busque el grupo llamado Apundes de estadística y comparta temas de interés general en el foro.





Muestreo bla, bla, bla.

29 05 2008

En la primera página de cualquier libro de texto clásico de inferencia estadística se lee lo siguiente:

Dadas n variables aleatorias, seleccionadas de una población, independientes e idénticamente distribuidas, para estimar el parámetro…

Cada palabra en el anterior enunciado es  engañosa. ¿Quién le da a uno las muestras? ¿Existe algún sitio en dónde las repartan? Las muestras no son dadas, las muestras deben ser seleccionadas, asignadas o capturadas. El tamaño de la muestra no siempre es un número n fijo, en la mayoría de casos prácticos es una variable aleatoria. Los datos no siguen el supuesto de independencia ni de idéntica distribución; es más,  en muchas ocasiones no existe una sola población, sino que la muestra seleccionada es el resultado de una selección de sub-poblaciones para las cuales se deben producir, no sólo una estimación sino un montón de estimaciones. Así que la historia que nos contaron no aplica en la mayoría de situaciones prácticas.

Esta afirmación fue hecha por una de las cabezas más brillantes (no sólo por su capacidad intelectual) del muestreo, el respetado Dr. Leslie Kish quien, también sugirió que se debería realizar una acotación en la academia en el momento de analizar la información con cualquier software de tipo estadístico como SPSS o TESI.  Se debe tener conciencia de que los datos que se están analizando no han sido seleccionados mediante muestreo aleatorio simple con reemplazo  y por lo tanto el cálculo de errores estándar que arrojaría el software resulta ser inapropiado. Es hora de que los paquetes estadísticos incluyan en sus análisis rutinas que permitan el ajuste del diseño de muestreo utilizado en la recolección de los datos, por ejemplo por conglomerados o estratos, que no han sido seleccionados mediante muestreo aleatorio simples con reemplazo.

Kish motivó a los estadísticos aplicados a entender completamente la relación existente entre conceptos tales como estratificación y regresión lineal. El lector debe notar que Kish ayudó a crear un departamento de Bio-estadística en los Estados Unidos que combina el diseño experimental y el muestreo, él afirma que estas dos ramas están ligadas en sus raíces por el principio de aleatorización.

Así mismo, afirmó que los libros actuales de muestreo no cumplen el cometido de enseñar el análisis adecuado de la información para la selección de muestras en una población, en vez de esto se dedican a enseñar fórmulas sin preocuparse realmente por la enseñanza del diseño de muestreo que ha venido siendo reemplazado por la inferencia basada en modelos poblacionales sin tener en cuenta el principio de aleatorización. Como Tukey dijo: Abrace a sus datos no al modelo. Los modelos pueden jugar papeles muy importantes en problemas de tipo genético o físico, pero juegan roles menos importantes en las ciencias sociales. No podemos vivir enteramente sin modelos, porque en un ejercicio práctico existe ausencia de respuesta y  problemas del marco de muestreo. Los modelos deberían decir qué variables se tienen que incluir en una regresión y posiblemente la forma funcional de las ecuaciones. Sin embargo, los modelos no dicen el valor que los coeficientes de regresión toman y estas estimaciones están sujetas a variaciones de muestreo y efectos de diseño.

De todos los universos que se puedan suponer, en la vida práctica no existe ninguno que siga el patrón de la urna con bolas bien revueltas. En la práctica se trata con universos complejos y por tanto se deben utilizar diseños de muestreo complejos que contemplen el efecto de diseño.





Lo nuevo en econometría

17 05 2008

Guido Imbens, de la Universidad de Harvard y Jeffrey Wooldridge, de la Universidad estatal de Michigan, han publicado un curso intensivo y GRATIS de 18 horas acerca de recientes avances en econometría. El material (curso en video de 18 horas y lecturas en PDF) está disponible haciendo clic aquí. El contenido del mini-curso está basado en las experiencias de la oficina nacional de investigación económica en Estados unidos.

La audiencia objetivo son, obviamente, los profesionales en economía; sin embargo, hay varios tópicos (inferencia bayesiana, datos faltantes, muestreo, modelos discretos, etc.) que son de interés para los investigadores en general. El curso incluye videos, lecturas, diapositivas y notas detalladas para cada tópico.

http://www.nber.org/minicourse3.html





La bolsa de dulces

10 05 2008

Gelman y Nolah (2002), en su libro titulado Teaching Statistics inducen una buena práctica estadística que debería ser implementada en las aulas (Por cierto, si usted es docente, le aconsejo obtener una copia de este libro. Es el fruto de años de recolección, invención y experimentación de estos veteranos). Se deben seguir los siguientes pasos:

Preparación

Compre 100 dulces de diferentes tamaños y formas y colóquelos en una bolsa. Puede comprar algo como 20 barras de dulce tamaño grande, 20 o 30 dulces medianos como las barras mini Snickers y 50 o 60 dulces individuales, realmente pequeños. Cuéntelos y asegúrese de que sean exactamente 100 dulces. También necesitará una pesa que pueda medir el peso de los dulces en gramos y con precisión.

Dentro de un sobre escribirá una nota (detalles más abajo) y lo sellará. Cuando entre en el aula, ponga el sobre en algún lugar.

Montaje

Sostenga la bolsa de dulces y la pesa y escriba lo siguiente en el tablero:

Cada par de estudiantes deberá:

  1. Tomar 5 dulces de la bolsa
  2. Pesar los dulces
  3. Registrar el peso de los dulces
  4. Devolver los dulces a la bolsa!!!
  5. Pasar la pesa y la bolsa a sus vecinos

En silencio, multiplicar el peso de los 5 dulces por 20.

Los estudiantes deberán trabajar en parejas. Explique que el objetivo es estimar el peso total de la bolsa de dulces. La selección de los dulces puede ser hecha por cualquier método - muestreo aleatorio simple, sistemático, etc. La pareja cuya estimación se acerque más al peso verdadero se lleva la bolsa de dulces!!!

Acción

La demostración procederá por el resto de la clase. Eche un vistazo y asegúrese de que la bolsa y la pesa estén en movimiento a través del aula. Después de 30 o 40 minutes, el ejercicio se completará.

En este punto, pregunte a cada pareja, una a la vez, sus estimaciones. Escríbalas en el tablero. Éstas serán números como 3080, 2400, 4340, etc. Una vez que todas las estimaciones están escritas, haga un histograma sencillo (por ejemplo, forme clases de 2000-3000 gramos, 3000-4000, 4000-5000, etc.). Éste representa la distribución de muestreo de las estimaciones.

Ahora, escoja a una pareja para que, habiendo visto el histograma, busque las mejores estimaciones. Pregunte a la clase si está de acuerdo con lo que dice la pareja. Ahora, entregue la bolsa a los estudiantes para que la pese.

Resultados

El peso de los 100 dulces estará alrededor de 1650 gramos. Es siempre, siempre, siempre, siempre, siempre, siempre, siempre menor que las estimaciones individuales escritas en el tablero. Escriba el verdadero peso como una barra vertical en el histograma. Este ejercicio resulta de bastante utilidad para enseñar los conceptos de sesgo y error estándar de un estimador.

Ahora abra el sobre: “Mmmm, uh, ¿qué es eso? … ¿es un sobre?”. Lea lo que dice en la nota al interior del sobre: “Sus estimaciones están demasiado altas!!!”

¿Por qué?

Ahora es tiempo de hablar un poco sobre muestreo. Los dulces grandes son fáciles de ver y de agarrar, mientras que los dulces pequeños caen entre los grandes y terminan al final de la bolsa.  Pregunte, cómo seleccionar una muestra aleatoria. No será obvio, para los estudiantes, que  una forma de hacerlo es numerar los dulces de 1 a 100 y adjuntar un número aleatorio, después ordenar y seleccionar los cinco primeros. 





No sume sus pronósticos

8 05 2008


A diferencia de muchas otras técnicas estadísticas que tienen reglas o rutinas que seguimos, el estudio de los modelos de series de tiempo es muy versátil, existen muchas técnicas: unas sencillas como los filtros de suavizamiento o el ajuste de un modelo de regresión contra el tiempo; otras más complicadas como los modelos de estado y su amigo inseparable: el filtro de Kalman o los modelos no lineales que han llamado mucha atención en las dos últimas décadas.

Desafortunadamente o afortunadamente, no existe un teorema o algo así que nos diga cuál técnica emplear en una determinada situación. Considere la siguiente situación:

Pablo tiene cuatro almacenes de productos de mascotas, y él tiene que decidir cuántos paquetes de Pedigree pedir al proveedor del producto para el siguiente mes. Además, supóngase que la fábrica hace un solo despacho del pedido a nombre de Pablo para los cuatro almacenes. Es decir, Pablo debe obtener un solo pronóstico para los cuatro almacenes.

Aunque existen modelos más sofisticados de naturaleza jerárquica que permiten una estimación precisa, una solución natural es examinar las cuatro series de venta de los cuatro almacenes y de éstas obtener un solo pronóstico. Pablo obtendrá un pronóstico para cada almacén, y sumaría los cuatro pronósticos como una solución unificada. Lamentablemente ésta conlleva ciertos inconvenientes, lo correcto debe ser sumar las cuatro series para obtener una sola serie que puede llamarse “paquetes de Pedigree que vende Pablo mensualmente”, y obtener pronósticos usando esta nueva serie. Tal vez a algunos usuarios, les parezca insignificante pronosticar antes de sumar o sumar antes de pronosticar. No es lo mismo,  si primero pronostica y después suma los pronósticos, ¿cuál sería el intervalo de predicción para este pronóstico?,  ¿se debería “sumar” también los cuatros intervalos de predicción de los pronósticos individuales?, ¿qué sentido tendría la suma de los errores de los cuatro pronósticos?

En la inferencia clásica cuando tenemos una muestra aleatoria, y se quiere hacer inferencia sobre la media poblacional, un buen estimador es la media muestral. Algunos usuarios están tan contentos con el promedio de los datos, que lo utiliza sin pensar dos veces en un análisis de series de tiempo. Y esto, en muchos casos, también es un error. Porque la característica fundamental de las series de tiempo, como su nombre lo indica, es su variación a través del tiempo. Siendo así, no debemos olvidarnos de la tendencia, la estacionalidad, el ciclo, etc.





Seis simples técnicas para la presentación de datos

3 05 2008

¿Ha presenciado usted alguna charla acerca de estadística en donde la entrega de las cifras fuera inspiradora, la motivación fuera eléctrica y todo girara alrededor de los simples datos? Lamentablemente, la presentación de los datos es un tópico que la mayoría de las veces es asociado con presentaciones aburridas y secas (cualquier parecido con la realidad de las presentaciones en investigación de mercado o en el DANE es pura coincidencia). Estás técnicas pueden transformar una presentación simple en una fantástica presentación.

 

Les animo a mirar el video; leer el análisis de la crítica de esta charla; y compartir sus opiniones sobre esta presentación.

Rosling emplea el software GapMinder para presentar sus datos. Aunque este software es una herramienta fabulosa para la presentación de los datos, la magia real en esta charla recae en las seis técnicas demostradas por Rosling. Estas técnicas son fáciles de implementar, sin embargo, rara vez he visto (si alguna vez) estas técnicas implementadas en una sola presentación. Examinemos cada una y comparemos esta presentación con las prácticas comunes.

Técnica #1: Explique los ejes de los gráficos

Práctica común: Los gráficos son mostrados sin ninguna explicación acerca de los ejes o la frase obligatoria “Aquí tenemos la variable X contra la variable Y”. No asuma que su audiencia intuitivamente conoce el significado y escala de los ejes, explique qué significan las cantidades en cada uno de los ejes (por ejemplo, tasa de fertilidad vs. esperanza de vida al nacer) y provea una historia que sirva de contexto  (por ejemplo, Nosotros vs. Ellos = Mundo occidental vs Tercer mundo).

Técnica #2: Resalte los subconjuntos en los datos

Práctica común: Los conferencistas intentan explicar los datos complejos que ellos han estudiado por días, semanas o meses en unos pocos minutos.  Aunque Rosling reconoce que es imposible explicar toda la información en detalle, él cuidadosamente selecciona y explica subconjuntos importantes en los datos.

Técnica #3: Profundice para desenvolver la información en sus datos

Práctica común: Los conferencistas se restringen a solo un nivel de inspección en las presentaciones. Los análisis más profundos son dejados en el informe y no se profundiza en la presentación. Muchas veces, Rosling muestra información de un sólo nivel (por ejemplo, un punto para representar un país) y luego el profundiza a un nivel mayor en los datos (por ejemplo, los quintiles de los países).

Técnica #4: Coloque etiquetas cerca de los datos

Práctica común: Las leyendas de los datos y las etiquetas están ausentes. El presentador asume que la audiencia sigue sus pistas verbales. De otra forma, cuando se presentan las etiquetas y las leyendas, están lejos de los puntos asociados. Esto representa para la audiencia un esfuerzo visual que puede tornar la presentación aburrida. En la charla de Rosling, las etiquetas de los datos fueron presentadas justo al pie de los puntos asociados. Adicionalmente, la aparición de las etiquetas estaba sincronizada con los componentes del discurso verbal. De esta manera, las etiquetas visuales complementan el audio.

Técnica #5: Responda a los ¿Por qué?

Práctica común: Se presentan grandes masas de datos y el presentador solo explica la tendencia dominante o la medida de mayor interés. Esta práctica hace que la audiencia se pregunte cosas como “¿Por qué ese punto está aquí?” o “¿qué hace que ese punto esté abajo / arriba / en el medio?”

Obviamente, ningún presentador puede responder todas las preguntas que la audiencia pueda estar imaginando, pero Rosling hace su tarea al anticiparse a ese tipo de preguntas. Él se anticipa a varias preguntas “¿Por qué?” y las responde en el escenario. Por ejemplo:

P: ¿Por qué el progreso en Vietnam se aceleró en los 90’s?

R: Ellos abandonaron el plan comunista y se tornaron a una economía de mercado.

P: ¿Por qué China se está moviendo hacia arriba (mientras que los otros paises lo hacen en forma diagonal)?

R: Mao Zedong trajo salud a China (arriba) luego murió. Deng Xiaoping trajó dinero (derecha).

Anticiparse a responder las preguntas de este tipo, permite lograr dos objetivos: El primero, permite satisfacción de la curiosidad de la audiencia mientras mantiene un ritmo energizante (mucho mejor que ser interrumpido por este mismo tipo de preguntas). Y demuestra la credibilidad y sólida comprensión del tema.

Técnica #6: Complemente los datos con su energía al exponer

Práctica común: Los datos estadísticos son presentados de una forma seca y clínica. Tal vez, la audiencia no siempre está excitada al escuchar de estos datos. Además, ¿Por qué habría de estarlo? La técnica más memorable que desarrolla Rosling en su presentación es que se entrega al público con una energía contagiosa. Esta práctica puede llevar tiempo, pero se tiene que tener en cuenta que, al contrario de lo que muchos piensan, no se trata de vender una idea, se trata de convencer al público y no hay mejor manera de convencer que entregarse con una disposición evangelista.

Para terminar, conviértase en un predicador, en un pastor, en un evangelista mientras expone los datos que usted y su equipo de trabajo ha explotado con tanta dedicación. No haga de la presentación de los datos algo técnico, hágalo fácil, digerible para cualquier tipo de público. Tampoco piense que por mencionar las técnicas avanzadas y estadísticas utilizadas va a convencer más, no es así. Es más, el buen expositor, no tiene que mencionar el nombre de ninguna técnica, de hecho, a la mayoría del público no le interesa saberlo… convénzalos.





Quick-R, el único portal decente de R en internet

1 05 2008

Para usuarios o potenciales usuarios de  R

Realmente no existe otro software que tenga la potencia de R, en realidad lo prefiero sobre otros pues permite todo tipo de interacciones y se puede hacer tan robusto (con respecto a la capacidad de procesamiento de los datos) como uno quiera. Sin embargo, aunque tenga un profundo sentimiento de amor y lealtad hacia R, tengo que decir que tiene una documentación simplemente horrible y esto hace que el proceso de aprendizaje sea lento. Recientemente comencé a leer la página de Quick-R, un sitio de excelente documentación. Pienso que ha sido dramáticamente útil para mí.

R es un elegante lenguaje de programación estadística y gráfica. Quick-R fue creado para usuarios experimentados de otros paquetes estadísticos como SAS, SPSS, Stata, y Systat. El propósito del sitio es ayudar a lograr un rápido acceso a este lenguaje. Se asume que el usuario está familiarizado con la mayoría de métodos estadísticos. Además de proveer el código necesario para empezar rápidamente la herramienta lo orienta para futuros aprendizajes.

¿Por qué usar R?

Si usted es usuario de paquetes como SAS, SPSS, Stata, o Systat ¿por qué usar R?

  1. Es gratis. Si usted es un profesor o un estudiante, los beneficios son obvios.
  2. Es ejecutable en una variedad de plataformas incluyendo Windows, Unix y MacOS.
  3. Provee una plataforma para la programación de nuevos métodos estadísticos de un amanera sencilla.
  4. Contiene rutinas estadísticas avanzadas que aún no están disponibles en otros paquetes.
  5. Genera potentes gráficos actualizados con el estado del arte.

 

Estadísticas básicas

Esta sección de Quic-R describe el manejo estadísticas básicas (y no tan básicas). Incluye el código para obtener estadísticas descriptivasconteos de frecuencia y tabulación cruzada (junto con las pruebas de independencia), correlaciones (Pearson, Spearman y Kendall), pruebas-t (asumiendo varianzas iguales y diferentes), pruebas no-paramétricas  de diferencias de grupo ( Mann White U, rango signado de Wilcoxon, pruebas de Kruskall Wallis, pruebas de Friedman), regresión lineal múltiple (diagnóstico, validación cruzada y selección de variables), análisis de varianza (también ANCOVA y MANOVA) y algunas estadísticas basadas en re muestreo.

Estadísticas Avanzadas

Esta sección de Quick-R describe métodos estadísticos un poco más avanzados. Incluye la descripción y exploración de relaciones multivariados complejas entre las variables de estudio.

 

  • Modelos predictivos

Modelos lineales generalizados (regresión logística, Poisson y análisis de sobrevida), análisis discriminante (lineal y cuadrático), y modelamiento de series temporales.

 

  • Modelos de Variable latente

Incluyendo análisis factorial (componentes principales, análisis de factores exploratorio y confirmatorio), análisis de correspondencias, y escalonamiento multidimensional (métrico y no - métrico).

 

  • Métodos de partición

Análisis de clústeres (k-medias), aglomerativo jerárquico y basado en modelos. Métodos de árbol (!aunque también pueden ser incluidos como modelos predictivos!) de clasificación y árboles de regresión.

 

  • Otras herramientas

Esta sección incluye bootstrapping en R y programación de álgebra de matrices (algo como los procedimientos MATRIX en SPSS o PROC IML en SAS).

 

Junto con cada uno de los métodos estadísticos está la contraparte gráfica. Una de las razones principales por la cual deberíamos utilizar R es por su potencia con respecto a la graficación. Por esta y mil razones, usemos R !!!





¿Cuál es la probabilidad de victoria de Obama?

25 04 2008

 

Con los últimos resultados de las primarias en el estado de Pensilvania, la carrera electoral del partido demócrata parece un cuento de nunca acabar dado que Hillary Clinton insiste en dar la pelea hasta el final. Sin embargo, nuestra atención se centra en el escenario hipotético de las elecciones generales entre Hillary Clinton o Barack Obama versus John McCain. Mystery Pollster ha reportado los resultados obtenidos de una encuesta de votantes registrados en cada uno de los estados (estos resultados deberían ser revisados por los profesionales que trabajan en empresas de investigación de mercados que hacen investigación política porque la forma de presentación es muy interesante). Haciendo caso omiso de la calidad de los datos y suponiendo que el tamaño de muestra y estrategia de muestreo es el correcto vamos a utilizar el enfoque Bayesiano para calcular la probabilidad de que McCain sea derrotado en las elecciones generales.

Este es un problema natural para la aplicación de algunas ideas Bayesianas. Si utilizamos algunas distribuciones a priori no informativas, haciendo toda clase de supuestos acerca de la independencia y asumiendo que los resultados fueron obtenidos utilizando muestreo aleatorio simple (supuestos completamente ingenuos e irrazonables, pero para efectos prácticos completamente admisibles) podemos rápidamente obtener distribuciones a posteriori para el soporte de cada candidato en cada estado y así podemos calcular estimaciones acerca de la probabilidad de victoria. Luego, calcular la distribución posterior del número de votos electorales para cada candidato y encontrar las probabilidades (a posteriori) de que Obama derrote a McCain y Clinton derrote a McCain y porque no de que Obama derrote a Clinton.

Este ingenuo y rápido análisis utilizó las marginales reportadas por SurveyUSA. Esencialmente, se tomaron muestras de 50 distribuciones a posteriori de tipo Dirichlet para ambos escenarios hipotéticos, asumiendo distribuciones a priori planas y una densidad multinomial (que permite la inclusión de los indecisos); se asume que todos los votantes inscritos efectivamente votarán.

Cuando se hace esta simulación, se obtiene que la probabilidad posterior (condicional a los datos y al modelo) de victoria de Obama sobre McCain está cerca del 88% y la probabilidad de victoria de Clinton es de 72% y la probabilidad  de que Obama gane más votos electorales en las primarias es de 70%.

Como antes se mencionó, este ejercicio es extremadamente ingenuo pues sub-utiliza el poder de la estadística Bayesiana. Hay un sin número de formas de hacerlo mejor, por ejemplo utilizar fuentes adicionales de incertidumbre, permitir la correlación entre los estados o usar información histórica para alimentar las distribuciones a priori e imponer una estructura jerárquica  para disminuir la influencia de estimaciones atípicas con respecto a la gran media.  

Utilizando el acercamiento Bayesiano en nuestro campo político criollo, podríamos también estimar la probabilidad de que en colombia se presente una hecatombe o en otras palabras de reelección indefinida. Sin embargo, si esa hecatombe se diera y, efectivamente,  Uribe se presentara como candidato presidencial para siguiente periodo, no habría necesidad de realizar ningún esfuerzo Bayesiano.





¿Cuántas vidas ha salvado la estadística?

19 04 2008

Andrew Thomas sugiere que el método de propensity scores ha salvado miles de vidas porque su uso es muy frecuente en el ámbito médico y en la investigación de salud pública. La anterior afirmación nos lleva a la cuestión de cómo poder medir, estimar o predecir el número de vidas (o QALYs) salvadas mediante el uso de la técnica de propensity scores y después, si esto pudiera ser estimado, tendría sentido estimar el número de vidas salvadas mediante el uso de otras técnicas como mínimos cuadrados, regresión logística, curvas de Kaplan-Meier, etc. Si uno quisiera ser más general preguntaría cuántas vidas ha salvado la utilización de métodos estadísticos en total. Sería más conveniente si restringimos la estimación al campo de la salud pública y medicina. De otra forma, tendríamos dificultades, por ejemplo, al tratar de hacer el ejercicio de estimar cuántas vidas fueron salvadas (o perdidas) mediante investigación militar en la segunda guerra mundial.

De igual manera, sería interesante, y probablemente imposible, responder a la pregunta de cuántas muertes ha causado la utilización de métodos estadísticos. Por ejemplo, el estadístico Alan Wallis, fue contratado por el departamento de Guerra (como era conocido en ese entonces en Estados Unidos) para aplicar métodos estadísticos a los patrones de explosión de bombas y dispersión de metralla, con la intención de incrementar la probabilidad de daño severo (bajas humanas si era el caso) alrededor del objetivo.

Sin embargo, desde una retro perspectiva particular cuando recordamos lo que Jay Kadane decía: “Los estadísticos dejan de fumar antes que los doctores en medicina”, podemos afirmar que realmente hemos salvado muchas vidas. La anterior frase implica que nosotros nos damos cuenta de la relación natural del cáncer de pulmón y el hábito de fumar antes que otros profesionales. Podemos suponer que este hecho ha marcado un verdadero hito en la historia del comercio de los cigarrillos y podría ser el mayor salvavidas estadístico hasta el momento.

 





¿De dónde viene el 0.05?

17 04 2008

 

Erin Leahey, en un reciente artículo, escribe acerca del uso del nivel de significación en pruebas estadísticas, el valor 0.05 y el sistema de tres estrellas que se han convertido en métodos legítimos y dominantes en la mayoría de las investigaciones de tipo social. De acuerdo a Erin, el sistema de hipótesis merece una estrella cuando el p-valor es menor de 0.05, dos estrellas si el p-valor es menor de 0.01 y tres estrellas si el p-valor es menor de 0.001. Erin atribuye el primer uso del nivel de significación 0.05 a Ronald Fisher en su libro publicado en 1935 Diseño de experimentos. También nota que otras formas de pruebas de significación eran muy populares en la década de 1930, cuando cerca del 40% de los artículos publicados en ASR y AJS aplicaban sólo una técnica de prueba de significación.

El famoso 0.05, que nos da de comer a la mayoría de nosotros, fue muy usado desde 1930 hasta 1950, pero declinó hasta 1970. Sin embargo, volvió a revivir hasta nuestra época. Actualmente, cerca del 80% de los artículos publicados en ASR y AJS emplean ambos procedimientos (nivel de significación y estrellas). El sistema de tres estrellas emergió en la década de 1950, pero se volvió muy popular sólo después de 1970. Un porcentaje cercano al 40% de artículos publicados en los anteriores journals utilizan la metodología de las tres estrellas.

¿Qué es lo cuenta en la difusión de tales prácticas? Erin dá vários argumentos para responder a esta pregunta. Por ejemplo, ella concluye que los factores institucionales como inversión en investigación y computadores, entrenamiento a nivel de postgrado y la preferencia del editor del journal pueden ser algunos de los factores más importantes en la difusión de tales prácticas. Interesantemente, ella encontró que los egresados de Harvard tenían un efecto negativo significativo al adoptar tales prácticas estadísticas.

Por supuesto, este estudio está limitado a la muestra que tomó Erin y no puede ser generalizado. Sin embargo, es una lectura divertida. Si alguien está interesado en los elementos históricos de cómo las prácticas estadísticas fueron introducidas y comenzaron a legitimarse en la investigación social, Camic y Xie (1994) es un muy buen punto de partida.

 





Yo no soy muestrista

11 04 2008

Este post comienza con una breve anécdota de un buen amigo que labora para el departamento que brinda las respetables estadísticas oficiales en el país, DANE. Mi amigo me comentaba que mientras trabajaba en su computador, el entonces director de la institución, hacía lobby en el conjunto de cubículos donde eran engendradas estimaciones, factores de ponderación y expansión, errores de muestreo, etc. El desocupado director, decidió saludar a todos y cada uno de los proletarios (porque ni siquiera tienen el calificativo de empleados, pues la entidad no se quiere comprometer con ellos mediante una contratación de planta, sino que prefiere mantenerse al margen de tal responsabilidad contratando por medio de la figura de prestación de servicios). Ellos, a su vez, decidieron rendirle tributo a aquel personaje — “Mire, ahí está Caballero, el director” –- exclamaban entre dientes mientras se preparaban para el gentil saludo. El dimitente funcionario se acercaba a cada uno y les extendía la mano mientras preguntaba -– “Hola, ¿tú eres muestrista o estadístico?”  – cuando mi amigo tuvo el honor de responder a tan inteligente y sublime pregunta, trataba de controlar sus traicioneros nervios y no atinó a contestar nada. 

Trato de visualizar la anterior situación y realmente… no le hallo sentido. No me suena esa palabra: muestrista. De hecho, ni siquiera se encuentra en el diccionario de la Real academia de la lengua española. En google se encuentran muy raras acepciones a la palabrilla entre ellas están: costurero, modelista, miembro de alguna secta, vendedor de enciclopedias y en un lugar alejado… persona que diseña planes de muestreo.

Yo no soy muestrista, ni Bayesiano, ni Fisheriano, ni frecuentista, ni clásico, ni no-paramétrico… soy todos y a la vez ninguno ¡soy estadístico!

En materia de filosofía estadística no me caso con ninguna corriente, es mejor tener una gama de técnicas con diversos supuestos porque éste es un mundo dinámico y se necesitan tópicos de pensamiento variados para afrontar un problema de investigación. La estadística es una ciencia aplicada, existe para resolver problemas prácticos y en la vida real éstos son de todo tipo, un estadístico debe estar en capacidad de enfrentar y resolverlos y si el estadístico se acostumbra a encararlos de acuerdo a una forma de pensamiento, seguramente cometerá los mismos errores sistemáticamente.

La verdad sea dicha, tal vez no tenemos una mente abierta en la academia ni en las aulas y no es de extrañarse que los grandes desarrollos en materia de métodos y teoría estadística no hayan sido hechos por estadísticos. Hay ejemplos claros de personajes enfocados, que se dejaron de rodeos y de críticas y con su buena disposición han hecho de la estadística lo que es ahora, una ciencia que está presente en casi todas las disciplinas del saber. EL ejemplo más reciente se trata de los economistas ganadores del premio Nóbel en el 2003, Engle y Granger, por haber desarrollado el modelo ARCH.

Entre otros ejemplos, tenemos a:

 

  • Bayes              Reverendo      Probabilidad causa
  • Tukey              Químico           Jacknife y estadística descriptiva
  • Pearson           Abogado        X2 y método de los momentos
  • Fisher              Genetista        Inferencia, Diseño experimental, ANOVA
  • Deming           Ingeniero eléctrico      Muestreo y control de calidad
  • Daniel Pena     Ingeniero industrial     Series de tiempo, métodos multivariados

Por lo demás, no importa cuál sea nuestra profesión o en qué rama de la estadística estemos enfocados, si nuestra motivación está en describir, inferir, predecir o pronosticar entonces somos estadísticos y por lo tanto somos investigadores zorros. Los zorros saben muchos trucos, están interesados en todo y se mueven fácilmente de un problema a otro. La ciencia necesita de los zorros para explorar los detalles complicados de nuestro universo maravilloso.

 

PD: Espero que los lectores hayan notado que la anterior entrada, No rotundo a la estadística Bayesiana, era precisamente una motivación para su uso. Es decir, fue una broma inteligente de Andrew Gelman. Por supuesto que la estadística Bayesiana es ROTUNDAMENTE IMPORTANTE en la actualidad. Para aquellos que quieran conocer de qué se trata… pues que compren el libro y lean el primer capítulo.

BAYESIAN DATA ANALYSIS. Gelman. et. al. 1995. C&H





Acerca de la estadística Bayesiana

8 04 2008

 

 

 

En la página web del autor del éxito en ventas “Bayesian Data Analysis” se encuentra un punto de vista acerca de la inferencia realizada por los estadístico Bayesianos.

La inferencia Bayesiana es una teoría matemática coherente pero no brinda la suficiente confianza en usos científicos. Las distribuciones a priori subjetivas no inspiran confianza porque ni siquiera existe algún principio objetivo para elegir una a distribución a priori no informativa (incluso si ese concepto estuviera definido matemáticamente, pues no lo está). ¿De dónde vienen las distribuciones a priori? No confío en ellas y no veo ninguna razón para recomendarlas a otra gente, apenas me siento cómodo acerca de su coherencia filosófica.

La teoría Bayesiana requiere un pensamiento mucho más profundo sobre la situación y recomendar el teorema de Bayes para el uso de los científicos es como darle al hijo del vecino la llave de un F-16. De veras que, yo comenzaría con algo de métodos probados y confiables, y entonces generalizaría la situación utilizando los principios estadísticos y la teoría del minimax, que no dependen de ninguna creencia subjetiva. Especialmente cuando las distribuciones a priori que veo en la práctica toman formas conjugadas. ¡Qué coincidencia!

Dejando de lado las preocupaciones matemáticas: Me gustan las estimaciones insesgadas, los intervalos de confianza con un nivel real de cobertura. Pienso que la manera correcta de inferir es acercarse al parámetro tanto como sea posible y desarrollar métodos robustos que trabajen con supuestos mínimos. El acercamiento Bayesiano intenta aproximar el insesgamiento, mientras asume supuestos más y más fuertes. En los viejos tiempos, los métodos Bayesianos por lo menos tenían la virtud de estar matemáticamente limpios. Hoy en día, cualquier inferencia se realiza mediante el uso de las cadenas de Markov mediante métodos de Monte Carlo (MCMC). Lo anterior significa que, no sólo no se pueden evaluar las características estadísticas del método, sino que tampoco se puede asegurar su convergencia.

La gente tiende a creer los resultados que apoyan sus preconceptos y descreen los resultados que los sorprenden, ésta es una forma errada y sesgada de pensar. Pues bien, los métodos Bayesianos animan este modo indisciplinado de pensamiento. Estoy seguro que muchos estadísticos Bayesianos están actuando de buena fe. Sin embargo; al mismo tiempo, están proporcionando estímulo a científicos descuidados y poco éticos por todas partes, porque el investigador queda estancado al momento de escoger una distribución a priori.

Y para no pasar a temas más críticos, termino la discusión con lo que los Bayesianos piensan acerca de la recolección de los datos. Los cálculos de la teoría Bayesiana de la decisión guían a la idea de que el muestreo probabilístico y la asignación aleatoria de tratamientos son ineficaces, de que los mejores diseños y muestras son los deterministas. No tengo ninguna conflictos con estos cálculos matemáticos — el conflicto es más profundo, en los fundamentos filosóficos, en la idea de que el objetivo de la estadística consiste en tomar una decisión óptima. Un estimador Bayesiano es un estimador estadístico que reduce al mínimo el riesgo promedio. Sin embargo, cuando hacemos estadística, no estamos intentando “reducir al mínimo el riesgo promedio“, estamos intentando hacer estimación y juzgamiento de hipótesis.

No puedo estar al tanto de lo que están haciendo todos esos Bayesianos hoy en día –desafortunadamente, toda clase de personas están siendo seducidas por las promesas de la inferencia automática con la “magia de MCMC “– pero desearía que todos paráramos de una vez y por todas y empezáramos, de nuevo, a hacer estadística de la forma en que debe ser hecha, volviendo a los viejos tiempos en que un p-valor era utilizado para algo, cuando un intervalo de confianza tenía significado, y el sesgo estadístico era algo que se quería eliminar y no algo que se debiera abrazar.

El autor de este blog, comparte algunas ideas de la anterior disertación. Sin embargo, reconoce la magnitud y el impacto que los Bayesianos han tenido no sólo en el desarrollo de la teoría estadística sino también en el pensamiento estadístico del autor. La estadística Bayesiana debe ser utilizada con expertise. Al ser utilizada por investigadores neófitos puede ser tergiversada. Sin embargo, el mal uso que se le dé a un método no involucra su credibilidad, sino la ignorancia del investigador.





La muerte de los mínimos cuadrados

5 04 2008

Muerte

 

Un estudiante recién graduado se pregunta preocupadamente: “¿Todo lo que sé son mínimos cuadrados (MC)?, estos resultados no convencerán a nadie”. Un profesor pone en su puerta un letrero de MC encerrado en un círculo rojo con la raya negativa. Un gurú en modelamiento alaba la estimación máxima verosímil y maldice el método de MC. Todos ellos se están preguntando ¿Están muertos lo mínimos cuadrados (MC)? En el artículo de Krueger y Lewis-Beck se discute el estado del arte en relación a la estimación MC con base en ciencias políticas.

El análisis de regresión, en algunas versiones, ha servido como caballo de batalla en ciencia política. Dados los supuestos clásicos, existen dos corrientes en cuanto a la optimalidad del estimador MC. Unos argumentan que el estimador es robusto, pero otros argumentan que es un estimador muy frágil. Partiendo desde la perspectiva de fragilidad, entonces el uso del método MC puede resultar problemático. Tomando en cuenta estos argumentos, además de la incrementada atención en nuevos métodos de estimación, lo que esperaríamos es que los MC hayan cesado de aparecer en las investigaciones recientes.

Para asegurarse de esto, se han examinado una gran cantidad de publicaciones recientes (en el contexto de ciencia política) en los journals más leídos. En total N = 1756 artículos publicados. La tabla siguiente muestra la frecuencia de uso para diferentes técnicas cuantitativas. Esas técnicas pueden ser clasificadas como más o menos sofisticadas que los MC.

 

Uso de los m�nimos cuadrados

De acuerdo a esta clasificación, los MC es la técnica más popular, apareciendo en casi el 31% de los artículos. Tomando juntos, los estimadores que parecen ser más sofisticados – logit, probit, series de tiempo, técnicas de máximo verosimilitud, variables latentes, simulación, regresión avanzada – aparecen con un 43%. Los demás métodos cuantitativos que son menos sofisticados que los MC tienen un 21% de aparición.

Los MC no están muertos. Por el contrario, parece ser la principal técnica de análisis multivariado de los investigadores que publican en los principales journals. La academia debe tener en cuenta el buen funcionamiento de estos estimadores y las ventajas putativas de éste método debe estar siempre presente pues los MC ofrecen una lengua común interdisciplinaria à Es un método de fácil cálculo, de fácil entendimiento y de fácil interpretación. Por otra parte, no hay que olvidar que sigue siendo el mejor estimador lineal insesgado (BLUE, por sus siglas en inglés) cuando los supuestos clásicos de la regresión son satisfechos.

 





Métodos multivariados en Excel

31 03 2008

Haciendo click aquí tendrá acceso a una macro para Excel que le permite realizar diversas clases de métodos multivariados. La salida principal es un Biplot que es un gráfico de filas y columnas obtenido a partir de datos de una tabla cruzada. Las coordenadas del Biplot se calculan mediante una descomposición en valores singulares (SVD por sus siglas en inglés) de la matriz de datos. El Biplot puede ser usado en muchas técnicas del análisis multivariado para desplegar las relaciones entre variables y objetos.

Este artículo describe la macro para Excel que puede ser usada para graficar un Biplot basado en resultados de análisis de componentes principales, análisis de correspondencias, análisis canónico discriminante, escalonamiento multi-dimensional o análisis de correlación canónica. La macro permite una amplia variedad de transformaciones a priori de los datos antes de realizar el análisis de SVD y consiste en un complemento para Excel que está implementado en Visual Basic. Para que este complemento funcione correctamente requiere Excel 97 o una versión más reciente. El programa calcula la descomposición en valores singulares de la matriz de datos (o de la matriz de datos transformada) y produce un Biplot estándar como en el análisis de componentes principales o de correspondencias. Además, el programa también produce salidas de las otras técnicas mencionadas anteriormente. Los pasos para añadir el complemento en Excel son muy sencillos:

  1. La macro está guardada en el archivo BIPLOT01.XLA que puede ser añadido al ambiente de Excel.
  2. Abra Excel, luego HERRAMIENTAS > COMPLEMENTOS.
  3. Cuando la ventana de complementos aparezca, clic en EXAMINAR y encuentre la ruta en donde se ha guardado el archivo BIPLOT01.XLA.

Si todo ha salido bien, el ítem Biplot aparecerá en su menú de Excel en la parte superior de la hoja de datos. Al seleccionar la opción Biplot se abrirá un menú que consta de dos partes, una para los respectivos cálculos algebraicos y la otra para graficación. También existe un menú de información que le ayudará a implementar mejor sus análisis multivariados.