jump to navigation

R and LaTex working together in the automatic report generation of survey sampling tables Diciembre 14, 2009

Posted by psirusteam in Estadística.
add a comment

Christmas is coming and this time the gift is for those who work in the generation of statistical tables and do so by using R. We propose a procedure and a function in R language to prepare the automatic editing of large amounts of tables with similar structures that are generated during the survey applications.

These new features TbLatex and DataFr, incorporated in the new versión of the TeachingSampling package (v. 1.1.9), which allows defining the implementation of variables, categories, population subgroups, labels, estimates, coefficients of variation, titles, headers and tables resulting from a study to include in a report of statistical work. This tedious work is carried out, most of the time, using MS Excel or MS Access and its final implementation may take several weeks, if you have a team of several guys. In addition to tha task of avoiding human error, the presentation of the tables is very important. The resulting format from the application of these functions (see image and see here) is clean, clear and standard.

The result of the functions is a file with .tex extension. This is a file that is ready to compile into your favorite LaTeX editor. If you are dealing with a technical report, you can create a vertical document easily. If it’s a slide show, you can do it horizontally. If you only need the output tables, for example in an appendix, simply execute the function in R and compile and it is ready. If you want to add text and explanations and references, simply open the generated file and, before compiling, add explanations or whatever you want to add.

This implementation is the result of this article by Professor Ortiz to be released in a few days in the Revista Comunicaciones en Estadística journal. In this manuscript, Professor Ortiz uses a fictional example for automatic table generation. Moreover, this manual of the related functions will be in a few weeks in the CRAN of R, available in the package TeachingSampling. In this manual, the functions were integrated with the package and, as a result, we have a software that selects samples of most known sampling designs, estimating totals, averages, quantiles and regression coefficients – for multiple variables interest – through expansion or calibration and all these estimates are concentrated in LaTeX by generating sampling reports.

R y LaTex unidos en la generación automática de reportes de muestreo Diciembre 14, 2009

Posted by psirusteam in Enseñanza, Muestras, Muestreo, Software.
2 comments

Se acerca navidad y esta vez el regalo es para aquellos estadísticos que trabajan generando cuadros de estimaciones de muestreo (aunque no necesariamente de muestreo probabilístico) y lo hacen utilizando R (no necesariamente el paquete TeachingSampling). Una vez más, Jorge Ortiz vuelve a sorprender al gremio con su creatividad y su perspicacia para automatizar las tareas en las que el estadístico no es tan hábil. En esta ocasión, se propone un procedimiento para y una función en lenguaje R para preparar la edición automática de grandes cantidades de tablas con estructuras similares que se generan durante las aplicaciones de encuestas.

Se trata de las nuevas funciones TbLatex y DataFr, incorporadas en la nueva versión del paquete TeachingSampling (v. 1.1.9), las cuales permiten definir la implementación de variables, categorías, subgrupos poblacionales, rótulos, estimaciones, coeficientes de variación, títulos, encabezados y notas de las tablas resultantes de un estudio que se van a incluir en un reporte de trabajo estadístico. Esta engorrosa labor es llevada a cabo, la mayoría de las veces, utilizando MS Excel o MS Access y su implementación final puede tomar varias semanas, si se cuenta con un equipo de varios digitadores. Además de evadir el error humano, la presentación de las tablas es muy importante. El formato resultante de la aplicación de estas funciones (ver imagen y ver acá) es limpio, diáfano y estándar. Además que mejor que presentar unos buenos cuadros de salida venidos de LaTeX.

El resultado de las funciones es un archivo con extensión .tex. Se trata de un archivo que se encuentra listo para compilar en su editor preferido de LaTeX. Si se trata de un reporte técnico, usted puede generar un informe vertical. Si se trata de una presentación con diapositivas, lo puede hacer de forma horizontal. Si sólo necesita los cuadros de salida, por ejemplo para un apéndice, sólo tiene que ejecutar la función en R y compilar y listo. Si quiere añadirle texto y explicaciones y referenciarlas, sólo tiene que abrir el archivo generado y, antes de compilar, añadirle sus explicaciones o lo que sea que le quiera añadir.

Esta implementación, es fruto de este artículo del profesor Ortiz que saldrá en pocos días en la revista comunicaciones en Estadística. En ese manuscrito, el profesor Ortiz utiliza un ejemplo ficticio para la generación de tablas automáticas. Por otro lado, está este manual de las funciones que estará en pocas semanas en el CRAN de R, disponible en el paquete TeachingSampling. En este manual, se integraron las funciones en cuestión con las del paquete y como resultado se tiene un software que selecciona muestras de la mayoría de diseños de muestreo más conocidos, que estima totales, medias, cuantiles y coeficientes de regresión – para múltiples variables de interés – mediante expansión, o calibración y todas esas estimaciones se concentran en LaTeX para la generación diáfana de reportes de muestreo.

Esperamos que disfruten esta nueva característica del paquete y Feliz Navidad… Volveré a escribir, si Dios lo permite, a principios del otro año. Feliz y próspero año nuevo… Tome un momento y recapacite en todas las cosas buenas de la vida… Bien, esas cosas se las dio Dios… sea agradecido. De esta manera, me despido de ustedes, agradeciéndole a Dios por tantos lectores y comentaristas.

Símbolos en LaTeX, el que usted dibuje Diciembre 3, 2009

Posted by psirusteam in Estadística.
add a comment

Originalmente, Philipp Kühl tuvo la idea de esta fabulosa herramienta para el investigador que escribe sus proyectos y resultados en \LaTeX, después Daniel Kirsch inventó la plataforma HTML y nació DETEXIFY. Esta simple, pero muy poderosa herramienta le permite dibujar el símbolo que desee (y del cual no recuerda ni la instrucción ni el paquete pertinente) y mediante un puntaje de predicción arroja cinco posibles símbolos junto con el código y el paquete, en caso de requerirlo.

Por ejemplo, usted está escribiendo su tesis, proyecto, artículo, etc. Las ideas están fluyendo y sorprendentemente, la redacción está mejor que nunca. De pronto, empieza el ambiente <<equation>> o <<align>> y está escribiendo su intrincada expresión matemática. Usted sabe lo que quiere escribir, pero por alguna razón no recuerda el código correcto de algún símbolo. Es entonces cuando decide buscar en el libro guía: “El universo Latex”… es una excelente obra, piensa usted. Después de 20 minutos y de hojear y ojear el libro de 600 páginas, se da por vencido. Recurre al oráculo Google y después de 35 minutos de búsqueda y filtración manual se da cuenta que el código era el correcto pero que no compilaba bien puesto que no había cargado la librería que contenía el símbolo. Vuelve a la ventana de su editor y retoma su escritura. Un momento… pasaron 55 minutos y usted ya no se acuerda de lo que quería escribir. Cierra el portátil y se va a jugar Wii. Mañana será otro día.

Con DETEXIFY lo único que tendrá que hacer es entrar a la página WEB, dibujar su símbolo y listo. La interfaz virtual le dirá el código y el paquete que debe usar para que tener una compilación exitosa.

Una vez más, la causalidad en el campo político colombiano Diciembre 2, 2009

Posted by psirusteam in Causalidad.
1 comment so far


El periódico El Espectador ha publicado una columna llamada <<una cooperación contraproducente>> concerniente a una investigación que ha generado revuelo internacional y que ha sido materia de discusión en dos ocasiones en este blog. El columnista introduce al lector descuidado con las siguientes palabras:

Intrigados por el volumen de denuncias que por años han señalado que la ayuda militar estadounidense en Colombia contribuía a la violación de los Derechos Humanos, dos jóvenes investigadores de la Universidad de Nueva York (NYU) y de la Universidad de Harvard se hicieron hace algunos meses una pregunta: ¿Existe una relación directa entre la cantidad de ayuda militar a Colombia y los actos de violencia de los grupos armados?

Nótese que en la introducción de su artículo, los dos jóvenes investigadores declaran lo siguiente:

“La ayuda militar norteamericana produce el aumento diferencial en ataques paramilitares, mientras que no afecta los ataques de la guerrilla.

En la misma columna el inteligente periodista les pregunta lo siguiente:

Dada la complejidad del conflicto colombiano, ¿cómo pueden estar tan seguros de que el incremento en la violencia paramilitar es producido por la ayuda de EE.UU.? ¿No podría ser, por ejemplo, respuesta a ganancias por tráfico de cocaína?

Algo maravilloso de tener buenas fuentes de datos sobre el conflicto y otro número de factores que podrían estar influenciando las dinámicas del conflicto —por ejemplo, la cantidad de coca cultivada en los municipios— es que nos permite realizar controles de diferentes maneras. A partir de imágenes satelitales, hicimos unos análisis en zonas de Colombia donde nunca habían sido reportados cultivos de coca: encontramos un incremento de violencia paramilitar.

¿Qué otras variables controlaron para demostrar que había una relación causa efecto entre la ayuda militar estadounidense y la violencia paramilitar?

Temíamos que, en lugar de ser la ayuda la que generara la violencia, fuera el incremento paramilitar el que provocara el aumento en la ayuda norteamericana. Sin embargo, descartamos esa posibilidad comparando el nivel de ayuda militar destinada a Colombia y la dada a otros países fuera de Latinoamérica. Ahí descubrimos que Estados Unidos incrementó su ayuda a Colombia, Egipto o Indonesia en el marco de la lucha contra el terror y no por fenómenos propios de cada país.

Pese a ser parte de la guerra contra el “terror”, ustedes sostienen que la ayuda militar estadounidense ni incrementa ni disminuye los ataques violentos de la guerrilla.

Exacto. Si pensamos que los dos principales objetivos de la ayuda militar norteamericana son la lucha contrainsurgente (en términos de aplastar a la guerrilla) y la lucha antinarcóticos (en reducción de cultivos de coca), lo que encontramos es que ninguno de estos objetivos está siendo alcanzado.

Esta investigación será presentada en el Centro para el desarrollo global y está en proceso de revisión de pares para ser publicada en una revista científica. Mis comentarios siguen siendo los mismos de las entradas: La causalidad y la paradoja de Simpson y ¿Efecto causal o simplemente asociación? Sin embargo, quisiera replicar las palabras de uno de los más reconocidos estadísticos y analistas políticos en Estados Unidos acerca de este trabajo de investigación, Andrew Gelman. Su respuesta a las supuestas causas del conflicto paramilitar son las siguientes:

En primer lugar, yo [Gelman] sigo prefiriendo el lenguaje de asociación antes que especular acerca de la causalidad. Ahora, para llegar a los detalles: mi modelo alternativo de las bases es el siguiente: El conflicto en Colombia aumentó durante la década del 2000 y la ayuda militar de EE.UU, en Colombia y en otros lugares, también se incrementó durante ese período. La mayoría de los ataques de los paramilitares (y, por tanto, la mayor parte del aumento de los ataques de los paramilitares) se produjo cerca de las bases militares. Por lo tanto, no estoy tan impresionado por el argumento de “tendencia diferencial en el tiempo”. No es sorprendente (pero no obstante cabe señalarlo) que hay menos ataques de la guerrilla cerca de bases militares. Pero todo esto no significa que los ataques de los paramilitares no se han aumentado en la ausencia de ayuda de EE.UU.

Sin embargo, nada de esto contradice su historia [la de los dos investigadores] política principal, que es que el ejército colombiano está implicado en ataques de los paramilitares, y que la ayuda de EE.UU. es un facilitador para este tipo de violencia. Mi historia es coherente con su historia de causalidad – la ayuda de EE.UU. genera más recursos para los militares y aumenta los ataques paramilitares. También es coherente con una historia causal diferente, que dice así: más conflicto, más ataques de paramilitares y por ende más ayuda de EE.UU. para evitar que la situación empeore.

…Yo creo que sería más defendible, desde un punto de vista estadístico y econométrico, demostrar la asociación y poner el balón en la cancha.

Aprovecho para saludar a Ronald Herrera y a Iván Díaz… gracias por su involuntario aporte desde Facebook. Asimismo, comparto y celebro sus ideas de “Léase el artículo [Bases, bullets and ballots] con precaución”, no sólo ese sino todos.

Proporciones bayesianas y EM en Google Books Diciembre 2, 2009

Posted by psirusteam in Bayesiano, Marketing, Software.
add a comment

Una variante de nuestro trabajo acerca de la inferencia bayesiana en el problema de la diferencia de dos proporciones – enfocada en la investigación de mercados (específicamente en pruebas de empaque o packaging test) – ha sido publicado por la Revista de métodos cuantitativos para la economía y la empresa. Esta revista es la única publicación en español que aparece referenciada en el raking australiano de revistas de estadística.

El artículo trata un caso de estudio en donde se quiere poner a prueba el cambio del empaque de un producto posicionado en su categoría de mercado. Con estadística frecuentista tradicional se llegaría a la conclusión de que no es conveniente cambiar de empaque. Con los métodos bayesianos (diferencia de proporciones y pruebas de independencia) se sugiere que la mejor estrategia está en cambiar el empaque. Este artículo está basado en un conjunto de funciones en R (ver acá) que ayudan a implementar un análisis bayesiano exacto y/o simulado y están disponibles hacindo clic acá. El artículo está disponible acá.

Por otro lado, Estrategias de muestreo (EM) ya aparece en Google Books (ver acá) y muy pronto podrá ser adquirido de forma electrónica.

La competencia de SAS Diciembre 1, 2009

Posted by psirusteam in Software.
add a comment

SAS, una de las 100 mejores  empresas para trabajar enfrenta un gran reto en términos de estabilidad del share de mercado que tiene (más del 90% de las Fortune 500 utilizan este software estadístico) y mantenimiento de la utilidad de más de 2.26 billones de dólares al año. La competencia no solamente viene del lado de software de uso libre como R y/o Python sino que también de parte de otras compañías como SPPS y WPS.

Desde que IBM adquirió a SPSS la competencia se puso aún más ruda por el mercado de 9 billones de dólares anuales del negocio de software para análisis estadístico predictivo. La negociación se concretó por una cifra cercana a los 1.2 billones de dólares y por simple sentido común, ningún CEO da 1.2 billones de verdes de no ser porque planea sacar una utilidad muy muy grande.  Sin embargo, IBM también ha adquirido a Cognos y planea integrarlo con el viejo SPSS para dar una recia pelea en términos de cultura predictiva entre los gerentes que, en últimas, son el core de negocios de SAS. Por lo tanto, SAS debe prepararse desde todo flanco para evitar que un gigante como IBM le eche mano a sus clientes. Seguramente SAS, como en otras situaciones, sabrá hacerle frente a las arremetidas de IBM, SAP, Oracle y Microsoft.

Por otro lado está WPS, el clon de SAS que permite ejecutar el código que se escribe en el legunaje de SAS. Por ejemplo, los procedimientos PROC REG y PROC LOGISTIC se implementan sin ningún problema en este software. Aunque existe una disputa legal iniciada por el gigante del software analítico predictivo, la compañía que distribuye WPS también ha dado la pelea y ha tenido una gran acogida en al WEB.

Por último, R, la gran sorpresa de las última década, es un software de uso libre y entidades tan prestigiosas como la Universidad de Stanford y Google lo utilizan  para desarrollar sus análisis estadísticos. Cada día más y más personas están uniéndose a está red de desarrollo libre y, por ende, más instituciones están recurriendo a sus grandiosos servicios. Para contrarrestar los efectos de esta gran burbuja, SAS, al igual que SPSS y WPS, implementó una modificación en su software de tal forma que el código escrito en R pueda ejecutarse desde SAS.

Acá nada está escrito, amanecerá y veremos en donde termina estabilizándose la balanza y para qué lado. Por lo pronto, si SAS o IBM quisieran acceder a mis servicios podríamos empezar a negociar, tal vez una pauta en este blog le ayude a ganar a SAS su feroz batalla contra IBM, o a IBM a tener más usuarios que SAS.

La distribución de Kuramaswany Noviembre 29, 2009

Posted by psirusteam in Probabilidad.
1 comment so far

Esta distribución propuesta inicialmente por Poondi Kumaraswamy en 1980, tiene una forma similar a la de la distribución Beta, está restringida al intervalo [0,1] y su forma funcional resulta muy simple puesto que su forma es cerrada; al contrario de la distribución Beta cuya expresión, como lo afirma Jhon D. Cook, no puede ser reducida a funciones elementales a menos que sus dos parámetros sean enteros. La función de densidad está dada por

f(x;a,b)=abx^{a-1}(1-x^a) ^{b-1}

Un resultado importante es que si Y tiene una distribución Beta(1,b), entonces

Y^{1/a} \sim Beta(a,b)

Sin embargo, Jhon D. Cook afirma que la aproximación de los parámetros de las dos distribuciones no implica que la forma resultante de la distribución de Kuramaswani no sea equivalente a la forma de la distribución beta. En R, esta distribución está implementada en el paquete VGAM y la instrucción rkumar genera números aleatorios desde esta distribución. El gráfico de esta entrada se generó mediante la utilización de este código.

Todo sobre causalidad en 40 páginas Noviembre 29, 2009

Posted by psirusteam in Causalidad.
1 comment so far

En primer lugar, aprovecho este espacio para promocionar la lectura de Statistics Surveys, una revista patrocinada por la ASA, la sociedad Bernoulli, el IMS, entre otros. El objetivo de esta publicación anual es hacer un recuento exhaustivo de las áreas concernientes a la estadística teórica y aplicada.

En segundo lugar, y dado mi reciente sesgo por la cultura de la causalidad, quiero recomendar la lectura del artículo Causal inference in statistics: An overview, escrito por Judea Pearl del departamento de ciencias de la computación de la UCLA. El artículo hace hincapié en los cambios paradigmáticos que deben llevarse a cabo para pasar de un simple análisis estadístico tradicional a un análisis causal per se. Y es que, una vez más una cosa es una cosa y otra cosa es otra cosa.

ggplot2 en la WEB… una versión virtual de los más potentes gráficos en R Noviembre 22, 2009

Posted by psirusteam in Gráficos.
add a comment

Uno de los más famosos paquetes de R es ggplot2… su creador, Hadley Wickham, profesor de estadística de Rice University, afirma que el espíritu de este acercamiento gráfico está basado en la gramática de los gráficos (que básicamente trata de incorporar lo mejor de varios tipos de gráficos y deja a un lado lo peor) y en un intento de proveer modelos potentes para la producción sencilla de gráficos complejos. Ahora, el joven autor ha creado este sitio WEB en donde se puede encontrar una interfaz amigable del paquete ggplot2.

Materiales Workshop Noviembre 18, 2009

Posted by psirusteam in Seminarios.
1 comment so far

Haciendo clic en los enlaces correspondientes encontrará el material de los cursillos y conferencias de los invitados internacionales al first international Workshop on Applied Statistics.

Pedro Silva: Análisis avanzado de datos muestrales.

Julio singer:Teoría asintótica.

Victor Guerrero: Series de tiempo.

Muestras WEB Noviembre 18, 2009

Posted by psirusteam in Muestras.
add a comment

Una colega escribe lo siguiente:

Desde el muestreo conoces  ¿qué se ha trabajado en relación con evaluación de la calidad de encuestas utilizando como medio de recolección de datos recursos Web?

Mi respuesta:

Conozco poco de muestras WEB, si estamos hablando de las famosas web poll pues desafortunadamente es un tema áspero para los teóricos puesto que esta tendencia se ha extendido bastante en la última década y, según dicen, no tiene la suficiente rigurosidad en términos de diseño estadístico. Sin embargo, si estamos hablando de encuestas probabilísticas que utilizan la WEB para levantar la información, te recomiendo darle una mirada al nuevo journal Survey Research Methods.  Ésta es una publicación que ha tenido bastante trascendencia y en términos de calidad en este tipo de encuestas el volumen dos número uno trae un excelente artículo sobre el diseño y calidad de encuestas WEB. ¿Alguien más sabe de esto?

Correlaciones Noviembre 15, 2009

Posted by psirusteam in Enseñanza.
add a comment

Fuente: Wikipedia

Estrategias de muestreo: Diseño de encuestas y estimación de parámetros Noviembre 13, 2009

Posted by psirusteam in Libros, Muestreo.
5 comments

100_2166

Es un honor poder compartir con ustedes mi primer libro… pueden estar seguros que este es el comienzo de una nueva cultura de la estadística aplicada en Colombia y en hispanoamericana… vendrán más, muchísimos más.   Como había anunciado antes, este libro está divido en tres partes. La primera parte trata con rigurosidad los diseños de muestreo para elementos y conglomerados y es apta para el aprendizaje exhaustivo del muestreo. La segunda parte trata con la incorporación de información auxiliar en la etapa de estimación en donde surgen los estimadores de regresión, los estimadores de calibración, el método de raking y el IPFP. Además, esta parte adjunta un muy buen capítulo de estimación de parámetros finitos  bajo modelos (model-based survey sampling). La tercera parte trata con temas más complejos como diseño de muestreo y  estimación en encuestas multi-propósito, muestreo balanceado, muestreo indirecto y muestreo en dos fases.

Mi objetivo es que este libro se convierta en una guía no sólo académica sino práctica y que el profesional, estadístico o no, que se encuentre involucrado en el diseño, implementación y ejecución de encuestas encuentre en este texto un baluarte que le permita relizar su trabajo profesional con mejor eficiencia.

Gracias, muchas gracias, en primer lugar a Dios, y a ustedes…Todos ustedes son la razón de este blog, de las publicaciónes en revistas y de este libro y los otros que vendrán.

PD1: En la foto, al lado izquierdo este servidor, en el centro mi libro y al lado derecho Pedro Silva, profesor de la universidad de Southampton en Inglaterra y expresidente del InterAmerican Statistical institute (IASI), el personaje latinoamericano más influyente en el mundo del muestreo.

PD2: La página oficial del libro es esta. Allí encontraran las soluciones a los ejercicios, el paquete base en R (TeachingSampling package), las erratas y las actualizaciones que haré.

La causalidad y la paradoja de Simpson Noviembre 8, 2009

Posted by psirusteam in Diseño experimental, Modelos.
1 comment so far

He estado cavilando acerca de la dramática situación por la cual está pasando nuestra querida patria Colombia con el presidente de nuestra hermana república Venezolana… sí, todo el tema de las bases militares de Estados Unidos en Suramérica, en donde vienen y van todo tipo de argumentos, incluso argumentos de tipo estadístico. Por supuesto, es natural que en un blog latinoamericano de contenidos estadísticos se hable de temas estadísticos… Es bien sabido que el presidente Hugo Chavez tienen a la mano gran cantidad de estudios que “prueban” lo efectos colaterales de la política colombiana. Sin embargo, no se puede aprovechar este tipo de situaciones para malversar la significación estadística y por ende generar conclusiones equivocadas.

Una vez más retomo el ejemplo tabacalero. Fueron años y años de lucha estadística contra el imperio (ese sí que es un imperio) del tabaco. Aunque los estudios indicaban una fuerte asociación entre el cáncer de pulmón o garganta y el hábito de fumar, esto no indica que haya una relación de causalidad. Es decir no se puede concluir que el cigarrillo es la causa del cáncer. Algo que me sorprende es que incluso figuras de renombre histórico como Jerzy Neyman y el controvertido Ronald Fisher negaran esta relación causal. Es más Fisher publicó varios artículos, entre ellos “Cigarretes, Cáncer and Statistics” y “Cancer and Smoking“, defendiendo su punto de vista. Por supuesto, estas grandes figuras estaban equivocadas puesto que Doll y Hill (1954) probaron la causalidad del hábito de fumar con el cáncer mediante un gigantesco estudio prospectivo. Nótese que esta verdad no causa ningún tipo de alboroto entre los fumadores en estos tiempos.

Empecemos por decir que quienes hemos estudiado matemáticas básicas, es decir la gran mayoría de lectores, nos hemos encontrado con los principios de la lógica. Basta recordar los famosos valores de verdad, Falso, Verdadero y sus combinaciones, usando operaciones lógicas como la conjunción o disyunción, que dan origen a las intrincadas tablas de verdad. De allí se desprenden las tautologías y las contradicciones. Bien, en ese mundo de tablas de verdad todo funciona… pero qué pasa si en vez de tener sólo dos valores de verdad se tuvieran tres: Falso, Verdadero y Quizás. En el mundo de la lógica matemática la implicación material (A implica B, entonces no B implica no A) es un verdadero problema, como bien lo anotaba Bertrand Russel, formalizador de la lógica simbólica y ganador del premio nobel de literatura por sus fundamentos de filosofía. Pero en la vida real no se puede seguir este razonamiento tan simple. Es más, la lógica aristotélica es completamente inútil en la vida práctica: la siguiente afirmación <<todos los hombres mueren, Andrés es un hombre, por lo tanto Andrés morirá>> es una aseveración bastante pobre. De hecho, los sucesos cotidianos no están enmarcados en esta clase de lógica, ni en la lógica matemática. ¿Cómo se explica, desde la lógica matemática, que algunos vasos de vidrio no se rompan al caer? Luego, para que la lógica tuviera sentido en la vida práctica humana debería tenerse la certeza de que un efecto A causa un efecto en B para todos los individuos del planeta.

Por lo tanto utilizar este tipo de lógica en la vida real es como afirmar que porque el coeficiente de regresión es significativo estadísticamente, entonces el efecto de éste causa algún tipo de comportamiento inusual en la variable de interés. Esta afirmación es fuerte, pero el mensaje que quiero hacer llegar a la comunidad es claro. Está bien hablar de asociación y fuerte correlación. No está bien inferir algún tipo de causalidad simplemente porque el p-valor del coeficiente del modelo es significativo al 5%. De hecho, la causalidad se debe establecer, con cierto nivel de error, después de que las múltiples investigaciones y el control sobre terceras variables se puedan establecer efectivamente en varios escenarios experimentales. Por supuesto, no quiero decir con esto que el estadístico está vetado para establecer causalidades. Simplemente estoy diciendo que un p-valor no es suficiente.

Qué mejor ejemplo de la mala práctica inferencial que la paradoja de Simpson. Se trata de un fenómeno en donde los datos pereciesen probar lo contrario a la verdad. Por ejemplo, suponga que usted realiza un estudio clínico que está enfocado en probar dos tratamientos contra los cálculos renales (divididos en grandes y pequeños). Los datos son los siguientes:

Tratamiento A

Tratamiento B

Cálculos pequeños

93% (81/87)

87% (234/270)

Cálculos grandes

73% (192/263)

69% (55/80)

A simple vista podríamos suponer que, para ambos tipos de cálculos, el tratamiento A es más efectivo que el tratamiento B. Sin embargo, haciendo la suma de las columnas, llegamos a que la efectividad del tratamiento A (78%, 273/350) es menor que la del tratamiento B (83%, 289/350). Este mal entendido se da porque no se ha controlado efectivamente una variable de confusión. Así que, el estadístico tiene una responsabilidad ética muy grande. En cuestión de causalidad, un estudio no es suficiente la mayoría de las veces.

PD: Fisher jamás reconoció que fumar causa cáncer.

La probabilidad de un madrazo… Noviembre 6, 2009

Posted by psirusteam in Probabilidad.
3 comments

Pasando a temas un poco más jocosos, imagine que usted recibe una carta de un amigo suyo. Usted lee la carta y con escepticismo se da cuenta que es un escrito estructurado, que se han tomado harto tiempo para escribirlo y que, a pesar de su gran sorpresa, usted cree que es un sutil insulto. Pues bien, a simple vista la carta contiene poca información pero detalladamente, usted se da cuenta que es un acróstico y que su amigo lo está mandando al carajo. Eso suena muy real después de que el gobernador de California, el carismático Arnoldo Suarez enviara una misiva respondiendo negativamente a una petición. Al mirar detalladamente el mensaje, es fácil darse cuenta que se trata de una composición casi poética que contiene un mensaje claro y directo: FUCK YOU.

Por supuesto, el gobernador de California niega estar detrás de este desagradable incidente y toda la culpa se la atribuye a una desafortunada coincidencia perpetrada por el desatino del destino. Sin embargo, Philip B. Stark, a través de numerosos escenarios, demuestra que la probabilidad de tal casualidad es casi nula. Entre algunos de los escenarios están:

  1. Si se digita un escrito de siete líneas y cada letra es elegida al azar, de forma independiente, a partir de las 26 letras del alfabeto inglés (ignorando mayúsculas y minúsculas, espacios, números y puntuación), la probabilidad de que la primera letra de las siete líneas forme este acróstico es (1/26)^7 = 1.245e-10.
  2. No todas las letras del alfabeto tienen la misma frecuencia de uso. Así, la letra c tiene una frecuencia de 0.03511, la letra f de 0.03779, la letra k de 0.00690, la letra o de 0.06264, la letra u de 0.01487, la letra y de 0.01620. De esta manera, la probabilidad buscada es de 0.03779 × 0.01487 × 0.03511 × 0.00690 × 0.01620 × 0.06264 × 0.01487 = 2.054e-12.

Pues bien, fíjese usted qué fácil es insultar sutilmente. Desde ahora en adelante  lea bien, muy bien.

Por email Noviembre 3, 2009

Posted by psirusteam in Estadística.
add a comment

Por email
Enviado desde mi BlackBerry de Movistar

Manual de soluciones de teoría Bayesiana Octubre 30, 2009

Posted by psirusteam in Bayesiano, Enseñanza, Libros.
1 comment so far

42-22065357

En las últimas décadas, la teoría estadística se ha visto enriquecida por un nuevo tipo de pensamiento, que según David Salsburg (The Lady Testing Tea), fue desechado llevado al punto en que el investigador que manifestara su gusto por esta corriente era directamente discriminado y tildado de no riguroso. Pues bien lo tiempos han cambiado, y la verdad sea dicha, la estadística Bayesiana se ha convertido en un baluarte gigante de los métodos cuantitativos.

Algunas personas me han escrito desde diferentes países de Latino-américa y en cierta forma algunos de esos correos buscan algún tipo de dirección en cuanto a estadística bayesiana se refiere. La verdad sea dicha, en muchos casos el investigador que intenta usar un método bayesiano en un área de aplicación debe sacar lo mejor de sí y ponerse en la tarea de aprender de forma individual. Para todos aquellos (no estadísticos) que están interesados, de alguna manera muy apasionados, por aprender estadística bayesiana, les digo que sí es posible hacerlo. En realidad, por el momento, no existe algún texto estándar porque el subjetivismo juega parte importante en el aprendizaje de esta materia. De hecho, valdría la pena publicar un libro en español de análisis bayesiano que estuviera enfocado en métodos aplicados a problemas del día a día (Ver más abajo). Mientras alguien se anima les dejo dos herramientas de trabajo para su quehacer autodidacta. Se trata de dos solucionarios: el primero, escrito por Andrew Gelman para la segunda edición de Bayesian Data Analysys, el segundo escrito por Robert & Marin para su libro The Bayesian Core.

PD1: Confieso que desde hoy me pondré a la tarea de terminar esta grandiosa idea de plasmar en un texto académico mi visión de la estadística bayesiana.

PD2: En pocos días saldrá al mercado mi primer libro. Gracias a todos ustedes por interesarse tanto en el muestreo. De veras, infinitas gracias.

2009 Colombian Stata Users Group meeting embedded within the First International Workshop on Applied Statistics Octubre 27, 2009

Posted by psirusteam in Seminarios, Software.
add a comment

http://stata.com/meeting/colombia09/


home09e4_banner


Announcement

The first Colombian Stata Users Group meeting will be embedded within the Universidad Santo Tomas’ “First International Workshop on Applied Statistics”. During the conference, we will have four Stata presentations plus a Stata Press books presentation and one basic 16-hour Stata training.

Stata users from all disciplines are invited to attend.

Registration

The meeting is free to those registered for the First International Workshop on Applied Statistics.

Organizers

The meeting is organized by SOFTWARE shop, the distributor of Stata in Bolivia, Chile, Colombia, Ecuador, Peru, and Venezuela. To view proceedings from previous Stata Users Group meetings, visit

www.stata.com/meeting/proceedings.html.

Tablas 2X2… Independencia bayesiana Octubre 26, 2009

Posted by psirusteam in Bayesiano, Estadística, Simulación.
add a comment

La prueba Ji-cuadrado (más conocida como el test de Pearson) usualmente tiene dos connotaciones prácticas importantes en el día a día del oficio del estadístico. Una de ellas es chequear la bondad del ajuste de una distribución propuesta a los datos reales y la otra se trata de probar la independencia de dos variables aleatorias categóricas cuyos conteos se reúnen en una tabla de contingencia. Sin embargo, esta prueba utiliza resultados de teoría asintótica y por tanto sólo debe ser utilizada cuando el total de conteos marginales es grande (¿qué es grande? algunos autores afirman que es inapropiado utilizar esta prueba cuando los valores esperados por cada celda son menores que diez). Por otra parte, tampoco es apropiado utilizarlo en tablas de contingencia 2X2 puesto que, en este caso particular, la estadística de prueba “asintótica” tendría un solo grado de libertad.

Se cuenta que Fisher pensó en este problema cuando una señorita afirmó (The lady tasting tea) que era capaz de discernir cuándo el té inglés era preparado adicionando primero la leche, luego el té y revolviendo o viceversa. La solución de Fisher fue la prueba exacta que lleva su nombre (Fisher’s exact test) la cual guía a la probabilidad exacta, basada en una distribución hipergeométrica, de obtener un arreglo particular en unta tabla 2X2. Sin embargo, el bayesiano Andrew Gelman afirma:

Yo odio el Fisher’s exact test puesto que tiene problemas de orden práctico, citando a Agresti & Coull, y que la presunción de que es “exacta” se da en circunstancias muy raras. O, para decirlo de otra manera, es una solución exacta a un problema que nunca se verá.

Gelman también propone un método bayesiano directo y sencillo (basado en la diferencia de dos proporciones inducida por la tabla 2X2) que es práctico en los problemas fáciles y se generaliza rápidamente a problemas más complejos. Curiosamente, el método del análisis de la diferencia de proporciones fue uno de mis primeros acercamientos a la teoría bayesiana y hace poco tiempo, en este blog, publiqué un artículo que trata de cómo realizar un análisis de este tipo en R. En resumidas cuentas, la técnica se trata de suponer que las entradas de la tabla vienen de distribuciones binomiales “independientes” (Nótese el símil con la hipótesis nula de independencia), una con parámetro \theta_1 y la otra con parámetro \theta_2. Estos parámetros, que se asumen variables aleatorias, tienen asignada una función de probabilidad a priori, que usualmente es Beta puesto que admite varios casos particulares como la uniforme. Como se asume independencia, entonces la densidad a posteriori de los parámetros será Beta. En resumen se tienen dos densidades a posteriori para las cuales se simulan un número grande (digamos dos mil) observaciones para tener dos vectores de tamaño 2000. Por la independencia, un vector de observaciones provenientes de la distribución a posteriori de \theta_1 - \theta_2 está dada por la resta de los anteriores vectores. Las inferencias estarán dadas en términos de este nuevo vector. Eso es todo.

Sin embargo, una cosa es que la diferencia de los parámetros de las binomiales sea igual a cero con una credibilidad muy alta y otra es que las filas y las columnas en la tabla 2X2 sean independientes. Luego, lo que Gelman no responde es ¿de qué manera se relacionan estas dos situaciones? Pues bien, la respuesta está en este sencillo documento (¿página 189?) que encuentro muy didáctico. Con esto simplemente se conlcuye que si Pr(\theta_1 > \theta_2) o si Pr(\theta_2 > \theta_1) es muy grande, entonces no existe independencia entre las filas y columnas de la tabla de contingencia.

Ahora que está claro que sí existe una relación directa entre los dos análisis entonces no queda nada más sino bajar las funciones y el documento y realizar la inferencia, obviamente bayesiana, en las tablas 2X2 que son tan usadas por este gremio.

Desde el BlackBerry Octubre 23, 2009

Posted by psirusteam in Estadística.
2 comments

Con la nueva tecnologia, es posible escribir mis apuntes de estadistica cuando los tengo en mente.