First International Workshop on Applied Statistics (Bogotá – Colombia) Octubre 9, 2009
Posted by psirusteam in Estadística, Seminarios.7 comments
Hace mucho tiempo que Bogotá no era la sede de un evento que reuniera a varios de los más prestigiosos estadísticos de Colombia y el mundo. En esta ocasión la novel Facultad de Estadística de la Universidad Santo Tomás coadyuvada por su Centro de Investigaciones y Estudios Estadísticos (CIEES) serán los organizadores del First International Workshop on Applied Statistics (clic acá para mayor información) que se realizará en las instalaciones de la Universidad Santo Tomás (sede Bogotá) del 9 al 12 de Noviembre del presente año.
Lo más interesante del evento es su mecánica. En esta oportunidad todos los invitados internacionales, además de conferencias darán cursillos intensivos de 18 horas sobre temas de punta en la investigación de la estadística aplicada. Lo anterior es muy interesante puesto que el participante no será bombardeado con un arsenal de conferencias que le será difícil asimilar, sino por el contrario, el participante será educado personalmente por los mejores estadísticos del mundo. Siendo esa la filosofía del evento, me parece que es pertinente invitar a toda la comunidad nacional e internacional a hacerse partícipe de este taller. Entre los invitados internacionales y sus cursillos se presentan a continuación:
-
Pedro Silva (Universidad de Southampton, Inglaterra) – Cursillo: Análisis avanzado de datos muestrales (clic acá para obtener una descripción).
-
Víctor Guerrero (UNAM, México) – Cursillo: Estimación de tendencias de series de tiempo mediante mínimos cuadrados penalizados (clic acá para obtener una descripción).
-
Julio Singer (Brasil, Universidad de Sao Paulo) – Cursillo: Introducción a la teoría asintótica.
Además, el evento cuenta con la participación de varios estadísticos reconocidos a nivel nacional, no sólo de Bogotá, sino también de varias escuelas regionales en estadística. Otro tópico impresionante son las bajas tarifas del evento que se encuentran entre los cien y doscientos mil pesos.
Docente -Profesional $ 200.000,00
Estudiantes Pregrado $ 120.000,00
Estudiantes Posgrado $ 180.000,00
El lector interesado puede comunicarse al siguiente correo electrónico para obtener más información (sanderrangel@usantotomas.edu.co).
Inscripciones aquí
La probabilidad de un madrazo… Noviembre 6, 2009
Posted by psirusteam in Probabilidad.add a comment
Pasando a temas un poco más jocosos, imagine que usted recibe una carta de un amigo suyo. Usted lee la carta y con escepticismo se da cuenta que es un escrito estructurado, que se han tomado harto tiempo para escribirlo y que, a pesar de su gran sorpresa, usted cree que es un sutil insulto. Pues bien, a simple vista la carta contiene poca información pero detalladamente, usted se da cuenta que es un acróstico y que su amigo lo está mandando al carajo. Eso suena muy real después de que el gobernador de California, el carismático Arnoldo Suarez enviara una misiva respondiendo negativamente a una petición. Al mirar detalladamente el mensaje, es fácil darse cuenta que se trata de una composición casi poética que contiene un mensaje claro y directo: FUCK YOU.

Por supuesto, el gobernador de California niega estar detrás de este desagradable incidente y toda la culpa se la atribuye a una desafortunada coincidencia perpetrada por el desatino del destino. Sin embargo, Philip B. Stark, a través de numerosos escenarios, demuestra que la probabilidad de tal casualidad es casi nula. Entre algunos de los escenarios están:
-
Si se digita un escrito de siete líneas y cada letra es elegida al azar, de forma independiente, a partir de las 26 letras del alfabeto inglés (ignorando mayúsculas y minúsculas, espacios, números y puntuación), la probabilidad de que la primera letra de las siete líneas forme este acróstico es (1/26)^7 = 1.245e-10.
-
No todas las letras del alfabeto tienen la misma frecuencia de uso. Así, la letra c tiene una frecuencia de 0.03511, la letra f de 0.03779, la letra k de 0.00690, la letra o de 0.06264, la letra u de 0.01487, la letra y de 0.01620. De esta manera, la probabilidad buscada es de 0.03779 × 0.01487 × 0.03511 × 0.00690 × 0.01620 × 0.06264 × 0.01487 = 2.054e-12.
Pues bien, fíjese usted qué fácil es insultar sutilmente. Desde ahora en adelante lea bien, muy bien.
Por email Noviembre 3, 2009
Posted by psirusteam in Estadística.add a comment
Por email
Enviado desde mi BlackBerry de Movistar
Manual de soluciones de teoría Bayesiana Octubre 30, 2009
Posted by psirusteam in Bayesiano, Enseñanza, Libros.add a comment
En las últimas décadas, la teoría estadística se ha visto enriquecida por un nuevo tipo de pensamiento, que según David Salsburg (The Lady Testing Tea), fue desechado llevado al punto en que el investigador que manifestara su gusto por esta corriente era directamente discriminado y tildado de no riguroso. Pues bien lo tiempos han cambiado, y la verdad sea dicha, la estadística Bayesiana se ha convertido en un baluarte gigante de los métodos cuantitativos.
Algunas personas me han escrito desde diferentes países de Latino-américa y en cierta forma algunos de esos correos buscan algún tipo de dirección en cuanto a estadística bayesiana se refiere. La verdad sea dicha, en muchos casos el investigador que intenta usar un método bayesiano en un área de aplicación debe sacar lo mejor de sí y ponerse en la tarea de aprender de forma individual. Para todos aquellos (no estadísticos) que están interesados, de alguna manera muy apasionados, por aprender estadística bayesiana, les digo que sí es posible hacerlo. En realidad, por el momento, no existe algún texto estándar porque el subjetivismo juega parte importante en el aprendizaje de esta materia. De hecho, valdría la pena publicar un libro en español de análisis bayesiano que estuviera enfocado en métodos aplicados a problemas del día a día (Ver más abajo). Mientras alguien se anima les dejo dos herramientas de trabajo para su quehacer autodidacta. Se trata de dos solucionarios: el primero, escrito por Andrew Gelman para la segunda edición de Bayesian Data Analysys, el segundo escrito por Robert & Marin para su libro The Bayesian Core.
PD1: Confieso que desde hoy me pondré a la tarea de terminar esta grandiosa idea de plasmar en un texto académico mi visión de la estadística bayesiana.
PD2: En pocos días saldrá al mercado mi primer libro. Gracias a todos ustedes por interesarse tanto en el muestreo. De veras, infinitas gracias.
2009 Colombian Stata Users Group meeting embedded within the First International Workshop on Applied Statistics Octubre 27, 2009
Posted by psirusteam in Seminarios, Software.add a comment
http://stata.com/meeting/colombia09/
Announcement
The first Colombian Stata Users Group meeting will be embedded within the Universidad Santo Tomas’ “First International Workshop on Applied Statistics”. During the conference, we will have four Stata presentations plus a Stata Press books presentation and one basic 16-hour Stata training.
Stata users from all disciplines are invited to attend.
Registration
The meeting is free to those registered for the First International Workshop on Applied Statistics.
Organizers
The meeting is organized by SOFTWARE shop, the distributor of Stata in Bolivia, Chile, Colombia, Ecuador, Peru, and Venezuela. To view proceedings from previous Stata Users Group meetings, visit
www.stata.com/meeting/proceedings.html.
Tablas 2X2… Independencia bayesiana Octubre 26, 2009
Posted by psirusteam in Bayesiano, Estadística, Simulación.add a comment
La prueba Ji-cuadrado (más conocida como el test de Pearson) usualmente tiene dos connotaciones prácticas importantes en el día a día del oficio del estadístico. Una de ellas es chequear la bondad del ajuste de una distribución propuesta a los datos reales y la otra se trata de probar la independencia de dos variables aleatorias categóricas cuyos conteos se reúnen en una tabla de contingencia. Sin embargo, esta prueba utiliza resultados de teoría asintótica y por tanto sólo debe ser utilizada cuando el total de conteos marginales es grande (¿qué es grande? algunos autores afirman que es inapropiado utilizar esta prueba cuando los valores esperados por cada celda son menores que diez). Por otra parte, tampoco es apropiado utilizarlo en tablas de contingencia 2X2 puesto que, en este caso particular, la estadística de prueba “asintótica” tendría un solo grado de libertad.
Se cuenta que Fisher pensó en este problema cuando una señorita afirmó (The lady tasting tea) que era capaz de discernir cuándo el té inglés era preparado adicionando primero la leche, luego el té y revolviendo o viceversa. La solución de Fisher fue la prueba exacta que lleva su nombre (Fisher’s exact test) la cual guía a la probabilidad exacta, basada en una distribución hipergeométrica, de obtener un arreglo particular en unta tabla 2X2. Sin embargo, el bayesiano Andrew Gelman afirma:
Yo odio el Fisher’s exact test puesto que tiene problemas de orden práctico, citando a Agresti & Coull, y que la presunción de que es “exacta” se da en circunstancias muy raras. O, para decirlo de otra manera, es una solución exacta a un problema que nunca se verá.
Gelman también propone un método bayesiano directo y sencillo (basado en la diferencia de dos proporciones inducida por la tabla 2X2) que es práctico en los problemas fáciles y se generaliza rápidamente a problemas más complejos. Curiosamente, el método del análisis de la diferencia de proporciones fue uno de mis primeros acercamientos a la teoría bayesiana y hace poco tiempo, en este blog, publiqué un artículo que trata de cómo realizar un análisis de este tipo en R. En resumidas cuentas, la técnica se trata de suponer que las entradas de la tabla vienen de distribuciones binomiales “independientes” (Nótese el símil con la hipótesis nula de independencia), una con parámetro y la otra con parámetro
. Estos parámetros, que se asumen variables aleatorias, tienen asignada una función de probabilidad a priori, que usualmente es Beta puesto que admite varios casos particulares como la uniforme. Como se asume independencia, entonces la densidad a posteriori de los parámetros será Beta. En resumen se tienen dos densidades a posteriori para las cuales se simulan un número grande (digamos dos mil) observaciones para tener dos vectores de tamaño 2000. Por la independencia, un vector de observaciones provenientes de la distribución a posteriori de
está dada por la resta de los anteriores vectores. Las inferencias estarán dadas en términos de este nuevo vector. Eso es todo.
Sin embargo, una cosa es que la diferencia de los parámetros de las binomiales sea igual a cero con una credibilidad muy alta y otra es que las filas y las columnas en la tabla 2X2 sean independientes. Luego, lo que Gelman no responde es ¿de qué manera se relacionan estas dos situaciones? Pues bien, la respuesta está en este sencillo documento (¿página 189?) que encuentro muy didáctico. Con esto simplemente se conlcuye que si o si
es muy grande, entonces no existe independencia entre las filas y columnas de la tabla de contingencia.
Ahora que está claro que sí existe una relación directa entre los dos análisis entonces no queda nada más sino bajar las funciones y el documento y realizar la inferencia, obviamente bayesiana, en las tablas 2X2 que son tan usadas por este gremio.
Desde el BlackBerry Octubre 23, 2009
Posted by psirusteam in Estadística.2 comments
Con la nueva tecnologia, es posible escribir mis apuntes de estadistica cuando los tengo en mente.
¿Se acerca el fin de los departamentos de estadística? Octubre 16, 2009
Posted by psirusteam in Estadística.2 comments

En agosto de este año recibí, como de costumbre, el magazín AMSTAT-News (publicación de ASA: American Statistical Association). Después de ojearla por encima y hojearla rápidamente, me di cuenta que el magazín, además de contener valiosas ofertas laborales y oportunidades de estudio para los gringos, contenía bastante publicidad de software y, más bien, poca información. Así que la remití a mi compañero de oficina para que le echara un vistazo. Algunos días después, mi avezado colega me recomendó la lectura de un artículo de Keith Crank, director de la sección de investigaciones y posgrados de la ASA, titulado Why We Need Data on Our Profession? (¿Por qué necesitamos de los datos en nuestra profesión?). A simple vista, el título del artículo se me antojaba aburrido, soso y hasta redundante. Pues un estadístico de profesión necesita datos, de la misma manera que un médico necesita enfermos o un carpintero necesita madera.
Sin embargo, hice caso a esta recomendación y me aventuré en la tarea de entender esta lectura, que en su primer párrafo advertía que la crisis económica en Estados Unidos había impactado directamente en la educación estadística y había impulsado el cierre de varios departamentos de estadística pues definitivamente no son un buen negocio. Con tremenda introducción me dispuse a leer el artículo completo (ver acá) y, al finalizar la lección, tuve una incómoda sensación de preocupación. Las cosas son claras, en una sociedad como la de Estados Unidos, que tiene la asociación de estadísticos más fuerte e influyente del mundo moderno (los integrantes de ASA incluyen miembros del senado, cámara y directores de entidades gubernamentales) se están cerrando las puertas a la educación estadística con la excusa (¿pretexto?) de la coyuntura económica.
Unos días después me enteré que los rectores de las universidades públicas colombianas estaban dando de qué hablar y no propiamente en el ámbito académico. Resulta que la coyuntura económica llegó con fuerza a Colombia y ahora no hay recursos para el fomento de la educación pública (aunque paradójicamente sí hay recursos para el fomento de la guerra, el odio entre compatriotas y la protección económica de terratenientes ricos que el estado subsidia con recursos del pueblo). El gobierno pide a las universidades auto-sostenibilidad y las universidades han implementado planes en esta dirección, pero el ejecutivo no incrementa el rubro presupuestal para alivianar las cargas de la educación colombiana. Sin embargo, el tema que realmente me preocupa es que los rectores de las universidades empiecen a tomar medidas parecidas a las que tomó, por ejemplo, la Universidad Central de Florida al eliminar su departamento de estadística.
Pensemos un poco en las implicaciones que tendría esta medida. Voy a referirme a la perla de la corona en materia de educación estadística en Colombia: El Departamento de Estadística de la Universidad Nacional de Colombia (del cual soy orgullosamente egresado y al cual orgullosamente pertenezco como estudiante de posgrado). En sus más de 50 años de historia, este departamento ha logrado tener una gran visibilidad a nivel internacional y, sin temor a equivocarme, sus docentes han conseguido alcanzar un nivel muy alto en la calidad de la educación que imparten. Además de ser el semillero para que otras instituciones (públicas y privadas) inicien la difícil tarea de la educación e investigación estadística, el departamento ha logrado posicionarse con su Simposio de Estadística (el encuentro más importante de estadísticos a nivel Colombia y uno de los más reconocidos en Latino-América), con la Revista Colombiana de Estadística (publicación indexada en las más prestigiosas bases de datos bibliográficas) y con sus programas de posgrado (a nivel de especialización, maestría y doctorado). Pues bien, si las cosas siguen así, es posible que estos entes desaparezcan. Y si desaparece el departamento, seguro desaparecerán otras carreras públicas y, siendo así, no le queda mucha esperanza a las emergentes facultades de estadística en el sector privado.
Como diría mi primer jefe… “no se preocupe, más bien ocúpese”. Y es que la responsabilidad de hacerle frente a un problema tan grave como este no está sólo en manos del director del departamento o del decano de la facultad. Seguramente, esta responsabilidad debe ser compartida por todos nosotros. Estoy seguro que algunos lectores, porque seguramente los hay, dirán que esta entrada raya en lo amarillista. A esos lectores les digo, sobre todo si son comentarios en la academia, que es mejor la seguridad que la policía, la prevención que las lamentaciones. Si pasó en Estados unidos, puede pasar en Colombia. La solución no está en quedarse callado o en tomar las vías de hecho. La solución tampoco está en los argumentos que expone Crank en su artículo. La solución está en usted y en lo que, desde su sitio de confort, sea capaz de hacer.
The elements of statistical learning Octubre 15, 2009
Posted by psirusteam in Inferencia, Libros, Simulación.1 comment so far
Con gran sorpresa me enteré que el libro The elements of statistical learning de Trevor Hastie, Robert Tibshirani y Jerome Friedman se encuentra disponible de manera gratuita. Este libro trata de minería de datos, inferencia y predicción estadística. en palabras de los autores:
Los desafíos en el aprendizaje a partir de datos han conducido a una revolución en la ciencia estadística. Dado que la computación juega un papel clave, no es sorprendente que gran parte de este nuevo desarrollo haya sido realizado por investigadores de otros campos como las ciencias de la computación (computer sciences) y la ingeniería.
Además, los retos en la áreas de almacenamiento de datos, la organización y la búsqueda han llevado al nuevo campo de la “minería de datos”; los problemas de estadística e informática en el campo de la biología y de la medicina han creado “bioinformática”. Enormes cantidades de datos se están generado en muchos campos, y la tarea del estadístico es darle sentido a estos datos y extraer los patrones y tendencias, y entender lo que dicen los datos. A esto lo llamamos “aprendizaje a partir de los datos”.
Diferencia de proporciones usando métodos bayesianos Octubre 9, 2009
Posted by psirusteam in Bayesiano, Software.1 comment so far
Es cierto, a veces algunas técnicas estadísiticas fallan. Más aun, a veces fallan técnicas que, por ser consideradas clásicas y robustas, no deberían de hacerlo. Es bien sabido que, con repecto a la diferencia de dos proporciones, los intervalos de confianza de Wald no son la mejor opción. Pues bien, el mismo espíritu de pensamiento que concibió estos intervalos es el que está detrás de la prueba de hipótesis clásica para dos proporciones: sí, la prueba aquella de dos colas que utiliza la normalidad, la prueba clásica, la del Canavos, la del comando prop.test en R.
Imagínese que a usted lo contratan en un juicio de discriminación racial. Una gran compañía metalúrgica enfrentada contra un sindicato de trabajadores de raza negra. La información es la siguiente: en el último periodo de contratación, de 80 personas de raza blanca, 41 fueron admitidos y 39 fueron rechazados; mientras que de 44 personas de raza negra, 14 fueron admitidos y 30 fueron rechazados. La proporción de admitidos de raza blanca es de casi el 50%, pero la proporción de admitidos de raza negra es de apenas el 30%.
Si utilizamos una prueba de proporciones clásica, llegaríamos a la conclusión de que la diferencia de proporciones es estadísticamente igual a cero. Por tanto, concluiríamos que no existe evidencia de discriminación racial. Sin emabargo, al utilizar un enfoque bayesiano, las conclusiones y el resultado final cambiarían la historia del juicio rotundamente (si quiere conocer el final de la historia de clic acá).
El objetivo de esta entrada es introducir al lector a un conjunto de soluciones computacionales, programadas en el ambiente de R, que permiten analizar, de forma bayesiana, los problemas concernientes al juzgamiento de hipótesis para dos proporciones. El conjunto de funciones (paquete propbayes) está disponible gratuitamente acá junto con un conjunto de ejemplos que le permitirán analizar de manera consistente sus datos.
¿Efecto causal o simplemente asociación? Septiembre 29, 2009
Posted by psirusteam in Enseñanza, Gráficos, Modelos, Series de tiempo.4 comments
Gran alboroto entre la comunidad internacional (como si no tuviéramos suficiente con nuestros vecinos y nuestro papá dictador interno) ha causado la divulgación de un artículo, titulado Bases, balas y balotas: el efecto de la ayuda militar de EE.UU. en el conflicto político de Colombia, escrito por los reconocidos investigadores Oeindrila Dube y Suresh Naiduz del instituo Santafe. La introducción del artículo clama que:
Este documento examina el efecto de la ayuda militar de EE.UU. sobre la violencia política y la democracia en Colombia. Aprovechamos el hecho de que la ayuda militar de EE.UU. se canaliza a las brigadas del ejército colombiano que operan en bases militares para comparar cómo los cambios en las ayudas afectan a los resultados en los municipios con y sin bases. Usando datos detallados sobre la violencia perpetuada por grupos armados ilegales, encontramos que la ayuda militar de EE.UU. lleva a un aumento diferenciado en los ataques de los grupos paramilitares.
En el cuerpo del documento los investigadores afirman que:
Un aumento del 1% en ayuda militar de EE.UU. hacia Colombia aumenta los ataques paramilitares en un 1,5% más en los municipios, y baja la participación en las elecciones a alcalde en 0.2% y en 0.12% más en las regiones de disputa militar.
El analista político Chris Blattman asegura que:
Yo no diría que lo anterior condena el Plan Colombia. La lucha contra los insurgentes no es atractiva, pero sí es importante… Sin embargo, sugiere que los EE.UU. podrían tener una mayor obligación de promover la democracia local y la seguridad junto con su ayuda militar.
Andrew Gelman ha subido una entrada crítica en su blog donde advierte sobre la gravedad, en términos estadísticos, de las conclusiones de este artículo. Él afirma que:
Es un análisis interesante, pero me gustaría que se sustituya todo el lenguaje causal por “se asocia con” o algo similar… Desde un punto de vista estadístico, lo que Dubey y Naiduz están haciendo es estimar los efectos de la ayuda militar de dos maneras: primero, mediante la comparación de los resultados en años en que los EE.UU. gastan más o menos en la ayuda militar, en segundo lugar, comparar los resultados en las ciudades en Colombia, con y sin bases militares.
En este caso, los investigadores parecen haber encontrado que, al observar las diferencias en los resultados en un año determinado comparando las ciudades con y sin bases militares, estas diferencias fueron mayores, en promedio, en años donde había más ayuda militar de EE.UU. [Sin embargo,] lo que realmente me gustaría ver son algunos diagramas de dispersión que dejaran claro este patrón. El único gráfico que es relevante para este análisis es la figura 2 (ver la figura de arriba), que revela que el gasto militar de EE.UU. ha sido mayor en períodos en los que ha habido más ataques paramilitares en las ciudades con bases militares. Pero, sin ver los datos reales, es muy difícil interpretar esto como la evidencia de que los aumentos en la ayuda militar están causando los ataques.
Y concluye que:
Lo que realmente parece que está pasando, desde un punto de vista estadístico, es que se están comparando el último tercio de la serie de tiempo con los dos primeros… Pero entonces se debe aclarar que se ve tan sólo una asociación [no una causalidad] en el tiempo de la ayuda de EE.UU. en momentos de mayor conflicto.
Al respecto, John Sides comenta que:
La ayuda militar de EE.UU. es distribuida a las brigadas que están más cerca de los combates. Es más probable que la violencia paramilitar ocurra en las comunidades más cercanas al conflicto. Seguramente que los EE.UU. le proporciona a Colombia ayuda alimentaria, la cual es, sin duda, distribuida en las zonas más pobres del país. ¿Significa esto que ayuda de EE.UU. provoca la desnutrición?
En general, este es un ejemplo claro de cómo malinterpretar la asociación estadística con la causalidad efectiva… Recordemos que no fue sino después de una dura lucha, que llevó muchos años, que se concluyó que el cigarrillo causa el cáncer de pulmón y no fue con una simple tabla de contingencia. Más allá de mi opinión acerca de las bases y el conflicto colombiano, pienso que este artículo sirve como estrategia didáctica para que los alumnos adquieran capacidad de análisis y veracidad en la interpretación de las técnicas estadísticas.
En término prácticos, una clase de regresión podría incluir el sencillo ejemplo de las emisoras y el número de dementes en las ciudades (mayor número de emisoras no implica mayor número de dementes, ni las emisoras vuelven locas a las personas… simplemente si hay más emisoras es porque la ciudad es más grande y por ende hay más personas, ergo más dementes) y luego introducir este ejemplo de la ayuda militar en Colombia, y mostrarle al estudiante de estadística que debe tener mucho cuidado con las interpretaciones de los betas, etc. De suerte que el estudiante caerá en cuenta que, más allá de aplicar una técnica estadística, su trabajo está directamente relacionado con la toma de decisiones influenciada por su interpretación acerca de los datos; es decir, su trabajo se trata de brindar información veraz con los datos recolectados.
Por otro lado, auguro que este artículo traerá mayor oposición internacional hacia el gobierno Colombiano y su relación con EE.UU. y esto afectará aún más las relaciones regionales. La verdad, se me antoja que las conclusiones de estos investigadores son desafortunadas y con mucho potencial… En términos de política interior se debe revisar con rigurosidad el destino de los dineros provenientes de la ayuda militar de EE.UU. No queremos más falsos positivos, según José Obdulio Gaviria, no queremos más atentados cobardes y deliberados del estado en contra el pueblo colombiano, según el autor de esta entrada.
John Cook y sus tres acercamientos a la distribución binomial negativa Septiembre 24, 2009
Posted by psirusteam in Estadística, Modelos, Probabilidad, Series de tiempo.add a comment

John Cook plantea acá una interesante discusión acerca de la interpretación de la distribución binomial negativa. Nótese que esta distribución, según wikipedia, tiene la siguiente forma funcional:
En donde es una variable aleatoria y los parámetros de esta distribución son
y
. El lector habrá notado que la forma funcional de este modelo no es familiar y tal vez dudará en que de veras corresponda a la famosa binomial negativa. La razón es clara: en la forma funcional dada arriba no hay ninguna expresión que involucre combinatorias. Pues bien, resulta que las combinatorias, definidas para números enteros, se pueden extender para números reales a través de la función gamma. Este mismo tipo de conflicto lo pueden tener los estudiantes de series de tiempo cuando se enfrentan con los modelos ARFIMA (ver acá) que inducen un orden de integración
que puede ser fraccionario y en donde el operador de rezago
debe cumplir que
.
Esta distribución siempre ha tenido lugar al resolver el famoso problema del número de ensayos necesarios para lograr tantos éxitos. Por supuesto, si es el número de éxitos necesarios y se conoce que la probabilidad de éxito es
, entonces la distribución binomial negativa corresponde a un modelo probabilístico, afianzado durante siglos, que permite la resolución de este tipo de situaciones.
Con lo anterior en mente, es posible asignar al parámetro valores que sean reales. Por supuesto, como lo afirma Cook, en este caso no hay ninguna interpretación práctica en el contexto del número de ensayos necesarios para tantos éxitos. Sin embargo, en términos de la distribución
es un parámetro más. Esto nos lleva a uno de los verdaderos usos prácticos de esta distribución: sobredispersión. Dado que la forma funcional arriba corresponde a una generalización de la función de distribución Poisson, entonces es posible suponer que los datos de conteo vienen de una distribución binomial negativa. Lo anterior tiene sus ventajas puesto que si la media de los datos recolectados no corresponde con la varianza (característica esencial de la Poisson) entonces cualquier modelo que de allí surgiese sería altamente cuestionable. Si lo anterior se presenta es mejor acudir a la distribución binomial negativa dando valores reales al parámetro
.
Vacío en muestreo Septiembre 10, 2009
Posted by psirusteam in Muestreo.1 comment so far
Esta entrada debió haberse escrito hace mucho tiempo, cuando el maestro Leonardo Bautista aun vivía. Suponga que se realiza un diseño de muestreo en un población finita U de tamaño N. Suponga que el diseño de muestreo de es Bernoullí, en donde cada elemento es seleccionado con la misma probabilidad p. En general, se asigna a cada individuo un número aleatorio mediante una distribución uniforme, y para cada individuo se decide su pertenencia en la muestra si este número es menor que la probabilidad p. Es claro que el tamaño d emuestra para este diseño es aleatorio; por supuesto, es posible que la muestra seleccionada sea vacía.
Por otro lado, es bien sabido que una medida de probabilidad bien definida es tal que la probabilidad de vacío es nula. Ahora, la probabilidad de selección de una muestra vacía en un diseño de muestreo Bernoulli es (1-p)^N, la cual es claramente distinta de cero. La explicación es sencilla, en muestreo es posible la selección de muestras que no contengan ningún elemento. Sin embargo, lo anterior es diferente al evento vacío. El evento vacío no es la selección de una muestra vacía. Es más, el evento vacío sería como nunca realizar la selección. Pensemos en una moneda: la probabilidad de cara es un medio, la probabilidad de sello es un medio. La probabilidad de vacio es nula.
Para evitar la confusión, yo recomiEndo que en los cursos de muestreo, se defina la muestra como un vector multivariado de tamaño N, con entradas: uno, si pertenece a la muestra y cero si no pertence a la muestra – en un diseño sin reemplazo. Ahotra, si la muestra es vacía entonces el vector será (0,0,…,0) y, es claro que, cero es muy distinto de vacío.
¡Que no es estadista, es estadístico! Septiembre 5, 2009
Posted by psirusteam in Estadística.1 comment so far
La semana pasada llegó a mi correo electrónico una oferta laboral enviada por el programa de egresados de la Universidad Nacional de Colombia. Los términos de referencia eran los siguientes:
De manera atenta nos permitimos informarles de la siguiente oferta laboral.
CONVOCATORIA: 1009
ENTIDAD SOLICITANTE: PROYECTO DE INTERVENTORIA DE LA ALIMENTACIÓN ESCOLAR- DPTO DE NUTRICION Y DIETETICA.- UN
1. FORMACIÓN ACADÉMICA SOLICITADA: ESTADISTICA
2. CARGO: ESTADISTA
La verdad que ya estoy cansado de que se confundan estos conceptos. Es cuestión de sentido común… una entidad de nutrición dietética no puede ir campante mandando correítos y anunciando que se ha abierto una convocatoria para el cargo de estadista. !Es simplemente absurdo¡ Además el nombre de nuestra profesión lleva una tilde en la primera i, lo que no ocurre con el nombre del oficio de quien dirige un estado. Esta es una buena herramienta para empezar a difundir el verdadero nombre de nuestra profesión.
Y si la anterior alusión al sentido común no funciona, tomaré las vías de hecho de una vez por todas. Ahí está, cada vez que un abogado me diga estadista, yo le diré tinterillo. Si el error proviene de un médico, yo le diré tegua o matasanos y si es de especialidad ortopedista pues nada que hacer, le diré sobandero. Por supuesto, haré esa reflexión seguida de la nemotecnia de la tilde en nuestra profesión para que no se molesten.
Malditas estadísticas Agosto 29, 2009
Posted by psirusteam in Estadística.add a comment
Me permito reproducir en este medio la columna de Hector Rincón aparecida en el número 843 de la revista Cambio del 27 de Agosto de 2009 al 2 de Septiembre. En esta columna de opinión el señor Rincón hace un recuento de las estadísticas sociales que maneja nuestro país: malditas estadísticas sociales.
Pobre país
por Hector Rincón
http://www.cambio.com.co/opinioncambio/blog.php?id_blog=3396046
El país político y el país gubernamental y el país periodístico estaban muy ocupados al comienzo de la semana en sus habituales temas clientelistas, corrompidos y faranduleros como para ponerle atención a las cifras de pobreza que gritaban más pobreza, más indigencia, pobres más empobrecidos, pobre de los pobres.
Qué pereza los pobres. El desdén con el que suele mirarse al llevado del putas quedó otra vez en claro cuando las nuevas cifras apenas recibieron breves espacios en los medios y no oí ninguna reflexión de los gobernantes y cero de los políticos, porque los unos y los otros y los otros estaban invadidos con los asuntos que les son remunerativos: lo que va a pasar con el poder político, lo que va a pasar con el poder económico, lo que está pasando con la vida de nueve de cada diez estrellas de Hollywood.
Y las cifras desgarran. En números gruesos en Colombia hay 20’200.00 pobres. Llámese pobres, según los tecnócratas que hacen las investigaciones, a aquellos ciudadanos que pertenecen a familias de cuatro miembros promedio que no alcanzan a recibir entre todos 1’086.000 pesos de ingresos mensuales. Hagan cuentas: 1’086.000 dividido cuatro, igual 271.500 pesos por cabeza. Cada mes. De pobres así de pobres tenemos 20’200.000, que equivalen a toda la población de Bogotá, Medellín, Cali, Barranquilla, Bucaramanga y Pereira juntas.
Y en indigencia, las cifras no desgarran sino que desgarran y subvierten y queman. De indigentes tenemos 7’900.000 colombianos. Llámese indigentes aquellos ciudadanos que pertenecen a familias de cuatro miembros en promedio y que no alcanzan a recibir entre todos 468.000 pesos mensuales. Hagan cuentas: 468.000 pesos dividido cuatro, igual 117.000 pesos por cabeza. Cada mes. De indigentes así tenemos 7’900.000, que equivalen a la población de Bogotá más la de Armenia más la de Popayán.
Ante cifras como esas, que expresan de manera nítida lo que en el Gobierno de la seguridad democrática y de la confianza inversionista se llama “cohesión social”, ante esas estadísticas que como proclamaba Belisario Betancur reflejan las condiciones objetivas de la violencia, ante esas cifras deprimentes, el Gobierno responde con trampas.
En la presentación de ese último informe sobre la pobreza y la indigencia, el Gobierno optó por ponerle a ellas un maquillaje grotesco: las comparó con el año 2002 para decir que la pobreza había bajado un cinco por ciento. Porque si lo hubiera asistido la honradez habría echado mano de las cifras de 2006, las últimas que había por ahí, para admitir que la pobreza desde entonces ha aumentado un uno por ciento.
En cualquier caso, en el caso de una disminución del cinco por ciento, o de un aumento del uno por ciento; con un consolidado del tanto y tanto y tanto por ciento, comparado con el tercer trimestre, con el segundo semestre, como quieras, como quieran, en Colombia hay 20’200.000 ciudadanos que viven, que sobreviven, con 271.500 pesos mensuales; y hay 7’900.000 que escarban la vida con 117.000 pesos mensuales.
Ante esta realidad oprobiosa, que intentan tapar con comparaciones amañadas para vender triunfos inmorales, no es necesario mucho análisis sobre los porqué de la inseguridad urbana y de la criminalidad que se extiende como una marea roja. Ante estas cifras que, ¿no sé si lo dije?, son del propio Gobierno, de Planeación Nacional, no sirve la sugerencia del general Naranjo sobre que la oleada de homicidios y de delincuencia se debe al microtráfico de estupefacientes y a la disputa por las ‘ollas’ en donde los venden. Solo servirá la conciencia de que de esta manera el país es inviable y será invivible hasta para los ricos si sigue progresando, como sigue, la miseria y la iniquidad. Miseria e inequidad que son tan inmensas que Colombia es el país de América Latina con peores cifras de pobreza. Pobrecitos.
Interpretación física de la mediana Agosto 28, 2009
Posted by psirusteam in Enseñanza.3 comments
Es claro el altísimo nivel de importancia que han adquirido las estrategias didácticas en el aula de clase. Ya lo diría Tukey cuando afirmaba que no se deberían dar ejemplos estúpidos en el momento de la enseñanza de conceptos estadísticos puesto que esto implica que el alumno va a reconocer que la estadística sólo sirve para resolver problemas estúpidos en la vida real.
Esta entrada está basada en el enfoque didáctico que Mark Lynch, de Millsaps College Jackson, plasmó en un artículo del The College Mathematics Journal, en donde se reconoce que la media de un conjunto de datos se puede interpretar como un punto de balance, en el sentido de que si esos puntos se colocasen en una barra uniforme, entonces un fulcro debería ser colocado en el punto de equilibrio para tener equilibrio perfecto – ó el lugar en donde se debería poner un punto de apoyo para alcanzar un balance perfecto debería ser en el punto medio de la barra dado por
– tal y como lo muestra la siguiente figura.

Por otro lado, una interpretación física de la mediana, basada en este contexto de balance, no ha sido muy difundida en la literatura. Sin embargo, Lynch propone una muy linda idea que vale la pena compartir con los estudiantes para llegar a una mejor comprensión de la definición de esta medida de tendencia central. Luego, vamos a cambiar la barra uniforme por una cuerda (¿cabuya?) y a esta le añadimos un pedazo de cuerda aún más larga que la anterior para formar un bucle, así como lo indica la siguiente figura.

Además de cambiar la barra por la cuerda, vamos a cambiar el fulcro por una polea y supondremos que es una polea perfectamente lubricada de tal forma que la fricción pueda ser pasada por alto sin ningún inconveniente. Ahora, colgando la polea en un sitio seguro, es fácil observar que el bucle se estabiliza en la mediana de los datos. Al respecto se cuenta con los siguientes dos comentarios que caracterizan a la mediana como medida de tendencia central:
-
No importa qué tan alejado esté algún dato del resto, el balance se mantiene en el mismo lugar y esto muestra por qué la mediana no se deja afectar por valores atípicos.
-
Si el número de observaciones es impar, el balance se alcanza en el dato que está en la mitad. Si por el contrario, el número de observaciones es par, el balance se alcanza en cualquier punto físico que se encuentre localizado entre los dos valores de la mitad, luego la mediana no se restringe sólo al promedio entre estos dos datos (ver siguiente gráfica). De hecho, desde la definición ortodoxa de mediana, si el número de observaciones es par, cualquier punto entre los datos de la mitad acumula el 50% de las observaciones a derecha y a izquierda.

Modelos bayesianos multiparamétricos Agosto 26, 2009
Posted by psirusteam in Bayesiano.add a comment
Haciendo clic acá encontrará un exhaustivo recuento de modelos (sin covariables) bayesianos que involucran la inferencia de varios parámetros simultaneamente. En la primera parte se introduce el modelo multinomial, además del modelo normal univariado con media y varianza desconocida se aborda el modelo normal multivariante con vector de medias desconocido, matriz de varianzas desconocida y/o ambos parámetros desconocidos.
Esta exposición se realizó en el marco del seminario informal de estadística bayesiana que se adelanta en la Universidad Nacional de Colombia – Sede Bogotá.
La verdad de las estadísticas Agosto 11, 2009
Posted by psirusteam in Libros.1 comment so far
y la
Estadística hará grande a la América.
Esta es una historia y una invitación. Una historia y balance de proyectos. El cotejo entre lo vislumbrado como posible y lo finalmente cumplido como hecho verificable. Las discusiones que hemos sostenido, en el intento siempre renovado de perfeccionar la identidad de nuestra profesión, que serviría para hacer más sólida nuestra propia posición en la sociedad.
La alta tensión entre quienes tienen mayor afinidad por las matemáticas y quienes están cerca de la producción de los datos, de la administración de diversos fondos de información. Académicos y aplicados. Falsas antinomias que tal vez sólo sirvieron para alejar la discusión de los verdaderos problemas, que con tanta claridad estampara en el número 1 de Estadística, la revista del IASI, el fundador del IBGE, Mario Augusto Teixeira de Freitas, a quien Dieulefait llamaba el Santo de la Estadística: Haga la América la Estadística que debe hacer y la Estadística hará grande a la América.
El anterior fragmento es tomado del epílogo del libro La verdad de las estadísticas, escrito por el doctor Hugo Ambrosí y quien muy gentilmente lo ha publicado en su blog personal. El libro merece ser leído y releído pues, aparte de que fue escrito por un estadístico influyente en el desarrollo de la estadística en Argentina, está matizado con cierto tinte filosófico que conlleva a que el lector piense y piense acerca de preguntas a las cuales es dificil dar respuestas.
Es un honor para mì recomendar este texto y, desde este modesto espacio, darle todo mi apoyo.
Si piensa en posgrado, que sea en estadística Agosto 11, 2009
Posted by psirusteam in Estadística.5 comments
Gracias a dos colegas lectores de este blog, me encontré con este artículo escrito recientemente en uno de los periódicos más influyentes del mundo. La lectura se me antoja amena, máxime cuando se trata de testimonios reales de personas interesantes haciendo estadística en campos interesantes que, valga decirlo, están un poco alejados de la práctica Latinoamericana pero en los que, en honor a la esperanza, nosotros jugaremos un papel crucial en la puesta en marcha de nuevas técnicas en nuevos campos que deben abrir gracias al rotundo avance del pensamiento estadístico.
Haciendo un paréntesis, lo anterior me recuerda al razonamiento de un excelente maestro mío que afirmaba que hace poco el mundo giraba en torno del pensamiento matemático y las personas del común exclamaban frases como <<esta ley se cumple matemáticamente>>. Sin embargo, en los últimos tiempos la gente tiende a aceptar cada vez con más frecuencia el pensamiento estadístico y ahora han cambiado su cliché por algo como <<esto es significativo estadísticamente>>. Este fenómeno se debe al impacto tan tremendo que ha tenido el pensamiento estadístico en la mayoría de áreas del conocimiento.
Retomando el artículo, en él se habla de que la estadística es muy útil en las aplicaciones prácticas y bla, bla, bla (cosa que ya sabíamos y que debemos tener claro)… Lo que realmente me interesó del artículo fueron frases tan transcendentales como las siguientes:
-
“Yo sigo afirmando que el trabajo más sexy en los próximos 10 años será el de estadístico, y no estoy bromeando”
-
“Un estadístico puede ganar U$ 125.000 dólares al año (equivalentes a 250 millones de pesos colombianos, que se convierten en 21 millones de pesos mensuales) después de egresar del doctorado” Ver acá para mayor comprensión.
-
“Estamos entrando rápidamente en un mundo en donde todo puede ser monitoreado y medido. Sin embargo, el verdadero problema está en la habilidad humana para usar, analizar y darle sentido a esos datos”
-
“Una mejora del dos por ciento puede enorme cuando se hacen cosas millones o billones de veces”
-
“La clave está en dejar a los computadores hacer lo que mejor hacen: manejar conjuntos de datos de manera masiva y, dejar hacer a los humanos lo que para ellos es más fácil: explicar las anomalías en los datos “
Para el buen entendedor pocas palabras… Sin embargo, el plan de negocios está ahí… ¿quién lo va a capitalizar? Y también que sea esta la ocasión para agradecer a Jessica Rodríguez por la información.











