Encuestas multi-propósito Julio 7, 2009
Posted by psirusteam in Muestreo.1 comment so far
Si los estad¶³sticos te¶oricos hacen caso omiso al reto de enfrentar las
T. M. F. Smith (1976)
Si los estadísticos teóricos hacen caso omiso al reto de enfrentar las encuestas multi-propósito, entonces el vacío existente entre ellos y los estadísticos prácticos se hará cada vez más grande. El diseño y análisis de encuestas multivariantes debe ser una de las próximas áreas de mayor investigación.
T. M. F. Smith (1976)
Haciendo clic acá encontrará un reciente artículo que reúne una introducción a la motivación de investigación que hizo uno de los personajes más influyentes en la escena estadística mundial, el profesor Smith, quien discutió acerca de los fundamentos de la teoría del muestreo, desde sus primeros años hasta las últimas tendencias en cuanto a predicción y estimación en poblaciones finitas. En sus múltiples artículos, Smith afirmó que en el muestreo, los problemas univariados (estimación de un parámetro desconocido para una sola característica de interés) se encuentran en unas cuantas ramas de aplicación, limitadas a encuestas de opinión pública, muestreo industrial de aceptación y muestreo en auditorías. Sin embargo, la gran mayoría de encuestas que se realizan alrededor del mundo son de tipo multi-propósito (estimación de varios parámetros desconocidos para varias características de interés). El profesor Smith tuvo en cuenta la limitación que presentan los grandes textos clásicos del muestreo al no considerar este tipo de estudios ni incluirlos en sus páginas y llamó la atención a los teóricos del muestreo a realizar investigación formal en este tipo de tópicos como lo muestra la motivación al principio de esta entrada.
Promedio y varianza en poblaciones finitas Julio 4, 2009
Posted by psirusteam in Modelos.1 comment so far
Seguramente todos alguna vez nos hemos preguntado de dosnde viene tanto la formaula del promedio como la expresión para la varianza. Lo cierto es que con la definicón del promedio no tiene ningún problema puesto que es natural, lógica y plausible. Por otro lado, la formulación de la varianza no es directa. Para los que hemos tenido la oportunidad de dictar un curso básico, siempres hay dos o tres alumnos que enuentran complicado esta definición, el restante la toma sin chistar, pero sin preguntarse, a la vez, por su origen.
En inferencia de poblaciones finitas, tanto design-based (Leslie Kish, Cochran) como model-assited based (Särndal) como model-based (Valliant, Royal, Skinner) es imprescindible conocer el espíritu de estas definiciones porque, al fin y al cabo, lo que se quieren estimar o predecir son totales, medias y varianzas.
Haciendo clic acá encontrará un excelente artículo del profesor Jorge Ortiz que hace un recuento del promedio aritmético y la varianza en grupos finitos de datos. Les aseguro, que después de realizar la lectura, les quedará un deseo por transmitir en clase (como docente o como alumno) el verdadero espíritu de tan usadas medidas.
Estimadores de máxima cuasiverosimilitud en muestreo bifásico Junio 30, 2009
Posted by psirusteam in Modelos, Muestreo.add a comment
Los estimadores óptimos de calibración (Wu & Sitter) utilizan información auxiliar completa para producir estimaciones más eficientes. Cuando no se dispone de este recurso, una alternativa es realizar un muestreo en dos fases para recopilar la información auxiliar en una primera fase y después utilizarla en el diseño o estimación de la segunda fase. Haciendo clic acá encontrará un reciente artículo (a manera de revisión) en donde se compara la eficiencia de los estimadores óptimos de calibración, cuando la relación entre la variable de estudio y las variables de información auxiliar es lineal y log-lineal. En este último caso se utilizan métodos de cuasi-verosimilitud para la estimación de los parámetros del modelo de super-población.
Seleccionando muestras de café Junio 16, 2009
Posted by psirusteam in Marketing, Muestras, Muestreo.4 comments
Acabo de salir de una reunión corta pero sustanciosa…
Érase una vez, una gentil mujer, de unos cuarenta años de edad, que me contactó a mi teléfono personal acudiendo a la necesidad de que le “ayudara” en la selección de una muestra para un estudio de investigación de mercados… Por supuesto, yo mostré toda mi disposición y acepté atenderla en mi oficina. La mujer me respondió que era mejor encontrarnos en un café en el centro de la ciudad. ¿Un café? – me pregunté – mejor sería en su oficina… La gentil y necesitada dama accedió a que la reunión se efectuara en sus instalaciones.
Hoy llegué puntual a la cita, pero para mi sorpresa el celador que atendía me recibió con una desafortunada noticia… <<Si no me dice el nombre completo de la señora, no lo anuncio>> – ¿Qué qué? – La señora se llama fulanita de tal – le respondí con afán… ¿Si? ¿y el segundo apellido? – me respondió el ingrato celador… Desde allí las cosas comenzaron al revés… Llamé a la gentil dama a su celular, le informe que acerca del insuceso en portería y así me dejó acceder a las instalaciones.
El guarda de seguridad, me guió a lo que parecía ser un salón comunal… una mesa de plástico y dos sillas VaniplaX… ¿En dónde estoy? – me pregunté y reflexioné en que hubiese sido mejor haber accedido a tener la entrevista en el café. Después de un treinta minutos, la señora se apareció con el cabello… cabello mojado y cara lavada… Hola, se me hizo tarde, siéntate… (Yeah right!!!)
Empezó contándome acerca de lo “exitosa” que era su empresa, en donde la costumbre era contratar <<freelanceros>> para que hicieran el trabajo (¿sucio?). En ese justo instante me sentí desafortunado y quería concretar el diseño de muestreo rápidamente. La gentil dama escuchaba atentamente cuando le hablé de mi experiencia y del proceso científico que había detrás de la selección de cualquier muestra. Cuánto llegamos a la parte contractual, yo le hice mi propuesta económica y fijé las condiciones de pago.
Fin de la reunión.
¿Cómo? ¿Por qué? ¡¡¡Ni que la muestra tuviera oro!!!… los argumentos de la gentil dama – psicóloga de profesión – rayaban en lo ridículo. Aclaro que la muestra necesitaba de información auxiliar y que la propuesta económica era bastante asequible. ¿Cuánto tiempo se demora seleccionando la muestra?, yo tengo un estadístico que me hace eso gratis – argumentaba la señora.
Mi reflexión: 1) Yo no soy un <<FreeLancer>>, soy un profesiona.l 2) Quisiera conocer al estadístico que hace muestras gratis, me suena a psicólogo. 3) ¿Cuánto cuesta hacer un <<focus group>>? Mínimo unos treinta millones de pesos ¿Habrá que estudiar siete años para hacer que unas personas conversen en el focus group?. 4) Estas gerentes de empresitas de barrio se ufanan de que están haciendo patria y empresa… No lo creo, no están haciendo patria, están lucrándose y aprovechándose de tanto administrador desempleado. Si quisieran hacer patria y empresa, entonces ni siquiera mencionarían la palabra <<FreeLancer>> y la cambiarían por <<empleado con contrato indefinido más prestaciones de ley más prima extralegal>>. 5) Necesitamos una ley de verdad que cobije nuestra profesión. No más ingenieros, ni administradores, ni psicólogos seleccionando muestras gratis, muestras de café, muestras de café con mala leche… Zapatero a tus zapatos ¿Qué diría el gremio de los médicos si un administrador quisiese realizar una cirugia de miocardio?
Nuevas tendencias en publicación estadística Junio 12, 2009
Posted by psirusteam in Enseñanza, Estadística, Seminarios.1 comment so far
Haciendo clic acá encontrará la charla titulada “Nuevas tendencias en publicación estadística” enmarcada dentro de la cátedra Estadística y Sociedad de la carrera de Estadística en la universidad Nacional de Colombia. Mis agradecimientos al profesor Pedro Nel Pacheco por la invitación y al excelente público compuesto por estudiantes, egresados y profesores.
Variantes al modelo lineal general Junio 11, 2009
Posted by psirusteam in Diseño experimental, Inferencia, Métodos multivariados.add a comment
Felipe Ortiz ha presentado esta charla que entrega un sobrevuelo de las variantes al modelo lineal general. Es una muy buena recopilación que nos recuerda que el estadístico no debe saberlo todo pero sí que debe saber en dónde buscar. Que lo disfruten aligual que yo.
My talk in USTA Junio 10, 2009
Posted by psirusteam in Marketing, Métodos multivariados.add a comment
Haciendo clic acá encontrará la conferencia divulgativa de los resultados de nuestro nuevo grupo de investigación en muestreo y marketing acerca de este artículo - junto con la propuesta del análisis de correspondencias doblemente ponderado aplicado al posicionamiento de marca y al Brand Equity. La charla estuvo enmarcada en el desarrollo del seminario de investigadores de la Facultad de Estadística de la USTA.
¿Eres parte de los 100mil? Junio 8, 2009
Posted by psirusteam in Estadística.3 comments
Agradezco a todos los lectores del blog de estadística más leído en hispanoamérica. Este blog empezó en abril de 2008 en la plataforma WordPress y hasta el momento cuenta con más de 100mil entradas, 99 posts, 194 comentarios, cientos de correos electrónicos, 22 categorías, 76 etiquetas, 1 encuesta satisfactoria y una comunidad virtual de seguidores en FaceBook que recoge a 387 personas.
Durante lo corrido del 2008 este blog tuvo 64.321 entradas y en lo que va corrido del 2009 tenemos 35.826. En promedio, el año 2008 tuvo 162 visitas diarias y en el 2009 contamos con un buen aumento llegando hasta 226 visitas diarias.
¡eh Lector!… una vez más gracias, no dejes de alentarnos con tus valiosos comentarios y frecuentes visitas… recuerda que tú, querido lector, eres la razón que fundamenta la existencia de este espacio.
Super armamento y munición para la generación de datos Mayo 26, 2009
Posted by psirusteam in Simulación.5 comments
Ajustando un modelo jerárquico bayesiano me encontré con esta perlita: ¿Cómo simular datos de una distribución horrible? Y es que, saliendo de los estándares teóricos, existen distribuciones bonitas, feas y horribles… entre las horribles está esta función de densidad con argumento :
Sin embargo existe un arma letal para estos casos: el método de la grilla que se puede combinar con el todopoderoso R que siempre tiene herramientas para solucionar esos problemas difíciles. Haciendo clíc acá encontrará un documento que resume el método de la grilla, con el que se puede simular cualquier cosa que tenga que ver con funciones de densidad.
La corriente Bayesiana empírica Mayo 24, 2009
Posted by psirusteam in Bayesiano.add a comment
En las últimas décadas la formulación de modelos estadísticos ha evolucionado demasiado. En un principio, los modelos establecidos obedecían a reglas estándar que se suponían ciertas para toda la población. Sin embargo, el estado de la naturaleza de la mayoría de los problemas práctico no sigue una regla común para todos y cada uno de los elementos de una población aleatoria. De hecho el sentido común establece que para una misma población, pueden existir tendencias comunes entre diferentes miembros de la misma y la estructura de dispersión de los elementos puede obedecer comportamientos disímiles a través de éstos.
Lo anterior ha permitido que el investigador pueda proponer modelos que siguen comportamientos estructurales distintos y en algunos casos que se encuentran anidados en modelos más complejos. En el caso bayesiano, es claro que el momento de coyuntura en el cual el investigador no contempla un punto de retorno está dado en la formulación de la distribución a priori para el vector de parámetros de interés . Más aún, la influencia de la distribución a priori en la resultante distribución a posteriori está dada por la asignación del vector de hiperparámetros
que parametriza la distribución a priori. Cuando los valores exactos de los hiperparámetros se desconocen o cuando no se tiene plena certeza del comportamiento estructural de la distribución a priori, entonces es necesario estimarlos pues de estos dependen los resultados en cualquier investigación de tipo causal. En otras palabras, una mala asignación de los valores de los hiperparámetros conduce a una distribución a priori que no es acorde con la realidad y esto puede conllevar a su vez a que la distribución a posteriori no concuerde con la realidad, produciendo así resultados engañosos.
Siguiendo los fundamentos filosóficos de la estadística bayesiana, tener que estimar el vector de hiperparámetros envuelve al investigador en una paradoja cuya solución no siempre está dada por métodos bayesianos. En primer lugar, nótese la forma de la distribución a priori del vector de parámetros de interés: . A simple vista se puede concluir que
hace parte de la distribución a priori la cual, según la lógica de la filosofía bayesiana, involucra el conocimiento del investigador antes de la recolección de los datos. Por tanto la pregunta directa que surge es ¿Por qué estimar algo que se debería suponer conocido?. En segundo lugar y si se concibe tal estimación, la otra pregunta natural es ¿Se deben utilizar los datos para estimar tales hiperparámetros?. Las posibles respuestas a las anteriores preguntas han creado toda una nueva corriente alterna a la bayesiana pura llamada <<corriente bayesiana empírica>> la cual utiliza los métodos de estimación puntual frecuentista para estimar estos hiperparámetros y por consiguiente definir la distribución a priori del vector de parámetros de interés… Aunque, por supuesto, no se trata de la única solución al problema de modelos jerárquicos, ésta pone en tela de juicio el andamiaje epistemológico de la teoría adjudicada al reverendo Bayes. Aunque, como suele suceder con lo bayeasiano, la puesta en marcha de los métodos bayesianos empíricos suelen arrojar resultados <<buenos>> y mejor aún, resultados <<eficientes>>.
Del dicho al hecho: Consistencia, eficiencia e insesgamiento Mayo 21, 2009
Posted by psirusteam in Enseñanza, Estadística, Software.2 comments
—————————————————————————————————————————————————
Las siguientes deficiniciones matemáticas están adaptadas del libro de Teoría de estimación puntual de Lehman (Wiley, 1983).
Insesgamiento: Sea un estimador del parámetro de interés
. Se dice que
es insesgado si y sólo si se cumple que
Consistencia: Sea una secuencia de estimadores del parámetro de interés
. Usualmente
está basado en las primeras
observaciones de una muestral
. Se dice que la secuencia
es consistente si y sólo si para todo
y para todo
se cumple que
Eficiencia: Sean y
estimadores del parámetro de interés
. Se dice que
domina a
si para todo
Y se define la eficiencia relativa como
—————————————————————————————————————————————————
Hace pocos días asistí a una charla enmarcada dentro de un seminario informal en donde el expositor, uno de los más reconocidos investigadores estadísticos del ámbito nacional, manifestaba la dificultad que significaba traducir la simbología matemática de los fundamentos de la teoría estadística, con su perfecto andamiaje, a la vida práctica. Él se refería a términos como la completitud de un estimador o incluso la misma suficiencia, como conceptos que si bien encajan perfectamente en la abstracción matemática, en la práctica no son nada fáciles de explicar.
No en vano él es una de las personas más influyentes en el desarrollo de la estadística en Colombia y uno de los mejores profesores universitarios. Esa amalgama de investigador y buen profesor es difícil encontrarla en una sola persona. Su avidez para reconocer esa dificultad debe motivarnos a cambiar las estrategias docentes en los cursos tanto de servicios externos a otras facultades como internos en un programa de estadística. Por otro lado, Jhon D. Cook, uno de los estadísticos más leídos en el mundo, también manifestó a finales del año pasado que ha tenido grandes dificultades a la hora de explicar términos como sesgo, consistencia o suficiencia en una clase de estadística en pregrado y que su estrategia radica en construir pseudo-códigos computacionales para <<aterrizar>> la idea práctica de cada uno de estos conceptos.
Y es que una de las formas más óptimas para que un estudiante asimile conceptos tan teóricos y a veces tan disímiles es el aprendizaje a través del código computacional. De esta manera, no sólo se está introduciendo al estudiante al mundo de la habilidad lógica matemática en una demostración sino que al mismo tiempo ese mismo estudiante puede reconocer fácilmente las propiedades de los estimadores que le ayudaran a decidir en la vida práctica. Y es que aunque la vieja regla de Hajek sigue teniendo vigencia -
Los estimadores con un sesgo considerable son pobres sin importar qué otras propiedades puedan tener.
- ésta no resuelve nada en presencia de dos estimadores tales que uno es insesgado y el otro es levemente sesgado ¿cuál estimador debo escoger? Retomando a Cook, supóngase que se desean comparar dos estimadores de la varianza de una muestra aleatoria de variables con densidad Normal de media 5 y varianza 81; por ejemplo, el estimador de máxima verosimilitud
Y el clásico estimador insesgado
Que algo quede muy claro. La muestra es una y sólo una… ¿cuál es el mejor estimador? En términos computacionales, y adaptando el ejercicio práctico de Cook, la siguiente gráfica muestra la propiedad de consistencia de los dos estimadores: Ambos conservan esta propiedad; es decir a medida que el tamaño de muestra crece, los valores de las estimaciones se acercan al verdadero valor 81 con una muy alta probabilidad. En estos términos los dos estimadores son igualmente aceptables.

Por otro lado, la propiedad del insesgamiento está relacionada directamente con la esperanza matemática del estimador, en términos de su distribución de muestreo. La siguiente gráfica fue realizada de la siguiente manera: Para un tamaño de muestra fijo , se estima el parámetro de interés. Ahora, este ejercicio se realiza una vez, dos veces, tres veces, …, muchas veces. En cada repetición se calcula el promedio de las estimaciones y se grafica (siempre manteniendo el tamaño de muestra fijo). Nótese que en un momento dado ambas líneas parecen convergar a un valor. Por supuesto el estimador insesgado converge a 81, el verdadero valor, mientras que el sesgado converge a un valor inferior.

John Cook se pregunta si ésta es una prueba fehaciente de que el estimador insesgado resulta mejor que su competidor. Él afirma que aunque el promedio el estimador converja al verdadero valor 81, eso no significa que las estimaciones individuales sean buenas. Es posible que un estimador insesgado arroje estimaciones individuales ridículas pero en promedio converja al verdadero valor. Una vez más, el número de muestras seleccionadas en la vida real es uno y sólo uno. Así que esta propiedad no basta para escoger un estimador. Paso seguido, la eficiencia. En la siguiente gráfica se aprecia que el error cuadrático medio del estimador insesgado está alrededor de 1500, siendo más alto que el error cuadrático medio del estimador sesgado, que se encuentra alrededor de 1200. Las anteriores cantidades se pueden calcular teóricamente: para el estimador insesgado, resulta ser igual a 1458 y para el sesgado resulta ser 1246.

Haciendo clic acá encontrará el código computacional en R con el que se desarrollo el anterior ejercicio.
Visualización creativa en tiempo real Mayo 21, 2009
Posted by psirusteam in Gráficos.add a comment
No se trata de publicidad acerca de la red de comunicaciones de Sprint Inc., se trata de creatividad en la visualización de estadísticas alejándose de la manera estándar. Haciendo clic en la imagen usted entrará a un portal de estadísticas en tiempo real con un nivel muy alto de creatividad. Lo mismo sucede con los siguientes videos:
Homenaje a Leonardo Bautista Mayo 4, 2009
Posted by psirusteam in Biografías, Estadística, Muestreo.3 comments
En los últimos años, el maestro Leonardo Bautista fue uno de los personajes más importantes e influyentes en la escena estadística colombiana. Como discípulos suyos, creemos que nuestro cometido con la ciencia requiere que como publicación se haga un homenaje al profesor Bautista, no con lamentos sobre su partida sino como a él más le hubiese gustado: divulgando las investigaciones que él realizó en conjunto con sus pupilos.
El segundo número de la Revista Comunicaciones en Estadística será un homenaje al maestro Bautista. Varios colegas, algunos desde el extranjero, participarán con sus valiosos artículos y aportes generados en conjunto con el maestro Bautista. En particular, quisiera resaltar la participación editorial del estadístico José Fernando Zea Castro quien escribió el siguiente ensayo desde su perspectiva como estudiante.
Leonardo Bautista: Perspectiva del estudiante
El profesor Leonardo Bautista falleció el 20 de Enero del 2009. Este hecho es muy doloroso para la comunidad estadística y el país pierde una figura controvertida que no tenía miedo de decir la verdad y de ser honesto en sus planteamientos. Sin embargo, su legado y sus enseñanzas permanecerán por mucho tiempo. Él Creó un estilo y una manera única de ejercer su profesión, fue una persona de odios y de amores, con una personalidad radical, fuerte y apasionada, fue un luchador incansable, un poeta, un maestro que hizo con su profesión los mejores versos, excelente representante de lo que debe ser un estadístico: responsable, disciplinado, creativo, ilustrado, ordenado, comunicador, diáfano en sus planteamientos, locuaz y divertido.
Tuve el honor de conocer al profesor y de tomar con él tres cursos en el pregrado: Muestreo I, Muestreo II, y Diseño y Desarrollo de Encuestas. Son muchas las enseñanzas que dejó para mi vida profesional y laboral. A comienzos de Febrero del año 2005, tuve mi primera clase de Muestreo I, el profesor llegó puntualmente y el salón se encontraba en silencio, expectante y se respiraba una atmósfera de tensión; ya teníamos cierta información proporcionada por algunos de sus estudiantes anteriores que nos hacía pensar que aprobar y sobresalir en este curso no iba a ser nada fácil. Sin embargo, también sabíamos de la excelente calidad de éste docente.
Hasta ese día, la mayoría de mis compañeros y yo, nos habíamos desplazado por el mundo abstracto de las matemáticas, nuestros conocimientos estadísticos y la aplicación de éstos en la vida real, eran vagos, confusos o inexistentes. Comenzó la clase y el maestro indagó por nuestros nombres y por las asignaturas que íbamos a cursar ese semestre, no transcurrió mucho tiempo y él abordó a uno de mis compañeros preguntándole: “¿vas a ver cinco materias y muestreo?”, mi compañero intimidado asintió afirmativamente con la cabeza, a lo cual el profesor respondió –“muestreo requiere dedicación de tiempo completo incluso hasta en los sueños”, esta fue la primera pista de lo exigente que iba a ser. Desde el primer día de clases el profesor tuvo la capacidad de inferir la personalidad y el carácter de muchos de sus estudiantes, su mirada intimidaba pero a la vez motivaba e invitaba a poner atención a cada una de sus palabras y gestos.
En esa primera clase, nos presentó el programa del curso y mencionó nombres incomprensibles e indescifrables para mí en ese momento: probabilidad de inclusión, estimador de Horvitz-Thompson, diseño de muestreo multietápico, conglomerados, unidad primaria de muestreo, etc. Aunque me sentía confundido, me quedó muy claro la seriedad y profesionalismo que iban a tener sus clases, efectivamente no me equivoqué. Desde este día, Leonardo Bautista puso las reglas muy claras, no valía enfermarse, ni la ocurrencia de ningún evento extraordinario (ni siquiera la ocurrencia de otro 5-0 de Colombia sobre Argentina) para aplazar parciales o eludir nuestras responsabilidades.
Transcurrían los días y sus clases cada vez se iban tornando más interesantes, enriquecedoras y divertidas, éstas eran de una alta exigencia, ricas de anécdotas y por supuesto no faltaba el humor negro hacia algunos de sus estudiantes más desorientados. Leonardo Bautista era un psicólogo, sí que lo era, en unas pocas clases ya tenía identificado a sus pupilos más complicados, confiados, de peor carácter y más desorientados, así mismo tenía una broma y una observación jocosa para sus estudiantes más particulares.
Leonardo Bautista tenía el ejemplo adecuado, la anécdota interesante y el comentario acertado para cada una de las preguntas que nos iban surgiendo, eran frecuentes los ejemplos que nos trasmitía de sus experiencias. Siempre nos exigió que planteáramos bien las preguntas que nos surgían y nos enseñó la metodología y el orden en que se plantea y se resuelve un problema estadístico.
Muchos de nosotros tuvimos el primer contacto con un paquete estadístico en este curso, nos enseñó SAS de la manera más sencilla posible o como a él le gustaba decir de “manera picapedrera”, implementamos en este paquete desde los diseños de muestreo más sencillos: Bernoulli, muestreo aleatorio simple, hasta diseños más complejos como los diseños multietápicos. Nunca fue reacio a que exploráramos otras herramientas y motivó el uso de otras alternativas como R, paquete estadístico que empezaba a ser popular en el departamento de estadística gracias a varios profesores, entre ellos los de computación estadística: Álvaro Montenegro y Jorge Ortiz, este último quien tomó como asistente en esa ocasión el curso de muestreo.
Aún están en mi mente las tareas extensas que él nos dejaba cada martes para la siguiente semana; éstas eran bien planteadas, interesantes, ricas en conceptos, prácticas y muy laboriosas, muchos entendimos al realizarlas conceptos tan importantes como probabilidad de inclusión, probabilidad de cobertura, insesgamiento, varianza de un estimador, boostrap, jacknife y otras nociones de estadística multivariada, modelos lineales e inferencia estadística.
La biblia del profesor Leonardo Bautista era el libro de muestreo de Särndal, Wretman y Swensson: “Model Assisted Survey Sampling”, en sus palabras descubrir este libro fue encontrar la luz, el camino y la senda correcta de la enseñanza del muestreo, según él, otros autores clásicos no abordaban de manera tan clara el muestreo como lo hacía este libro. Nos exigía una lectura detallada de cada uno de los párrafos del libro y para muchos de sus estudiantes ésta fue la primera inmersión en la lectura de un libro en lengua extranjera.
La diversión se acababa cuando ya se acercaba el parcial, las perspectivas de responder un examen en el cual todo estaba dado para perderlo no nos entusiasmaba mucho. En primer lugar, el examen era un sábado, la primera parte de éste era un control de lectura de la biblia del profesor Bautista a través de varias preguntas de tipo opción múltiple con penalización de dos puntos negativos para aquellas de éstas que estuvieran mal contestadas.
La segunda parte del examen se hacía en unas sala de cómputo, muchos de nosotros llegábamos con una sonrisa victoriosa, con la satisfacción de haber realizado un programa con un ingenioso código en SAS o R, con el cual implementábamos los diseños de muestreo enseñados hasta ese momento por el profesor; sin embargo por alguna razón desconocida, en muchas ocasiones nuestros programas no funcionaban al aplicarlo al conjunto de datos entregados por él, o bien, funcionaban sólo después de haber terminado el examen. Por lo tanto era posible que algún estudiante, habiéndose dejado llevar por los nervios y sumado a esto el no haber estudiado ni preparado de manera adecuada su programa, tuviera una nota inferior a cero, es decir, se podía quedar debiendo nota Este asunto lo resolvía el profesor plasmando en la hoja de dicho estudiante un cero con todo el cuidado.
Se perdía siempre con 2.5, así que si alguien sacaba un doloroso 2.9 no había posibilidad alguna de redondeo, la nota era contundente: 2.5.
Su fuerte exigencia nos forjó y nos hizo más fuertes, si algo nos transmitió el profesor Bautista fue el sentirnos orgullosos de nuestra profesión, pero nunca despreciando o subestimando las demás profesiones u oficios. El profesor nos hizo concientes de la importancia de nuestra labor en la toma de decisiones en el quehacer económico, social, político y científico.
Fue inolvidable la experiencia que tuvimos con él en el curso de Diseño y Desarrollo de Encuestas que impartió en Julio del año 2005, en esa ocasión se quería realizar una investigación en Soacha acerca del riesgo de cáncer de cuello uterino en las mujeres mayores de 25 años. Cada uno de los detalles, desde el planteamiento con un médico de cada una de las preguntas del cuestionario hasta la creación de los cuadros de salida de la encuesta, entre otras muchas minucias, fueron explicadas de manera clara y precisa por él. Fue una experiencia totalmente enriquecedora e inolvidable, llena de anécdotas e historias.
De ese curso recordamos un dolor en su espalda aparentemente insignificante, el cual empezó a manifestársele cuando había transcurrido unos días del inicio del curso; ese dolor día a día lo afectaba más y se hizo evidente que algo grave lo aquejaba, pues bien, fue por esos días que se le diagnóstico cáncer en la medula. Pese a sus dolores y dificultades para movilizarse él nunca se rindió ni eludió sus responsabilidades académicas. por el contrario siempre estuvo dispuesto a colaborarnos y nos transmitió conocimientos invaluables, finalmente y pese a las dificultades que hubo a raíz de sus problemas de salud se logró culminar con éxito el curso.
Pasaron seis meses en los cuales supimos de la lucha incesante del profesor contra el cáncer. Luego de éstos regresó a las aulas, en esa ocasión el iba a impartir el curso de Muestreo II. Por sus dolores ya no podía escribir en un tablero, así que empezó a preparar diapositivas para cada clase. Pese a los constantes dolores del profesor el curso logró terminarse con éxito y con la exigencia a la que él nos tenía acostumbrado.
El legado que deja Leonardo Bautista es invaluable, muchos estadísticos aprendimos muestreo y estadística con él, nos enamoramos de nuestra profesión, nos dejó un libro de muestreo en el cual sintetizó de manera muy clara sus enseñanzas y en donde plasmó algunos de sus pensamientos. Dirigió varios trabajos de grado e influenció varios artículos e investigaciones y muchas personas siguen ahora sus pasos y transitan por los senderos que él dejó despejados.
Sus aportes tuvieron un alcance mucho más allá de la academia, fueron muy reconocidos sus cursos de censos y encuestas para funcionarios del DANE. En esta institución e indirectamente en muchas otras él también dejó su huella. Su laboriosidad y dedicación marcó también a muchos estadísticos que actualmente laboran en el sector público y privado. Leonardo Bautista nos dejó varias lecciones para nuestra vida: la pasión por servir a la sociedad, el amor por la profesión y nunca rendirnos ni siquiera ante las adversidades más grandes; nos enseñó la fuerza de la argumentación y nos mostró como hay que defender nuestras ideas con estilo y respeto hacia los demás.
Gracias maestro.
José Fernando Zea Castro
“Yo no se lo que es el destino, caminando fui lo que fui” Leonardo Bautista citando a Silvio Rodríguez…
(El anterior texto fue tomado de la editorial del segundo número de la Revista Comunicaciones en Estadística y se reproduce con autorización del comité editorial)
Pearson, Fisher, Bayes y … Abril 28, 2009
Posted by psirusteam in Estadística.add a comment
Desde la revolución estadística de Pearson y Fisher, la inferencia estadística busca encontrar los valores que parametrizan a la distribución desconocida de los datos. El primer enfoque, propuesto por Pearson, afirmaba que si era posible observar a la variable de interés en todos y cada uno de los individuos de una población, entonces era posible calcular los parámetros de la distribución de la variable de interés; por otro lado, si sólo se tenía acceso a una muestra representativa, entonces era posible calcular una estimación de tales parámetros. Sin embargo, Fisher discrepó de tales argumentos, asumiendo que las observaciones están sujetas a un error de medición y por lo tanto, así se tuviese acceso a toda la población, es imposible calcular los parámetros de la distribución de la variable de interés.
Del planteamiento de Fisher resultaron una multitud de métodos estadísticos para la estimación de los parámetros poblacionales. Es decir, si la distribución de está parametrizada por
, con
el espacio paramétrico inducido por el comportamiento de la variable de interés, el objetivo de la teoría estadística inferencial es calcular una estimación
del parámetro
por medio de los datos observados. En este enfoque, los parámetros se consideran cantidades fijas y constantes. Sin embargo, en la última mitad del siglo XX, algunos investigadores estadísticos comenzaron a reflexionar acerca de la naturaleza de
y enfocaron la inferencia estadística de una manera distinta: asumiendo que la distribución de la variable de interés está condicionada a valores específicos de los parámetros. Es decir, en términos de notación, si la variable de interés es
, su distribución condicionada a los parámetros toma la siguiente forma
. Esto implica claramente que en este nuevo enfoque la naturaleza de los parámetros no es constante sino estocástica.
Ahora, en este justo instante, vienen pequeños susurros desde Brasil, que mencionan que un grupo de estadísticos ha empezado a trabajar en un nuevo enfoque. Amanecerá y veremos.
The Lady Tasting Tea Abril 26, 2009
Posted by psirusteam in Estadística.add a comment
Otro libro que me recomendaron… The Lady Tasting Tea escrito por el estadístico David Salsburg… Excelente. Leíble de pasta a pasta. Es impresionante leer con tanto agrado la historia de la estadística. Lo recomiendo una y otra vez.
Fisher Facho Abril 25, 2009
Posted by psirusteam in Estadística.1 comment so far

Algunos de los primeros artículos de R. A. Fisher son altamente matemáticos. El artículo del coeficiente de correlación, que K. Pearson publicó en Biometrika, es denso con respecto a la notación matemática. Una página típica de esas está llena de formulas, al menos en un 50%. Sin embargo, hubo artículos en los que ninguna fórmula matemática aparecía entre líneas. Por ejemplo, en uno de ellos, él discute las distintas formas en las que la teoría de Darwin, de adaptación aleatoria, se adecuaba a las estructuras anatómicas más adecuadas. En otro artículo, él especula sobre la evolución de la preferencia sexual. Fisher se unió al movimiento de la Eugenesia y en 1917 una editorial en Eugenics Review, en donde hacía un llamado para la creación de una política nacional para
incrementar la tasa de natalidad de las clases profesionales y entre los artistas más hábiles y desalentar los nacimientos entre las clases bajas
Su argumento era que las políticas gubernamentales que ayudaban a las personas pobres ayudaban a que estas clases procrearan y pasaran sus genes a la siguiente generación, mientras que las preocupaciones de la clase media, en términos de seguridad económica, hacían que los matrimonios se postergaran y las familias no fueran grandes en número.
Adaptado de “The Lady Tasting Tea (Salsburg 2002)”
De revistas y arbitrajes Abril 21, 2009
Posted by psirusteam in Estadística.2 comments

Como editor novato de una revista especializada en temas de estadística he tenido que dar instrucciones a los novatos árbitros para que su proceso de evaluación de artículos sea objetivo y profesional. Y es que una cosa es hacer una regresión o desarrollar una nueva teoría y otra muy diferente es evaluar qué tan adecuado es un artículo para una revista. La regresión la enseñan en la universidad, la nueva teoría se desarrolla en el grupo de investigación, pero no todos los árbitros saben a ciencia cierta lo que el proceso implica.
Cuando llega un artículo por primera vez, existen varias tendencias… el árbitro negrero, el condescendiente, el terrorista y, en menor cuantía, los objetivos. A continuación explico.
-
El negrero: “El artículo es muy bueno, pero considero que hasta que los siguientes cambios no se realicen, no debe ser publicado: Modificar los supuestos, hacer un enfoque generalizado, cambiar la aplicación por una que tenga más variables, aumentar el número de simulaciones a cien millones, probar los resultados con un teorema, generalizar el teorema con resultados de teoría de la medida, entre otros…”
-
El condescendiente: “El artículo es excelente, un gran aporte a la ciencia estadística, nos sentimos honrados de que el autor publique en esta revista… regálame un autógrafo”
-
El terrorista: “La definición del promedio aritmético, de la sección 2.2, debe ser citada porque de lo contrario se incurre en una falta grave a las normas editoriales, lo cual constituye una base sólida para una demanda civil o penal. Por supuesto, lo anterior tiene consecuencias laborales, pecuniarias, penales y constitucionales. Ratero, ladrón, por eso estamos como estamos… porque no se respetan los derechos de autor, #$%$%”#$%#$, %$%”#$%, etc”
-
El objetivo: Este tipo de árbitro respeta el consejo que Bruce Palka, antiguo editor de American Mathematical Monthly, dio a sus editores asociados. “Es responsabilidad del autor examinar que el arículo se encuentre libre de errores; es responsabilidad del árbitro dar opiniones objetivas acerca de la pertinencia del artículo para ser publicado en la revista. Por tanto, el reporte debe ser relativamente corto y directo. “
Y es que, en honor a la verdad, no somos muy buenos con el arbitraje. Sin embargo, en honor a la justicia, tampoco somos muy buenos escribiendo. Si tan sólo el autor se tomará su tiempo para darle una segunda lectura a todo lo que ha escrito, si tan sólo pasara su documento por MS Word para corregir la ortografía.
Michael Steele afirma que si el autor fuese responsable de entregar un documento diáfano y limpio de errores, entonces no habría necesidad de árbitros ni nada de eso (una visión un poco anarquista y utópica). Yo pienso que siempre vamos a necesitarlos, ¡pero vamos… no seáis terroristas, ni negreros ni mucho menos condescendientes… leed este pedazo de artículo y vamos a por ello, por un mundo editorial objetivo!
Significación estadística no es lo mismo que relevancia científica Abril 16, 2009
Posted by psirusteam in Biografías, Estadística.Tags: Libros
2 comments
He empezado la lectura de un libro que me recomendaron: The cult of statistical significance de Ziliak & McCloskey (2008)… simplemente estoy chequeando algunos de sus apartados. En general, el libro tiene un buen punto y es el que le da el nombre al título de esta entrada… aunque definitivamente los autores son enemigos de todas las ideas de Fisher, el libro se basa en una crítica científica a la mala costumbre de los estadísticos en el juzgamiento de hipótesis. Y tiene razón. ¿Por qué las decisiones científicas están restringidas a un espacio discreto binario inducido por una regla de decisión? Los autores del libro sugieren que tendría más sentido científico que las decisiones estuvieran sujetas a una función de perdida continua en el intervalo
.
Tiene sentido, máxime cuando a la hora de realizar contrastes sea cual sea la rama de aplicación (econometría, mercadeo, epidemiología, ciencia política, etc.), siempre se utiliza la misma regla de decisión que Fisher impuso hace varias décadas: Si el valor es menor que 0.05, entonces rechace la hipótesis. Pero la verdad que todos sabemos, y a veces no queremos aceptar, es otra. A continuación un ejemplo detallado adaptado de las primeras páginas del libro.
Imagínese que usted y su pequeño niño de cuatro años caminan por una de las aceras de la ciudad. Se detienen en una esquina y compran un perro caliente (hot dog). El vendedor del carrito de perros lo atiende muy amablemente y le da justo lo que usted pidió. El semáforo se va a poner en rojo pero usted se atreve a cruzar la calle. Situación número uno: cuando va a llegar a la otra acera, usted se da cuenta que el vendedor olvidó colocar mostaza en su perro. Si usted y su hijo se atreven a devolverse y cruzar la calle esquivando carros, motos y tracto mulas, existe una probabilidad – digamos 0.95 – de que logren tener la mostaza en su perro caliente sin que haya ocurrido ningún accidente. Situación número dos: cuando usted va a llegar a la otra acera, usted se da cuenta que olvido a su hijo y cuando voltea su mirada, el niño está intentando cruzar la calle. Inmediatamente usted se devuelve esquivando carros, motos y tracto mulas. Existe una probabilidad de 0.95 de que usted alcance a su hijo y llegue a la otra acera de la calle sano y salvo.
Dos situaciones con dos premios distintos, la mostaza o su hijo, y con la misma probabilidad. La significación estadística ignora esta diferencia puesto que las dos decidiones son iguales en cuanto a la probabilidad de “éxito”. Ambas variables NIÑO y MOSTAZA son significativas si y la conclusión sería: Existen dos razones, que son igualmente importantes, para cruzar la calle.
Tiene su punto, un muy buen punto.
Breve historia del muestreo (Design-based & Model-based) Abril 15, 2009
Posted by psirusteam in Muestreo.add a comment
Haciendo clic acá encontrarán un breve ensayo de la historia del muesreo y de la inferencia en poblaciones finitas… corresponde al primer boceto de la introducción del capitulo 15 del libro Estrategias de Muestreo: diseño de encuestas y estimación de parámetros.
Otra paradoja instructiva Abril 14, 2009
Posted by psirusteam in Estadística.5 comments
Lahiri (1968) expresa las dificultades que sobrevienen al tratar de explicarle a un hombre del común el enfoque de la inferencia en poblaciones finitas mediante la siguiente situación
Suponga que dos estadísticos (¿muestristas?) son contratados para seleccionar una muestra de tamaño n de una determinada población finita. Ambos poseen la misma información acerca del comportamiento de la población. Este conocimiento incluye una característica de información auxiliar para cada unidad perteneciente a la población. Uno decide seleccionar una muestra aleatoria simple y el otro decide seleccionar una muestra con probabilidad proporcional al tamaño. Como complemento de la estrategia de muestreo, ambos deciden utilizar el estimador . De manera increíble, los dos estadísticos seleccionan exactamente las mismas unidades en la muestra de tamaño n. Por supuesto, ambos saben que la desviación típica está dada en términos de
; sin embargo ambos proponen medidas totalmente diferentes para la precisión de sus estimadores.
¿Cómo explicar esta situación?
Personalmente, yo creo que este tipo de cuenticos hacen un gran aporte al desarrollo de la estadística. De hecho, la narración anterior es un claro ejemplo de que en nuestra ciencia estadística está todo por hacer. Sin embargo, nótese que el mismo tipo de razonamiento aparece si los mismos estadísticos anteriores se enfrentaran a un problema frecuentista y uno de ellos decide que la verosimilitud de los datos es normal y el otro decide que es una beta. Seguramente llegarían a distintas estimaciones. Quien propone la estrategia de muestreo se ve obligado a tomar las mismas decisiones subjetivas de quien propone una verosimilitud, en el caso frecuentista, o una distribución a priori, en el caso bayesiano. Ahora, es deber de investigador asegurarse que la subjetividad esté enmarcada dentro de ciertos límites. Por supuesto, si usted va a medir la distancia de la tierra a la luna, seguramente no utilizaría un metro.







