cover

image

cover

Correa Morales, Juan Carlos

Introducción a la Estadística Bayesiana / Juan Carlos Correa Morales, Carlos Javier Barrera Causil. Medellín: Instituto Tecnológico Metropolitano, 2019

(Textos Académicos)

Incluye referencias bibliográficas

1. Estadística bayesiana I. Barrera Causil, Carlos Javier II. Título III. Serie

519.542 SCDD Ed.21

Catalogación en la publicación - Biblioteca ITM

Introducción a la Estadística Bayesiana

© Instituto Tecnológico Metropolitano

Ediciones:

Html, ene 2018: ISBN 978-958-5414-24-2

Epub, feb 2019: ISBN 978-958-5414-71-6

Pdf, feb 2019: ISBN 978-958-5414-72-3

Autores

JUAN CARLOS CORREA MORALES

CARLOS JAVIER BARRERA CAUSIL

Rectora

MARÍA VICTORIA MEJÍA OROZCO

Directora Editorial

SILVIA INÉS JIMÉNEZ GÓMEZ

Comité Editorial

JAIME ANDRES CANO SALAZAR, PHD.

SILVIA INES JIMENEZ GOMEZ, MSC.

EDUARD EMIRO RODRIGUEZ RAMIREZ, MSC.

VIVIANA DIAZ, ESP.

Corrección de textos

LILA MARÍA CORTÉS FONNEGRA

Asistente Editorial

VIVIANA DÍAZ

Diagramación

CARLOS JAVIER BARRERA CAUSIL

Diseño de carátula

LEONARDO SÁNCHEZ

Instituto Tecnológico Metropolitano

Sello editorial Fondo Editorial ITM

Calle 73 No. 76A 354

Tel.: 440 5100 Ext. 5382-5197

www.itm.edu.co

https://fondoeditorial.itm.edu.co/

Diseño epub:

Hipertexto - Netizen Digital Solutions

Las opiniones, originales y citaciones del texto son de la responsabilidad de los autores. El ITM salva cualquier obligación derivada del libro que se publica. Por lo tanto, ella recaerá única y exclusivamente sobre los autores.

La incertidumbre está en todas partes y tú no puedes escapar de ella.

Dennis Lindley

El azar no es, sin embargo, una loca fantasía; responde a su vez a leyes.

Los dados obedecen a la gravedad y sólo tienen seis caras.

Juan José Sebreli

Comediantes y mártires: ensayo contra los mitos

Prefacio

La estadística bayesiana es un campo que ha tenido un desarrollo impresionante en los últimos años, en especial desde la introducción de la parte computacional. Muchas ideas han estado circulando desde hace tiempo, pero su imposibilidad práctica hacía que se miraran con cierto pesar, ya que eran muy atractivas pero inaplicables. Esto afortunadamente ha cambiado. Es lamentable que muchos de los libros básicos en estadística no hagan una presentación de los elementos básicos de esta aproximación para la solución de problemas estadísticos. Libros en estadística bayesiana han aparecido en las últimas dos décadas por cantidades apreciables. Antes de los años 90 se tenían libros más enfocados en la teoría de la decisión ([1]; [2]; [3]; [4]; [5]; [6]; [7]; [8]), en aspectos teóricos de la probabilidad subjetiva ([9]; [10]) y algunos pocos a la estadística bayesiana aplicada ([11]; [12]; [13]; [14]). En las últimas dos décadas esto se ha revertido y encontramos libros aplicados de estadística bayesiana en muchas áreas: generales ([15]; [16]; [17]; [18]; [19]; [20]; [21]; [22]; [23]; [24]; [25]), pronósticos [26], econometría [27], bioestadística ([28]; [29]; [30]), ciencias sociales ([31]; [32]), confiabilidad ([33]; [34]), mercadeo [35], aplicaciones en ingeniería civil [36] y otros dedicados a la parte computacional ([37]; [38]; [39]; [40]; [41]; [42]). Samaniego [43] presenta una extensa comparación entre los métodos frecuentistas y los métodos bayesianos. La estadística bayesiana no ha tenido un camino fácil en el mundo del trabajo aplicado. Qin [44] presenta un recuento histórico del uso, discusiones y reservas, de la estadistica bayesiana en econometría, historia que puede ser similar en diferentes áreas de investigación. La Inteligencia Artificial es un área de un fuerte desarrollo tanto teórico y aplicado de gran importancia que hace uso extenso de métodos bayesianos [45].

Aquí vamos a presentar una aproximación eminentemente práctica, esto es, el lector puede aplicar de forma casi inmediata los métodos a problemas reales. El software que se utilizará es de dominio público como el R [46] y el OpenBUGS. Se requiere familiaridad con el primer programa, al menos a un nivel operativo básico. Haremos énfasis en la parte de construcción de la distribución a priori que resuma el conocimiento previo del experto. Esta parte generalmente no es considerada en los textos de estadística bayesiana moderna, pero consideramos que es la esencia misma del análisis bayesiano y constituye el aporte de este trabajo. Consideramos que si la estadística bayesiana se diferencia en algo de la estadística tradicional (clásica) es en permitirle al usuario incorporar información disponible de una manera transparente y directa.

El programa y lenguaje estadístico R [46] se ha vuelto uno de los estándares para realizar trabajo estadístico, tanto aplicado como el desarrollo de nuevas metodologías. La estadística bayesiana se ha beneficiado enormemente de la flexibilidad y el potencial de este programa, el cual permite crear fácilmente librerías y ponerlas en la red de tal forma que usuarios a nivel mundial puedan usarlas y validarlas, retroalimentando a sus creadores de tal forma que, en muy poco tiempo se tengan subprogramas de gran eficiencia y calidad. Hay ahora muchas librerías que han sido creadas para resolver problemas de tipo general, como son modelos lineales y lineales generalizados, o más generales aún que permiten a un usuario resolver problemas propios mediante el uso de muestreadores proporcionados en estas librerías, como ejemplo tenemos MCMCpack [47] [48], la cual permite ajustar muchos modelos útiles en el trabajo aplicado de una manera simple y directa como se hace en R. Creemos que el éxito de R ha venido en el detrimento de programas como el WinBUGS, ya que un investigador prefiere crear programas que por un lado sean más transparentes y, por otro lado, que lleguen a un público más amplio, aunque los estadísticos bayesianos dicen que son complementarios.

Este texto está dirigido a investigadores, estudiantes de pregrado y posgrado en estadística, ingeniería y ciencias, que tengan familiaridad con los métodos estadísticos a un nivel operativo, al menos. Conocimiento de inferencia a un nivel de un texto básico de estadística matemática del estilo de Hogg y Craig [49] o Mood, Graybill y Boes [50] ayuda bastante.

Índice general

I Elementos básicos

1. Introducción

1.1. Ejemplos típicos

1.2. Probabilidad personal o subjetiva

1.3. Aproximaciones al análisis bayesiano

1.4. Problemas con la aproximación clásica

2. Probabilidad subjetiva «a priori»

2.1. Clasificación de las distribuciones a priori

2.2. Distribuciones a priori no informativas

2.2.1. Distribuciones a priori informativas

2.2.2. Probabilidad personal

2.3. Probabilidad subjetiva, apuestas y loterías

3. Análisis preposterior

3.1. Distribución predictiva a priori

4. Teorema de Bayes

4.1. Usos de la función de verosimilitud en análisis bayesiano

5. Distribuciones conjugadas

5.1. Distribución binomial

5.2. Distribución binomial negativa

5.3. Distribución geométrica

5.4. Distribución multinomial

5.5. Distribución Poisson

5.6. Distribución exponencial

5.6.1. Caso especial: se observa solo el primer estadístico de orden

5.6.2. Caso especial: se observa solo el n-ésimo estadístico de orden

5.6.3. Caso especial: se observan algunos datos censurados en el punto x0

5.6.4. Caso especial: se observan todos los datos censurados en el punto x0

5.6.5. Aumentación (data augmentation)

5.7. Distribución normal

5.7.1. Inferencia sobre la media: precisión conocida

5.7.2. Inferencia sobre la precisión: media conocida

5.7.3. Media y precisión desconocidas

5.8. Distribución gamma

5.9. Conjugadas en tramos

6. Distribuciones a priori no informativas

6.1. El principio de la razón insuficiente de Laplace

6.2. A priori de Jeffreys

6.3. Otras alternativas para las a priori

7. Marginalización

8. Inferencia bayesiana

8.1. Estimación puntual

8.2. Regiones de credibilidad

8.2.1. Región de la densidad posterior más alta (RDPMA)

8.2.2. Intervalos frecuentistas tradicionales para la Poisson

8.2.3. Intervalos aproximados

8.3. Pruebas de hipótesis

8.3.1. Comparación de modelos

8.4. Cálculo del factor de bayes vía MCMC

8.4.1. Método de Carlin y Chib

8.4.2. Método de Dellaportas, Foster y Ntzoufras

8.5. Otras aproximaciones al factor de Bayes

8.6. La aproximación BIC

8.7. Verosimilitud cruzada para selección

8.7.1. Análisis exploratorio de datos

8.8. Estadística bayesiana empírica

II Estadística Bayesiana Computacional

9. Estadística bayesiana vía simulación

9.1. MCMC: Monte Carlo por cadenas de Markov

9.1.1. Glosario de cadenas de Markov

9.1.2. Muestreo de importancia

9.1.3. Muestreo por rechazo

9.1.4. Muestreador de Gibbs

9.1.5. Algoritmo Metropolis-Hastings

9.1.6. El algoritmo Metropolis

9.2. Reflexiones acerca el MCMC

9.2.1. Problemas con el muestreador de Gibbs

9.2.2. Ventajas y desventajas dos esquemas de muestreo

9.2.3. Una prueba simple de convergencia

9.2.4. Muestreador de Gibbs y problemas con datos censurados

9.3. Cálculo de integrales via simulación

10. Diagnósticos de los muestreadores MCMC

10.1. Monitoreo y convergencia de una MCMC

10.1.1. Diagnósticos

10.2. Diagnósticos en CODA

III Aplicaciones

11. Modelos lineales

11.1. La regresión clásica

11.1.1. Regresión simple

11.1.2. Modelo de regresión lineal múltiple

11.1.3. Notación matricial

11.2. Análisis conjugado

11.2.1. Distribución predictiva

11.2.2. Elicitación en el modelo lineal

11.2.3. Inferencias

11.2.4. Pruebas de hipótesis

11.3. Estrategias en modelación

11.4. Librería MCMCpack

11.5. Detección de outliers

12. Modelo lineal generalizado

12.1. Modelo logístico

12.1.1. Selección de la distribución a priori

12.1.2. Extensiones del modelo logístico

12.2. Regresión Poisson

13. Inferencia predictiva

13.1. Procedimiento exacto

13.2. Distribución predictiva vía MCMC

13.2.1. Algoritmo

14. Software para estadística bayesiana

14.1. Estadística bayesiana en R

14.1.1. Librería MCMCpack

14.2. Tutorial sobre OpenBUGS

14.3. ¿Qué se espera de un software para estadística bayesiana?

14.3.1. Utilización de WinBUGS y OpenBUGS

14.3.2. Algunos de los comandos de WinBUGS y OpenBUGS

Referencias

Parte I

Elementos básicos

Capítulo 1

Introducción

El problema fundamental del progreso científico, y uno fundamental en la vida diaria, es el de aprender de la experiencia. El conocimiento obtenido de esta manera es parcialmente una descripción de lo que ya hayamos observado, pero una parte consiste en la realización de inferencias de la experiencia pasada para predecir la experiencia futura [9].

La escuela bayesiana en estadística ha tomado fuerza en los últimos años, debido a su potencial para resolver problemas que no se pueden atacar con otros métodos y porque permite incorporar naturalmente información que es útil en la solución del problema enfrentado. Nadie niega que ante un problema en particular debemos utilizar toda la información disponible acerca del mismo o de sucesos similares. Para nuestro caso estadístico, la incertidumbre sobre parámetros poblacionales se resume por medio de distribuciones de probabilidad, que antes de recoger información muestral relevante para ellos, se conoce como ‘distribución a priori.’ El problema está en la forma de cuantificar esta información sin generar alguna contradicción.

La aproximación bayesiana es una herramienta fundamental en situaciones donde la recolección de información muestral sea muy difícil, por ejemplo en tópicos de alta sensibilidad social, tales como el consumo de drogas ilícitas, o extremadamente costosos o imposibles, como sería el caso de la determinación del riesgo de falla de una nueva nave espacial o cuál es la probabilidad de que haya vida inteligente en nuestra galaxia.

Un problema que se ha planteado cuando se habla de la escuela bayesiana es que dos personas enfrentadas ante un problema y una decisión a tomar, y asumiendo que tengan la misma información muestral, pueden llegar a dos decisiones opuestas si su información adicional es diferente. Greenland [51] afirma que «los epidemiólogos perciben la especificación de la distribución a priori como no práctica y además pocos epidemiólogos emplearían métodos que no están disponibles en paquetes estadísticos líderes». Dienes [52] discute en detalle las posiciones de ambas escuelas.

En estadística realizamos y tratamos de responder preguntas con respecto a las características de una o varias poblaciones. En la aproximación bayesiana tenemos:

Albert [53] presenta las siguientes razones por las cuales se debería enseñar estadística desde el punto de vista bayesiano:

Western y Jackman [54] hacen un recuento de las críticas que dos famosos estadísticos hacen de la aproximación bayesiana (Fisher y Efron). Una de las críticas es la introducción de información subjetiva a priori que haría que los prejuicios de los analistas fueran introducidas en los análisis, dañando los resultados. Tanto Fisher como Efron argumentan que con la inclusión de información subjetiva no es posible realizar un análisis justo de los datos. A lo cual Western y Jackman replican diciendo:

En la práctica, sin embargo, la información a priori entra en la mayoría de los análisis a través de decisiones de codificación, transformaciones y búsquedas no reportadas en conjuntos de variables exploratorias para obtener resultados que parezcan significativos en el sentido de caer dentro de un rango de valores esperados. Mientras todos los analistas de datos usan creencias previas, los bayesianos hacen la forma de volver estas aprioris explícitas e integrarlas sistemáticamente en el análisis. Y, reparafrasean a de Finetti quien dijo que el reconocimiento de la subjetividad es el camino a la objetividad.

Kyburg, Jr. [55] nos presenta esta reflexión sobre la incertidumbre:

Hay dos clases de ignorancias que considero: la clase más simple de ignorancia es la que hace que las loterías sean excitantes; la otra es la que hace que las carreras de caballos sean excitantes.

Una lotería es excitante debido que aunque sepamos exactamente que uno de los números de los posibles se obtendrá, y aunque sepamos que todo lo posible haya sido hecho para garantizar que ninguno estos números tenga ventaja sobre los otros, no sabemos cuál saldrá. Esto es generalmente expresado diciendo que la probabilidad de un estado es la misma que la de cualquier otro estado: o, en el caso particular de la lotería, que la probabilidad de que un tiquete gane es igual a la de cualquier otro tiquete. Esto no es el caso típico en las carreras de caballos; uno no puede organizar las carreras de caballos de tal forma que cada caballo en la carrera tenga (mediante algún consenso general) la misma probabilidad de ganar. Existe una gran cantidad de información acerca de cada caballo que determina la probabilidad que ese caballo gane (si es que tal probabilidad existe del todo), y no hay una forma aceptable de cambiar esas circunstancias- lastimándolo, digamos- tal que las probabilidades sean iguales. Uno encontraría difícil, quizá, elaborar una distinción clara y precisa entre estas dos clases de situaciones que no pudiera ser atacada como artificial; y aún así ellas parecen diferir de una forma importante. Yo consideraría la primera situación como una incertidumbre estadística; y la última, donde las probabilidades dependen fuertemente del conocimiento, como una incertidumbre epistemológica.

1.1. Ejemplos típicos

Ejemplo 1.1. Cálculo de la edad de una persona. En nuestra sociedad es considerado como una forma de mala educación preguntar la edad de una persona. El día que conoce a alguien, usted más o menos puede calcular la edad de esta persona. Este proceso se hace de una manera inconsciente y usualmente llega a un número que aproxima sus creencias sobre la posible edad. Para esto usa la información recolectada previamente sobre ella, por ejemplo, si esta persona tiene una apariencia determinada, si se viste de cierta forma, si se graduó del colegio en cierta época, etc. Si dos personas tienen que calcular la edad de este sujeto, puede que ellas no coincidan en sus resultados, pero no se puede decir cuál de los dos está equivocado (o si los dos lo están), solo hasta el momento en que se conozca la verdadera edad de la persona en cuestión. La incertidumbre que usted tiene acerca de la edad de una persona la podemos expresar en términos probabilísticos con ayuda de la siguiente plantilla (ver Figura 1.1).

image

Figura 1.1: mediante la ayuda de la plantilla podemos ‘elicitar’ la distribución de probabilidad que nos refleja la incertidumbre que tenemos sobre la edad de una persona. Nota: todas las figuras y tablas del texto son de elaboración propia del autor

Ejemplo 1.2. La lotería que jugó anoche. Suponga que a usted un amigo le ofrece un billete de lotería, pero con el problema que la lotería jugó anoche. Su amigo, que ha demostrado ser una persona honesta le informa que él no sabe el resultado de la lotería, y usted tampoco. En una situación como esta podemos pensar en una probabilidad de que el billete sea el ganador es la misma que el billete tenía antes de que se jugara la lotería, ¿no lo piensa así?

Ejemplo 1.3. Estatura de los colombianos. Si pensamos en la estatura promedio de los hombres colombianos podemos pensar seriamente que este valor no es mayor que 180 cm., ni menor que 160 cm. Es claro que si conocemos muchos hombres colombianos nuestra información puede utilizarse en un proceso inferencial, pero confiaríamos más si la información sobre la estatura proviene de algún estudio previo realizado sobre el mismo tema.

Ejemplo 1.4. La nota esperada. A un estudiante que acaba de presentar un examen se le puede preguntar cuál es su nota esperada. Con base en su propio conocimiento de su capacidad y de su preparación, de cómo respondió el examen, él puede tener una idea sobre la nota que espera obtener al ser calificado su examen. Obviamente la nota exacta no la conoce ya que existen múltiples factores que entran en una evaluación, pero puede proporcionar un rango dentro del cual se sienta muy seguro.

Ejemplo 1.5. Sobre una proporción. Un estudiante universitario que visite con frecuencia los distintos campus puede intentar estimar el porcentaje de mujeres que estudian en ésta. Él puede establecer valores entre los cuales, cree, cae el porcentaje de mujeres que estudian en la universidad.

Ejemplo 1.6. Porcentaje de estudiantes que consumen una sustancia psicoactiva. Si queremos determinar el porcentaje de estudiantes que consumen un tipo de sustancia psicoactiva podemos utilizar la información que se haya recogido en estudios pasados.

Ejemplo 1.7. Tasa de estudiantes que ejercen la prostitución. Si queremos determinar el porcentaje de estudiantes que ejercen la prostitución en nuestra universidad, no parece fácil resolver esto mediante una simple encuesta, aunque es posible utilizar procedimientos como el de la respuesta aleatorizada, el hecho de enfrentar un encuestador puede llevar a dar respuestas socialmente aceptables.

1.2. Probabilidad personal o subjetiva

Las ideas iniciales de la probabilidad surgieron relacionadas con los juegos de azar y su conceptualización e interpretación son básicamente frecuentistas. Esta formulación frecuentista trabaja bien en muchas situaciones, pero no en todas.

Entre otras, destacamos las tres diferentes interpretaciones que Kyburg, Jr. [55] señala que pueden considerarse respecto a la probabilidad:

  1. 1.Interpretación empírico-frecuentista. Esta es la interpretación más común de la probabilidad y hace relación al comportamiento (real o hipotético) de ciertos objetos.
  2. 2.Interpretación lógica. Esta interpretación no es común entre los estadísticos y está más bien reservada al mundo de los lógicos. De acuerdo con esta interpretación, hay una relación lógica entre una afirmación (considerada como una hipótesis) y otra afirmación (considerada como evidencia), en virtud de la cual la primera tiene cierta probabilidad relativa a la segunda. Probabilidad lógica es el grado de creencia en proposiciones, que asocian un conjunto de premisas con un conjunto de conclusiones. En la probabilidad lógica , esta relación es única. Fue De Morgan quien primero definió la probabilidad en términos de «grados de creencia»[56].

    Bajo la influencia de Bertrand Russell, Keynes adoptó una proposición (en lugar de un evento) «como eso que puede llevar el atributo de la probabilidad». Keynes dice que la probabilidad es relación lógica indefinible entre (1) una proposición y un cuerpo de conocimiento, (2) entre una afirmación y otra afirmación (es) que representa evidencia, una relación asociada con el grado de creencia racional en la proposición [56]. Un concepto de probabilidad lógica es empleado cuando uno dice, basado en la evidencia real, que la teoría de un universo permanentemente estable es menos probable que la teoría del Big Bang o que la culpabilidad de un acusado está probada más allá de una duda razonable no es completamente cierta. Qué tan probable es una hipótesis, dada una evidencia, determina el grado de creencia que es racional tener en esa hipótesis, si toda esa evidencia que uno tiene es relevante para ella [57].

    Sivia [58] discute sobre cómo la definición frecuentista de la probabilidad más que ser objetiva, esconde dificultades mayores y que en términos generales va en contravía del quehacer científico. Nadie parte en ciencia de un desconocimiento total ni ejecuta experimentos en forma repetida, por ejemplo.

  3. 3.Interpretación subjetivista. Esta es una versión más débil de la interpretación lógica. Es más del tipo sicológico que lógico. El grado de creencia es el concepto fundamental de la interpretación: las afirmaciones probabilísticas representan los grados de creencias de los individuos (estos no son más que individuos idealizados).

Una característica distintiva de la estadística bayesiana es que tiene en cuenta de forma explícita la información previa y se involucra en el análisis en forma de distribución, llamada distribución a priori. La teoría clásica la considera básicamente para determinar tamaños muestrales y el diseño de experimentos y, a veces, como forma de crítica de los resultados hallados.

La expresión de la información previa en forma cuantitativa puede ser un proceso complejo y delicado, aunque se han hallado soluciones que pueden llegar a parecer extrañas, como lo puede ser el uso de lo que se conoce como distribuciones no informativas, pero que se utilizan extensamente en el trabajo bayesiano aplicado.

Fuentes tradicionales para la construcción de la distribución a priori son:

Wallsten y Budescu [59] presentan las condiciones para que un proceso de elicitación produzca una distribución apropiada. En teoría de la medición se menciona con frecuencia las dificultades que tienen los procesos de cuantificación de sentimientos en relación con eventos externos y la determinación del error. El proceso de codificación debe garantizar condiciones básicas, como confiabilidad y validez. La confiabilidad se mide como la correlación al cuadrado entre los valores observados de las probabilidades y las verdaderas probabilidades, image. La probabilidad subjetiva es una variable aleatoria, p, que puede ser descompuesta como la verdadera probabilidad fija π y un error, e:

p = π + e.

Los siguientes supuestos son estándares para este modelo:

  1. 1.E(e) = 0
  2. 2.ρπe = 0
  3. 3.Para cualquier par de mediciones independientes los errores son incorrelacionados: ρeiej = 0 para ij
  4. 4.ρπiej = 0 para ij

Sea image la varianza del error. La raíz cuadrada de esta cantidad se conoce como el error estándar de la medición. Del modelo y los supuestos anteriores se tiene:

image

Así, el coeficiente de confiabilidad será:

image

La confiabilidad está inversamente relacionado con el error de medición y es perfecta cuando image = 0. Ya que π no puede ser observado directamente, no podemos determinar image. Esto puede resolverse parcialmente a través de métodos indirectos, por ejemplo, usando varios métodos de cuantificación.

La validez se define como la correlación entre dos procedimientos de cuantificación independientes, digamos ρxy.

Ayyub [60] presenta una clasificación de la ignorancia que es importante considerar cuando se determina la claridad de un experto. La ignorancia puede ser consciente o ciega. La ignorancia ciega incluye conocimiento irrelevante que puede estar conformado por un conocimiento relevante y que es descartado o no considerado intencionalmente y por un conocimiento no confiable (prejuicios) o que no aplica al problema de interés.

Un elicitador subjetivo está bien calibrado si para cada probabilidad p, en la clase de todos los eventos en los cuales asigna una probabilidad subjetiva, la frecuencia relativa de ocurrencia es igual a p.

A pesar de que el concepto anterior es atractivo, en la práctica puede ser difícil de verificar, excepto en ciertas circunstancias donde el elicitador permanentemente construye distribuciones de probabilidad subjetivas, como es el caso de los meteorólogos. En estos caso se pueden construir pruebas de tipo estadístico para medir el nivel de concordancia de lo elicitado con lo observado. A nivel experimental se pueden establecer ambientes controlados en los cuales los elicitadores pueden ser evaluados, sin embargo no hay garantía que el resultado de un laboratorio pueda extrapolarse a un ambiente real.

1.3. Aproximaciones al análisis bayesiano

Una clasificación de las diversas aproximaciones que podemos realizar cuando consideramos el enfoque bayesiano es la siguiente [61]:

  1. 1.Análisis bayesiano objetivo: esta posición se caracteriza por la utilización de distribuciones no informativas.
  2. 2.Análisis bayesiano subjetivo: la utilización de distribuciones a priori subjetivas es a menudo disponible como alternativa en algunos problemas.
  3. 3.Análisis bayesiano robusto: esta posición asume que es imposible especificar completamente la distribución a priori o el modelo, en cuyo caso es mejor trabajar dentro de clases donde haya un nivel de incertidumbre sobre esta distribución o modelo.
  4. 4.Análisis bayesiano-frecuentista: hay problemas en los cuales la aproximación frecuentista produce resultados satisfactorios, como en los métodos no paramétricos, y al bayesiano le toca aceptarlos como soluciones seudobayesianas.
  5. 5.Análisis cuasibayesiano: esta aproximación utiliza distribuciones a priori seleccionadas de una forma que acomoden a la solución «bonita»del problema, ajustando estas distribuciones a priori de diversas formas, por ejemplo seleccionando distribuciones a priori vagas, o ajustando los parámetros.

1.4. Problemas con la aproximación clásica

Desde otras disciplinas puede parecer extraño el mundo estadístico como lo expresa el físico Loredo [62].

Para un extraño, la estadística puede tener la apariencia de ser una simple ‘industria’ donde métodos estadísticos son inventados sin un claro criterio racional, y luego son evaluados por una masa de datos simulados y se analiza el comportamiento promedio a largo término. Como resultado, a menudo hay varios métodos disponibles para un asunto estadístico particular, y cada uno da una respuesta algo diferente de los otros, sin ningún criterio determinante para escoger entre ellos.

Esta queja es válida y permanente, como más adelante lo ilustramos con referencia a la construcción de intervalos de confianza para algunos problemas típicos. Sawyer y Peter [63] señalan:

«Debido a que los investigadores toman muchas decisiones que pueden influenciar enormemente la probabilidad de rechazar la hipótesis nula, es equivocado considerar el proceso de pruebas de significancia estadística como objetivo solamente debido a la objetividad de las matemáticas».

La estadística clásica (Fisher y Neyman-Pearson) ha utilizado como bandera en contra de la estadística bayesiana el concepto de objetividad, aunque Savage [10] discute ampliamente este hecho y muestra cómo la única forma de hacer una estadística coherente es vía probabilidades subjetivas. Sawyer y Peter [63] ilustran diversas partes del proceso de probar estadísticamente una hipótesis que pueden generar problemas entre los usuarios, usualmente debido a interpretaciones equivocadas (valores p, tamaño de la prueba y potencia) o a problemas técnicos involucrados en el proceso (tamaños muestrales o diferencias significativas desde el punto de vista práctico). Labovitz [64], Sawyer y Peter [63], Lecoutre, Lecoutre y Poitevineau [65] y Harrell [66] han presentado algunos de los problemas que ocurren con la aproximación clásica a varios problemas estadísticos. Quizás un factor principal que contribuye al valor percibido de las pruebas de significancia estadística es la ilusión de que ellas son completamente objetivas. La probabilidad de rechazar la hipótesis nula es una función de cinco factores: si es una prueba de una o de dos colas, del nivel, de la desviación estándar, del tamaño de la desviación verdadera y del número de observaciones.