Hola de nuevo. Ya tena ganas de ir actualizando el blog, pero este ao pandmico tan extrao nos est llevando a todo el mundo al borde del colapso, y atesoramos cada minuto de estar tumbado al sol como si fuera oro. Aun as, siempre me gratifica volver al mundo de la estadstica y de las simulaciones, as que aqu llega este nuevo post de verano tardo.
En posts anteriores, aprendimos que los datos y resultados estadsticos se pueden presentar visualmente de distintas maneras: con tablas, y con figuras de distinto tipo. Tambin dijimos que las figuras de barras, un clsico al que todos recurrimos frecuentemente, tienen algunos problemillas (recordis aquello del #barbarplot?). Bsicamente, cuando estas figuras estn recogiendo un estadstico como la media o la mediana, nos estn privando de conocer los detalles de la distribucin de los datos, que puede ser muy importante para interpretar el resultado. Y adems, tampoco nos dicen nada acerca de la precisin de la medida. Vamos, que contienen nicamente un resumen muy bsico de los datos.
Si ests elaborando un grfico de barras como los de este post, una de las preguntas que tienes que hacerte es qu estadstico debera recoger la barra de error. Y es que hay al menos tres opciones muy extendidas (que te ofrecen en casi cualquier paquete estadstico), y cada una se interpreta de manera diferente: desviacin tpica (en ingls, standard deviation, SD), error tpico de la media (standard error of the mean, SE o SEM), e intervalo de confianza (IC). Adems para tomar esta decisin, tambin es importante saber cul es el objetivo del grfico: informar acerca de los datos de la muestra (descripcin) o ayudar en el contraste de hiptesis (inferencia).
Paso a paso. Vamos a empezar asumiendo que tu objetivo al hacer la figura es puramente descriptivo: quieres representar tus datos, y simplemente dar toda la informacin necesaria para que esa informacin sobre la muestra se comprenda bien. Qu opciones tenemos?
Si la media o la mediana son estadsticos de centralidad (nos dicen en qu valores est centrada la distribucin de los datos), la desviacin tpica es un estadstico de dispersin (nos dice en qu medida los datos se alejan de ese centro de la distribucin). Una barra de error que contiene la desviacin tpica nos est diciendo, por lo tanto, cmo de dispersos estn los datos alrededor de la media muestral.
Si examinis esta ecuacin, su estructura os recordar a la de la media aritmtica: en el numerador sumamos una serie de elementos, y luego lo dividimos por el total de elementos (n). Y es que, en realidad, la desviacin tpica no es ms que un promedio. En concreto, es el promedio de las diferencias entre cada dato (xi) con respecto a la media muestral. Tal vez ahora se entiende por qu este estadstico sirve para medir la dispersin de los datos. Cuanto ms alejados estn, en promedio, los datos de la media muestral, mayor es la desviacin tpica.
Una vez calculada, podemos usar la desviacin tpica en nuestra figura: las barras de error cubren el intervalo de dos desviaciones tpicas, una por encima y otra por debajo de la media. Aqu tenis un ejemplo de cmo quedaran dos barras de error con distribuciones ms o menos dispersas (SD = 30 y SD = 5). He sobreimpuesto los datos reales a la figura en forma de puntos, para que apreciis en qu consiste esa dispersin. Cada punto es un dato: notis cmo cambia la distribucin alrededor de la media?
Si la desviacin tpica mide la dispersin en los datos, con el error tpico de la media (SEM) vamos a expresar una idea un poco diferente. Sabemos (porque lo hemos visto en el blog, aqu) que cada vez que repetimos un estudio, el resultado va a ser un poquito diferente, debido al llamado error de muestreo. Si tu medida es buena (tu muestra es grande, tus instrumentos precisos), entonces no va a haber demasiada variacin entre muestreo y muestreo, sino que las medidas sern bastante consistentes. Pues bien, el SEM nos va a aproximar cmo de precisa o consistente es la estimacin de la media poblacional a partir de la media muestral.
Entonces, cuando veis una figura con el error tpico de la media en las barras de error, tenis que comprender que nos estn transmitiendo algo acerca de la calidad del estudio: cuanto ms pequeo el intervalo que cubre la barra de error, ms precisin.
Sin embargo, la mayora de las veces el objetivo de nuestro estudio no se reduce a estimar un parmetro poblacional como la media. Muy a menudo queremos poner a prueba hiptesis: funciona este tratamiento? hay diferencia entre estos dos grupos? Es decir, nuestro objetivo, ms que descriptivo, es inferencial. Para esos casos puede ser recomendable que nuestras barras de error contengan el intervalo de confianza (recuerda lo que era, y cmo interpretarlo, en este post).
El clculo del intervalo de confianza es algo ms complejo, aunque an es sencillo como para hacerlo a mano, y de nuevo servira como una medida de la precisin de nuestro estudio. Cuando el intervalo es muy grande, indica que el estudio ha sido poco informativo.
La ventaja del intervalo de confianza es que podemos escoger un nivel de confianza (generalmente, la costumbre es usar el 95%). La interpretacin, aunque un poco engaosa, es directa: si repitiramos el estudio 100 veces, 95 de los intervalos de confianza contendrn la media poblacional (esto ya lo hemos visto, recuerda este post).
Imaginad que estis viendo un grfico con los resultados de un experimento: cmo saber si la diferencia entre dos grupos es significativa? Realmente, deberamos hacer un test en condiciones (en este caso podra ser apropiada una prueba t), y calcular un p-valor. Si el p-valor es menor de 0.05, el resultado es significativo y concluimos que las diferencias son lo bastante grandes como para no atribuirlas al azar (recuerda cmo se interpreta un p-valor en este post previo).
Pero, ms all de hacer el test pertinente, la figura tambin puede ayudarnos en el contraste de hiptesis gracias a los intervalos de confianza (**). Si los intervalos de confianza al 95% para las dos medias no se solapan el uno con el otro, podemos decir que la diferencia entre esas dos medias es significativa al nivel p = 0.05.
Y si hay un poco de solapamiento entre los intervalos? Diramos entonces que la diferencia no es significativa? No necesariamente, y aqu es donde hace falta un ojo entrenado. Si el solapamiento es menor de la cuarta parte del del intervalo (o sea, la mitad de uno de sus brazos), entonces la diferencia todava puede ser significativa, aunque esta regla solo vale para muestras mayores de n = 10 (Cumming et al., 2007) y para contrastes entre grupos independientes (***). La siguiente figura est tomada de ese artculo, y representa visualmente esta idea:
En cualquier caso, esta comparacin visual no debera reemplazar al test propiamente dicho, que tiene en cuenta otras consideraciones, y en ocasiones nos puede llevar a conclusiones diferentes. Es simplemente una ayuda para que el grfico pueda contar una historia. En el prximo punto veremos cmo podemos exprimir el potencial de los intervalos de confianza con otra visualizacin diferente.
Mientras tanto, quiero que veis una cosa. Hemos comentado antes que error tpico de la media (SEM), intervalo de confianza (CI) y desviacin tpica (SD) tienen significados diferentes, y ahora estamos en situacin de comprobarlo.
Notis algo raro cuando nos movemos de una muestra pequea (izquierda) a otra ms grande (derecha)? Si os fijis bien, veris cmo las barras que contienen el error tpico y el intervalo de confianza (SEM y CI) se hacen ms estrechas cuando aumentamos la muestra. Qu significa esto? Pues que estos dos estadsticos, aunque tengan interpretaciones diferentes, nos informan acerca de la precisin en la estimacin (en este caso, de la media poblacional). Cuanto mayor es la muestra, mayor precisin, y por lo tanto intervalo ms estrecho.
Sin embargo, los intervalos construidos con la desviacin tpica permanecen bastante insensibles al aumento del tamao muestral. Por qu? Porque simplemente indican en qu medida los datos estn dispersos, y esto es algo que no tiene por qu correlacionar con el tamao muestral.
Por ltimo, vamos a comentar una opcin bastante diferente, pero que tiene otras ventajas. Imaginemos que el objetivo del grfico no es simplemente representar los datos, sino comunicar la presencia (y magnitud) de un efecto estadstico, de forma que nos ayude en el contraste de hiptesis. Es decir, el propsito del mismo no es meramente descriptivo, sino inferencial.
Antes hemos comentado cmo pueden usarse los intervalos de confianza al 95% para intuir decisiones sobre la significacin, siempre que se cumplan algunos supuestos. Ya os avis de que este examen visual no debe reemplazar al anlisis estadstico, porque ambas estrategias (examen grfico y test) estn trabajando sobre informaciones diferentes. En concreto, el examen visual trabajaba con la precisin de las estimaciones de las medias, mientras que el test, con su p-valor, est haciendo algo distinto: est cuantificando la magnitud de la diferencia, y dicindonos si es esperable por azar.
Entonces, necesitamos construir un intervalo de confianza alrededor del tamao del efecto observado que nos diga cmo de precisa es la estimacin. Esto tiene un poco ms de complicacin, pero numerosos paquetes estadsticos nos simplifican el trabajo. El resultado sera algo como lo que sigue:
Quiz os recuerde este tipo de figura a las que solemos encontrar en los meta-anlisis (forest plots). En general la interpretacin es similar. Fijaos en que en vez de representar las medias muestrales y sus intervalos, estamos presentando directamente la diferencia entre cada par de medias (estandarizada), y el intervalo de esa diferencia.
d3342ee215