Si los tamaos de sus muestras son muy pequeos, es posible que no pueda hacer la prueba de normalidad. Puede que deba basarse en su comprensin de los datos. Si no puede suponer normalidad de forma segura, puede efectuar una prueba no paramtrica que no asume la normalidad.
Imaginemos que tenemos una muestra aleatoria de 31 barritas energticas de diferentes tiendas para representar al conjunto de barritas energticas disponibles para el consumidor general. Las etiquetas de estas barritas sostienen que cada una contiene 20 gramos de protenas.
Si observa la tabla de arriba ver que algunas barritas tienen menos de 20 gramos de protenas. Otras tienen ms. Podra suponer que los datos apoyan la idea de que las etiquetas son correctas. Otros podran discrepar. La prueba estadstica ofrece un mtodo robusto para tomar la decisin, de manera que todas las personas tomen la misma decisin partiendo del mismo conjunto de datos.
Vamos a empezar por responder lo siguiente: Es la prueba tde una muestra un mtodo adecuado para evaluar si estas barritas tienen 20 gramos de protenas? La siguiente lista repasa los requisitos de la prueba.
Con un vistazo al histograma podemos ver que no hay puntos extraos o valores atpicos. Los datos tienen aproximadamente forma de campana, as que nuestra idea de una distribucin normal parece razonable.
De un vistazo a las estadsticas, vemos que la media es de 21,40, superior a 20. Significa esto que la media de nuestra muestra de 31 barritas invalida el mensaje de la etiqueta de que la media poblacional desconocida es de 20 gramos de protenas? O no?
Redondeamos las estadsticas al segundo decimal. A menudo el software mostrar ms decimales y los usar en los clculos. (Tenga en cuenta que la tabla 1 solo muestra dos posiciones decimales; los datos reales usados para calcular la estadstica de resumen tienen ms).
Hallamos el valor de la distribucin t en funcin de nuestra decisin. Para una prueba t, necesitamos los grados de libertad para hallar dicho valor. Los grados de libertad se basan en el tamao muestral. Para los datos de las barritas energticas:
El valor crtico de t con un α = 0,05 y 30 grados de libertad es +/- 2,043. En la mayor parte de libros de estadstica hay tablas de distribucin que se pueden consultar. Tambin se pueden encontrar en lnea. La situacin ms probable es utilizar software y no tablas impresas.
Comparamos el valor de nuestra estadstica (3,07) con el valor t. Puesto que 3,07 > 2,043, rechazamos la hiptesis nula de que la media de gramos de protenas es igual a 20. Llegamos a la conclusin prctica de que las etiquetas son incorrectas, y la media poblacional desconocida de gramos de protenas es mayor que 20.
Esta es una prueba bilateral. Estamos comprobando si la media poblacional es distinta de 20 gramos en una u otra direccin. Si podemos rechazar la hiptesis nula de que la media es igual a 20 gramos, podemos llegar a la conclusin prctica de que las etiquetas de las barritas son incorrectas. Si no podemos rechazar la hiptesis nula, entonces llegamos a la conclusin de que las etiquetas de las barritas pueden ser correctas.
Comparamos la estadstica de la prueba con un valor t, con nuestro valor alfa elegido y los grados de libertad de nuestros datos. Utilizando como ejemplo los datos de las barritas, establecemos α = 0,05. Los grados de libertad (gl) se basan en los tamaos de los grupos, y se calculan as:
Tambin puede llevar a cabo una prueba formal de normalidad utilizando software. En la figura siguiente se muestran los resultados de la prueba de normalidad con el software JMP. No podemos rechazar la hiptesis de distribucin normal.
Si los tamaos de sus muestras son muy pequeos, es difcil hacer la prueba de normalidad. En esa situacin, puede que deba basarse en su comprensin de las medidas. Por ejemplo, para los datos de las barritas energticas, el fabricante sabe que la distribucin subyacente de gramos de protenas es una distribucin normal. Incluso para una muestra pequea, el fabricante probablemente seguira adelante con la prueba t y asumira normalidad.
Y si se sabe que las medidas subyacentes no siguen una distribucin normal? O si el tamao muestral es grande y se rechaza la prueba de normalidad? En esta situacin, se puede utilizar un anlisis no paramtrico. Los anlisis no paramtricos no dependen de una hiptesis de que los valores de datos siguen una distribucin especfica. En una prueba t de una muestra, una prueba no paramtrica sera la prueba de los rangos con signo de Wilcoxon.
Utilizando una visualizacin, se puede comprobar si la estadstica de la prueba es un valor ms extremo que el especificado en la distribucin. En la siguiente figura se muestra una distribucin t con 30 grados de libertad.
En la siguiente figura se muestran nuestros resultados. Puede ver que la estadstica de la prueba queda por encima de nuestro valor crtico especificado. Est lo bastante hacia la cola como para rechazar la hiptesis de que la media es igual a 20.
Lo ms probable es que use un programa para realizar la prueba t. En la siguiente figura se muestran los resultados de la prueba t para una muestra con los datos de barritas energticas usando el software JMP.
El software muestra resultados para una prueba bilateral y para las pruebas unilaterales. Nos interesa la prueba bilateral. Nuestra hiptesis nula es que la media de gramos de protenas es igual a 20. Nuestra hiptesis alternativa es que la media de gramos de protenas es distinta de 20. El software muestra un valor de p de 0,0046 para la prueba bilateral. El valor p describe la probabilidad de encontrar una media de muestra igual o superior a 21,4 si la media poblacional subyacente es realmente 20; en otras palabras, la probabilidad de observar una media muestral tan diferente, o incluso ms diferente de 20, que la media que observamos en nuestra muestra. Un valor p de 0,0046 indica que hay unas 46 posibilidades entre 10 000. Podemos rechazar la hiptesis nula de una media poblacional igual a 20 con confianza.
En muchas ocasiones, los n elementos de una muestra tomada de una poblacin pueden clasificarse con dos criterios diferentes. Por tanto, es interesante saber si los dos mtodos de clasificacin son estadsticamente independientes. Supngase que el primer mtodo de clasificacin tiene r niveles, y que el segundo tiene c niveles. O sea Oij la frecuencia observada para el nivel i del primer mtodo de clasificacin y el nivel j del segndo mtodo de clasificacin. En general, los datos aparecern como se muestra en la siguiente tabla. Una tabla de este tipo usualmente se conoce como tabla de contingencia r x c.
El inters recae en probar la hiptesis de que los dos mtodos de clasificacin rengln-columna son independientes. Si se rechaza esta hiptesis, entonces se concluye que existe alguna interaccin entre los dos criterios de clasificacin. Los procedimientos de prueba exactos son difciles de obtener, pero puede obtenerse un estadstico de prueba aproximado vlido para n grande.
tiene una distribucin aproximada ji-cuadrada con (r-1)(c-1) grados de libertad si la hiptesis nula es verdadera. Por consiguiente, la hiptesis de independencia debe rechazarse si el valor del estadstico de prueba X2 calculado es mayor que X2 crtico o de tabla.
Se proceder a calcular los valores esperados de cada celda. Como los grados de libertad son 6, esto quiere decir que necesitamos calcular nicamente 6 frecuencias esperadas, y las faltantes se encuentran por diferencia.
Decisin y justificacin:
Como el valor de 2.75 es menor que el de tabla 12.592, por lo tanto no se rechaza Ho y se concluye con un =0.05 que la satisfaccin en el trabajo y el rango son independientes.
Se proceder a calcular los valores esperados de cada celda. Como los grados de libertad son 2, esto quiere decir que necesitamos calcular nicamente 2 frecuencias esperadas, y las faltantes se encuentran por diferencia.
Si se busca este valor dentro de la tabla de ji-cuadrada con 2 grados de libertad nos dar un valor de P aproximado a 0.04. Si se observa el valor de la ji-cuadrada calculada de 6.29 con el valor de tabla de 7.378, se llega a la decisin de no rechazar Ho. Sin embargo sera riesgoso concluir que la proporcin de defectuosos producidos es la misma para todos los turnos por tener un valor de P de 0.04.
El uso de la tabla de contingencia de dos clasificaciones para probar independencia entre dos variables de clasificacin en una muestra tomada de una poblacin de inters, es slo una de las aplicaciones de los mtodos de tablas de contingencia. Otra situacin comn se presenta cuando existen r poblaciones de inters y cada una de ellas est dividida en las mismas c categoras. Luego se toma una muestra de la i-sima poblacin, y los conteos se introducen en las columnas apropiadas del i-simo rengln. En esta situacin se desea investigar si las proporciones son o no las mimas en las c categoras de todas las poblaciones. La hiptesis nula de este problema establece que las poblaciones son homogneas con respecto a las categoras (como el ejemplo pasado de los diferentes turnos), entonces la prueba de homogeneidad es en realidad una prueba sobre la igualdad de r parmetros binomiales. El clculo de las frecuencias esperadas, la determinacin de los grados de libertad y el clculo de la estadstica ji-cuadrada para la pruebe de homogeneidad son idnticos a los de la prueba de independencia.
La mayor parte de los procedimientos de prueba de hiptesis que se presentan en las unidades anteriores se basan en la suposicin de que las muestras aleatorias se seleccionan de poblaciones normales. Afortunadamente, la mayor parte de estas pruebas an son confiables cuando experimentamos ligeras desviaciones de la normalidad, en particular cuando el tamao de la muestra es grande. Tradicionalmente, estos procedimientos de prueba se denominan mtodos paramtricos. En esta seccin se consideran varios procedimientos de prueba alternativos, llamados no paramtricos mtodos de distribucin libre, que a menudo no suponen conocimiento de ninguna clase acerca de las distribuciones de las poblaciones fundamentales, excepto que stas son continuas.
b37509886e