Muestreo de datos
El muestreo es el proceso de extraer una selección representativa de registros de una tabla de ACL y enviarlos a una nueva tabla de ACL, donde se pueden someter a procedimientos de auditoría. Se puede suponer que los resultados del análisis de una selección representativa de registros en la nueva tabla se aplican a la totalidad del conjunto de registros, con un nivel específico de confianza y dentro de un nivel de error que ACL puede calcular. El muestreo resulta útil si se desea obtener un estimativo de un conjunto de datos particularmente grande que dificultaría su análisis completo.
El proceso de muestreo de datos en ACL incluye los siguientes pasos generales:
- Tomar una decisión sobre el tipo de muestreo:
- Muestreo por unidad monetaria
- Muestreo de registros
- Calcular el tamaño de la muestra necesaria.
- Dentro de un tipo de muestra, escoger un método de selección de muestras:
- Intervalo fijo
- Celda
- Aleatorios
- Si está utilizando el muestreo por unidad monetaria, puede especificar una o más de las siguientes opciones de muestreo:
- Submuestra
- Muestreo sin repeticiones
- Límite de estrato superior
- Tomar muestras de los datos.
- Evaluar el impacto de cualquier error de muestreo.
Acerca de tipos de muestreo
El tipo de muestreo que elija depende de cuál desviación de muestreo es adecuada para el tipo de datos con los que está trabajando. La desviación del muestreo es la posibilidad o la probabilidad de que seleccione un registro o elemento particular.
Muestreo por unidad monetaria
El muestreo por unidad monetaria se usa comúnmente cuando se auditan activos y gastos. Este tipo de muestreo usa el valor absoluto de un campo para determinar qué registros se seleccionaron para su inclusión en la muestra y, por lo tanto, desvía los elementos de valor más altos, tanto positivos como negativos. La probabilidad de que cualquier registro dado se seleccionará es directamente proporcional al valor del campo especificado, a menos que el límite de estrato superior afecte al elemento.
Con el muestreo por unidad monetaria, el valor absoluto total de todas las cantidades en el campo seleccionado se trata como un flujo de dólares expresado en céntimos. Cada dólar, exclusivo de las cantidades individuales, tiene una posibilidad igual de selección. Por lo tanto, un elemento de $1.000 es 1.000 veces más probable que se seleccione que un elemento de $1. Este tipo de selección crea una desviación hacia elementos de dólares mayores y es la herramienta estándar para detectar las sobrevaloraciones.
Muestreo de registros
Muestreo de registros, también denominado muestreo de transacciones, se usa comúnmente en pruebas de control. Este tipo de muestreo trata cada registro por igual, usando un valor nominal de 1. Esto se traduce en una muestra que carece de desviación que no se basa en los valores en un registro. Cada registro tiene una posibilidad igual de seleccionarse para su inclusión en la muestra. Debido a esta igualdad, hay una probabilidad significativa de que las transacciones monetarias muy grandes se pasen por alto con este tipo.
Con el muestreo de registros, el conjunto de datos incluye todos los registros en la tabla y los datos se tratan como un flujo de registros. En consecuencia, un elemento de $1.000 y un elemento de $1 tienen la misma posibilidad de seleccionarse. Este tipo de selección es ideal para probar condiciones binarias (sí/no) y detectar subvaloraciones en las cantidades.
Acerca del cálculo de tamaños de muestra
El comando Muestreo puede ayudarlo a formular una conclusión estadísticamente válida sobre un conjunto de datos de un número de muestras relativamente pequeño. Puede realizar el muestreo de toda un conjunto de datos, un subconjunto de los datos o utilizar filtros globales para ejecutar un muestreo condicional.
Dos método de generación de tamaños de muestra usados comúnmente son las distribuciones de Poisson y binomial. ACL genera tamaños de muestra utilizando la distribución de Poisson, la cual no requiere que usted conozca el tamaño del conjunto de datos antes de generar un tamaño de muestra.
ACL puede producir tamaños de muestra de atributo estadísticamente válidos para la mayoría de los análisis. Puede haber excepciones en las siguientes situaciones:
- Usted muestrea conjuntos de datos de menos de 1000 registros
- Su empresa tiene especialistas internos en muestreo que pueden definir tamaños de muestra adecuados a sus necesidades.
- Su empresa impuso el uso de otra herramienta o metodología de muestreo.
En los conjuntos de datos más característicos de mil registros o más, las distribuciones de Poisson y binomial generan tamaños de muestras casi idénticos. Para las poblaciones con registros por debajo de los mil, los tamaños de muestra determinados con la relación de Poisson tienden a ser un poco más grandes y por lo tanto más conservadores que los tamaños determinados con la distribución binomial. Esto se debe a que la distribución binomial ajusta el tamaño de la muestra hacia abajo para poblaciones pequeñas, pero la distribución de Poisson no. Con poblaciones muy pequeñas, el tamaño de muestra fijo generado por la distribución de Poisson realmente puede superar el tamaño de la población.
Cuando calcula tamaños de muestra en ACL, debe reconocer que, para el muestreo de registro de conjuntos de datos pequeños, el tamaño de la muestra puede ser mayor de lo que necesita. Esto no representa un obstáculo para el análisis, ya que es muy común para sobre-muestrear manualmente las poblaciones pequeñas.
Acerca de los métodos de selección de muestras
Los métodos de selección de muestras son los métodos específicos que se utilizan para seleccionar los registros contenidos en una muestra. ACL posee tres métodos de selección de muestras: intervalo fijo, celda y aleatorio. Cada método de selección se puede utilizar con cualquier registro o muestreo de unidades monetarias.
Nota
Todos los métodos de selección de muestras requieren la entrada de algunas de las variables generadas mediante el cálculo del tamaño de la muestra.
Intervalo fijo
En el muestreo de intervalos fijos, se debe especificar el intervalo de selección que fue generado cuando calculó el tamaño de la muestra y un número de partida aleatorio. El número de partida aleatorio debe ser mayor que cero y menor o igual que el intervalo de selección. Por ejemplo, si usted elige 723 como número de partida aleatorio y 1100 como el intervalo, el elemento número 723 se selecciona para su inclusión en la muestra, seguido por 1823, 2923, 4023 y así sucesivamente.
Si usa muestreo de unidades monetarias, cualquier elemento mayor que el límite de estrato superior se selecciona automáticamente.
Nota
Si tiene previsto evaluar el efecto de los errores en una muestra de unidades monetarias, debe utilizar el muestreo por intervalo fijo para obtener resultados precisos.
Cuando utilice el muestreo por intervalo fijo debe estar consciente de los patrones en los datos. En virtud de que se utiliza un intervalo fijo para la selección de la muestra, se puede seleccionar una muestra que no sea representativa si en los datos hay un patrón que coincide con el intervalo que especificó. Por ejemplo, se hacen muestreos de gastos con un intervalo de $100,000 y los gastos mensuales sometidos a prueba también ascienden a $100,000 aproximadamente. En este caso, es posible que sea seleccionada la misma categoría de gastos para todas las selecciones porque esta categoría aparece en intervalos de cientos de miles de dólares en el archivo. Este tipo de escenario es poco frecuente, pero debe estar consciente del potencial.
Celda
El muestreo por celdas, también denominado por intervalo aleatorios, es un método de selección de intervalos. En el muestreo por celdas se especifica el intervalo de selección que se generó cuando calculó el tamaño de la muestra y una semilla aleatoria. La semilla aleatoria es un número arbitrario utilizado por ACL para generar una serie de números aleatorios que son mayores que cero y menor o igual al tamaño del intervalo. A continuación, se selecciona el elemento representado por este número aleatorio y se repite el proceso para el grupo de elementos o registros en el mismo intervalo. Por ejemplo, si el intervalo es 1000 y la semilla aleatoria es 254, se podría seleccionar el elemento 429 en el primer grupo de 1000 elementos, luego el elemento 1.844 en el segundo grupo, y así sucesivamente.
Nota
Cada semilla única produce una secuencia aleatoria diferente; sin embargo, repetir la misma semilla genera la misma secuencia aleatoria. Por lo tanto, para reproducir la selección de la muestra, debe especificar la misma semilla aleatoria.
La principal ventaja que tiene el muestreo por celda sobre el muestreo por intervalos fijos es que evita automáticamente los problemas relacionados con los patrones en los datos. Una desventaja es que, para el muestreo de unidades monetarias, las entradas seleccionadas en el muestreo por celda podrían no ser tan uniformes como las seleccionadas en el muestreo por intervalo fijo. Esta falta de uniformidad se debe a que un elemento puede abarcar el punto de división entre dos grupos y por lo tanto aparecen en dos grupos diferentes para propósitos del muestreo. Una de las implicaciones de esta falta de uniformidad es que es posible que la misma entrada sea seleccionada dos veces. Además, si usa muestreo de unidades monetarias, aquellos elementos de alto valor que sean menos que límite de estrato superior tienen una probabilidad ligeramente menor de ser seleccionados.
Aleatorios
En el muestreo aleatorio, se debe especificar el número de elementos a seleccionar, una semilla aleatoria y el conjunto de datos, que es el número total de registros a partir de los cuales se selecciona la muestra. ACL utiliza la semilla aleatoria para inicializar un generador de números aleatorios.
Nota
Cada semilla única produce una secuencia aleatoria diferente; sin embargo, repetir la misma semilla genera la misma secuencia aleatoria. Por lo tanto, para reproducir la selección de la muestra, debe especificar la misma semilla aleatoria.
ACL no generará el mismo número aleatorio dos veces. Si se produce más de un número aleatorio con el mismo valor, se descarta y se reemplaza por otro nuevo. Recuerde que en los muestreos de unidad monetaria, el elemento seleccionado está expresado en centavos y no en dólares, por lo que es bastante improbable que se descarte algún número en una muestra de unidad monetaria. El resultado es que en el muestreo por registro no puede seleccionarse dos veces un mismo registro, pero en el muestreo por unidad monetaria, el mismo registro podría seleccionarse más de una vez.
Cuando la lista de selecciones haya sido establecida, ACL selecciona los elementos específicos para su inclusión en la muestra. Por ejemplo, si el conjunto de datos es 1000, el tamaño de la muestra es 5 y la semilla aleatoria es 983, ACL generará los números 244, 261, 339, 874 y 985. Por lo tanto, se seleccionarán estos elementos.
Si utiliza el muestreo aleatorio debe saber que aunque cada elemento tiene las mismas posibilidades de selección, no existe ninguna garantía de que los resultados se distribuyan de forma uniforme. En el ejemplo anterior, hay un faltante entre 339 y 874, lo que significa que no se hicieron selecciones para más de 500 elementos. Un muestreo de intervalo fijo asegurará que ninguna faltante excediera los 200. En el muestreo aleatorio tampoco hay límite de estrato superior. Si el ejemplo fuese con un muestreo de unidad monetaria, podría ocurrir que un elemento representativo de aproximadamente la mitad del archivo no fuera seleccionado por encontrarse en el faltante antes indicado. Como no existe forma de evitar la selección de números "parecidos" en contraposición a "iguales" en los muestreos de unidad monetaria, la misma entrada podría seleccionarse más de una vez, o incluso muchas veces.
Acerca de evaluación de errores de muestreo
La evaluación de errores determina el impacto de los errores de muestreo sobre los datos. Los parámetros utilizados para obtener la muestra y los errores que se encontraron en la muestra se utilizan para calcular el límite superior de errores para el conjunto de datos. Al evaluar los errores de muestreo, ACL utiliza factores acumulativos del límite superior de errores de la distribución de Poisson.
En el muestreo de registro, la frecuencia del límite superior de errores se basa en el número de errores, no en el valor monetario de los errores. El límite superior de errores es la tasa de error máxima que es aceptable en el conjunto de datos sin detección, y se basa en el número de errores y el nivel de confianza especificado. Por ejemplo, si el límite superior de errores es 6,5%, usted puede tener un 90% de certeza de que la tasa total de errores no superará el 6,5%.
ACL utiliza la siguiente fórmula para evaluar los errores de registro:
Upper Error Limit Frequency = Upper Error Limit Cumulative/Sample Size
En el muestreo por unidad monetaria, el límite superior de errores se expresa como una cantidad monetaria y proporciona la cantidad de errores del "peor caso", basándose en el nivel de confianza requerido.
Nota
En el muestreo por unidad monetaria, debe utilizar el intervalo fijo o el método de muestreo por celda para evaluar con precisión los errores. Puede evaluar los errores con cualquier método de muestreo de registros.
Para las muestras de unidades monetarias, el reporte incluye los efectos de cada error y muestra la cantidad de error total más probable y el límite superior de errores expresado como cantidad monetaria. Puede estar seguro de que el total de errores no superará dicha cantidad. Por ejemplo, puede estimar que los errores más probables ascienden a 50.000, pero también puede estar un 95% seguro de que el total de errores no sobrepasará los 288.000.
La fórmula que utiliza ACL para evaluar los errores monetarios se basa en los factores acumulativos del límite superior de errores para la distribución Poisson:
- La precisión básica es la cantidad de errores que usted confía no exceder, si no se reporta ningún error para la muestra. Se determina multiplicando el intervalo de muestreo por el factor de límite superior de errores Poisson para la confianza especificada (suponiendo que no hay ningún error).
- Por cada error introducido, se determina el porcentaje de defectos dividiendo la cantidad de errores por la cantidad de elementos registrados.
- Por cada error introducido, se determina un cálculo del error más probable en el conjunto de datos.
En el caso de los elementos menores que el intervalo de la selección, el error más probable resulta de la multiplicación del porcentaje de defectos por el intervalo utilizado en la selección. El cálculo se basa en el hecho de que no era segura la selección del elemento específico seleccionado y, por lo tanto, es representativo de otros errores en el conjunto de datos.
En el caso de los elementos iguales o superiores al intervalo (por ejemplo, elementos de estrato superior), el error más probable es la cantidad del error. La fórmula anterior no se aplica, porque todos los elementos de estrato superior han sido seleccionados y, por lo tanto, el error no es representativo de otros en el conjunto de datos.
- Al completarse la entrada del error, los errores se ordenan en orden decreciente de acuerdo con la cantidad del error más probable y los elementos de estrato superior y subvalorados ocupan los últimos lugares en la lista.
- Para cada error se calcula un factor de ajuste de precisión.
En el caso de elementos menores que el intervalo de muestreo, el factor de ajuste de precisión es el error más probable multiplicado por el factor acumulativo de límite superior de errores correspondiente a ese número de error en las tablas de Poisson. Este reordenamiento de errores equipara los errores mayores con los factores de ajuste mayores, asegurando la estimación más conservadora, o la más alta, del límite superior de errores.
Para los elementos de estratos superiores, el factor de ajuste de precisión es la cantidad del error. En vista de que se seleccionan todos los elementos de estrato superior, se detectan todos los elementos y errores en este conjunto de datos.
Para los errores de subestimación, el factor de ajuste de precisión es de cero. Esto significa que la estimación del límite superior de errores no se reduce cuando se detectan subvaloraciones, ya que ACL no hace pruebas para este tipo de error directamente en un muestreo monetario.
Nota
Diversas metodologías de evaluación de muestreo utilizan valores de ajuste para los factores de subestimación que van desde cero (como en el caso de ACL) hasta la cantidad del error más probable. Si prefiere utilizar una suposición diferente con respecto a la manera en que se tratarán los errores de subvaloración, puede ajustar fácilmente el detalle para que refleje su reducción en el límite superior de errores. Esto no afecta el cálculo del error más probable, que continúa siendo el mismo a pesar de sus suposiciones con respecto a las subvaloraciones.
- Por último, los errores más probables se agregan a fin de acumular un total de errores más probables para el muestreo de errores indicado. Asimismo, la precisión básica se suma a todos los factores de ajuste de precisión correspondientes a los errores detectados para generar el límite superior de errores de la muestra dentro de la confianza requerida.