Muestreo de Poblaciones Finitas
Por:
Dr. Luis Antonio Pérez González
Instituto Tecnológico de Orizaba - ipac
Contenido
Concepto de Muestreo Aleatorio Simple
Estimación de medias en un Muestreo Aleatorio
Simple
Selección del tamaño de la muestra
Consideraciones prácticas para la
determinación del tamaño de la muestra
Selección del tamaño de la muestra
Consideraciones prácticas para la
determinación del tamaño de la muestra
Proposición EM1.
El cardinal del espacio muestral
n
asociado a un muestreo ordenado sin reemplazo de una población finita
de tamaño N, con
muestras de tamaño n, está dado por
(EM4) ![]()
donde
.
Demostración.
De la población
se extraen n unidades
diferentes (porque al ser el muestreo sin reemplazo, una unidad una vez que se
extrajo ya no puede volver a aparecer en la muestra) en donde sí importa el
orden. De aquí resulta:
![]()
Una primera unidad de la n-ada
puede ser elegida de N formas distintas. Puesto que no hay
reemplazo, la segunda unidad pude ser elegida de (N-1) formas, es decir,
tenemos N(N-1) maneras distintas de seleccionar las dos primeras unidades.
Continuando con esta lógica calculamos N(N-1)(N-2) formas distintas de
seleccionar las primeras 3 unidades de una eneada ordenada. Al llegar al
n-ésimo elemento habremos navegado entre N(N-1)(N-2)…(N-n+1) maneras distintas
de seleccionar las n unidades en donde el orden de extracción es importante. Por
consiguiente:
![]()
![]()
■
Proposición EM2.
El cardinal del espacio muestral
n
asociado a un muestreo ordenado con reemplazo de una población finita
de tamaño N, con
muestras de tamaño n, está dado por
(EM5) ![]()
Demostración.
De la población
se extraen n unidades
no necesariamente diferentes (porque al ser el muestreo con reemplazo, una
unidad una vez que se extrajo tiene oportunidad de volver a aparecer en la
muestra) en donde sí importa el orden. De aquí resulta:
![]()
Una primera unidad de la n-ada
puede ser elegida de N formas distintas. Puesto que hay
reemplazo, la segunda unidad pude ser elegida de nuevo de N formas, es decir,
tenemos N2 maneras
distintas de seleccionar las dos primeras unidades. Continuando con esta lógica
calculamos N3 formas
distintas de seleccionar las primeras 3 unidades de una eneada ordenada. Al
llegar al n-ésimo elemento habremos navegado entre Nn maneras distintas de
seleccionar las n unidades asumiendo reemplazo. ■
Proposición EM3.
El cardinal del espacio muestral
n asociado
a un muestreo no ordenado sin reemplazo de una población finita
de tamaño N, con
muestras de tamaño n, está dado por
(EM6) ![]()
Demostración. De
la población
se extraen n unidades
diferentes (porque al ser el muestreo
sin reemplazo, una unidad una vez que se extrajo ya no puede volver a
aparecer en la muestra) en donde no importa el orden. De aquí resulta que el
espacio muestral
consiste de todos los
subconjuntos de
con n unidades, es
decir:
![]()
Los elementos de Wn son n-adas de unidades de
en donde no importa
el orden de selección, es decir, n unidades de
conforman una n-ada
sin importar el orden en que hayan aparecido. Con los n unidades de cualquier
podemos formar n! n-adas
en las que sí importa el orden. Luego, al multiplicar n! por el cardinal de Wn (i.e.
) obtenemos el total de n-adas extraídas de
en donde sí importa el orden de extracción. Dicho total, de
acuerdo a la proposición EM1 es
. Podemos entonces establecer la relación
. Despejando
obtenemos:
■
Definición EM2.
El muestreo aleatorio simple
(también llamado muestreo irrestricto aleatorio)
es un método de muestreo no ordenado de una población finita, en donde cada una
de las
muestras distintas de tamaño n tiene la misma oportunidad de
ser elegida. Una muestra obtenida mediante este proceso es llamada muestra irrestricta aleatoria. ■
Una pregunta normal que nos hacemos es cómo asegurar en
la práctica que una muestra que seleccionemos es aleatoria, es decir, como
podemos garantizar que todas las
posibles muestras de
tamaño n tienen la misma probabilidad de ser elegidas. Primero veamos dos que
no lo son. La primera es aquella en la que recurrimos a nuestro criterio para
seleccionar “aleatoriamente” a las unidades de la muestra. Una segunda es que
seleccionemos una muestra que, de acuerdo a nuestra experiencia, es
“representativa”. En ambos casos habremos introducido un sesgo. En ninguno
habremos obtenido realmente una muestra aleatoria.
Una muestra aleatoria la podríamos obtener si a cada unidad de la población le asignáramos una etiqueta distinta antes de depositarla en una urna. La muestra irrestricta aleatoria se obtendría al revolver las etiquetas y seleccionar, posteriormente, una a una, con o sin reemplazo (según sea el caso), las etiquetas de las unidades que pasarían a formar parte de la muestra. Puesto que este método puede ser impráctico, sobre todo si la población es muy grande, lo que se recomienda es apoyarse en números pseudoaleatorios, generados en una computadora. Explicaremos a continuación este proceso en el caso de muestreo sin reemplazo. Con apoyo de un paquete de cómputo estadístico o de una hoja de cálculo, se crean dos columnas, una para las etiqueta de las unidades de la población, y otra para asociar a cada etiqueta un número aleatoriamente seleccionado entre 0 y 1. Se ordenan luego las dos columnas, tomando como referencia para el ordenamiento, a los números pseudoaleatorios. Las unidades correspondientes a las primeras n etiquetas son las que pasan a formar parte de la muestra.
Proposición EM3.
Sea X1, X2, …, Xn, n < N, una muestra
aleatoria simple extraída de la población finita
. Entonces:
(EM82)
Demostración. Tenemos, claramente, para h=1,…,N:
Por otra parte, para i=2,…,n, h=1,…,N:

Puesto que el muestreo es sin reemplazo, el primer término de la suma se anula. Calcularemos de manera independiente las probabilidades de los dos factores del segundo término. Tenemos, , para i=2,…,n, h=1,…,N:
Por otra parte:
![]()
![]()
Ahora podemos escribir, para i=2,…,n, h=1,…,N:
■
Teorema EM1.
Sea X1, X2, …, Xn, n < N, una muestra
aleatoria simple extraída de la población finita
. Entonces:
(EM7) ![]()
Demostración. Aplicando la definición de media y varianza poblacionales, encontramos que para todo i, i=1,…,n:
![]()
■
Definición EM3. En lo que sigue denotaremos a la media poblacional con µ y a la varianza poblacional con s2. La desviación estándar poblacional será denotada con s. Tenemos así, cuando la población es finita de tamaño N:
■
Teorema EM2. En un muestreo aleatorio simple con una sóla característica, de una población finita la media aritmética muestral es un estimador insesgado (no desplazado) de la media poblacional µ, es decir:
![]()
Demostración. Tenemos:
■
Teorema EM3. En un muestreo aleatorio simple con una sola característica, de una población finita de tamaño N, la varianza de la media aritmética muestral admite la expresión:
![]()
Demostración. Tenemos:
(EM9)
Por otra parte:
(EM10)
Pero
(EM11)
Sustituyendo este resultado en (EM10) obtenemos:


Regresando a (EM9) deducimos que:

■
Corolario: Si
![]()
entonces
(EM12)
Demostración. Tenemos:
![]()
■
Teorema EM4. Se cumplen las siguientes tres propiedades:
(EM13) 
La primera de estas expresiones nos dice que la varianza
muestral sobreestima ligeramente a la varianza poblacional, y que dicha
sobreestimación desaparece conforme el tamaño de la población aumenta. La
segunda nos dice que si bien la varianza muestral no es un estimador insesgado
de la varianza poblacional, sí lo es de
. La tercera expresión nos dice cómo construir, a partir de
la varianza muestral, un estimador insesgado para la varianza de la media
muestral. Nos dice también que cuando la población es muy grande con respecto
al tamaño de la muestra, s2/n
tiende a ser un estimador insesgado de la varianza de
Demostración. Tenemos:
![]()
![]()

Con esto queda probada la primera de las relaciones. La segunda relación resulta inmediata si observamos que:
![]()
La tercera y última expresión se hace evidente como sigue:
■
En nuestro propósito de estimar la media poblacional µ es
que hemos supuesto la extracción de la muestra aleatoria simple X2, …, Xn. Pero esta muestra lo que nos
produce es
, y
no es µ. Nos gustaría que fuera µ, pero lo más que podemos
exigir es que no se aleje mucho de ella. Aceptaremos por consiguiente un error
de estimación. Denotemos con e a
dicho error, al cual llamaremos error de
muestreo o error máximo admisible.
e estará
en las mismas unidades que
Declaramos con esto nuestro deseo de que se cumpla el evento
|
|< e.
Asignemos un nivel de confianza a
dicho evento, es decir, asignemos la probabilidad con que deseamos se cumpla el
evento |
|< e.
Sea 1 – a tal
nivel de confianza. Esto se resume en la siguiente expresión:
(EM14) ![]()
La siguiente es una forma equivalente de la expresión anterior:
(EM15)
Cualquiera que sea la distribución de |
|/
y cualquiera que sea a, a
e
[0,1], es posible encontrar una cantidad B tal que
(EM16)
De las relaciones (EM15) y (EM16) resulta que podemos escribir:
(EM17)
De aquí resulta:
(EM18)
Traigamos ahora del corolario del teorema EM3 la expresión:
(EM19)
Estamos ahora en condiciones de probar el siguiente teorema:
Teorema EM5. Si con n denotamos el tamaño de la muestra en un muestreo simple de poblaciones finitas, entonces, para un nivel de confianza 1 - a y un error de muestreo e tiene lugar:
(EM20)
Demostración. Partiendo de la relación (EM19) encontramos:
![]()
Luego:

Es ahora evidente que despejando n y sustituyendo
por su valor en la
expresión (EM18), se obtiene la relación (EM20). ■
Por razones que nos parecerán obvias cuando revisemos el
teorema central del límite, se puede asumir normalidad en la distribución de |
|/
. Bajo este supuesto, para un nivel de confianza del 95% se
puede utilizar un valor B(a)
igual a 1.95996278740841. En vez de esto se acostumbra utilizar B(a) = 1.96,
o definitivamente B(a) = 2,
para mantener el nivel de confianza del 95% aún frente al posible no
cumplimiento del supuesto de normalidad.
La cantidad e, por su parte, depende del nivel de precisión de muestreo deseado. Cuanto más pequeño sea, más grande será la precisión, y más grande también será el tamaño de muestra resultante.
En (EM20) aparece la cantidad
. Esta cantidad es desconocida e impide el cálculo de n si no
encontramos un mecanismo para su determinación. Las sugerencias son: a)
utilizar en su lugar la desviación estándar muestral
obtenida en experimentos previos o en una prueba piloto; b) investigar
sobre el valor máximo esperado y el valor mínimo esperado en cada estrato, y
calcular el rango R (la
diferencia entre el máximo y el mínimo). Del teorema de Tchebysheff y de lo que
sabemos sobre la distribución normal resulta la idea de calcular
mediante la relación:
. c) Ante la ausencia de información sobre
consensuar (por
ejemplo, en un panel de especialistas) sobre el valor máximo esperado y el
valor mínimo esperado en la población. Calcular luego el rango R. Calcular s
mediante la relación
.
Sea
una población
cuyas unidades presentan sólo una característica de tipo binario, entendiendo
por esto que a la unidad h-ésima de W
le corresponde un solo valor ah
e
{0,1}, h=1, ..., N. Las características de tipo binario se presentan en
muchísimas situaciones prácticas: se tiene o no un bien determinado; se vota o
no por un partido político determinado; un producto es bueno o defectuoso; una
empresa ahorra o no energía; una empresa mantiene o abandonó un conjunto de
medidas que implementó para ahorrar energía;
etc.
Observación. Al desarrollar los conceptos relativos a la estimación de una media, no impusimos a ah el que tomaran algún conjunto específico de valores. Por otra parte, al estimar proporciones estamos exigiendo ah e {0,1}. Luego, la estimación de proporciones es una particularización del caso antes estudiado y, por consiguiente, todas las afirmaciones que hicimos para determinar el tamaño de la muestrea al estimar las medias, aplican al presente caso. Por lo tanto podemos aplicar directamente la expresión (EM20) para estimar el tamaño de la muestra en el caso que ahora nos ocupa. Sin embargo, antes de proceder a esto destacaremos algunas consecuencias de la particularización que estamos abordando para sacar provecho de ella.
Sea X1,
X2, …, Xn, n < N, una muestra
aleatoria simple sin reemplazo extraída de
. Consideremos las notaciones siguientes:
(EM21) ![]()
(EM22) ![]()
En las anteriores notaciones p y s2 representan la media y las varianzas poblacionales,
respectivamente, mientras que
y s2 representan a la media y
varianza muestrales.
Teorema EM5. El parámetro p representa la proporción de unidades en la población a las que les corresponde el valor 1.
Demostración.
En efecto,
es igual al número de
unos en la población, y al dividir sobre N esta sumatoria, obtenemos a la
proporción de unos en la misma población. ■
Teorema EM6. s2 = p(1-p)
Demostración.
![]()
■
Los siguientes teoremas (teoremas EM7 al EM10), no serán demostrados, ya que, como hemos afirmado líneas arriba, son casos particulares de los teoremas EM1 al EM4 que enunciamos al hablar del muestreo aleatorio simple para la estimación de medias.
Teorema EM7. Sea X1, X2, …, Xn, n < N, una muestra aleatoria simple sin reemplazo extraída de la población finita binaria W. Sea p la proporción de unidades en la población a las que les corresponde el valor 1. Entonces:
(EM23) ![]()
Corolario. Si X1, X2, …, Xn, n < N, es una muestra aleatoria simple sin reemplazo extraída de la población finita binaria W, entonces
![]()
Teorema EM8.
es un estimador
insesgado (no desplazado) de la media poblacional p, es decir:
(EM24)
Teorema EM9.
(EM25)
Corolario: Si
(EM26) ![]()
entonces
(EM27) ![]()
Teorema EM10. Se cumplen las siguientes tres propiedades:
(EM28) 
Corolario:
(EM29) ![]()
(EM30) ![]()
Demostración. (EM29) es una relación obvia. Probaremos (EM30). Con este propósito
partiremos de (EM22):
![]()

■
Tenemos el propósito de estimar, mediante un muestreo
aleatorio simple sin reemplazo, la proporción p de veces en que aparece el
valor 1 en una población finita binaria A. En el teorema EM8 declaramos que
es un estimador insesgado de p, y del teorema EM9 se
desprende que dicho estimador disminuye su variación alrededor de p conforme
crecen los tamaños de la muestra en los estratos.
Si particularizamos el teorema EM5 a esta situación podemos enunciar:
Teorema EM11.
Sea n el tamaño de la muestra en un muestreo simple sin reemplazo de
poblaciones finitas. Sea p la proporción de unidades en la población a las que
les corresponde el valor 1. Sea
la proporción de
veces en que aparece el valor 1 en la muestra. Entonces, para un nivel de
confianza 1 - a y un
error de muestreo e
tiene lugar:
(EM31) 
Demostración.
Partiremos de la expresión (EM20) y para luego sustituir
por su equivalente de acuerdo a la expresión (EM29):
Multiplicando
numerador y denominador por (N-1)/N encontramos (EM31). ■
En la expresión (EM31) B(a) debe sustituirse por 1.95996278740841, o por 1.96, o
definitivamente por 2, para obtener un nivel de confianza del 95%. Esto, como
dijimos en el caso general que presentamos para estimar medias, asume
normalidad del estadístico |
|/
= |
|/
.
La cantidad e, por su parte, depende del nivel de precisión de muestreo deseado. Se recomienda e = 0.05, o valores menores si la precisión es un factor fundamental por la trascendencia de la decisión a tomar con base en el estudio.
En (EM31) aparece la cantidad
. Esta cantidad es desconocida ya que de hecho es el
propósito mismo del muestreo. Las sugerencias para resolver este viaje en
círculo son: a) utilizar en su lugar un estimador obtenido en experimentos
previos o en una prueba piloto; y b) Ante la ausencia de información sobre
utilizar el valor 0.5
que produce el máximo valor de
asegurando con ello
un error de muestreo menor o igual al establecido para el estudio.