Muestreo Aleatorio Estratificado
Estimación de la
media poblacional
Por:
Dr. Luis Antonio Pérez González
Instituto Tecnológico de Orizaba - ipac
Contenido
Selección del
tamaño de la muestra
Tamaño de la
muestra para un Muestreo Estratificado Proporcional o Representativo
Tamaño de la
muestra para un Muestreo Estratificado Óptimo
Tamaño de la
muestra para un Muestreo Estratificado de Costo Mínimo
Consideraciones
prácticas para la determinación del tamaño de la muestra
Asumiremos que la población A se ha partido en k estratos A1, A2, …,Ak, cada uno de los cuales posee la propiedad de que sus unidades presentan sólo una característica, entendiendo por esto que a la unidad h-ésima de Aj le corresponde un solo valor ahj, h=1, …, Nj, j=1,…,k. En otras palabras, el estrato Aj de la población tiene Nj unidades, y los valores de cada unidad son los siguientes:
![]()
valor de la unidad h del j-ésimo estrato
De cada estrato se extrae una muestra irrestricta aleatoria. Si nj es el tamaño de la muestra extraída del estrato Aj, entonces el tamaño total de la muestra puede obtenerse por la relación:
![]()
Sea,
, nj < Nj, la muestra irrestricta
aleatoria extraída del estrato Aj, j=1,…,k. Introduzcamos
las siguientes notaciones:
![]()


Es claro ahora que:
Estamos ahora en condiciones de enunciar el siguiente teorema:
Teorema MAE1. En un muestreo estratificado simple de una población finita se cumple:
a) Un estimador insesgado de la media poblacional es:
(MAE1)
b) La varianza de la media muestral es:
(MAE2)
donde
c) Un estimador insesgado de la varianza de la media muestral es:
(MAE3)
donde 
Demostración. Haremos uso del hecho de que el muestreo estratificado simple de una población finita conduce a efectuar muestreos aleatorios simples sin reemplazo de cada estrato, por lo que a las extracciones que se hacen de cada estrato les son aplicables los teoremas MAS1 al MAS4 del capítulo correspondiente.
a) 
b) 

c) (MAE3) se obtiene sustituyendo, en (MAE2),
por su estimador insesgado
. ■
Tenemos el propósito de estimar, mediante un muestreo
aleatorio estratificado, la media poblacional µ de una población finita A. En
el teorema MAE1 demostramos que
es un estimador insesgado de µ, y
en la expresión (MAE2) del mismo teorema se observa que dicho estimador disminuye
su variación alrededor de µ conforme crecen los tamaños de la muestra en los
estratos. Por lo tanto éste es el estimador que utilizaremos para µ.
Denotemos con e al
error de estimación (error de muestreo o error máximo admisible). e estará en las mismas unidades que
. Declaramos con esto nuestro deseo de que se cumpla el
evento |
|< e. Asignemos un nivel de confianza a dicho evento. Sea 1
– a tal
nivel de confianza. Esto se resume en la siguiente expresión:
![]()
La siguiente es una forma equivalente de la expresión anterior:
(MAE4) 
Cualquiera que sea la distribución de |
|/
y cualquiera que sea a, a e
[0,1], es posible encontrar una cantidad B tal que
(MAE5) 
Confiando -como lo hicimos en el muestreo aleatorio
simple- en el Teorema Central del Límite podemos asumir normalidad de
. En tal caso |
|/
se distribuye N(0,1) por lo que B(a) puede
ser fácilmente calculado. De manera particular, si el nivel de confianza 1 – a es
igual a 0.95, entonces B(a) = 1.95996278740841. Para protegernos
contra un posible alejamiento de la normalidad, utilizaremos, para un nivel de
confianza de 0.95, el valor B(a) = 2.
De las relaciones (MAE4) y (MAE5) resulta que podemos escribir:
Tenemos, así:
(MAE6)
Puesto que tanto a como B(a) son conocidos a partir del error de muestreo y del nivel de confianza aceptados, entonces la expresión (MAE6) puede ser un dato de entrada para el cálculo del tamaño de la muestra. Denotaremos a esta cantidad simplemente con D, es decir:
(MAE7)
Podemos ahora rescribir la expresión (MAE2) como sigue:
(MAE8)
Utilizaremos los conceptos que hasta ahora hemos introducido para establecer el siguiente teorema:
Teorema MAE2. Si
con n denotamos el tamaño de la muestra total en un muestreo estratificado
simple de poblaciones finitas, es decir,
, y si wj es la fracción de
observaciones asignadas al estrato j, es decir,
, entonces, para un nivel de confianza 1 - a y un
error de muestreo e
tiene lugar:
(MAE9)
Demostración. Sustituyendo nj por nwj en (MAE8) encontramos:

Es ahora evidente que despejando n se obtiene la relación
(MAE9). ■
Existen muchos criterios alternativos para establecer wj.
Por ejemplo, puede proponerse
, en cuyo caso estamos frente a lo que se conoce como
Muestreo Estratificado Proporcional o Representativo. Puede utilizarse
, en cuyo caso estamos frente a un muestreo estratíficado óptimo, la optimalidad
entendida en el sentido de que el estimador
merodeará más cerca de µ que cualquier otro estimador.
También se puede recurrir a
. Este último caso se recomienda cuando los diferencias den
los costos de muestreo entre estratos es significativa, y se desea maximizar
información a la vez que se minimiza el costo total de muestreo. Pueden
proponerse otros valores para wj, cuando se trate de compensar mediante la
asignación de tamaños de muestras mayores, a estratos que a la luz de los
objetivos del estudio, presenten mayor interés para el mismo. Las expresiones
para el tamaño de la muestra correspondientes a las tres primeras propuestas
para wj
son las siguientes:
Sustituyendo
en (MAE9) encontramos:
(MAE10)
Sustituyendo
en (MAE9) encontramos:
(MAE11)
Sustituyendo
en (MAE9) encontramos:
(MAE12)
Gracias a la expresión (MAE7), en las tres expresiones
anteriores D puede debe sustituida por
. A su vez B(a) debe sustituirse por 1.95996278740841,
o por 1.96, o definitivamente por 2, para asegurar un nivel de confianza del
95%. La cantidad e
depende del nivel de precisión de muestreo deseado.
En todas la expresiones para
calcular n en un muestreo estratificado para estimar la media poblacional, aparecen
las cantidades
. Estas cantidades son desconocidas e impiden el cálculo de n
si no encontramos un mecanismo para su determinación. Las sugerencias son: a)
utilizar en su lugar las desviaciones estándar muestrales
obtenidas en experimentos previos o en una prueba piloto; b)
investigar sobre el valor máximo esperado y el valor mínimo esperado en cada
estrato, y calcular el rango Rj (la
diferencia entre el máximo y el mínimo) para cada uno de ellos. Del teorema de Tchebysheff y de lo que sabemos sobre la distribución
normal resulta la idea de calcular
mediante la relación:
. c) Ante la ausencia de información sobre
asumir que todas las
desviaciones estándar son iguales a una cantidad s, y consensuar
(por ejemplo, en un panel de especialistas) sobre el valor máximo esperado y el
valor mínimo esperado en toda la población. Calcular luego el rango R de toda la población. Calcular
s mediante la relación
.
En todos los casos, si al calcular la amplitud del intervalo de confianza para el valor estimado de µ (con los datos extraídos de la muestra) se encuentra que ésta es notablemente más amplia que dos veces el error máximo admisible, se procede a recalcular n utilizando los valores sj obtenidos, y a realizar más observaciones hasta completar el nuevo valor de n.