Introducción
Por:
Dr. Luis Antonio Pérez González
Instituto Tecnológico de Orizaba - ipac
Contenido
Población, muestra y espacio muestral
Muestreo aleatorio en poblaciones finitas
Variables aleatorias asociadas a un proceso
de muestreo
La población, sus características de interés y
sus mediciones o valores
Muestreo aleatorio en poblaciones infinitas o
en muestreo con reemplazo
La teoría de la probabilidad y estadística cobra relevancia cuando nos ayuda a descubrir aspectos del mundo que nos rodea; cuando nos ayuda responder preguntas; cuando nos auxilia a evaluar los riesgos de generalizar a partir de un conjunto de observaciones. Esta es la esencia de la práctica de la estadística: hacer afirmaciones probabilísticas sobre las características de un conjunto de elementos con base en la información que podamos obtener sobre una parte de él. Denotemos con W dicho conjunto. En el marco del tema que nos ocupa, dicho conjunto será llamado población. Los elementos de W pueden ser personas u objetos pero serán llamados, para generalizar, unidades.
W
puede ser finito o infinito, es decir, la población puede ser finita o infinita.
Si W es
finito, denotaremos con N al número de unidades en W, es decir:
La cantidad de unidades
de W es
llamada tamaño de la población.
Estudiaremos los aspectos relacionados con la extracción de elementos de W. A este proceso le llamaremos muestreo, y a las unidades extraídas les llamaremos muestra.
Los procesos de muestreo se hacen necesarios en la práctica para conocer aspectos de la población sin tener que estudiar a todas sus unidades. Los censos son caros y algunas veces prácticamente imposibles aún cuando el tamaño de la población sea pequeño. Suponga por ejemplo que desea determinar si los ladrillos para la construcción de una obra poseen la resistencia requerida. Para ver si un ladrillo tiene o no dicha resistencia es necesario someterlo a una prueba destructiva. Si para lograr nuestro propósito tuviésemos que probar todos los ladrillos, nos quedaríamos sin construcción. La recomendación es tomar una muestra de ladrillos, probarlos, y con base en los resultados de estas pruebas inferir si el resto están en condiciones de ser utilizados.
El proceso de extender las propiedades encontradas en una muestra, al resto de la población, es llamado inferencia. Veremos más adelante que las inferencias serán mejores en la medida en que el tamaño de la muestra es mayor, pero que no se requieren muestras demasiado grandes para lograr buenas inferencias.
La característica de la población que pretendemos
investigar puede ser una media, como
cuando tratamos de estimar la resistencia media de los ladrillos, o una proporción, cuando el propósito del
estudio es estimar la proporción de votantes que estarían dispuestos a votar
por determinado partido político en una elección especificada.
Si con n denotamos la cantidad de unidades extraídas de W entonces las muestras son n-adas de elementos de W en donde puede o no importar el orden de extracción, es decir, n unidades de W conforman una muestra importando o no el orden en que hayan aparecido, dependiendo de la aplicación en cuestión.
La cantidad de unidades en la muestra es llamada tamaño de la muestra.
Cuando en el proceso de muestreo el orden de extracción importa, las muestras resultantes son llamadas muestras ordenadas. Cuando el orden de extracción no importa las muestras son llamadas muestras no ordenadas.
Cada posible muestra de n elementos pasa a formar parte de un conjunto llamado espacio muestral. Luego, aceptaremos que el espacio muestral es el conjunto de todas las muestras posibles de tamaño n extraídas de una población W en donde el orden de selección puede o no importar, dependiendo de cada circunstancia, y en donde puede o no haber reemplazo de unidades. Queda claro que si W es finito será también el espacio muestral. Como contraparte, si W es infinito, entonces, cualquiera que se n, el espacio muestral correspondiente será infinito.
Diremos que el muestreo es con reemplazo si una vez que una unidad ha sido seleccionada, ésta se devuelve a W o se le reemplaza por otra igual, de manera que tiene posibilidad de volver a ser elegida en una extracción subsecuente. Si la unidad no es regresada a W ni reemplazada por otro igual, entonces diremos que el muestreo es sin reemplazo.
Denotaremos con Wn al espacio muestral. Luego, podemos escribir, si el muestreo es ordenado sin reemplazo:
(EM1) ![]()
Si el muestreo es ordenado con reemplazo tenemos:
(EM2) ![]()
Para el muestreo no ordenado sin reemplazo tenemos:
(EM3) ![]()
Haremos una explicación breve de los tres espacios muestrales cuya descripción simbólica acabamos de hacer.
En la expresión (EM1) queda claro, con la restricción i¹j,
que ningún par de elementos de la n-ada son iguales, con lo cual se indica que
el muestreo es sin reemplazo. Además no hay nada implícito que impida que si
y
pertenecen a la
n-eada,
, y
ya no tengan derecho a pertenecer a ella. Esto último señala
que aquí sí importa el orden de extracción.
En la expresión (EM2) no existe la restricción i¹j, con
lo que se elimina la restricción de no reemplazo. Además, al igual que en (EM1)
no hay nada implícito que impida que si
y
pertenecen a la n-eada,
, y
no tengan derecho a pertenecer a ella,
implicando con esto que aquí también importa el orden de extracción.
Por último analicemos (EM3). Aquí los elementos de la n-eada deben ser tales que puedan constituirse en un subconjunto de W. Este hecho, por sí mismo, impide tanto la repetición como el orden. Basta con recordar que en un conjunto el orden de los elementos no importa y que no permite que sus elementos se repitan.
Nos ocuparemos sólo de los procesos de muestreo aleatorio.
Definición EM1. En el caso de poblaciones finitas un muestreo aleatorio es aquel en el que, sin importar el tipo de muestreo (con o sin reemplazo, ordenado o no ordenado), todas las posibles muestras tienen la misma posibilidad de ser elegidas. En otras palabras, un muestreo de poblaciones finitas es aleatorio si
■
Distinguiremos así al muestreo aleatorio de otros como el muestreo sistemático o el llamado muestreo representativo en los que se dictan reglas para decidir, en cada posible extracción, si al elemento se le hace o no pertenecer a la muestra.
Trataremos sólo con poblaciones W, finitas o infinitas, cuyas unidades presentan sólo una característica: tamaño, volumen, sexo, edad, ocupación, etc. Denotemos dicha característica con X. Entonces, en cada extracción, X se puede definir como una aplicación que va de un conjunto W (tamaños, volúmenes, duraciones, sexos, edades, etc.) hacia un subconjunto A de los reales. Por ejemplo, en los caso de los tamaños, volúmenes y duraciones el conjunto A de valores puede ser {x|x>0}; cuando la característica es el sexo el conjunto A de valores puede ser {0,1}; si nos referimos a edades podemos tener A = {x|x es entero positivo}, etc. Podemos así decir que Xi es la variable aleatoria definida sobre un espacio muestral W con valores en un subconjunto A de los números reales, de tal forma que en la i-ésima extracción le asigna, al elemento de w de W que se observó, un elemento ai de A. Si A es un conjunto discreto, como en el caso del sexo, o en el de las edades, diremos que estamos frente a un muestreo en espacios discretos, y las variables aleatorias correspondientes son variables aleatorias son discretas. Cuando las variables toman valores en A={x|x>0}, o en A={x|a<x<b}, nos situaremos frente a un muestreo en espacios continuos, y estaremos hablando de variables aleatorias continuas.
Para ilustrar esto, suponga que W es la población de los
trabajadores de una empresa, y que la característica de interés es el sexo. Entonces,
en cada extracción hay en total dos resultados posibles: hombre y mujer.
Suponga que introducimos una variable que toma el valor 1 cuando la persona
extraída es mujer, y 0 en caso contrario. Entonces, en cada extracción estamos
tratando con una variable aleatoria
, 1 ≤ i
≤ n, donde W
puede estar constituida de Pedro, María, Juana, y Alberto. Si en una muestra de
tamaño 2 los elementos extraídos fueran Alberto y María, tendríamos X1=0 y X2=1 (ya que X(Alberto)=0 y X(María)
= 1) . Si las extracciones hubiesen resultado en Pedro y Alberto hubiésemos
tenido X1=0 y X2=0. Si el muestreo hubiese sido
con reemplazo y Pedro hubiese sido extraído en las dos ocasiones, tendríamos X1=0 y X2=0.
Tenemos así, como resultado del proceso de muestreo, una secuencia de variables aleatorias X1, X2, …, Xn que pueden ser discretas o continuas, y dependientes o independientes.
Cuando el muestreo es sin reemplazo, las variables aleatorias X1, X2, …, Xn no son independientes. En efecto, en tal caso el valor que tome, por ejemplo, X2, dependerá probabilísticamente del valor que haya tomado X1. Ilustremos esto con el mismo ejemplo trivial de la población finita de tamaño 4 del párrafo anterior. En dicha población la probabilidad de que sea Pedro el elegido en la primera extracción es ¼. Pero la probabilidad de que sea Pedro elegido en la segunda extracción dependerá del resultado de la primera extracción. Si en la Primera fue Pedro el elegido, al ser el muestreo sin reemplazo la probabilidad de que sea vuelto a elegir en la segunda es cero; en caso contrario, la probabilidad de que sea elegido en la segunda es un tercio, porque una vez realizada la primera extracción sólo quedan tres opciones para ser elegido en la segunda.
En lo que sigue utilizaremos de manera indistinta el
término muestra, para referirnos tanto a las n unidades que resultan del
muestreo, como a la secuencia de variables aleatorias X1, X2, …, Xn
que resultan de dicho proceso de muestreo, y que como dijimos en la
introducción, representan los tamaños, volúmenes, duraciones, sexos, edades,
etc. observados o medidos en las n unidades muestreadas. Asimismo recurriremos
de manera indistinta al término población y al símbolo W tanto para referirnos al
conjunto de todas las unidades de interés, como para apuntar a las mediciones o
valores
de cada una de esas
unidades. Esto último equivale a aceptar como válida la siguiente notación:
.
Cuando la población es infinita se hace inoperante la definición que dimos para muestra aleatoria en poblaciones finitas. Aceptaremos, para este caso, la siguiente definición:
Definición EM2.
Decimos que las variables aleatorias X1, X2,
…, Xn constituyen una
muestra aleatoria de la población W si a)
están asociadas a los valores que presentan las unidades extraídas de W y b)
son independientes idénticamente distribuidas. ■
Esta definición es
válida tanto para poblaciones infinitas, como para poblaciones finitas en
muestreos con reemplazo. Es claro que, en este último caso, las definiciones
EM1 y EM2 coinciden. Esto se refleja en la siguiente proposición.
Proposición EM1. Una secuencia de variables aleatorias X1, X2, …, Xn independientes e idénticamente distribuidas constituye una muestra aleatoria de la población finita W si y sólo si el proceso de muestreo es con reemplazo.
Demostración. Para
que sean independientes las X1,
X2, …, Xn siendo
se requiere que
![]()
Si la unidad es reemplazada, la anterior relación tiene
lugar, pero si no es reemplazada, entonces
cuando
■
Observación. Para efectos de determinar cualquier propiedad estadística de una muestra aleatoria, la definición EM2 puede
simplificarse diciendo:
“La secuencia de variables aleatorias X1,
X2, …, Xn constituye una muestra
aleatoria, si estas variables son independientes e idénticamente distribuidas.” ■
Se acostumbra
utilizar la notación iid para abreviar “independientes
e idénticamente distribuidas”.
Suponga de nuevo que W es la población de los trabajadores de una empresa, y que la característica de interés es el sexo. Extraigamos de W una muestra de tamaño n. Retomemos la convención de registrar un 1 cuando la persona extraída es mujer, y 0 en caso contrario. Supongamos que para conocer la cantidad la proporción de mujeres calculamos la cantidad de mujeres y la proporción de mujeres en la muestra. Los resultados de ambas operaciones dependen o están en función de las variables aleatorias X1, X2, …, Xn que representan a los valores muestrales. Suponga ahora que la característica de interés de la población es la edad, y que nos interesa conocer la edad de la persona más joven. De nuevo, el resultado de la operación depende o está en función de las variables aleatorias X1, X2, …, Xn que representan a los valores muestrales. En otras palabras, siempre que realizamos un muestreo, calculamos cantidades de interés con base en las variables aleatorias X1, X2, …, Xn. Para hacer referencia a estas cantidades de manera única introducimos la siguiente definición.
Definición EM3.
Sea X1, X2, …, Xn, una muestra aleatoria
extraída de una determinada población W. Sea gn
= gn(X1, X2, …, Xn)
una función de X1, X2, …, Xn. La variable aleatoria gn porta el nombre de estadístico. ■
En otras palabras, un estadístico es cualquier función de
las variables aleatorias X1,
X2, …, Xn, que resultan de un proceso de
muestreo, que no tiene ningún parámetro desconocido, es decir, que depende sólo
de las variables X1,
X2, …, Xn.
De entre los estadísticos destacan de manera especial
dos, uno por ser una medida de la tendencia central de los datos, observaciones
o mediciones, y otro por reflejar la dispersión de los mismos. La siguiente
definición se ocupa de estos dos estadísticos.
Definición EM4. Sea X1, X2, …, Xn, una muestra aleatoria extraída de una determinada población. (Es claro que si W es finita de tamaño N, y si el muestreo es sin reemplazo, entonces n < N). Consideremos las notaciones siguientes:
![]()
En las anteriores notaciones
y s2
serán llamadas, respectivamente, media
muestral (o promedio) y varianza muestral. s será llamada desviación estándar muestral. ■
La media y la varianza muestrales son casos particulares de los así llamados momentos muestrales cuya definición damos a continuación:
Definición EM5. Sea X1, X2, …, Xn, una muestra aleatoria extraída de una determinada población W. Llamaremos momento de muestreo de orden r al estadístico
■
Definición EM6. Sea X1, X2, …, Xn, una muestra aleatoria extraída de una determinada población W. Llamaremos momento de muestreo centrado de orden r al estadístico
■
Observación.
y
. ■