Elementos de Muestreo

Introducción

Por:

Dr. Luis Antonio Pérez González

Instituto Tecnológico de Orizaba - ipac

lperez@ipac.com.mx

 

Contenido

 

Población, muestra y espacio muestral 1

Diferentes tipos de muestreo. 3

Muestreo aleatorio en poblaciones finitas. 4

Variables aleatorias asociadas a un proceso de muestreo. 4

La población, sus características de interés y sus mediciones o valores. 5

Muestreo aleatorio en poblaciones infinitas o en muestreo con reemplazo. 5

Estadísticos. 6

Media y varianza muestrales. 7

Momentos muestrales. 7

 

Población, muestra y espacio muestral

La teoría de la probabilidad y estadística cobra relevancia cuando nos ayuda a descubrir aspectos del mundo que nos rodea; cuando nos ayuda responder preguntas; cuando nos auxilia a evaluar los riesgos de generalizar a partir de un conjunto de observaciones. Esta es la esencia de la práctica de la estadística: hacer afirmaciones probabilísticas sobre las características de un conjunto de elementos con base en la información que podamos obtener sobre una parte de él. Denotemos con W dicho conjunto. En el marco del tema que nos ocupa, dicho conjunto será llamado población. Los elementos de W pueden ser personas u objetos pero serán llamados, para generalizar, unidades.

W puede ser finito o infinito, es decir, la población puede ser finita o infinita. Si W es finito, denotaremos con N al número de unidades en W, es decir:  La cantidad de unidades de W es llamada tamaño de la población.

Estudiaremos los aspectos relacionados con la extracción de elementos de W. A este proceso le llamaremos muestreo, y a las unidades extraídas les llamaremos muestra.

Los procesos de muestreo se hacen necesarios en la práctica para conocer aspectos de la población sin tener que estudiar a todas sus unidades. Los censos son caros y algunas veces prácticamente imposibles aún cuando el tamaño de la población sea pequeño. Suponga por ejemplo que desea determinar si los ladrillos para la construcción de una obra poseen la resistencia requerida. Para ver si un ladrillo tiene o no dicha resistencia es necesario someterlo a una prueba destructiva. Si para lograr nuestro propósito tuviésemos que probar todos los ladrillos, nos quedaríamos sin construcción. La recomendación es tomar una muestra de ladrillos, probarlos, y con base en los resultados de estas pruebas inferir si el resto están en condiciones de ser utilizados.

El proceso de extender las propiedades encontradas en una muestra, al resto de la población, es llamado inferencia. Veremos más adelante que las inferencias serán mejores en la medida en que el tamaño de la muestra es mayor, pero que no se requieren muestras demasiado grandes para lograr buenas inferencias.

La característica de la población que pretendemos investigar puede ser una media, como cuando tratamos de estimar la resistencia media de los ladrillos, o una proporción, cuando el propósito del estudio es estimar la proporción de votantes que estarían dispuestos a votar por determinado partido político en una elección especificada.

Si con n denotamos la cantidad de unidades extraídas de W entonces las muestras son n-adas de elementos de W en donde puede o no importar el orden de extracción, es decir, n unidades de W conforman una muestra importando o no el orden en que hayan aparecido, dependiendo de la aplicación en cuestión.

La cantidad de unidades en la muestra es llamada tamaño de la muestra.

Cuando en el proceso de muestreo el orden de extracción importa, las muestras resultantes son llamadas muestras ordenadas. Cuando el orden de extracción no importa las muestras son llamadas muestras no ordenadas.

Cada posible muestra de n elementos pasa a formar parte de un conjunto llamado espacio muestral. Luego, aceptaremos que el espacio muestral es el conjunto de todas las muestras posibles de tamaño n extraídas de una población W en donde el orden de selección puede o no importar, dependiendo de cada circunstancia, y en donde puede o no haber reemplazo de unidades. Queda claro que si W es finito será también el espacio muestral. Como contraparte, si W es infinito, entonces, cualquiera que se n, el espacio muestral correspondiente será infinito.

Diferentes tipos de muestreo

Diremos que el muestreo es con reemplazo si una vez que una unidad ha sido seleccionada, ésta se devuelve a W o se le reemplaza por otra igual, de manera que tiene posibilidad de volver a ser elegida en una extracción subsecuente. Si la unidad no es regresada a W ni reemplazada por otro igual, entonces diremos que el muestreo es sin reemplazo.

Denotaremos con Wn al espacio muestral. Luego, podemos escribir, si el muestreo es ordenado sin reemplazo:

(EM1)             

Si el muestreo es ordenado con reemplazo tenemos:

(EM2)             

Para el muestreo no ordenado sin reemplazo tenemos:

(EM3)             

Haremos una explicación breve de los tres espacios muestrales cuya descripción simbólica acabamos de hacer.

En la expresión (EM1) queda claro, con la restricción i¹j, que ningún par de elementos de la n-ada son iguales, con lo cual se indica que el muestreo es sin reemplazo. Además no hay nada implícito que impida que si  y  pertenecen a la n-eada, , y ya no tengan derecho a pertenecer a ella. Esto último señala que aquí sí importa el orden de extracción.

En la expresión (EM2) no existe la restricción i¹j, con lo que se elimina la restricción de no reemplazo. Además, al igual que en (EM1) no hay nada implícito que impida que si   y   pertenecen a la n-eada, , y   no tengan derecho a pertenecer a ella, implicando con esto que aquí también importa el orden de extracción.

Por último analicemos (EM3). Aquí los elementos de la n-eada deben ser tales que puedan constituirse en un subconjunto de W. Este hecho, por sí mismo, impide tanto la repetición como el orden. Basta con recordar que en un conjunto el orden de los elementos no importa y que no permite que sus elementos se repitan.

Muestreo aleatorio en poblaciones finitas

Nos ocuparemos sólo de los procesos de muestreo aleatorio.

Definición EM1. En el caso de poblaciones finitas un muestreo aleatorio es aquel en el que, sin importar el tipo de muestreo (con o sin reemplazo, ordenado o no ordenado), todas las posibles muestras tienen la misma posibilidad de ser elegidas. En otras palabras, un muestreo de poblaciones finitas es aleatorio si

                                   

Distinguiremos así al muestreo aleatorio de otros como el muestreo sistemático o el llamado muestreo representativo en los que se dictan reglas para decidir, en cada posible extracción, si al elemento se le hace o no  pertenecer a la muestra.

Variables aleatorias asociadas a un proceso de muestreo

Trataremos sólo con poblaciones W, finitas o infinitas, cuyas unidades presentan sólo una característica: tamaño, volumen, sexo, edad, ocupación, etc. Denotemos dicha característica con X. Entonces, en cada extracción, X se puede definir como una aplicación que va de un conjunto W (tamaños, volúmenes, duraciones, sexos, edades, etc.) hacia un subconjunto A de los reales. Por ejemplo, en los caso de los tamaños, volúmenes y duraciones el conjunto A de valores puede ser {x|x>0}; cuando la característica es el sexo el conjunto A de valores puede ser {0,1}; si nos referimos a edades podemos tener A = {x|x es entero positivo}, etc. Podemos así decir que Xi es la variable aleatoria definida sobre un espacio muestral W con valores en un subconjunto A de los números reales, de tal forma que en la i-ésima extracción le asigna, al elemento de w de W que se observó, un elemento ai de A. Si A es un conjunto discreto, como en el caso del sexo, o en el de las edades, diremos que estamos frente a un muestreo en espacios discretos, y las variables aleatorias correspondientes son variables aleatorias son discretas. Cuando las variables toman valores en A={x|x>0}, o en A={x|a<x<b}, nos situaremos frente a un muestreo en espacios continuos, y estaremos hablando de variables aleatorias continuas.

Para ilustrar esto, suponga que W es la población de los trabajadores de una empresa, y que la característica de interés es el sexo. Entonces, en cada extracción hay en total dos resultados posibles: hombre y mujer. Suponga que introducimos una variable que toma el valor 1 cuando la persona extraída es mujer, y 0 en caso contrario. Entonces, en cada extracción estamos tratando con una variable aleatoria , 1 i ≤ n, donde W puede estar constituida de Pedro, María, Juana, y Alberto. Si en una muestra de tamaño 2 los elementos extraídos fueran Alberto y María, tendríamos X1=0 y X2=1 (ya que X(Alberto)=0 y X(María) = 1) . Si las extracciones hubiesen resultado en Pedro y Alberto hubiésemos tenido X1=0 y X2=0. Si el muestreo hubiese sido con reemplazo y Pedro hubiese sido extraído en las dos ocasiones, tendríamos X1=0 y X2=0.

Tenemos así, como resultado del proceso de muestreo, una secuencia de variables aleatorias X1, X2, …, Xn  que pueden ser discretas o continuas, y dependientes o independientes.

Cuando el muestreo es sin reemplazo, las variables aleatorias X1, X2, …, Xn no son independientes. En efecto, en tal caso el valor que tome, por ejemplo, X2, dependerá probabilísticamente del valor que haya tomado X1. Ilustremos esto con el mismo ejemplo trivial de la población finita de tamaño 4 del párrafo anterior. En dicha población la probabilidad de que sea Pedro el elegido en la primera extracción es ¼. Pero la probabilidad de que sea Pedro elegido en la segunda extracción dependerá del resultado de la primera extracción. Si en la Primera fue Pedro el elegido, al ser el muestreo sin reemplazo la probabilidad de que sea vuelto a elegir en la segunda es cero; en caso contrario, la probabilidad de que sea elegido en la segunda es un tercio, porque una vez realizada la primera extracción sólo quedan tres opciones para ser elegido en la segunda.

La población, sus características de interés y sus mediciones o valores

En lo que sigue utilizaremos de manera indistinta el término muestra, para referirnos tanto a las n unidades que resultan del muestreo, como a la secuencia de variables aleatorias X1, X2, …, Xn que resultan de dicho proceso de muestreo, y que como dijimos en la introducción, representan los tamaños, volúmenes, duraciones, sexos, edades, etc. observados o medidos en las n unidades muestreadas. Asimismo recurriremos de manera indistinta al término población y al símbolo W tanto para referirnos al conjunto de todas las unidades de interés, como para apuntar a las mediciones o valores  de cada una de esas unidades. Esto último equivale a aceptar como válida la siguiente notación: .

Muestreo aleatorio en poblaciones infinitas o en muestreo con reemplazo

Cuando la población es infinita se hace inoperante la definición que dimos para muestra aleatoria en poblaciones finitas. Aceptaremos, para este caso, la siguiente definición:

Definición EM2. Decimos que las variables aleatorias X1, X2, …, Xn constituyen una muestra aleatoria de la población W si a) están asociadas a los valores que presentan las unidades extraídas de W y b) son independientes idénticamente distribuidas.   

Esta definición es válida tanto para poblaciones infinitas, como para poblaciones finitas en muestreos con reemplazo. Es claro que, en este último caso, las definiciones EM1 y EM2 coinciden. Esto se refleja en la siguiente proposición.

Proposición EM1. Una secuencia de variables aleatorias X1, X2, …, Xn independientes e idénticamente distribuidas constituye una muestra aleatoria de la población finita W si y sólo si el proceso de muestreo es con reemplazo.

Demostración. Para que sean independientes las X1, X2, …, Xn siendo  se requiere que

           

Si la unidad es reemplazada, la anterior relación tiene lugar, pero si no es reemplazada, entoncescuando             

Observación. Para efectos de determinar cualquier propiedad estadística de una muestra aleatoria, la definición EM2 puede simplificarse diciendo:

“La secuencia de variables aleatorias X1, X2, …, Xn constituye una muestra aleatoria, si estas variables son independientes e idénticamente distribuidas.”                    

Se acostumbra utilizar la notación iid para abreviar “independientes e idénticamente distribuidas”.

Estadísticos

Suponga de nuevo que W es la población de los trabajadores de una empresa, y que la característica de interés es el sexo. Extraigamos de W una muestra de tamaño n. Retomemos la convención de registrar un 1 cuando la persona extraída es mujer, y 0 en caso contrario. Supongamos que para conocer la cantidad la proporción de mujeres calculamos la cantidad de mujeres y la proporción de mujeres en la muestra. Los resultados de ambas operaciones dependen o están en función de las variables aleatorias X1, X2, …, Xn que representan a los valores muestrales. Suponga ahora que la característica de interés de la población es la edad, y que nos interesa conocer la edad de la persona más joven. De nuevo, el resultado de la operación depende o está en función de las variables aleatorias X1, X2, …, Xn que representan a los valores muestrales. En otras palabras, siempre que realizamos un muestreo, calculamos cantidades de interés con base en las variables aleatorias X1, X2, …, Xn. Para hacer referencia a estas cantidades de manera única introducimos la siguiente definición.

Definición EM3. Sea X1, X2, …, Xn, una muestra aleatoria extraída de una determinada población W. Sea gn = gn(X1, X2, …, Xn) una función de X1, X2, …, Xn. La variable aleatoria gn porta el nombre de estadístico.            

En otras palabras, un estadístico es cualquier función de las variables aleatorias X1, X2, …, Xn, que resultan de un proceso de muestreo, que no tiene ningún parámetro desconocido, es decir, que depende sólo de las variables X1, X2, …, Xn.

Media y varianza muestrales

De entre los estadísticos destacan de manera especial dos, uno por ser una medida de la tendencia central de los datos, observaciones o mediciones, y otro por reflejar la dispersión de los mismos. La siguiente definición se ocupa de estos dos estadísticos.

Definición EM4. Sea X1, X2, …, Xn, una muestra aleatoria extraída de una determinada población. (Es claro que si W es finita de tamaño N, y si el muestreo es sin reemplazo, entonces n < N). Consideremos las notaciones siguientes:

En las anteriores notaciones y s2 serán llamadas, respectivamente, media muestral (o promedio) y varianza muestral. s será llamada desviación estándar muestral.          

Momentos muestrales

La media y la varianza muestrales son casos particulares de los así llamados momentos muestrales cuya definición damos a continuación:

Definición EM5. Sea X1, X2, …, Xn, una muestra aleatoria extraída de una determinada población W.  Llamaremos momento de muestreo de orden r al estadístico

                                  

Definición EM6. Sea X1, X2, …, Xn, una muestra aleatoria extraída de una determinada población W.  Llamaremos momento de muestreo centrado de orden r al estadístico

                     

Observación.         y          .