MÉTODOS DE AMOSTRAGEM E DISTRIBUIÇÕES AMOSTRAIS

 

OBJETIVOS DO CAPÍTULO:

 ·        Explicar porque em muitas situações uma amostra é a única forma plausível de aprender alguma coisa sobre uma população.

 ·        Explicar os métodos de selecionar uma amostra

 ·        Distinguir entre amostragem probabilística e amostragem não probabilística

 ·        Definir e construir uma distribuição amostral de médias amostrais

 ·        Explicar o Teorema do Limite Central e sua importância para a Inferência Estatística

 ·          Calcular Intervalos de Confiança para Médias e Proporções

 ·        Determinar que tamanho uma amostra deve ter  para estimar médias e proporções

 

 Porque amostrar uma população

 ·          Natureza destrutiva de certos testes

 ·        A impossibilidade física de checar todos os itens na população

 ·        O custo de estudar todos os itens em uma população é freqüentemente proibitivo

 ·          Muitas vezes as estimativas baseadas em uma amostra são mais precisas do que os resultados obtidos através de um levantamento censitário

 ·        Tempo muito elevado para a apuração de resultados em censos

 

AMOSTRAGEM PROBABILÍSTICA

 ·        O que é uma amostragem probabilística ?

 ·        É uma amostra selecionada de tal forma que cada item ou pessoa na população estudada têm uma probabilidade (não nula) conhecida de ser incluída na amostra.

 

Métodos de Amostragem Probabilística:

 

·        Amostragem Aleatória Simples (AAS)

 Uma amostra escolhida de tal forma que cada item ou pessoa na população tem a mesma probabilidade de ser incluída.

 Se a população tem um tamanho N, cada pessoa desta população tem a mesma probabilidade igual a 1/N de entrar na amostra. Utilizamos uma tabela de números aleatórios para sortear (com mesma probabilidade) os elementos da amostra. Também pode ser utilizada uma função randômica: No Excel, por exemplo, temos a função ALEATÓRIO ENTRE.

 

·        Amostragem Aleatória Sistemática

 Os itens ou indivíduos da população são ordenados de alguma forma – alfabeticamente ou através de algum outro método. Um ponto de partida aleatório é sorteado, e então cada k-ésimo membro da população é selecionado para a amostra.

 ·        Amostragem Aleatória Estratificada

 

A população é inicialmente dividida em subgrupos (estratos) e uma subamostra é selecionada a partir de cada estrato da população

  

·        Amostragem aleatória Estratificada com Repartição Proporcional

 

Suponhamos que a população é subdividida em k estratos. Sejam:

 N = o número de indivíduos na população

n  = o número de indivíduos na amostra

Ni  = o número de indivíduos contidos no i-ésimo estrato da população

 ni  = o número de indivíduos contidos no i-ésimo estrato na amostra

 

 

 os estratos devem ser o mais homogêneos possíveis com relação às características relevantes da pesquisa (variáveis que se correlacionam fortemente com a variável estudada) para um mesmo tamanho amostral, a amostragem aleatória estratificada com repartição proporcional é mais precisa (menor variância do estimador) do que a amostragem aleatória simples (AAS)

 

·        Amostragem Aleatória Estratificada com Repartição de Neyman (ou repartição ótima)

 Se conhecermos a variância de cada estrato populacional referente a variável que estamos desejando estimar o seu parâmetro, um método mais adequado é o da repartição de Neyman.

 

 para um mesmo tamanho amostral a precisão é maior para amostra aleatória estratificada com repartição de Neyman (repartição ótima) do que para a amostra aleatória estratificada com repartição proporcional que por sua vez é maior do que a amostra aleatória simples

 

 ·        Amostragem por Conglomerados

 A população é inicialmente subdividida inicialmente em subgrupos (estratos) e uma amostra de estratos é selecionada (por exemplo, com probabilidade proporcional ao tamanho de cada estrato). A seguir, amostras são selecionadas dos estratos selecionados previamente.

 A principal vantagem da amostra por conglomerados é a de possibilitar considerável redução de custos (em relação por exemplo a uma amostragem aleatória estratificada) para um mesmo tamanho amostral

 O método costuma ser empregado quando não dispomos de um cadastro da população (como no caso da amostragem sistemática) e os custos de ser elaborado um cadastro para toda a população é muito elevado.

 

·        Erro amostra: A diferença entre a estatística amostral e seu correspondente parâmetro

 ·        Uma distribuição de probabilidade consiste de uma lista de todos os possíveis valores das médias amostrais de um dado tamanho amostral constante selecionado da população e a probabilidade de ocorrência associada a cada média amostral.

 

·        Exemplo 1 – Uma empresa tem 5 sócios. Semanalmente, os sócios relatam o número de horas de atendimento a clientes

Sócio

Horas

1

22

2

26

3

30

4

26

5

22

  

·        Dois sócios são selecionados aleatoriamente. Quantas amostras ‘distintas são possíveis?

·        O número de amostras distintas de dois elementos tomados em 5 objetos corresponde a:

 

 

Sócios

Total

Média

1,2

48

24

1,3

52

26

1,4

48

24

1,5

44

22

2,3

56

28

2,4

52

26

2,5

48

24

3,4

56

28

3,5

52

26

4,5

48

24

 

·        Organize as médias amostrais em uma distribuição de freqüências.

 

Média Amostral

freqüência

Freqüência Relativa(Probabilidade)

22

1

1/10

24

4

4/10

26

3

3/10

28

2

2/10

 

·        Calcule a média das médias amostrais e compare-a com a média da população.

 ·        A média da população é:

 ·        A média das médias amostrais é:

 

 ·        Observe que a média das médias amostrais é igual a média populacional

 

TEOREMA DO LIMITE CENTRAL

 ·        Para uma população com média  e uma variância , a distribuição amostral das médias de todas as possíveis amostras de tamanho n, geradas a partir da população, será aproximadamente normalmente distribuída – com a média da distribuição amostral igual    e variância igual    - assumindo que o tamanho amostral é suficientemente grande, ou seja, .

 ·        Em outras palavras, se a população tem qualquer distribuição (não precisa ser necessariamente normal) com média igual a  e variância igual a  , então a distribuição amostral dos valores médios amostrais é normalmente distribuída com a média das médias ( ) igual a média da população (   ) e o erro padrão das médias amostrais igual a , desde que n .

 

·        Note que o erro padrão das médias amostrais mostra quão próximo da média da população a média amostral tende a ser.

 ·        O erro padrão das médias amostrais é calculado por:

 

  é o símbolo para  o erro padrão das médias amostrais

  é o desvio padrão da população

n       é o tamanho da amostra

 Se  não é conhecido e n ³ 30  (considerada uma amostra grande), o desvio padrão da amostra, designado por s, é usado para aproximar o desvio padrão da população, . A fórmula para o erro padrão torna-se:

 

onde              

 

ESTIMATIVA DE PONTO

·        Estimativa de ponto é um valor (chamado um ponto) que é usado para estimar um parâmetro populacional

·        Exemplos de estimativas de ponto são a média amostral, o desvio padrão amostral, a variância amostral, a proporção populacional, etc.

 

Exemplo: O número de itens defeituosos produzidos por uma máquina foi registrado em cinco horas selecionadas aleatoriamente durante uma semana de trabalho de 40 horas. O número observado de defeituosos foi 12,4,7,14 e 10. Portanto, a média amostral é 9,4. Assim a estimativa de ponto para a média semanal do número de defeituosos é 9,4.

 

ESTIMATIVA DE INTERVALO

·        Uma Estimativa de Intervalo estabelece uma faixa de valores dentro da qual um parâmetro populacional provavelmente cai.

·        O intervalo dentro do qual um parâmetro populacional é esperado ocorrer é chamado de intervalo de confiança.

·        Os intervalos de confiança que são extensivamente usados são os de 95 % e 99 %.

·         Um intervalo de confiança de 95 % significa que cerca de 95 % dos intervalos construídos similarmente conterão o parâmetro que está sendo estimado.

·        Outra interpretação do intervalo de confiança de 95 % é que 95 % das médias amostrais para um tamanho de amostra especificado cairão a uma distância máxima de 1,96 desvios padrões da média populacional.

·        Para o intervalo de confiança de 99 %, 99 % das médias amostrais para um tamanho amostral especificado cairão a uma distância máxima de 2,58 desvios padrões da média populacional.

 

Os intervalos de confiança para 95 % e 99 % são construídos como segue, para n ³ 30:

·        O IC de 95 % para a média populacional  é dado por:

   

 ·        O IC de 99 % para a média populacional  é dado por:

 

·        Em geral, um intervalo de confiança para a média, é calculado por:

onde Z é obtido da tabela de distribuição normal padrão.

 

Exemplo 2

 Uma universidade quer estimar o número médio de horas trabalhadas por semana por seus estudantes. Uma amostra de 49 estudantes mostrou uma média de 24 horas com um desvio padrão de 4 horas.

 A estimativa de ponto do número médio de horas trabalhadas por semana é 24 horas (média amostral).

 Qual é o intervalo de confiança de 95 % para o número médio de horas trabalhadas por semana ?

Usando a fórmula anterior ( ) temos  ou 22,88 a 25,12. O limite de confiança inferior é 22,88. O limite superior de confiança é 25,12. O grau de confiança (nível de confiança) utilizado é 0,95.

 

Interprete os resultados

·        Se nós tivéssemos tempo para selecionar aleatoriamente 100 amostras de tamanho 49 da população de alunos do campus e calcular as médias amostrais e os intervalos de confiança para cada uma destas 100 amostras, a média populacional (parâmetro) do número de horas trabalhadas estaria contida em cerca de 95 dos 100 intervalos de confiança. Cerca de 5 dos 100 intervalos de confiança não conteriam a média populacional.

 

Intervalo de Confiança para Uma Proporção Populacional

Um intervalo de confiança para uma proporção populacional é dado por:

 

onde:

     é a proporção amostral

   é o erro padrão da proporção amostral e é dado por:

 

 

 

O intervalo de confiança é construído por:

onde:

 é a proporção amostral

Z é o valor da variável normal padrão para o grau de confiança adotado.

n   é o tamanho amostral

 

Exemplo 3

Um planejador financeiro está estudando os planos de mudança de jovens executivos. Uma amostra de 500 jovens executivos que possuem suas próprias casas revelou que 175 planejam vendê-las e retirarem-se para o interior do País. Construa um intervalo de confiança de 98 % para o parâmetro proporção populacional de executivos que planejam mudar para o interior.

 

·        Aqui n = 500,  

 e  Z = 2,33  (para )

 

·        O CI de 98 % é    

 

Interprete a resposta

 

Fator de Correção de População Finita

·        Uma população que tem um limite superior definido é chamada de finita. Em estatística, considera-se como população finita quando  (ou seja, quando a fração amostral é maior do que 5 %).

·        Para uma população finita, onde o número total de objetos é N e o tamanho da amostra é n, o seguinte ajuste é feito para os erros padrões da média amostral e da proporção amostral.

 

·        Erro padrão da média amostral:

·        Erro padrão da proporção amostral:

 

·        Este ajuste é chamado de Fator de Correção de População Finita (FCPF)

 

Nota: se , o fator de correção de população finita é ignorado.

 

Exemplo 4

 A universidade do exemplo 2 quer estimar o número médio de horas trabalhadas por semana pelos estudantes. Uma amostra de 49 estudantes mostrou uma média de 24 horas e um desvio padrão de 4 horas. Construa um intervalo de confiança para o número médio de horas trabalhadas se há somente 500 estudantes no campus.

 

·        Agora . Portanto, temos que usar o FCPF

·       

 

Selecionando uma Amostra

·        Há 3 fatores que determinam o tamanho de uma amostra, nenhum dos quais tendo uma relação direta com o tamanho da população. Eles são:

1.      O grau de confiança adotado

2.      O máximo erro permissível

3.      A variabilidade da população

 

Uma fórmula de cálculo conveniente para determinar o tamanho amostral n é:

 

 

onde:

 

E  é o erro permissível

Z  é o valor da variável normal padrão associado ao grau de confiança adotado

s  é o desvio padrão da amostra piloto

 

Exemplo 5

Um grupo de consumidores deseja estimar a média de gasto mensal em eletricidade para um domicílio familiar simples em Julho. Baseado em estudos similares o desvio padrão é estimado como sendo R$ 20,00. Deseja-se construir um intervalo de confiança de 99 % com um erro máximo admissível de  . Qual deve ser o tamanho da amostra?

 

 

Tamanho Amostral para Estimativa de Proporções

  A fórmula para determinar o tamanho amostral no caso de estimativa de proporções é:

     onde

     é a proporção estimada, baseada na experiência passada ou em uma amostra piloto

 Z   é o valor da variável normal padrão associado ao grau de confiança adotado.

 E  é o máximo erro permissível que o pesquisador tolera.

 

Exemplo 6

·        Um clube deseja estimar a proporção de crianças que tem um cachorro. Se o clube deseja que a estimativa esteja no máximo afastada 3 % da proporção populacional, quantas crianças devem conter a amostra? Assuma um intervalo de confiança de 95 % e que o clube estimou, com base em experiência anterior, que aproximadamente 30 % das crianças têm um cachorro.