Introdução à Estatística
Segundo Semestre/2018
Inferência Estatística
Conjunto de técnicas que tem por objetivo estudar a população através de uma amostra.
População
Amostra
Inferência Estatística:
• Estimação de quantidades desconhecidas;
• Extrapolação dos resultados;
• Testes de hipóteses.
Amostragem - Terminologia
População-Alvo:
População que se deseja descrever;
População de Estudo:
Subconjunto, da população-alvo, do qual as amostras serão selecionadas;
Sistema de referência:
Lista dos elementos pertencentes à população de estudo;
Amostra:
Todo o subconjunto não vazio e com um número menor de elementos do que o conjunto definido como população.
Unidade Amostral:
Cada elemento contido na amostra.
Exemplo
Considere que é de interesse estudar a proporção de alunos do ensino médio que pretendem fazer vestibular;
Selecionamos uma amostra de 100 alunos e perguntamos sobre suas intensões futuras de estudo.
Maneiras de Selecionar Amostras
Amostragem Aleatória Simples;
Amostragem Sistemática;
Amostragem Estratificada;
Amostragem por Conglomerado.
Amostragem Aleatória Simples
Mesma chance de seleção para todos os elementos da população;
Metodologia:
listar ou numerar todos os elementos da população e sortear elementos ao acaso até que a amostra alcance o tamanho
desejado.
Exemplo
Suponha que tenham 5000 alunos no ensino médio na cidade na qual o estudo será feito;
Seriam dados números de 1 a 5000 a cada um dos alunos, e depois 100 desses números seriam sorteados sem
reposição;
Dessa maneira obteríamos uma amostra simples da população de estudo.
Amostragem Sistemática
Utiliza um sistema imposto pelo pesquisador na seleção dos elementos que formarão a amostra.
Metodologia usual:
tenho N elementos na população, quero uma amostra de n elementos. Utilizando o valor k = N/n (valor inteiro mais próximo) faço a seleção dos elementos em uma lista
selecionando aqueles nas posições b + ak, com a pertencente aos naturais e b sendo um número sorteado entre 1 e k.
Exemplo
Suponha que temos os mesmo 5000 alunos mencionados anteriormente e queremos uma amostra de 100 alunos;
Nesse caso, teria que ser feita uma lista com os nomes de todos os alunos, poderia ser em ordem alfabética, e
novamente numerá-los;
50;
Sortearíamos um número entre 1 e 50, considere que saiu o número 11;
Pertenceriam à amostra sistemática os alunos que tivessem os números {11,61,111,161,211,..., 4911, 4961}, respectivos à eles.
Amostragem Estratificada
Coleta amostras de cada estrato de uma população. A
amostra final é o conjunto de todas as amostras tomadas.
O termo estrato simboliza divisões entre elementos,
como sexo, classe social, naturalidade, idade, entre outras.
Exemplo
Considere os mesmos 5000 alunos;
Considere que exista o interesse em estratificar por tipo de escola: pública e particular;
Os 5000 alunos seriam divididos, então, em dois grupos:
Grupo 1: alunos de escola pública (3500 alunos);
Grupo 2: alunos de escola particular (1500 alunos).
Se o meu interesse for ter 50 alunos de escolas
particulares e 50 de escolas publicas, seriam retiradas
duas amostras simples, independentes, de tamanho 50 de cada um dos 2 grupos.
Amostragem por Conglomerado
Considera uma amostra de conglomerados (prédios, escolas, hospitais, ...) dentre todos os existentes na população:
Estuda todos os elementos dentro de cada conglomerado selecionado (um estágio);
Ou amostra parte dos elementos dos conglomerados selecionados (dois estágios).
Exemplo
Considere, mais uma vez, o exemplo com os 5000 alunos;
Agora, inicialmente, seria sorteada, uma escola;
Se fossemos fazer amostra por conglomerado em um estágio, todos os alunos de ensino médio da escola sorteada pertenceriam à amostra;
Se fossemos fazer amostra por conglomerado em dois estágios, seria selecionada uma amostra simples de 100 alunos do ensino médio da escola em questão.
Amostra Viesada ou Tendenciosa
Tende a representar parte de uma população e não o todo;
Comum em amostragens não probabilísticas: não se conhece a probabilidade de inclusão das unidades amostrais.
Amostras de conveniência;
Amostras constituídas de voluntários.
Inferência Estatística
Suponha que tenhamos retirado uma amostra simples de 100 alunos dos 5000 atualmente matriculados na nossa cidade;
Repetindo o método de amostragem acima, teríamos as mesmas amostras?
Obteríamos resultados iguais, ou próximos?
Inferência Estatística
Devido à natureza aleatória envolvida no procedimento amostral, não podemos garantir que repetições de
amostras produzam resultados idênticos;
Logo, as quantidades associadas à amostra têm caráter aleatório e, portanto, devem receber tratamento
probabilístico.
Para eliminar ambiguidades e confusões de notação, vamos representar uma amostra de tamanho , a ser retirada de uma população, por , , … , .
Parâmetro:
As quantidades da população, em geral desconhecidas, sobre as quais temos interesse, são denominadas parâmetros e,
usualmente representadas por letras gregas tais como , e , entre outras.
Estimador e estimativa:
À combinação dos elementos da amostra, construída com a finalidade de representar, ou estimar, um parâmetro de
interesse na população, denominamos de estimador. Em geral, denotamos os estimadores por símbolos com o acento
circunflexo: , , , etc.
Aos valores numéricos assumidos pelos estimadores denominamos estimativas.
Parâmetros, Estimadores e Estimativas
Exemplo
Estamos interessados na média das alturas de jovens com idade entre 15 e 18 anos, nascidos na região sudeste do país. Vamos coletar uma amostra simples de tamanho 10 e usá-la para tirar conclusões.
Amostra, em metros: 1,65; 1,57; 1,72; 1,66; 1,71; 1,74; 1,81; 1,68;
1,60 e 1,77.
Abaixo estão algumas opções de estimadores para a média que se deseja calcular:
í á 1,69;
1,65;
!" #"⋯" !% 1,69.
Inferência Estatística
Como escolher qual estimador utilizar?
Deve-se estudar as propriedades de um estimador;
Lembrando que para amostras diferentes de uma mesma população, obteremos estimativas, provavelmente,
diferentes.
Exemplo
Considere que foram retiradas 10 amostras distintas de 10 alunos da UFJF com o objetivo de estudar a idade média dos alunos da UFJF;
Ao calcular as médias de cada uma dessas amostras, temos:
21,2; 21,5; 20,4; ( 21,2; 20,8; * 20,7; , 19,3; . 19;
/ 20,4; 24,9
Ou seja, as estimativas de um parâmetro, obtidas por um mesmo estimador, podem variar de acordo com a amostra retirada.
Vício
Um estimador é não viciado ou não viesado para um parâmetro se 0 . Ou seja, sum estimador é não viciado se o seu valor esperado coincide com o parâmetro de interesse.
Consistência
Um estimador é consistente, se, à medida que o tamanho da
amostra aumenta, seu valor esperado converge para o parâmetro de interesse e sua variância converge para zero:
lim→50 ; lim→5678 0.
Eficiência
Dados dois estimadores e , não viciados para um parâmetro , dizemos que é mais eficiente do que se 678 9 678 .
Propriedades dos Estimadores
Estimadores para média, proporção e variância
Parâmetro Estimador Propriedades
: ; ; ⋯ ; Não viciado e
consistente
< <̂ >8?@Aê CD7 7FGHI87J CGF 7 C787CI?8íHIDC7 Não viciado e consistente
K 1
L 1 M L :
N
Não viciado e consistente
1M L :
N
Viciado e consistente
Distribuições Amostrais
Estimadores são funções de variáveis aleatórias, sendo assim, eles também são variáveis aleatórias;
Vamos estudar a distribuição de probabilidade de alguns dos estimadores mais utilizados.
Distribuição da Média Amostral
Considere como a variável aleatória que representa o nível sérico de colesterol de homens (20 a 74 anos) norte américanos;
Suponha que segue uma distribuição normal com média de 211 mg/100ml e desvio padrão de 46 mg/100ml;
Se forem retiradas 50 amostras dessa população, e calculadas as médias para cada amostra, teremos 50 valores distintos que
poderiam ser considerados como estimativas da média da população;
O̅ , O̅ , … , O̅ ;
Podemos considerar as médias obtidas como uma nova variável aleatória.
Distribuição da Média Amostral
Histogramas das médias de níveis séricos de colesterol de 50 amostras retiradas da população de homens (20 a 74 anos) norte américanos cujo nível sérico de
colesterol segue uma distribuição normal com média de 211 mg/100ml e desvio padrão de 46 mg/100ml.
n = 5 n = 50 n = 100
210mg/100ml 210mg/100ml 210mg/100ml
Teorema Central do Limite
Suponha uma amostra aleatória simples de tamanho retirada de uma população com média e variância (note que a distribuição de probabilidade da variável
aleatória não é especificada). Representando tal amostra por variáveis aleatórias independentes , , … , e,
denotando sua média por :, temos que:
: L Q
→5 R com R~T 0,1 .
Teorema Central do Limite
Garante que para grande a distribuição da média amostral, devidamente padronizada, segue uma
distribuição Normal Padrão;
Esse teorema permite que utilizemos a distribuição Normal para estudar : probabilisticamente;
Estudos, envolvendo simulações, mostram que, em muitos casos, valores de ao redor de 30 fornecem
aproximações bastante boas para aplicações práticas.
Exercício 1
Uma variável assume os valores 3, 6 e 8 com
probabilidades 0,4; 0,3 e 0,3; respectivamente. Uma amostra com 40 observações é sorteada.
Qual a probabilidade da média amostral superar o valor 5?
Teorema Central do Limite - Aplicação
Suponha que:
< represente a proporção de indivíduos com determinada característica em uma população (valor desconhecido)
<̂ represente o estimador dessa proporção, considerando uma amostra da tamanho , dado por:
<̂ úF?8G V? D VDW. 7 7FGHI87 CGF V7V7 C787CI?8íHIDC7 Tem-se que:
0 <̂ < e 678 <̂ Y Y
Considerando o Teorema Central do Limite, tem-se que para suficientemente grande:
<̂ L <
< 1 L <
→5T 0,1
Exercício 2
Suponha que a proporção de peças fora de especificação em um lote é de 40%. Tomada uma amostra de tamanho 30, qual a probabilidade dessa amostra fornecer uma
proporção de peças defeituosas menor que 0,50?
Estimação por intervalo
Até agora vimos estimadores pontuais, que fornecem um único valor numérico para o parâmetro de interesse;
Como os estimadores são variáveis aleatórias, pode-se apresentar uma estimativa mais informativa para o
parâmetro de interesse, uma que inclua uma medida de precisão do valor obtido;
Esse método é denominado intervalo de confiança, e incorpora, à estimativa pontual do parâmetro,
informações a respeito de sua variabilidade.
Intervalos de Confiança
Pode-se utilizar o conhecimento da distribuição da média amostral para construir um intervalo de confiança para a média de uma população;
Dada uma variável aleatória com média e variância conhecida, tem-se que:
R : Z[
Q \;
Dado que siga uma distribuição normal ou que seja suficientemente grande (Teorema Central do Limite).
Intervalos de Confiança
Para a variável aleatória R, que segue uma distribuição
normal padrão, 95% das observações se encontram entre - 1,96 e 1,96:
P L1,96 ^ R ^ 1,96 0,95; Dado que R : Z[
Q \, tem-se:
P L1,96 ^ : Z[
Q \ ^ 1,96 0,95;
As propriedades da distribuição normal permitem a
manipulação da desigualdade dentro do parênteses sem alterar a afirmação da probabilidade;
Intervalos de Confiança
Ao multiplicar os três termos da desigualdade pelo erro padrão da média, _ , tem-se:
L1,96 _ ^ : L ^ 1,96 _ ;
Em seguida, pode-se subtrair a média amostral ( :) dos três termos da desigualdade:
L1,96 _ L : ^ L ^ 1,96 _ L :;
Por fim pode-se multiplicar os três termos da desigualdade por -1;
1,96 _ ; : ` ` L1,96 _ ; :;
Intervalos de Confiança
Ao rearranjarmos os termos da desigualdades tem-se:
: L 1,96 _ ^ ^ : ; 1,96 _ ;
O intervalo acima considera os valores inferior e superior que limitam 95% dos valores mais prováveis de
representarem a média populacional;
As quantidades : L 1,96 _ e : ; 1,96 _ limitam o
intervalo de confiança de 95% para a média da população, ou seja, com 95% de probabilidade, ou de confiança, o
intervalo : L 1,96 _ , : ; 1,96 _ conterá a média populacional .
Intervalos de Confiança
É importante ressaltar que apesar de procurarmos tirar conclusões sobre a média populacional , essa média é um valor fixo, embora desconhecido, e não uma variável aleatória;
O intervalo de confiança mais comum é o que considera um nível de confiança de 95%, porém esse não é o único, pode-se montar intervalos de confiança de qualquer
tamanho, dependendo do interesse do pesquisador, no entanto, intervalos de menos de 90% de confiança são de pouca utilidade.
Intervalos de Confiança
Seja ab #⁄ o valor que limita uma área de d⁄ na
extremidade superior da distribuição normal padrão, e Lab #⁄ o valor que limita uma área de d⁄ na extremidade inferior da distribuição normal padrão;
Então a forma geral para um intervalo de confiança de 100 1 L e % para é dada por:
: L ab #⁄ . _ , : ; ab #⁄ . _ .
Se, por exemplo, tomarmos e 0,05, teríamos Lab #⁄ La%,%gQ# La , L1,96 e a%,%gQ# a , 1,96.
Exercício 3
Suponha que os comprimentos de jacarés adultos de uma certa raça siga uma distribuição normal com média e variância igual a 0,01F . Uma amostra de dez animais foi sorteada e forneceu média de 1,69F.
Encontre o intervalo de 95% de confiança para o parâmetro desconhecido .
Exercício 4
Um provedor de acesso à internet está monitorando a duração do tempo das conexões de seus clientes, com o objetivo de dimensionar seus equipamentos. São
desconhecidas a média e a distribuição de probabilidade desse tempo, mas o desvio padrão, por analogia a outros serviços, é considerado igual a 50 minutos.
Uma amostra de 500 conexões resultou num valor médio observado de 25 minutos.
O que dizer da verdadeira média, com confiança 92%?
Intervalos de Confiança
O tamanho de um intervalo de confiança varia de acordo com o nível de confiança do mesmo ou de acordo com o tamanho da amostra:
Para uma amostra de tamanho fixo:
h adQ Limites de confiança de 100 1 L e % para Amplitude do Intervalo
0,1 1,65 : L 1,65. , : ; 1,65. 3,3.
0,05 1,96 : L 1,96. , : ; 1,96. 3,92.
0,01 2,58 : L 2,58. , : ; 2,58. 5,16.
Intervalos de Confiança
O tamanho de um intervalo de confiança varia de acordo com o nível de confiança do mesmo ou de acordo com o tamanho da amostra:
Para e 0,05:
h i Limites de confiança de 100% 1 L e para Amplitude do Intervalo
0,05 10 : L 1,96.
10 , : ; 1,96.
10 1,239
0,05 100 : L 1,96.
100 , : ; 1,96.
100 0,392
0,05 1000 : L 1,96.
1000 , : ; 1,96.
1000 0,124
Exercício 5
A vida média de baterias automotivas de uma certa marca está sendo estudada. Baseado em estudos similares, com outras marcas, é possível admitir que a vida dessas
baterias segue a distribuição normal com desvio padrão de 4,5 meses.
De qual tamanho deverá ser a amostra, para que a
amplitude do intervalo de 90% de confiança para a vida média seja de 3 meses?
Intervalos de Confiança
O Teorema Central do Limite também no diz que a
distribuição de probabilidade do estimador da proporção de determinada característica, quando é grande o suficiente se aproxima de uma distribuição normal:
Y Y
j !kj
\
→5 T 0,1
Logo, analogamente ao que foi feito para a média, pode-se
construir um intervalo de confiança para a proporção em uma população com base na proporção amostral:
<̂ L ab #⁄ . Y Y ,<̂ ; ab #⁄ . Y Y
Intervalos de Confiança
Não é possível utilizar o intervalo de confiança
encontrado, já que não conhecemos o valor de <. Sendo assim, são propostas as soluções abaixo:
Substituir < por <̂ (intervalo otimista)
<̂ L ab #⁄ . Y Y ,<̂ ; ab #⁄ . Y Y
Substituir
< 1 L <
por ⁄(, valor máximo que< 1 L <
pode alcançar (intervalo conservador)
<̂ L a
b #⁄.
(, <̂ ; a
b #⁄.
(Exercício 6
Pretende-se estimar a proporção < de cura, através do uso de um certo medicamento em doentes contaminados com cercária, que é uma das formas do verme da
esquistossomose.
Um experimento consistiu em aplicar o medicamento em 200 pacientes, escolhidos ao acaso, e observar que 160 deles foram curados.
O que podemos dizer da proporção < na população em geral, a um nível de 99% de confiança (utilize ambos os intervalos: otimista e conservador)?
Como os dois intervalos calculados se comparam?