• Nenhum resultado encontrado

Introdução à Estatística. Segundo Semestre/2018

N/A
N/A
Protected

Academic year: 2022

Share "Introdução à Estatística. Segundo Semestre/2018"

Copied!
45
0
0

Texto

(1)

Introdução à Estatística

Segundo Semestre/2018

(2)

Inferência Estatística

Conjunto de técnicas que tem por objetivo estudar a população através de uma amostra.

População

Amostra

Inferência Estatística:

Estimação de quantidades desconhecidas;

Extrapolação dos resultados;

Testes de hipóteses.

(3)

Amostragem - Terminologia

População-Alvo:

População que se deseja descrever;

População de Estudo:

Subconjunto, da população-alvo, do qual as amostras serão selecionadas;

Sistema de referência:

Lista dos elementos pertencentes à população de estudo;

Amostra:

Todo o subconjunto não vazio e com um número menor de elementos do que o conjunto definido como população.

Unidade Amostral:

Cada elemento contido na amostra.

(4)

Exemplo

Considere que é de interesse estudar a proporção de alunos do ensino médio que pretendem fazer vestibular;

Selecionamos uma amostra de 100 alunos e perguntamos sobre suas intensões futuras de estudo.

(5)

Maneiras de Selecionar Amostras

Amostragem Aleatória Simples;

Amostragem Sistemática;

Amostragem Estratificada;

Amostragem por Conglomerado.

(6)

Amostragem Aleatória Simples

Mesma chance de seleção para todos os elementos da população;

Metodologia:

listar ou numerar todos os elementos da população e sortear elementos ao acaso até que a amostra alcance o tamanho

desejado.

(7)

Exemplo

Suponha que tenham 5000 alunos no ensino médio na cidade na qual o estudo será feito;

Seriam dados números de 1 a 5000 a cada um dos alunos, e depois 100 desses números seriam sorteados sem

reposição;

Dessa maneira obteríamos uma amostra simples da população de estudo.

(8)

Amostragem Sistemática

Utiliza um sistema imposto pelo pesquisador na seleção dos elementos que formarão a amostra.

Metodologia usual:

tenho N elementos na população, quero uma amostra de n elementos. Utilizando o valor k = N/n (valor inteiro mais próximo) faço a seleção dos elementos em uma lista

selecionando aqueles nas posições b + ak, com a pertencente aos naturais e b sendo um número sorteado entre 1 e k.

(9)

Exemplo

Suponha que temos os mesmo 5000 alunos mencionados anteriormente e queremos uma amostra de 100 alunos;

Nesse caso, teria que ser feita uma lista com os nomes de todos os alunos, poderia ser em ordem alfabética, e

novamente numerá-los;

50;

Sortearíamos um número entre 1 e 50, considere que saiu o número 11;

Pertenceriam à amostra sistemática os alunos que tivessem os números {11,61,111,161,211,..., 4911, 4961}, respectivos à eles.

(10)

Amostragem Estratificada

Coleta amostras de cada estrato de uma população. A

amostra final é o conjunto de todas as amostras tomadas.

O termo estrato simboliza divisões entre elementos,

como sexo, classe social, naturalidade, idade, entre outras.

(11)

Exemplo

Considere os mesmos 5000 alunos;

Considere que exista o interesse em estratificar por tipo de escola: pública e particular;

Os 5000 alunos seriam divididos, então, em dois grupos:

Grupo 1: alunos de escola pública (3500 alunos);

Grupo 2: alunos de escola particular (1500 alunos).

Se o meu interesse for ter 50 alunos de escolas

particulares e 50 de escolas publicas, seriam retiradas

duas amostras simples, independentes, de tamanho 50 de cada um dos 2 grupos.

(12)

Amostragem por Conglomerado

Considera uma amostra de conglomerados (prédios, escolas, hospitais, ...) dentre todos os existentes na população:

Estuda todos os elementos dentro de cada conglomerado selecionado (um estágio);

Ou amostra parte dos elementos dos conglomerados selecionados (dois estágios).

(13)

Exemplo

Considere, mais uma vez, o exemplo com os 5000 alunos;

Agora, inicialmente, seria sorteada, uma escola;

Se fossemos fazer amostra por conglomerado em um estágio, todos os alunos de ensino médio da escola sorteada pertenceriam à amostra;

Se fossemos fazer amostra por conglomerado em dois estágios, seria selecionada uma amostra simples de 100 alunos do ensino médio da escola em questão.

(14)

Amostra Viesada ou Tendenciosa

Tende a representar parte de uma população e não o todo;

Comum em amostragens não probabilísticas: não se conhece a probabilidade de inclusão das unidades amostrais.

Amostras de conveniência;

Amostras constituídas de voluntários.

(15)

Inferência Estatística

Suponha que tenhamos retirado uma amostra simples de 100 alunos dos 5000 atualmente matriculados na nossa cidade;

Repetindo o método de amostragem acima, teríamos as mesmas amostras?

Obteríamos resultados iguais, ou próximos?

(16)

Inferência Estatística

Devido à natureza aleatória envolvida no procedimento amostral, não podemos garantir que repetições de

amostras produzam resultados idênticos;

Logo, as quantidades associadas à amostra têm caráter aleatório e, portanto, devem receber tratamento

probabilístico.

Para eliminar ambiguidades e confusões de notação, vamos representar uma amostra de tamanho , a ser retirada de uma população, por , , … , .

(17)

Parâmetro:

As quantidades da população, em geral desconhecidas, sobre as quais temos interesse, são denominadas parâmetros e,

usualmente representadas por letras gregas tais como , e , entre outras.

Estimador e estimativa:

À combinação dos elementos da amostra, construída com a finalidade de representar, ou estimar, um parâmetro de

interesse na população, denominamos de estimador. Em geral, denotamos os estimadores por símbolos com o acento

circunflexo: , , , etc.

Aos valores numéricos assumidos pelos estimadores denominamos estimativas.

Parâmetros, Estimadores e Estimativas

(18)

Exemplo

Estamos interessados na média das alturas de jovens com idade entre 15 e 18 anos, nascidos na região sudeste do país. Vamos coletar uma amostra simples de tamanho 10 e usá-la para tirar conclusões.

Amostra, em metros: 1,65; 1,57; 1,72; 1,66; 1,71; 1,74; 1,81; 1,68;

1,60 e 1,77.

Abaixo estão algumas opções de estimadores para a média que se deseja calcular:

í á 1,69;

1,65;

!" #"⋯" !% 1,69.

(19)

Inferência Estatística

Como escolher qual estimador utilizar?

Deve-se estudar as propriedades de um estimador;

Lembrando que para amostras diferentes de uma mesma população, obteremos estimativas, provavelmente,

diferentes.

(20)

Exemplo

Considere que foram retiradas 10 amostras distintas de 10 alunos da UFJF com o objetivo de estudar a idade média dos alunos da UFJF;

Ao calcular as médias de cada uma dessas amostras, temos:

21,2; 21,5; 20,4; ( 21,2; 20,8; * 20,7; , 19,3; . 19;

/ 20,4; 24,9

Ou seja, as estimativas de um parâmetro, obtidas por um mesmo estimador, podem variar de acordo com a amostra retirada.

(21)

Vício

Um estimador é não viciado ou não viesado para um parâmetro se 0 . Ou seja, sum estimador é não viciado se o seu valor esperado coincide com o parâmetro de interesse.

Consistência

Um estimador é consistente, se, à medida que o tamanho da

amostra aumenta, seu valor esperado converge para o parâmetro de interesse e sua variância converge para zero:

lim→50 ; lim→5678 0.

Eficiência

Dados dois estimadores e , não viciados para um parâmetro , dizemos que é mais eficiente do que se 678 9 678 .

Propriedades dos Estimadores

(22)

Estimadores para média, proporção e variância

Parâmetro Estimador Propriedades

: ; ; ⋯ ; Não viciado e

consistente

< >8?@Aê CD7 7FGHI87J CGF 7 C787CI?8íHIDC7 Não viciado e consistente

K 1

L 1 M L :

N

Não viciado e consistente

1M L :

N

Viciado e consistente

(23)

Distribuições Amostrais

Estimadores são funções de variáveis aleatórias, sendo assim, eles também são variáveis aleatórias;

Vamos estudar a distribuição de probabilidade de alguns dos estimadores mais utilizados.

(24)

Distribuição da Média Amostral

Considere como a variável aleatória que representa o nível sérico de colesterol de homens (20 a 74 anos) norte américanos;

Suponha que segue uma distribuição normal com média de 211 mg/100ml e desvio padrão de 46 mg/100ml;

Se forem retiradas 50 amostras dessa população, e calculadas as médias para cada amostra, teremos 50 valores distintos que

poderiam ser considerados como estimativas da média da população;

O̅ , O̅ , … , O̅ ;

Podemos considerar as médias obtidas como uma nova variável aleatória.

(25)

Distribuição da Média Amostral

Histogramas das médias de níveis séricos de colesterol de 50 amostras retiradas da população de homens (20 a 74 anos) norte américanos cujo nível sérico de

colesterol segue uma distribuição normal com média de 211 mg/100ml e desvio padrão de 46 mg/100ml.

n = 5 n = 50 n = 100

210mg/100ml 210mg/100ml 210mg/100ml

(26)

Teorema Central do Limite

Suponha uma amostra aleatória simples de tamanho retirada de uma população com média e variância (note que a distribuição de probabilidade da variável

aleatória não é especificada). Representando tal amostra por variáveis aleatórias independentes , , … , e,

denotando sua média por :, temos que:

: L Q

→5 R com R~T 0,1 .

(27)

Teorema Central do Limite

Garante que para grande a distribuição da média amostral, devidamente padronizada, segue uma

distribuição Normal Padrão;

Esse teorema permite que utilizemos a distribuição Normal para estudar : probabilisticamente;

Estudos, envolvendo simulações, mostram que, em muitos casos, valores de ao redor de 30 fornecem

aproximações bastante boas para aplicações práticas.

(28)

Exercício 1

Uma variável assume os valores 3, 6 e 8 com

probabilidades 0,4; 0,3 e 0,3; respectivamente. Uma amostra com 40 observações é sorteada.

Qual a probabilidade da média amostral superar o valor 5?

(29)

Teorema Central do Limite - Aplicação

Suponha que:

< represente a proporção de indivíduos com determinada característica em uma população (valor desconhecido)

represente o estimador dessa proporção, considerando uma amostra da tamanho , dado por:

úF?8G V? D VDW. 7 7FGHI87 CGF V7V7 C787CI?8íHIDC7 Tem-se que:

0 <̂ < e 678 <̂ Y Y

Considerando o Teorema Central do Limite, tem-se que para suficientemente grande:

<̂ L <

< 1 L <

→5T 0,1

(30)

Exercício 2

Suponha que a proporção de peças fora de especificação em um lote é de 40%. Tomada uma amostra de tamanho 30, qual a probabilidade dessa amostra fornecer uma

proporção de peças defeituosas menor que 0,50?

(31)

Estimação por intervalo

Até agora vimos estimadores pontuais, que fornecem um único valor numérico para o parâmetro de interesse;

Como os estimadores são variáveis aleatórias, pode-se apresentar uma estimativa mais informativa para o

parâmetro de interesse, uma que inclua uma medida de precisão do valor obtido;

Esse método é denominado intervalo de confiança, e incorpora, à estimativa pontual do parâmetro,

informações a respeito de sua variabilidade.

(32)

Intervalos de Confiança

Pode-se utilizar o conhecimento da distribuição da média amostral para construir um intervalo de confiança para a média de uma população;

Dada uma variável aleatória com média e variância conhecida, tem-se que:

R : Z[

Q \;

Dado que siga uma distribuição normal ou que seja suficientemente grande (Teorema Central do Limite).

(33)

Intervalos de Confiança

Para a variável aleatória R, que segue uma distribuição

normal padrão, 95% das observações se encontram entre - 1,96 e 1,96:

P L1,96 ^ R ^ 1,96 0,95; Dado que R : Z[

Q \, tem-se:

P L1,96 ^ : Z[

Q \ ^ 1,96 0,95;

As propriedades da distribuição normal permitem a

manipulação da desigualdade dentro do parênteses sem alterar a afirmação da probabilidade;

(34)

Intervalos de Confiança

Ao multiplicar os três termos da desigualdade pelo erro padrão da média, _ , tem-se:

L1,96 _ ^ : L ^ 1,96 _ ;

Em seguida, pode-se subtrair a média amostral ( :) dos três termos da desigualdade:

L1,96 _ L : ^ L ^ 1,96 _ L :;

Por fim pode-se multiplicar os três termos da desigualdade por -1;

1,96 _ ; : ` ` L1,96 _ ; :;

(35)

Intervalos de Confiança

Ao rearranjarmos os termos da desigualdades tem-se:

: L 1,96 _ ^ ^ : ; 1,96 _ ;

O intervalo acima considera os valores inferior e superior que limitam 95% dos valores mais prováveis de

representarem a média populacional;

As quantidades : L 1,96 _ e : ; 1,96 _ limitam o

intervalo de confiança de 95% para a média da população, ou seja, com 95% de probabilidade, ou de confiança, o

intervalo : L 1,96 _ , : ; 1,96 _ conterá a média populacional .

(36)

Intervalos de Confiança

É importante ressaltar que apesar de procurarmos tirar conclusões sobre a média populacional , essa média é um valor fixo, embora desconhecido, e não uma variável aleatória;

O intervalo de confiança mais comum é o que considera um nível de confiança de 95%, porém esse não é o único, pode-se montar intervalos de confiança de qualquer

tamanho, dependendo do interesse do pesquisador, no entanto, intervalos de menos de 90% de confiança são de pouca utilidade.

(37)

Intervalos de Confiança

Seja ab # o valor que limita uma área de d⁄ na

extremidade superior da distribuição normal padrão, e Lab # o valor que limita uma área de d⁄ na extremidade inferior da distribuição normal padrão;

Então a forma geral para um intervalo de confiança de 100 1 L e % para é dada por:

: L ab # . _ , : ; ab # . _ .

Se, por exemplo, tomarmos e 0,05, teríamos Lab # La%,%gQ# La , L1,96 e a%,%gQ# a , 1,96.

(38)

Exercício 3

Suponha que os comprimentos de jacarés adultos de uma certa raça siga uma distribuição normal com média e variância igual a 0,01F . Uma amostra de dez animais foi sorteada e forneceu média de 1,69F.

Encontre o intervalo de 95% de confiança para o parâmetro desconhecido .

(39)

Exercício 4

Um provedor de acesso à internet está monitorando a duração do tempo das conexões de seus clientes, com o objetivo de dimensionar seus equipamentos. São

desconhecidas a média e a distribuição de probabilidade desse tempo, mas o desvio padrão, por analogia a outros serviços, é considerado igual a 50 minutos.

Uma amostra de 500 conexões resultou num valor médio observado de 25 minutos.

O que dizer da verdadeira média, com confiança 92%?

(40)

Intervalos de Confiança

O tamanho de um intervalo de confiança varia de acordo com o nível de confiança do mesmo ou de acordo com o tamanho da amostra:

Para uma amostra de tamanho fixo:

h adQ Limites de confiança de 100 1 L e % para Amplitude do Intervalo

0,1 1,65 : L 1,65. , : ; 1,65. 3,3.

0,05 1,96 : L 1,96. , : ; 1,96. 3,92.

0,01 2,58 : L 2,58. , : ; 2,58. 5,16.

(41)

Intervalos de Confiança

O tamanho de um intervalo de confiança varia de acordo com o nível de confiança do mesmo ou de acordo com o tamanho da amostra:

Para e 0,05:

h i Limites de confiança de 100% 1 L e para Amplitude do Intervalo

0,05 10 : L 1,96.

10 , : ; 1,96.

10 1,239

0,05 100 : L 1,96.

100 , : ; 1,96.

100 0,392

0,05 1000 : L 1,96.

1000 , : ; 1,96.

1000 0,124

(42)

Exercício 5

A vida média de baterias automotivas de uma certa marca está sendo estudada. Baseado em estudos similares, com outras marcas, é possível admitir que a vida dessas

baterias segue a distribuição normal com desvio padrão de 4,5 meses.

De qual tamanho deverá ser a amostra, para que a

amplitude do intervalo de 90% de confiança para a vida média seja de 3 meses?

(43)

Intervalos de Confiança

O Teorema Central do Limite também no diz que a

distribuição de probabilidade do estimador da proporção de determinada característica, quando é grande o suficiente se aproxima de uma distribuição normal:

Y Y

j !kj

\

→5 T 0,1

Logo, analogamente ao que foi feito para a média, pode-se

construir um intervalo de confiança para a proporção em uma população com base na proporção amostral:

<̂ L ab # . Y Y ,<̂ ; ab # . Y Y

(44)

Intervalos de Confiança

Não é possível utilizar o intervalo de confiança

encontrado, já que não conhecemos o valor de <. Sendo assim, são propostas as soluções abaixo:

Substituir < por (intervalo otimista)

<̂ L ab # . Y Y ,<̂ ; ab # . Y Y

Substituir

< 1 L <

por (, valor máximo que

< 1 L <

pode alcançar (intervalo conservador)

<̂ L a

b #

.

(

, <̂ ; a

b #

.

(

(45)

Exercício 6

Pretende-se estimar a proporção < de cura, através do uso de um certo medicamento em doentes contaminados com cercária, que é uma das formas do verme da

esquistossomose.

Um experimento consistiu em aplicar o medicamento em 200 pacientes, escolhidos ao acaso, e observar que 160 deles foram curados.

O que podemos dizer da proporção < na população em geral, a um nível de 99% de confiança (utilize ambos os intervalos: otimista e conservador)?

Como os dois intervalos calculados se comparam?

Referências

Documentos relacionados

Varjão (2011) [21] desenvolveu funções matemáticas específicas para a linguagem de programação Python, tais como: potência, raiz quadrada, logaritmo e funções

Assim, o sistema metacognitivo, segundo os autores, funcionaria da seguinte maneira: en- quanto a cognição «salta» para o nível meta ocorre o monitoramento do nível objeto por meio

Suponha que tenhamos uma amostra aleatória de tamanho , de tal forma que possamos escrever o modelo de regressão em formato matricial: , em que é. Mostre que o estimador

No que se refere ao tipo de acidentes encontramos apenas diferenças significativas entre os grupos quanto ao facto de os condutores terem estado envolvidos, sendo de realçar

Considera a permanência da televisão na preferência da juventude brasileira e baseia-se em conceitos da Semiótica da Cultura – como texto – e da Teoria das Representações

Serão incluídos na pesquisa todos os pacientes diabéticos que realizaram a primeira consulta médica oftalmológica e que realizaram a investigação de retinopatia diabética por

ESTATÍSTICA.. Uma amostra aleatória de tamanho 100 extraída da população, considerada de tamanho infinito, forneceu uma média amostrai x.. 44) Um oficial estatístico

• Embora se possa definir quantis para qualquer tipo de variável aleatória, só iremos apresentar a definição de quantil para o caso em que a variável aleatória é continua