• Nenhum resultado encontrado

INTRODUÇÃO À ANÁLISE ESTATÍSTICA

N/A
N/A
Protected

Academic year: 2021

Share "INTRODUÇÃO À ANÁLISE ESTATÍSTICA"

Copied!
20
0
0

Texto

(1)

INTRODUÇÃO À ANÁLISE ESTATÍSTICA

VOLUME II

(2)

2

EDIÇÃO, DISTRIBUIÇÃO E VENDAS SÍLABAS & DESAFIOS - UNIPESSOAL LDA. NIF: 510212891

www.silabas-e-desafios.pt info@silabas-e-desafios.pt Sede:

Rua Dorilia Carmona, nº 4, 4 Dt 8000-316 Faro

Telefone: 289805399 Fax: 289805399

Encomendas: encomendar@silabas-e-desafios.pt TÍTULO

INTRODUÇÃO À ANÁLISE ESTATÍSTICA — Volume II AUTORA

PATRÍCIA PINTO 1ª edição Setembro 2015

Sílabas & Desafios, Unipessoal Lda. ISBN: 978-989-98122-4-6

Depósito legal:

Pré-edição, edição, composição gráfica e revisão: Sílabas & Desafios Unipessoal, Lda. Pré-impressão, impressão e acabamentos: Gráfica Comercial, Loulé

Capa: Joana Guita Pinto; http://www.ladybug-ctrlc.com/

Reservados todos os direitos. Reprodução proibida. A utilização de todo, ou partes, do texto, figuras, quadros, ilustrações e gráficos, deverá ter a autorização expressa do autor.

(3)
(4)
(5)

AGRADECIMENTOS

Estou imensamente grata ao Prof. Doutor Pedro Pintassilgo pelo seu interesse e análise crítica relativamente a estes textos. As suas pertinentes sugestões muito têm contribuído para uma melhoria sucessiva deste trabalho. Agradeço também à Fundação para a Ciência e Tecnologia (FCT) que apoia o meu trabalho de investigação no âmbito do Centro de Investigação sobre Espaços e Organizações (CIEO), ao abrigo do projeto UID/SOC/04020/2013.

(6)
(7)

Índice

NOTA INTRODUTÓRIA 13

CAPÍTULO 1. AMOSTRAGEM 15

1.1. POPULAÇÃO E AMOSTRA.AMOSTRAS ALEATÓRIAS E AMOSTRAS NÃO ALEATÓRIAS. 15 1.2. DISTRIBUIÇÃO DE PROBABILIDADE DA POPULAÇÃO E DISTRIBUIÇÕES AMOSTRAIS 18

1.3. MÉDIA E DESVIO PADRÃO DA DISTRIBUIÇÃO AMOSTRAL DE 𝐗 26

1.4. FORMA DA DISTRIBUIÇÃO AMOSTRAL DE 𝐗 30

1.5. PROPORÇÃO DA POPULAÇÃO,PROPORÇÃO DA AMOSTRA E DISTRIBUIÇÃO AMOSTRAL DE

UMA PROPORÇÃO 38

1.6. MÉDIA E DESVIO PADRÃO DA PROPORÇÃO AMOSTRAL 42

1.7. FORMA DA DISTRIBUIÇÃO DE PROBABILIDADE DE UMA PROPORÇÃO AMOSTRAL 43

CAPÍTULO 2. ESTIMAÇÃO PONTUAL 48

2.1. ESTIMAÇÃO PONTUAL E ESTIMAÇÃO POR INTERVALOS. PARÂMETRO,ESTIMADOR E

ESTIMATIVA. 48

2.2. PROPRIEDADES DESEJÁVEIS NUM ESTIMADOR:NÃO ENVIESAMENTO,EFICIÊNCIA E

CONSISTÊNCIA. 52

2.2.1. NÃO ENVIESAMENTO 52

2.2.2. EFICIÊNCIA 57

2.2.3. CONSISTÊNCIA 61

2.3. O MÉTODO DE ESTIMAÇÃO DA MÁXIMA VEROSIMILHANÇA 68

CAPÍTULO 3. INTERVALOS DE CONFIANÇA 80

3.1. OCONCEITO DE INTERVALO DE CONFIANÇA 80

3.2. INTERVALO DE CONFIANÇA PARA A MÉDIA DA POPULAÇÃO QUANDO O DESVIO PADRÃO É

CONHECIDO. 81

3.3. INTERVALO DE CONFIANÇA PARA A MÉDIA DA POPULAÇÃO QUANDO O DESVIO PADRÃO É

DESCONHECIDO. 92

3.4. INTERVALOS DE CONFIANÇA PARA A DIFERENÇA ENTRE DUAS MÉDIAS 97

3.4.1. AMOSTRAS INDEPENDENTES 97

3.4.2. AMOSTRAS EMPARELHADAS 105

3.5. INTERVALO DE CONFIANÇA PARA UMA PROPORÇÃO 110

3.6. INTERVALO DE CONFIANÇA PARA A DIFERENÇA ENTRE DUAS PROPORÇÕES 113

CAPÍTULO 4. TESTES DE HIPÓTESES 116

4.1. GENERALIDADES SOBRE TESTES DE HIPÓTESES 116

4.1.1. CONCEITO E OBJETIVOS DE UM TESTE DE HIPÓTESES 116

4.1.2. AHIPÓTESE NULA E A HIPÓTESE ALTERNATIVA 117

(8)

8

4.1.4. TIPOS DE ERROS 121

4.1.5. TIPOS DE TESTES DE HIPÓTESES 123

4.2. TESTES DE HIPÓTESES SOBRE A MÉDIA DA POPULAÇÃO 129

4.3. CÁLCULO DA PROBABILIDADE DE UM ERRO DO TIPO II 141

4.4. TESTES DE HIPÓTESES ATRAVÉS DO P-VALUE 146

4.5. TESTES DE HIPÓTESES SOBRE A PROPORÇÃO DA POPULAÇÃO 152

4.6. TESTES DE HIPÓTESES SOBRE A DIFERENÇA ENTRE DUAS MÉDIAS 156

4.6.1. AMOSTRAS INDEPENDENTES 157

4.6.2. AMOSTRAS EMPARELHADAS 162

4.7. TESTES DE HIPÓTESES SOBRE A DIFERENÇA ENTRE DUAS PROPORÇÕES 167

4.8. ANÁLISE DO PRESSUPOSTO DE NORMALIDADE 171

4.8.1. TESTE DE KOLMOGOROV-SMIRNOV 172

4.8.2. OGRÁFICO Q-Q 177

CAPÍTULO 5. ANÁLISE DE VARIÂNCIA 180

5.1. A DISTRIBUIÇÃO F 180

5.2. ANÁLISE DE VARIÂNCIA COM CLASSIFICAÇÃO SIMPLES 182

5.2.1. OS OBJETIVOS DA ANÁLISE DE VARIÂNCIA COM CLASSIFICAÇÃO SIMPLES 182 5.2.2. OS PRESSUPOSTOS DE APLICAÇÃO DA ANOVA COM CLASSIFICAÇÃO SIMPLES 188

5.2.3. AESTATÍSTICA DO TESTE (CASO EM QUE AS AMOSTRAS TÊM A MESMA DIMENSÃO) 188 5.2.4. AESTATÍSTICA DO TESTE (CASO EM QUE AS AMOSTRAS NÃO TÊM A MESMA DIMENSÃO) 199

5.3. ANÁLISE DE VARIÂNCIA COM CLASSIFICAÇÃO DUPLA 204

5.4. TESTES À IGUALDADE DE VARIÂNCIAS DE 𝒌 POPULAÇÕES INDEPENDENTES 212

CAPÍTULO 6. TESTES DO QUI-QUADRADO 218

6.1. ADISTRIBUIÇÃO DO QUI-QUADRADO 218

6.2. TESTES DE AJUSTAMENTO 221

6.3. TESTES DE INDEPENDÊNCIA 230

(9)

ÍNDICE

DE

FIGURAS

Figura 1.1. Distribuição de probabilidade da população e distribuição amostral de 𝑋 ... 31

Figura 1.2. Distribuição de probabilidade da população e distribuição amostral de 𝑋 ... 35

Figura 2.1. Função de densidade de probabilidade de um estimador 𝑢 não enviesado ... 53

Figura 2.2. Função de densidade de probabilidade de um estimador v enviesado ... 53

Figura 2.3. Estimador eficiente e estimador não eficiente ... 58

Figura 2.4. Distribuição amostral de 𝑋 e distribuição amostral de 𝑋𝑚𝑒𝑑 ... 60

Figura 2.5. Evolução da distribuição amostral de S à medida que n aumenta ... 63

Figura 2.6. Escolha entre estimadores não enviesados ... 64

Figura 2.7. Escolha entre um estimador enviesado e outro não enviesado ... 64

Figura 2.8. Probabilidade de 𝑋 = 2 para valores distintos de p assumindo que 𝑛 = 8 ... 70

Figura 2.9. A função de verosimilhança e o logaritmo da função de ... 72

Figura 3.1. Intervalo de confiança para μ ... 81

Figura 3.2. Intervalo de confiança para μ ... 83

Figura 3.3. 10 intervalos de confiança μ ... 87

Figura 3.4. Relação entre a curva da distribuição t e a curva da distribuição Z ... 95

Figura 3.5. Distribuição amostral de Z...100

Figura 4.1. Região de rejeição e região de não rejeição no caso de um julgamento em tribunal ...120

Figura 4.2. Teste bilateral ...125

Figura 4.3. Teste unilateral à direita ...127

Figura 4.4. Teste unilateral à esquerda ...128

Figura 4.5. Teste bilateral ...132

Figura 4.6. Teste bilateral ...134

Figura 4.7. Teste unilateral à direita ...135

Figura 4.8. Teste unilateral à direita ...137

Figura 4.9. Teste unilateral à esquerda ...139

Figura 4.10. Teste unilateral à esquerda ...139

Figura 4.11. Teste bilateral ...143

Figura 4.12. Teste bilateral ...144

Figura 4.13. O p-value num teste unilateral à esquerda ...147

Figura 4.14. O p-value num teste unilateral à esquerda ...148

Figura 4.15. O p-value num teste bilateral ...148

Figura 4.16. O p-value num teste unilateral à direita ...150

Figura 4.17. O p-value num teste bilateral ...151

Figura 4.18. Teste bilateral ...155

Figura 4.19. Teste bilateral ...156

Figura 4.20. Teste unilateral à esquerda ...161

(10)

10

Figura 4.22. Teste unilateral à direita ...166

Figura 4.23. Teste unilateral à direita ...166

Figura 4.24. Teste unilateral à direita ...170

Figura 4.25. Teste unilateral à direita ...170

Figura 4.26. Interpretação gráfica da estatística D...173

Figura 4.27. Gráfico Q-Q ...179

Figura 5.1. Curva da distribuição F ...181

Figura 5.2. Distribuição F ...182

Figura 5.3. Dados do quadro 5.5 ...191

Figura 5.4. Dados do quadro 5.2 ...192

Figura 5.5. Distribuição F ...197 Figura 5.6. Distribuição F ...199 Figura 5.7. Distribuição F ...201 Figura 5.8. Distribuição F ...203 Figura 5.9. Distribuição F ...210 Figura 5.10. Distribuição F ...211 Figura 5.11. Distribuição F ...212 Figura 5.12. Distribuição F ...212 Figura 5.13. Distribuição F ...215 Figura 5.14. Distribuição F ...217

Figura 6.1. Curvas relativas a três distribuições do Qui-quadrado ...219

Figura 6.2. Curvas da distribuição do Qui-quadrado ...220

Figura 6.3. Curva da distribuição do Qui-quadrado ...225

Figura 6.4. Curva da distribuição do Qui-quadrado ...227

Figura 6.5. Curvas da distribuição do Qui-quadrado ...229

Figura 6.6. Curva da distribuição do Qui-quadrado ...230

Figura 6.7. Curva da distribuição do Qui-quadrado ...235

(11)

ÍNDICE DE QUADROS

Quadro 1.1. Parte da tabela de números aleatórios ... 18

Quadro 1.2. Quadro de frequências absolutas ... 19

Quadro 1.3. Distribuição de probabilidade da população... 19

Quadro 1.4. Todas as amostras de dimensão 3 e respetivas médias ... 21

Quadro 1.5. Quadro de frequências absolutas de 𝑿 quando cada amostra tem dimensão 3 .... 21

Quadro 1.6. Distribuição amostral de 𝑿 quando cada amostra tem dimensão 3 ... 22

Quadro 1.7. Distribuição de probabilidade de uma observação individual... 25

Quadro 1.8. Opinião de 5 funcionários relativamente à política de progressão na carreira ... 40

Quadro 1.9. Todas as amostras de dimensão 2 e respetivas proporções amostrais ... 41

Quadro 1.10. Quadro das frequências absolutas de 𝑝 quando a dimensão das amostras é igual a 2 ... 41

(12)
(13)

NOTA INTRODUTÓRIA

Tal como o volume I, o presente manual de Introdução à Análise Estatística II decorre da prática pedagógica da autora na lecionação de unidades curriculares de Estatística e de Análise de Dados em cursos de licenciatura em Economia, Gestão de Empresas e Sociologia na Faculdade de Economia da Universidade do Algarve. Os textos que agora se apresentam visam introduzir o leitor na chamada análise estatística inferencial, um ramo da estatística que procura fazer extrapolações para uma população alvo tendo por base uma amostra representativa dessa população. Neste contexto, são abordados conceitos fundamentais no âmbito da teoria da amostragem e são apresentados alguns instrumentos que permitem fazer essa inferência. À semelhança da abordagem didática que orientou o volume I, o atual volume procura articular a necessária formalização matemática com exemplos práticos de aplicação às Ciências Sociais que permitam a sua fácil compreensão.

O capítulo 1 é dedicado à amostragem e estuda duas distribuições muito importantes na análise estatística: a da média e a da proporção amostrais. O capítulo 2 foca uma das formas de fazer inferência estatística, a chamada estimação pontual, explicando, nomeadamente, as características desejáveis num estimador. O capítulo 3 explora a forma mais comum de inferência que consiste na determinação de intervalos de confiança. Em estreita articulação com este capítulo, o capítulo 4 introduz o conceito de teste de hipóteses e aborda os testes paramétricos mais usados na análise estatística que envolvam uma ou duas variáveis aleatórias. O capítulo 5 dá continuidade aos testes estudados no capítulo anterior, focando o caso particular do teste ANOVA. Por último, o capítulo 6 apresenta dois testes de hipóteses não paramétricos de particular interesse: o teste de ajustamento e o teste de independência.

(14)
(15)

CAPÍTULO 1.

AMOSTRAGEM

A Estatística Indutiva ou Inferência Estatística constitui, talvez, o ramo mais interessante da Estatística. Em termos gerais, o seu objetivo é generalizar as conclusões que se obtêm a partir de um pequeno conjunto de elementos (designado por amostra) a um conjunto mais numeroso (designado por população).

Numa primeira análise, o sucesso da Inferência Estatística depende da forma como a amostra é selecionada. Na verdade, de nada adianta aplicar corretamente as técnicas de Inferência a uma amostra mal escolhida, não representativa da população que se pretende conhecer. Assim, apresentaremos neste capítulo as principais características de uma “boa” amostra, bem como alguns métodos que permitem a sua correta seleção. Outro aspeto importante é que certas características de uma amostra (tais como a sua média, a sua variância, etc.) são também variáveis aleatórias e, como tal, têm uma distribuição de probabilidade. Estas distribuições de probabilidade designam-se por distribuições amostrais. Neste capítulo estudaremos os casos particulares das distribuições da média e da proporção amostrais.

1.1. População e Amostra. Amostras Aleatórias e Amostras Não Aleatórias.

Em Estatística, o termo população não se refere apenas a pessoas mas, também, a objetos e a acontecimentos.

(16)

16

o número de estudantes de uma escola são populações finitas. Já a temperatura em diversos pontos de um país num dado momento e a idade dos edifícios constituem exemplos de populações infinitas.

Para tirar conclusões acerca da população, a Inferência Estatística utiliza uma amostra.

São vários os motivos que podem explicar o uso de uma amostra ao invés da população num estudo estatístico. Apontemos alguns:

(a) A população pode ser muito numerosa ou até infinita;

(b) É mais rápido, mais cómodo e mais económico analisar apenas um número restrito de elementos;

(c) Muitas vezes é necessário fazer testes nocivos e até destrutivos (testes à resistência de objetos, testes de resistência face a certos medicamentos, etc.).

Num estudo estatístico, a forma como a amostra é escolhida é de extrema importância. Uma amostra mal selecionada conduz invariavelmente a resultados errados, ou seja, invalida a Inferência Estatística que se pretenda fazer. De um modo geral, a constituição de uma amostra deve atender aos seguintes princípios:

(1) Imparcialidade: todos os elementos da população devem ter a mesma oportunidade de fazer parte da amostra;

(2) Representatividade: a amostra deve conter, em proporção, todas as características da população (qualitativas e quantitativas);

POPULAÇÃO– conjunto de entidades (pessoas, objetos ou acontecimentos) com qualquer característica em comum e com interesse para o estudo.

AMOSTRA – subconjunto da população que se supõe representativo desta.

(17)

{amostragem}

(3) Dimensão: a amostra deve ser tão grande possível, de modo que as características da amostra se aproximem das características da população.

Existem técnicas para a escolha correta de uma amostra. Uma das mais utilizadas é a amostragem aleatória. Defina-se, então, amostra aleatória e amostra não aleatória.

Exemplo 1.1. Suponhamos uma população de estudantes universitários da qual se pretende selecionar uma amostra de dimensão 20. Se escrevermos o nome de cada estudante num pedaço de papel, colocarmos todos os papéis num saco escuro, misturarmos e, seguidamente, tirarmos 20 papéis, obtemos uma amostra aleatória de 20 estudantes. Mas, se em vez disso, ordenarmos os nomes dos estudantes por ordem alfabética e escolhermos os 20 primeiros, a amostra resultante será não aleatória uma vez que os estudantes que não se encontrarem entre os 20 primeiros não terão qualquer hipótese de serem escolhidos.

Uma amostra aleatória é, em geral, representativa da população.

No exemplo 1.1, vimos uma forma de escolher uma amostra aleatória. O uso de uma tabela de números aleatórios constitui outra forma de atingir este objetivo. Vejamos um exemplo.

Exemplo 1.2. Considere-se um grupo de 200 pessoas do qual se pretende escolher uma amostra aleatória de 20. Para tal, ordenavam-se alfabeticamente os nomes das 200 pessoas e atribuía-se um número de três dígitos a cada uma delas (de 001 a 200). Seguidamente, usávamos a tabela

AMOSTRA ALEATÓRIA e AMOSTRA NÃO ALEATÓRIA – a amostra é aleatória se todos os elementos da população tiveram oportunidade dela fazerem parte. Caso contrário, ou seja, se alguns elementos da população não tiverem tido qualquer hipótese de serem escolhidos, a amostra diz-se não aleatória.

(18)

18

de números aleatórios para selecionar as 20 pessoas. Assim, escolhemos um número qualquer da tabela (quadro 1.1) e, a partir desse número, seguimos em qualquer direção (por exemplo, para a direita).

Quadro 1.1. Parte da tabela de números aleatórios 13054 85132 32747 17728 96544 92603 74990 98288 67295 00694 97456 38430 53637 28861 59063 72453

Suponhamos que começávamos com o primeiro número do quadro 1.1 (parte da tabela de números aleatórios). Esse número é o 13049. Uma vez que estamos interessados em números de três dígitos, vamos considerar apenas os três primeiros dígitos do número 13054: 130. Assim, a pessoa identificada com o número 130 seria a primeira a fazer parte da amostra. O número aleatório imediatamente à direita é o número 85132 do qual nos interessa apenas os três primeiros dígitos: 852. Este número não seria considerado visto apenas nos interessar números entre 001 e 200. O mesmo se passa com o número imediatamente à direita, 32747. Passávamos, então, para o número seguinte, 17728. Os três primeiros dígitos são 177 e, consequentemente, a pessoa identificada com o número 177 seria a segunda a fazer parte da amostra. Este processo seria repetido até termos selecionado as 20 pessoas.

1.2. Distribuição de Probabilidade da População e Distribuições Amostrais

Nesta secção vamos abordar os conceitos de distribuição de probabilidade da população e distribuição de probabilidade de uma amostra. Para que seja clara a distinção entre as duas distribuições, considere-se o seguinte exemplo:

(19)

{amostragem}

e 5 anos de experiência profissional, respetivamente. Seja X a variável aleatória “número de anos de experiência profissional de um funcionário da empresa”. O quadro 1.2. mostra as frequências absolutas do número de anos de experiência profissional dos 5 funcionários.

Quadro 1.2. Quadro de frequências absolutas X Frequência absoluta 5 1 7 2 8 1 12 1 N = 5

Observe-se que, neste caso, a população é constituída pelos números 7, 8, 12, 7 e 5 que correspondem ao número de anos de experiência profissional dos funcionários da empresa.

Dividindo as frequências absolutas do quadro 1.2 pelo número total de funcionários, obtemos as frequências relativas, que podem ser usadas como probabilidades. O quadro 1.3 lista todos os valores que a variável aleatória X pode assumir e as respetivas probabilidades. Dito de outra forma, o quadro 1.3 apresenta a distribuição de probabilidade da população.

Quadro 1.3. Distribuição de probabilidade da população

X P(X) 5 1/5 = 0.2 7 2/5 = 0.4 8 1/5 = 0.2 12 1/5 = 0.2 ∑ = 𝟏

(20)

20

Com base na distribuição de probabilidade da população, podemos calcular os seus parâmetros, 𝜇 e 𝜎. Assim, vem:

𝜇 = 5 × 0.2 + 7 × 0.4 + … + 12 × 0.2 = 7.8;

𝜎 = √(5 − 7.8)2× 0.2 + (7 − 7.8)2× 04 + … + (12 − 7.8)2× 0.2 =

= 2.32.

Existe uma diferença muito importante entre a média da população, 𝜇, e a média de uma amostra, 𝑋̅. A média da população é sempre a mesma, isto é, nunca varia. Pelo contrário, o valor da média da amostra depende dos elementos que a constituem. De facto, se tivermos várias amostras de igual dimensão de uma mesma população e calcularmos a média de cada uma dessas amostras, obtemos diferentes valores para 𝑋̅. Portanto, a média amostral, 𝑋̅, é uma variável aleatória uma vez que depende da amostra que é aleatoriamente selecionada. Como qualquer variável aleatória, 𝑋̅ tem uma distribuição de probabilidade, designada por distribuição amostral de 𝑋̅. O desvio padrão da amostra, a mediana e outras estatísticas amostrais têm também uma distribuição de probabilidade.

Voltemos ao exemplo para ilustrar a distribuição de probabilidade de 𝑋̅. Assim, admita-se que pretendemos formar todas as possíveis amostras de dimensão 3 (sem reposição) a partir do número de anos de experiência profissional dos 5 funcionários da empresa. O cálculo combinatório indica quantas amostras de dimensão 3 é possível formar a partir de 5 elementos.

𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑠 = (5 3) =

5!

3! (5 − 3)!= 10 DISTRIBUIÇÃO DE PROBABILIDADE DA POPULAÇÃO – lista de valores que a população pode assumir e respetivas probabilidades.

Referências

Documentos relacionados

O programa do SEI intitulado “Uma Autoridade Geral Fala a Nós” será transmitido pelo sistema de satélites da Igreja na sexta-feira, 8 de fevereiro de 2013, com

Inalação : Não apresentou efeitos significativos ou riscos críticos.. Não apresentou efeitos significativos ou

Classes Freq.rel.. b) Utlizando a tabela anterior, obtenha um valor aproximado para o valor médio da distribuição de amostragem da Média, para amostras de dimensão

Suponha que o desvio padrão desta população é σ=5 segundos × 10 -9 (unidade utilizada nas medições). Se Newcomb tivesse feito uma única medida, o desvio padrão do

O principal objetivo deste estudo é aplicar técnicas de análise estatística univariada e multivariada, decomposição Wavelet, modelos de Redes Neurais e outras

▷ Introduzir a mangueira de aspiração do disposi- tivo de aspiração utilizado (por ex. Ceramill Airstream) à conexão [7] que se encontra no lado de trás da fresadora.. ▷

tais valores, juntamente com a probabilidade de cada amostra, nos forneceriam a função de distribuição de probabilidades de T , caso fosse possível obter todas as amostra

4 Estatística aplicada às Ciências Sociais 4.1 Técnicas estatísticas e pesquisa social 4.2 Análise exploratória de dados.. 4.3 Introdução à estatística inferencial 4.4