Análise de Dados

(1)

Análise de Dados

Introdução às técnicas de Amostragem

Introdução à Estimação

Introdução aos testes

Métodos não paramétricos

Maria Eugénia Graça Martins

Faculdade de Ciências da Universidade de Lisboa

(2)

(3)

Capítulo 1 – Introdução às técnicas de Amostragem

1.1 Introdução – A Estatística estuda a variabilidade apresentada pelos dados...1

1.2 Probabilidade e Estatística ...2

1.3 Aquisição de Dados ...6

1.3.1 Introdução ...6

1.3.2 Técnicas de amostragem aleatória ...9

1.3.2.1 Amostra aleatória simples...9

1.3.2.2 Amostra aleatória sistemática ...12

1.3.2.3 Amostra estratificada ...13

1.3.2.4 Amostragem por clusters ou grupos ...14

1.3.3 Amostragem não aleatória ...14

1.3.4 Outros tipos de erros num processo de aquisição de dados...14

1.4 Estimador centrado e não centrado. Precisão ...15

1.5 Qual a dimensão que se deve considerar para a amostra...17

1.6 Estimação do valor médio utilizando amostras aleatórias simples ...18

1.6.1 Distribuição de amostragem da média ...19

1.6.1.1 Distribuição de amostragem exacta...19

1.6.1.2 Distribuição de amostragem aproximada ...27

1.6.2 Distribuição aproximada da média, como estimador do valor médio de uma população finita, mas de dimensão suficientemente grande...27

1.7 Distribuição de amostragem da média em amostragem com reposição ...28

1.8 Forma da distribuição de amostragem da média em populações infinitas ou amostragem com reposição ...32

1.8.1 Valor médio e desvio padrão da média ...35

1.8.2 Distribuição da média, para populações normais ...35

1.8.2.1 Desvio padrão σ conhecido ...35

1.8.2.2 Desvio padrão σ desconhecido ...36

1.8.3 Distribuição da média para populações não normais. Teorema Limite Central ...37

1.9 Distribuição de amostragem da proporção...38

1.9.1 Distribuição de amostragem da proporção para populações finitas...38

1.9.2 Distribuição de amostragem da proporção para populações infinitas ou com reposição ...40

Capítulo 2 – Introdução à estimação 2.1 Introdução ...41

2.2 Estimação da proporção. Intervalo de confiança para a proporção...43

2.3 Estimação do valor médio. Intervalo de confiança para o valor médio ...49

2.3.1 Intervalo de confiança para o valor médio – σ conhecido ...49

(4)

3.3 Hipótese nula e Hipótese alternativa; erros de tipo 1 e tipo 2; estatística de teste; região

de rejeição ...63

3.4 Testes de hipóteses para a proporção p ...65

3.4.1 Determinação dos pontos críticos...68

3.4.2 P-Value ...69

3.5 Vamos conversar acerca de testes ...70

3.6 Testes de hipóteses sobre o valor médio...74

3.6.1 P-value ...78

Capítulo 4 – Testes à igualdade de duas populações 4.1 Inferência sobre a diferença entre as proporções de duas populações ...83

4.1.1 Testes de hipóteses sobre a diferença de proporções...84

4.1.2 Intervalo de confiança para a diferença de proporções...85

4.2 Inferência sobre a diferença entre os valores médios de duas populações ...85

4.2.1 Inferência sobre a diferença entre valores médios de populações independentes ...86

4.2.1.1 As populações são normais e as variâncias conhecidas ...87

4.2.1.2 As populações são normais e as variâncias são iguais e desconhecidas – teste t para amostras independentes ...88

4.2.1.3 As populações são normais e as variâncias são diferentes e desconhecidas ...89

4.2.1.4 As populações não são normais e as amostras são de grande dimensão...90

4.2.2 Amostras emparelhadas ...90

4.2.2.1 Populações normais, pequenas amostras – teste t emparelhado...91

4.2.2.2 Grandes amostras...92

4.2.3 Que tipo de planeamento fazer...93

4.3 Teste para a igualdade de variâncias em populações normais ...94

Capítulo 5 – Métodos não paramétricos 5.1 Introdução ...97

5.2 Testes de ajustamento ...99

5.2.1 Introdução ...99

5.2.2 Generalização do modelo Binomial – o modelo Multinomial ...99

5.2.3 Teste de ajustamento do Qui-quadrado ...103

5.2.3.1 Análise de dados qualitativos ...103

5.2.3.2 Análise de dados discretos ...107

5.2.3.3 Análise de dados contínuos ...111

5.2.4 Teste de Kolmogorov-Smirnov...117

5.2.5 Comparação entre os testes do Qui-quadrado e o de Kolmogorov-Smirnov....120

5.3 Problema da localização e da localização e simetria – teste dos sinais e teste de Wilcoxon ...122

(5)

5.3.3.1 Distribuição de amostragem de + n

T ...130

5.3.3.2 Teste de Wilcoxon para amostras emparelhadas ...134

5.3.3.3 O teste de Wilcoxon e o teste-t ...135

5.4 Testes de hipóteses em modelos não paramétricos para testar a homogeneidade de várias populações independentes ...135

5.4.1 Comparação de duas populações independentes ...135

5.4.1.1 Teste de Mann-Whitney-Wilcoxon ...135

5.4.1.1.1 Distribuição de amostragem de Wm,n...136

5.4.1.1.2 O teste de Mann-Whitney-Wilcoxon e o teste-t para duas amostras ...139

5.4.1.1.3 Forma alternativa para a estatística de Mann-Whitney-Wilcoxon ...141

5.4.1.2 Teste de Kolmogorov-Smirnov para duas amostras ...143

5.4.2 Comparação de mais de duas populações independentes...146

5.4.2.1 Teste de Kruskal-Wallis ...146

5.4.2.1.1 Comparações múltiplas ...152

5.4.2.2 Teste do Qui-quadrado em tabelas de contingência para testar a homogeneidade ...153

5.5 Testes de hipóteses em modelos não paramétricos para testar a independência ...156

5.5.1 Teste do Qui-quadrado em tabelas de contingência para testar a independência de duas populações ...156

5.5.2 Coeficiente de correlação ordinal de Spearman...158

5.5.3 Índice de Friedman ...162

Bibliografia

Conover, W.J. (1980) – Practical Nonparametric Statistics, John Wiley & Sons De Veaux, R. Et al. (2004) – Intro Stats, Pearson, Addison Wesley

Graça Martins, M. E. (2005) – Introdução à Probabilidade e à Estatística – Com complementos de Excel, SPE

Graça Martins, M. E. et al. (1999) – Probabilidades e Combinatória, Ministério da Educação, Departamento do Ensino SEcundário

Mendenhall, W., et al. (1987) – Statistics: a Tool for the Social Sciences, PWSKent

Montgomery, D. et al. (1999) – Applied Statistics and Probability for Engineers, John Wiley & Sons, Inc. New York

Murteira, B. et al. (2002) – Introdução à Estatística, McGraw-Hill de Portugal Sprent, P. (1989) – Applied Nonparametric Statistical Methods, Chapman and Hal Tannenbaum. P. et al. (1998) – Excursions in Modern Mathematics, Prentice Hall

(6)

(7)

Introdução às técnicas de amostragem

1

Introdução às técnicas de amostragem. Distribuição de amostragem de algumas estatísticas baseadas em amostras aleatórias simples e em amostragem com

reposição. Estudo dos estimadores Média e Proporção amostral.

1.1 ► Introdução – A Estatística estuda a variabilidade apresentada

pelos dados

Da experiência que temos no dia a dia com os dados já concluímos, com certeza, que estes apresentam variabilidade. Por exemplo é comum que um pacote de açúcar que na embalagem tenha escrito um quilograma, não pese exactamente um quilograma. Por outro lado ao pesar duas vezes o mesmo pacote possivelmente não obteremos o mesmo valor. Assim, ao dizermos que o peso do pacote é um determinado valor, não podemos ter a certeza que esse valor seja correcto. Esta variabilidade está presente em todas as situações do mundo que nos rodeia, pelo que as conclusões que tiramos a partir dos dados que se nos apresentam, têm inerente um certo grau de incerteza.

A Estatística trata e estuda esta variabilidade apresentada pelos dados. Permite-nos a partir dos dados retirar conclusões, mas também exprimir o grau de confiança que devemos ter nessas conclusões. É precisamente nesta particularidade que se manifesta toda a potencialidade da Estatística.

Podemos então, e tal como refere David Moore em Perspectives on Contemporary Statistics, considerar três grandes áreas nesta ciência dos dados:

• Aquisição de dados • Análise dos dados

(8)

Vamos, numa das secções seguintes, abordar o primeiro tema considerado, ou seja o que diz respeito à Aquisição de Dados, numa perspectiva de que pretendemos obter dados, para respondermos a determinadas questões, isto é, para posteriormente retirarmos conclusões para as Populações a partir das quais esses dados são adquiridos – contexto em que tem sentido fazer inferência estatística. Vamos assim, preocupar-nos em obter amostras representativas de Populações que se pretendem estudar.

1.2 ► Probabilidade e Estatística

A Probabilidade é o instrumento que permite ao estatístico utilizar a informação recolhida da amostra para descrever ou fazer inferências sobre a População de onde a amostra foi recolhida. Podemos ainda dizer que os objectivos da Probabilidade e da Estatística são, de certo modo, inversos. Alguns exemplos ajudar-nos-ão a compreender melhor esta ideia.

EXEMPLO 1.1 (Graça Martins, M.E. et al, 1999) Suponha que tem uma moeda equilibrada e que lança a moeda uma série de vezes, registando em cada lançamento a face que fica voltada para cima. O resultado dos registos é uma sucessão de F e de C, onde utilizamos a letra F para designar cara (face) e a letra C para designar coroa. Como admitimos que a moeda é equilibrada, isto é, estamos a adoptar um determinado modelo probabilístico, esperamos que o número de F’s seja aproximadamente metade do número de lançamentos efectuados. Se, por outro lado, considerarmos uma amostra de dimensão 1, isto é, fizermos unicamente um lançamento, dizemos que a probabilidade de obter F é 1/2, já que existe igual possibilidade de obter F ou C (ao dizer que a moeda é equilibrada estamos a atribuir igual probabilidade à saída de cara ou de coroa num lançamento).

Suponha agora que a sua moeda não era equilibrada. Neste caso quando procedemos a vários lançamentos já não sabemos qual a proporção de caras que esperamos obter, uma vez que a População não é perfeitamente conhecida – conhecemos os resultados possíveis em cada lançamento – cara ou coroa, mas o modelo não está completamente especificado, uma vez que as probabilidades associadas a esses resultados não são conhecidas (estamos a assumir que a moeda não é equilibrada). Então um modo possível de obter mais alguma informação sobre o modelo probabilístico é proceder a um certo número de lançamentos e calcular a frequência relativa da saída de cara, nos lançamentos efectuados. Este valor vai-nos servir para estimar a probabilidade da saída de cara. Por exemplo, se em 1000 lançamentos se obtiveram 324 caras, dizemos que um valor aproximado para a probabilidade de se

(9)

verificar cara é 0.324 (ao fim de 1000 lançamentos verificou-se uma certa estabilidade à volta deste valor) e o valor aproximado para a probabilidade de sair coroa será 0.676.

Com este exemplo procuramos exemplificar o papel relativo da Probabilidade e da Estatística:

Enquanto que ao assumirmos um determinado modelo de probabilidade – População conhecida, o que foi feito ao admitir que a moeda era equilibrada, estamos aptos a raciocinar do geral para o particular, isto é, da População para a Amostra, quando a População não é conhecida utilizamos a Estatística para fazer raciocínios no sentido inverso, isto é, inferir para a População resultados observados na Amostra.

Para esclarecer melhor esta ideia, consideremos ainda os seguintes exemplos:

EXEMPLO 1.2 (Adaptado de Murteira, B. et al., 2002) Consideremos um conjunto numeroso de pessoas, por exemplo os alunos matriculados na FCUL no ano lectivo de 2005/2006. Relativamente a esta população, existe uma percentagem p, de alunos que praticam desporto. Escolhem-se (sem reposição) ao acaso 10 alunos. Se p fosse conhecido, por exemplo 0.3, podíamos calcular a probabilidade de encontrar x praticantes de desporto, com 0≤x≤10, nesse grupo de 10 alunos, probabilidade que se sabe ser determinada pela expressão

⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ x 10 0.3x 0.710-x

Como a população era numerosa, podemos admitir que o número de estudantes que praticam desporto, em 10 estudantes retirados aleatoriamente da população, é bem modelado pelo modelo Binomial, de parâmetros 10 e 0.3 (a composição da população praticamente não se altera, quando retiramos alguns elementos, pelo que podemos admitir que temos provas de Bernoulli). Trata-se de um problema de probabilidade. Pode, no entanto, suceder, que p seja desconhecido, sendo esta, aliás, a situação mais corrente. Então, neste caso, vamos utilizar a informação sobre o número de praticantes de desporto na amostra de 10, nomeadamente a proporção x/n, para tirar conclusões sobre a proporção de praticantes de desporto da população. Trata-se de um problema de inferência estatística.

EXEMPLO 1.3 Sabe-se que determinado tipo de componentes electrónicas tem um tempo de vida que não depende da idade, isto é, a falha pode ocorrer em qualquer instante e não depende de há quanto tempo as componentes já estão em funcionamento. Sabe-se ainda que estas componentes podem falhar em qualquer altura, não tendo, portanto, um tempo de garantia. Se se souber que o tempo médio θ até à falha é 100 horas, então o tempo de vida T, deste tipo de componentes, pode ser bem

(10)

modelado por uma exponencial, com função densidade de probabilidade e função distribuição, respectivamente f (t) = 100 1 exp(-100t ), t>0 e F(t) = 1 – exp(-100 t ₎

Então, assumindo o modelo anterior, podemos calcular, por exemplo, a probabilidade de uma destas componentes não falhar antes de 200 horas:

P(T>200) = 1 – F(200) = exp(-2) = 0.135

Na realidade, a situação corrente é que aquele valor médio θ é desconhecido e o modelo probabilístico para o tempo de vida das componentes é conhecido a menos de um parâmetro, sendo a sua função densidade

f(t) = θ 1

exp(-θt ), θ>0, t>0

Como estimar θ? Um estimador natural é considerar uma amostra de n componentes que se colocam em teste, observar os tempos até à falha e tomar a média desses tempos, como estimativa do tempo médio até à falha, já que, no modelo exponencial tal como foi apresentado anteriormente, o parâmetro θ é o valor médio de T.

EXEMPLO 1.4 Numa Universidade os inquéritos pedagógicos são lidos através de leitura óptica. Sabe-se que estes leitores, embora raramente, podem cometer alguns erros. Um processo de controlar a qualidade da leitura é seleccionar aleatoriamente uns tantos inquéritos e verificar quantos erros foram cometidos pela leitura óptica, em cada um dos inquéritos.

Admitindo que o número de erros, Z, por inquérito, pode ser bem modelado por uma Poisson, temos para função massa de probabilidade da v.a. Z

P(Z=k) = exp-λ ! k k λ , k=0, 1, 2, ...

Se soubermos que, em média, se detectam 0,2 erros por página, podemos calcular, por exemplo, a probabilidade de não encontrarmos nenhum erro num inquérito escolhido aleatoriamente. Efectivamente, neste caso, λ=0.2, pelo que a probabilidade pretendida será P(Z=0) = exp(-0.2) (0.2)0_{/0!= 0,82. No}

entanto, numa situação em que, à partida, não se conheça o desempenho dos leitores ópticos, terá de se estimar o parâmetro λ. Uma estimativa para este parâmetro obtém-se seleccionando alguns inquéritos já lidos, e depois de contar o número de erros cometidos em cada um, calcular a média dos valores obtidos.

(11)

grupo sanguíneo. Qual a probabilidade de, em certo dia, só encontrarem um indivíduo de grupo O RH-, ao 10 indivíduo que abordam? Estamos numa situação em que temos uma população constituída por indivíduos pertencentes a uma de 2 categorias – ter sangue O RH-, ou não ter este tipo de sangue. Pretendemos fazer um raciocínio probabilístico sobre a variável aleatória X, que representa o número de indivíduos inquiridos (insucessos) até se encontrar um com sangue O RH- (sucesso). Para obter um modelo probabilístico para esta variável aleatória, vamos começar por admitir que desta experiência aleatória, que consiste em perguntar a cada indivíduo o seu grupo sanguíneo, resultam provas de Bernoulli: efectivamente em cada prova podemos ter sucesso ou insucesso e podemos considerar as provas independentes, com probabilidade de sucesso constante, uma vez que, embora a população seja finita, as provas ainda podem ser consideradas independentes, pois a dimensão da amostra seleccionada é muito pequena, quando comparada com a dimensão da população.

Então, se representarmos por p a proporção de indivíduos da população com sangue O RH-, um modelo para X (modelo geométrico) será

P(X=k) = (1-p)k-1_{p, k=1, 2, ...}

Se conhecermos o valor de p, por exemplo, 6%, podemos calcular a probabilidade pretendida: P(X=10) = (1-0.06)9 0.06 = 0.034

E se a probabilidade p for desconhecida? Neste caso temos de a estimar. Tendo em consideração que o valor médio de X é 1/p, uma estimativa natural para p pode ser obtida recolhendo uma amostra, em que cada elemento é o número de indivíduos abordados até se obter sucesso, calcular a média dessa amostra e considerar como estimativa de p, o inverso da média obtida.

EXEMPLO 1.6 O sr. Silva, industrial têxtil, decidiu começar a fabricar camisas de homem, destinadas a serem vendidas em Portugal. Precisava de ter alguma informação sobre os moldes que devia utilizar, nomeadamente sobre o comprimento R, adequado para as mangas. Um estatístico, a quem pediu ajuda, passado algum tempo, sugeriu-lhe o modelo Normal. O sr. Silva ficou muito espantado, pois tinha alguns estudos, embora poucos, de Estatística e uma das coisas que se lembrava era de que o suporte do modelo Normal era R. Ora nós sabemos que o comprimento do braço é necessariamente positivo! Na verdade, o que acontece é que se tentassemos encontar um modelo com suporte positivo, teríamos grandes dificuldades e na realidade, adoptando um modelo normal, com valores convenientes para os parâmetros valor médio (μ) e desvio padrão (σ), podemos verificar, que a probabilidade de obtermos valores para R inferiores a determinado valor é praticamente nula. Estes valores convenientes são estimados a partir de uma amostra de comprimentos de braços de homem, para a qual se calculam a média e o desvio padrão, que são utilizados como estimativas dos parâmetros desconhecidos.

(12)

Os exemplos apresentados anteriormente mostram a importância de encontrarmos modelos probabilísticos para as situações reais descritas. Em algumas das situações tivémos de propor modelos que não descrevem perfeitamente a situação real, mas que consideramos úteis, pois nos permitem tomar decisões. Nesta reflexão sobre qual o modelo a adoptar para traduzir um fenómeno aleatório, vem a propósito lembrar o que diz Box:

Todos os modelos são maus, alguns são úteis

Na secção seguinte abordamos o problema da aquisição de dados e a sua importância e cuidados necessários para, numa fase seguinte, procedermos a inferências sobre as populações de onde os dados foram retirados.

1.3 ► Aquisição de dados

1.3.1 ► Introdução

Abordaremos de seguida (Graça Martins, M. E., 2005) algumas das técnicas de aquisição de dados, em que se distinguem as

Sondagens e Experimentações (aleatoriezadas)

Gostaríamos desde já de realçar que o objectivo desta secção é o de explorar, de uma forma simples, algumas das técnicas de amostragem, com vista à realização de

sondagens, situações que se encontram de um modo geral nas Ciências Sociais, ao

contrário das Ciências experimentais, tais como Física ou Química, em que a recolha de dados se faz fundamentalmente recorrendo a experiências. Por exemplo, a população constituída pelos eleitores, a população constituída pela contas sedeadas num banco, etc, só contêm um número finito de elementos, ao contrário da População conceptual de respostas geradas por um processo químico.

Não é demais realçar a importância desta fase, a que chamamos de Produção ou Aquisição de Dados. Como é referido em Tannenbaum (1998), página 426: “Behind

every statistical statement there is a story, and like a story it has a beginning, a middle, an end, and a moral. In this first statistics chapter we begin with the beginning, which in

(13)

material of which statistical information is made, and in order to get good statistical information one needs good data”.

Sondagem, População, Amostra População, unidade, amostra

População é o conjunto de objectos, indivíduos ou resultados experimentais acerca do

qual se pretende estudar alguma característica comum. As Populações podem ser finitas ou infinitas, existentes ou conceptuais. Aos elementos da população chamamos

unidades estatísticas.

Amostra é uma parte da população que é observada com o objectivo de obter

informação para estudar a característica pretendida.

O objectivo de uma sondagem é o de recolher informação acerca de uma população, seleccionando e observando um conjunto de elementos dessa população.

Sondagem – Estudo estatístico de uma população, feito através de uma amostra,

destinado a estudar uma ou mais características tais como elas se apresentam nessa população.

Se se observarem todos os elementos da população tem-se um recenseamento

Geralmente, há algumas quantidades numéricas acerca da população que se pretendem conhecer. A essas quantidades chamamos parâmetros. Os parâmetros são estimados por estatísticas, que são números calculados a partir da amostra. Estas quantidades são conceptualmente distintas, pois enquanto a característica populacional pode ser considerada um valor exacto, embora desconhecido, a característica amostral é conhecida, embora contendo um certo erro, inerente à amostra seleccionada, mas que todavia pode ser considerada uma estimativa útil da característica populacional respectiva.

(14)

População

Amostra

Parâmetro Estatística

No entanto, para se poder utilizar as estatísticas – estimadores, para estimar parâmetros é necessário que as amostras sejam representativas das populações de onde foram retiradas.

Amostra enviesada. Amostra aleatória e amostra não aleatória.

Uma amostra que não seja representativa da População diz-se enviesada e a sua utilização pode dar origem a interpretações erradas

Um processo de amostragem diz-se enviesado quando tende sistematicamente a seleccionar elementos de alguns segmentos da População, e a não seleccionar sistematicamente elementos de outros segmentos da População.

Surge assim, a necessidade de fazer um planeamento da amostragem, onde se decide quais e como devem ser seleccionados os elementos da População, com o fim de serem observados, relativamente à característica de interesse.

Amostra aleatória e amostra não aleatória – Dada uma população, uma amostra

aleatória é uma amostra tal que qualquer elemento da população tem alguma probabilidade de ser seleccionado para a amostra. Numa amostra não aleatória, alguns elementos da população podem não poder ser seleccionados para a amostra.

Normalmente obtêm-se amostras enviesadas quando existe a intervenção do factor humano. Com o objectivo de minimizar o enviesamento, no planeamento da escolha da amostra deve ter-se presente o princípio da aleatoriedade de forma a obter uma amostra aleatória.

(15)

Quando se pretende recolher uma amostra de dimensão n, de uma População de dimensão N, podemos recorrer a vários processos de amostragem. Como o nosso objectivo é, a partir das propriedades estudadas na amostra, inferir propriedades para a População, gostaríamos de obter processos de amostragem que dêem origem a “bons” estimadores e consequentemente “boas” estimativas. Acontece que as propriedades dos estimadores, como veremos a seguir, só podem ser estudadas se conseguirmos estabelecer um plano de amostragem que atribua a cada amostra seleccionada uma determinada probabilidade, e esta atribuição só pode ser feita com planos de amostragem aleatórios. Assim, é importante termos sempre presente o princípio da aleatoriedade, quando vamos proceder a um estudo em que procuramos alargar para a População as propriedades estudadas na amostra.

1.3.2

►

Técnicas de amostragem aleatória

Seguidamente apresentaremos algumas dos planeamentos mais utilizados para seleccionar amostras aleatórias. Dos vários tipos de planeamento utilizados, destacam-se os que conduzem a amostras aleatórias simples, amostras sistemáticas e amostras estratificadas.

1.3.2.1

►

Amostra aleatória simples

O plano de amostragem aleatória mais básico é o que permite obter a amostra aleatória simples:

Amostra aleatória simples - Dada uma população, uma amostra aleatória simples de

dimensão n é um conjunto de n unidades da população, tal que qualquer outro conjunto de n unidades teria igual probabilidade de ser seleccionado.

Se uma população tem dimensão N e se pretende uma amostra aleatória simples de

dimensão n, esta amostra é recolhida aleatoriamente de entre todas as

N n ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ amostras

(16)

mesma probabilidade N n ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ −1

de ser seleccionada. Uma amostra destas pode ser

escolhida sequencialmente da população, escolhendo um elemento de cada vez, sem reposição, pelo que em cada selecção cada elemento tem a mesma probabilidade de ser seleccionado. Um esquema de amostragem aleatória simples, conduz a que cada elemento da População tenha a mesma probabilidade de ser seleccionado para a

amostra, podendo-se demonstrar que é igual a

n

N

1_{. No entanto existem outros}

esquemas de amostragem em que cada elemento tem igual probabilidade de ser seleccionado, sem que cada conjunto de n elementos tenha a mesma probabilidade de ser seleccionado. É o que se passa com a amostragem aleatória sistemática, em determinadas situações particulares.

Como seleccionar uma amostra aleatória simples?

1. Para seleccionar uma amostra aleatória simples, teoricamente o processo mais simples consiste em colocar objectos identificadores (bolas, bocados de papel de igual dimensão, etc) de todos os elementos da população numa caixa, e retirar um a um, sequencialmente, sem reposição. Os elementos seleccionados serão observados relativamente à característica de interesse.

2. O processo anterior é pouco prático, pelo que é normalmente substituído por uma selecção feita utilizando uma tabela de dígitos aleatórios:

Dígitos aleatórios (ou números aleatórios) - Uma tabela de dígitos aleatórios é uma

listagem dos dígitos 0, 1, 2, 3, 4, 5, 6, 7, 8 ou 9 tal que:

- qualquer um dos dígitos considerados tem igual possibilidade de figurar em qualquer posição da lista;

- a posição em que figura cada dígito é independente das posições dos outros dígitos.

1_{O nº de amostras de n elementos que não contêm um dado elemento é}

⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − n 1 N

. A probabilidade de qualquer elemento não ser ⎞

(17)

Apresenta-se a seguir um extracto de uma tabela de números aleatórios (Moore, 1997). O facto de os dígitos se apresentarem agrupados 5 a 5 é só para facilidade de leitura.

Linha 101 19223 95034 05756 28713 96409 12531 42544 82853 102 73676 47150 99400 01927 27754 42648 82425 36290 103 45467 71709 77558 00095 32863 29485 82226 90056 104 52711 38889 93074 60227 40011 85848 48767 52573 105 95592 94007 69971 91481 60779 53791 17297 59335 106 68417 35013 15529 72765 85089 57067 50211 47487 107 82739 57890 20807 47511 81676 55300 94383 14893 108 60940 72024 17868 24943 61790 90656 87964 18883 109 36009 19365 15412 39638 85453 46816 83485 41979

A partir da tabela de dígitos aleatórios podem-se obter números aleatórios de 2 dígitos - qualquer par dos 100 pares possíveis 00, 01, …98, 99, tem igual probabilidade de ser seleccionado, de 3 dígitos - qualquer triplo dos 1000 triplos possíveis 000, 001, …998, 999, tem igual probabilidade de ser seleccionado, etc, tomando os dígitos da tabela 2 a 2, 3 a 3, etc, a partir de uma linha qualquer e percorrendo-a da esquerda para a direita. Para seleccionar uma amostra de uma população utilizando a tabela procede-se em duas etapas:

1. atribui-se um número a cada elemento da população. Esta atribuição terá de ser feita com as devidas precauções, de forma a que cada número tenha o mesmo número de dígitos, para ter igual probabilidade de ser seleccionado; 2. a partir da tabela escolhe-se uma linha ao acaso e começa-se a percorrê-la da

esquerda para a direita, tomando de cada vez os dígitos necessários.

EXEMPLO 1.7 Considerando a população constituída por 18 alunos de uma turma, vamos numerá-los com os números 01, 02, 03, …, 17, 18 (podia ser utilizado qualquer outro conjunto de 18 números de 2 dígitos). Para seleccionar uma amostra de dimensão 4 fixamo-nos numa linha qualquer da tabela, por exemplo a linha 107 e começamos a seleccionar os números de dois dígitos, tendo-se obtido:

82 73 95 78 90 20 80 74 75 11 81 67 65 53 00 94 38 31 48 93 60 94 07 20 24 17 86 82 49 43 61 79 09

(18)

Tivemos de ler 33 números, dos quais só aproveitámos 4, pois os outros não correspondiam a elementos da população.

Como obter uma tabela de números aleatórios?

Um processo poderá consistir em meter numa caixa 10 bolas numeradas de 0 a 9 e fazer várias extracções de uma bola, tantas quantas os dígitos que se pretendem para constituir a tabela. De cada vez que se faz uma extracção, lê-se o número da bola, aponta-se e repõe-se a bola na caixa - extracção com reposição. Com este processo qualquer dígito tem igual probabilidade de ser seleccionado. Além disso a saída de qualquer um dos dígitos em qualquer momento, é independente dos dígitos que já saíram anteriormente.

Além das tabelas de números aleatórios também existe a possibilidade de utilizar o computador para os gerar ou uma simples máquina de calcular. Este é o processo mais utilizado hoje em dia, mas convém ter presente que os números que se obtêm são

pseudo-aleatórios, já que é um mecanismo determinista que lhes dá origem, embora se

comportem como números aleatórios (passam numa bateria de testes destinados a confirmar a sua aleatoriedade). Sugere-se a utilização do Excel para seleccionar amostras aleatórias simples2.

1.3.2.2 ► Amostra aleatória sistemática

Na prática o processo de seleccionar uma amostra aleatória simples de uma população com grande dimensão, não é tão simples como o descrito anteriormente. Se a dimensão da população for grande o processo torna-se muito trabalhoso. Então uma alternativa é considerar uma amostra aleatória sistemática. Por exemplo, se pretendermos seleccionar uma amostra de 150 alunos de uma Universidade com 6000 alunos, considera-se um ficheiro com o nome dos 6000 alunos ordenados por ordem alfabética. Considera-se o quociente 6000/150=40 e dos primeiros 40 elementos da lista, selecciona-se um aleatoriamente. A partir deste elemento seleccionamos sistematicamente todos os elementos distanciados de 40 unidades. Assim, se o elemento seleccionado aleatoriamente de entre os primeiros 40, foi o 27, os outros

(19)

elementos a serem seleccionados são 67, 107, 147, etc. Obviamente que o quociente entre a dimensão da população e a da amostra não é necessariamente inteiro, como anteriormente, mas não há problema pois considera-se a parte inteira desse quociente.

Amostra aleatória sistemática – Dada uma população de dimensão N, ordenada por

algum critério, se se pretende uma amostra de dimensão n, escolhe-se aleatoriamente um elemento de entre os k primeiros, onde k é a parte inteira do quociente N/n. A partir desse elemento escolhido, escolhem-se todos os k-ésimos elementos da população para pertencerem à amostra.

A amostra aleatória sistemática não é uma amostra aleatória simples, já que nem todas as amostras possíveis de dimensão n, têm a mesma probabilidade de serem seleccionadas. No entanto, se o quociente N/n for inteiro, mostra-se que a probabilidade de qualquer elemento ser seleccionado é igual a n/N3.

1.3.2.3

►

Amostra estratificada

Pode acontecer que a população possa ser subdividida em várias subpopulações, mais ou menos homogéneas relativamente à característica a estudar. Por exemplo, se se pretende estudar o salário médio auferido pelas famílias lisboetas, é possível dividir a região de Lisboa segundo zonas mais ou menos homogéneas, estratos, quanto à característica em estudo – salário médio, e posteriormente extrair de cada um destes estratos uma percentagem de elementos que irão constituir a amostra, sendo esta percentagem, de um modo geral, proporcional à dimensão dos estratos.

Amostra estratificada – Divide-se a população em várias subpopulações – estratos, e

de cada uma destes estratos extrai-se aleatoriamente uma amostra. O conjunto de todas estas amostras constitui a amostra pretendida.

EXEMPLO 1.8 - Suponhamos que se pretendia estudar o volume das vendas de prestação de serviços, das empresas de construção civil. Podemos à partida considerar a População das empresas

3_{Pensemos nos N elementos colocados em circulo e seja N=nk. Comecemos por fixar uma posição inicial j. A probabilidade de um}

elemento A ser seleccionado é igual a

∑

= N

1 j

(

P A ε amostra/ posição inicial é j) P(posição inicial ser j) =

N n N 1 N n N 1 j = ×

∑

= .

(20)

divididas em 3 estratos, quanto ao número de trabalhadores que emprega: pequenas - 10 ou menos trabalhadores, médias - entre 11 e 40 e grandes - mais de 41 trabalhadores. Uma vez identificados os estratos, procede-se numa segunda etapa à recolha de uma amostra aleatória simples dentro de cada estrato. Admitindo que a População em estudo é constituída por 500 empresas, das quais 55% são pequenas, 35% são médias e 10% são grandes e que a dimensão da amostra pretendida é de 85, seleccionaríamos amostras de dimensão 47 (85x0.55=46.75), 30 (85x0.35=29.75) e 8 (85x0.10=8.5), respectivamente do conjunto das pequenas, das médias ou das grandes empresas.

Existe um tipo de amostragem não aleatória, muito semelhante à amostragem estratificada, que é a amostragem por quotas. Neste tipo de amostragem, consideram-se os estratos, mas depois em vez de se recolher uma amostra aleatória de dentro de cada estrato, extrai-se uma amostra não aleatória, de dimensão proporcional à do estrato na população.

1.3.2.4

►

Amostragem por “clusters” ou grupos

Por exemplo, suponha que se pretende estudar o nível de satisfação dos trabalhadores têxteis, das empresas do Norte do País. Não dispondo de uma lista com todos os trabalhadores, considera-se uma lista de todas as empresas têxteis – “clusters”, admitindo-se que o conjunto de trabalhadores de cada empresa caracteriza convenientemente a população que se pretende estudar. A partir dessa lista seleccionam-se aleatoriamente algumas empresas e considera-se a amostra constituída por todos os trabalhadores das empresas seleccionadas.

Amostra por clusters – A população é dividida em clusters, onde cada cluster é

representativo da população. Selecciona-se aleatoriamente um conjunto de clusters e a amostra é constituída por todos os elementos dos clusters seleccionados.

1.3.3 ► Amostragem não aleatória

Amostragem por conveniência e amostragem por resposta voluntária são exemplos de amostragem não aleatória.

(21)

1.3.4 ► Outros tipos de erro num processo de aquisição de dados, sem serem erros de amostragem

1 - A população inquirida diferente da população alvo ou população objectivo 2 – Informação recolhida não é verdadeira

3 – Problema da não resposta 4 – Erros de processamento

1.4 ► Estimador centrado e não centrado. Precisão

Uma vez escolhido um plano de amostragem aleatório, ao pretendermos estimar um parâmetro, pode ser possível utilizar várias estatísticas (estimadores) diferentes. Por exemplo, quando pretendemos estudar a variabilidade presente numa População, que pode ser medida pela variância populacional σ2_{, sabemos que podemos a partir de uma}

amostra, obter duas estimativas diferentes para essa variância, a partir das expressões

s2 = (xi−x ) 2 i=1 n

∑

n−1 ou s’ 2 = (x_i−x )2 i=1 n

∑

n

Quais as razões que nos podem levar a preferir uma das estatísticas relativamente à outra?

Um critério que costuma ser aplicado é o de escolher um “bom” estimador como sendo aquele que é centrado e que tem uma boa precisão. Escolhido um plano de amostragem, define-se:

Estimador centrado – Um estimador diz-se centrado quando a média das estimativas

obtidas para todas as amostras possíveis que se podem extrair da População, segundo o esquema considerado, coincide com o parâmetro a estimar. Quando se tem um estimador centrado, também se diz que é não enviesado.

No capítulo seguinte abordaremos com mais detalhe este assunto do não enviesamento dos estimadores. Veremos assim, que uma das razões que nos levam a preferir o estimador S2 para a variância, relativamente a S’2, é o facto de praticamente não apresentar enviesamento (Mostra-se mais à frente que E(S2₎₌

1 − N

(22)

Para se evitar o enviesamento, é necessário estarmos atentos, primeiro na escolha do plano de amostragem e depois na escolha do estimador utilizado para estimar o parâmetro desconhecido. O facto de utilizarmos um estimador centrado, não nos previne contra a obtenção de más estimativas, se o plano de amostragem utilizado, sistematicamente favorecer uma parte da População (isto é, fornecer amostras enviesadas).

Precisão - Ao utilizar o valor de uma estatística para estimar um parâmetro, vimos que

cada amostra fornece um valor para a estatística que se utiliza como estimativa desse parâmetro. Estas estimativas não são iguais devido à variabilidade presente na amostra. Se, no entanto, os diferentes valores obtidos para a estatística forem próximos, e o estimador for centrado, podemos ter confiança de que o valor calculado a partir da amostra recolhida (na prática recolhe-se uma única amostra) está próximo do valor do parâmetro (desconhecido).

A falta de precisão juntamente com o problema do enviesamento da amostra são dois tipos de erros com que nos defrontamos num processo de amostragem (mesmo que tenhamos escolhido um “bom” estimador). Não se devem, contudo, confundir. Enquanto o enviesamento se manifesta por um desvio nos valores da estatística, relativamente ao valor do parâmetro a estimar, sempre no mesmo sentido, a falta de precisão manifesta-se por uma grande variabilidade nos valores da estatística, uns relativamente aos outros. Por outro lado, enquanto o enviesamento se reduz com o recurso a amostras aleatórias, a precisão aumenta-se aumentando a dimensão da amostra.

Como veremos a seguir o estudo de um estimador é feito através da sua distribuição de

amostragem, ou seja, da distribuição dos valores obtidos pelo estimador, quando se

consideram todas as amostras possíveis.

Distribuição de amostragem – Distribuição de amostragem de uma estatística é a

distribuição dos valores que a estatística assume para todas as possíveis amostras, da mesma dimensão, da população.

(23)

A maior parte das vezes não se consegue obter a distribuição de amostragem exacta, mas tem-se uma distribuição aproximada, considerando um número suficientemente grande de amostras da mesma dimensão e calculando para cada uma delas uma estimativa do parâmetro em estudo (problema a estudar posteriormente).

1.5 ► Qual a dimensão que se deve considerar para a amostra?

Outro problema que se levanta com a recolha da amostra é o de saber qual a

dimensão desejada para a amostra a recolher. Este é um problema para o qual, nesta

fase, não é possível avançar nenhuma teoria, mas sobre o qual se podem tecer algumas considerações gerais. Pode-se começar por dizer que, para se obter uma amostra que permita calcular estimativas suficientemente precisas dos parâmetros a estudar, a sua dimensão depende muito da variabilidade da população subjacente. Por exemplo, se relativamente à população constituída pelos alunos do 10º ano de uma escola secundária, estivermos interessados em estudar a sua idade média, a dimensão da amostra a recolher não necessita de ser muito grande já que a variável idade apresenta valores muito semelhantes, numa classe etária muito restrita. No entanto se a característica a estudar for o tempo médio que os alunos levam a chegar de casa à escola, já a amostra terá de ter uma dimensão maior, uma vez que a variabilidade da população é muito maior. Cada aluno pode apresentar um valor diferente para esse tempo. Num caso extremo, se numa população a variável a estudar tiver o mesmo valor para todos os elementos, então bastaria recolher uma amostra de dimensão 1 para se ter informação completa sobre a população; se, no entanto, a variável assumir valores diferentes para todos os elementos, para se ter o mesmo tipo de informação seria necessário investigar todos os elementos.

Chama-se a atenção para a existência de técnicas que permitem obter valores mínimos para as dimensões das amostras a recolher e que garantem estimativas com uma determinada precisão exigida à partida. Uma vez garantida essa precisão, a opção por escolher uma amostra de maior dimensão, é uma questão a ponderar entre os custos envolvidos e o ganho com o acréscimo de precisão. Vem a propósito a seguinte frase (Statistics: a Tool for the Social Sciences, Mendenhall et al., 1987, pag. 226):

(24)

"Se a dimensão da amostra é demasiado grande, desperdiça-se tempo e talento; se a dimensão da amostra é demasiado pequena, desperdiça-se tempo e talento".

Convém ainda observar que a dimensão da amostra a recolher não é directamente proporcional à dimensão da população a estudar, isto é, se por exemplo para uma população de dimensão 1000 uma amostra de dimensão 100 for suficiente para o estudo de determinada característica, não se exige necessariamente uma amostra de dimensão 200 para estudar a mesma característica de uma população análoga, mas de dimensão 2000, quando se pretende obter a mesma precisão. Como explicava George Gallup, um dos pais da consulta da opinião pública (Tannenbaum, 1998),: Whether you

poll the United States or New York State or Baton Rouge (Louisiana) … you need … the same number of interviews or samples. It´s no mystery really – if a cook has two pots of soup on the stove, one far larger than the other, and thoroughly stirs them both, he doesn´t have to take more spoonfuls from one than the other to sample the taste accurately”.

Finalmente chama-se a atenção para o facto de que se o processo de amostragem originar uma amostra enviesada, aumentar a dimensão não resolve nada, antes pelo contrário!

1.6 ► Estimação do valor médio utilizando amostras aleatórias

simples

Quando se pretende estimar um parâmetro, uma vez definido o esquema de amostragem, considera-se uma estatística conveniente, isto é, uma função adequada das observações, função esta que para cada amostra observada dará uma estimativa do parâmetro que se pretende estimar. Quando o parâmetro a estimar é o valor médio ou média populacional, então é natural considerar como estimador a função média, que para cada amostra observada dará uma estimativa do parâmetro.

(25)

Como é que podemos saber se a média é um “bom” estimador para o valor médio?

Será que para as diferentes amostras que podemos obter da população, as diferentes estimativas são próximas umas das outras e do parâmetro valor médio? É que se isso acontecer, temos uma certa garantia que a amostra que seleccionámos, já que na prática só se selecciona uma amostra, nos fornece uma estimativa razoável. A resposta à questão anterior á dada construindo a distribuição de amostragem da média, em que, como vimos anteriormente, se define distribuição de amostragem de uma estatística como sendo a distribuição dos valores que a estatística assume para todas as possíveis amostras, da mesma dimensão, da população.

São as distribuições de amostragem das estatísticas que nos vão permitir fazer inferências sobre os parâmetros populacionais correspondentes. A aleatoriedade presente no processo de selecção das amostras, faz com que se possa utilizar a distribuição de amostragem de uma estatística para descrever o comportamento dessa estatística, quando se utiliza para estimar um determinado parâmetro. Podemos dizer que é através da distribuição de amostragem que introduzimos a probabilidade num procedimento estatístico, em que a partir das propriedades estudadas na amostra, procuramos tirar conclusões para a população.

1.6.1 ► Distribuição de amostragem da média, como estimador do valor médio de uma População finita

1.6.1.1 ► Distribuição de amostragem exacta

Seguidamente vamos exemplificar o processo de obtenção da distribuição de amostragem da Média, e consequente estudo das suas propriedades como estimador do valor médio de uma População finita. Vamos considerar uma População de dimensão suficientemente pequena, para que o problema possa ser tratado dentro dos limites do razoável.

(26)

Nº Aluno Peso (kg) Altura (cm) Nº irmãos 1 Maria 12.5 65 0 2 Teresa 11.6 68 1 3 Tiago 13.4 61 0 4 David 14.1 64 1 5 Rita 12.0 59 2 6 Ana 10.8 69 1 7 Joana 11.9 58 0 8 Bernardo 12.7 61 1 9 Leonor 9.6 63 1

Algumas características desta população são:

Val. médio Desvio padrão Mín. Máx. Mediana

Peso 12.07 1.34 9.6 14.1 12 Altura 63.11 3.57 58 69 63 Nº irmãos 0.78 0.67 0 2 1

Esta população é tão pequena, que para a estudar não tivemos necessidade de recorrer a amostras para estimar alguns parâmetros desconhecidos, tais como altura média, peso médio, etc. Vamos, no entanto utilizá-la para exemplificar como se pode estimar a altura média a partir da média de amostras de dimensão 3. Como a nossa População tem dimensão 9, vamos utilizar a porção de tabela de dígitos aleatórios considerada na página 7, seleccionando números de 1 dígito. Considerando ao acaso uma das linhas, por exemplo a linha 104, os elementos seleccionados são o 5, o 2 e o 7, sobre os quais vamos recolher a informação relevante ou seja a altura:

Nº Nome Altura

5 Rita 59

2 Teresa 68

7 Joana 58

A média das alturas observadas é 61.7, que é uma estimativa da altura média da População.

Como neste caso conhecemos o valor do parâmetro, podemos dizer que a estimativa está razoavelmente próxima do parâmetro a estimar. Obviamente que se recolhermos outras amostras, obteremos outras estimativas. Então vamos seleccionar mais 9 amostras de dimensão 3, com o auxílio da tabela:

(27)

Amostra 1 2 3 4 5 6 7 8 9 10 5 59 1 65 8 61 7 58 2 68 1 65 8 61 6 69 3 61 5 59 2 68 3 61 9 63 4 64 7 58 8 61 4 64 7 58 9 63 9 63 7 58 8 61 3 61 6 69 4 64 5 59 7 58 5 59 5 59 2 68

Na obtenção das amostras anteriores tivemos o cuidado de fazer a selecção sem

reposição, o que significa que ao obter cada amostra, um elemento seleccionado não

poderia voltar a ser seleccionado. Também tivemos o cuidado de verificar se as amostras eram todas distintas (constituídas por elementos diferentes). Os valores obtidos para as médias das 10 amostras foram:

Amostra 1 2 3 4 5 6 7 8 9 10 61.7 62.3 61.7 63.7 63.3 61.7 61.0 62.0 61.0 61.5

Obtivemos vários valores diferentes como estimativas, sendo esta variabilidade resultado da variabilidade presente na amostra. Os valores apresentados pelas médias das 10 amostras, não diferem muito entre si, nem do valor do parâmetro. Mas como é que podemos ter a garantia que se recolhermos outra amostra, não vamos obter como estimativa do valor médio da altura, um valor muito diferente do verdadeiro valor do parâmetro? Por outras palavras, gostaríamos de poder responder à seguinte questão: Para este processo de amostragem, como é que podemos concluir que a média (amostral) é um “bom” estimador do valor médio (média populacional)?

Teremos de estudar a distribuição de amostragem da média, que neste caso consiste em estudar como se comporta a distribuição das médias obtidas para as 9

3 ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ = 84

amostras diferentes, de dimensão 3, que se podem extrair da População.

Considerando então todas as amostras aleatórias simples, diferentes, de dimensão 3, obtemos Am. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 68 68 68 68 68 68 68 61 61 61 61 61 61 64 64 64 64 64 59 59 59 61 64 59 69 58 61 63 64 59 69 58 61 63 59 69 58 61 63 69 58 61 média 64.7 65.7 64.0 67.3 63.7 64.7 65.3 63.3 61.7 65.0 61.3 62.3 63.0 62.7 66.0 62.3 63.3 64.0 64.3 60.7 61.7

(28)

Am. 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 65 65 65 65 65 65 65 68 68 68 68 68 68 68 68 68 68 68 68 68 68 59 69 69 69 58 58 61 61 61 61 61 61 61 64 64 64 64 64 59 59 59 63 58 61 63 61 63 63 64 59 69 58 61 63 59 69 58 61 63 69 58 61 média 62.3 64.0 65.0 65.7 61.3 62.0 63.0 64.3 62.7 66.0 62.3 63.3 64.0 63.7 67.0 63.3 64.3 65.0 65.3 61.7 62.7 Am. 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 68 68 68 68 68 68 68 61 61 61 61 61 61 61 61 61 61 61 61 61 61 59 69 69 69 58 58 61 64 64 64 64 64 59 59 59 59 69 69 69 58 58 63 58 61 63 61 63 63 59 69 58 61 63 69 58 61 63 58 61 63 61 63 média 63.3 65.0 66.0 66.7 62.3 63.0 64.0 61.3 64.7 61.0 62.0 62.7 63.0 59.3 60.3 61.0 62.7 63.7 64.3 60.0 60.7 Am. 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 61 64 64 64 64 64 64 64 64 64 64 59 59 59 59 59 59 69 69 69 58 61 59 59 59 59 69 69 69 58 58 61 69 69 69 58 58 61 58 58 61 61 63 69 58 61 63 58 61 63 61 63 63 58 61 63 61 63 63 61 63 63 63 média 61.7 64.0 60.3 61.3 62.0 63.7 64.7 65.3 61.0 61.7 62.7 62.0 63.0 63.7 59.3 60.0 61.0 62.7 63.3 64.3 60.7 Uma vez que o plano de amostragem considerado, foi a amostragem aleatória simples, cada amostra tem igual probabilidade (=1/84) de ser seleccionada, pelo que podemos considerar os diferentes valores obtidos para a variável Média, assim como as respectivas probabilidades – ou seja, estamos em condições de considerar a seguinte função massa de probabilidade para a variável Média, que vamos designar por Média3, para realçar o facto de as amostras a partir das quais se obtiveram os seus valores, terem dimensão 3:

Média3 59.3 60.0 60.3 60.7 61.0 61.3 61.7 62.0 62.3 62.7 63.0 63.3 Prob. 2/84 2/84 2/84 3/84 4/84 4/84 5/84 4/84 5/84 7/84 5/84 6/84 Média3 63.7 64.0 64.3 64.7 65.0 65.3 65.7 66.0 66.7 67.0 67.3 Prob. 5/84 6/84 5/84 4/84 4/84 3/84 2/84 3/84 1/84 1/84 1/84

(29)

Algumas características da variável Média3 são:

Valor médio Desvio padrão Mínimo Máximo Mediana Média3 63.11 1.79 59.3 67.3 62.83

Repare-se que:

• o valor médio da variável Média3 coincide com o valor médio da População – Altura, de onde se recolheram as amostras;

• o desvio padrão da variável Média3 é bastante menor que o da variável Altura.

As observações anteriores permitem-nos concluir que a Média3, como estimador do parâmetro - valor médio da Altura, é um estimador centrado, já que o seu valor médio coincide com parâmetro a estimar.

A partir da distribuição de probabilidade da Média3, podemos ainda concluir que a probabilidade de obtermos estimativas no intervalo [61.3, 65.3] é de 0.75, assim como a probabilidade de obtermos essas estimativas no intervalo [59.5, 66.7] é superior a 95%. Este resultado significa que, ao recolhermos uma amostra de dimensão 3 e ao calcularmos a partir dela uma estimativa para o valor médio, estamos confiantes, com uma confiança superior a 95%, de que essa estimativa não se afasta do parâmetro a estimar de uma distância superior a 3.6, aproximadamente (63.1–59.5=3.61; 66.7–63.1=3.6). Chamamos a atenção para que a confiança anterior, não nos dá a garantia de que a estimativa que nós calculamos, para a amostra seleccionada, esteja naquele intervalo. Temos “fé” que sim!

E se as amostras tiverem maior dimensão? O que é que ganhamos com isso?

Repetindo o processo anterior, mas agora para amostras de dimensão 5, será que a variabilidade apresentada pelo estimador diminui? Já que temos mais informação, é de esperar algum “ganho” na precisão do estimador!

Vamos então considerar a distribuição de amostragem da média para amostras de dimensão 5. O processo é em tudo idêntico ao considerado anteriormente, mas agora será um pouco mais trabalhoso já que o número de amostras distintas, de dimensão 5, que podemos extrair da População de dimensão 9 é 9

5 ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ = 126.

(30)

Os resultados obtidos para a distribuição de amostragem da média, para amostras de dimensão 5, foi: Média5 60.4 60.6 60.8 61.0 61.2 61.4 61.6 61.8 62.0 62.2 62.4 62.6 62.8 63.0 Probab 0.008 0.008 0.008 0.016 0.016 0.032 0.024 0.040 0.040 0.056 0.063 0.048 0.063 0.079 Média5 63.2 63.4 63.6 63.8 64.0 64.2 64.4 64.6 64.8 65.0 65.2 65.4 65.8 Probab 0.063 0.071 0.056 0.056 0.048 0.048 0.048 0.024 0.024 0.024 0.016 0.016 0.008

Algumas características da variável Média5 são:

Valor médio Desvio padrão Mínimo Máximo Mediana Média5 63.11 1.13 60.4 65.8 63.1

Repare-se que:

• o valor médio da variável Média5 coincide com o valor médio da População – variável Altura, de onde se recolheram as amostras;

• o desvio padrão da variável Média3 é bastante menor que o da População – variável Altura e é ainda inferior ao da variável Média3.

Na figura seguinte apresentamos as distribuições de amostragem da Média3 e da Média5:

(31)

Conclusão: a precisão do estimador aumenta, à medida que se aumenta a dimensão da amostra. Recordamos que quanto menor for a variabilidade apresentada pelo estimador, maior é a precisão.

Resultado teórico:

Dada uma População de dimensão N, de valor médio μ e variância σ2_{, quando se} considera um plano de amostragem aleatória simples, e como estimador de μ a Média, calculada a partir de amostras de dimensão n, então:

• O valor médio da Média é μ, isto é, a Média como estimador do valor médio é um estimador centrado;

• A variância da Média é igual a

σ

2

n

(

N -n

N -1

)

• n S ) N n -N ( 2

é um estimador não enviesado da variância da Média

Nota: A demonstração destes resultados é apresentada a seguir, depois de algumas considerações sobre as expressões apresentadas.

A expressão obtida para a variância é muito interessante pela informação que contém. Nomeadamente:

• Confirma o que já havíamos esperado, no sentido de que ao aumentar a dimensão da amostra, aumentamos a precisão do estimador (na medida em que diminui a sua variabilidade).

(32)

• Permite-nos ainda concluir que, para obter a mesma precisão, quando estimamos o valor médio de Populações da mesma dimensão, a dimensão da amostra terá de

ser tanto maior, quanto maior for a variabilidade presente na População.

• Mas mais interessante, embora menos intuitivo, permite-nos concluir que se a

dimensão da População for substancialmente maior que a da amostra, então a precisão do estimador não depende da dimensão dessa População, mas

unicamente da variabilidade aí presente (pois (N-n)/(N-1) ≈1).

Demonstração:

Seja Y1, Y2, ...,Yn uma amostra aleatória simples de uma população de valores {u1, u2, ..., uN}.

Considerando um Yi, tem-se E(Yi)=

∑

=μ

= N 1 N 1 i i u e V(Yi)=

∑

(ui μ =σ2 = N 1 ) - 2 N 1 i

. Representando a média dos

Yi por Y, tem-se E(Y)=

∑

= n 1 i n 1 _E(Y₎

i =μ. Por outro lado,

Cov(Yi, Yj) = E[(Yi -μ)(Yj-μ)]= E(YiYj) – μ2= 2 N 1 i i N j i j i ) u ( ) 1 N ( N u u

∑

= ≠ − N2 1 - = 2 N 1 i i 2 N j i j i ) u ( N 1 ) 1 N ( N u u

∑

= ≠ − − = _⎥⎥⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ − −

∑

= ≠ 2 N 1 i i N j i j i ) u ( N 1 ) 1 N ( u u N 1 ₌ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ − − −

∑

= = = 2 N 1 i i N 1 i 2 i 2 N 1 i i ) u ( N 1 1 N u ) u ( N 1 _{= -} ⎥ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎢ ⎣ ⎡ ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − − −

∑

= = N 1 i 2 N 1 i i 2 i _N₍_N ₁₎ u 1 u 1 N 1 N 1 _{= -} 2 N 1 i i ) u ( ) 1 N ( N 1 ₋_μ −

∑

= = - 1 N 1 − σ 2_.

Como Var(Y) = Var

⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛

∑

= n 1 i i Y n 1 ₌ ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ + σ

∑

∑∑

= < n 1 i i j j i 2 2 2 Cov(Y,Y) n 1 _então Var(Y) = ⎟ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎜ ⎝ ⎛ − σ − + σ

∑

∑∑

= < n 1 i i j 2 2 2 2 _N ₁ n 1 ₌ ⎪⎭ ⎪ ⎬ ⎫ ⎪⎩ ⎪ ⎨ ⎧ ₋ − σ − σ 2 ) 1 n ( n 1 N 2 n n 1 2 2

2 pois há n(n-1)/2 pares (i,j) seleccionados de

entre os inteiros 1,2, ..., n tais que i<j. Portanto Var(Y)= 1 -N n -N n 2 σ

Pode-se ainda mostrar que

n S N n N₋ 2 , com S2=

∑

(

)

= − − n 1 i i Y 1 N 1 2

Y , é um estimador não enviesado de

Var(Y). Efectivamente E(S2) =

1 -NN σ 2_{, donde E(} n S N n N− 2 ) = Var(Y).

(33)

1.6.1.2 ► Distribuição de amostragem aproximada

Quando a população é finita, e a amostragem se faz sem reposição, existem algumas condições necessárias e suficientes para que se possa considerar a distribuição da média aproximada pela distribuição Normal. Não vamos apresentar essas condições, embora admitamos que elas estão satisfeitas e enunciamos o seguinte resultado:

Suponhamos que uma amostra aleatória simples é seleccionada de uma População de dimensão N, em que a variável em estudo tem valor médio μ e variância σ2_{. Então, se a} dimensão n da amostra for suficientemente grande (um valor que é usual considerar como suficientemente grande é 30), a distribuição de amostragem da média pode ser

aproximada pela distribuição Normal com valor médio μ e variância

σ

2

n

(

N -n

N -1

)

. A

aproximação verifica-se para amostras de dimensão suficientemente grande, independentemente da forma da distribuição da População.

O resultado anterior permite concluir que quanto maior for a dimensão da amostra, menor é a variabilidade apresentada pelo estimador.

1.6.2 ► Distribuição de amostragem aproximada da média, como estimador do valor médio de uma População finita, mas de dimensão suficientemente grande

Na maior parte dos casos em que é necessário recolher uma amostra para estudar uma característica de uma População, não se conhece a dimensão desta. Então costuma-se assumir que é suficientemente grande de modo que se diz que se tem uma População de dimensão infinita. Em termos práticos costuma-se considerar que se tem uma população de dimensão infinita quando n≤N/20. Nestas condições o factor (N-n)/(N-1) que aparece na expressão da variância da Média toma um valor aproximadamente igual a 1, pelo que temos o seguinte resultado, conhecido como Teorema Limite

(34)

Suponhamos que uma amostra aleatória simples é seleccionada de uma População de dimensão grande, em que a variável em estudo tem valor médio μ e variância σ2. Então, se a dimensão n da amostra for suficientemente grande (um valor que é usual considerar como suficientemente grande é 30), a distribuição de amostragem da média pode ser aproximada pela distribuição Normal com valor médio μ e variância σ2

n . A

aproximação verifica-se para amostras de dimensão suficientemente grande, independentemente da forma da distribuição da População subjacente às amostras.

Mais uma vez chamamos a atenção para a seguinte propriedade, já anteriormente referida: quanto maior for a dimensão da amostra, menor é a variabilidade apresentada pelo estimador. Além disso, também concluímos que, para Populações de dimensão suficientemente grande, esta não tem influência sobre a variabilidade do estimador.

Em conclusão, a precisão de um estimador, para Populações de grande dimensão, não depende do tamanho da População, mas sim da variabilidade aí presente. Quando

pretendemos estimar um parâmetro da População, para obter uma determinada precisão, a dimensão da amostra terá de ser tanto maior, quanto maior for a variabilidade existente na População. No entanto, se a dimensão da População já

não for suficientemente grande, essa dimensão terá interferência na precisão do estimador.

1.7 ► Distribuição de amostragem da média, em amostragem com

reposição

Será interessante estudarmos a distribuição de amostragem da Média, quando se faz amostragem com reposição, de uma População com dimensão N e comparar com o que se obtém em amostragem sem reposição.

Agora, cada elemento da População tem uma probabilidade constante e igual a 1/N de ser seleccionado para pertencer à amostra, já que quando um elemento é seleccionado, uma vez a informação recolhida, ele é novamente reposto na População.

(35)

Este processo é equivalente a seleccionarmos uma amostra aleatória de dimensão n de uma população uniforme discreta no conjunto dos valores da característica a estudar da População, que podemos representar por y1, y2, …, yN. Então cada vez que se selecciona um elemento da População é como se obtivéssemos um valor da variável Y que assume os valores yi considerados anteriormente, com probabilidade 1/N. Seleccionar uma amostra de dimensão n significa seleccionar n variáveis Y1, Y2, …, Yn, independentes e com distribuição idêntica à de Y. Então a Média será uma variável cujo valor médio é o valor médio μ da População (ou da distribuição uniforme) e cuja variância é σ2_{/n, onde σ}2 _{é a variância da População (ou da distribuição uniforme} subjacente).

A amostragem sem reposição é mais eficiente do que a amostragem com reposição

Comparando o resultado

n

2 σ

, para a variância da Média, com o resultado apresentado

quando se faz amostragem sem reposição, nomeadamente

σ

2

n

(

N -n

N -1

)

, conclui-se que

a amostragem sem reposição é mais eficiente, quando se pretende estimar o valor médio da População, uma vez que produz um estimador com uma variância mais pequena, isto é, que apresenta menor variabilidade.

EXEMPLO 1.9 Considere uma população constituída pelos elementos 1, 2, 3, 4 e 5. Pretende estimar o valor médio desta população, pelo que decide recolher uma amostra de dimensão 2, com reposição. e calcular a sua média. Obtenha a distribuição de amostragem do estimador utilizado para estimar o valor médio da população.

Resolução: A População anterior é constituída pelos elementos 1, 2, 3, 4 e 5, tendo cada um uma probabilidade constante e igual a 1/5 de ser seleccionado para pertencer a uma amostra:

População X 1 2 3 4 5 Probabilidade 1/5 1/5 1/5 1/5 1/5

Propriedades da População: Valor médio = 3 Desvio padrão = √2.

(36)

A metodologia seguida para obter a distribuição de amostragem consiste em obter todas as amostras de dimensão 2, com reposição, calcular o valor da estatística média para cada uma delas e depois representar a distribuição dos valores obtidos:

Amostras (1,1) (1,2) (1,3) (1,4) (1,5) (2,5) (3,5) (4,5) (5,5) (2,1) (2,2) (2,3) (2,4) (3,4) (4,4) (5,4) (3,1) (3,2) (3,3) (4,3) (5,3) (4,1) (4,2) (5,2) (5,1) média 1 1.5 2 2.5 3 3.5 4 4.5 5

De acordo com a tabela anterior obtemos a seguinte distribuição de amostragem para o estimador Média2 (assim representado por se obter a partir de amostras de dimensão 2)

Média2 1 1.5 2 2.5 3 3.5 4 4.5 5 Probabilidade 1/25 2/25 3/25 4/25 5/25 4/25 3/25 2/25 1/25

3 3.5 4 4.5 5 1 1.5 2 2.5

Características da distribuição de amostragem da Média para amostras de dimensão 2: Valor médio = 3

Desvio padrão = 1 Algumas observações:

• O centro da distribuição de amostragem do estimador Média utilizado para estimar o valor médio da população (igual a 3), coincide com o parâmetro a estimar .

• O desvio padrão da população inicial é igual a 2 , enquanto que o desvio padrão da média, calculada a partir de amostras de dimensão 2 é 1 ( 2 / 2 =1 – resultado considerado anteriormente). Se repetirmos a metodologia seguida no processo do exemplo anterior, considerando agora amostras de dimensão 3, o problema torna-se mais trabalhoso, já que o número de amostras possíveis é 53_=125.

Assim, abstemo-nos de apresentar todas essas amostras, limitando-nos a apresentar a distribuição de amostragem da Média3:

(37)

Média3 1 1.33 1.67 2 2.33 2.67 3 3.33 3.67 4 4.33 4.67 5 Proba. .008 .024 .048 .080 .120 .144 .152 .144 .120 .080 .048 .024 .008

1 2 3 4 5

Características da distribuição de amostragem: Valor médio = 3

Desvio padrão = 0.816 Algumas observações:

• O centro da distribuição de amostragem do estimador Média3 utilizado para estimar o valor médio da população (igual a 3), coincide com o parâmetro a estimar .

• O desvio padrão da população inicial é igual a 2 , enquanto que o desvio padrão da Média3, calculada a partir de amostras de dimensão 3 é 0.816 ( 2 / 3 =0.816 – o que condiz com o resultado apresentado anteriormente, de que a variância da Média é σ2_/n).

• A variabilidade apresentada pela distribuição de amostragem é inferior à obtida quando se consideram amostras de dimensão 2. Este resultado indicia que quanto maior for a dimensão da amostra, menor é a variabilidade apresentada pela distribuição de amostragem.

Se a dimensão da População for muito grande, a probabilidade de extrairmos o mesmo elemento duas

vezes é extremamente pequena. Assim, os dois processos de amostragem, com reposição e sem

reposição, são praticamente equivalentes, quando estamos a estimar a média populacional.

A conclusão anterior vai de encontro com a que se pode obter também se tomarmos atenção às variâncias das Médias de amostras de dimensão n, quando se faz extracção com e sem reposição. Efectivamente o factor

N

− n

N

− 1

=

N

N - 1

× (1−

n

N

)

que aparece na expressão da variância num processo de amostragem aleatória simples (sem reposição) assume um valor próximo de 1, quando N é razoavelmente grande e n

(38)

é razoavelmente pequeno, quando comparado com N. Ao quociente

n

N

costuma-se

chamar fracção de amostragem. Já apontamos anteriormente que se considera uma População “grande” se a sua dimensão for cerca de 20 vezes superior à dimensão da amostra, ou seja, quando a fracção de amostragem for menor que 0.05.

1.8 ► A forma da distribuição de amostragem da Média em

popula-ções infinitas ou amostragem com reposição

Vimos anteriormente que o estimador Média é um estimador centrado do valor médio da população, quer a população seja finita ou infinita e a amostragem com reposição ou sem reposição. Vimos também a expressão para a variância, em qualquer das situações consideradas.

Vamos agora admitir que estamos a realizar uma amostragem com reposição, ou que a população a estudar, X, é infinita, situação em que a selecção de um elemento para a amostra, pode ser considerada independente da selecção dos outros elementos. Assim, consideremos a amostra aleatória (X1, X2, ..., Xn) onde as variáveis aleatórias X1, X2, ...,

Xn são indepententes e identicamente distribuídas a X, como se apresenta no seguinte

esquema:

Se tivermos k amostras de dimensão n, recolhidas da População X:

População X

1ª amostra 2ª amostra k-ésima amostra

x

x x x x x x x x x x x

x x x