• Nenhum resultado encontrado

CAPÍTULO 5: AMOSTRAGEM

N/A
N/A
Protected

Academic year: 2021

Share "CAPÍTULO 5: AMOSTRAGEM"

Copied!
15
0
0

Texto

(1)

CAPÍTULO 5: AMOSTRAGEM 5.1 Introdução

A estatística indutiva busca tirar conclusões probabilísticas ou fazer inferências, sobre populações, com base em resultados verificados em amostras retiradas dessas populações. Além de descrever convenientemente os dados da amostra, é necessário garantir que as amostras são obtidas por processos adequados, conferindo-lhes representatividade da população.

Os problemas de amostragem podem ser mais ou menos complexos e sutís, dependendo das populações e das variáveis em estudo. Na indústria, onde amostras são frequentemente retiradas para efeito de controle da qualidade dos produtos e materiais, em geral, os problemas de amostragem são mais simples de resolver. Em pesquisas sociais, econômicas ou de opinião, a complexidade dos problemas de amostragem é geralmente bastante grande. A forma de selecionar uma amostra exige algumas considerações. As observações colhidas numa amostra são tanto mais informativas sobre a população quanto mais conhecemos esta mesma população. Por exemplo, a análise da quantidade de glóbulos brancos obtida de algumas gotas de sangue da ponta do dedo de um paciente, dará uma idéia geral da quantidade de glóbulos brancos no corpo todo, pois sabe-se que a distribuição dos glóbulos brancos no corpo é mais ou menos homogênea, e de qualquer parte do corpo que seja retirada a amostra, ela será “representativa” do todo (população). Porém nem sempre a escolha de uma amostra representativa é imediata. Por exemplo, quando se retira uma amostra de habitantes para saber sobre a aceitação de um projeto governamental, se escolhermos intencionalmente uma amostra de 200 indivíduos moradores de uma certa região que será beneficiada pelo projeto, saberemos de antemão que o resultado conterá um “viés de seleção”; isto é, na amostra, a proporção de pessoas favoráveis ao projeto deve ser maior do que no todo (população).

Assim, a maneira de se obter a amostra é tão importante, e existem tantos modos de fazê-la, que estes procedimentos constituem uma especialidade dentro da Estatística, conhecida como Amostragem. Mas esses vários procedimentos podem ser agrupados em dois grandes grupos: os chamados planos probabilísticos e os planos não-probabilísticos.

5.2 Amostragem Probabilística

Existem dois tipos de amostragem: a probabilística e a não probabilística. A amostragem será probabilística se todos os elementos da população tiverem probabilidade conhecida e diferente de zero, de pertencer à amostra; caso contrário será não probabilística. A amostragem probabilística implica em se ter a população finita e totalmente acessível.

5.2.1 Amostragem Casual Simples

Simples ao acaso, aleatória, casual simples, elementar, randômica, é aquela em que todos os elementos da população tem igual probabilidade de pertencer à amostra e todas as possíveis amostras tem igual probabilidade de ocorrer. Sendo N o núnero de elementos da população e n o número de elementos da amostra, cada elemento da população tem probabilidade n/N de pertencer à amostra. A relação n/N denomina-se fração de amostragem, e sendo a amostragem feita sem reposição, existem n

N

C possíveis amostras.

Para escolher amostras casuais simples, costuma-se usar tabelas de números aleatórios, que são coleções de dígitos construídos aleatóriamente e que simulam o processo de

(2)

sorteio. A tabela 5.1 apresenta um pequeno conjunto de números aleatórios, cuja utilização pode ser exemplificada da seguinte maneira: ao se desejar selecionar dez nomes de uma lista de 90 pessoas, deve-se começar numerando-os de 01, 02, ..., 90. Em seguida, escolhe-se uma coluna, por exemplo a primeira, e toma-escolhe-se os dez primeiros números; que no caso serão:

61, 94, 50, 51, 25, 63, 12, 38, 22, 07

No caso o 94 deve ser eliminado, pois não existe este número na população, e o 61 deverá aparecer repetido, devendo ser substituído. Existem diversas tabelas de números aleatórios, porém em alguns casos deve-se fazer uma correlação entre os valores reais da população e os números da tabela de números aleatórios.

Tabela 5.1 Números Aleatórios

61 09 26 29 85 11 95 77 79 04 57 00 91 29 59 83 53 87 02 02 94 47 40 99 93 82 13 22 40 33 19 72 65 69 82 16 94 21 66 39 50 40 50 55 79 00 58 17 26 30 38 11 54 89 04 13 69 17 35 48 51 01 75 76 54 43 11 28 32 75 33 09 04 78 74 91 56 79 43 39 25 45 79 30 63 56 44 70 05 04 31 81 46 02 92 32 06 71 12 48 63 94 61 14 24 60 27 00 00 95 54 31 59 00 79 94 46 32 61 90 12 95 04 73 06 72 76 88 55 62 38 79 18 68 10 31 93 58 66 92 38 06 78 00 85 42 57 29 28 34 79 91 93 58 82 97 37 07 64 67 22 69 28 18 25 08 90 93 53 17 54 12 21 03 56 30 88 53 46 82 07 95 63 14 76 53 62 10 21 57 55 74 57 68 22 38 84 55 57 49 61 41 81 16 97 55 19 65 08 62 26 38 74 32 30 44 64 64 91 80 97 16 71 92 40 28 33 36 23 32 76 36 18 98 41 10 50 93 75 95 39 81 34 84 33 83 42 77 36 00 51 42 82 63 30 47 01 08 96 73 58 36 04 52 06 81 24 32 74 63 28 82 43 36 01 73 36 47 05 76 52 85 30 59 37 00 49 88 07 43 08 04 00 48 36 23 31 88 80 88 41 92 93 01 94 13 33 63 32 35 38 91 18 89 71 67 46 73 42 47 88 51 22 59 99 51 20 74 13 55 30 41 25 99 10 26 01 33 24 13 11 12 32 28 26 67 22 97 11 23 66 24 09 23 47 12 93 44 60 47 33 02 06 80 29 39 78 49 81 21 42 00 99 80 44 56 33 83 46 16 03 67 08 29 16 04 92 31 62 03 94 53 02 60 65 72 46 68 25 93 41 54 93 90 86 52 14 58 90 34 83 00 73 38 14 50 77 58 08 94 18 84 83 61 42 96 82 86 02 30 40 16 65 55 63 20 40 24 79 80 06 15 93 11 72 17 32 31 84 89 53 66 01 99 53 75 79 92 20 61 12 74 92 15 60 93 84 37 29 62 24 96 78 93 28 34 41 69 04 51 79 13 36 81 55 51 46 66 68 85 07 73 35 42 52 61 29 21 02 34 01 78 33 32 06 16 45 94 09 18 40 14 73 03 61 80 69 79 52 95 90 73 28 21 38 57 38 36 24 33 31 99 64 86 19 61 55 50 65 14 44 10 20 96 70 32 41 46 22 97 08 22 02 42 43 57 16 61 81 77 52 47 00 27 41 43 70 17 52 44 51 26 94 73 17 72 16 51 81 77 23 03 84 44 29 43 57 05 46 59 89 00 65 01 20 27 32 66 34 56

(3)

Um outro entendimento do significado da amostra casual simples é dado da seguinte forma: consideremos a situação em que se levanta todas as possíveis amostras de tamanho 2, com reposição, da população [1, 3, 5, 5, 7}. Definida a variável X = valor assumido pelo

elemento na população, tem-se que a distribuição de X é dada na tabela 5.2:

Tabela 5.2: Distribuição de X = valor assumido pelo elemento da população

X 1 3 5 7

P(X = x) 1/5 1/5 2/5 1/5

Indicando por X1 o número selecionado na primeira extração e por X2 o número extraído na segunda extração, vê-se que é possível escrever a distribuição conjunta do par (X1, X2). As distribuições marginais de X1 e de X2, são independentes e iguais à distribuição de X. Assim, as 25 possíveis amostras de tamanho 2 que podemos extrair dessa população correspondem a observar uma particular realização da variável aleatória (X1, X2), X1 e X2, independentes e tais que P(X1 = x) = P(X2 = x) para todo x, como indicado na tabela 5.3.

Tabela 5.3: Distribuição de (X1, X2) X1 X2 1 3 5 7 Total 1 1/25 1/25 2/25 1/25 1/5 3 1/25 1/25 2/25 1/25 1/5 5 2/25 2/25 4/25 2/25 2/5 7 1/25 1/25 2/25 1/25 1/5 Total 1/5 1/5 2/5 1/5 1

Uma amostra casual simples de tamanho n de uma variavél aleatória X com uma dada distribuição é o conjunto de n variáveis aleatórias independentes X1, X2, ... , Xn, cada uma com a mesma distribuição de X. Ou seja, a amostra será a n-upla ordenada (X1, X2, ..., Xn), onde Xi indica a observação do i-ésimo elemento sorteado.

5.2.2 Amostragem Sistemática

Quando os elementos da população se apresentam ordenados e a retirada dos elementos da amostra é feita periodicamente, tem-se a chamada amostragem sistemática.

5.2.3 Amostragem por meio de conglomerados

É quando a população apresenta uma subdivisão em pequenos grupos, chamados

conglomerados e é possível e muitas vezes conveniente, fazer-se a amostragem por meio desses conglomerados, a qual consiste em sortear um número suficiente de conglomerados, cujos elementos constituirão a amostra.

(4)

5.2.4 Amostragem Estratificada

Muitas vezes a população se divide em sub-populações ou estratos, sendo razoável supor

que, de estrato para estrato, a variável de interesse apresente um comportamento substancialmente diverso, tendo, entretanto, comportamento razoavelmente homogêneo dentro de cada estrato. A amostragem estratificada consiste em especificar quantos elementos da amostra serão retirados de cada estrato. É de costume considerar três tipos de amostragem estratificada: uniforme, proporcional e ótima. Na amostragem estratificada uniforme, sorteia-se igual número de elementos de cada estrato; na proporcional, o número de elementos sorteados em cada estrato é proporcional ao número de elementos existentes no estrato; na ótima, por sua vez, toma-se em cada estrato um número de elementos proporcional ao número de elementos do estrato e também à variação da variável de interesse no estrato, medida pelo seu desvio padrão.

5.2.5 Amostragem Múltipla

Neste caso a amostra é retirada em diversas etapas sucessivas. Dependendo dos

resultados observados, etapas suplementares podem ser dispensadas.

5.3 Amostragem Não-Probabilística

Amostras não-probabilísticas são também, muitas vezes empregadas em trabalhos estatísticos, por simplicidade ou por impossibilidade de se obter amostras probabilísticas. A seguir são apresentados alguns casos deste tipo de amostragem.

5.3.1 Inacessibilidade a toda a população

Essa situação ocorre com muita frequência na prática, obrigando a amostragem somente

da parte acessível da população, definindo então a distinção entre população-objeto e população-amostrada.

5.3.2 Amostragem a esmo ou sem norma

É quando o amostrador, para simplificar o processo, procura ser aleatório sem, no entanto, realizar o sorteio usando algum dispositivo aleatório confiável.

5.3.3 População formada por material contínuo

Neste caso é impossível realizar amostragem probabilística devido á impraticabilidade

de um sorteio rigoroso. Se a população for líquida ou gasosa, o que costuma apresentar resultado satisfatório, é homogeneizá-la e retirar a amostra a esmo; o que às vezes também pode ser feito com material sólido. Outro procedimento a ser empregado nestes casos, especialmente quando a homogeneização não é praticável, é a enquartação, a qual consiste em subdividir a amostra em diversas partes (a origem do nome pressupõe a divisão em quatro partes), sorteando-se uma ou mais delas para constituir a amostra ou para delas retirar a amostra.

5.3.4 Amostras Intencionais

É quando o amostrador, deliberadamente, escolhe certos elementos para pertencer à

amostra, por julgá-los bem representativos da população. O perigo desta amostragem é grande pois o amostrador pode facilmente se equivocar em seu pré-julgamento.

(5)

5.4 Estatísticas e Parâmetros

Do fato de os valores da amostra serem aleatórios, decorre que qualquer quantidade calculada em função dos elementos da amostra também será uma variável aleatória. Os valores calculados em função dos elementos da amostra são chamados de “Estatísticas”. As estatísticas, sendo variáveis aleatórias, terão alguma distribuição de probabilidade, com uma média, uma variância, etc. À distribuição de probabilidade de uma estatística dá-se comumente o nome de Distribuição Amostral ou Distribuição por Amostragem.

Os símbolos não-indexados passarão a ser usados para parâmetros populacionais, ao passo que as informações correspondentes às distribuições amostrais conterão uma indicação quanto à estatística à qual se referem. Os símbolos mais comuns são indicados na tabela 5.4.

Tabela 5.4: Símbolos mais comuns

Estatística Parâmetro Média

x

ou E(x) µ Variância S2 σ2 Nº de elementos n N Proporção pˆ ou p’ p 5.5 Distribuições Amostrais

O conceito de distribuição de probabilidade, muitas vezes associado à idéia dinâmica de variável aleatória, pode ser estendido às populações, e efetivamente será usado para descrevê-las. Suponha que se procura fazer uma afirmação sobre parâmetros da população, através da amostra. Seja este parâmetro, θ. Será usada uma amostra casual simples, com reposição, de n elementos sorteados dessa população. A decisão será baseada na estatística T, que será uma função da amostra (X1, X2, ..., Xn), ou seja, T = ƒ(X1, X2, ..., Xn). Colhida uma amostra, pode-se observar um valor particular de T, t0, e baseado nesse valor será feita a afirmação sobre θ, o parâmetro populacional.

A validade da resposta seria melhor compreendida se fosse conhecido o comportamento da estatística T em todas as amostras da população. Isto é, qual a distribuição de T quando (X1, X2, ..., Xn) assume todos os valores possíveis. Esta distribuição é chamada de distribuição amostral da estatística T. A figura 5.1 apresenta esquematicamente este raciocínio:

População Amostras Distribuição Amostral 1 x 2 . . θ t k . θ

Figura 5.1: Distribuição Amostral de T X

θ

t1

t2

(6)

5.5.1 Distribuição amostral de

x

Determinam-se as principais características da distribuição amostral da estatística

x

, média de uma amostra de n elementos. Sendo a população infinita ou a amostragem feita com reposição, resulta que os diversos valores da amostra podem ser considerados como valores de variáveis aleatórias independentes, com a mesma distribuição de probabilidade da população, portanto com a mesma média µ e a mesma variância σ2 da população. Da teoria do cálculo de probabilidades, sabe-se que:

a) multiplicando-se os valores de uma variável aleatória por uma constante, a média fica multiplicada por essa constante;

b) a média de uma soma de variáveis aleatórias é igual à soma das médias dessas variáveis:

(

n

)

n i i

x

x

x

n

n

x

x

=

=1

=

1

1

+

2

+

...

(5.1)

( )

= 1

[

( ) ( )

1 + 2 +...+

( )

] [

= 1

µ

+

µ

+...+

µ

] [ ]

= 1 n.

µ

=

µ

n n x E x E x E n x E n (5.2)

Portanto a média em torno da qual devem variar os possíveis valores da estatística

x

é a própria média da população.

c) multiplicando-se os valores de uma variável aleatória por uma constante, a variância fica multiplicada pelo quadrado dessa constante;

d) a variância de uma soma de variáveis aleatórias independentes é igual à soma das variâncias:

( )

[

( ) ( )

( )

] [

]

n n n n x s x s x s n x s n 2 2 2 2 2 2 2 2 2 2 1 2 2 2 1 + +...+ = 1 σ +σ =...+σ = 1 σ =σ ⎠ ⎞ ⎜ ⎝ ⎛ = (5.3)

Portanto a variância com que se dispersam os possíveis valores da estatística

x

é n vêzes menor do que a variância da população de onde é retirada a amostra. Isto mostra que há dentro da amostra uma natural compensação entre valores mais elevados e valores mais baixos, produzindo valores de

x

que tendem a ser tanto mais próximos da média µ da população quanto maior for o tamanho da amostra n. Resulta imediatamente que:

( )

n

x

s

=

σ

x

=

σ

(5.4) No caso de amostragens sem reposição de populações finitas, em que a independência entre os valores de xi não se verifica, demonstra-se que:

( )

1 . 2 2 − − = N n N n x s σ (5.5)

(7)

onde N é o número de elementos da população e o fator 1 − − N n N é chamado de fator de população finita. Note-se que este fator tende à unidade quando o tamanho da população tende ao infinito.

Quanto à forma da distribuição amostral de

x

, se a distribuição da população for normal, a distribuição amostral de

x

será também normal para qualquer tamanho de amostra, devido ao teorema das combinações lineares de variáveis normais independentes (que diz: uma variável aleatória obtida pela combinação linear de variáveis aleatórias independentes tem também distribuição normal). Na figura 5.2 é representado um caso genérico envolvendo a distribuição amostral de

x

, no caso de população normal.

Figura 5.2 Distribuição amostral de x - população normal

Por outro lado, se a distribuição da população não for normal, mas a amostra for suficientemente grande, resultará, pelo teorema do limite central (diz que: sob condições bastante gerais, uma variável aleatória, resultante de uma soma de n variáveis aleatórias independentes, no limite, quando n tende para o infinito, tem distribuição normal), que no caso de população infinita ou amostragem com reposição, a distribuição amostral de

x

será aproximadamente normal, pois o valor de

x

resultará de uma soma de um número grande de variáveis aleatórias independentes.

Na figura 5.3 é representado um caso genérico envolvendo a distribuição amostral de

x

, no caso de uma distribuição populacional não-normal.

(8)

Figura 5.3 Distribuição amostral de x - população não-normal e amostra suficientemente grande

5.5.2 Distribuições Amostrais de f e p’

A frequência f é uma estatística, pois é determinada em função dos elementos da amostra. Para cada elemento da amostra pode-se considerar a ocorrência de um sucesso, caso a característica desejada se verifique, e de um fracasso, caso contrário. Seja p a probabilidade de ocorrência de sucesso para cada elemento da amostra. Se a população é infinita ou amostragem é feita com reposição, p é constante para todos os elementos da amostra, e os resultados observados para todos eles serão independentes. Nestas condições a distribuição amostral de f será uma distribuição binomial com parâmetros n e p, e pelas suas propriedades:

E

( )

f =np (5.6) s2

( )

f =np

(

1− p

)

(5.7)

A frequência relativa p’, por sua vez, sendo simplesmente o quociente de f pelo tamanho da amostra n, terá média e variância que são obtidas por:

( )

( )

np p n f n n f E p E ⎟= = = ⎠ ⎞ ⎜ ⎝ ⎛ = 1 1 ' µ (5.8)

( )

( )

(

)

(

)

n p p p np n f n n f s p s = = − = − ⎠ ⎞ ⎜ ⎝ ⎛ = 1 1 1 1 ' 2 2 2 2 2 σ (5.9)

O tipo de distribuição de p’ continua, para todos os efeitos, sendo uma distribuição binomial, porém cujos possíveis valores foram comprimidos entre 0 e 1, com intervalos de 1/n, ao invés de variarem de 0 a n, segundo os números naturais.

Sendo a amostra suficientemente grande, pode-se aproximar as distribuições de f e p’ por distribuições normais de mesma média e mesmo desvio padrão. Em termos práticos, em

(9)

geral, podemos considerar que a amostra será suficientemente grande, para efeito dessa aproximação, se np ≥ 5 e n (1-p) ≥ 5.

5.5.3 Distribuição Amostral de s2 – Distribuição χ2

5.5.3.1 Graus de Liberdade de uma Estatística

A variância de uma amostra é dada por:

( )

( )

1

1 2 2

=

=

n

x

x

x

s

n i i (5.10) A razão pela qual se recomenda usar n-1 ao invés de n, no denominador dessa expressão, está relacionada com o número de graus de liberdade dessa estatística. A questão de graus de liberdade é, possivelmente, abstrata.

Considere-se, por exemplo, as estatísticas

= = n i i n x x 1 / e

(

)

= − n i i n x 1 2/ µ . Essas estatísticas tem n graus de liberdade, e de tal fato pode ser entendido como indicando haver n valores xi livres que devem ser considerados para se poder calcular o valor da estatística. Em outras palavras, desconhecendo qualquer dos valores de xi da amostra, não se pode determinar o valor da estatística, pois todos os valores são livres, podendo variar aleatoriamente.

Já a estatística s2

( )

x , conforme dada acima, por usar x ao invés do parâmetro

populacional µ, tem um grau de liberdade a menos. Isso porque o cálculo dessa estatística pressupõe que anteriormente já se tenha calculado x , quando já se teria usado uma vez

todos os valores da amostra, os quais estariam sendo usados pela segunda vez para o cálculo de s2. No momento de se usar novamente os valores da amostra para o cálculo de s2, esses valores tem apenas n-1 graus de liberdade, pois, dados quaisquer n-1 deles, o valor restante estará automaticamente determinado, pelo fato de já conhecermos sua média aritmética x , não sendo portanto este, um valor livre.

Adota-se o símbolo ν para denotar o número de graus de liberdade de uma estatística.

5.5.3.2 Distribuição Amostral de s2

Conforme já mencionado, a variância de uma amostra é calculada por:

( )

( )

1

1 2 2

=

=

n

x

x

x

s

n i i (5.11) A distribuição amostral da estatística s2

( )

x está relacionada com uma família de

distribuições de probabilidades, que são as distribuições tipo χ2, que são dadas por:

= = = ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ − = ν ν ν σ µ χ 1 1 2 2 2 i i i i z x (5.12) onde: xi = valores aleatórios independentes retirados de uma população normal

µ = média dos valores aleatórios independentes retirados de uma população normal σ = desvio padrão dos valores aleatórios

(10)

Os valores zi são os correspondentes valores da variável normal reduzida. Portanto pode-se considerar a distribuição da variável χ2 com ν graus de liberdade, como a soma dos quadrados de ν valores independentes da variável normal reduzida, na qual µ

( )

z2 =1, e donde pode-se tirar:

µ

( )

χν µ ν ⎟=νµ

( )

=ν ⎠ ⎞ ⎜ ⎝ ⎛ =

= 2 1 2 2 i i i z z (5.13) Pode-se também demonstrar que:

σ2

( )

χν2 =2ν, (5.14) e que a moda da distribuição de 2

ν

χ é ν - 2, para ν > 2.

Como a variável χ2 resulta de uma soma de variáveis independentes e igualmente distribuídas, segue-se pelo teorema do limite central que a família de distribuições do tipo χ2 tende à distribuição normal quando o número de graus de liberdade aumenta.

Uma outra propriedade das distribuições χ2 é a da aditividade, que diz que a soma de duas variáveis independentes com distribuições χ2 com ν1 e ν2 graus de liberdade, terá também distribuição χ2 com (ν1 + ν2) graus de liberdade.

A figura 5.4 mostra algumas distribuições da família χ2 e a tabela 5.5 fornece valores das variáveis 2

ν

χ , para ν = 1, 2, ..., 30, em função de valores notáveis da probabilidade correspondente à cauda à direita, determinada na respectiva distribuição.

(11)

Tabela 5.6 Distribuições χ2- valores de

χ

ν2,P, onde P= P

(

χν2 ≥ χν2,P

)

O conhecimento das distribuições χ2 conduz à determinação da distribuição amostral da estatística s2, conforme segue: A estatística

1

( )

2 2 1 2 σ σ

= = − = ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ − n i i n i i x x x x (5.15) tem distribuição do tipo χ2 com (n-1) graus de liberdade. Logo:

( )

( )

( )

2 2 1 2 2 2 1 2 2 1 1 1 1 σ σ σ χ x n i i n i i n s n n x x n x x = − − − = − =

=

= − (5.16) donde resulta:

(12)

2 1 2 2 1 − − = n x n s σ χ (5.17) Verifica-se pois que a estatística s2 se distribui conforme uma distribuição do tipo χ2 com (n-1) graus de liberdade.

Considerando a estatística acima e a expressão (5.16), obtém-se a média da mesma:

( )

( )

2 2

( )

2 1 2 2 1 1 1 σ σ χ µ σ µ − = − = − = n n n s n (5.18)

Considerando a expressão (5.13), tira-se a variância da estatística:

( )

(

)

( )

(

) (

)

1 2 1 2 1 1 4 2 4 2 1 2 2 4 2 2 − = − − = − = − n n n n s σ σ χn σ σ σ (5.19) 5.5.4 Distribuição t de Student

Supõe-se que para uma amostra de n valores retirados de uma população normal de média µ e desvio padrão σ, é definida a estatística:

n x z / σ µ − = (5.20) Como a distribuição amostral de x seria precisamente normal, com média µ e desvio padrãoσ/ n, segue que essa estatística teria simplemente distribuição normal reduzida, o que justifica o emprego de z na sua representação.

Porém se for utilizado na expressão o desvio padrão da amostra s

( )

x / n−1, obtém-se uma estatística cuja distribuição não é mais normal. Assim Student (W.S. Gosset – estatístico inglês) demonstrou que a estatística:

( )

x n s x t / µ − = (5.21) distribui-se simetricamente, com média 0, porém não normalmente em torno da média. Para grandes amostras, s(x) se aproxima de σ, e as correspondentes distribuições t se aproximam da distribuição normal reduzida. Existe, portanto, uma família de distribuições t cuja forma tende à da distribuição normal reduzida, quando n cresce. A estatística indicada na expressão (5.21) tem (n-1) graus de liberdade, o que passa a ser indicado por: tn-1.

A figura 5.5 mostra comparativamente uma distribuição t genérica e a distribuição normal reduzida z, sendo que a primeira é mais alongada do que a segunda.

(13)

A tabela 5.7 fornece valores de t em função de diversos valores do grau de liberdade ν e de probabilidades notáveis correspondentes à cauda direita da distribuição.

Tabela 5.7 Distribuições t de Student – valores de tν,P, onde P = P(tν≥ tν,P)

A expressão (5.21) pode ser escrita da seguinte maneira também:

( )

x zs

( )

x s n x tn σ σ σ µ = − = − / 1 (5.22) e considerando a expressão (5.16), obtém-se:

2 1 1 1 − − = − n n n z t χ (5.23)

que genéricamente é dada por:

2

ν

ν z χν

t = (5.24) e que demonstra a relação existente entre as distribuições de t de Student e a de χ2

(14)

5.5.5 Distribuição F de Snedecor

Conhecidas duas amostras independentes retiradas de populações normais com variâncias amostrais 2

1

s e 2 2

s , uma distribuição amostral do quociente delas 2 1

s / 2 2

s será

denominada como distribuição F de Snedecor (G. Snedecor adaptou convenientemente essas distribuições, anteriormente estudadas por Fisher, adotando F em sua denominação como uma homenagem a este estatístico).

Define-se a variável F com ν1 graus de liberdade no numerador e ν2 graus de liberdade no denominador, ou simplesmente, 2 1,ν ν F , por: 2 2 1 2 , / / 2 1 2 1 χ ν ν χ ν ν ν ν = F (5.25) onde, conforme a própria notação indica, 2

i

ν

χ designa uma variável aleatória com distribuição χ2 com νi graus de liberdade, sendo que estas devem ser independentes. Esta definição geral engloba uma família de distribuições de probabilidades para cada par de valores (ν1, ν2) e a tabela 5.5 apresenta os valores da variável F que determinam caudas à direita com probabilidades 0,5; 1; 2,5; 5 e 10%, fornecidos para diversos pares de valores (ν1, ν2).

Tabela 5.8 Distribuição F de Snedecor – valores de

2 1,ν ν F ,p, onde P = P ( 2 1,ν ν FFν12,p); P = 0,10

(15)

A figura 5.6 mostra esquematicamente como se avalia a probabilidade de ocorrer um valor acima de um dado aleatório:

Figura 5.6 Distribuição F de Snedecor

Considere-se que de duas populações normais com mesma variâcia σ2 (ou o que seria equivalente, de uma mesma população normal), sejam extraídas duas amostras

independentes com, respectivamente, n1 e n2 elementos e toma-se o quociente 2 2 2 1 / s

s das variâncias dessas amostras. Utilizando a expressão (5.17), pode-se concluir que a distribuição amostral desse quociente será uma distribuição 1, 1

2 1− nn F , pois:

[

(

)

]

(

)

[

]

(

(

)

)

1, 1 2 2 1 1 2 1 2 1 2 2 2 1 1 2 2 2 2 1 2 1 2 1 2 1 1 / 1 / 1 / 1 / − − − − − − = − − = − − = n n n n n n F n n n n s s χ χ χ σ χ σ (5.26)

5.3.5 Relações particulares entre as distribuições z, t, χ2 e F

A família de distribuições t de Student converge para a distribuição normal padronizada de z quando ν cresce. Logo a distribuição z equivale à distribuição t∞.

A distribuição χ2 surge de uma soma de ν valores independentes de z2. Logo a distribuição de 2

1

χ equivale à distribuição do quadrado de z. Quanto à distribuição F, tem-se que:

2 22 1 , 1 2 2 ν ν = χ χν F (5.27) Como 2 2 1 = z

χ , tem-se que a distribuição F1,ν2 equivale à distribuição do quadrado de tν2.

Por outro lado sabendo que:

µ

( )

χν2 =ν (5.28) quando ν2 tende ao infinito, a distribuição de Fν1,ν2 tende à de 2 / 1

1 ν χν : 1 2 , 1 1 ν χν ν ∞ = F (5.29) Em particular, a distribuição de F1, equivale à de 2

1

Referências

Documentos relacionados

As Forças Radiantes da Luz Divina, também chamadas Formas As Forças Radiantes da Luz Divina, também chamadas Formas Angélicas, não têm gênero na mais densa

Os objetivos deste trabalho foram identifi- car Lm em placentas humanas pela técnica de IHQ e relacionar sua presença com as alterações histológicas encontradas no exame

Este resultado também foi verificado por Chu e Chan (2003), que reporta o pH ótimo para o tratamento de efluentes via processo Foto-Fenton, apresentando baixa

Mas se zer- mos esse mesmo experimento com o número de lançamentos N cada vez maior, a distribuição de ocorrência de X será gaussiana, segundo o teorema central do limite.. A

Segundo Angelo Soares (2012), cujas pesquisas se inspiram na sociologia das emoções, cinco dimensões do trabalho do care podem ser detectadas, entre as quais a dimensão corpórea e

Após a introdução, no primeiro capítulo tratamos a estrutura dramatúrgica de Bertolt Brecht, discutindo questões a respeito do teatro épico, do gestus, do

- DISPÕE SOBRE NOVAS MEDIDAS PARA O ENFRENTAMENTO DA CALAMIDADE PÚBLICA DE SAÚDE DECORRENTE DO CORONAVÍRUS (COVID-19), NO ÂMBITO DO MUNICÍPIO DE URANDI-BA.... EMENTA: “Dispõe

Se de uma população com parâmetros ( µ , σ 2 ) for retirada uma amostra de tamanho suficientemente grande, a distribuição de x será aproximadamente normal, seja