Mestrado em Meio Ambiente e
Recursos Hídricos
Estatística Básica – 2009
2.
Análise descritiva de uma distribuição de frequências a duas variáveis qualitativas.Análise descritiva de uma distribuição de frequências a duas variáveis qualitativas.
Estudo da associação em tabelas 2 x 2
Exemplo: exame de fezes feito por dois
métodos.
FAUST e MIFC
Exames de fezes classificados segundo o método coprológico usado e o resultado encontrado.
MIFC FAUST + - Total + 80 = f11 2 = f12 82 = f1. - 3 = f21 115 = f22 118 = f2. Total 83 = f.1 117 = f.2 200 = n
Estudo da associação em
tabelas 2 x 2.
Existência de independência ⇒ ausência de
concordância
n
f
f
f
.1 . 1 11=
n
f
f
f
.1 . 2 21=
Estudo da associação em
tabelas 2 x 2.
Quando as condições não são aceitas ⇒ as
duas variáveis estão associadas
Os dois métodos estão associados
positivamente . 2 21 . 1 11
f
f
f
f 〉
. 2 22 . 2 21f
f
f
f 〈
Estudo da associação em
tabelas 2 x 2.
Tabela 2 x 2
Verificar se há independência
Caso não haja, conhecer a magnitude e o
sinal da asociação existente entre as variáveis A e B.
Estudo da associação em
tabelas 2 x 2.
Valores esperados se houvesse independência:
118 69,03 48,97 -82 47,97 34,03 + Total -+ FAUST MIFC
Estudo da associação em
tabelas 2 x 2.
Comparando-se as duas tabelas pelos
desvios entre os valores:
80 – 34,03 = 45,97
3 – 48,97 = - 45,97
Estudo da associação em
tabelas 2 x 2.
Estatística para medir a discrepância ⇒ Karl
Pearson ⇒ X2 (qui – quadrado)
n f f n f f f n f f n f f f n f f n f f f n f f n f f f X 2 . . 2 2 2 . . 2 22 1 . . 2 2 1 . . 2 21 2 . . 1 2 2 . . 1 12 1 . . 1 2 1 . . 1 11 2 − + − + − + − =
Estudo da associação em
tabelas 2 x 2.
Pode ser representada do seguinte modo:
Onde:
O = representa as frequências observadas
(
)
∑
− = E E O X 2 2Estudo da associação em
tabelas 2 x 2.
X2 = 0 ⇒ existência de independência
X2 > 0 ⇒ existência de associação
Para o exemplo da tabela:
X2 = 179,919
Qui- quadrado ⇒ não possui um limite
Variáveis A e B associadas
positivamente de forma perfeita
X2 = 100 B A B1 B2 Total A1 60 - 60 A2 - 40 40 Total 60 - 100
Estudo da associação em
tabelas 2 x 2.
X2 = 1000 B A B1 B2 Total A1 600 - 600 A2 - 400 400 Total 600 - 1000Estudo da associação em
tabelas 2 x 2.
Associação perfeita, positiva ou negativa:
Phi – quadrado 2 2
Φ
=
n
X
Estudo da associação em
tabelas 2 x 2.
No exemplo das tabelas anteriores:
Φ resolve o problema do limite superior ⇒
varia entre zero e a unidade.
1 1000 1000 100 100 + = = = Φ
Estudo da associação em
tabelas 2 x 2.
Associação perfeita negativa: X2 = 100 e Φ =
+1 B A B1 B2 Total A1 - 60 60 A2 40 - 40 Total 40 60 100
Estudo da associação em
tabelas 2 x 2.
Φ ⇒ indicador da intensidade da associação,
variando entre zero e a unidade, de
independência para associação perfeita.
Não dá indicação sobre o sinal da
associação. No exemplo do exame: 948 , 0 200 919 , 179 + = = Φ
Estudo da associação em
tabelas 2 x 2.
Coeficiente de associação de Yule
21 12 22 11 21 12 22 11
f
f
f
f
f
f
f
f
Q
+
−
=
Estudo da associação em
tabelas 2 x 2.
Para as tabelas que apresentam associação
perfeita positiva:
(
)
(
60 40)
0 1 0 40 60 + = + × − × = Q(
)
(
600 400)
0 1 0 400 600 + = + × − × = QEstudo da associação em
tabelas 2 x 2.
Q atinge o valor máximo de +1 e independe
da ordem de magnitude dos dados.
Para a associação negativa, tem-se:
(
)
(
40
60
)
1
0
60
40
0
−
=
×
+
×
−
=
Q
Estudo da associação em
tabelas 2 x 2.
No caso de independência, Q = 0
Para a tabela referente ao exame:
999
,
0
2
3
115
80
2
3
115
80
+
=
×
+
×
×
−
×
=
Q
Estudo da associação em
tabelas 2 x 2.
Resumo: X2 = + 179,919 Φ = + 0,948 Q = + 0,999Estudo da associação em
tabelas 2 x 2.
Magnitude de Q ⇒ quase perfeita
Método alternativo para cálculo de X2:
2 . 1 . . 2 . 1 2 21 12 22 11 2 ( ) f f f f n f f f f X + − = 919 , 179 117 83 118 82 200 ) 2 3 115 80 ( 2 2 = × × × × − × = X
Estudo da associação em
tabelas 2 x 2.
Restrições de uso de X2 em tabelas de
associação 2 x 2, segundo Cochran:
Caso n≥40, X2 pode ser utilizado, mas é
preferível usar o corrigido:
2
n
Estudo da associação em
tabelas 2 x 2.
Se 20 ≤ n <40, X2 somente poderá ser
utilizado se todas as frequências da tabela esperada (no caso de independência) forem maiores ou iguais a 5. Em caso contrário
deverá ser utilizado o método exato de Fischer.
Estudo da associação em
tabelas de r x s
Duas variáveis qualitativas apresentam uma r
e a outra s modalidades mutuamente exclusivas.
Tabela teórica de contingência,
para as variáveis A e B
B A B1 B2 ... Bj ... Bs Total A1 f11 f12 ... f1j ... f1s f1. A2 f21 f22 ... f2j ... f2s f2. . . . ... . ... . . . . . ... . ... . . Ai fi1 fi2 ... fij ... Fis fi. . . . ... . ... . . . . . ... . ... . . Ar fr1 fr2 ... frj ... frs fr. Total f.1 f.2 ... f.j ... f.r nEstudo da associação em
tabelas de r x s
As variáveis A e B são independentes,
quando:
Para i = 1, 2, ...r e j = 1, 2, ... S
Caso contrário, A e B estão associadas.
n
f
f
Ilustração de associação
perfeita positiva entre A e B.
B A B1 ... Bj ... Br Total A1 f11 ... - ... - f1. . . . . . . ... . ... . . . . ... . ... . . Aj - ... fij ... - fi. . . ... . ... . . . . ... . ... . . Ar - ... - ... frs fr. Total f.1 ... f.j ... f.r n
Ilustração de associação
perfeita negativa entre A e B
B A B1 ... Bj ... Br Total A1 f11 ... - ... f1r f1. . . . . . . ... . ... . . . . ... . ... . . Aj - ... fij ... - fi. . . ... . ... . . . . ... . ... . .
Estudo da associação em
tabelas de r x s
Contingência quadrática: n f f n f f f X j i j i ij s j r i . . 2 . . 1 1 2 − =∑
∑
= =Estudo da associação em
tabelas de r x s
Restrições de Cochran
Pelo menos 80% das frequências esperadas
precisam ser iguais ou maiores do que 5 e nenhuma menor do que a unidade.
Se a condição anterior não for satisfeita,
Estudo da associação em
tabelas de r x s
No caso de 1) não estar satisfeita e 2) não
puder ser realizada, dever-se-á recorrer ao método exato de Freeman e Halton.
Exemplo de aplicação:
Idade ao morrer Nível de instrução da mãe. Antes do 28º dia Do 28º dia até 1 ano de idade (exclusive) De 1 a 4 anos completos Total Ensino médio ou superior 193 89 17 299 Ensino básico 399 324 101 824 Nenhum 424 529 167 1120Valores esperados
Idade ao morrer Nível de instrução da mãe. Antes do 28º dia Do 28º dia até 1 ano de idade (exclusive) De 1 a 4 anos completos Total Ensino médio ou superior 135,4 125,6 38,0 299 Ensino básico 373,2 346,1 104,7 824 Nenhum 507,3 470,4 142,3 1120 Total 1016 942 285 2243O valor da contingência quadrática:
X2 = 75,421
Coeficiente de contingência de Pearson ⇒
grau de associação entre as variáveis A e B
2
Estudo da associação em
tabelas de r x s
C se anula caso haja independência
Não atinge o valor de 1, exceto ser houver
um número infinito de modalidades dos atributos A e B
No estudo ⇒ r = s = 2 ⇒ C (valor máximo) =
Estudo da associação em
tabelas de r x s
Outros valores de r = s, no caso de
associação perfeita: Valor máximo r = s = 3 0,816 4 0,866 5 0,894 6 0,913 7 0,926
Estudo da associação em
tabelas de r x s
Para a tabela exemplo, o valor de C:
180 , 0 421 , 75 2243 421 , 75 + = + + = C
Estudo da associação em
tabelas de r x s
Confrontando-se com o valor máximo de C
para r = s = 3 (0,816) ⇒ fraco grau de
associação entre o nível educacional da mãe e a época do óbito infantil.
Estudo da associação em
tabelas de r x s
Coeficiente de contingência de Tschuprov
Para o exemplo: T = +0,130
T se anula no caso de independência e
somente atinge a unidade se r = s.
(
1)(
1)
2 2 − − = s r n X TEstudo da associação em
tabelas de r x s
Coeficiente de Cramér:
Onde min(r-1, s-1) é igual ao menor valores
entre (r-1) e (s-1).
)
1
,
1
min(
2 2−
−
×
=
s
r
n
X
V
Estudo da associação em
tabelas de r x s
Para r = s = 2 Para r = s, V = T Para o exemplo, V = +0,130 Φ = = n X V 2Medidas baseadas no conceito de
melhor predição da associação
Verificar se a tabela é ou não simétrica
Nível de mensuração das duas variáveis
qualitativas: nominais ou ordinais.
Assimétrica ⇒ quando a politomia
correspondente a uma das variáveis precede a outra no sentido de que uma variável é
Exemplo:
Aparecimento da rubéola em gestante
precede a condição que apresentará o recém-nascido.
Período de gestação ⇒ variável
independente
Variável dependente ⇒ condição do
exemplo
Condição do recém-nascido (B) Período de gestação
(A) Defeituoso (B1) Normal(B2) Total
Até o 3º mês (A1) 14 36 50
Depois do 3º mês (A2)
3 51 54
Reações de pacientes hospitalizados e acamados, de 14 a 44 anos, á intrusão visual no seu espaço pessoal durante o banho no leito, segundo o sexo. Reação(B) Gênero (A) Indiferente(B1) Não-indiferentel(B2) Total Feminino (A1) 17 40 57 Masculino (A2) 32 20 52 Total 49 60 109
Estatística λ
λ
λ
λ
para tabelas
assimétricas e atributos nominais
Onde:
(f.j) = maior valor entre os totais marginais f.1, f.2, ..., f.s;
max (f1j) = maior valor dentre as frequências da
( )
( )
[
]
(
f j)
n f f r i j ij b . max max max 1 . − − =∑
= λExemplo:
Meios anticoncepcionais usados (B) Religião (A) Lavagem
+ geléias B1 Pílula (B2) Ogino-KnaussB3 Esteriliza-çãoB4 Interrup-çãoB5 Preservati-voB6 OutrosB7 Total Católica(A1) 218 138 165 169 415 307 385 1797 Protestante(A2) 15 5 11 9 25 16 22 Protestante n(A3) 2 4 7 5 6 5 10 39 Espírita(A4) 6 1 3 7 6 11 15 49 Outra(A5) 8 9 7 8 16 18 14 80 Total 249 157 193 198 468 357 446 2068
Estatística λ
λ
λ
λ
para tabelas
assimétricas e atributos nominais
Mulher selecionada ao acaso, a chance de
ela usar, por exemplo, o meio
anticoncepcional Ogino-Knauss é da ordem de 9,33% (193/2068)
Será que o conhecimento da religião de uma
Estatística λ
λ
λ
λ
para tabelas
assimétricas e atributos nominais
n = 2068 max(f.j)= 468 max(f1j)= 415 max(f2.j)= 25 max(f3.j)= 10 max(f4.j)= 15 max(f5.j)= 18
( )
[
]
∑
==
5 1483
max
i ijf
Estatística λ
λ
λ
λ
para tabelas
assimétricas e atributos nominais
Ou seja, o conhecimento prévio da religião
da mulher praticamente não melhora a
0094
,
0
468
2068
468
483
=
−
−
=
n
bλ
Estatística λ
λ
λ
λ
para tabelas
assimétricas e atributos nominais
Para o exemplo da reação em hospital:
n = 109 max(f.j) = 60 max(f1j) = 40 max(f2j) = 32
( )
[
]
∑
==
2 172
max
i ijf
Estatística λ
λ
λ
λ
para tabelas
assimétricas e atributos nominais
Para o exercício anterior:
Mostrando que o conhecimento do sexo do
245
,
0
60
109
60
72
=
−
−
=
bλ
Estatística λ
λ
λ
λ
para tabelas
assimétricas e atributos nominais
λb = indeterminado se todos os indivíduoas
estiverem classificados na mesma modalidade de B.
Caso contrário, λb varia de 0 a 1.
λb = zero quando o conhecimento de A não
melhorar em nada a predição de B.
λb = um quando o conhecimento de A
Estatística λ
λ
λ
λ
para tabelas
assimétricas e atributos nominais
Para o exemplo de gestantes com rubéola:
No caso de haver independência.
Mas a recíproca não é verdadeira.
0
87
104
87
87
=
−
−
=
bλ
Estatística λ
λ
λ
λ
para tabelas
assimétricas e atributos nominais
Ainda para o exemplo anterior, não há
independência, como demonstra o coeficiente de Yule:
737
,
0
36
3
51
14
36
3
51
14
=
×
+
×
×
−
×
=
Q
Estatística λ
λ
λ
λ
para tabelas
simétricas e atributos nominais
Quando nenhum dos atributos precede o
outro:
( )
[
]
[
( )
( )
( )
]
( )
.( )
. 1 1 . . max max 2 max max max max i j r i s i i j ij ij f f n f f f f − − − − + =∑
∑
= = λEstatística λ
λ
λ
λ
para tabelas
simétricas e atributos nominais
λ = 1 se e somente se todos os indivíduos
estiverem distribuídos de tal maneira que em cada linha e em cada coluna da tabela só
exista uma cela ocupada.
λ = 0 no caso de independência, mas a
recíproca não é verdadeira.
λ = indeterminado se todos os n indivíduos
Estatística λ
λ
λ
λ
para tabelas
simétricas e atributos nominais
Para o exemplo de comparação de métodos coprológicos: n = 200 max(f1.) = 118 max(f.j) = 117
( )
[
]
∑
2Estatística λ
λ
λ
λ
para tabelas
simétricas e atributos nominais
max(fi1) = 80 max(fi2) = 115
∑
[
( )
]
==
2 1195
max
i ijf
939
,
0
118
117
200
2
118
117
195
195
=
−
−
−
−
+
=
X
λ
Estatística λ
λ
λ
λ
para tabelas
simétricas e atributos nominais
O valor de 0,939 para λ mostra que o
conhecimento de um resultado do exame de fezes por um dos métodos permite melhorar em 93,9% a predição do resultado do mesmo exame pelo outro método e vice-versa.
Estatística ν
ν
ν
ν
para tabelas
simétricas e atributos ordinais
Para tabela de contingência r x s em que
nenhum dos dois atributos A e B têm
precedência sobre o outro e onde ambos são de natureza ordinal.
ν ⇒ a magnitude da probabilidade de se
obter ordem semelhante do que diferente, nas duas politomias, quando dois indivíduos são escolhidos ao acaso.