Introdu¸c˜ ao ` a probabilidade e estat´ıstica I
An´alise bivariada
Prof. Alexandre G Patriota Sala: 298A
Email: patriota@ime.usp.br Site: www.ime.usp.br/∼patriota
An´ alise bivariada
At´e o momento apenas estudamos medidas resumo e gr´aficos para vari´aveis unidimensionais. Nesta aula estudaremos como analisar duas ou mais vari´aveis.
Lembramos que os tipos das vari´aveis podem ser:
I Qualitativas (Nominal e Ordinal);
I Quantitativas (Discreta e Cont´ınua).
Em uma an´alise bidimensional (de duas vari´aveis) podemos ter:
I Duas vari´aveis qualitativas;
I Duas vari´aveis quantitativas;
I Um vari´avel quantitativa e outra qualitativa
Duas vari´ aveis qualitativas
Quando temos duas vari´aveis qualitativas podemos criar tabelas de frequˆencias de dupla entrada.
Exemplo: Considere o seguinte conjunto de dados X : A A A A B B B B B Y : S S N N S S N S N Podemos criar uma tabelas de dupla entrada de frequˆencias
X|Y S N Total
A 2 2 4
B 3 2 5
Total 5 4 9
Tabela de propor¸c˜ oes
Em rela¸c˜ao ao total geral
X|Y S N Total
A 22,22% 22,22% 44,44%
B 33,33% 22,22% 55,56%
Total 55,56% 44,44% 100%
Em rela¸c˜ao ao total deX (total das linhas)
X|Y S N Total
A 50% 50% 100%
B 60% 40% 100%
Em rela¸c˜ao ao total deY (total das colunas)
X|Y S N
A 40% 50%
B 60% 50%
Total 100% 100%
Tabelas de dupla entrada
SejaX uma vari´avel qualitativa assumindo as seguintes categorias A1,A2, . . . ,Ak.
SejaY uma outra vari´avel qualitativa assumindo as categorias B1,B2, . . . ,Bl.
Definimos comonij o n´umero de elementos do nosso conjunto de dados com as caracter´ısticasAi e Bj.
Tabela de Dupla entrada
Definimos a tabela de dupla entrada de frequˆencias absolutas por
X|Y B1 B2 . . . Bl Total
A1 n11 n12 . . . n1l n1·
A2 n21 n22 . . . n2l n2·
... ... ... . . . ... ...
Ak nk1 nk2 . . . nkl nk·
Total n·1 n·2 . . . n·l n··
Pode-se construir tamb´em tabelas de frequˆencias relativas. Por´em exitem trˆes possibilidades:
(1) relativo ao total geral; (2) relativo ao total de cada linha e (3) relativo ao total de cada coluna.
Tabela de frequˆ encias relativas ao total geral
A tabela de frequˆencias relativas ao total geral ´e dada por
X|Y B1 B2 . . . Bl Total
A1 nn11
··
n12
n·· . . . nn1l
··
n1·
n··
A2 n21
n··
n22
n·· . . . nn2l
··
n2·
n··
... ... ... . . . ... ...
Ak nnk1
··
nk2
n·· . . . nnkl
··
nk·
n··
Total nn·1
··
n·2
n·· . . . nn·l
·· 1
Tabela de frequˆ encias relativas ao total de cada linha
X|Y B1 B2 . . . Bl Total
A1 nn11
1·
n12
n1· . . . nn1l
1· 1
A2 nn21
2·
n22
n2· . . . nn2l
2· 1
... ... ... . . . ... ...
Ak nk1
nk·
nk2
nk· . . . nnkl
k· 1
Tabela de frequˆ encias relativas ao total de cada coluna
X|Y B1 B2 . . . Bl
A1 n11
n·1
n12
n·2 . . . nn1l
·l
A2 nn21
·1
n22
n·2 . . . nn2l .. ·l
. ... ... . . . ...
Ak nk1
n·1
nk2
n·2 . . . nnkl
·l
Total 1 1 . . . 1
Medidas de Associa¸c˜ ao entre Vari´ aveis qualitativas
Geralmente estamos interessados em verificar se as vari´aveisX e Y est˜ao associadas de alguma forma.
Podemos verificar se as vari´aveis s˜ao independentes (teste de independˆencia) ou se existe homogeneidade nas categorias de uma das vari´aveis em rela¸c˜ao `a outra (teste de homogeneidade).
Basicamente os testes s˜ao equivalentes, por´em as interpreta¸c˜oes para cada caso s˜ao diferentes.
O teste adequado depende do tipo de experimento realizado.
Teste de independˆ encia
No teste de independˆencia queremos verificar se os eventos s˜ao independentes.
O total ´e fixado (as marginais n˜ao s˜ao fixadas, elas s˜ao obtidas atrav´es de sorteio) e retiramos uma amostra para verificar como os dados da tabela de dupla se comportam.
Uma determinada marca de parafusos quer saber se a
defeituosidade do parafuso depende do Estado em que ele foi fabricado. Um total de 510 parafusos foi previamente fixado, depois sorteia-se o Estado que ter´a o parafuso verificado.
Parafuso
Defeituosos N˜ao defeituosos Total
S˜ao Paulo 60 140 200
Cear´a 10 90 100
Pernambuco 50 160 210
Total 120 390 510
Teste de homogeneidade
No teste de homogeneidade queremos verificar se as categorias de uma vari´avel s˜ao distribu´ıdas uniformemente.
Os totais marginaiss˜ao fixados.
Uma determinada marca de parafusos quer saber se diferen¸cas entre os Estados na propor¸c˜ao de parafusos defeituosos. Um total de 200 parafusos foi previamente fixado para cada Estado.
Parafuso
Defeituosos N˜ao defeituosos Total
S˜ao Paulo 60 140 200
Cear´a 30 170 200
Pernambuco 45 155 200
Total 135 465 600
Valores esperados sob as hip´ oteses
Em qualquer um dos dois casos, esperar´ıamos que ni1
n·1
= ni2 n·2
=. . .= nil n·l
ou nij
n·j
= ni·
n··
para todoi,j
Valores esperados sob as hip´ oteses
A tabela abaixo descreve como deveriam se comportar as caselas se n˜ao houvesse associa¸c˜ao alguma (s˜ao independentes ou se distribuem de forma homogˆenea) entre as vari´aveis
X|Y B1 B2 . . . Bl Total
A1 n·1n1·
n··
n·2n1·
n·· . . . n·lnn··1· n1·
A2 n·1nn2·
··
n·2n2·
n·· . . . n·lnn2·
·· n2·
... ... ... . . . ... ...
Ak n·1nnk·
··
n·2nk·
n·· . . . n·lnnk·
·· nk·
Total n·1 n·2 . . . n·l n··
A tabela acima nos mostra como deveriam se distribuir os dados caso as categorias deX n˜ao dependam das categorias deY.
Valores esperados sob as hip´ oteses
Observe que, quandon1·=n2·=. . .=nl·=n0 e n··=kn0 temos que
X|Y B1 B2 . . . Bl Total
A1 nk·1 nk·2 . . . nk·l n0 A2 n·1
k n·2
k . . . nk·l n0
... ... ... . . . ... ... Ak nk·1 nk·2 . . . nk·l n0 Total n·1 n·2 . . . n·l kn0
Testes de homogeneidade e independˆ encia
Uma medida que verifique independˆencia e/ou homogeneidade deve levar em conta o que foi observado e o que seria esperado.
Definan∗ij = ni·nn·j
·· como o valor esperado da casela (i,j).
O qui-quadrado de Pearson ´e uma medida que nos diz qu˜ao associados est˜ao as vari´aveis. ´E definido por
χ2=
k
X
i=1 l
X
j=1
(nij −n∗ij)2 n∗ij .
Se n˜ao houver associa¸c˜ao esperamos que χ2 seja pr´oxima de zero, se houver alguma associa¸c˜ao o valor de χ2 ser´a alto (estudaremos isso com mais detalhes no pr´oximo curso).
Exemplo de independˆ encia
Tabela de frequˆencias absolutas (e valores esperados) para o defeito (n˜ao defeito) de parafusos por Estado. Total de 510 parafusos fixado (teste de independˆencia).
Parafuso
Defeituosos N˜ao defeituosos Total S˜ao Paulo 60 (47,06) 140 (152,94) 200
Cear´a 10 (23,53) 90 (76,47) 100 Pernambuco 50 (49,41) 160 (160,59) 210
Total 120 390 510
χ2= (60−47,06)2
47,06 +(140−152,94)2
152,94 +. . .+(160−160,59)2
160,59 = 14,84
Exemplo de homogeneidade
Tabela de frequˆencias absolutas (e valores esperados) para o defeito (n˜ao defeito) de parafusos por Estado. Total de 200 parafusos por Estado fixado (teste de homogeneidade).
Parafuso
Defeituosos N˜ao defeituosos Total S˜ao Paulo 60 (45) 140 (155) 200
Cear´a 30 (45) 170 (155) 200
Pernambuco 45 (45) 155 (155) 200
Total 135 465 600
χ2 = (60−45)2
45 +(140−155)2
155 +. . .+ (155−155)2
155 = 61,65
Uma vari´ avel quantitativa e outra qualitativa
Pode-se fazer an´alises considerando uma vari´avel quantitativa e outra qualitativa.
SejaX uma vari´avel qualitativa com as sequintes categorias A1,A2, . . . ,Ak e seja Y uma vari´avel quantitativa.
X|Y M´edia Mediana 1o quartil 3o quartil variˆancia . . .
A1 Y¯(1) Q2(1) Q1(1) Q3(1) S2(1) . . .
A2 Y¯(2) Q2(2) Q1(2) Q3(2) S2(2) . . .
... ... ... ... ... ... . . .
Ak Y¯(k) Q2(k) Q1(k) Q3(k) S2(k) . . .
Considere o seguinte conjunto de dados obtidos do IPEA:
Governo ANO PDEP 20R-20P P50P FHC 1995 11,31 27,73 12,35 FHC 1996 11,83 29,66 12,09 FHC 1997 11,79 29,05 12,12 FHC 1998 10,69 27,78 12,34 FHC 1999 11,12 26,45 12,69 FHC 2001 11,43 27,47 12,97 FHC 2002 10,26 25,02 12,58 LULA 2003 11,29 24,69 13,22 LULA 2004 9,69 22,39 13,84 LULA 2005 8,35 21,66 14,06 LULA 2006 6,97 20,81 14,46 LULA 2007 6,68 20,69 14,72 LULA 2008 5,9 19,31 15,25 LULA 2009 5,82 18,99 15,49 PDEP: Domic´ılios extremamente pobres
20R-20P: Raz˜ao entre a renda dos 20% mais ricos e 20% mais pobres P50P: Participa¸c˜ao dos 50% mais pobres na renda domiciliar (per capita).
An´ alises
Governo Versus PDEP
M´edia Mediana 1o quartil 3o quartil Var Desvio-P.
FHC 11,20 11,31 10,90 11,61 0,28 0,53
LULA 7,81 6,97 6,29 9,02 3,65 1,91
Governo Versus 20R.20P
M´edia Mediana 1o quartil 3o quartil Var Desvio-P.
FHC 27,59 27,73 26,96 28,41 2,06 1,43
LULA 21,22 20,81 20,00 22,02 3,24 1,80
Governo Versus P50P
M´edia Mediana 1o quartil 3o quartil Var Desvio-P.
FHC 12,45 12,35 12,23 12,63 0,09 0,29
LULA 14,43 14,46 13,95 14,98 0,55 0,74
Boxplot PDEP por Governo
FHC LULA
6789101112
PDEP
Boxplot 20R-20P por Governo
FHC LULA
202224262830
20R.20P
Boxplot P50P por Governo
FHC LULA
12.012.513.013.514.014.515.015.5
P50P
Duas vari´ aveis quantitativas
Note que nas an´alises anteriores n˜ao consideram o comportamento anual dos ´ındices.
N˜ao sabemos se houve uma continuidade ou uma ruptura no movimento da s´erie.
Uma forma de verificar graficamente esse movimento ´e atrav´es de gr´aficos de dispers˜ao “´Indice VersusAno”.
Observe que uma an´alise mais aprofundada levando em conta os per´ıodos que cada governo passou ´e necess´aria para uma conclus˜ao apropriada sobre a varia¸c˜ao destes ´ındices. Aqui apenas mostramos os n´umeros que est˜ao dispon´ıveis.
Gr´ afico de dispers˜ ao PDEP por ANO
1996 1998 2000 2002 2004 2006 2008
6789101112
PDEP
ANO
PDEP
●
● ●
●
●
●
●
●
●
●
●
●
● ●
Gr´ afico de dispers˜ ao 20R-20P por ANO
1996 1998 2000 2002 2004 2006 2008
202224262830
20R−20P
ANO
20R−20P
●
●
●
●
●
●
●
●
●
●
● ●
●
●
Gr´ afico de dispers˜ ao P50P por ANO
1996 1998 2000 2002 2004 2006 2008
12.012.513.013.514.014.515.015.5
P50P
ANO
P50P
●
● ●
●
●
●
●
●
●
●
●
●
●
●
Duas vari´ aveis quantitativas
SejaX e Y duas vari´aveis quantitativas.
Suponha que ´e observado o conjunto de dados{x1,x2, . . . ,xn} da vari´avelX e o conjunto de dados {y1,y2, . . . ,yn} da vari´avelY. Os dados s˜ao (xi,yi) s˜ao referentes a mesma unidade amostral.
Definiremos a covariˆancia entre os conjuntos de dados observados deX e Y por
SXY =
n
X
i=1
(xi −x)(y¯ i −y¯) n
A covariˆancia mede de certa forma o grau de dependˆencia linear entre as vari´aveis quantitativasX e Y.
Coeficiente de correla¸c˜ ao de Pearson
Uma medida que mede o grau de associa¸c˜ao entre estas duas vari´aveis ´e conhecida por coeficiente de correla¸c˜ao.
O coeficiente de correla¸c˜ao de Pearson ´e definido por
ρXY = SXY
q SX2SY2
Pode-se mostrar queρXY varia entre [−1,1]. Se ρXY = 1 ent˜ao os dados tem uma dependˆencia linear positiva perfeita. Seρ=−1, ent˜ao os dados tem uma dependˆencia linear negativa perfeita. Se ρ= 0, ent˜ao n˜ao existe dependˆencia linear entre os dados.
Exemplo
Suponha queyi =a+bxi, qual o coeficiente de correla¸c˜ao de Pearson entreX eY?
Dada a rela¸c˜ao acima, mostre que:
b= SXY SX2
em queSX2 ´e a variˆancia de X.
Em problemas reais a rela¸c˜ao acima n˜ao ´e perfeita, temos um erro:
yi =a+bxi +ei. As quantidades ˆa= ¯y−ˆb¯x e ˆb= SSXY2 X
minimizam a distˆancia entre yi e a reta a+bxi, para i = 1, . . . ,n.
Ver a reta na lousa.
Gr´ afico de dispers˜ ao PDEP por ANO
1996 1998 2000 2002 2004 2006 2008
6789101112
PDEP
ANO
PDEP
●
● ●
●
●
●
●
●
●
●
●
●
● ●
(1) FHC ˆa= 281,8 e ˆb=−0,14 (2) Lula ˆa= 1846,2 e ˆb=−0,92
Gr´ afico de dispers˜ ao 20R-20P por ANO
1996 1998 2000 2002 2004 2006 2008
202224262830
20R−20P
ANO
20R−20P
●
●
●
●
●
●
●
●
●
●
● ●
●
●
(1) FHC ˆa= 930,2 e ˆb=−0,45 (2) Lula ˆa= 1757,1 e ˆb=−0,86
Gr´ afico de dispers˜ ao P50P por ANO
1996 1998 2000 2002 2004 2006 2008
12.012.513.013.514.014.515.015.5
P50P
ANO
P50P
●
● ●
●
●
●
●
●
●
●
●
●
●
●
(1) FHC ˆa=−173,7 e ˆb = 0,09 (2) Lula ˆa=−722,8 e ˆb = 0,37
Pr´ oximos T´ opicos
I Probabilidade
I Contagem