Introdu¸c˜ao `a probabilidade e estat´ıstica I

(1)

Introdu¸c˜ ao ` a probabilidade e estat´ıstica I

An´alise bivariada

Prof. Alexandre G Patriota Sala: 298A

Email: patriota@ime.usp.br Site: www.ime.usp.br/∼patriota

(2)

An´ alise bivariada

Até o momento apenas estudamos medidas resumo e gráficos para variáveis unidimensionais. Nesta aula estudaremos como analisar duas ou mais variáveis.

Lembramos que os tipos das vari´aveis podem ser:

I Qualitativas (Nominal e Ordinal);

I Quantitativas (Discreta e Cont´ınua).

Em uma an´alise bidimensional (de duas vari´aveis) podemos ter:

I Duas vari´aveis qualitativas;

I Duas vari´aveis quantitativas;

I Um vari´avel quantitativa e outra qualitativa

(3)

Duas vari´ aveis qualitativas

Quando temos duas vari´aveis qualitativas podemos criar tabelas de frequˆencias de dupla entrada.

Exemplo: Considere o seguinte conjunto de dados X : A A A A B B B B B Y : S S N N S S N S N Podemos criar uma tabelas de dupla entrada de frequˆencias

X|Y S N Total

A 2 2 4

B 3 2 5

Total 5 4 9

(4)

Tabela de propor¸c˜ oes

Em rela¸c˜ao ao total geral

X|Y S N Total

A 22,22% 22,22% 44,44%

B 33,33% 22,22% 55,56%

Total 55,56% 44,44% 100%

Em rela¸c˜ao ao total deX (total das linhas)

X|Y S N Total

A 50% 50% 100%

B 60% 40% 100%

Em rela¸c˜ao ao total deY (total das colunas)

X|Y S N

A 40% 50%

B 60% 50%

Total 100% 100%

(5)

Tabelas de dupla entrada

SejaX uma vari´avel qualitativa assumindo as seguintes categorias A1,A2, . . . ,Ak.

SejaY uma outra vari´avel qualitativa assumindo as categorias B1,B2, . . . ,Bl.

Definimos comon_ij o n´umero de elementos do nosso conjunto de dados com as caracter´ısticasAi e Bj.

(6)

Tabela de Dupla entrada

Definimos a tabela de dupla entrada de frequˆencias absolutas por

X|Y B1 B2 . . . Bl Total

A1 n11 n12 . . . n1l n1·

A2 n21 n22 . . . n_2l n2·

... ... ... . . . ... ...

Ak nk1 nk2 . . . nkl nk·

Total n·1 n·2 . . . n·l n··

Pode-se construir também tabelas de frequências relativas. Porém exitem três possibilidades:

(1) relativo ao total geral; (2) relativo ao total de cada linha e (3) relativo ao total de cada coluna.

(7)

Tabela de frequˆ encias relativas ao total geral

A tabela de frequˆencias relativas ao total geral ´e dada por

X|Y B₁ B₂ . . . B_l Total

A₁ ⁿ_n¹¹

··

n12

n·· . . . ⁿ_n^1l

··

n1·

n··

A2 n21

n··

n22

n·· . . . ⁿ_n^2l

··

n2·

n··

... ... ... . . . ... ...

A_k ⁿ_n^k1

··

nk2

n·· . . . ⁿ_n^kl

··

nk·

n··

Total ⁿ_n^·1

··

n·2

n·· . . . ⁿ_n^·l

·· 1

(8)

Tabela de frequˆ encias relativas ao total de cada linha

A₁ ⁿ_n¹¹

1·

n12

n1· . . . ⁿ_n^1l

1· 1

A₂ ⁿ_n²¹

2·

n22

n2· . . . ⁿ_n^2l

2· 1

... ... ... . . . ... ...

Ak nk1

nk·

nk2

nk· . . . ⁿ_n^kl

k· 1

(9)

Tabela de frequˆ encias relativas ao total de cada coluna

X|Y B1 B2 . . . B_l

A1 n11

n·1

n12

n·2 . . . ⁿ_n^1l

·l

A₂ ⁿ_n²¹

·1

n22

n·2 . . . ⁿ_n^2l .. ·l

. ... ... . . . ...

Ak nk1

n·1

nk2

n·2 . . . ⁿ_n^kl

·l

Total 1 1 . . . 1

(10)

Medidas de Associa¸c˜ ao entre Vari´ aveis qualitativas

Geralmente estamos interessados em verificar se as vari´aveisX e Y est˜ao associadas de alguma forma.

Podemos verificar se as variáveis são independentes (teste de independência) ou se existe homogeneidade nas categorias de uma das variáveis em rela¸cão à outra (teste de homogeneidade).

Basicamente os testes são equivalentes, porém as interpreta¸cões para cada caso são diferentes.

O teste adequado depende do tipo de experimento realizado.

(11)

Teste de independˆ encia

No teste de independˆencia queremos verificar se os eventos s˜ao independentes.

O total é fixado (as marginais não são fixadas, elas são obtidas através de sorteio) e retiramos uma amostra para verificar como os dados da tabela de dupla se comportam.

Uma determinada marca de parafusos quer saber se a

defeituosidade do parafuso depende do Estado em que ele foi fabricado. Um total de 510 parafusos foi previamente fixado, depois sorteia-se o Estado que ter´a o parafuso verificado.

Parafuso

Defeituosos N˜ao defeituosos Total

S˜ao Paulo 60 140 200

Cear´a 10 90 100

Pernambuco 50 160 210

Total 120 390 510

(12)

Teste de homogeneidade

No teste de homogeneidade queremos verificar se as categorias de uma vari´avel s˜ao distribu´ıdas uniformemente.

Os totais marginaiss˜ao fixados.

Uma determinada marca de parafusos quer saber se diferen¸cas entre os Estados na propor¸c˜ao de parafusos defeituosos. Um total de 200 parafusos foi previamente fixado para cada Estado.

Parafuso

Defeituosos N˜ao defeituosos Total

S˜ao Paulo 60 140 200

Cear´a 30 170 200

Pernambuco 45 155 200

Total 135 465 600

(13)

Valores esperados sob as hip´ oteses

Em qualquer um dos dois casos, esperar´ıamos que n_i1

n·1

= n_i2 n·2

=. . .= n_il n·l

ou nij

n·j

= ni·

n··

para todoi,j

(14)

Valores esperados sob as hip´ oteses

A tabela abaixo descreve como deveriam se comportar as caselas se não houvesse associa¸cão alguma (são independentes ou se distribuem de forma homogênea) entre as variáveis

A1 n·1n1·

n··

n·2n1·

n·· . . . ⁿ^·l_nⁿ_··^1· n1·

A₂ ⁿ^·1_nⁿ^2·

··

n·2n2·

n·· . . . ⁿ^·l_nⁿ^2·

·· n2·

... ... ... . . . ... ...

A_k ⁿ^·1_nⁿ^k·

··

n·2nk·

n·· . . . ⁿ^·l_nⁿ^k·

·· nk·

Total n·1 n·2 . . . n·l n··

A tabela acima nos mostra como deveriam se distribuir os dados caso as categorias deX n˜ao dependam das categorias deY.

(15)

Valores esperados sob as hip´ oteses

Observe que, quandon1·=n2·=. . .=nl·=n⁰ e n··=kn⁰ temos que

A₁ ⁿ_k^·1 ⁿ_k^·2 . . . ⁿ_k^·l n⁰ A2 n·1

k n·2

k . . . ⁿ_k^·l n⁰

... ... ... . . . ... ... A_k ⁿ_k^·1 ⁿ_k^·2 . . . ⁿ_k^·l n⁰ Total n·1 n·2 . . . n·l kn⁰

(16)

Testes de homogeneidade e independˆ encia

Uma medida que verifique independˆencia e/ou homogeneidade deve levar em conta o que foi observado e o que seria esperado.

Definan^∗_ij = ⁿ^i·_nⁿ^·j

·· como o valor esperado da casela (i,j).

O qui-quadrado de Pearson é uma medida que nos diz quão associados estão as variáveis. É definido por

χ²=

k

X

i=1 l

X

j=1

(nij −n^∗_ij)² n^∗_ij .

Se não houver associa¸cão esperamos que χ² seja próxima de zero, se houver alguma associa¸cão o valor de χ² será alto (estudaremos isso com mais detalhes no próximo curso).

(17)

Exemplo de independˆ encia

Tabela de frequências absolutas (e valores esperados) para o defeito (não defeito) de parafusos por Estado. Total de 510 parafusos fixado (teste de independência).

Parafuso

Defeituosos N˜ao defeituosos Total S˜ao Paulo 60 (47,06) 140 (152,94) 200

Cear´a 10 (23,53) 90 (76,47) 100 Pernambuco 50 (49,41) 160 (160,59) 210

Total 120 390 510

χ²= (60−47,06)²

47,06 +(140−152,94)²

152,94 +. . .+(160−160,59)²

160,59 = 14,84

(18)

Exemplo de homogeneidade

Tabela de frequˆencias absolutas (e valores esperados) para o defeito (n˜ao defeito) de parafusos por Estado. Total de 200 parafusos por Estado fixado (teste de homogeneidade).

Parafuso

Defeituosos N˜ao defeituosos Total S˜ao Paulo 60 (45) 140 (155) 200

Cear´a 30 (45) 170 (155) 200

Pernambuco 45 (45) 155 (155) 200

Total 135 465 600

χ² = (60−45)²

45 +(140−155)²

155 +. . .+ (155−155)²

155 = 61,65

(19)

Uma vari´ avel quantitativa e outra qualitativa

Pode-se fazer an´alises considerando uma vari´avel quantitativa e outra qualitativa.

SejaX uma vari´avel qualitativa com as sequintes categorias A₁,A₂, . . . ,A_k e seja Y uma vari´avel quantitativa.

X|Y M´edia Mediana 1o quartil 3o quartil variˆancia . . .

A1 Y¯⁽¹⁾ Q₂⁽¹⁾ Q₁⁽¹⁾ Q₃⁽¹⁾ S²⁽¹⁾ . . .

A₂ Y¯⁽²⁾ Q₂⁽²⁾ Q₁⁽²⁾ Q₃⁽²⁾ S²⁽²⁾ . . .

... ... ... ... ... ... . . .

A_k Y¯^(k) Q₂^(k) Q₁^(k) Q₃^(k) S^2(k) . . .

(20)

Considere o seguinte conjunto de dados obtidos do IPEA:

Governo ANO PDEP 20R-20P P50P FHC 1995 11,31 27,73 12,35 FHC 1996 11,83 29,66 12,09 FHC 1997 11,79 29,05 12,12 FHC 1998 10,69 27,78 12,34 FHC 1999 11,12 26,45 12,69 FHC 2001 11,43 27,47 12,97 FHC 2002 10,26 25,02 12,58 LULA 2003 11,29 24,69 13,22 LULA 2004 9,69 22,39 13,84 LULA 2005 8,35 21,66 14,06 LULA 2006 6,97 20,81 14,46 LULA 2007 6,68 20,69 14,72 LULA 2008 5,9 19,31 15,25 LULA 2009 5,82 18,99 15,49 PDEP: Domic´ılios extremamente pobres

20R-20P: Raz˜ao entre a renda dos 20% mais ricos e 20% mais pobres P50P: Participa¸c˜ao dos 50% mais pobres na renda domiciliar (per capita).

(21)

An´ alises

Governo Versus PDEP

M´edia Mediana 1o quartil 3o quartil Var Desvio-P.

FHC 11,20 11,31 10,90 11,61 0,28 0,53

LULA 7,81 6,97 6,29 9,02 3,65 1,91

Governo Versus 20R.20P

FHC 27,59 27,73 26,96 28,41 2,06 1,43

LULA 21,22 20,81 20,00 22,02 3,24 1,80

Governo Versus P50P

FHC 12,45 12,35 12,23 12,63 0,09 0,29

LULA 14,43 14,46 13,95 14,98 0,55 0,74

(22)

Boxplot PDEP por Governo

FHC LULA

6789101112

PDEP

(23)

Boxplot 20R-20P por Governo

FHC LULA

202224262830

20R.20P

(24)

Boxplot P50P por Governo

FHC LULA

12.012.513.013.514.014.515.015.5

P50P

(25)

Duas vari´ aveis quantitativas

Note que nas an´alises anteriores n˜ao consideram o comportamento anual dos ´ındices.

N˜ao sabemos se houve uma continuidade ou uma ruptura no movimento da s´erie.

Uma forma de verificar graficamente esse movimento é através de gráficos de dispersão “Índice VersusAno”.

Observe que uma análise mais aprofundada levando em conta os per´ıodos que cada governo passou é necessária para uma conclusão apropriada sobre a varia¸cão destes ´ındices. Aqui apenas mostramos os números que estão dispon´ıveis.

(26)

Gr´ afico de dispers˜ ao PDEP por ANO

1996 1998 2000 2002 2004 2006 2008

6789101112

PDEP

ANO

PDEP

●

● ●

●

● ●

(27)

Gr´ afico de dispers˜ ao 20R-20P por ANO

1996 1998 2000 2002 2004 2006 2008

202224262830

20R−20P

ANO

20R−20P

●

● ●

●

(28)

Gr´ afico de dispers˜ ao P50P por ANO

1996 1998 2000 2002 2004 2006 2008

12.012.513.013.514.014.515.015.5

P50P

ANO

P50P

●

● ●

●

(29)

Duas vari´ aveis quantitativas

SejaX e Y duas vari´aveis quantitativas.

Suponha que é observado o conjunto de dados{x₁,x₂, . . . ,x_n} da variávelX e o conjunto de dados {y₁,y2, . . . ,yn} da variávelY. Os dados são (x_i,y_i) são referentes a mesma unidade amostral.

Definiremos a covariˆancia entre os conjuntos de dados observados deX e Y por

S_XY =

n

X

i=1

(x_i −x)(y¯ _i −y¯) n

A covariância mede de certa forma o grau de dependência linear entre as variáveis quantitativasX e Y.

(30)

Coeficiente de correla¸c˜ ao de Pearson

Uma medida que mede o grau de associa¸cão entre estas duas variáveis é conhecida por coeficiente de correla¸cão.

O coeficiente de correla¸c˜ao de Pearson ´e definido por

ρXY = SXY

q S_X²S_Y²

Pode-se mostrar queρ_XY varia entre [−1,1]. Se ρ_XY = 1 então os dados tem uma dependência linear positiva perfeita. Seρ=−1, então os dados tem uma dependência linear negativa perfeita. Se ρ= 0, então não existe dependência linear entre os dados.

(31)

Exemplo

Suponha quey_i =a+bx_i, qual o coeficiente de correla¸c˜ao de Pearson entreX eY?

Dada a rela¸c˜ao acima, mostre que:

b= S_XY S_X²

em queS_X² ´e a variˆancia de X.

Em problemas reais a rela¸cão acima não é perfeita, temos um erro:

yi =a+bxi +ei. As quantidades ˆa= ¯y−ˆb¯x e ˆb= ^S_S^XY2 X

minimizam a distˆancia entre yi e a reta a+bxi, para i = 1, . . . ,n.

Ver a reta na lousa.

(32)

Gr´ afico de dispers˜ ao PDEP por ANO

1996 1998 2000 2002 2004 2006 2008

6789101112

PDEP

ANO

PDEP

●

● ●

●

● ●

(1) FHC ˆa= 281,8 e ˆb=−0,14 (2) Lula ˆa= 1846,2 e ˆb=−0,92

(33)

Gr´ afico de dispers˜ ao 20R-20P por ANO

1996 1998 2000 2002 2004 2006 2008

202224262830

20R−20P

ANO

20R−20P

●

● ●

●

(1) FHC ˆa= 930,2 e ˆb=−0,45 (2) Lula ˆa= 1757,1 e ˆb=−0,86

(34)

Gr´ afico de dispers˜ ao P50P por ANO

1996 1998 2000 2002 2004 2006 2008

12.012.513.013.514.014.515.015.5

P50P

ANO

P50P

●

● ●

●

(1) FHC ˆa=−173,7 e ˆb = 0,09 (2) Lula ˆa=−722,8 e ˆb = 0,37

(35)

Pr´ oximos T´ opicos

I Probabilidade

I Contagem