• Nenhum resultado encontrado

Introdu¸c˜ao `a probabilidade e estat´ıstica I

N/A
N/A
Protected

Academic year: 2022

Share "Introdu¸c˜ao `a probabilidade e estat´ıstica I"

Copied!
35
0
0

Texto

(1)

Introdu¸c˜ ao ` a probabilidade e estat´ıstica I

An´alise bivariada

Prof. Alexandre G Patriota Sala: 298A

Email: patriota@ime.usp.br Site: www.ime.usp.br/∼patriota

(2)

An´ alise bivariada

At´e o momento apenas estudamos medidas resumo e gr´aficos para vari´aveis unidimensionais. Nesta aula estudaremos como analisar duas ou mais vari´aveis.

Lembramos que os tipos das vari´aveis podem ser:

I Qualitativas (Nominal e Ordinal);

I Quantitativas (Discreta e Cont´ınua).

Em uma an´alise bidimensional (de duas vari´aveis) podemos ter:

I Duas vari´aveis qualitativas;

I Duas vari´aveis quantitativas;

I Um vari´avel quantitativa e outra qualitativa

(3)

Duas vari´ aveis qualitativas

Quando temos duas vari´aveis qualitativas podemos criar tabelas de frequˆencias de dupla entrada.

Exemplo: Considere o seguinte conjunto de dados X : A A A A B B B B B Y : S S N N S S N S N Podemos criar uma tabelas de dupla entrada de frequˆencias

X|Y S N Total

A 2 2 4

B 3 2 5

Total 5 4 9

(4)

Tabela de propor¸c˜ oes

Em rela¸c˜ao ao total geral

X|Y S N Total

A 22,22% 22,22% 44,44%

B 33,33% 22,22% 55,56%

Total 55,56% 44,44% 100%

Em rela¸c˜ao ao total deX (total das linhas)

X|Y S N Total

A 50% 50% 100%

B 60% 40% 100%

Em rela¸c˜ao ao total deY (total das colunas)

X|Y S N

A 40% 50%

B 60% 50%

Total 100% 100%

(5)

Tabelas de dupla entrada

SejaX uma vari´avel qualitativa assumindo as seguintes categorias A1,A2, . . . ,Ak.

SejaY uma outra vari´avel qualitativa assumindo as categorias B1,B2, . . . ,Bl.

Definimos comonij o n´umero de elementos do nosso conjunto de dados com as caracter´ısticasAi e Bj.

(6)

Tabela de Dupla entrada

Definimos a tabela de dupla entrada de frequˆencias absolutas por

X|Y B1 B2 . . . Bl Total

A1 n11 n12 . . . n1l n

A2 n21 n22 . . . n2l n

... ... ... . . . ... ...

Ak nk1 nk2 . . . nkl n

Total n·1 n·2 . . . n·l n··

Pode-se construir tamb´em tabelas de frequˆencias relativas. Por´em exitem trˆes possibilidades:

(1) relativo ao total geral; (2) relativo ao total de cada linha e (3) relativo ao total de cada coluna.

(7)

Tabela de frequˆ encias relativas ao total geral

A tabela de frequˆencias relativas ao total geral ´e dada por

X|Y B1 B2 . . . Bl Total

A1 nn11

··

n12

n·· . . . nn1l

··

n

n··

A2 n21

n··

n22

n·· . . . nn2l

··

n

n··

... ... ... . . . ... ...

Ak nnk1

··

nk2

n·· . . . nnkl

··

n

n··

Total nn·1

··

n·2

n·· . . . nn·l

·· 1

(8)

Tabela de frequˆ encias relativas ao total de cada linha

X|Y B1 B2 . . . Bl Total

A1 nn11

n12

n . . . nn1l

1

A2 nn21

n22

n . . . nn2l

1

... ... ... . . . ... ...

Ak nk1

n

nk2

n . . . nnkl

1

(9)

Tabela de frequˆ encias relativas ao total de cada coluna

X|Y B1 B2 . . . Bl

A1 n11

n·1

n12

n·2 . . . nn1l

·l

A2 nn21

·1

n22

n·2 . . . nn2l .. ·l

. ... ... . . . ...

Ak nk1

n·1

nk2

n·2 . . . nnkl

·l

Total 1 1 . . . 1

(10)

Medidas de Associa¸c˜ ao entre Vari´ aveis qualitativas

Geralmente estamos interessados em verificar se as vari´aveisX e Y est˜ao associadas de alguma forma.

Podemos verificar se as vari´aveis s˜ao independentes (teste de independˆencia) ou se existe homogeneidade nas categorias de uma das vari´aveis em rela¸c˜ao `a outra (teste de homogeneidade).

Basicamente os testes s˜ao equivalentes, por´em as interpreta¸c˜oes para cada caso s˜ao diferentes.

O teste adequado depende do tipo de experimento realizado.

(11)

Teste de independˆ encia

No teste de independˆencia queremos verificar se os eventos s˜ao independentes.

O total ´e fixado (as marginais n˜ao s˜ao fixadas, elas s˜ao obtidas atrav´es de sorteio) e retiramos uma amostra para verificar como os dados da tabela de dupla se comportam.

Uma determinada marca de parafusos quer saber se a

defeituosidade do parafuso depende do Estado em que ele foi fabricado. Um total de 510 parafusos foi previamente fixado, depois sorteia-se o Estado que ter´a o parafuso verificado.

Parafuso

Defeituosos N˜ao defeituosos Total

S˜ao Paulo 60 140 200

Cear´a 10 90 100

Pernambuco 50 160 210

Total 120 390 510

(12)

Teste de homogeneidade

No teste de homogeneidade queremos verificar se as categorias de uma vari´avel s˜ao distribu´ıdas uniformemente.

Os totais marginaiss˜ao fixados.

Uma determinada marca de parafusos quer saber se diferen¸cas entre os Estados na propor¸c˜ao de parafusos defeituosos. Um total de 200 parafusos foi previamente fixado para cada Estado.

Parafuso

Defeituosos N˜ao defeituosos Total

S˜ao Paulo 60 140 200

Cear´a 30 170 200

Pernambuco 45 155 200

Total 135 465 600

(13)

Valores esperados sob as hip´ oteses

Em qualquer um dos dois casos, esperar´ıamos que ni1

n·1

= ni2 n·2

=. . .= nil n·l

ou nij

n·j

= ni·

n··

para todoi,j

(14)

Valores esperados sob as hip´ oteses

A tabela abaixo descreve como deveriam se comportar as caselas se n˜ao houvesse associa¸c˜ao alguma (s˜ao independentes ou se distribuem de forma homogˆenea) entre as vari´aveis

X|Y B1 B2 . . . Bl Total

A1 n·1n

n··

n·2n

n·· . . . n·lnn·· n

A2 n·1nn

··

n·2n

n·· . . . n·lnn

·· n

... ... ... . . . ... ...

Ak n·1nn

··

n·2n

n·· . . . n·lnn

·· n

Total n·1 n·2 . . . n·l n··

A tabela acima nos mostra como deveriam se distribuir os dados caso as categorias deX n˜ao dependam das categorias deY.

(15)

Valores esperados sob as hip´ oteses

Observe que, quandon=n=. . .=n=n0 e n··=kn0 temos que

X|Y B1 B2 . . . Bl Total

A1 nk·1 nk·2 . . . nk·l n0 A2 n·1

k n·2

k . . . nk·l n0

... ... ... . . . ... ... Ak nk·1 nk·2 . . . nk·l n0 Total n·1 n·2 . . . n·l kn0

(16)

Testes de homogeneidade e independˆ encia

Uma medida que verifique independˆencia e/ou homogeneidade deve levar em conta o que foi observado e o que seria esperado.

Definanij = nnn·j

·· como o valor esperado da casela (i,j).

O qui-quadrado de Pearson ´e uma medida que nos diz qu˜ao associados est˜ao as vari´aveis. ´E definido por

χ2=

k

X

i=1 l

X

j=1

(nij −nij)2 nij .

Se n˜ao houver associa¸c˜ao esperamos que χ2 seja pr´oxima de zero, se houver alguma associa¸c˜ao o valor de χ2 ser´a alto (estudaremos isso com mais detalhes no pr´oximo curso).

(17)

Exemplo de independˆ encia

Tabela de frequˆencias absolutas (e valores esperados) para o defeito (n˜ao defeito) de parafusos por Estado. Total de 510 parafusos fixado (teste de independˆencia).

Parafuso

Defeituosos N˜ao defeituosos Total S˜ao Paulo 60 (47,06) 140 (152,94) 200

Cear´a 10 (23,53) 90 (76,47) 100 Pernambuco 50 (49,41) 160 (160,59) 210

Total 120 390 510

χ2= (60−47,06)2

47,06 +(140−152,94)2

152,94 +. . .+(160−160,59)2

160,59 = 14,84

(18)

Exemplo de homogeneidade

Tabela de frequˆencias absolutas (e valores esperados) para o defeito (n˜ao defeito) de parafusos por Estado. Total de 200 parafusos por Estado fixado (teste de homogeneidade).

Parafuso

Defeituosos N˜ao defeituosos Total S˜ao Paulo 60 (45) 140 (155) 200

Cear´a 30 (45) 170 (155) 200

Pernambuco 45 (45) 155 (155) 200

Total 135 465 600

χ2 = (60−45)2

45 +(140−155)2

155 +. . .+ (155−155)2

155 = 61,65

(19)

Uma vari´ avel quantitativa e outra qualitativa

Pode-se fazer an´alises considerando uma vari´avel quantitativa e outra qualitativa.

SejaX uma vari´avel qualitativa com as sequintes categorias A1,A2, . . . ,Ak e seja Y uma vari´avel quantitativa.

X|Y M´edia Mediana 1o quartil 3o quartil variˆancia . . .

A1(1) Q2(1) Q1(1) Q3(1) S2(1) . . .

A2(2) Q2(2) Q1(2) Q3(2) S2(2) . . .

... ... ... ... ... ... . . .

Ak(k) Q2(k) Q1(k) Q3(k) S2(k) . . .

(20)

Considere o seguinte conjunto de dados obtidos do IPEA:

Governo ANO PDEP 20R-20P P50P FHC 1995 11,31 27,73 12,35 FHC 1996 11,83 29,66 12,09 FHC 1997 11,79 29,05 12,12 FHC 1998 10,69 27,78 12,34 FHC 1999 11,12 26,45 12,69 FHC 2001 11,43 27,47 12,97 FHC 2002 10,26 25,02 12,58 LULA 2003 11,29 24,69 13,22 LULA 2004 9,69 22,39 13,84 LULA 2005 8,35 21,66 14,06 LULA 2006 6,97 20,81 14,46 LULA 2007 6,68 20,69 14,72 LULA 2008 5,9 19,31 15,25 LULA 2009 5,82 18,99 15,49 PDEP: Domic´ılios extremamente pobres

20R-20P: Raz˜ao entre a renda dos 20% mais ricos e 20% mais pobres P50P: Participa¸ao dos 50% mais pobres na renda domiciliar (per capita).

(21)

An´ alises

Governo Versus PDEP

M´edia Mediana 1o quartil 3o quartil Var Desvio-P.

FHC 11,20 11,31 10,90 11,61 0,28 0,53

LULA 7,81 6,97 6,29 9,02 3,65 1,91

Governo Versus 20R.20P

M´edia Mediana 1o quartil 3o quartil Var Desvio-P.

FHC 27,59 27,73 26,96 28,41 2,06 1,43

LULA 21,22 20,81 20,00 22,02 3,24 1,80

Governo Versus P50P

M´edia Mediana 1o quartil 3o quartil Var Desvio-P.

FHC 12,45 12,35 12,23 12,63 0,09 0,29

LULA 14,43 14,46 13,95 14,98 0,55 0,74

(22)

Boxplot PDEP por Governo

FHC LULA

6789101112

PDEP

(23)

Boxplot 20R-20P por Governo

FHC LULA

202224262830

20R.20P

(24)

Boxplot P50P por Governo

FHC LULA

12.012.513.013.514.014.515.015.5

P50P

(25)

Duas vari´ aveis quantitativas

Note que nas an´alises anteriores n˜ao consideram o comportamento anual dos ´ındices.

N˜ao sabemos se houve uma continuidade ou uma ruptura no movimento da s´erie.

Uma forma de verificar graficamente esse movimento ´e atrav´es de gr´aficos de dispers˜ao “´Indice VersusAno”.

Observe que uma an´alise mais aprofundada levando em conta os per´ıodos que cada governo passou ´e necess´aria para uma conclus˜ao apropriada sobre a varia¸c˜ao destes ´ındices. Aqui apenas mostramos os n´umeros que est˜ao dispon´ıveis.

(26)

Gr´ afico de dispers˜ ao PDEP por ANO

1996 1998 2000 2002 2004 2006 2008

6789101112

PDEP

ANO

PDEP

(27)

Gr´ afico de dispers˜ ao 20R-20P por ANO

1996 1998 2000 2002 2004 2006 2008

202224262830

20R−20P

ANO

20R−20P

(28)

Gr´ afico de dispers˜ ao P50P por ANO

1996 1998 2000 2002 2004 2006 2008

12.012.513.013.514.014.515.015.5

P50P

ANO

P50P

(29)

Duas vari´ aveis quantitativas

SejaX e Y duas vari´aveis quantitativas.

Suponha que ´e observado o conjunto de dados{x1,x2, . . . ,xn} da vari´avelX e o conjunto de dados {y1,y2, . . . ,yn} da vari´avelY. Os dados s˜ao (xi,yi) s˜ao referentes a mesma unidade amostral.

Definiremos a covariˆancia entre os conjuntos de dados observados deX e Y por

SXY =

n

X

i=1

(xi −x)(y¯ i −y¯) n

A covariˆancia mede de certa forma o grau de dependˆencia linear entre as vari´aveis quantitativasX e Y.

(30)

Coeficiente de correla¸c˜ ao de Pearson

Uma medida que mede o grau de associa¸c˜ao entre estas duas vari´aveis ´e conhecida por coeficiente de correla¸c˜ao.

O coeficiente de correla¸c˜ao de Pearson ´e definido por

ρXY = SXY

q SX2SY2

Pode-se mostrar queρXY varia entre [−1,1]. Se ρXY = 1 ent˜ao os dados tem uma dependˆencia linear positiva perfeita. Seρ=−1, ent˜ao os dados tem uma dependˆencia linear negativa perfeita. Se ρ= 0, ent˜ao n˜ao existe dependˆencia linear entre os dados.

(31)

Exemplo

Suponha queyi =a+bxi, qual o coeficiente de correla¸c˜ao de Pearson entreX eY?

Dada a rela¸c˜ao acima, mostre que:

b= SXY SX2

em queSX2 ´e a variˆancia de X.

Em problemas reais a rela¸c˜ao acima n˜ao ´e perfeita, temos um erro:

yi =a+bxi +ei. As quantidades ˆa= ¯y−ˆb¯x e ˆb= SSXY2 X

minimizam a distˆancia entre yi e a reta a+bxi, para i = 1, . . . ,n.

Ver a reta na lousa.

(32)

Gr´ afico de dispers˜ ao PDEP por ANO

1996 1998 2000 2002 2004 2006 2008

6789101112

PDEP

ANO

PDEP

(1) FHC ˆa= 281,8 e ˆb=−0,14 (2) Lula ˆa= 1846,2 e ˆb=−0,92

(33)

Gr´ afico de dispers˜ ao 20R-20P por ANO

1996 1998 2000 2002 2004 2006 2008

202224262830

20R−20P

ANO

20R−20P

(1) FHC ˆa= 930,2 e ˆb=−0,45 (2) Lula ˆa= 1757,1 e ˆb=−0,86

(34)

Gr´ afico de dispers˜ ao P50P por ANO

1996 1998 2000 2002 2004 2006 2008

12.012.513.013.514.014.515.015.5

P50P

ANO

P50P

(1) FHC ˆa=−173,7 e ˆb = 0,09 (2) Lula ˆa=−722,8 e ˆb = 0,37

(35)

Pr´ oximos T´ opicos

I Probabilidade

I Contagem

Referências

Documentos relacionados

Trata-se de uma concretiza¸ c˜ ao do IAC quando se obt´ em a amostra (x 1 ,.. , x n ), o intervalo passa a ser num´ erico e a interpreta¸ c˜ ao conveniente ´ e: se obtivermos v´

Os dois cap´ıtulos anteriores apresentaram intervalos de confian¸ ca e testes de hip´ oteses para o parˆ ametro de uma ´ unica popula¸ c˜ ao (a m´ edia µ, a variˆ ancia σ 2 ou

De experiˆ encias anteriores, considera-se que a resistˆ encia ao desmoronamento de tais tijolos ´ e normalmente distribu´ıda com valor m´ edio superior ou igual a 200 kg e

Considere agora a seguinte tabela de frequˆ encia para intervalos de

Caso n˜ ao tenhamos informa¸ c˜ oes suficientes, podemos utilizar informa¸ c˜ oes pessoais para criar uma probabilidade sobre a ocorrˆ encia do evento A..?. Probabilidade condicional

probabilidade m´ınima de pagar o empr´ estimo para que o Lucro seja positivo (usando um juros de 2%)?.. Vari´ avel

A amostra ´ e utilizada quando n˜ ao temos acesso a popula¸ c˜ ao toda e serve como base para inferir sobre quantidades de interesse relacionadas ` a popula¸ c˜ ao....

Conduza os testes apropriados e fa¸ ca intervalos de confian¸ ca para a diferen¸ca de m´ edias populacionais... Queremos verificar se as resistˆ encias de dois tipos de vigas de a¸