• Nenhum resultado encontrado

Aula 03: Outliers & Estatística e Probabilidades. André Victor Ribeiro Amaral (sala 3029)

N/A
N/A
Protected

Academic year: 2021

Share "Aula 03: Outliers & Estatística e Probabilidades. André Victor Ribeiro Amaral (sala 3029)"

Copied!
27
0
0

Texto

(1)

Aula 03: Outliers &

Associa¸ c˜ ao entre vari´ aveis

Estat´ıstica e Probabilidades

Andr´ e Victor Ribeiro Amaral (sala 3029)

avramaral@gmail.com

(2)

Observa¸ c˜ oes at´ıpicas (ou Outliers ) s˜ ao valores muito altos ou muito baixos em rela¸c˜ ao ao restante do conjunto de dados.

Podem ser divido em dois tipos:

1. N˜ ao genu´ıno: erro de digita¸c˜ ao, erro de medi¸c˜ ao, etc.

2. Genu´ıno: n˜ ao s˜ ao resultantes de erros e s˜ ao valores

importante ao estudo, podendo fornecer informa¸c˜ oes valiosas sobre a caracter´ıstica que est´ a sendo estudada.

Em caso de outliers n˜ ao genu´ınos, estes valores devem ser

corrigidos ou exclu´ıdo do banco de dados. Em contrapartida, para

valores at´ıpicos genu´ınos, devemos deix´ a-los no banco de dados,

tomando cuidado com interpreta¸c˜ oes futuras.

(3)

Escore padronizado

O escore padronizado (ou “escore z”) representa o n´ umero de desvios padr˜ ao pelo qual uma observa¸c˜ ao x

i

dista da m´ edia (para mais ou para menos); e ´ e calculado como:

z = x

i

− x ¯

s , na amostra e z = x

i

− µ

σ , para popula¸c˜ ao.

• O escore padronizado permite distinguir entre os valores usuais e valores raros.

• S˜ ao considerados valores usuais os que possuem escore z

entre −2 e 2; e raros os que possuem escore z menor que −2

ou maior que 2.

(4)

Para o exemplo da quantidade de ´ alcool no sangue, calcule o escore z para todas as observa¸c˜ oes. Lembre-se de:

0.27, 0.17, 0.17, 0.16, 0.13, 0.24, 0.29, 0.24, 0.14, 0.16, 0.12, 0.16, 0.21, 0.17, 0.18.

E que ¯ x = 0.187 ml/l e s = 0.0512 ml/l.

(5)

Escore padronizado − Exerc´ıcio

xi xi−¯x

s

0.27 (0.27−0.187)

0.051 = 1.63 0.17 (0.17−0.187)

0.051 =−0.33 0.17 (0.17−0.187)

0.051 =−0.33 0.16 (0.16−0.187)

0.051 =−0.53 0.13 (0.13−0.187)

0.051 =−1.12 0.24 (0.24−0.187)

0.051 = 1.04 0.29 (0.29−0.187)

0.051 = 2.02 0.24 (0.24−0.187)

0.051 = 1.04 0.14 (0.14−0.187)

0.051 =−0.92 0.16 (0.16−0.187)

0.051 =−0.53 0.12 (0.12−0.187)

0.051 =−1.31 0.16 (0.16−0.187)

0.051 =−0.53 0.21 (0.21−0.187)

0.051 = 0.45 0.17 (0.17−0.187)

0.051 =−0.33 0.18 (0.18−0.187)

0.051 =−0.14

Segundo a regra que estabelecemos, x = 0.29 ´ e valor at´ıpico.

(6)

Boxplot ´ e um gr´ afico em forma de caixa que utiliza os quartis.

Sejam Q

1

, Q

2

e Q

3

o primeiro, segundo e terceiro quartis, respectivamente. Al´ em disso, defina DI = Q

3

− Q

1

como

“distˆ ancia interquart´ılica”.

Note que a “distˆ ancia interquart´ılica” tamb´ em ´ e uma medida de

variabilidade do conjunto de dados.

(7)

Boxplot

Outlier LS

Q3 Q2 Q1

LI

Figura 1: Boxplot.

Definimos, baseado na figura da esquerda:

• LI = Q

1

− 1.5 · DI; e

• LS = Q

3

+ 1.5 · DI.

Assim, dados menores que LI e maiores que LS s˜ ao

marcados com “pontos” e s˜ ao

chamados de outliers.

(8)

O boxplot pode ser usado, principalmente, para:

• Detec¸c˜ ao de valores discrepantes;

• Identifica¸c˜ ao da forma da distribui¸c˜ ao (simetria);

• Compara¸c˜ ao da tendˆ encia central (mediana) de dois ou mais conjuntos de dados; e

• Compara¸c˜ ao da variabilidade de dois ou mais conjuntos de

dados.

(9)

Boxplot

Exemplo (TRIOLA, M´ ario F. Introdu¸ c˜ ao ` a Estat´ıstica)

Compare as idades (em anos completos) dos atores e atrizes na ocasi˜ ao em que receberam o Oscar.

Atores:

31, 32, 32, 32, 33, 35, 36, 36, 37, 37, 38, 39, 39, 40, 40, 40, 41, 42, 42, 43, 43, 44, 45, 45, 46, 46, 47, 48, 48, 51, 53, 55, 56, 56, 60, 60, 61, 62, 76.

Atrizes:

21, 24, 25, 26, 26, 26, 26, 27, 28, 30, 30, 31, 31, 33, 33, 33, 34, 34, 34, 34, 35, 35, 35, 37, 37, 38, 39, 41, 41, 41, 42, 44, 49, 50, 60, 61, 61, 74, 80.

(10)

A compara¸c˜ ao dos dois grupos pode ser realiza atrav´ es do seguinte boxplot:

Figura 2: Boxplots para compara¸ c˜ ao das idades dos Atores e Atrizes.

(11)

Associa¸ c˜ ao entre vari´ aveis

Um dos principais objetivos de uma distribui¸c˜ ao conjunta ´ e descrever a associa¸c˜ ao que existe entre as vari´ aveis.

Nesse caso, conhecer o grau de dependˆ encia entre as vari´ aveis nos ajuda a predizer melhor o resultado de uma delas quando

conhecemos a realiza¸c˜ ao da outra.

Exemplos: a rela¸c˜ ao que existe ao compararmos indiv´ıduos com respeito ` as seguintes caracter´ısticas

• Sexo e peso;

• Idade e peso;

• Pa´ıs de moradia e peso (?), etc.

(12)

Exemplo: verifique se existe dependˆ encia entre sexo e carreira escolhida (com op¸c˜ oes em “Economia” e “Administra¸c˜ ao”).

Sexo

Carreira Masculino Feminino Total Economia 85 (61%) 35 (58%) 120 (60%) Administra¸c˜ ao 55 (39%) 25 (42%) 80 (40%)

Total 140 (100%) 60 (100%) 200 (100%) Tabela 1: Distribui¸ c˜ ao conjunta de “sexo” e “carreira escolhida” (1).

Visualmente, n˜ ao parece existir diferen¸ca entre as propor¸c˜ ao de

indiv´ıduos que escolhem “Economia” ou “Administra¸c˜ ao” com

respeito ` a caracter´ıstica “sexo”.

(13)

Associa¸ c˜ ao entre vari´ aveis categ´ oricas

Exemplo: verifique se existe dependˆ encia entre sexo e carreira escolhida (com op¸c˜ oes em “F´ısica” e “Ciˆ encias Sociais”).

Sexo

Carreira Masculino Feminino Total F´ısica 100 (71%) 20 (33%) 120 (60%) Ciˆ encias Sociais 40 (29%) 40 (67%) 80 (40%)

Total 140 (100%) 60 (100%) 200 (100%) Tabela 2: Distribui¸ c˜ ao conjunta de “sexo” e “carreira escolhida” (2).

Visualmente, parece existir diferen¸ca entre as propor¸c˜ ao de

indiv´ıduos que escolhem “F´ısica” ou “Ciˆ encias Sociais” com

respeito ` a caracter´ıstica “sexo”.

(14)

Exemplo: verifique se existe dependˆ encia entre uso de capacete e o tipo de les˜ ao sofrida na cabe¸ca.

Uso de capacete

Tipo de les˜ ao Sim N˜ ao Total

Grave 15 (40.5%) 22 (59.5%) 37 (100%) Leve 45 (71.4%) 18 (28.6%) 63 (100%) Total 60 (60%) 40 (40%) 100 (100%) Tabela 3: Distribui¸ c˜ ao conjunta de “uso de capac.” e “tipo de les˜ ao”.

Agora, ao inv´ es de analisarmos visualmente a rela¸c˜ ao que existe

entre as vari´ aveis, vamos quantificar essa dependˆ encia atrav´ es

coeficiente de contingˆ encia.

(15)

Coeficiente de contingˆ encia

Antes de continuarmos, vamos tentar determinar as propor¸c˜ oes esperadas no caso de n˜ ao haver dependˆ encia entre as vari´ aveis (nota¸c˜ ao: vamos determinar e

ij

, ∀i, j

1

), onde e

ij

=

nin·nj

= n

i

· f

j

. Assim:

e

11

=

37·60100

= 22.2 e

12

=

37·40100

= 14.8 e

21

=

63·60100

= 37.8 e

12

=

63·40100

= 25.2

Uso de capacete

Tipo de les˜ ao Sim N˜ ao Total Grave e

11

= 22.2 e

12

= 14.8 37

Leve e

21

= 37.8 e

11

= 25.2 63

Total 60 40 100

1

(16)

Agora, vamos definir uma medida de afastamento das quantidades observadas em rela¸c˜ ao ` as quantidades esperadas:

χ

2

= X

i,j

(o

ij

− e

ij

)

2

e

ij

, onde o

ij

diz respeito aos valores observados.

No nosso exemplo, χ

2

= (15 − 22.2)

2

22.2 + (22 − 14.8)

2

14.8 + (45 − 37.8)

2

37.8 + (18 − 25.2)

2

25.2

= 2.33 + 3.50 + 1.37 + 2.06 = 9.26.

O problema ´ e que o n´ umero χ

2

n˜ ao diz muita coisa por si s´ o (Pelo

menos nesse momento!).

(17)

Coeficiente de contingˆ encia

Para uma tabela 2 × 2 (como a que acabamos de analisar), o c´ alculo de χ

2

pode ser simplificado para:

χ

2

= n · (o

11

· o

22

− o

12

· o

21

)

2

(o

11

+ o

12

) · (o

21

+ o

22

) · (o

11

+ o

21

) · (o

12

+ o

22

) . Relembre a tabela:

o

11

= 15 o

12

= 22 o

21

= 45 o

22

=18 Tabela 4: Tabela simplificada.

Ent˜ ao, temos que:

χ

2

= 100 · (15 · 18 − 22 · 45)

2

37 · 63 · 60 · 40 ≈ 9.26.

(18)

Ao inv´ es de olharmos para χ

2

, vamos analisar o coeficiente de contingˆ encia C:

C = s

χ

2

χ

2

+ n ,

onde, como j´ a vimos, n ´ e o tamanho da amostra.

Para o nosso exemplo, C = q

9.26

9.26+100

= 0.29.

Agora, C ´ e um n´ umero entre 0 e 1. Se C = 0, ent˜ ao as vari´ aveis n˜ ao est˜ ao associadas; ao passo que, se C cresce, ent˜ ao a

associa¸c˜ ao entre as vari´ aveis come¸ca a ficar mais forte.

(19)

Coeficiente de contingˆ encia

N˜ ao h´ a consenso sobre a interpretabilidade de C; por´ em, de acordo com esse

2

artigo podemos utilizar a seguinte classifica¸c˜ ao:

1. C ≤ 0.1 = ⇒ associa¸c˜ ao fraca;

2. 0.1 ≤ C ≤ 0.3 = ⇒ associa¸c˜ ao moderada; e 3. C > 0.3 = ⇒ associa¸c˜ ao forte.

Ponto extra: valendo 2 pontos extras na 1

a

prova (limitado a 100% do valor da prova), fa¸ca a atividade “Coeficiente de Contingˆ encia”, disponibilizada na aba “Exerc´ıcios” do site, e entregue na pr´ oxima aula.

2

(20)

Para analisar a associa¸c˜ ao que existe entre vari´ aveis quantitativas, a nossa primeira ferramenta ser´ a o gr´ afico de dispers˜ ao.

O objetivo desse tipo de gr´ afico ´ e tentar descobrir se existe rela¸c˜ ao entre duas vari´ aveis quantitativas (por exemplo, X e Y ).

No gr´ afico de dispers˜ ao, cada indiv´ıduo da amostra ´ e representado

por um ponto de tal forma que o eixo horizontal represente seu

valor para a vari´ avel X e o eixo vertical represente o seu valor

para a vari´ avel Y .

(21)

Gr´ afico de dispers˜ ao

(22)

Mais uma vez, ao inv´ es de nos prendermos, somente, ` a interpreta¸c˜ ao visual dos gr´ aficos, vamos quantificar a medida correla¸c˜ ao entre duas vari´ aveis X e Y . Para isso, considere o

“Coeficiente de Correla¸c˜ ao de Pearson”.

r =

P

n

i=1

(x

i

− x)(y ¯

i

− y) ¯ p ( P

n

i=1

(x

i

− x) ¯

2

)( P

n

i=1

(y

i

− y) ¯

2

) ,

onde r ´ e o Coeficiente de Correla¸c˜ ao de Pearson amostral.

Similarmente, poder´ıamos definir o Coeficiente de Correla¸c˜ ao de Pearson populacional como:

ρ =

P

n

i=1

(x

i

− µ

x

)(y

i

− µ

y

) p ( P

n

i=1

(x

i

− µ

x

)

2

)( P

n

i=1

(y

i

− µ

y

)

2

) = Cov(X, Y ) p Var(X) · Var(Y )

?

.

(23)

Coeficiente de Correla¸ c˜ ao de Pearson

Observa¸ c˜ oes importantes 1. −1 ≤ r ≤ 1, de modo que:

• se r ≈ +1 → forte correla¸c˜ ao linear positiva entre X e Y ;

• se r ≈ −1 → forte correla¸ c˜ ao linear negativa entre X e Y ; e

• se r ≈ 0 → n˜ ao existe correla¸ c˜ ao linear entre X e Y . 2. Uma poss´ıvel classifica¸c˜ ao mais refinada para essa medida ´ e

dada por:

• se 0 ≤ |r| < 0.4, ent˜ ao existe correla¸ c˜ ao fraca;

• se 0.4 ≤ |r| < 0.7, ent˜ ao existe correla¸ c˜ ao moderada;

• se 0.7 ≤ |r| < 1, ent˜ ao existe correla¸ c˜ ao forte; e

• se |r| = 1, ent˜ ao existe correla¸ c˜ ao perfeita.

(24)

Coef. de Correla¸ c˜ ao de Pearson − Exerc´ıcio

Considere o conjunto de dados abaixo, que apresenta o autonomia (em mi/gal) de n = 10 autom´ oveis e o peso (em centenas de libras) de cada um desses ve´ıculos.

X Peso 29 35 28 44 25 34 30 33 28 24

Y Autonomia 31 27 29 25 31 29 28 28 28 33 Calcule o Coeficiente de Correla¸c˜ ao de Pearson.

Assim, r =

306·46.9−102

= −0.851.

(25)

Coef. de Correla¸ c˜ ao de Pearson − Exerc´ıcio

Considere o conjunto de dados abaixo, que apresenta o autonomia (em mi/gal) de n = 10 autom´ oveis e o peso (em centenas de libras) de cada um desses ve´ıculos.

X Peso 29 35 28 44 25 34 30 33 28 24

Y Autonomia 31 27 29 25 31 29 28 28 28 33 Calcule o Coeficiente de Correla¸c˜ ao de Pearson.

Aqui, P

n

i=1

(x

i

− x)(y ¯

i

− y) = ¯ −32, P

n

i=1

(x

i

− x) ¯

2

= 306 e P

n

i=1

(y

i

− y) ¯

2

= 46.9.

Assim, r =

306·46.9−102

= −0.851.

(26)

Figura 3: Gr´ afico de dispers˜ ao para “Peso” e “Autonomia”.

(27)

Correla¸ c˜ ao e causalidade

Alto coeficiente de correla¸c˜ ao n˜ ao se traduz, necessariamente, em causalidade.

Correla¸ c˜ ao indireta: existe correla¸c˜ ao entre duas vari´ aveis, mas isso ´ e justificado por uma terceira vari´ avel (que pode ser

conhecida ou n˜ ao).

Exemplo: N´ umero de palavras que uma crian¸ca conhece com a altura desse(a) menino(a).

Correla¸ c˜ ao esp´ uria: |r| ´ e alto, mas n˜ ao existe rela¸c˜ ao alguma entre as vari´ aveis X e Y .

Exemplo: Em certa regi˜ ao da Europa registrou-se aumento de

avistamento de cegonhas e aumento da taxa de natalidade.

Referências

Documentos relacionados

Para a correcta operação do actuador, a janela deve ter uma altura mínima de 800 mm (Distância do actuador a dobradiça de abertura da janela). Senão, pergunte ao seu fornecedor ou

2 Post graduate degree in dermatology by Pedro Ernesto University Hospital - University of the State of Rio de Janeiro (HUPE-UERJ) - Rio de Janeiro (RJ), Brazil.. 3 Master

As empresas abrangidas pela presente Norma Coletiva descontarão somente dos seus empregados associados ao sindicato profissional, unicamente no mês de agosto de 2015,

ASSIM, CONSIDERANDO QUE O OFICIAL DE JUSTIÇA DETÉM FÉ PÚBLICA NO EXERCÍCIO DE SUAS FUNÇÕES E QUE CERCOU-SE DE CUIDADO AO JUNTAR A CÓPIA DA PROCURAÇÃO, A QUAL

e serviços da empresa; definir um modelo de avaliação global da qualidade, que envolve os objetivos gerais da organização e a contribuição de cada setor, ou área do

Utilizando dados da última eleição municipal analisaremos econometricamente como o efeito de alterações em variáveis fiscais, políticas e macroeconômicas afetaram a probabilidade

The consumption of alcohol is perceived by professionals without taking into consideration the social and cultural logic of consumption es- tablished by the indigenous people

Em decorrência dos referidos acordos de colaboração, foram tomados 19(dezenove) termos de colaboração de MÔNICA MOURA, 10(dez) de JOÃO SANTANA e 04(quatro) termos