Aula 03: Outliers &
Associa¸ c˜ ao entre vari´ aveis
Estat´ıstica e Probabilidades
Andr´ e Victor Ribeiro Amaral (sala 3029)
avramaral@gmail.com
Observa¸ c˜ oes at´ıpicas (ou Outliers ) s˜ ao valores muito altos ou muito baixos em rela¸c˜ ao ao restante do conjunto de dados.
Podem ser divido em dois tipos:
1. N˜ ao genu´ıno: erro de digita¸c˜ ao, erro de medi¸c˜ ao, etc.
2. Genu´ıno: n˜ ao s˜ ao resultantes de erros e s˜ ao valores
importante ao estudo, podendo fornecer informa¸c˜ oes valiosas sobre a caracter´ıstica que est´ a sendo estudada.
Em caso de outliers n˜ ao genu´ınos, estes valores devem ser
corrigidos ou exclu´ıdo do banco de dados. Em contrapartida, para
valores at´ıpicos genu´ınos, devemos deix´ a-los no banco de dados,
tomando cuidado com interpreta¸c˜ oes futuras.
Escore padronizado
O escore padronizado (ou “escore z”) representa o n´ umero de desvios padr˜ ao pelo qual uma observa¸c˜ ao x
idista da m´ edia (para mais ou para menos); e ´ e calculado como:
z = x
i− x ¯
s , na amostra e z = x
i− µ
σ , para popula¸c˜ ao.
• O escore padronizado permite distinguir entre os valores usuais e valores raros.
• S˜ ao considerados valores usuais os que possuem escore z
entre −2 e 2; e raros os que possuem escore z menor que −2
ou maior que 2.
Para o exemplo da quantidade de ´ alcool no sangue, calcule o escore z para todas as observa¸c˜ oes. Lembre-se de:
0.27, 0.17, 0.17, 0.16, 0.13, 0.24, 0.29, 0.24, 0.14, 0.16, 0.12, 0.16, 0.21, 0.17, 0.18.
E que ¯ x = 0.187 ml/l e s = 0.0512 ml/l.
Escore padronizado − Exerc´ıcio
xi xi−¯x
s
0.27 (0.27−0.187)
0.051 = 1.63 0.17 (0.17−0.187)
0.051 =−0.33 0.17 (0.17−0.187)
0.051 =−0.33 0.16 (0.16−0.187)
0.051 =−0.53 0.13 (0.13−0.187)
0.051 =−1.12 0.24 (0.24−0.187)
0.051 = 1.04 0.29 (0.29−0.187)
0.051 = 2.02 0.24 (0.24−0.187)
0.051 = 1.04 0.14 (0.14−0.187)
0.051 =−0.92 0.16 (0.16−0.187)
0.051 =−0.53 0.12 (0.12−0.187)
0.051 =−1.31 0.16 (0.16−0.187)
0.051 =−0.53 0.21 (0.21−0.187)
0.051 = 0.45 0.17 (0.17−0.187)
0.051 =−0.33 0.18 (0.18−0.187)
0.051 =−0.14
Segundo a regra que estabelecemos, x = 0.29 ´ e valor at´ıpico.
Boxplot ´ e um gr´ afico em forma de caixa que utiliza os quartis.
Sejam Q
1, Q
2e Q
3o primeiro, segundo e terceiro quartis, respectivamente. Al´ em disso, defina DI = Q
3− Q
1como
“distˆ ancia interquart´ılica”.
Note que a “distˆ ancia interquart´ılica” tamb´ em ´ e uma medida de
variabilidade do conjunto de dados.
Boxplot
Outlier LS
Q3 Q2 Q1
LI
Figura 1: Boxplot.
Definimos, baseado na figura da esquerda:
• LI = Q
1− 1.5 · DI; e
• LS = Q
3+ 1.5 · DI.
Assim, dados menores que LI e maiores que LS s˜ ao
marcados com “pontos” e s˜ ao
chamados de outliers.
O boxplot pode ser usado, principalmente, para:
• Detec¸c˜ ao de valores discrepantes;
• Identifica¸c˜ ao da forma da distribui¸c˜ ao (simetria);
• Compara¸c˜ ao da tendˆ encia central (mediana) de dois ou mais conjuntos de dados; e
• Compara¸c˜ ao da variabilidade de dois ou mais conjuntos de
dados.
Boxplot
Exemplo (TRIOLA, M´ ario F. Introdu¸ c˜ ao ` a Estat´ıstica)
Compare as idades (em anos completos) dos atores e atrizes na ocasi˜ ao em que receberam o Oscar.
Atores:
31, 32, 32, 32, 33, 35, 36, 36, 37, 37, 38, 39, 39, 40, 40, 40, 41, 42, 42, 43, 43, 44, 45, 45, 46, 46, 47, 48, 48, 51, 53, 55, 56, 56, 60, 60, 61, 62, 76.
Atrizes:
21, 24, 25, 26, 26, 26, 26, 27, 28, 30, 30, 31, 31, 33, 33, 33, 34, 34, 34, 34, 35, 35, 35, 37, 37, 38, 39, 41, 41, 41, 42, 44, 49, 50, 60, 61, 61, 74, 80.
A compara¸c˜ ao dos dois grupos pode ser realiza atrav´ es do seguinte boxplot:
Figura 2: Boxplots para compara¸ c˜ ao das idades dos Atores e Atrizes.
Associa¸ c˜ ao entre vari´ aveis
Um dos principais objetivos de uma distribui¸c˜ ao conjunta ´ e descrever a associa¸c˜ ao que existe entre as vari´ aveis.
Nesse caso, conhecer o grau de dependˆ encia entre as vari´ aveis nos ajuda a predizer melhor o resultado de uma delas quando
conhecemos a realiza¸c˜ ao da outra.
Exemplos: a rela¸c˜ ao que existe ao compararmos indiv´ıduos com respeito ` as seguintes caracter´ısticas
• Sexo e peso;
• Idade e peso;
• Pa´ıs de moradia e peso (?), etc.
Exemplo: verifique se existe dependˆ encia entre sexo e carreira escolhida (com op¸c˜ oes em “Economia” e “Administra¸c˜ ao”).
Sexo
Carreira Masculino Feminino Total Economia 85 (61%) 35 (58%) 120 (60%) Administra¸c˜ ao 55 (39%) 25 (42%) 80 (40%)
Total 140 (100%) 60 (100%) 200 (100%) Tabela 1: Distribui¸ c˜ ao conjunta de “sexo” e “carreira escolhida” (1).
Visualmente, n˜ ao parece existir diferen¸ca entre as propor¸c˜ ao de
indiv´ıduos que escolhem “Economia” ou “Administra¸c˜ ao” com
respeito ` a caracter´ıstica “sexo”.
Associa¸ c˜ ao entre vari´ aveis categ´ oricas
Exemplo: verifique se existe dependˆ encia entre sexo e carreira escolhida (com op¸c˜ oes em “F´ısica” e “Ciˆ encias Sociais”).
Sexo
Carreira Masculino Feminino Total F´ısica 100 (71%) 20 (33%) 120 (60%) Ciˆ encias Sociais 40 (29%) 40 (67%) 80 (40%)
Total 140 (100%) 60 (100%) 200 (100%) Tabela 2: Distribui¸ c˜ ao conjunta de “sexo” e “carreira escolhida” (2).
Visualmente, parece existir diferen¸ca entre as propor¸c˜ ao de
indiv´ıduos que escolhem “F´ısica” ou “Ciˆ encias Sociais” com
respeito ` a caracter´ıstica “sexo”.
Exemplo: verifique se existe dependˆ encia entre uso de capacete e o tipo de les˜ ao sofrida na cabe¸ca.
Uso de capacete
Tipo de les˜ ao Sim N˜ ao Total
Grave 15 (40.5%) 22 (59.5%) 37 (100%) Leve 45 (71.4%) 18 (28.6%) 63 (100%) Total 60 (60%) 40 (40%) 100 (100%) Tabela 3: Distribui¸ c˜ ao conjunta de “uso de capac.” e “tipo de les˜ ao”.
Agora, ao inv´ es de analisarmos visualmente a rela¸c˜ ao que existe
entre as vari´ aveis, vamos quantificar essa dependˆ encia atrav´ es
coeficiente de contingˆ encia.
Coeficiente de contingˆ encia
Antes de continuarmos, vamos tentar determinar as propor¸c˜ oes esperadas no caso de n˜ ao haver dependˆ encia entre as vari´ aveis (nota¸c˜ ao: vamos determinar e
ij, ∀i, j
1), onde e
ij=
nin·nj= n
i· f
j. Assim:
e
11=
37·60100= 22.2 e
12=
37·40100= 14.8 e
21=
63·60100= 37.8 e
12=
63·40100= 25.2
Uso de capacete
Tipo de les˜ ao Sim N˜ ao Total Grave e
11= 22.2 e
12= 14.8 37
Leve e
21= 37.8 e
11= 25.2 63
Total 60 40 100
1
Agora, vamos definir uma medida de afastamento das quantidades observadas em rela¸c˜ ao ` as quantidades esperadas:
χ
2= X
i,j
(o
ij− e
ij)
2e
ij, onde o
ijdiz respeito aos valores observados.
No nosso exemplo, χ
2= (15 − 22.2)
222.2 + (22 − 14.8)
214.8 + (45 − 37.8)
237.8 + (18 − 25.2)
225.2
= 2.33 + 3.50 + 1.37 + 2.06 = 9.26.
O problema ´ e que o n´ umero χ
2n˜ ao diz muita coisa por si s´ o (Pelo
menos nesse momento!).
Coeficiente de contingˆ encia
Para uma tabela 2 × 2 (como a que acabamos de analisar), o c´ alculo de χ
2pode ser simplificado para:
χ
2= n · (o
11· o
22− o
12· o
21)
2(o
11+ o
12) · (o
21+ o
22) · (o
11+ o
21) · (o
12+ o
22) . Relembre a tabela:
o
11= 15 o
12= 22 o
21= 45 o
22=18 Tabela 4: Tabela simplificada.
Ent˜ ao, temos que:
χ
2= 100 · (15 · 18 − 22 · 45)
237 · 63 · 60 · 40 ≈ 9.26.
Ao inv´ es de olharmos para χ
2, vamos analisar o coeficiente de contingˆ encia C:
C = s
χ
2χ
2+ n ,
onde, como j´ a vimos, n ´ e o tamanho da amostra.
Para o nosso exemplo, C = q
9.26
9.26+100
= 0.29.
Agora, C ´ e um n´ umero entre 0 e 1. Se C = 0, ent˜ ao as vari´ aveis n˜ ao est˜ ao associadas; ao passo que, se C cresce, ent˜ ao a
associa¸c˜ ao entre as vari´ aveis come¸ca a ficar mais forte.
Coeficiente de contingˆ encia
N˜ ao h´ a consenso sobre a interpretabilidade de C; por´ em, de acordo com esse
2artigo podemos utilizar a seguinte classifica¸c˜ ao:
1. C ≤ 0.1 = ⇒ associa¸c˜ ao fraca;
2. 0.1 ≤ C ≤ 0.3 = ⇒ associa¸c˜ ao moderada; e 3. C > 0.3 = ⇒ associa¸c˜ ao forte.
Ponto extra: valendo 2 pontos extras na 1
aprova (limitado a 100% do valor da prova), fa¸ca a atividade “Coeficiente de Contingˆ encia”, disponibilizada na aba “Exerc´ıcios” do site, e entregue na pr´ oxima aula.
2
Para analisar a associa¸c˜ ao que existe entre vari´ aveis quantitativas, a nossa primeira ferramenta ser´ a o gr´ afico de dispers˜ ao.
O objetivo desse tipo de gr´ afico ´ e tentar descobrir se existe rela¸c˜ ao entre duas vari´ aveis quantitativas (por exemplo, X e Y ).
No gr´ afico de dispers˜ ao, cada indiv´ıduo da amostra ´ e representado
por um ponto de tal forma que o eixo horizontal represente seu
valor para a vari´ avel X e o eixo vertical represente o seu valor
para a vari´ avel Y .
Gr´ afico de dispers˜ ao
Mais uma vez, ao inv´ es de nos prendermos, somente, ` a interpreta¸c˜ ao visual dos gr´ aficos, vamos quantificar a medida correla¸c˜ ao entre duas vari´ aveis X e Y . Para isso, considere o
“Coeficiente de Correla¸c˜ ao de Pearson”.
r =
P
ni=1
(x
i− x)(y ¯
i− y) ¯ p ( P
ni=1
(x
i− x) ¯
2)( P
ni=1
(y
i− y) ¯
2) ,
onde r ´ e o Coeficiente de Correla¸c˜ ao de Pearson amostral.
Similarmente, poder´ıamos definir o Coeficiente de Correla¸c˜ ao de Pearson populacional como:
ρ =
P
ni=1
(x
i− µ
x)(y
i− µ
y) p ( P
ni=1
(x
i− µ
x)
2)( P
ni=1
(y
i− µ
y)
2) = Cov(X, Y ) p Var(X) · Var(Y )
?
.
Coeficiente de Correla¸ c˜ ao de Pearson
Observa¸ c˜ oes importantes 1. −1 ≤ r ≤ 1, de modo que:
• se r ≈ +1 → forte correla¸c˜ ao linear positiva entre X e Y ;
• se r ≈ −1 → forte correla¸ c˜ ao linear negativa entre X e Y ; e
• se r ≈ 0 → n˜ ao existe correla¸ c˜ ao linear entre X e Y . 2. Uma poss´ıvel classifica¸c˜ ao mais refinada para essa medida ´ e
dada por:
• se 0 ≤ |r| < 0.4, ent˜ ao existe correla¸ c˜ ao fraca;
• se 0.4 ≤ |r| < 0.7, ent˜ ao existe correla¸ c˜ ao moderada;
• se 0.7 ≤ |r| < 1, ent˜ ao existe correla¸ c˜ ao forte; e
• se |r| = 1, ent˜ ao existe correla¸ c˜ ao perfeita.
Coef. de Correla¸ c˜ ao de Pearson − Exerc´ıcio
Considere o conjunto de dados abaixo, que apresenta o autonomia (em mi/gal) de n = 10 autom´ oveis e o peso (em centenas de libras) de cada um desses ve´ıculos.
X Peso 29 35 28 44 25 34 30 33 28 24
Y Autonomia 31 27 29 25 31 29 28 28 28 33 Calcule o Coeficiente de Correla¸c˜ ao de Pearson.
Assim, r =
√306·46.9−102= −0.851.
Coef. de Correla¸ c˜ ao de Pearson − Exerc´ıcio
Considere o conjunto de dados abaixo, que apresenta o autonomia (em mi/gal) de n = 10 autom´ oveis e o peso (em centenas de libras) de cada um desses ve´ıculos.
X Peso 29 35 28 44 25 34 30 33 28 24
Y Autonomia 31 27 29 25 31 29 28 28 28 33 Calcule o Coeficiente de Correla¸c˜ ao de Pearson.
Aqui, P
ni=1
(x
i− x)(y ¯
i− y) = ¯ −32, P
ni=1
(x
i− x) ¯
2= 306 e P
ni=1