PARTE I: AN ´ ALISE EXPLORAT ´ ORIA DE DADOS 13
4.5 Notas de cap´ıtulo
aumentam com o grau de instru¸c˜ao. Uma medida resumo da variˆanciaentre as categorias da vari´avel qualitativa ´e a m´edia das variˆancias ponderada pelo n´umero de observa¸c˜oes em cada categoria, ou seja,
var(S) = Pk
i=1nivari(S) Pk
i=1ni , (4.8)
em que k ´e o n´umero de categorias (k = 3 no exemplo) e vari(S) denota a variˆancia de S dentro da categoria i, i = 1, . . . , k. Pode-se mostrar que var(S) ≤ var(S), de modo que podemos definir o grau de associa¸c˜ao entre as duas vari´aveis como o ganho relativo na variˆancia obtido pela introdu¸c˜ao da vari´avel qualitativa. Explicitamente,
R2 = var(S)−var(S)
var(S) = 1−var(S)
var(S). (4.9)
Al´em disso, pode-se mostrar que 0 ≤ R2 ≤ 1. O s´ımbolo R2 ´e usual em an´alise de variˆancia e regress˜ao, t´opicos a serem abordados nos Cap´ıtulos 5 e 6, respectivamente.
Para os dados do Exemplo 4.7, temos
var(S) = 12×7,77 + 18×13,10 + 6×16,89
12 + 18 + 6 = 11,96.
Como var(S) = 20,46, obtemosR2 = 1−(11,96/20,46) = 0,415,sugerindo que 41,5% da varia¸c˜ao total do sal´ario ´eexplicadapelo grau de instru¸c˜ao.
Em estudos retrospectivos ou caso-controle, o planejamento en-volve a escolha de amostras de tamanhos n•1 e n•2 de indiv´ıduos n˜ao doentes (controles) e doentes (casos), respectivamente e a observa¸c˜ao retrospectiva de sua exposi¸c˜ao ou n˜ao ao fator de risco. Nesse caso, a raz˜ao de chances ´e definida por:
ω2 = P(E|D)P(E|D) P(E|D)P(E|D).
Utilizando a defini¸c˜ao de probabilidade condicional [ver Bussab e Mo-rettin (2017), por exemplo], temos
ω1 = [P(D∩E)/P(E)][P(D∩E)/P(E)]
[P(D∩E)/P(E)][P(D∩E)/P(E) = P(D∩E)P(D∩E) P(D∩E)P(D∩E)
= [P(E|D)/P(D)][P(E|D)/P(D)]
[P(E|D)/P(D)][P(E|D)/P(D)] =ω2
Embora n˜ao se possa calcular o risco relativo de doen¸ca em estudos retrospectivos, a raz˜ao de chances obtida por meio desse tipo de estudo
´
e igual `aquela que seria obtida por interm´edio de um estudo prospec-tivo, que em muitas situa¸c˜oes pr´aticas n˜ao pode ser realizado devido ao custo.
2) Medidas de dependˆencia entre duas vari´aveis
Dizemos queX eY s˜aocomonotˆonicasseY (ouX) for uma fun¸c˜ao estritamente crescente de X (ou Y) e s˜ao contramonotˆonicas se a fun¸c˜ao for estritamente decrescente.
Consideremos duas vari´aveis X e Y e seja δ(X, Y) uma medida de dependˆencia entre elas. As seguintes propriedades s˜ao desej´aveis para δ (Embrechts et al., 2003):
(i) δ(X, Y) =δ(Y, X);
(ii) −1≤δ(X, Y)≤1;
(iii) δ(X, Y) = 1 se X eY s˜ao comonotˆonicas e δ(X, Y) =−1 se X e Y s˜ao contramonotˆonicas;
(iv) Se T for uma transforma¸c˜ao mon´otona, δ(T(X), Y) =
δ(X, Y), se T for crescente,
−δ(X, Y), se T for decrescente.
(v) δ(X, Y) = 0 se e somente seX e Y s˜ao independentes.
O coeficiente de correla¸c˜ao de Pearson entre X e Y ´e definido por ρP = Cov(X, Y)
DP(X)DP(Y)
com Cov(X, Y) = E(XY)−E(X)E(Y). Pode-se provar que −1 ≤ ρP ≤ 1 e que satisfaz as propriedades (i)-(ii). Al´em disso, ρP requer que as variˆancias de X e Y sejam finitas e ρ = 0 n˜ao implica inde-pendˆencia entre X e Y, a n˜ao ser que (X, Y) tenha uma distribui¸c˜ao normal bivariada. Tamb´em, ρP n˜ao ´e invariante sob transforma¸c˜oes n˜ao lineares estritamente crescentes.
3) Dependˆencia linear entre duas vari´aveis
Conv´em reafirmar que ρP(X, Y) mede dependˆencia linear entre X e Y e n˜ao outro tipo de dependˆencia. De fato, suponha que uma das vari´aveis possa ser expressa linearmente em termos da outra, por exem-plo X =aY +b, e seja d=E(|X−aY −b|2). Ent˜ao, pode-se provar (veja Exerc´ıcio 13) que o m´ınimo de docorre quando
a= σX
σY ρP(X, Y), b=E(X)−aE(Y), (4.10) e ´e dado por
mind=σX2(1−ρP(X, Y)2). (4.11) Portanto, quanto maior o valor absoluto do coeficiente de correla¸c˜ao entre X e Y, melhor a acur´acia com que uma das vari´aveis pode ser representada como uma combina¸c˜ao linear da outra. Obviamente, este m´ınimo se anula se e somente se ρP = 1 ouρP =−1. Ent˜ao de (4.11) temos
ρP(X, Y) = σX2 −mina,bE(|X−aY −b|2)
σX2 , (4.12)
ou seja,ρP(X, Y) mede a redu¸c˜ao relativa na variˆancia deX por meio de uma regress˜ao linear deX sobreY.
4) Medidas de dependˆencia robustas
O coeficiente de correla¸c˜ao n˜ao ´e uma medida resistente. Uma me-dida robusta para a associa¸c˜ao entre duas vari´aveis quantitativas ´e constru´ıda como segue. Considere as vari´aveis padronizadas
˜
xk= xk
Sx(α), y˜k= yk
Sy(α), k= 1, . . . , n,
em que Sx2(α) e Sy2(α) s˜ao asα-variˆancias aparadas para os dados xi
e yi, respectivamente. Um coeficiente de correla¸c˜ao robusto ´e definido por
r(α) = Sx+˜2˜ y(α)−Sx−˜2˜ y(α)
Sx+˜2˜ y(α) +Sx−˜2˜ y(α), (4.13) em que, por exemplo, Sx+˜2˜ y(α) ´e a α-variˆancia aparada da soma dos valores padronizados dexieyi. Pode-se mostrar quer(α) =rP seα= 0. Esse m´etodo ´e denominado desomas e diferen¸cas padronizadas.
Exemplo 4.8. Consideremos os dados (xi, yi), i= 1, . . . , n apresen-tados na Tabela 4.23.
Tabela 4.23: Valores hipot´eticos de duas vari´aveisX eY
x y x y
20,2 24,0 19,3 18,5 3 50,8 38,8 19,3 18,5 12,0 11,5 19,3 18,5 25,6 25,8 10,2 11,1 20,2 24,0 12,0 12,9
7,2 7,2 7,2 7,2
7,2 7,2 13,5 12,9 7,2 7,2
Para α= 0,05, obtemos:
x(α) = 14,86, y(α) = 15,33, Sx(α) = 5,87, Sy(α) = 6,40, (˜x+ ˜y)(α) = 4,93, (˜x−y)(α) = 0,˜ 14,
Sx+˜2˜ y(α) = 3,93, Sx−˜2˜ y(α) = 0,054.
Ent˜ao de (4.13) obtemos r(α) = 0,973, o que indica uma alta cor-rela¸c˜ao entre os dois conjuntos de dados. Na Figura 4.14 temos o diagrama de dispers˜ao correspondente.
10 20 30 40 50
10152025303540
x
y ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
Figura 4.14: Gr´afico de dispers˜ao para os dados do Exemplo 4.8.
5) Gr´aficos PP
Na Figura 4.15, observe quepx(q) =P(X≤q) =FX(q) e quepy(q) = P(Y ≤q) =FY(q), de modo que os pares [px(q), py(q)], para qualquer
Fn(y) Fn(x)
Q px(Q)
py(Q)
Qx(p) Qy(p) p
Figura 4.15: Quantis e probabilidades associados a duas distribui¸c˜oes.
q real, formam um gr´afico de probabilidades ougr´afico PP. Os pares (QX(p), QY(p)) para 0 < p < 1, formam o gr´afico de quantis versus quantis (gr´afico QQ).
Se as distribui¸c˜oes de X e Y forem iguais, ent˜ao FX =FY e os pon-tos dos gr´aficos PP e QQ se situam sobre a reta x = y. Em geral os gr´aficos QQ s˜ao mais sens´ıveis a diferen¸cas nas caudas das distri-bui¸c˜oes se estas forem aproximadamente sim´etricas e com a aparˆencia de uma distribui¸c˜ao normal. Suponha queY =aX+b, ou seja, que as distribui¸c˜oes deX e Y s˜ao as mesmas, exceto por uma transforma¸c˜ao linear. Ent˜ao,
p=P(X≤QX(p)) =P(aX+b≤aQX(p) +b) =P(Y ≤QY(p)), ou seja,
QY(p) =aQX(p) +b.
O gr´afico QQ correspondente ser´a representado por uma reta com inclina¸c˜ao a e intercepto b. Essa propriedade n˜ao vale para gr´aficos PP.
Gr´aficos PP e QQ para a distribui¸c˜ao da concentra¸c˜ao de Zn em cas-cas de ´arvores da esp´ecie Tipuana, dispon´ıveis no CD-arvores est˜ao dispostos na Figura 4.16 e salientam a maior capacidade dos ´ultimos para detectar assimetrias em distribui¸c˜oes de frequˆencia.
0.25 0.50 0.75 1.00
0.00 0.25 0.50 0.75 1.00
Probabilidades normais
p
0 200 400 600
−3 −2 −1 0 1 2 3
Quantis normais
Quantis amostrais
Figura 4.16: Gr´aficos PP e QQ para concentra¸c˜ao de Zn em cascas de ´arvores da esp´ecie Tipuana.
6) Diferen¸cas significativas
Consideremos a distribui¸c˜ao de uma vari´avel X (press˜ao arterial, por exemplo) em duas popula¸c˜oes, A e B e admitamos que as m´edias de X sejam µA e µB (desconhecidas), respectivamente. Al´em disso, ad-mitamos que ambas as distribui¸c˜oes tenham desvios padr˜oes iguais a σ = 10 (conhecido). Nosso objetivo ´e saber se existem evidˆencias de que µA = µB com base em amostras aleat´orias XA1, . . . , XAn da po-pula¸c˜ao A e XB1, . . . , XBn da popula¸c˜ao B. Admitamos que n= 100 e que as correspondentes m´edias amostrais sejamXA= 13 eXB= 10, respectivamente. Nesse caso, dizemos que a diferen¸ca |XA−XB|= 3
´
e significativa com p < 0,05, concluindo que h´a evidˆencias de que para acreditar que µA 6= µB. Consideremos agora uma amostra de tamanhon= 25 de cada popula¸c˜ao, com m´ediasXA= 15 eXB= 10.
Nesse caso, dizemos que a diferen¸ca |XA−XB| = 5 n˜ao ´e signi-ficativa com p > 0,05, concluindo que n˜ao h´a raz˜ao para acreditar que µA 6= µB, embora a diferen¸ca entre as m´edias amostrais XA e XB seja maior que no primeiro caso. Essencialmente, queremos sa-ber qual ´e a interpreta¸c˜ao da express˜ao “a diferen¸ca entre as m´edias ´e significativa”.
O cerne do problema ´e que n˜ao queremos tirar conclus˜oes sobre as m´edias amostrais, XA e XB (cuja diferen¸ca ´e evidente, pois a conhe-cemos) e sim sobre as m´edias populacionais µA e µB, que desconhe-cemos. Para associar as amostras `as popula¸c˜oes, precisamos de um modelo probabil´ıstico. No caso do exemplo, um modelo simples sup˜oe que as distribui¸c˜oes de frequˆencias da vari´avel X nas popula¸c˜oes A e B s˜ao Normais, independentes com m´edias µA e µB, respectivamente e desvio padr˜ao comum σ = 10.
No primeiro caso (n= 100), admitindo que as duas distribui¸c˜oes tˆem m´edias iguais (µA=µB), a probabilidade de que a diferen¸ca (em valor
absoluto) entre as m´edias amostrais seja maior ou igual a 2 ´e P(|XA−XB| ≥3) =P(|Z|>3/(
√ 2σ/
√
100) =P(|Z| ≥2,82)<0,05 em queZ representa uma distribui¸c˜ao Normal padr˜ao,i.e., com m´edia zero e variˆancia 1. Em outras palavras, se as m´edias populacionais forem iguais, a probabilidade de se obter uma diferen¸ca de magnitude 3 entre as m´edias de amostras de tamanho n = 100 ´e menor que 5% e ent˜ao dizemos que a diferen¸ca (entre as m´edias amostrais) ´e significativa (p <0,05), indicando que a evidˆencia de igualdade entre as m´edias populacionais µA e µB ´e pequena.
No segundo caso (n= 25), temos P(|XA−XB| ≥5) =P(|Z|>5/(σ/
√
25) =P(|Z|>1,76)>0,05, e ent˜ao dizemos que a diferen¸ca (entre as m´edias amostrais) n˜ao ´e significativa (p >0,05), indicando que n˜ao h´a evidˆencias fortes o sufi-ciente para acreditarmos que as m´edias populacionais µA e µB sejam diferentes.
Observemos que apesar de que no segundo caso, a diferen¸ca amostral
´
e maior do que aquela do primeiro caso, conclu´ımos que a evidˆencia de diferen¸ca entre as m´edias populacionais s˜ao menores. Isso ocorre por que o tamanho amostral desempenha um papel importante nesse processo; quanto maior o tamanho amostral, mais f´acil ser´a detectar diferen¸cas entre as m´edias populacionais em quest˜ao.
Grosso modo, afirmar que uma diferen¸ca entre duas m´edias amostrais
´
e significativa ´e dizer que as m´edias das popula¸c˜oes de onde as amos-tras forma extra´ıdas n˜ao devem ser iguais; por outro lado, dizer que a diferen¸ca entre as m´edias amostrais n˜ao ´e significativa ´e dizer que n˜ao h´a raz˜oes para acreditar que exista diferen¸ca entre as m´edias popula-cionais correspondentes.