• Nenhum resultado encontrado

Duas vari´ aveis quantitativas

No documento Introdu¸c˜ao `a Ciˆencia de Dados (páginas 106-118)

EXPLORAT ´ ORIA DE DADOS

4.3 Duas vari´ aveis quantitativas

Tabela 4.16: Frequˆencia de pacientes submetidos a um teste diagn´ostico (prevalˆencia da doen¸ca = 30%)

Verdadeiro Resultado do teste Total status positivo (T+) negativo (T-)

doente (D) 40 20 60

n˜ao doente (ND) 66 74 140

Total 106 94 200

Os valores estimados para a sensibilidade, especificidade, valores predi-tivo posipredi-tivo e negapredi-tivo al´em da acur´acia est˜ao dispostos na Tabela 4.17 Tabela 4.17: Caracter´ısticas do teste aplicado aos dados das Tabelas 4.15 e 4.16

Popula¸c˜ao com doen¸ca Caracter´ıstica menos prevalente mais prevalente

Sensibilidade 67% 67%

Especifidade 53% 53%

VPP 20% 38%

VPN 90% 79%

Acur´acia 55% 57%

Tabela 4.18: Peso e volume do lobo direito de enxertos de f´ıgado Volume1 (cm3) Volume2 (cm3) Volume (cm3) Peso (g)

672,3 640,4 656,3 630

686,6 697,8 692,2 745

583,1 592,4 587,7 690

850,1 747,1 798,6 890

729,2 803,0 766,1 825

776,3 823,3 799,8 960

715,1 671,1 693,1 835

634,5 570,2 602,3 570

773,8 701,0 737,4 705

928,3 913,6 920,9 955

916,1 929,5 922,8 990

983,2 906,2 944,7 725

750,5 881,7 816,1 840

571,3 596,9 584,1 640

646,8 637,4 642,1 740

1021,6 917,5 969,6 945

600 700 800 900

600 700 800 900 1000

Volume (cm3)

Peso (g)

Figura 4.1: Gr´afico de dispers˜ao entre peso e volume do lobo direito de enxertos de f´ıgado.

unidade amostral em que o volume ´e 725cm3 e o peso ´e 944,7g. A utiliza¸c˜ao dessas constata¸c˜oes para a constru¸c˜ao de um modelo que permita estimar o peso como fun¸c˜ao do volume ´e o objeto da t´ecnica conhecida comoAn´alise de Regress˜aoque ser´a considerada no Cap´ıtulo 6.

Dado um conjunto de n pares (xi, yi), a associa¸c˜ao (linear) entre as vari´aveis quantitativasXeY pode ser quantificada por meio docoeficiente de correla¸c˜ao (linear)de Pearson, definido por

rP =

Pn

i=1(xi−x)(yi−y) [Pn

i=1(xi−x)2Pn

i=1(yi−y)2]1/2. (4.4) Pode-se mostrar que −1 ≤ rP ≤ 1 e, na pr´atica, se o valor rP estiver pr´oximo de −1 ou +1, pode-se dizer que as vari´aveis s˜ao fortemente asso-ciadas ou (linearmente) correlacionadas; por outro lado, se o valor de rP estiver pr´oximo de zero, dizemos que as vari´aveis s˜ao n˜ao correlacionadas.

Quanto mais pr´oximos de uma reta estiverem os pontos (xi, yi), maior ser´a a intensidade da correla¸c˜ao (linear) entre elas.

N˜ao ´e dif´ıcil mostrar que rP =

Pn

i=1xiyi−nx y Pn

i=1x2i −nx2 Pn

i=1yi2−ny21/2. (4.5) Essa express˜ao ´e mais conveniente que (4.4), pois basta calcular: (a) as m´edias amostrais x e y; (b) a soma dos produtos xiyi e (c) a soma dos quadrados dos xi e a soma dos quadrados dos yi.

Para os dados do Exemplo 4.3, o coeficiente de correla¸c˜ao de Pearson ´e 0,76. Se excluirmos o dado discrepante identificado no gr´afico de dispers˜ao, o valor do coeficiente de correla¸c˜ao de Pearson ´e 0,89, evidenciando a falta de robustez desse coeficiente relativamente a observa¸c˜oes com essa natureza.

Nesse contexto, uma medida de associa¸c˜ao mais robusta ´e o coeficiente de correla¸c˜ao de Spearman, cuja express˜ao ´e similar `a (4.4) com os valores das vari´aveisXeY substitu´ıdos pelos respectivos postos.2 Mais especificamente, o coeficiente de correla¸c˜ao de Spearman ´e

rS =

Pn

i=1(Ri−R)(Si−S) [Pn

i=1(Ri−R)2Pn

i=1(Si−S)2]1/2, (4.6) em queRi corresponde ao posto da i-´esima observa¸c˜ao da vari´avelX entre seus valores e R `a m´edia desses postos e Si e S tˆem interpreta¸c˜ao similar para a vari´avel Y. Para efeito de c´alculo pode-se mostrar que a express˜ao (4.6) ´e equivalente a

rS = 1−6

n

X

i=1

(Ri−Si)2/[n(n2−1)]. (4.7)

2O posto de uma observa¸ao xi ´e o ´ındice correspondente `a sua posi¸ao no conjunto ordenadox(1)x(2). . .x(n). Por exemplo, dado o conjunto de observa¸oesx1 = 4, x2 = 7,x3 = 5,x4 = 13, x5 = 6,x6 = 5, o posto correspondente `ax5 ´e 4. Quando h´a observa¸oes com o mesmo valor, o posto correspondente a cada uma delas ´e definido como a m´edia dos postos correspondentes. No exemplo, os postos das observa¸oesx3 ex6 ao iguais a 2,5 = (2 + 3)/2.

0 5 10 15 20

0 5 10 15 20

x

z

Figura 4.2: Gr´afico de dispers˜ao entre valores de duas vari´aveisX e Z.

Os dados correspondentes `a Figura 4.2 foram gerados a partir da ex-press˜ao zi = 1 + 0,25xi +ei com ei simulado a partir de uma distribui¸c˜ao Normal padr˜ao e com as trˆes ´ultimas observa¸c˜oes acrescidas de 15. Para esses dados obtemos rP = 0.73 erS= 0.90. Eliminando as trˆes observa¸c˜oes com valores discrepantes, os coeficientes de correla¸c˜ao correspondentes s˜ao rP = 0.85 e rS = 0.84, indicando que o primeiro ´e mais afetado do que o segundo.

Al´em disso, o coeficiente de correla¸c˜ao de Spearman tamb´em ´e mais apro-priado para avaliar associa¸c˜oes n˜ao lineares, desde que sejam monotˆonicas, i.e., em que os valores de uma das vari´aveis s´o aumentam ou s´o diminuem conforme a segunda vari´avel aumenta (ou diminui). Os dados representa-dos na Figura 4.3 foram gerarepresenta-dos a partir da express˜ao yi = exp(0.4xi), i= 1, . . . ,20.

0 1000 2000 3000

0 5 10 15 20

x

y

Figura 4.3: Gr´afico de dispers˜ao entre valores de duas vari´aveisX e Y. Nesse caso, os valores dos coeficientes de correla¸c˜ao de Pearson e de Spearman s˜ao, respectivamente, rP = 0.75 e rS = 1 indicando que apenas este ´ultimo ´e capaz de real¸car a associa¸c˜ao perfeita entre as duas vari´aveis.

Gr´aficos de perfis individuais

Para dados longitudinais,i.e., aqueles em que a mesma vari´avel resposta

´e observada em cada unidade amostral mais do que uma vez ao longo do tempo (ou de outra escala ordenada, como distˆancia de uma fonte poluidora, por exemplo), uma das ferramentas descritivas mais importantes s˜ao os cha-mados gr´aficos de perfis individuais. Eles s˜ao essencialmente gr´aficos de dispers˜ao (com o tempo na abscissa e a resposta na ordenada) em que os pontos associados a uma mesma unidade amostral s˜ao unidos por segmen-tos de reta. Em geral, os perfis m´edios s˜ao sobrepostos a eles. Esse tipo de gr´afico pode ser utilizado para sugerir modelos de regress˜ao (ver Cap´ıtulo 6) constru´ıdos para modelar o comportamento temporal da resposta esperada e tamb´em para identificar poss´ıveis unidades ou observa¸c˜oes discrepantes.

Exemplo 4.4. Os dados do arquivolactato foram obtidos de um estudo realizado na Escola de Educa¸c˜ao F´ısica da Universiade de S˜ao Paulo com o objetivo de comparar a evolu¸c˜ao da concentra¸c˜ao s´erica de lactato de s´odio (mmol/L) como fun¸c˜ao da velocidade de dois grupos de atletas: 14 fundistas e 12 triatletas. A concentra¸c˜ao s´erica de lactato de s´odio tem sido utilizada como um indicador da condi¸c˜ao f´ısica de atletas. Nesse estudo, cada atleta correu durante certos per´ıodos com velocidades pr´e-estabelecidas e a concentra¸c˜ao de lactato de s´odio foi registrada logo ap´os cada corrida.

A observa¸c˜ao repetida da resposta em cada atleta caracteriza a natureza

longitudinal dos dados. Por meio dos comandos

> library(gdata)

> library(ggplot2)

> library(reshape2)

> library(dplyr)

>

> lactato <-read.xls("/home/jmsinger/Desktop/lactato.xls", sheet=’dados’, method="tab")

> fundistas <- lactato[which(lactato$group == 0), ]

> fundistas1 <- fundistas[-1]

> fundistas2 <- melt(fundistas1, id.vars = "ident")

> fundistaslong <- group_by(fundistas2, ident)

>

> g1 <- ggplot(fundistaslong) +

+ geom_line(aes(variable, value, group = ident))

> g2 <- g1 + theme_bw() + annotate("text", x = 5, y = 5, label = "atleta 9")

> g3 <- g2 + labs(x="velocidade",

y="Concentra¸c~ao de lactato de s´odio")

> g4 <- g3 + theme(text=element_text(size=18))

> g4

obtemos o gr´afico de perfis individuais para os fundistas que est´a represen-tado na Figura 4.4 e sugere que i) a rela¸c˜ao entre a concentra¸c˜ao esperada de lactato de s´odio pode ser representada por uma curva quadr´atica no in-tervalo de velocidades considerado e ii) o atleta 9 ´e um poss´ıvel outlier. Na realidade, verificou-se que esse atleta era velocista e n˜ao fundista.

atleta 9

5 10

v9.5 v10.9 v12.0 v13.3 v14.4 v15.7 v17.1 v18.0 v19.0 v20.0

velocidade

Concentração de lactato de sódio

Figura 4.4: Gr´afico de perfis individuais para os dados do Exemplo 4.4 (atletas fundistas).

Gr´aficos QQ para compara¸c˜ao de duas distribui¸c˜oes amostrais Uma ferramenta adequada para comparar as distribui¸c˜oes de uma carac-ter´ıstica observada sob duas condi¸c˜oes diferentes ´e o gr´afico QQ utilizado na Se¸c˜ao 3.7 para a compara¸c˜ao de uma distribui¸c˜ao emp´ırica com uma distri-bui¸c˜ao te´orica. Um exemplo t´ıpico ´e aquele referente ao objetivo secund´ario mencionado na descri¸c˜ao do Exemplo 4.3, em que se pretende avaliar a con-cordˆancia entre as duas medidas ultrassonogr´aficas do volume do lobo direito do f´ıgado.

Denotando por X uma das medidas e por Y, a outra, sejam QX(p) e QY(p) os quantis de ordem p das duas distribui¸c˜oes que pretendemos comparar. O gr´afico QQ ´e um gr´afico cartesiano de QX(p) em fun¸c˜ao de QY(p) (ou vice-versa) para diferentes valores dep. Se as distribui¸c˜oes de X eY forem iguais, os pontos nesse gr´afico devem estar sobre a retax=y. Se uma das vari´aveis for uma fun¸c˜ao linear da outra, os pontos tamb´em ser˜ao dispostos sobre uma reta, por´em com intercepto possivelmente diferente de zero e com inclina¸c˜ao possivelmente diferente de 1.

Quando os n´umeros de observa¸c˜oes das duas vari´aveis for igual, o gr´afico QQ ´e essencialmente um gr´afico dos dados ordenados de X, ou seja x(1) ≤ . . . ≤ x(n), versus os dados ordenados de Y, nomeadamente, y(1) ≤ . . . ≤ y(n).

Quando os n´umeros de observa¸c˜oes das duas vari´aveis forem diferentes,

digamos m > n, calculam-se os quantis amostrais referentes `aquela vari´avel com menos observa¸c˜oes utilizandopi= (i−0,5)/n,i= 1, . . . , ne obtˆem-se os quantis correspondentes `a segunda vari´avel por meio de interpola¸c˜oes como aquelas indicadas em (3.5). Consideremos, por exemplo os conjuntos de valores x(1) ≤. . .≤x(n) e y(1) ≤. . .≤y(m). Primeiramente, determinemos pi = (i−0,5)/n, i = 1, . . . , n para obter os quantis QX(pi); em seguida, devemos obter ´ındicesj tais que

j−0,5

m = i−0,5

n ou seja j= m

n(i−0,5) + 0,5.

Sejobtido dessa forma for inteiro, o ponto a ser disposto no gr´afico QQ ser´a (x(i), y(j)); em caso contr´ario, teremosj= [j]+fj em que [j] ´e o maior inteiro contido emj e 0< fj <1 ´e a correspondente parte fracion´aria (fj =j−[j]).

O quantil correspondente para a vari´avelY ser´a:

QY(pi) = (1−fj)y([j])+fjy([j]+1).

Por exemplo, sejam m= 45 en= 30; ent˜ao, parai= 1, . . . ,30 temos pi = (i−0,5)/30 e QX(pi) =x(i)

logoj= 45/30(i−0,5) + 0,5 = 1,5i−0,25 e [j] = [1,5i−0,25]. Consequen-temente, no gr´afico QQ, o quantil QX(pi) deve ser pareado com o quantil QY(pi) conforme o seguinte esquema

i pi j [j] j−[j] QX(pi) QY(pi) 1 0,017 1,25 1 0,25 x(1) 0,75y(1)+ 0,25y(2) 2 0,050 2,75 2 0,75 x(2) 0,25y(2)+ 0,75y(3) 3 0,083 4,25 4 0,25 x(3) 0,75y(4)+ 0,25y(5) 4 0,117 5,75 5 0,75 x(4) 0,25y(5)+ 0,75y(6) 5 0,150 7,25 7 0,25 x(5) 0,75y(7)+ 0,25y(8) 6 0,183 8,75 8 0,75 x(6) 0,25y(8)+ 0,75y(9) 7 0,216 10,25 10 0,25 x(7) 0,75y(10)+ 0,25y(11) 8 0,250 11,75 11 0,75 x(8) 0,25y(11)+ 0,25y(12)

... ... ... ... ... ... ...

30 0,983 44,75 44 0,75 x(30) 0,25y(44)+ 0,75y(45) Suponha, por exemplo, que duas vari´aveis, X e Y, sejam tais que Y = aX +b, indicando que suas distribui¸c˜oes s˜ao iguais, exceto por uma trans-forma¸c˜ao linear. Ent˜ao,

p=P[X ≤QX(p)] =P[aX+b≤aQX(p) +b)] =P[Y ≤QY(p)], ou seja, QY(p) = aQX(p) +b, indicando que o gr´afico QQ correspondente mostrar´a uma reta com inclina¸c˜ao ae interceptob.

Para a compara¸c˜ao das distribui¸c˜oes do volume ultrassonogr´afico do lobo direito do f´ıgado medidas pelos dois observadores mencionados no Exemplo 4.3, o gr´afico QQ est´a disposto na Figura 4.5.

600 700 800 900 1000

600700800900

Quantis amostrais (volume1)

Quantis amostrais (volume2)

Figura 4.5: Gr´afico QQ para avalia¸c˜ao da concordˆancia de duas medidas ultrassonogr´aficas do lobo direito do f´ıgado.

Os pontos distribuem-se em torno da reta x=y sugerindo que as medi-das realizamedi-das pelos dois observadores tendem a ser similares. Em geral os gr´aficos QQ s˜ao mais sens´ıveis a diferen¸cas nas caudas das distribui¸c˜oes, se estas forem aproximadamente sim´etricas e com a aparˆencia de uma distri-bui¸c˜ao Normal. Enquanto os diagramas de dispers˜ao mostram uma rela¸c˜ao sistem´atica global entre X e Y, os gr´aficos QQ relacionam valores peque-nos de X com valores pequenos de Y, valores medianos de X com valores medianos deY e valores grandes de X com valores grandes de Y.

Uma ferramenta geralmente utilizada para avaliar concordˆancia entre as distribui¸c˜oes de duas vari´aveis cont´ınuas com o mesmo esp´ırito da estat´ıstica κ ´e o gr´afico de m´edias/diferen¸cas originalmente proposto por Tukey e popularizado como gr´afico de Bland-Altman. Essencialmente, essa ferramenta consiste num gr´afico das diferen¸cas entre as duas observa¸c˜oes pareadas (X2i−X1i) em fun¸c˜ao das m´edias correspondentes [(X1i+X2i)/2], i= 1, . . . , n. Esse procedimento transforma a reta com coeficiente angular igual 1 apresentada no gr´afico QQ numa reta horizontal passando pelo ponto zero no gr´afico de m´edias/diferen¸cas de Tukey e facilita a percep¸c˜ao das diferen¸cas entre as duas medidas da mesma caracter´ıstica.

Note que enquanto gr´aficos QQ s˜ao constru´ıdos a partir do quantis amos-trais, gr´aficos de Bland-Altman baseiam-se no pr´oprios valores das vari´aveis em quest˜ao. Por esse motivo, para a constru¸c˜ao de gr´aficos de Bland-Altman as observa¸c˜oes devem ser pareadas ao passo que gr´aficos QQ podem ser constru´ıdos a partir de conjuntos de dados desbalanceados (com n´umero diferentes de observa¸c˜oes para cada vari´avel).

O gr´afico de m´edias/diferen¸cas de Tukey (Bland-Altman) correspondente aos volumes medidos pelos dois observadores e indicados na Tabela 4.18 est´a

apresentado na Figura 4.6.

600 700 800 900

−150−50050150

Médias

Diferenças

Figura 4.6: Gr´afico de m´edias/diferen¸cas de Tukey (Bland-Altman) para avalia¸c˜ao da concordˆancia de duas medidas ultrassonogr´aficas do lobo direito do f´ıgado.

Os pontos no gr´afico de m´edias/diferen¸cas de Tukey distribuem-se de forma n˜ao regular em torno do valor zero e n˜ao sugerem evidˆencias de dife-ren¸cas entre as distribui¸c˜oes correspondentes. Por essa raz˜ao, para diminuir a variabilidade, decidiu-se adotar a m´edia das medidas obtidas pelos dois ob-servadores como volume do lobo direito do f´ıgado para avaliar sua associa¸c˜ao com o peso correspondente.

Exemplo 4.5 Os dados contidos na Tabela 4.19 foram extra´ıdos de um estudo para avalia¸c˜ao de insuficiˆencia card´ıaca e correspondem `a frequˆencia card´ıaca em repouso e no limiar anaer´obio de um exerc´ıcio em esteira para 20 pacientes. O conjunto de dados completos est´a dispon´ıvel no arquivo esforco.

Tabela 4.19: Frequˆencia card´ıaca em repouso (fcrep) e no limiar anaer´obio (fclan) de um exerc´ıcio em esteira

paciente fcrep fclan paciente fcrep fclan

1 89 110 11 106 157

2 69 100 12 83 127

3 82 112 13 90 104

4 89 104 14 75 82

5 82 120 15 100 117

6 75 112 16 97 122

7 89 101 17 76 140

8 91 135 18 77 97

9 101 131 19 85 101

10 120 129 20 113 150

Os gr´aficos QQ e de m´edias/diferen¸cas de Tukey correspondentes aos dados da Tabela 4.19 est˜ao apresentados nas Figuras 4.7 e 4.8.

60 70 80 90 100 110 120 130

6080100120140160180

Quantis amostrais (Freq cardíaca repouso)

Quantis amostrais (Freq cardíaca limiar anaeróbio)

Figura 4.7: Gr´afico QQ para compara¸c˜ao das distribui¸c˜oes de frequˆencia card´ıaca em repouso e no limiar anaer´obio.

Na Figura 4.7, a curva pontilhada corresponde `a retaQY(p) = 1.29QX(p) sugerindo que a frequˆencia card´ıaca no limiar anaer´obio (Y) tende a ser cerca de 30% maior que aquela em repouso (X) em toda faixa de varia¸c˜ao. Isso tamb´em pode ser observado, embora com menos evidˆencia, no gr´afico de Bland-Altman da Figura 4.8.

60 70 80 90 100 110 120 130

0102030405060

Médias

Diferenças [FC(limiar anaeróbio)−FC(repouso)]

Figura 4.8: Gr´afico de m´edias/diferen¸cas de Tukey (Bland-Altman) para compara¸c˜ao das distribui¸c˜oes de frequˆencia card´ıaca em repouso e no limiar anaer´obio.

Exemplo 4.6. Considere o arquivotemperaturas, contendo dados de tem-peratura para Ubatuba e Canan´eia. O gr´afico QQ correspondente est´a apre-sentado na Figura 4.9. Observamos que a maioria dos pontos est´a acima da retay =x, mostrando que as temperaturas de Ubatuba s˜ao em geral maiores do que as de Cananeia para valores maiores do que 17 graus.

15 20 25 30

15202530

Quantis amostrais (Temperatura (Cananéia))

Quantis amostrais (Temperatura (Ubatuba))

Figura 4.9: Gr´afico QQ para compara¸c˜ao das distribui¸c˜oes de temperaturas de Ubatuba e Canan´eia.

O gr´afico de Bland-Altman correspondente, apresentado na Figura 4.10, sugere que acima de 17 graus, em m´edia Ubatuba tende a ser 1 grau mais quente que Cananeia.

16 18 20 22 24 26

−3−2−10123

Médias

Diferenças [(Temp(Ubatuba) − Temp(Cananéia)]

Figura 4.10: Gr´afico de m´edias/diferen¸cas de Tukey (Bland-Altman) para compara¸c˜ao das distribui¸c˜oes de temperaturas de Ubatuba e Canan´eia.

No documento Introdu¸c˜ao `a Ciˆencia de Dados (páginas 106-118)