• Nenhum resultado encontrado

Uma vari´ avel qualitativa e outra quantitativa

PARTE I: AN ´ ALISE EXPLORAT ´ ORIA DE DADOS 23

4.4 Uma vari´ avel qualitativa e outra quantitativa

4. AN ´ALISE DE DADOS DE DUAS VARI ´AVEIS 125 Tabela 4.24: Medidas resumo para a concentra¸c˜ao de Zn (ppm) em cascas de tipuanas

Tipo Desvio

de via M´edia padr˜ao Min Q1 Mediana Q3 Max n Arterial 199,4 110,9 29,2 122,1 187,1 232,8 595,8 59 Coletora 139,7 90,7 35,2 74,4 127,4 164,7 385,5 52 Local I 100,6 73,4 20,1 41,9 73,0 139,4 297,7 48 Local II 59,1 42,1 11,0 31,7 45,7 79,0 206,4 34 Min: m´ınimo Max: m´aximo

Q1: primeiro quartil Q3: terceiro quartil

Os resultados indicados na Tabela 4.24 mostram que tanto as concentra¸c˜oes m´edia e mediana de Zn quanto o correspondente desvio padr˜ao decrescem

`

a medida que a intensidade de tr´afego diminui, sugerindo que essa vari´avel pode ser utilizada como um indicador da polui¸c˜ao produzida por ve´ıculos automotores. Osboxplots apresentados na Figura 4.13 confirmam essas con-clus˜oes e tamb´em indicam que as distribui¸c˜oes apresentam uma leve assime-tria, especialmente para as vias coletoras e locais I al´em de alguns pontos discrepantes.

0 200 400 600

Arterial Collector Local I Local II Tipo de via

Concentração de Zn (ppm)

Figura 4.13: Boxplots para compara¸c˜ao das distribui¸c˜oes da concentra¸c˜ao de Zn nas cascas detipuanas.

Outro tipo de gr´afico ´util para avaliar a associa¸c˜ao entre a vari´avel quan-titativa (concentra¸c˜ao de Zn, no exemplo) e a vari´avel qualitativa (tipo de via, no exemplo) especialmente quando esta tem n´ıveis ordinais (como no exemplo) ´e ogr´afico de perfis m´edios. Nesse gr´afico cartesiano as m´edias (e barras representando desvios padr˜oes, erros padr˜oes ou intervalos de con-fian¸ca - para detalhes, veja a Nota de Cap´ıtulo 6) da vari´avel quantitativa s˜ao representadas no eixo das ordenadas e os n´ıveis da vari´avel quantitativa, no eixo das abscissas. O gr´afico de perfis m´edios para a concentra¸c˜ao de Zn

Morettin & Singer - agosto/2021

126 4.4 UMA VARI ´AVEL QUALITATIVA E OUTRA QUANTITATIVA

medida nas cascas deTipuanas est´a apresentado na Figura 4.14 e reflete as mesmas conclus˜oes obtidas com as an´alises anteriores.

100 200 300

Arterial Collector Local I Local II Tipo de via

Concentração média de Zn (ppm)

Figura 4.14: Gr´afico de perfis m´edios (com barras de desvios padr˜oes) para com-para¸c˜ao das distribui¸c˜oes da concentra¸c˜ao de Zn nas cascas detipuanas.

No t´ıtulo do gr´afico, deve-se sempre indicar o que representam as bar-ras; desvios padr˜oes s˜ao ´uteis para avaliar como a dispers˜ao dos dados em torno da m´edia correspondente varia com os n´ıveis da vari´avel quantitativa (e n˜ao dependem do n´umero de observa¸c˜oes utilizadas para o c´alculo da m´edia); erros padr˜oes s˜ao indicados para avalia¸c˜ao da precis˜ao das m´edias (e dependem do n´umero de observa¸c˜oes utilizadas para o c´alculo delas);

intervalos de confian¸ca servem para compara¸c˜ao das m´edias populacionais correspondentes e dependem de suposi¸c˜oes sobre a distribui¸c˜ao da vari´avel quantitativa.

Os segmentos de reta (linhas pontilhadas) que unem os pontos repre-sentando as m´edias n˜ao tˆem interpreta¸c˜ao e servem apenas para salientar poss´ıveis tendˆencias de varia¸c˜ao dessas m´edias.

Para prop´ositos inferenciais, uma t´ecnica apropriada para a an´alise de dados com essa natureza ´e a An´alise de Variˆancia (com um fator), co-mumente cognominada ANOVA (ANalysis Of VAriance). O objetivo desse tipo de an´alise ´e avaliar diferen¸cas entre as respostas esperadas das unidades de investiga¸c˜ao na popula¸c˜ao da qual se sup˜oe que os dados correspondem a uma amostra.

Um modelo bastante empregado para representar as distribui¸c˜oes da vari´avel resposta das unidades de investiga¸c˜ao submetidas aos diferentes tratamentos ´e

yiji+eij, i= 1, . . . , a, j = 1, . . . , ni (4.8) em que yij representa a resposta da j-´esima unidade de investiga¸c˜ao sub-metida aoi-´esimo tratamento, µi denota o valor esperado correspondente e

Morettin & Singer - agosto/2021

4. AN ´ALISE DE DADOS DE DUAS VARI ´AVEIS 127 os eij representam erros aleat´orios independentes para os quais se sup˜oem distribui¸c˜oes normais com valores esperados iguais a zero e variˆancia σ2, constante, mas desconhecida. Uma representa¸c˜ao gr´afica desse modelo est´a disposta na Figura 4.15.

A hip´otese a ser avaliada por meio da ANOVA ´e que os valores esperados das respostas associados aosa tratamentos s˜ao iguais, ou seja

H :µ1=. . .=µa.

Se a ANOVA indicar que n˜ao existem evidˆencias contr´arias a essa hip´otese, dizemos que n˜ao h´a efeito de tratamentos. Em caso contr´ario, dizemos que os dados sugerem que pelo menos uma das m´edias µi ´e diferente das demais.

i= 1

i= 2

i= 3

i= 4

yij Normal(µi,σ2)

µ1

µ2

µ3

µ4

Tratamentos(i)

Vari´avel resposta (Y)

Figura 4.15: Representa¸c˜ao de um modelo para ANOVA com um fator.

A concretiza¸c˜ao da ANOVA para a compara¸c˜ao dos valores esperados da concentra¸c˜ao de Zn referentes aos diferentes tipos de via pode ser realizada por meio da fun¸c˜ao aov()com os comandos

> tipovia <- as.factor(tipuana$tipovia)

> anovaZn <- aov(Zn ~ tipovia, data=tipuana)

> summary(anovaZn)

O resultado, disposto na forma de uma tabela de ANOVA ´e Df Sum Sq Mean Sq F value Pr(>F) tipovia 3 498525 166175 21.74 3.84e-12 ***

Residuals 189 1444384 7642

Morettin & Singer - agosto/2021

128 4.4 UMA VARI ´AVEL QUALITATIVA E OUTRA QUANTITATIVA

e sugere uma diferen¸ca altamente significativa (p <0,001) entre os corres-pondentes valores esperados, ou seja, que pelo menos um dos valores espe-rados ´e diferente dos demais. O prosseguimento da an´alise envolve alguma t´ecnica de compara¸c˜oes m´ultiplas para identificar se as concentra¸c˜oes esperadas de Zn correspondentes aos diferentes tipos de via s˜ao todas di-ferentes entre si ou se existem algumas que podem ser consideradas iguais.

Para detalhes sobre esse t´opico, o leitor pode consultar o excelente texto de Kutner et al. (2004).

Uma an´alise similar para os 76alfeneiros est´a resumida na Tabela 4.25, e Figuras 4.16 e 4.17.

Tabela 4.25: Medidas resumo para a concentra¸c˜ao de Zn (ppm) em cascas de alfeneiros

Tipo Desvio

de via M´edia padr˜ao Min Q1 Mediana Q3 Max n Arterial 244,2 102,4 58,5 187,4 244,5 283,5 526,0 19 Coletora 234,8 102,7 15,6 172,4 231,6 311,0 468,6 31 Local I 256,3 142,4 60,0 154,9 187,0 403,7 485,3 19 Local II 184,4 96,4 45,8 131,1 180,8 247,6 306,6 7 Min: m´ınimo Max: m´aximo

Q1: primeiro quartil Q3: terceiro quartil

0 100 200 300 400 500

Arterial Collector Local I Local II Tipo de via

Concentração de Zn (ppm)

Figura 4.16: Boxplots para compara¸c˜ao das distribui¸c˜oes da concentra¸c˜ao de Zn nas cascas dealfeneiros.

Morettin & Singer - agosto/2021

4. AN ´ALISE DE DADOS DE DUAS VARI ´AVEIS 129

100 200 300 400

Arterial Collector Local I Local II Tipo de via

Concentração média de Zn (ppm)

Figura 4.17: Gr´afico de perfis m´edios (com barras de desvios padr˜oes) para com-para¸c˜ao das distribui¸c˜oes da concentra¸c˜ao de Zn nas cascas dealfeneiros.

Os valores dispostos na Tabela 4.25 e as Figuras 4.16 e 4.17 indicam que as concentra¸c˜oes de Zn em alfeneiros tendem a ser maiores do que aquelas encontradas emtipuanas por´em s˜ao menos sens´ıveis a varia¸c˜oes na intensidade de tr´afego com exce¸c˜ao de vias locais II; no entanto, conv´em lembrar que apenas 7 alfeneiros foram avaliados nas proximidades desse tipo de via.

A tabela de ANOVA correspondente ´e

Df Sum Sq Mean Sq F value Pr(>F) tipovia 3 27482 9161 0.712 0.548 Residuals 72 925949 12860

e n˜ao sugere que as concentra¸c˜oes esperadas de Zn nas cascas dealfeneiros sejam diferentes para ´arvores dessa esp´ecie localizadas nas cercanias dos diferentes tipos de via (p <0,548).

Exemplo 4.8. Consideremos os dados do arquivo empresa, referentes `a informa¸c˜oes sobre 36 funcion´arios de uma certa empresa. Nosso objetivo ´e avaliar a associa¸c˜ao entre as vari´aveis “Sal´ario” (S) expressa em n´umero de sal´arios m´ınimos e “Grau de instru¸c˜ao” (GI), com a classifica¸c˜ao “funda-mental”, “m´edio” ou “superior”.

Medidas resumo para “Sal´ario” em fun¸c˜ao dos n´ıveis de “Grau de ins-tru¸c˜ao” s˜ao apresentadas na Tabela 4.26.

Morettin & Singer - agosto/2021

130 4.4 UMA VARI ´AVEL QUALITATIVA E OUTRA QUANTITATIVA

Tabela 4.26: Medidas resumo para a vari´avel “Sal´ario” (n´umero de sal´arios m´ınimos)

Grau de M´edia Variˆancia

instru¸c˜ao n S var(S) Min Q1 Q2 Q3 Max

Fundam 12 7,84 7,77 4,00 6,01 7,13 9,16 13,65

M´edio 18 11,54 13,10 5,73 8,84 10,91 14,48 19,40 Superior 6 16,48 16,89 10,53 13,65 16,74 18,38 23,30 Todos 36 11,12 20,46 4,00 7,55 10,17 14,06 23,30 Min: m´ınimo Max: m´aximo

Q1: primeiro quartil Q2: mediana Q3: terceiro quartil

A leitura desses resultados sugere associa¸c˜ao entre sal´arios e grau de ins-tru¸c˜ao: o sal´ario m´edio tende a aumentar conforme aumenta o grau de instru¸c˜ao. O sal´ario m´edio dos 36 funcion´arios ´e 11,12 sal´arios m´ınimos;

para funcion´arios com curso superior, o sal´ario m´edio ´e de 16,48 sal´arios m´ınimos, enquanto que funcion´arios com primeiro grau completo recebem, em m´edia, 7,82 sal´arios m´ınimos.

Embora nos dois exemplos apresentados a vari´avel qualitativa seja or-dinal, o mesmo tipo de an´alise pode ser empregado no caso de vari´aveis qualitativas nominais, tendo o devido cuidado na interpreta¸c˜ao, pois n˜ao se poder´a afirmar que a m´edia da var´avel quantitativa aumenta com o aumento dos n´ıveis da vari´avel quantitativa.

Como nos casos anteriores, ´e conveniente poder contar com uma medida que quantifique o grau de associa¸c˜ao entre as duas vari´aveis. Com esse in-tuito, conv´em observar que as variˆancias podem ser usadas como insumos para construir essa medida. A variˆancia da vari´avel quantitativa (Sal´ario) para todos os dados,i.e., calculada sem usar a informa¸c˜ao da vari´avel qua-litativa (Grau de instru¸c~ao), mede a dispers˜ao dos dados em torno da m´edia global (m´edia salarial de todos os funcion´arios). Se as variˆancias da vari´avel Sal´ario calculadas dentro de cada categoria da vari´avel qualita-tiva forem pequenas (comparaqualita-tivamente `a variˆancia global), essa vari´avel pode ser usada para melhorar o conhecimento da distribui¸c˜ao da vari´avel quantitativa, sugerindo a existˆencia de uma associa¸c˜ao entre ambas.

Na Tabela 4.26 pode-se observar que as variˆancias do sal´ario dentro das trˆes categorias s˜ao menores do que a variˆancia global e al´em disso, que aumentam com o grau de instru¸c˜ao. Uma medida resumo da variˆanciaentre as categorias da vari´avel qualitativa ´e a m´edia das variˆancias ponderada pelo n´umero de observa¸c˜oes em cada categoria, ou seja,

Var(S) = Pk

i=1niVari(S) Pk

i=1ni , (4.9)

em que k ´e o n´umero de categorias (k = 3 no exemplo) e Vari(S) denota a variˆancia de S dentro da categoria i, i = 1, . . . ,k. Pode-se mostrar que Var(S) ≤ Var(S), em que Var(S) denota a variˆancia da vari´avel Sal´ario obtida sem levar em conta Grau de instru¸c~ao. Ent˜ao podemos definir o

Morettin & Singer - agosto/2021

4. AN ´ALISE DE DADOS DE DUAS VARI ´AVEIS 131 grau de associa¸c˜ao entre as duas vari´aveis como o ganho relativo na variˆancia obtido pela introdu¸c˜ao da vari´avel qualitativa. Explicitamente,

R2 = Var(S)−Var(S)

Var(S) = 1−Var(S)

Var(S). (4.10)

Al´em disso, pode-se mostrar que 0≤R2≤1.

Quando as m´edias da vari´avel resposta (sal´ario, no exemplo) nas dife-rentes categorias da vari´avel explicativa forem iguais, Var(S) = Var(S) e R2 = 0, indicando a inexistˆencia de associa¸c˜ao entre as duas vari´aveis re-lativamente `as suas m´edias. Esse ´e o princ´ıpio que norteia a t´ecnica de An´alise de Variˆancia, cuja finalidade ´e comparar m´edias (populacionais) de distribui¸c˜oes normais independentes com mesma variˆancia. A estat´ıstica R2 tamb´em ´e utilizada para avaliar a qualidade do ajuste de modelos de regress˜ao, o t´opicos abordado no Cap´ıtulo 6.

Para os dados do Exemplo 4.8, temos

Var(S) = 12×7,77 + 18×13,10 + 6×16,89

12 + 18 + 6 = 11,96.

Como Var(S) = 20,46, obtemos R2 = 1−(11,96/20,46) = 0,415,sugerindo que 41,5% da varia¸c˜ao total do sal´ario ´eexplicadapelo grau de instru¸c˜ao.