• Nenhum resultado encontrado

Parte 2 Explorando os dados

N/A
N/A
Protected

Academic year: 2021

Share "Parte 2 Explorando os dados"

Copied!
42
0
0

Texto

(1)
(2)

• O uso adequado de gráficos é fundamental em qualquer análise estatística, possibilitando o conhecimento inicial de dados e direcionando as análises posteriores;

• Em análise de regressão, o uso de gráficos pode auxiliar na especificação de uma função de regressão apropriada, no diagnóstico do modelo e na identificação de medidas corretivas para modelos mal ajustados.

• Na sequência são relacionados alguns gráficos importantes. Para fins de ilustração, será usado o banco de dados mtcars do R.

(3)

• Dados de 32 modelos de automóveis norte-americanos. Dentre as variáveis consideradas, destacamos:

o mpg: Consumo de combustível (em milhas por galão); o hp: Potência do motor (em cavalos);

o wt: Peso do carro (em libras); o carb: Número de carburadores.

mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4 Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4 Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1 Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1 Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2 Valiant 18.1 6 225.0 105 2.76 3.460 20.22 1 0 3 1 Duster 360 14.3 8 360.0 245 3.21 3.570 15.84 0 0 3 4 Merc 240D 24.4 4 146.7 62 3.69 3.190 20.00 1 0 4 2 Merc 230 22.8 4 140.8 95 3.92 3.150 22.90 1 0 4 2 Merc 280 19.2 6 167.6 123 3.92 3.440 18.30 1 0 4 4

(4)

Gráficos para uma variável

1- Histograma – Gráfico de barras justapostas utilizado para avaliar a distribuição de variáveis numéricas.

Exemplo 1 – Consumo de combustível (em milhas por galão) de 32 modelos de automóveis norte-americanos.

Nota – Repare, na Figura 1, que o histograma (e, consequentemente sua interpretação) é afetado pelo número

de categorias consideradas. A escolha dos valores iniciais e finais do gráfico também o altera. Deve-se tomar cuidado com tais especificações.

(5)

a Consumo (mpg) F re q u ê n c ia 10 20 30 40 0 5 10 15 20 b Consumo (mpg) F re q u ê n c ia 10 15 20 25 30 35 0 2 4 6 8 10 12 c Consumo (mpg) F re q u ê n c ia 10 15 20 25 30 0 1 2 3 4 5 6 7

Figura 1 - Histogramas para os consumos de combustível de 36 modelos de carros norte-americanos com os

(6)

2- Gráfico do estimador não paramétrico da função densidade – Consiste numa curva que estima a

distribuição da variável com base nos dados.

 Estimadores não paramétricos podem ser empregados, como alternativa (ou complemento) ao histograma, na obtenção de uma representação ‘suavizada’ da distribuição dos dados.

 Um dos métodos disponíveis para a estimação da função densidade é o método kernel. A estimativa da densidade para algum valor real x de uma variável de interesse, com base em n observações

n x x x1, 2,..., , é dado por:

( )

=       − = n i i h x x K nh x f 1 1 ˆ , onde:

a. K() é a função kernel, geralmente uma função simétrica, unimodal e que integra 1 (pode ser a

(7)

b. h (chamado comprimento de banda) é o parâmetro que define o grau de suavização da densidade

estimada (quanto maior o valor de h, mais suave – e mais viciada – é a estimativa obtida).

 Alguns exemplos de kernel:

1) Uniforme:

( )

{ 1} 2 1 ≤ = I u u K ; 2) Triangular: K

( )

u =

(

1− u

)

I{u1}; 3) Epanechnikov:

( )

(

1 2

)

{ 1} 4 3 ≤ − = u I u u K ; 4) Biweight:

( )

(

1 2

)

2 { 1} 16 15 ≤ − = u I u u K ; 5) Triweight:

( )

(

1 2

)

3 { 1} 32 35 ≤ − = u I u u K ; 6) Gaussianno:

( )

2 2 2 1 u e u K = −

π

; 7) Cosseno:

( )

{ 1} 2 cos 4  ≤     = u I u u K

π

π

.

(8)
(9)

 Repare, pela definição do método, que a densidade estimada num valor real x será a soma dos valores produzidos pela função kernel para x considerando cada uma das observações na amostra.

 Assim, quanto mais observações próximas a x , maiores os “pesos” a serem somados e, consequentemente, maior a densidade estimada.

 A escolha do kernel determina a forma como serão distribuídos os pesos em torno das observações amostrais.

(10)

Figura 3 – Ilustração do método kernel (fonte: internet).

No R: Função density.

(11)

10 20 30 40 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 Gaussiano N = 32 Bandwidth = 2.477 D e n s ity 10 20 30 40 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 Triangular N = 32 Bandwidth = 2.477 D e n s ity 10 20 30 40 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 Cosseno N = 32 Bandwidth = 2.477 D e n s it y 10 20 30 40 0.00 0.02 0.04 0.06 Uniforme N = 32 Bandwidth = 2.477 D e n s it y

Figura 4 – Densidades estimadas pelo método kernel para os consumos de combustível para quatro funções

(12)

10 15 20 25 30 35 0.00 0.02 0.04 0.06 0.08 0.10 0.12 N = 32 Bandwidth = 0.5 D e n s it y 10 15 20 25 30 35 0.00 0.02 0.04 0.06 0.08 N = 32 Bandwidth = 1 D e n s it y 5 10 15 20 25 30 35 40 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 N = 32 Bandwidth = 2 D e n s it y 0 10 20 30 40 50 0.00 0.01 0.02 0.03 0.04 0.05 N = 32 Bandwidth = 5 D e n s it y

Figura 5 – Densidades estimadas pelo método kernel para os consumos de combustível para quatro tamanhos de

(13)

Consumo (mpg) D e n s id a d e 10 15 20 25 30 35 0.00 0.02 0.04 0.06 0.08

Figura 6 – Histograma e função densidade estimada com kernel gaussiano (as marcações sobre o eixo horizontal

(14)

3- Boxplot – Representação gráfica do resumo dos cinco números (mínimo, máximo, 1º quartil, 3º quartil e

mediana).

Nota 1 – O p −ésimo quantil de uma amostra corresponde ao késimo maior valor amostral, tal que

(

+1

)

= p n

k (se k não for inteiro, deve-se usar interpolação).

Exemplo – Para os dados apresentados na sequência:

11 16 23 31 36 39 41 43 44 48

Obtenha os quartis (quantis 0,25; 0,50 e 0,75), além dos quantis 0,1 e 0,85.

Nota 2 – Quantis populacionais, por sua vez, são determinados a partir da distribuição da variável de interesse.

Assim, para uma variável aleatória Y , o pésimo quantil é definido por yp que satisfaz P

(

Yyp

)

= p e

(

Y y

)

p

(15)

x f( x ) p0.01 p0.05 p0.25 p0.5 p0.75 p0.95p0.99 x f( x ) p0 .0 1 p0 .0 5 p0 .2 5 p0 .5 p0 .7 5 p0 .9 5

Figura – Ilustração de quantis populacionais para uma distribuição simétrica (Normal) e outra assimétrica (lognormal).

(16)

Exemplo – Para a variável aleatória Y , com distribuição definida pela função densidade de probabilidade:

( )

(

)

    ≤ < − = contrário caso x x x f , 0 1 0 , 1 2 3 2

Obtenha os quartis (quantis 0,25; 0,50 e 0,75), além dos quantis 0,1 e 0,85.

 Boxplots são úteis para avaliar diferentes características da distribuição, como locação, centralidade, dispersão e presença de outliers.

(17)

Mínimo

p0.25

p0.5

p0.75

Máximo

(18)

Nota – A linha que se estende a partir do 3º quartil (p0,75) alcança a maior observação que não esteja a uma

distância superior a 1,5( p0,75p0,25). A partir daí, as observações são representadas por pontos, indicando

outliers (o mesmo vale abaixo do 1º quartil ( p0,25).

No R – Função boxplot.

(19)

10 15 20 25 30 C o n s u m o ( m p g )

(20)

4- Gráficos quantil-quantil (ou gráficos probabilísticos)– Utilizados para se avaliar a aderência da

distribuição amostral a alguma distribuição teórica, plotando-se, num gráfico de dispersão, os quantis da primeira versus os quantis da segunda.

 Num gráfico quantil-quantil, quanto mais os pontos se aproximarem da reta identidade, maior a aderência da distribuição amostral à distribuição teórica.

(21)

Procedimento:

1- Ordenar os dados amostrais (x1,x2,...,xn) do menor ao maior, resultando num conjunto de estatísticas de

ordem, denotadas por x( )1 ,x( )2 ,...,x( )n ;

2- Calcular a proporção acumulada de dados “abaixo” de x( )i por:

. ,..., 2 , 1 , 2 1 n i n i Pi = − =

3- Usar a inversa da distribuição teórica proposta para obter o quantil zi correspondente a cada valor de Pi

(22)

4- Plotar, num diagrama de dispersão, x( )i vs zi. Se a amostra de fato foi gerada pela distribuição teórica

proposta, então x( )izi, e os pontos oscilarão aleatoriamente em torno da reta identidade.

Notas:

I. Se as distribuições forem idênticas, exceto pela locação, então o gráfico será aproximadamente linear de forma que x( )i

µ

+ zi. Se as distribuições diferem em locação e escala, mas tem a mesma forma, então

( )i zi

x

µ

+

σ

.

II. A representação da reta identidade (ou da reta apropriada, se as duas distribuições tiverem locações distintas), ajuda a visualizar a aderência da distribuição amostral à distribuição teórica.

(23)

5- Uma forma de acomodar a aleatoriedade dos dados é acrescentar ao gráfico quantil-quantil bandas (envelopes) de confiança. As bandas de (aproximadamente) 95% de confiança podem ser obtidas calculando, para cada i :

( )

( )

(

)

n P P z p x i i i i − × ±2 ˆ 1 ˆ

σ

,

sendo p

( )

zi a função densidade de probabilidade correspondente a P

( )

zi e unindo os valores obtidos.

No R: Funções qqPlot (pacote car) e qnorm.

(24)

-2 -1 0 1 2 10 15 20 25 30 Quantis - Normal Q u a n tis a m o s tr a is 10 15 20 25 30 35 10 15 20 25 30 Quantis - Gamma Q u a n tis a m o s tr a is

Figura 9 – Gráficos quantil-quantil (ou probabilísticos) Normal e Gama para os consumos de combustível

(25)

Exemplo 5 – Vamos simular 100 observações independentes de cada uma das três distribuições:

o Amostra 1 - Normal

(

µ

=10,

σ

= 2

)

;

o Amostra 2 -

χ

22 (qui-quadrado com dois graus de liberdade);

o Amostra 3 - t2 (t-Student com dois graus de liberdade).

o Avalie cada um dos gráficos quantil-quantil apresentados na sequência, em particular os gráficos baseados na distribuição Normal para as amostras 2 e 3. Identifique, respectivamente, a disposição dos pontos nas formas de ‘U’ e ‘S’ e tente explicá-las.

(26)

-2 -1 0 1 2 0 5 10 15 20 Quantis - Normal Q u a n tis A m o s tr a 1 -2 -1 0 1 2 0 2 4 6 8 10 Quantis - Normal Q u a n tis A m o s tr a 2 -2 -1 0 1 2 -10 -5 0 5 10 Quantis - Normal Q u a n tis A m o s tr a 3

(27)

-2 -1 0 1 2 0 5 10 15 20 Quantis - Normal Q u a n tis A m o s tr a 1 0 2 4 6 8 10 0 2 4 6 8 10 Quantis - chi (df=2)) Q u a n tis A m o s tr a 2 -10 -5 0 5 10 -10 -5 0 5 10 Quantis - t (df=2)) Q u a n tis A m o s tr a 3

Figura 11 – Gráficos probabilísticos para as três amostras simuladas considerando as distribuições teóricas

(28)

Gráficos para duas variáveis

• Gráfico de dispersão – É a representação geométrica dos valores de duas variáveis numéricas.

No R: Função plot.

o Um recurso bastante útil para melhor visualizar a relação entre duas variáveis num gráfico de dispersão é acrescentar ao gráfico o ajuste de uma regressão não paramétrica entre as variáveis, por meio do ajuste de polinômios locais (trataremos disso com mais detalhes adiante).

No R: Funções lowess ou loess. A função scatterplot, do pacote car, produz o gráfico de dispersão

já com a regressão não paramétrica ajustada (além de outros recursos).

Exemplo 6 – Gráficos de dispersão de consumo versus peso e potência versus peso para os dados de 32

(29)

1 2 3 4 5 6 10 15 20 25 30 Peso (x1000 lb) C o n s u m o (m p g ) Cadillac Fleetwood Lincoln Continental Chrysler Imperial Fiat 128 Toyota Corolla 1 2 3 4 5 6 50 100 150 200 250 300 Peso (x1000 lb) P o tê n c ia Cadillac Fleetwood Lincoln Continental Chrysler Imperial Honda Civic Lotus Europa Maserati Bora

Figura 12 - Gráficos de dispersão de consumo versus peso e potência versus peso para os dados de 32 modelos

(30)

2 3 4 5 10 15 20 25 30 Peso (lb) C o n s u m o

Figura 13 - Gráfico de dispersão de consumo versus peso para os dados de 32 modelos de automóveis

(31)

• Boxplot –boxplots permitem comparar a distribuição de alguma variável quantitativa de interesse para diferentes níveis de alguma variável qualitativa, ou categorizada (ex: Índice de massa corporal por sexo; Engorda de bovinos por tipo de dieta; Tempo até o efeito por tipo de medicação...).

• Gráficos de média ± desvio padrão – Alternativa ao boxplot. Representação gráfica da média, para cada resultado da variável qualitativa, com linhas estendidas verticalmente, com comprimento de 1 desvio padrão.

Nota – Essa representação é apropriada quando a variável sob estudo tem distribuição Normal. Além disso,

uma extensão desse gráfico é o gráfico de média ± 2 erros padrões da média, o que permite representar intervalos de (aproximadamente) 95% de confiança.

Exemplo 7 – Comparação dos pesos de 71 frangos segundo o tipo de dieta fornecida (para mais detalhes,

(32)

casein horsebean linseed meatmeal soybean sunflower 100 150 200 250 300 350 400 Tipo de dieta P e s o n a s e x ta s e m a n a ( g ra m a s )

(33)

100 150 200 250 300 350 400 Tipo de dieta P e s o d o s f ra n g o s ( g )

horsebean linseed soybean sunflower meatmeal casein

(34)

Exemplo 8 – Consumo de combustível versus número de carburadores para 32 modelos de automóveis norte-americanos. 1 2 3 4 ou mais 10 15 20 25 30 Número de carburadores C o n s u m o (m p g )

(35)

Gráficos para múltiplas variáveis

Nota – Diversos gráficos para múltiplas variáveis, semelhantes ou diferentes daqueles apresentados na

sequência, estão disponíveis em pacotes do R como o lattice e o gplot, por exemplo.

1- Matriz de gráficos de dispersão – Representação, numa única figura, dos gráficos de dispersão bivariados

para cada par de variáveis.

No R: Função plot ou scatterplotMatrix (pacote car).

Exemplo 9 – Matriz de gráficos de dispersão para as variáveis consumo, tempo, potência e peso para os 32

(36)

Consumo 16 18 20 22 2 3 4 5 10 15 20 25 30 16 18 20 22 Tempo Potência 50 100 150 200 250 300 10 15 20 25 30 2 3 4 5 50 100 150 200 250 300 Peso

Figura 17 – Matriz de gráficos de dispersão para o consumo de combustível, tempo até percorrer 0,25 milha,

(37)

2- Gráficos de dispersão condicionais (coplot) – Permitem avaliar a relação entre a variável resposta e uma

particular variável explicativa em grupos, formados por uma segunda variável explicativa.

No R: Função xyplot (pacote lattice).

Exemplo 10 – Dados de um experimento com 125 moscas divididas aleatoriamente em 5 grupos de 25 cada,

sendo que os grupos foram submetidos às seguintes condições: Grupo 1 (isolated) – Moscas solitárias;

Grupo 2 (low)– Mantidos individualmente com uma fêmea não grávida por dia; Grupo 3 (high)– Mantidos individualmente com oito fêmeas não grávidas por dia; Grupo 4 (one)– Mantidos individualmente com uma fêmea grávida por dia;

Grupo 5 (many)– Mantidos individualmente com oito fêmeas grávidas por dia;

 A variável resposta é o tempo de vida Adicionalmente, mediu-se o tamanho do tórax de cada macho, pois se sabe que tal medida está relacionada à longevidade das moscas.

(38)

Tamanho do tórax L o n g e v id a d e 20 40 60 80 100 0.65 0.70 0.75 0.80 0.85 0.90 0.95 isolated one 0.65 0.70 0.75 0.80 0.85 0.90 0.95 low many 0.65 0.70 0.75 0.80 0.85 0.90 0.95 20 40 60 80 100 high

Figura 18 – Gráficos de dispersão para longevidade versus tamanho do tórax segundo o tratamento em um

(39)

Gráficos de dispersão tridimensionais

• Visualizar a dispersão dos dados com relação a três variáveis, conjuntamente;

• O uso de funções com recursos interativos permite melhor visualização.

No R: Função scatterplot3d (pacote scatterplot3d), função scatter3d (pacote car). Ver também

pacotes lattice e rggobi.

(40)

50 100 150 200 250 300 350 1 0 1 5 2 0 2 5 3 0 3 5 1 2 3 4 5 6 Potência P e s o C o n s u m o

Figura 19 – Gráfico de dispersão tridimensional para o consumo, peso e potência de

(41)

Trabalho 2

Os alunos, divididos em duplas, deverão pesquisar uma base de dados (disponível no R, em algum outro software, em algum repositório online...) que contenha múltiplas variáveis (sendo ao menos duas delas quantitativas). Utilizando a base escolhida, deverão produzir um relatório (com seis a oito páginas, além da capa, conforme sugerido no trabalho 1), o qual deverá conter:

• A descrição da base e das variáveis contidas. Havendo informações sobre o estudo e seus objetivos, apresentá-las;

• A análise descritiva dos dados, utilizando gráficos para uma, duas ou múltiplas variáveis. Medidas resumo pertinentes também podem ser apresentadas.

Exemplo – Construa (passo a passo, sem utilizar funções específicas do R ou de outro software) um gráfico

(42)

Referências

Documentos relacionados

Demanda individual e renda Slide 11 Alimento (unidades por mês) Vestuário (unidades por mês) Um aumento na renda, mantidos os preços fixos,!. faz com

No entanto, maiores lucros com publicidade e um crescimento no uso da plataforma em smartphones e tablets não serão suficientes para o mercado se a maior rede social do mundo

devidamente assinadas, não sendo aceito, em hipótese alguma, inscrições após o Congresso Técnico; b) os atestados médicos dos alunos participantes; c) uma lista geral

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam

pontos que figuram na parte inferior. A Figura 2 mostra as micrografias do MEV da superfície das amostras. Com a sinterização as pastilhas das amostras que foram dopadas

incluindo Donald Trump, Vladimir Putin e Angela Merkel, irão em 11 de novembro a Paris para as comemorações do centenário do fim da Primeira Guerra Mundial. e) Todos os itens

É dividido em 4 partes: Parte 1: Considerações Iniciais – Trata dos objetivos e da motivação para proposta feita por este material; Parte 2: Água – É voltada para

O octossílabo de padrão agudo (francês) foi, pois, pratica- do, sobretudo, pelos poetas da escola parnasiana, ou seja, não se trata de um metro primitivo, como o é em francês, e sim