Análise Exploratória de Dados

(1)

Análise Exploratória de

Dados

(2)

Objetivos

►Análise de duas variáveis quantitativas:

►traçar diagramas de dispersão, para avaliar

possíveis relações entre as duas variáveis;

►calcular o coeficiente de correlação entre as

duas variáveis;

►obter uma reta que se ajuste aos dados

(3)

DIAGRAMAS DE DISPERSÃO E CORRELAÇÃO

►DADOS: Começaremos a aula de hoje

trabalhando com dados referentes à porcentagem da população

economicamente ativa empregada no setor primário e o respectivo índice de

analfabetismo para algumas regiões

metropolitanas brasileiras (exercício 11 do capítulo 4).

(4)

DADOS:

REGIÃO SET. PRIM. IND_ANALF.

SÃO PAULO 2.0 17.5 RIO DE JANEIRO 2.5 18.5 BELÉM 2.9 19.5 BELO HORIZONTE 3.3 22.2 SALVADOR 4.1 26.5 PORTO ALEGRE 4.3 16.6 RECIFE 7.0 36.6 FORTALEZA 13.0 38.4

Fonte: Indicadores Sociais para Áreas Urbanas - IBGE - 1977.

(5)

PROBLEMA

►Será que existe alguma relação entre as

variáveis porcentagem da população

economicamente ativa no setor primário e índice de analfabetismo?

►Em caso afirmativo, como quantificar esta

(6)

Diagrama de dispersão

► Vejamos como obter o diagrama de dispersão

destes dados usando o R.

► Primeiro, vamos ler os dados:

►

dados=

read.table("http://www.dme.ufrj.br/marina/analfab.txt”)

►

names(dados)=c(“RM”,”SP”,”AN”)

(7)

DIAGRAMA DE DISPERSÃO

► plot(dados$SP, dados$AN, xlab="Porc. da PEA

no Setor Primario", ylab="Indice de Analfabetismo", main= "Diagrama de Dispersao”,col=“blue”)

(8)

Análise dos dados

► Você diria que há dependência linear entre

estas variáveis?

► Calcule a correlação entre elas. ► cor(dados$SP,dados$AN) ► 0.866561 (0.867) yy xx xy n i i i i n i i i i n i n i i n i i i i n i i n i i n i i i S S S n y y n x x y x n y x y y n x x n y y x x n r                                                     1 2 2 1 2 2 1 1 1 1 2 1 2 1 ) ( ) ( 1 ) ( 1 ) ( 1 ) )( ( 1

(9)

CORRELAÇÃO

► Há alguma região com comportamento diferente das

demais?

► Em caso afirmativo, retire-a da base de dados e recalcule

a correlação. 12 7 2 40 30 20 SET_PRIM ID _ A N A L F dados

(10)

(11)

Porto Alegre

► Retirando os dados da região metropolitana de Porto

Alegre temos a seguinte correlação: (observe que Porto Alegre está na linha 6 da base de dados).

► dad=matrix(0,7,2)

► dad[,1]=c(dados[1:5,2],dados[7:8,2]) ► dad[,2]=c(dados[1:5,3],dados[7:8,3]) ► cor(dad[,1],dad[,2])

► 0.9081915 (0.908)

► porcentagem de variação em relação à

(12)

A porcentagem de variação foi calculada da seguinte forma:

r

_i





( )

100

r é a correlação calculada com base em todas as observações

r(i) é a correlação calculada retirando-se a i-ésima observação.

(13)

(14)

Fortaleza

►

dad[,1]=c(dados[1:7,2])

►

dad[,2]=c(dados[1:7,3])

►

cor(dad[,1],dad[,2])

►

0.8581972 (0.858)

correlação inicial: 0,96% (em valor absoluto)

(15)

(16)

Recife

►

dad[,2]=c(dados[1:6,3],dados[8,3])

►

dad[,1]=c(dados[1:6,2],dados[8,2])

►

cor(dad[,1],dad[,2])

►

0.9158657 (0.916)

(17)

(18)

Salvador

►

dad[,1]=c(dados[1:4,2],dados[6:8,2])

►

dad[,2]=c(dados[1:4,3],dados[6:8,3])

►

cor(dad[,1],dad[,2])

►

0.8822678 (0.882)

(19)

Resumo

RM retirada variação % Porto Alegre 4,8 Fortaleza 0,96 Salvador 1,8 Recife 5,7

(20)

(21)

Comentários

► As regiões metropolitanas que mais

influenciaram no valor da correlação foram Porto Alegre e Recife.

►Porto Alegre tem um comportamento

diferente, pois sua taxa de analfabetismo é pequena comparada a sua PEA e as demais regiões.

(22)

Comentários

►Recife, ao contrário, tem uma taxa de

analfabetismo alta demais comparada a sua PEA e as demais regiões.

►Fortaleza, apesar de ser um ponto afastado

dos demais, mantém o padrão da maior parte dos pontos.

(23)

(24)

(25)

(26)

Cuidados na interpretação

► Uma correlação alta (próxima de 1 ou -1) pode

indicar forte dependência linear entre as variáveis. Nesse caso, os pontos no diagrama de dispersão espalham-se em torno de uma reta.

► Pode haver variáveis cuja correlação é próxima de

1 (ou -1), mas, na verdade, não são diretamente relacionadas. (correlação espúria)

► Uma correlação zero ou próxima de zero indica

ausência de linearidade, podendo significar

ausência de relação entre as variáveis ou outro tipo de dependência entre elas.

(27)

Exemplo 2

► dados= read.table("http://www.dme.ufrj.br/marina/relquadratica.txt", header=T)

► cor(dados$x,dados$y)

► 0

Observe que existe

relação de dependência entre x e y, porém essa. relação NÃO é linear.

(28)

Correlação: Cuidados na

interpretação

►Uma correlação amostral entre duas

variáveis próxima de 1 ou -1 pode só

indicar que as variáveis crescem no mesmo sentido (ou em sentidos contrários), e não que, aumentos sucessivos em uma,

acarretarão aumentos sucessivos (ou diminuições sucessivas) na outra.

(29)

Reta de mínimos quadrados

► Quando as variáveis em análise são altamente

correlacionadas e de fato pode haver uma relação de causa e efeito entre elas, o problema de fazer previsão do valor de uma delas dado o valor da outra variável pode ser resolvido através de uma regressão linear simples (ajuste pela reta de mínimos quadrados).

► Em geral, uma das variáveis é considerada como variável

que pode ser controlada de alguma forma variável

explicativa (independente - preditora) e a outra, sobre a

qual deseja-se fazer previsões, é chamada variável

(30)

EXEMPLO 3:

►Fonte: http://lib.stat.cmu.edu/DASL/

►Trabalharemos com uma base de dados

sobre o hábito de fumar e mortalidade por câncer de pulmão.

(31)

Exemplo 3 (cont.)

►Descrição: Os dados sumariam um estudo

entre homens distribuídos em 25 grupos classificados por tipo de ocupação na

Inglaterra.

►Dois índices são apresentados para cada

(32)

Exemplo 3: variáveis

► índice de fumo: razão do número médio de cigarros

fumados por dia por homem no particular grupo de

ocupação sobre a média global de cigarros fumados por dia, calculada levando-se em contas todos os homens. (média do grupo sobre média global)

► índice de mortalidade: razão da taxa de mortes causadas

por câncer de pulmão entre os homens de um particular grupo de ocupação sobre a taxa global de mortes por

câncer de pulmão, calculada levando-se em conta todos os homens. (taxa no grupo sobre taxa global)

(33)

Fumo versus câncer

►Nomes das variáveis:

►1. Grupo de ocupação: grupo

►2. Índice de fumo: ifumo (100 = base)

► ifumo=100: número médio de cigarros por dia

para o grupo é igual ao número médio global de cigarros fumados por dia.

► ifumo>100 indica grupo que fuma em média mais

que o geral;

► ifumo<100, grupo que fuma em média menos que

(34)

Fumo versus câncer

►3. Índice de Mortalidade: imorte (100 =

base)

► imorte=100, número médio de mortes por câncer

de pulmão para o grupo é igual ao número médio global de mortes por câncer de pulmão.

► imorte>100 indica grupo com incidência de mortes

por câncer de pulmão maior que o geral;

► imorte<100, incidência menor que o geral.

►arquivo: fumo.txt em

(35)

Fumo versus câncer

►Analise estes dados avaliando se há relação

entre estes índices.

►Construa o diagrama de dispersão e calcule

(36)

(37)

abline

Para inserir as retas tracejadas em x=100 e em y=100 após ter construído o diagrama,

use os comandos:

abline(h=100,lty=2) abline(v=100,lty=2)

(38)

Indice de fumo versus mortalidade por câncer de pulmão

A partir do diagrama de dispersão é possível perceber claramente uma correlação positiva entre as duas variáveis em análise.

cor(dados$ifumo,dados$imorte)

[1] 0.7162398

No contexto deste exemplo faz sentido prever o índice de mortalidade por câncer de pulmão num particular grupo, dado o índice de fumo do grupo.

(39)

Reta de mínimos quadrados

►O comando no

R

que calcula os coeficientes

da reta de mínimos quadrados é

lm(...)

, de

linear model.

►No caso específico deste exemplo podemos

pedir

(40)

Reta de mínimos quadrados

►Obtém-se

Coefficients:

(Intercept) dados$ifumo -2.885 1.088

É o coeficiente linear da reta de mínimos quadrados

É o coeficiente angular da reta de mínimos quadrados

Modelo ajustado:

(41)

Gráfico da reta obtida

Para inserir o gráfico da reta obtida no ajuste de mínimos quadrados no

diagrama de dispersão dos pontos, basta, após obter o diagrama de dispersão, pedir abline(reta$coefficients)

(42)

points

Para inserir o ponto médio no gráfico use o comando:

(43)

Comentários

►Depois de proposto um modelo é

fundamental realizar a etapa de validação do modelo em que boa parte consiste numa análise exploratória detalhada dos resíduos do modelo.

►Apenas após a etapa de validação e a

escolha do modelo é que podemos partir para a etapa de previsões.

(44)

Valores ajustados

►Após ajustar a reta, usando a função

lm

várias informações ficam disponíveis, entre elas os valores ajustados da variável

resposta pela reta obtida.

► reta$fitted

(45)

Resíduos

Resíduos da reta de mínimos quadrados:

reta$residuals

round(reta$residuals,digits=2) 1 2 3 4 5 6 7 8 9 10 11 3.15 -30.11 -1.36 28.66 31.73 -7.04 0.17 14.74 11.18 -20.04 7.92 12 13 14 15 16 17 18 19 20 21 22 18.78 -27.48 -22.92 23.99 22.26 -20.06 4.24 5.82 3.69 -12.73 -11.08 23 24 25 14.13 -19.77 -17.89

O resíduo do modelo é definido pela diferença entre O valor observado da variável resposta e o valo

(46)

(47)

Análise dos resíduos

> stem(round(reta$residuals,digits=2)) -2 | 073000 -0 | 83171 0 | 0344681459 2 | 2492

Ramo-e-folhas dos resíduos:

Também avaliamos o histograma, e o gráfico dos resíduos versus os valores ajustados.

(48)

Valores ajustados

Valores ajustados da reta de mínimos quadrados: reta$fitted

round(reta$fitted,digits=2)

80.85 146.11 124.36 99.34 123.27 108.04 117.83 98.26 92.82 108.04 96.08 110.22 113.48 118.92 120.01 116.74

(49)

Critério de mínimos quadrados

►Como são obtidos os coeficientes da reta de

mínimos quadrados?

Nossos dados podem ser pensados como uma coleção bivariada: ) , ( ),..., , ( ), , (x₁ y₁ x₂ y₂ x_n y_n

Foi considerado adequado o modelo   x

(50)

Critério de mínimos quadrados

► Critério de Mínimos quadrados: escolha  e  de tal maneira que seja minimizada a soma de quadrados dos resíduos:

2 1 1 2

)

(

_i n i i n i i

y

x

r















 

(51)

Critério de mínimos quadrados

►Solução: xx xy n i i n i i i S S x x x x y y b     



  2 1 1 ) ( ) )( (

x

b

y

a





Coeficiente de inclinação da reta

(52)

Resumo: lista de novas funções

►

cor:

calcula a correlação;

►

lm:

ajusta a reta de mínimos quadrados; ►

abline:

insere uma reta num

plot

;

►

points:

insere pontos(x,y) num

plot

;

►

round(x,digits=n);

arredonda os valores em

x

para

n

casas decimais.