• Nenhum resultado encontrado

Correlação. Ivan Bezerra Allaman

N/A
N/A
Protected

Academic year: 2021

Share "Correlação. Ivan Bezerra Allaman"

Copied!
6
0
0

Texto

(1)

Correlação

Ivan Bezerra Allaman

Introdução

• Vamos supor que um inspetor de segurança queira determinar se existe uma relação entre o número de horas de treinamento de um empregado e o número de acidentes envolvendo aquele empregado. • Ou ainda, que um psicólogo esteja interessado em saber se existe uma relação entre o número de horas

que uma pessoa dorme por noite e o tempo de reação desta pessoa. • Como então determinar se estas relações existem?

• Neste assunto iremos abordar a técnica de correlação, que neste caso é utilizada para determinar a relação linear entre duas variáveis quantitativas e também se esta relação é significativa.

• Existem outras medidas de associação que não serão abordadas.

Coeficiente de correlação (Pearson)

• O coeficiente de correlação amostral r foi introduzido por Karl Pearson para avaliar a associação entre duas variáveis quantitativas.

• Na população, o parâmetro da correlação é representado pela letra grega rho (ρ).

• Quando Pearson propôs o coeficiente de correlação, já existia uma medida de associação chamada de covariância.

• A covariância é uma medida cujo domínio varia de −∞ à +∞ e é dependente da unidade de medida, sendo difícil avaliar a força de associação entre duas variáveis numericamente.

• Vamos supor duas variáveis x e y. x <- c(6,5,9,10,3,4,8,7,6,2) y <- c(7,6,10,9,2,3,9,5,6,3) plot(x,y) 2 4 6 8 10 2 4 6 8 10 x y

(2)

• No entanto, o quão forte é esta relação?

• Utilizando a covariância (funçãocov do R) para ter uma medida numérica desta relação, obteremos o seguinte resultado (a expressão matemática fica como tarefa de casa!):

cov(x,y)

## [1] 6.556

• Podemos notar que a relação é positiva e graficamente já era de se esperar isto.

• No entanto, 6, 56 é um valor que expressa fortemente a relação entre as variáveis em quais intervalos? 0 a 10? 0 a 100? 0 a 1000?

• A dúvida então permanece!

• Vamos agora mudar a unidade de medida da variável y e verificar se o valor permanece o mesmo da covariância. y1 <- y * 100 y2 <- y/100 cov(x,y1) ## [1] 655.6 cov(x,y2) ## [1] 0.06556

• O exemplo acima mostra claramente a dependência da medida covariância da unidade de mensuração. • Ou seja, não conseguimos expressar numericamente por meio da covariância o quão forte estão

rela-cionadas as variáveis.

• O coeficiente de correlação de Pearson contorna os inconvenientes mencionados acima, sendo o cálculo efetuado da seguinte maneira:

rxy=

covxy

sxsy

• Utilizando os mesmos exemplos, veremos como se comporta o coeficiente de correlação. • A função do R é acor.

cor(x,y)

## [1] 0.9104

cor(x,y1)

(3)

cor(x,y2)

## [1] 0.9104

Tipos de relação entre variáveis

• Os valores do coeficiente de correlação se situam entre os intervalos −1 e +1, sendo que 1 representa uma relação perfeita e 0 ausência de relação entre as variáveis.

• O sinal negativo indica uma relação contrária e positivo uma relação favorável entre as variáveis.

−2 −1 0 1 2

−6

0

4

Relação linear positiva

x y −2 −1 0 1 2 −4 2 6

Relação linear negativa

x z −2 −1 0 1 2 −2 0 2

Ausência de relação

x u −2 −1 0 1 2 0 10

Relação não−linear

x r

O r não quantifica esta relação

Exemplo

1. Um estudo do departamento de transportes sobre a velocidade ao volante e a milhagem de automóveis de tamanho médio resultou nos seguintes dados:

Velocidade ao Volante 30 50 40 55 30 25 60 25 50 55 Milhagem 28 25 25 23 30 32 21 35 26 25

• O primeiro passo é verificarmos o tipo de relação existentes entre as variáveis, ou seja, se é linear ou de outra natureza.

(4)

velocidade <- c(30,50,40,55,30,25,60,25,50,55) milhagem <- c(28,25,25,23,30,32,21,35,26,25) plot(velocidade,milhagem)

25

30

35

40

45

50

55

60

22

24

26

28

30

32

34

velocidade

milhagem

• Percebe-se que a relação é linear, logo, podemos utilizar o coeficiente de correlação de Pearson.

cor(velocidade,milhagem)

## [1] -0.9104

• Portanto, podemos concluir que a relação entre as variáveis é fortemente negativa (contrária), ou seja, a medida que aumentamos a velocidade ao volante a milhagem diminui.

Teste de hipótese para ρ = 0

• Uma vez que estamos interessados em saber a correlação entre as variáveis na população, e para isso, utilizamos um coeficiente amostral, devemos nos perguntar se aquele valor retornado pelo coeficiente de correlação de Pearson ocorreu por mero acaso ou se com uma determinada probabilidade esperaríamos aquela associação.

• Logo, é pertinente testarmos se o coeficiente de correlação é igual a zero ou diferente, maior ou menor que zero.

• No entanto, para realizarmos inferências sobre o coeficiente de correlação de Pearson, precisamos supor que a distribuição dos dados é normal bivariada.

(5)

• Logo, tem-se a seguinte estatística de teste: t = rn − 21 − r2

• Em que t é a distribuição t de Student com n − 2 graus de liberdade.

Exemplo

1. Considerando o exemplo anterior, vamos testar a hipótese de que ρ 6= 0. r = cor(velocidade,milhagem) # coeficiente de correlação

n = length(velocidade) # tamanho da amostra

t_calc = (r*sqrt(n - 2))/sqrt(1-r^2) # estatística de teste t_calc

## [1] -6.223

pvalor = pt(t_calc, n-2) * 2

pvalor

## [1] 0.0002531

# Utilizando uma função do R cor.test(velocidade,milhagem)

##

## Pearson's product-moment correlation ##

## data: velocidade and milhagem

## t = -6.223, df = 8, p-value = 0.0002531

## alternative hypothesis: true correlation is not equal to 0 ## 95 percent confidence interval:

## -0.9789 -0.6578 ## sample estimates: ## cor

(6)

Aplicação

1. A Média Industrial Dow Jones (DJIA) e o Standard & Poor’s 500 (S&P500) são ambos utilizados como medidas do movimento global no mercado financeiro. A DJIA baseia-se no movimento de preços de 30 grandes empresas; o S&P500 é um índice composto de 500 títulos financeiros. Alguns dizem que o S&P500 é uma medida melhor do desempenho do mercado financeiro porque ele tem uma base mais ampla. Os preços de fechamento da DJIA e do S&P500 correspondentes a dez semanas, com início em 11 de fevereiro de 2000, são mostrados a seguir:

Data DJIA S&P500 11 de fevereiro 10425 1387 18 de fevereiro 10220 1346 25 de fevereiro 9862 1333 3 de março 10367 1409 10 de março 9929 1395 17 de março 10595 1464 24 de março 11113 1527 31 de março 10922 1499 7 de abril 11111 1516 14 de abril 10306 1357 —————– ——– ——–

Referências

Documentos relacionados

O parâmetro de performance S&amp;P 500 ® utilizado no fundo está representado em dólares (US$) '®O Índice S&amp;P 500® é um produto da S&amp;P Dow Jones Índices LLC

View and Download Hitachi RASM-3VNE instruction manual online.. RASM-3VNE Air Conditioner pdf

Dissertação (Mestrado em Educação) – Setor de Educação da Universidade Federal do Paraná. Programa Nacional do Livro Didático

[r]

Ferris, Jagannathan, e Pritchard, (2003) não encontram uma relação significativa entre a relação do valor de mercado e o número médio de cadeiras no conselho de administração, fich

[r]

With such purpose the evolution of ten important stock market indices DAX, Dow Jones, NASDAQ, Nikkei, NYSE, S&amp;P500, SSEC, HSI, TWII, and BSE over time is studied.. An

Baseando- se nos apontamentos de Isidoro de Sevilha, o autor afirma que o fato do soberano ter sido designado por Deus para cumprir o plano divino de salvação humana, não significa