Correlação e Regressão Linear. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

(1)

Correlação e Regressão Linear

Prof. Marcos Vinicius Pó

(2)

(3)

Coeficiente de correlação linear “r”

• Mede o grau de relacionamento linear entre valores pareados x e y em uma amostra e também a proximidade dos dados a uma reta.

• É também chamado de coeficiente de Pearson.

• Varia de -1 a 1, sendo que zero significa não haver correlação.

]

)

(

)([

(

.

)

,

(

2 2 2 2

y

N

x

n

x

y

x

n

y

x

n

r

Y

X

corr

i i i

















(4)

Exemplos de correlações

(5)

(6)

Teste de r

• O coeficiente de correlação pode ser testado usando a estatística t de Student, que é calculado usando-se a seguinte fórmula:

• O valor crítico é verificado na tabela t de Student, com os graus de liberdade definidos por N-2

)

1

2

r

N

r

t





N = pares de escore X e Y

(7)

Correlação e causalidade

• Haver correlação entre duas variáveis não implica em causalidade. Pode haver correlações espúrias ou viés.

• Contudo, a correlação é uma pista significativa para ser investigada em busca de causalidade e sua direção.

• A ausência de correlação também não quer dizer não haver relação entre duas variáveis. Apenas uma análise do modelo pode apontar isso. Além disso, pode haver relações não-lineares entre as variáveis.

(8)

Consumo de

chocolate e

prêmios

Nobel

Correlation between Countries' Annual Per Capita Chocolate Consumption and the Number of Nobel Laureates per 10 Million

Population.

Fonte: “Chocolate Consumption, Cognitive Function, and Nobel Laureates”

Franz H. Messerli, M.D.

N Engl J Med 2012; 367:1562-1564October 18, 2012

http://www.nejm.org/doi/full/10.1056/NEJMon1 211064, acesso em 04/11/2012

(9)

(10)

Regressão linear simples

• Calcula médias condicionais da variável Y a partir de uma

variável X supostamente relacionada, estabelecendo um modelo para:

► Explicar o total ou parcialmente um fenômeno observado.

► Mensurar a relação entre duas variáveis.

► Permitir predições.

Modelo linear simples:

Y =

a

+

b

X +



Usaremos a notação Y = a + bx +  para os parâmetros calculados

Y: variável dependente (aquela que é explicada;)

X₁, X₂,..., X_n: variáveis explicativas (ou independentes)

(11)

Suposições do modelo de regressão linear

• Variáveis independentes.

• As variáveis X_n não podem ser combinações lineares entre si.

• O número de parâmetros a serem estimados é menor que o número de observações.

• Resíduos possuem variância constante e têm média zero.

• Os resíduos são independentes e mostram um comportamento normal.

• O relacionamento entre as variáveis pode ser razoavelmente representado por uma reta.

(12)

• Objetivos: estabelecer uma reta que:

► Minimize o total de erros (ε).

► Possua significância estatística.

► Possua bom fator explicativo (R2).

• Só é possível trabalhar o primeiro, os demais são avaliados.

• O ajuste da reta deve minimizar as distâncias entre os valores preditos pela reta e os valores observados.

(13)

Regressão linear

• Princípio: ajustar os parâmetros para

minimizar a soma dos erros quadrados entre as previsões e os valores amostrais. • Os parâmetros do nosso modelo são: Y = a + bX +  (equação da reta)

• Temos que determinar:

► a: intercepto ou valor fixo;

► b: inclinação da reta

y

_i

= a+bx

_i

+



_i Erros (ε_i) _i~N(0,²_) (erros independentes)

(14)

Aplicando ao modelo

A soma dos quadrados dos erros é:

Assumindo uma distribuição normal dos erros deduzimos que:

Os estimadores a e b possuem distribuição normal e intervalos de confiança com uma distribuição t, com n-2 graus de liberdade.







x

n

x

y

x

n

xy

b

2 2



_

_



    n i n i i

y

x

e

_i i SQ 1 1 2

)}

(

{

2 ) , (a b

a

b

x

b

y

a





Para mais informações consultar Bussab e Morettin: Estatística Básica, capítulo 15



     ) ( . . ) ; ( ₂ 2 ) 2 ( x x n x Se t a IC i n i    a



     ) ( . 1 . ) ; ( ( 2) ₂ x x n Se t b IC i n    b

(15)

Correlação x Regressão

Correlação linear

• Não determina causalidade, mas dá pistas.

• Pode ser testada estatisticamente.

• Identifica se duas variáveis se relacionam de forma linear.

• Não indica o quanto uma variável afeta a outra.

• Determina o quão mais próximo de uma reta é a relação entre as variáveis.

Regressão linear

• Não determina causalidade, mas dá pistas.

• Pode ser testada estatisticamente.

• Determina uma relação linear entre duas variáveis.

• Identifica o quanto uma variável afeta a outra.

• Traz elementos que permitem fazer predições.

• Necessita de uma análise dos resíduos para decidir sobre sua adequação.

(16)

Começando a analisar os dados

• Primeiro é necessário termos uma boa idéia do comportamento de nossos dados, de forma a avaliar se o modelo linear é

adequado.

• Isso é muito importante!

(17)

Por que a análise gráfica é importante?

Esses quatro conjuntos de dados possuem as mesmas propriedades estatísticas, ... 1 2 3 4 x y x y x y x y 10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58 8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76 13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71 9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84 11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47 14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04 6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25 4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50 12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56 7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91 5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89 Propriedade Valor Média de x 9,00 Variância de x 10,00 Média de y 7,50 Variância de y 3,75 Correlação 0,898 Regressão linear y = 2,50 + 0,500x

Esses dados compõe o chamado Quarteto de Anscombe

(18)

Quarteto de Anscombe

(19)

Julgando o modelo: ANOVA para regressão

Fonte de variação Soma dos Quadrados (SQ) Graus de Liberdade Quadrados das Médias (QM) F_obs Regressão gl_N = p – 1 Resíduo gl_D = n – p Total gl_T = n – 1 n: número de amostras p: número de parâmetros estimados se g QM 2 Re N gl g SQ g QM Re  Re D gl s SQ

s

e Re 2  2 1 ) ˆ ( Re _i n t i y y s SQ 



           n t n t x x b y y i i g SQ 1 2 2 1 2 ) ( ) ˆ ( Re 2 1 ) (y y SQTot n t i  



 R2_{: mede a variabilidade} de Y explicada pelo modelo.

SQTot

g

SQ

R

2



Re

(20)

• A Regressão permite fazer predições.

► Interpolação: em geral é bastante confiável.

► Extrapolação: deve-se tomar cuidado para garantir que a

linearidade entre as variáveis permaneça válido além da região de observação.

• Já o modelo II permite categorizar as observações e

simplificar as predições, mas apenas dentro do intervalo já observado

• Seria possível combinar os dois modelos?

(21)

Variáveis dummy

• Algumas vezes queremos incluir na regressão variáveis categóricas,

tais como região, gênero, origem, etc. Isso pode ser interessante para:

► Aumentar o poder explicativo do modelo

► Controlar a influência ou viés de determinadas estimativas

• Para modelar as variáveis qualitativas, são utilizadas variáveis binárias,

chamadas dummies, que assumem o valor 0 (zero) e 1 (um).

• A variável dummy (δ) pode influenciar de três maneiras:

► Constante (patamar): Yt = (a  δD)  bXt  t

► Inclinação: Yt = a + (b + δ)Xt + t

► Constante e na inclinação: Yt = (a  δ₁D) + (b + δ₂D)Xt + t

• É necessário processar o modelo com e sem a variável dummy para

(22)

• Tão importante quanto verificar se os dados servem ao modelo de regressão e estabelecer os parâmetros, é fazer a análise de resíduos com o objetivo de verificar se:

► O modelo se ajusta bem

► As suposições não foram violadas

o Homocedasticidade

o Independência

o Comportamento normal

• Aconselha-se a fazer uma análise gráfica dos resíduos.

(23)

Plotagem dos resíduos

Quais dessas plotagens mostram normalidade dos resíduos? Quais os problemas das outras?

Mor et ti n, 20 02 :45 6

(24)

Transformação de variáveis: linearização

Considere os dados abaixo e os gráficos abaixo.

Você teria alguma restrição em adotar o modelo linear nesse caso? Se transformarmos a variável inflação por meio de logaritmo (Log), poderíamos adotar o modelo linear?

0 500 1000 1500 2000 2500 3000 1967 1969 1971 1973 1975 1977 1979 1981 Inflação Ano 1967 1969 1971 1973 1975 1977 1979 Inflação 128 192 277 373 613 1236 2639 2 2,2 2,4 2,6 2,8 3 3,2 3,4 3,6 1966 1968 1970 1972 1974 1976 1978 1980 Log(inflação)

(25)

Voltando ao nosso exemplo

Deseja-se avaliar explicações

para o tempo de reação das

pessoas a determinado

estímulo visual.

Variável dependente: Tempo de reação = Y

Variáveis Independentes: Gênero; Idade; Acuidade Visual (podem explicar o fenômeno) = X₁, X₂, ... Indivíduo Tempo de reação (ms) Gênero (M/F) Idade (anos) Acuidade Visual (%) i y w x z 1 96 M 20 90 2 92 F 20 100 3 106 M 20 80 4 100 F 20 90 5 98 F 25 100 6 104 M 25 90 7 110 M 25 80 8 101 F 25 90 9 116 F 30 70 10 106 M 30 90 11 109 M 30 90 12 100 F 30 80 13 112 F 35 90 14 105 F 35 80 15 118 M 35 70 16 108 M 35 90 17 113 F 40 90 18 112 F 40 90 19 127 M 40 60 20 117 M 40 80

(26)

No nosso exemplo (tempo de reação)

• Calcular as correlações

• O que esses números significam?



Tempo de reação x Idade

0,768



Tempo de reação x Acuidade visual

-0,755

(27)

Avaliando os dados

Já testamos e descartamos Gênero;

Traçar diagramas de dispersão para Idade e para Acuidade Visual

0 20 40 60 80 100 120 140 0 10 20 30 40 50 Idade 0 20 40 60 80 100 120 140 0 20 40 60 80 100 120 Acuidade visual

(28)

Exemplo

• Determinar os parâmetros a e b para Tempo de reação x Acuidade

• Colocar na equação e interpretar

(29)

Comparação entre modelo II e modelo III

• Qual é o melhor?

► Estatisticamente, ambos possuem um p-valor significativo.

► Na diminuição da variabilidade (R2), ambos estão próximos.

► Como escolher?

o Utilização

o Facilidade, conveniência

Modelo II

Médias por faixa etária

Modelo III

Regressão com acuidade visual

p-valor 0,61% <0,01%

(30)

Exemplo

• As suposições foram violadas?

► Homocedasticidade:

► Independência

(31)

Etapas de análise de regressão linear

1. Exploração dos dados

a. Gráficos de dispersão

b. Mapa de correlações

2. Determinação da regressão linear

a. Verificação da significância (p-valor)

b. Verificar o grau de explicação (R2₎

c. Determinação dos coeficientes da reta de regressão (“a” e “b”)

d. Julgamento se o modelo é interessante e pertinente

3. Avaliação de atendimento dos pressupostos da correlação

(32)

Atividade com banco de dados

• Health expenditure

► Total expenditure on health, % of gross domestic product ► Total health expenditure per capita, US$ PPP

► Public health expenditure per capita, US$ PPP ► Pharmaceutical expenditure per capita, US$ PPP

• Health care resources

► Physicians, density per 1 000 population ► Nurses, density per 1 000 population

► Hospital beds, density per 1 000 population

• Health care activities

► Doctor consultations per capita

► Hospital discharge rates, all causes, per 100 000 population ► Average length of stay for a normal delivery, days

► Caesarean sections, per 1 000 live births

• Health status (Mortality)

► Life expectancy at birth, total population

► Infant mortality rate, deaths per 1 000 live births

• Risk factors

► Tobacco consumption, % of adult population who are daily smokers ► Alcohol consumption, litres per population aged 15+

► Obesity, percentage of total adult population with a BMI>30 kg/m2, based on self-reports

(33)

(34)

T ot al ex pe ndi tur e on he al th, % of gr os s dom es ti c pr oduct T ot al he al th ex pe ndi tur e pe r ca pi ta , U S$ P P P P ubl ic he al th ex pe ndi tur e pe r ca pi ta , U S$ P P P P ha rm aceut ica l ex pe ndi tur e pe r ca pi ta , U S$ P P P P hy si ci ans , de ns it y pe r 1 0 0 0 popu la ti on N ur ses , de ns it y pe r 1 0 0 0 popu la ti on H os pi ta l be ds , de ns it y pe r 1 0 0 0 popu la ti on D oct or consu lt at ions pe r ca pi ta H os pi ta l di scha rge r at es , al l ca us es , pe r 1 0 0 0 0 0 popu la ti on C aes ar ea n sect ions , pe r 1 0 0 0 li ve bi rt hs Li fe ex pe ct ancy a t bi rt h, t ot al popu la ti on Inf ant m or ta lit y ra te, de at hs pe r 1 0 0 0 li ve bi rt hs T oba cc o consu m pt ion, % of adul t popu la ti on w ho ar e da ily sm ok er Al cohol consu m pt ion, li tr es pe r popu la ti on age d 1 5 + O be si ty , pe rcent age of t ot al a dul t popu la ti on w it h a B M I>3 0 k g/ m 2 , ba sed on sel f-rep or ts

Total expenditure on health, % of gross

domestic product 1 ,868** ,702** ,709** 0,246 ,421* -0,038 -0,234 0,032 -0,137 ,413* -0,244 -0,249 0,194 0,279 Total health expenditure per capita, US$

PPP ,868** 1 ,919** ,608** 0,26 ,697** -0,044 -0,256 0,072 -0,206 ,521** -0,335 -,356* 0,234 0,149

Public health expenditure per capita, US$

PPP ,702** ,919** 1 ,400* 0,316 ,804** 0,012 -0,211 0,129 -,367* ,595** -,458** -,348* 0,293 -0,04

Pharmaceutical expenditure per capita,

US$ PPP ,709** ,608** ,400* 1 0,26 0,235 0,199 0,158 0,056 0,092 0,288 -0,245 -0,089 0,044 ,451* Physicians, density per 1 000 population 0,246 0,26 0,316 0,26 1 0,176 0,045 -0,129 ,482** -0,352 0,332 -,477** 0,177 0,174 -0,02 Nurses, density per 1 000 population ,421* ,697** ,804** 0,235 0,176 1 0,121 -0,134 0,175 -,406* ,465** -,490** -,406* ,362* 0,01

Hospital beds, density per 1 000

population -0,038 -0,044 0,012 0,199 0,045 0,121 1 ,779** ,444** -0,097 0,08 -,402* 0,118 0,274 -0,223 Doctor consultations per capita -0,234 -0,256 -0,211 0,158 -0,129 -0,134 ,779** 1 0,301 0,131 -0,163 -0,214 0,177 0,105 -0,165

Hospital discharge rates, all causes, per

100 000 population 0,032 0,072 0,129 0,056 ,482** 0,175 ,444** 0,301 1 -0,203 -0,119 -,374* 0,237 0,338 -0,118 Caesarean sections, per 1 000 live births -0,137 -0,206 -,367* 0,092 -0,352 -,406* -0,097 0,131 -0,203 1 -0,353 ,655** 0,085 -0,131 -0,018 Life expectancy at birth, total population ,413* ,521** ,595** 0,288 0,332 ,465** 0,08 -0,163 -0,119 -0,353 1 -,591** -0,192 0,064 -0,3 Infant mortality rate, deaths per 1 000 live

births -0,244 -0,335 -,458** -0,245 -,477** -,490** -,402* -0,214 -,374* ,655** -,591** 1 -0,032 -,392* 0,2 Tobacco consumption, % of

adult population who are daily smoker -0,249 -,356* -,348* -0,089 0,177 -,406* 0,118 0,177 0,237 0,085 -0,192 -0,032 1 0,173 -0,215 Alcohol consumption, litres per population

aged 15+ 0,194 0,234 0,293 0,044 0,174 ,362* 0,274 0,105 0,338 -0,131 0,064 -,392* 0,173 1 -0,01 Obesity, percentage of total adult

population with a BMI>30 kg/m2, based on self-reports