• Nenhum resultado encontrado

Correlação e Regressão Linear. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

N/A
N/A
Protected

Academic year: 2021

Share "Correlação e Regressão Linear. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais"

Copied!
38
0
0

Texto

(1)

Correlação e Regressão Linear

Prof. Marcos Vinicius Pó

(2)
(3)

Coeficiente de correlação linear “r”

Mede o grau de relacionamento linear entre valores pareados x e

y em uma amostra e também a proximidade dos dados a uma reta.

É também chamado de coeficiente de Pearson.

Varia de -1 a 1, sendo que zero significa não haver correlação.

]

)

(

)([

(

.

.

.

)

,

(

2 2 2 2

n

x

N

y

y

x

y

x

n

y

x

n

r

Y

X

corr

i i i

(4)

Exemplos de correlações

(5)

Teste de r

O coeficiente de correlação pode ser testado usando-se a

estatística t de student, que é calculado usando-se a seguinte fórmula (N = número de pares de escore X e Y)

O valor crítico é verificado na tabela t de Student, com os graus

de liberdade definidos por N-2

)

1

2

2

r

N

r

t

(6)

Correlação e causalidade

Haver correlação entre duas variáveis não implica em que uma

cause o efeito na outra.

► Pode haver correlações espúrias ou viés.

Contudo, a correlação é uma pista significativa para ser

investigada em busca de causalidade e sua direção.

A ausência de correlação não quer dizer não haver causalidade.

Apenas uma análise do modelo e das variáveis incluídas e excluídas pode apontar isso.

► Além disso, pode haver relações não-lineares entre as variáveis.

(7)
(8)

Consumo de

chocolate e

prêmios

Nobel

Correlation between Countries' Annual Per Capita Chocolate Consumption and the Number of Nobel Laureates per 10 Million

Population.

Fonte: “Chocolate Consumption, Cognitive Function, and Nobel Laureates”

Franz H. Messerli, M.D.

N Engl J Med 2012; 367:1562-1564October 18, 2012

http://www.nejm.org/doi/full/10.1056/NEJMon1 211064, acesso em 04/11/2012

(9)
(10)

Regressão linear

A regressão linear calcula médias condicionais de uma variável Y a partir de dados sobre uma variável X supostamente relacionada, estabelecendo um modelo para:

► Explicar o total ou parcialmente um fenômeno observado. ► Mensurar a relação entre duas variáveis.

► Permitir predições.

Formato: Y = α + β1X1 + β2X2 + ... + 

► Y: variável dependente (aquela que é explicada;) ► X

1, X2,..., Xn: variáveis explicativas (ou independentes) ► : erro, parte não explicada pelo modelo

Modelo linear simples:

Y = a + bX + 

(11)

Suposições do modelo de regressão linear

Variáveis independentes.

As variáveis Xn não podem ser combinações lineares entre si.

O número de parâmetros a serem estimados é menor que o

número de observações.

Resíduos possuem variância constante e têm média zero.

Os resíduos são independentes e mostram um comportamento

normal.

O relacionamento entre as variáveis pode ser razoavelmente

(12)

Objetivos: estabelecer uma reta que:

► Minimize o total de erros (ε). ► Possua significância estatística. ► Possua bom fator explicativo (R2).

Só é possível trabalhar o primeiro, os demais são avaliados.

O ajuste da reta deve minimizar as distâncias entre os valores

preditos pela reta e os valores observados.

Estimação dos parâmetros

(13)

Regressão linear

Princípio: ajustar os parâmetros para

minimizar a soma dos erros quadrados entre as previsões e os valores amostrais. • Os parâmetros do nosso modelo são: Y = a + bX +  (equação da reta)

Temos que determinar:

► a: intercepto ou valor fixo; ► b: inclinação da reta

y

i

= a+bx

i

+

i Erros i)i~N(0,²) (erros independentes)

(14)

Aplicando ao modelo

A soma dos quadrados dos erros é:

Assumindo que a distribuição dos erros é normal e derivando essa equação, podemos deduzir que:

Para mais informações consultar Bussab e Morettin: Estatística Básica, capítulo 15

x

n

x

y

x

n

xy

b

2 2

    n i n i

e

i

y

i

x

i SQ 1 1 2

)}

(

{

2 ) , (a b

a

b

x

b

y

a

(15)

Intervalos de confiança para as estimativas

Os estimadores a e b possuem distribuição normal e intervalos de confiança com uma distribuição t, com n-2 graus de liberdade

 

)

(

.

.

)

;

(

2 2 ) 2 (

x

x

n

x

Se

t

a

IC

i n i  

a

 

)

(

.

1

.

)

;

(

( 2) 2

x

x

n

Se

t

b

IC

i n  

b

(16)

Correlação x Regressão

Correlação linear

Não determina causalidade,

mas dá pistas.

Pode ser testada

estatisticamente.

Identifica se duas variáveis se

relacionam de forma linear.

Não indica o quanto uma

variável pode estar influenciando a outra.

Determina o quão mais

próximo de uma reta é a relação entre as variáveis.

Regressão linear

Não determina causalidade,

mas dá pistas.

Pode ser testada

estatisticamente.

Determina uma relação linear

entre duas variáveis.

Identifica o quanto uma

variável afeta a outra.

Traz elementos que permitem

fazer predições.

Necessita de uma análise dos

resíduos para decidir sobre sua adequação.

(17)

Começando a analisar os dados

Primeiro é necessário termos uma boa idéia do comportamento

de nossos dados, de forma a avaliar se o modelo linear é adequado.

Isso é muito importante!

(18)

Por que os gráficos são importantes?

Esses quatro conjuntos de dados possuem as mesmas propriedades estatísticas, ... i ii iii iv x y x y x y x y 10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58 8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76 13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71 9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84 11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47 14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04 6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25 4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50 12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56 7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91 5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89 Propriedade Valor Média de x 9,00 Variância de x 10,00 Média de y 7,50 Variância de y 3,75 Correlação 0,898

Regressão linear y = 2,50 + 0,500x

Esses dados compõe o chamado Quarteto de Anscombe

(19)

Quarteto de Anscombe

(20)

Julgando a qualidade do modelo

Estratégia: comparar variância com o modelo mais simples

Montar tabela ANOVA

Variância do modelo simples

Variância da regressão 2 1

)

(

y

y

SQTot

n t i

 2 1

)

ˆ

(

Re

n i t i

y

y

s

SQ

(21)

Tabela ANOVA para regressão

Fonte de

variação Quadrados (SQ)Soma dos LiberdadeGraus de

Quadrados das Médias (QM) Fobs Regressão glN = p – 1 Resíduo glD = n – p Total glT = n – 1 n: número de amostras p: número de parâmetros estimados R2: mede a  variabilidade de Y  explicada pelo  modelo.  se g QM 2 Re N gl g SQ g QMRe  Re D gl s SQ

s

e Re 2  2 1 ) ˆ ( Re n i t i y y s SQ              n t n t x x b y y i i g SQ 1 2 2 1 2 ) ( ) ˆ ( Re 2 1 ) (y y SQTot n t i  

SQTot

g

SQ

R

2

Re

(22)

A Regressão permite ao pesquisador fazer predições para além dos dados.

► Interpolação: em geral é bastante confiável.

► Extrapolação: deve-se tomar cuidado para garantir que a linearidade

entre as variáveis permaneça válido além da região de observação.

Já o modelo II permite categorizar as observações e simplificar as

predições, mas apenas dentro do intervalo já observado

Seria possível combinar os dois modelos?

(23)

Variáveis dummy

Algumas vezes queremos incluir no modelo de regressão

variáveis qualitativas ou categóricas, tais como região, gênero, origem, etc.

Isso pode ser interessante para:

► Aumentar o poder explicativo do modelo

► Controlar a influência ou viés de determinadas estimativas

Assim, como forma de modelar as variáveis qualitativas, são

utilizadas variáveis binárias, chamadas dummies, que assumem o

(24)

Utilização de variáveis dummy

A variável dummy (δ) pode influenciar de três maneiras:

► Mudança na constante (patamar):

Yt = (a  δD)  bXt  t

► Mudanças na inclinação:

Yt = a + (b + δ)Xt + t

► Mudanças na constante e na inclinação:

Yt = (a  δ

1

D) + (b +

δ

2

D)Xt + t

É necessário processar os cálculos com e sem a variável dummy

para avaliar o seu impacto e se ela traz vantagens explicativas razoáveis ao modelo.

(25)

Tão importante quanto verificar se os dados servem ao modelo de regressão e estabelecer os parâmetros, é fazer a análise de resíduos

Verificar se:

► O modelo se ajusta bem

► As suposições não foram violadas

o Homocedasticidade o Independência

o Comportamento normal

Aconselha-se a fazer uma análise gráfica dos resíduos.

(26)

Plotagem dos resíduos

Quais dessas plotagens mostram normalidade dos resíduos? Quais os problemas das outras?

Bu ss ab ; M or et n, 2 00 2: 45 6

(27)

Transformação de variáveis: linearização

Considere os dados abaixo e os gráficos abaixo.

Você teria alguma restrição em adotar o modelo linear nesse caso? Se transformarmos a variável inflação por meio de logaritmo (Log), poderíamos adotar o modelo linear?

0 500 1000 1500 2000 2500 3000 Inflação Ano 1967 1969 1971 1973 1975 1977 1979 Inflação 128 192 277 373 613 1236 2639 1966 1968 1970 1972 1974 1976 1978 1980 2 2,2 2,4 2,6 2,8 3 3,2 3,4 3,6 Log(inflação)

(28)

Voltando ao nosso exemplo

Deseja-se avaliar explicações

para o tempo de reação das

pessoas a determinado

estímulo visual.

Variável dependente: Tempo de reação = Y

Variáveis Independentes: Gênero; Idade; Acuidade Visual (podem explicar o fenômeno) = X1, X2, ...

Indivíduo Tempo de reação (ms) Gênero (M/F) (anos)Idade Visual (%)Acuidade

i y w x z 1 96 M 20 90 2 92 F 20 100 3 106 M 20 80 4 100 F 20 90 5 98 F 25 100 6 104 M 25 90 7 110 M 25 80 8 101 F 25 90 9 116 F 30 70 10 106 M 30 90 11 109 M 30 90 12 100 F 30 80 13 112 F 35 90 14 105 F 35 80 15 118 M 35 70 16 108 M 35 90 17 113 F 40 90 18 112 F 40 90 19 127 M 40 60 20 117 M 40 80

Dados tirados de Bussab, Wilton. Análise de Variância e Regressão. 2a. Ed. Editora Atual: São Paulo. 1988

(29)

No nosso exemplo (tempo de reação)

Calcular as correlações

O que esses números significam?

 Tempo de reação x Idade

0,768

 Tempo de reação x Acuidade 

visual

-0,755

(30)

Avaliando os dados

Já testamos e descartamos Gênero;

Traçar diagramas de dispersão para Idade e para Acuidade Visual

15 20 25 30 35 40 45 0 20 40 60 80 100 120 140 Idade 55 60 65 70 75 80 85 90 95 100 105 0 20 40 60 80 100 120 140 Acuidade visual

(31)

Exemplo

Determinar os parâmetros a e b para Tempo de reação x

Acuidade

Colocar na equação e interpretar

(32)

Comparação entre modelo II e modelo III

Qual deles é o melhor?

Estatisticamente, ambos possuem um p-valor significativo

(menos de 1%)

Em termos de diminuição da variabilidade (aumento do poder

de explicação), ambos estão bem próximos

Como escolher?

► Utilização

► Facilidade, conveniência

Modelo II

Médias por faixa etária Regressão com acuidade visualModelo III

p-valor 0,61% <0,01%

(33)

Exemplo

As suposições foram violadas?

► Homocedasticidade: ► Independência

(34)

Etapas de análise de dados e determinação de regressão linear

1. Exploração dos dados

a. Gráficos de dispersão b. Mapa de correlações

2. Determinação da regressão linear

a. Verificação da significância (p-valor) b. Verificar o grau de explicação (R2)

c. Determinação dos coeficientes da reta de regressão (“a” e “b”) d. Julgamento se o modelo é interessante e pertinente

3. Avaliação de atendimento dos pressupostos da correlação

(35)

Atividade com banco de dados

Health expenditure

► Total expenditure on health, % of gross domestic product ► Total health expenditure per capita, US$ PPP

► Public health expenditure per capita, US$ PPP ► Pharmaceutical expenditure per capita, US$ PPP

Health care resources

► Physicians, density per 1 000 population ► Nurses, density per 1 000 population

► Hospital beds, density per 1 000 population

Health care activities

► Doctor consultations per capita

► Hospital discharge rates, all causes, per 100 000 population ► Average length of stay for a normal delivery, days

► Caesarean sections, per 1 000 live births

Health status (Mortality)

► Life expectancy at birth, total population

► Infant mortality rate, deaths per 1 000 live births

Risk factors

► Tobacco consumption, % of adult population who are daily smokers ► Alcohol consumption, litres per population aged 15+

► Obesity, percentage of total adult population with a BMI>30 kg/m2, based on self-reports

(36)

Exercício para entrega com o banco de dados “dados de saúde países da OCDE”:

Selecionar pelo menos um par de

variáveis que se relacionem de forma linear.

► Avaliar os pares que possuem

correlações estatisticamente significativas.

► Verificar o diagrama de dispersão

dos pares

Definir uma regressão linear

simples entre as variáveis.

► Analisar significância, R2, os

coeficientes e os resíduos

► Decidir e justificar a pertinência da

aplicação das regressão.

Etapas de análise de dados e determinação de regressão linear

1. Exploração dos dados

a. Gráficos de dispersão b. Mapa de correlações

2. Determinação da regressão linear

a. Verificação da significância (p-valor) b. Verificar o grau de explicação (R2)

c. Determinação dos coeficientes da reta de regressão (“a” e “b”)

d. Julgamento se o modelo é interessante e pertinente

3. Avaliação de atendimento dos pressupostos da correlação

a. Análise dos resíduos: normalidade; homocedasticidade.

(37)
(38)

Referências

Documentos relacionados

Artista Plástico autodidata, com exceção do conhecimento vivenciado quando, ainda menino, em 1960, aos nove anos de idade, por ter estudado na Escola Classe 308 e na irmã

Na sequência, são exibidos os resultados dos artigos analisados, os quais estão agrupados em dimensões de acordo com o conjunto de critérios adaptados da metodologia proposta por

Para lidar com o problema de regressão linear múltipla, é mais conveniente usar notação matricial, pois assim tem-se uma apresentação muito compacta dos dados, do modelo e dos

• Histórias tem mais poder para gerar empatia e convencer as pessoas do que números e estatísticas.. Mas podem ser enganosas

CONSIDERANDO que aos Municípios, no exercício de sua competência legislativa suplementar voltada ao combate do COVID-19, não são autorizados, sem o embasamento em evidências

Os resultados apontaram que para um sistema de bombeamento de água constituído por dois módulos fotovoltaicos e uma motobomba utilizados no experimento, a equação

Transições: Uma transição ‘t’ é ativada (fires), se e somente se (sse), para cada nodo ‘i’ que. possua entradas para esta transição ‘t’, mi

Ao total, foram investidos 175 mil dólares no projeto: 35 mil pelo clube Lagoa Dourada, que veio pelo MPF; 35 mil pelo parceiro inter- nacional Rotary Club de Puerto Iguazu,