Análise de Regressão
Análise de Regressão
Contabilometria 2011.1
“método estatístico que utiliza a relação entre duas ou
mais variáveis de modo que uma variável pode ser
estimada (ou predita) a partir da outra ou das outras”
Regressão Linear Simples
Regressão Linear Simples
Análise de Regressão
Relação funcional x Relação estatística
Relação funcional x Relação estatística
As variáveis podem possuir dois tipos de relações:
1) Funcional: a relação é expressa por uma fórmula
matemática: Y = f(X)
Ex: relação entre o perímetro (P) e o lado de um quadrado (L)
y = 4x 0 50 100 150 0 10 20 30 40 Lado do Quadrado P e rí m e tr o P = 4 L
Relação funcional x Relação estatística
Relação funcional x Relação estatística
2) Estatística:
não há uma relação perfeita como no caso da
relação funcional.
As observações em geral não caem exatamente na curva
da relação.
Ex: relação entre o peso (P) e a altura (A) de uma pessoa
50 55 60 65 70 75 80 85 90 95 100 150 160 170 180 190 Altura (cm ) P e s o ( k g
) A existência de uma relação estatística entre a variável
dependente Y e a variável independente X não implica que Y dependa de X, ou que exista uma relação de
Nem todas as situações são bem aproximadas por uma equação linear. Por isso, é necessário desenvolver um trabalho preliminar para determinar se um modelo linear é adequado.
O processo mais simples consiste em grafar os dados e ver se uma relação linear parece razoável. (Gráfico de dispersão)
Em muitos casos, quando os dados não podem ser aproximados por um modelo linear, as alternativas são procurar um modelo não-linear conveniente ou transformar os dados para a forma linear. (Conversão em logaritmos)
Estimação dos parâmetros
Estimação dos parâmetros
Estimação dos parâmetros
X Y X Y X Y X Y
Análise de Regressão
Análise de Regressão
1. Determinar como duas ou mais variáveis se relacionam.
2. Estimar a função que determina a relação entre as
variáveis.
3. Usar a equação ajustada para prever valores da variável
dependente.
4. Estabelecer uma equação matemática linear que
descreva o relacionamento de duas variáveis.
Regressão Linear Simples
Y
i=
0+
1X
i+
i
2 E 0 Var , 0 i i i j COV i j Modelo de Regressão Linear Simples
Modelo de Regressão Linear Simples
i i i
X
Y
0
1
Inclinação populacional Interceptopopulacional Erro Aleatório
Variável Independente Variável Dependente i X Y
0 1 Coeficiente angular E(Y) = 0 + 1 XGraficamente, a análise de regressão implica no ajuste de
uma reta que represente de uma “boa forma” a estrutura
dos dados.
Estimação dos parâmetros
Mas o que é “boa forma” de ajuste da reta?
Note que a diferença entre a reta ajustada (que é produto do valor esperado condicional) e a
observação realizada
corresponde ao resíduo.
Logo, o ajuste ideal da reta deve respeitar a condição de “menor distância possível” em relação aos valores observados.
Estimação dos parâmetros
Em geral não se conhece os valores de
0,
1e
2Eles podem ser estimados através de dados obtidos por
amostras.
O método utilizado na estimação dos parâmetros é o
método
dos mínimos quadrados
, o qual considera os desvios dos Y
ide seu valor esperado:
i= Y
i– (
0+
1X
i)
Em particular, o método dos mínimos quadrados requer que
consideremos a soma dos n
desvios quadrados, denotado por
Q
:
2 1 0 1 ] [ i i n i X Y Q
Estimação dos parâmetros
Estimação dos parâmetros
Estimação dos parâmetros
De acordo com o método dos mínimos quadrados, os estimadores de
0 e 1 são aqueles, denotados por b0 e b1, que tornam mínimo o
valor de Q. Derivando 2 [ ] 1 0 1 0 i i n i X Y Q
i i i n i X X Y Q ] [ 2 0 1 1 1
2 2 1 1 ) ( i i i i n i i i X X n Y X Y X n b X b Y b0 1 ei Yi Yi X b b Y X Y E ˆ ˆ ) ( 1 0 1 0
(resíduo)Igualando-se essas equações a zero obtém-se os valores b0 e b1 que minimizam Q:
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
A reta de regressão calculada a partir dos dados amostrais pode ser encarada como uma estimativa da relação real, porém desconhecida, que existe entre as duas variáveis na população.
Daí, os coeficientes β´s servem como estimativas pontuais dos dois parâmentros populacionais correspondentes e a equação
Y´ = β´0 + β´1X
é uma estimativa da verdadeira relação populacional entre as variávies Y = β0 + β1X + e, onde e representa a dispersão na população.
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
A análise de regressão supõe que, para cada possível valor de X, há uma distribuição de Y que segue a lei normal. É a chamada distribuição condicional.
A média de cada distribuição condicional é igual ao valor médio de Y na população para um particular X.
Além disso, todas as distribuições condicionais tem o mesmo desvio padrão(homoscedasticidade) e Y é uma variável aleatória.
nados correlacio são não Y e Y constante variância X Y X X E E(Y X v.a.(Y uma é Y j i i i i i 2 i i i i i i i i i . 4 ) ( ) ( ) ( ) ( . 3 ) ( ) . 2 ) . 1 2 2 1 0 2 1 0 1 0 1 0 aleatório
O modelo de regressão mostra que as respostas Yi são oriundas de uma distribuição de probabilidades com média
E(Yi) = 0 +1Xi e cujas variâncias são 2, a mesma para
todos os valores de X. Além disso, quaisquer duas respostas Yi e Yj não são correlacionadas.
constante
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
A aplicação do modelo de regressão linear múltipla (bem como da simples) pressupõe a verificação de alguns pressupostos que condensamos
seguidamente:
1.Os erros são variáveis aleatórias de média zero;
2.Os erros são variáveis aleatórias de variância constante; 3.As variáveis aleatórias e1, e2, …, en são independentes;
4.As variáveis explicativas X1, X2, …, Xk são não correlacionadas – hipótese de ausência de multicolinearidade entre as variáveis
explicativas;
Para conduzir os testes de Hipóteses que abordaremos seguidamente, necessitamos ainda do seguinte pressuposto:
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
Portanto, é necessário expor aspectos importantes para que seja possível construir um modelo de regressão.
Análise de Resíduos: ei ~ N(0, σ2).
• Somente será possível construir um modelo de regressão linear simples se os resíduos estiverem distribuídos normalmente com média 0 (zero) e
variância constante.
• Se σ2 não for constante não será possível construir um intervalo de
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
INTERVALOS DE VARIAÇÃO
•DESVIO TOTAL (em relação à media) do pto (x,y) é a distância vertical ⇒ entre o pto (x,y)e a reta horizontal que passa pela média amostral.
•DESVIO EXPLICADO distância vertical entre o valor predito e a reta ⇒ horizontal que passa pela média amostral.
•DESVIO NÃO EXPLICADO distância vertical entre o pto(x,y) e a reta de ⇒ regressão. Também chamada de RESÍDUO.
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
COEFICIENTE DE DETERMINAÇÃO DA REGRESSÃO
Uma medida útil, associada à reta de regressão, é o grau em que as predições baseadas na equação de regressão superam as predições baseadas na média de Y.
Se as predições baseadas na reta não são melhores que as baseadas no valor médio de Y, então não adianta dispormos de uma equação de
regressão.
Um teste de significância para β1 indicará se o coeficiente angular da reta é, ou não, diferente de zero. No entanto, não é fácil traduzir isto numa medida que represente o quanto os valores de Y estão relacionados com os de X.
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
COEFICIENTE DE DETERMINAÇÃO DA REGRESSÃO
Daí, se a dispersão (erro) associada à reta de regressão e muito menor que a dispersão associada à média de Y, as predições baseadas na reta de
regressão serão melhores que as baseadas na média de Y.
Portanto, o coeficiente de determinação é uma medida que reflete o quanto o valor da variável Y é explicado pela reta de regressão. Mede a proporção da Variação de Y que poderá ser explicada pela variação de X.
Ou seja, representa uma maneira de mensurar o quanto bem a variável explicativa ou independente, X, explica a variável dependente Y.
É ainda interpretado como a fração da variação amostral em Y que é explicada por X.
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
COEFICIENTE DE DETERMINAÇÃO DA REGRESSÃO
A variação de pontos em torno da média de Y é chamada de Variação Total e se calcula como uma soma dos desvios elevados ao quadrado:
∑
2 iY
)
Y
(
=
SQT
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
COEFICIENTE DE DETERMINAÇÃO DA REGRESSÃO
Os desvios verticais dos Y’s em relação à reta de regressão chamam-se
Variação Não-Explicada (não podem ser explicadas somente pelo valor de x, i.e. ainda há uma dispersão mesmo depois de se levar em conta a reta) e é denotada por:
∑
2 iYˆ
)
Y
(
=
SQE
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
COEFICIENTE DE DETERMINAÇÃO DA REGRESSÃO
Por fim, temos que o valor da variação explicada pela reta de regressão é igual ao somatório das diferenças quadradas entre o valor de Y estimado pela regressão e o valor médio de Y. Ou ainda, a variação explicada pela regressão é a diferença entre a variação total e a variação não-explicada:
∑
(
Yˆ
Y
)
2=
SQR
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
COEFICIENTE DE DETERMINAÇÃO DA REGRESSÃO
Daí, a percentagem da variação explicada pela regressão é a razão da variação explicada para a variação total:
tal
VariaçãoTo
oExplicada
VariaçãoNã
tal
VariaçãoTo
=
tal
VariaçãoTo
plicada
VariaçãoEx
=
R
21
<
R
<
0
:
onde
SQT
SQE
1
=
SQT
SQE
SQT
=
SQT
SQR
=
R
2 2Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
X
Interpretação: é o quanto da variabilidade total dos dados é explicada pelo modelo de regressão. Quanto maior o r2 mais a variação total de Y é reduzida pela introdução da v.
preditora X no modelo. X b b Yˆ 0 1 r2=1 Y X Y r2=0
Y
Y
ˆ
A variável preditora X é responsável por toda a variação nas observações Yi.
A v. X não ajuda na redução da variação de Yi com a Reg.
Linear