Análise de Regressão
Análise de Regressão
Contabilometria 2011.1
“método estatístico que utiliza a relação entre duas ou
mais variáveis de modo que uma variável pode ser
estimada (ou predita) a partir da outra ou das outras”
Regressão Linear Simples
Regressão Linear Simples
Análise de Regressão
Relação funcional x Relação estatística
Relação funcional x Relação estatística
As variáveis podem possuir dois tipos de relações:
1) Funcional: a relação é expressa por uma fórmula
matemática: Y = f(X)
Ex: relação entre o perímetro (P) e o lado de um quadrado (L)
y = 4x 0 50 100 150 0 10 20 30 40 Lado do Quadrado P e rí m e tr o P = 4 L
Relação funcional x Relação estatística
Relação funcional x Relação estatística
2) Estatística:
não há uma relação perfeita como no caso da
relação funcional.
As observações em geral não caem exatamente na curva
da relação.
Ex: relação entre o peso (P) e a altura (A) de uma pessoa
50 55 60 65 70 75 80 85 90 95 100 150 160 170 180 190 Altura (cm ) P e s o ( k g
) A existência de uma relação estatística entre a variável
dependente Y e a variável
independente X não implica que Y dependa de X, ou que exista uma relação de
Nem todas as situações são bem aproximadas por uma equação linear. Por isso, é necessário desenvolver um trabalho preliminar para determinar se um modelo linear é adequado.
O processo mais simples consiste em grafar os dados e ver se uma relação linear parece razoável. (Gráfico de dispersão)
Em muitos casos, quando os dados não podem ser aproximados por um modelo linear, as alternativas são procurar um modelo não-linear conveniente ou transformar os dados para a forma linear. (Conversão em logaritmos)
Estimação dos parâmetros
Estimação dos parâmetros
Estimação dos parâmetros
X Y X Y X Y X Y
Análise de Regressão
Análise de Regressão
1. Determinar como duas ou mais variáveis se relacionam.
2. Estimar a função que determina a relação entre as
variáveis.
3. Usar a equação ajustada para prever valores da variável
dependente.
4. Estabelecer uma equação matemática linear que
descreva o relacionamento de duas variáveis.
Regressão Linear Simples
Y
i=
0+
1X
i+
i
2 E 0 Var , 0 i i i j COV i j Modelo de Regressão Linear Simples
Modelo de Regressão Linear Simples
i i i
X
Y
0
1
Inclinação populacional Interceptopopulacional Erro Aleatório
Variável Independente Variável Dependente i X Y
0 1 Coeficiente angular E(Y) = 0 + 1 XGraficamente, a análise de regressão implica no ajuste de
uma reta que represente de uma “boa forma” a estrutura
dos dados.
Estimação dos parâmetros
Mas o que é “boa forma” de ajuste da reta?
Note que a diferença entre a reta ajustada (que é produto do valor esperado condicional) e a
observação realizada
corresponde ao resíduo.
Logo, o ajuste ideal da reta deve respeitar a condição de “menor distância possível” em relação aos valores observados.
Estimação dos parâmetros
Em geral não se conhece os valores de
0,
1e
2Eles podem ser estimados através de dados obtidos por
amostras.
O método utilizado na estimação dos parâmetros é o
método
dos mínimos quadrados
, o qual considera os desvios dos Y
ide seu valor esperado:
i= Y
i– (
0+
1X
i)
Em particular, o método dos mínimos quadrados requer que
consideremos a soma dos n
desvios quadrados, denotado por
Q
:
2 1 0 1 ] [ i i n i X Y Q
Estimação dos parâmetros
Estimação dos parâmetros
Estimação dos parâmetros
De acordo com o método dos mínimos quadrados, os estimadores de
0 e 1 são aqueles, denotados por b0 e b1, que tornam mínimo o
valor de Q. Derivando 2 [ ] 1 0 1 0 i i n i X Y Q
i i i n i X X Y Q ] [ 2 0 1 1 1
2 2 1 1 ) ( i i i i n i i i X X n Y X Y X n b X b Y b0 1 ei Yi Yi X b b Y X Y E ˆ ˆ ) ( 1 0 1 0
(resíduo)Igualando-se essas equações a zero obtém-se os valores b0 e b1 que minimizam Q:
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
A reta de regressão calculada a partir dos dados amostrais pode ser encarada como uma estimativa da relação real, porém desconhecida, que existe entre as duas variáveis na população.
Daí, os coeficientes β´s servem como estimativas pontuais dos dois parâmentros populacionais correspondentes e a equação
Y´ = β´0 + β´1X
é uma estimativa da verdadeira relação populacional entre as variávies Y = β0 + β1X + e, onde e representa a dispersão na população.
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
A análise de regressão supõe que, para cada possível valor de X, há uma distribuição de Y que segue a lei normal. É a chamada distribuição condicional.
A média de cada distribuição condicional é igual ao valor médio de Y na população para um particular X.
Além disso, todas as distribuições condicionais tem o mesmo desvio padrão(homoscedasticidade) e Y é uma variável aleatória.
nados correlacio são não Y e Y constante variância X Y X X E E(Y X v.a.(Y uma é Y j i i i i i 2 i i i i i i i i i . 4 ) ( ) ( ) ( ) ( . 3 ) ( ) . 2 ) . 1 2 2 1 0 2 1 0 1 0 1 0 aleatório
O modelo de regressão mostra que as respostas Yi são oriundas de uma distribuição de probabilidades com média
E(Yi) = 0 +1Xi e cujas variâncias são 2, a mesma para
todos os valores de X. Além disso, quaisquer duas respostas Yi e Yj não são correlacionadas.
constante
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
A aplicação do modelo de regressão linear múltipla (bem como da simples) pressupõe a verificação de alguns pressupostos que condensamos
seguidamente:
1.Os erros são variáveis aleatórias de média zero;
2.Os erros são variáveis aleatórias de variância constante; 3.As variáveis aleatórias e1, e2, …, en são independentes;
4.As variáveis explicativas X1, X2, …, Xk são não correlacionadas – hipótese de ausência de multicolinearidade entre as variáveis
explicativas;
Para conduzir os testes de Hipóteses que abordaremos seguidamente, necessitamos ainda do seguinte pressuposto:
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
Portanto, é necessário expor aspectos importantes para que seja possível construir um modelo de regressão.
Análise de Resíduos: ei ~ N(0, σ2).
• Somente será possível construir um modelo de regressão linear simples se os resíduos estiverem distribuídos normalmente com média 0 (zero) e
variância constante.
• Se σ2 não for constante não será possível construir um intervalo de
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
INTERVALOS DE VARIAÇÃO
•DESVIO TOTAL (em relação à media) do pto (x,y) é a distância vertical ⇒ entre o pto (x,y)e a reta horizontal que passa pela média amostral.
•DESVIO EXPLICADO distância vertical entre o valor predito e a reta ⇒ horizontal que passa pela média amostral.
•DESVIO NÃO EXPLICADO distância vertical entre o pto(x,y) e a reta de ⇒ regressão. Também chamada de RESÍDUO.
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
COEFICIENTE DE DETERMINAÇÃO DA REGRESSÃO
Uma medida útil, associada à reta de regressão, é o grau em que as predições baseadas na equação de regressão superam as predições baseadas na média de Y.
Se as predições baseadas na reta não são melhores que as baseadas no valor médio de Y, então não adianta dispormos de uma equação de
regressão.
Um teste de significância para β1 indicará se o coeficiente angular da reta é, ou não, diferente de zero. No entanto, não é fácil traduzir isto numa medida que represente o quanto os valores de Y estão relacionados com os de X.
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
COEFICIENTE DE DETERMINAÇÃO DA REGRESSÃO
Daí, se a dispersão (erro) associada à reta de regressão e muito menor que a dispersão associada à média de Y, as predições baseadas na reta de
regressão serão melhores que as baseadas na média de Y.
Portanto, o coeficiente de determinação é uma medida que reflete o quanto o valor da variável Y é explicado pela reta de regressão. Mede a proporção da Variação de Y que poderá ser explicada pela variação de X.
Ou seja, representa uma maneira de mensurar o quanto bem a variável explicativa ou independente, X, explica a variável dependente Y.
É ainda interpretado como a fração da variação amostral em Y que é explicada por X.
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
COEFICIENTE DE DETERMINAÇÃO DA REGRESSÃO
A variação de pontos em torno da média de Y é chamada de Variação Total e se calcula como uma soma dos desvios elevados ao quadrado:
∑
2 iY
)
Y
(
=
SQT
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
COEFICIENTE DE DETERMINAÇÃO DA REGRESSÃO
Os desvios verticais dos Y’s em relação à reta de regressão chamam-se
Variação Não-Explicada (não podem ser explicadas somente pelo valor de x, i.e. ainda há uma dispersão mesmo depois de se levar em conta a reta) e é denotada por:
∑
2 iYˆ
)
Y
(
=
SQE
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
COEFICIENTE DE DETERMINAÇÃO DA REGRESSÃO
Por fim, temos que o valor da variação explicada pela reta de regressão é igual ao somatório das diferenças quadradas entre o valor de Y estimado pela regressão e o valor médio de Y. Ou ainda, a variação explicada pela regressão é a diferença entre a variação total e a variação não-explicada:
∑
(
Yˆ
Y
)
2=
SQR
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
COEFICIENTE DE DETERMINAÇÃO DA REGRESSÃO
Daí, a percentagem da variação explicada pela regressão é a razão da variação explicada para a variação total:
tal
VariaçãoTo
oExplicada
VariaçãoNã
tal
VariaçãoTo
=
tal
VariaçãoTo
plicada
VariaçãoEx
=
R
21
<
R
<
0
:
onde
SQT
SQE
1
=
SQT
SQE
SQT
=
SQT
SQR
=
R
2 2Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
Hipóteses Básicas do modelo de regressão
X
Interpretação: é o quanto da variabilidade total dos dados é explicada pelo modelo de regressão. Quanto maior o r2 mais a variação total de Y é reduzida pela introdução da v.
preditora X no modelo. X b b Yˆ 0 1 r2=1 Y X Y r2=0
Y
Y
ˆ
A variável preditora X é responsável por toda a variação nas observações Yi.
A v. X não ajuda na redução da variação de Yi com a Reg.
Linear
Estimação da variância (
Estimação da variância (
σ
σ
²)
²)
A variância, 2, dos erros, e
i, no modelo de regressão precisa ser estimado para obter uma indicação da variabilidade da distribuição de probabilidade de Y. Necessário para
inferências.
A variância de cada observação Yi para o nosso modelo de regressão é 2, a mesma de cada ei.
Precisamos calcular a soma de quadrados de desvios, considerando que cada Yi vem de diferentes distribuições de probabilidade com diferentes médias que dependem do nível de
Xi; as médias são estimadas por Yi(chapéu). Assim os desvios são os resíduos:
A soma de quadrados do erro (resíduo), SQE, é dada por:
Daí, o valor de 2 é calculado por:
onde k é o número de variáveis explicativas do modelo.(Regressão Simples k=1)
i i i Y Y e ˆ
n i i n i i i Y e Y SQE 1 2 1 2 ) ˆ ( 1 -k -n SQE 2=
σ
Inferência na Análise de Regressão
Inferência na Análise de Regressão
Assumimos o modelo: Yi 0 1Xi i i 1,..,n 0 e 1 são os parâmetros;
Xi são constantes conhecidas, fixas.
Queremos fazer testes de hipóteses com relação.
0
≠
β
:
H
0
=
β
:
H
i 1 i 0Para realizar inferências sobre i, precisamos conhecer a sua distribuição amostral de probabilidade.
A distribuição amostral de b1 refere-se aos diferentes valores de b1 que seriam obtidos com muitas amostras para um mesmo nível da variável preditora X (constante).
Já conhecemos os estimadores pontuais de 0 e 1.
Inferências para
Inferências para
00e
e
11
2 2 1 1 ) ( i i i i n i i i X X n Y X Y X n b b0 Y b1XInferências para
Inferências para
00e
e
11Podemos estimar a variância amostral de β0 e β1 por:
(
)
∑
=
)
β
(
s
2 i 2 X X σ 1 2(
)
∑
∑
=
)
β
(
s
2 i 2 2 X X n X σ 0 2Inferências para
Inferências para
00e
e
11• O objetivo aqui é testar se os valores são importantes para o modelo.
• O principal teste que será feito é se β1 = 0. Esse teste poderá ser realizado pois o estimador de β1 se distribui normalmente e conhecemos os seus valores de média e variância.
• Se β1 = 0 estará claro que não existirá relação linear entre as variáveis X e Y e o
modelo de regressão não será válido. Outra análise possível é que esse coeficiente não será importante para o modelo, porém, se isso ocorre o modelo linear não terá sentido. • Um outro teste importante é de β0 = 0. Fazer esse teste significa, da mesma forma, verificar se o valor estimado para β0 é importante para o modelo linear. Assim, se encontramos que β0 = 0 significa que o coeficiente linear encontrado pelo modelo não será relevante para a análise e poderá ser descartado. Se chegarmos à conclusão que β0 ≠ 0 significará que ele deve constar no modelo.
• Partindo da normalidade dos coeficientes βi a estatística de teste adequada para qualquer tamanho de amostra será a t de student.
Inferências para
Inferências para
00e
e
11• Logo, estaremos testando as seguintes hipóteses:
0
≠
β
:
H
0
=
β
:
H
1 1 1 00
≠
β
:
H
0
=
β
:
H
0 1 0 0• Nossas estatísticas de teste serão:
2)
t(n
~
=
t
sβ(1β10)2)
t(n
~
=
t
sβ(0β00) 0 * 0 * H se -rejeita ), 2 ; 2 / 1 ( | | H se -rejeita não ), 2 ; 2 / 1 ( | | n t t Se n t t Se Inferências para
Inferências para
00e
e
11Inferências para
Inferências para
00e
e
11Já encontrar um coeficiente β0 = 0 significa que o valor encontrado com o método dos mínimos quadrado não fará diferença para a construção do modelo. Isso ocorrerá em casos onde a ordem de grandeza de β1 for muito maior que a de β0.
• Vamos supor um modelo em que se tenha E(Y | X) = 1000x + 0,9. A ordem de grandeza do coeficiente de X é muito maior que 0,9. Provavelmente, não fará diferença ter um