aulaContabilometria11052011

(1)

Análise de Regressão

Contabilometria 2011.1

(2)

“método estatístico que utiliza a relação entre duas ou

mais variáveis de modo que uma variável pode ser

estimada (ou predita) a partir da outra ou das outras”

Regressão Linear Simples

Análise de Regressão

(3)

Relação funcional x Relação estatística

As variáveis podem possuir dois tipos de relações:

1) Funcional: a relação é expressa por uma fórmula

matemática: Y = f(X)

Ex: relação entre o perímetro (P) e o lado de um quadrado (L)

y = 4x 0 50 100 150 0 10 20 30 40 Lado do Quadrado P e rí m e tr o P = 4 L

(4)

Relação funcional x Relação estatística

2) Estatística:

não há uma relação perfeita como no caso da

relação funcional.

As observações em geral não caem exatamente na curva

da relação.

Ex: relação entre o peso (P) e a altura (A) de uma pessoa

50 55 60 65 70 75 80 85 90 95 100 150 160 170 180 190 Altura (cm ) P e s o ( k g

) A existência de uma relação _{estatística entre a variável}

dependente Y e a variável

independente X não implica que Y dependa de X, ou que exista uma relação de

(5)

Nem todas as situações são bem aproximadas por uma equação linear. Por isso, é necessário desenvolver um trabalho preliminar para determinar se um modelo linear é adequado.

O processo mais simples consiste em grafar os dados e ver se uma relação linear parece razoável. (Gráfico de dispersão)

Em muitos casos, quando os dados não podem ser aproximados por um modelo linear, as alternativas são procurar um modelo não-linear conveniente ou transformar os dados para a forma linear. (Conversão em logaritmos)

Estimação dos parâmetros

(6)

Estimação dos parâmetros

X Y X Y X Y X Y

(7)

Análise de Regressão

1. Determinar como duas ou mais variáveis se relacionam.

2. Estimar a função que determina a relação entre as

variáveis.

3. Usar a equação ajustada para prever valores da variável

dependente.

4. Estabelecer uma equação matemática linear que

descreva o relacionamento de duas variáveis.

Regressão Linear Simples

Y

_i

=



₀

+



₁

X

_i

+



_i

 





2 E 0 Var , 0 i i i j COV i j          

(8)

Modelo de Regressão Linear Simples

i i i

X

Y





₀





₁





Inclinação populacional Intercepto

populacional Erro Aleatório

Variável Independente Variável Dependente _i X Y



₀ ₁ Coeficiente angular E(Y) = ₀ + ₁ X

(9)

Graficamente, a análise de regressão implica no ajuste de

uma reta que represente de uma “boa forma” a estrutura

dos dados.

Estimação dos parâmetros

(10)

Mas o que é “boa forma” de ajuste da reta?

Note que a diferença entre a reta ajustada (que é produto do valor esperado condicional) e a

observação realizada

corresponde ao resíduo.

Logo, o ajuste ideal da reta deve respeitar a condição de “menor distância possível” em relação aos valores observados.

Estimação dos parâmetros

(11)

Em geral não se conhece os valores de



0

,



1

e



2

Eles podem ser estimados através de dados obtidos por

amostras.

O método utilizado na estimação dos parâmetros é o

método

dos mínimos quadrados

, o qual considera os desvios dos Y

i

de seu valor esperado:



i

= Y

i

– (



0

+



1

X

i

)

Em particular, o método dos mínimos quadrados requer que

consideremos a soma dos n

desvios quadrados, denotado por

Q

:

2 1 0 1 ] [ _i _i n i X Y Q 













Estimação dos parâmetros

(12)

Estimação dos parâmetros

De acordo com o método dos mínimos quadrados, os estimadores de

0 e 1 são aqueles, denotados por b0 e b1, que tornam mínimo o

valor de Q. Derivando ₂ _[ _] 1 0 1 0 i i n i X Y Q _ _       

_

 i i i n i X X Y Q ] [ 2 ₀ ₁ 1 1         







    2 2 1 1 ) ( _i i i i n i i i X X n Y X Y X n b X b Y b₀   ₁ ei Yi Yi X b b Y X Y E ˆ ˆ ) ( 1 0 1 0      



(resíduo)

Igualando-se essas equações a zero obtém-se os valores b₀ e b₁ que minimizam Q:

(13)

Hipóteses Básicas do modelo de regressão

A reta de regressão calculada a partir dos dados amostrais pode ser encarada como uma estimativa da relação real, porém desconhecida, que existe entre as duas variáveis na população.

Daí, os coeficientes β´s servem como estimativas pontuais dos dois parâmentros populacionais correspondentes e a equação

Y´ = β´0 + β´1X

é uma estimativa da verdadeira relação populacional entre as variávies Y = β₀ + β₁X + e, onde e representa a dispersão na população.

(14)

Hipóteses Básicas do modelo de regressão

A análise de regressão supõe que, para cada possível valor de X, há uma distribuição de Y que segue a lei normal. É a chamada distribuição condicional.

A média de cada distribuição condicional é igual ao valor médio de Y na população para um particular X.

Além disso, todas as distribuições condicionais tem o mesmo desvio padrão(homoscedasticidade) e Y é uma variável aleatória.

(15)

nados correlacio são não Y e Y constante variância X Y X X E E(Y X v.a.(Y uma é Y j i i i i i 2 i i i i i i i i i . 4 ) ( ) ( ) ( ) ( . 3 ) ( ) . 2 ) . 1 2 2 1 0 2 1 0 1 0 1 0                                aleatório

O modelo de regressão mostra que as respostas Yi são oriundas de uma distribuição de probabilidades com média

E(Yi) = ₀ +₁X_i e cujas variâncias são 2, a mesma para

todos os valores de X. Além disso, quaisquer duas respostas Yi e Yj não são correlacionadas.

constante

Hipóteses Básicas do modelo de regressão

(16)

Hipóteses Básicas do modelo de regressão

A aplicação do modelo de regressão linear múltipla (bem como da simples) pressupõe a verificação de alguns pressupostos que condensamos

seguidamente:

1.Os erros são variáveis aleatórias de média zero;

2.Os erros são variáveis aleatórias de variância constante; 3.As variáveis aleatórias e₁, e₂, …, e_n são independentes;

4.As variáveis explicativas X₁, X₂, …, X_k são não correlacionadas – hipótese de ausência de multicolinearidade entre as variáveis

explicativas;

Para conduzir os testes de Hipóteses que abordaremos seguidamente, necessitamos ainda do seguinte pressuposto:

(17)

Hipóteses Básicas do modelo de regressão

Portanto, é necessário expor aspectos importantes para que seja possível construir um modelo de regressão.

Análise de Resíduos: e_i ~ N(0, σ2_).

• Somente será possível construir um modelo de regressão linear simples se os resíduos estiverem distribuídos normalmente com média 0 (zero) e

variância constante.

• Se σ2_{não for constante não será possível construir um intervalo de}

(18)

Hipóteses Básicas do modelo de regressão

(19)

Hipóteses Básicas do modelo de regressão

INTERVALOS DE VARIAÇÃO

•DESVIO TOTAL (em relação à media) do pto (x,y) é a distância vertical ⇒ entre o pto (x,y)e a reta horizontal que passa pela média amostral.

•DESVIO EXPLICADO distância vertical entre o valor predito e a reta ⇒ horizontal que passa pela média amostral.

•DESVIO NÃO EXPLICADO distância vertical entre o pto(x,y) e a reta de ⇒ regressão. Também chamada de RESÍDUO.

(20)

Hipóteses Básicas do modelo de regressão

(21)

Hipóteses Básicas do modelo de regressão

COEFICIENTE DE DETERMINAÇÃO DA REGRESSÃO

Uma medida útil, associada à reta de regressão, é o grau em que as predições baseadas na equação de regressão superam as predições baseadas na média de Y.

Se as predições baseadas na reta não são melhores que as baseadas no valor médio de Y, então não adianta dispormos de uma equação de

regressão.

Um teste de significância para β₁indicará se o coeficiente angular da reta é, ou não, diferente de zero. No entanto, não é fácil traduzir isto numa medida que represente o quanto os valores de Y estão relacionados com os de X.

(22)

Hipóteses Básicas do modelo de regressão

Daí, se a dispersão (erro) associada à reta de regressão e muito menor que a dispersão associada à média de Y, as predições baseadas na reta de

regressão serão melhores que as baseadas na média de Y.

Portanto, o coeficiente de determinação é uma medida que reflete o quanto o valor da variável Y é explicado pela reta de regressão. Mede a proporção da Variação de Y que poderá ser explicada pela variação de X.

Ou seja, representa uma maneira de mensurar o quanto bem a variável explicativa ou independente, X, explica a variável dependente Y.

É ainda interpretado como a fração da variação amostral em Y que é explicada por X.

(23)

Hipóteses Básicas do modelo de regressão

A variação de pontos em torno da média de Y é chamada de Variação Total e se calcula como uma soma dos desvios elevados ao quadrado:

∑

2 i

Y

)

Y

(

=

SQT

(24)

Hipóteses Básicas do modelo de regressão

Os desvios verticais dos Y’s em relação à reta de regressão chamam-se

Variação Não-Explicada (não podem ser explicadas somente pelo valor de x, i.e. ainda há uma dispersão mesmo depois de se levar em conta a reta) e é denotada por:

∑

2 i

Yˆ

)

Y

(

=

SQE

(25)

Hipóteses Básicas do modelo de regressão

Por fim, temos que o valor da variação explicada pela reta de regressão é igual ao somatório das diferenças quadradas entre o valor de Y estimado pela regressão e o valor médio de Y. Ou ainda, a variação explicada pela regressão é a diferença entre a variação total e a variação não-explicada:

∑

₍

_Yˆ

_Y

₎

2

=

SQR

(26)

Hipóteses Básicas do modelo de regressão

Daí, a percentagem da variação explicada pela regressão é a razão da variação explicada para a variação total:

tal

VariaçãoTo

oExplicada

VariaçãoNã

tal

VariaçãoTo

=

tal

VariaçãoTo

plicada

VariaçãoEx

=

R

2

1 <

R

<

0 :

onde

SQT

SQE

1 =

SQT

SQE

SQT

=

SQT

SQR

=

R

2 2

(27)

Hipóteses Básicas do modelo de regressão

(28)

Hipóteses Básicas do modelo de regressão

 

X

Interpretação: é o quanto da variabilidade total dos dados é explicada pelo modelo de regressão. Quanto maior o r2_{mais a variação total de Y é reduzida pela introdução da v.}

preditora X no modelo.       X b b Yˆ  ₀  ₁ r2₌₁ Y X Y         r2₌₀

Y

ˆ



A variável preditora X é responsável por toda a variação nas observações Y_i.

A v. X não ajuda na redução da variação de Y_i com a Reg.

Linear                  

(29)

Estimação da variância (

σ

²)

A variância, 2_,_{dos erros, e}

i, no modelo de regressão precisa ser estimado para obter uma indicação da variabilidade da distribuição de probabilidade de Y. Necessário para

inferências.

A variância de cada observação Y_i para o nosso modelo de regressão é 2_{, a mesma de} cada e_i.

Precisamos calcular a soma de quadrados de desvios, considerando que cada Y_i vem de diferentes distribuições de probabilidade com diferentes médias que dependem do nível de

X_i; as médias são estimadas por Y_i(chapéu). Assim os desvios são os resíduos:

A soma de quadrados do erro (resíduo), SQE, é dada por:

Daí, o valor de 2_{é calculado por:}

onde k é o número de variáveis explicativas do modelo.(Regressão Simples k=1)

i i i Y Y e   ˆ



     n i i n i i i Y e Y SQE 1 2 1 2 ) ˆ ( 1 -k -n SQE 2

₌

σ

(30)

Inferência na Análise de Regressão

Assumimos o modelo: Y_i  ₀  ₁X_i _i i 1,..,n ₀ e ₁ são os parâmetros;

X_i são constantes conhecidas, fixas.

(31)

Queremos fazer testes de hipóteses com relação.

0 ≠

β

:

H

0 =

β

:

H

i 1 i 0

Para realizar inferências sobre _i, precisamos conhecer a sua distribuição amostral de probabilidade.

A distribuição amostral de b₁ refere-se aos diferentes valores de b₁ que seriam obtidos com muitas amostras para um mesmo nível da variável preditora X (constante).

Já conhecemos os estimadores pontuais de ₀ e ₁.

Inferências para



₀₀

e



₁₁



    2 2 1 1 ) ( _i i i i n i i i X X n Y X Y X n b b0  Y  b1X

(32)

Inferências para



₀₀

e



₁₁

Podemos estimar a variância amostral de β₀e β₁ por:

(

)

∑

=

)

β

(

s

2 i 2 X X σ 1 2

(

)

∑

=

)

β

(

s

2 i 2 2 X X n X σ 0 2

(33)

Inferências para



₀₀

e



₁₁

• O objetivo aqui é testar se os valores são importantes para o modelo.

• O principal teste que será feito é se β₁ = 0. Esse teste poderá ser realizado pois o estimador de β₁ se distribui normalmente e conhecemos os seus valores de média e variância.

• Se β₁ = 0 estará claro que não existirá relação linear entre as variáveis X e Y e o

modelo de regressão não será válido. Outra análise possível é que esse coeficiente não será importante para o modelo, porém, se isso ocorre o modelo linear não terá sentido. • Um outro teste importante é de β₀ = 0. Fazer esse teste significa, da mesma forma, verificar se o valor estimado para β₀ é importante para o modelo linear. Assim, se encontramos que β₀ = 0 significa que o coeficiente linear encontrado pelo modelo não será relevante para a análise e poderá ser descartado. Se chegarmos à conclusão que β₀ ≠ 0 significará que ele deve constar no modelo.

• Partindo da normalidade dos coeficientes β_i a estatística de teste adequada para qualquer tamanho de amostra será a t de student.

(34)

Inferências para



₀₀

e



₁₁

• Logo, estaremos testando as seguintes hipóteses:

0 ≠

β

:

H

0 =

β

:

H

1 1 1 0

0 ≠

β

:

H

0 =

β

:

H

0 1 0 0

• Nossas estatísticas de teste serão:

2)

t(n

~

=

t

_sβ₍1_β₁0₎

2)

t(n

~

=

t

_sβ₍0_β₀0₎ 0 * 0 * H se -rejeita ), 2 ; 2 / 1 ( | | H se -rejeita não ), 2 ; 2 / 1 ( | |       n t t Se n t t Se  

(35)

Inferências para



₀₀

e



₁₁

(36)

Inferências para



₀₀

e



₁₁

Já encontrar um coeficiente β₀ = 0 significa que o valor encontrado com o método dos mínimos quadrado não fará diferença para a construção do modelo. Isso ocorrerá em casos onde a ordem de grandeza de β₁ for muito maior que a de β₀.

• Vamos supor um modelo em que se tenha E(Y | X) = 1000x + 0,9. A ordem de grandeza do coeficiente de X é muito maior que 0,9. Provavelmente, não fará diferença ter um