• Nenhum resultado encontrado

aulaContabilometria11052011

N/A
N/A
Protected

Academic year: 2021

Share "aulaContabilometria11052011"

Copied!
36
0
0

Texto

(1)

Análise de Regressão

Análise de Regressão

Contabilometria 2011.1

(2)

“método estatístico que utiliza a relação entre duas ou

mais variáveis de modo que uma variável pode ser

estimada (ou predita) a partir da outra ou das outras”

Regressão Linear Simples

Regressão Linear Simples

Análise de Regressão

(3)

Relação funcional x Relação estatística

Relação funcional x Relação estatística

As variáveis podem possuir dois tipos de relações:

1) Funcional: a relação é expressa por uma fórmula

matemática: Y = f(X)

Ex: relação entre o perímetro (P) e o lado de um quadrado (L)

y = 4x 0 50 100 150 0 10 20 30 40 Lado do Quadrado P e m e tr o P = 4 L

(4)

Relação funcional x Relação estatística

Relação funcional x Relação estatística

2) Estatística:

não há uma relação perfeita como no caso da

relação funcional.

As observações em geral não caem exatamente na curva

da relação.

Ex: relação entre o peso (P) e a altura (A) de uma pessoa

50 55 60 65 70 75 80 85 90 95 100 150 160 170 180 190 Altura (cm ) P e s o ( k g

) A existência de uma relação estatística entre a variável

dependente Y e a variável

independente X não implica que Y dependa de X, ou que exista uma relação de

(5)

Nem todas as situações são bem aproximadas por uma equação linear. Por isso, é necessário desenvolver um trabalho preliminar para determinar se um modelo linear é adequado.

O processo mais simples consiste em grafar os dados e ver se uma relação linear parece razoável. (Gráfico de dispersão)

Em muitos casos, quando os dados não podem ser aproximados por um modelo linear, as alternativas são procurar um modelo não-linear conveniente ou transformar os dados para a forma linear. (Conversão em logaritmos)

Estimação dos parâmetros

(6)

Estimação dos parâmetros

Estimação dos parâmetros

X Y X Y X Y X Y

(7)

Análise de Regressão

Análise de Regressão

1. Determinar como duas ou mais variáveis se relacionam.

2. Estimar a função que determina a relação entre as

variáveis.

3. Usar a equação ajustada para prever valores da variável

dependente.

4. Estabelecer uma equação matemática linear que

descreva o relacionamento de duas variáveis.

Regressão Linear Simples

Y

i

=

0

+

1

X

i

+

i

 

 

2 E 0 Var , 0 i i i j COV i j          

(8)

Modelo de Regressão Linear Simples

Modelo de Regressão Linear Simples

i i i

X

Y

0

1

Inclinação populacional Intercepto

populacional Erro Aleatório

Variável Independente Variável Dependente i X Y

01 Coeficiente angular E(Y) = 0 + 1 X

(9)

Graficamente, a análise de regressão implica no ajuste de

uma reta que represente de uma “boa forma” a estrutura

dos dados.

Estimação dos parâmetros

(10)

Mas o que é “boa forma” de ajuste da reta?

Note que a diferença entre a reta ajustada (que é produto do valor esperado condicional) e a

observação realizada

corresponde ao resíduo.

Logo, o ajuste ideal da reta deve respeitar a condição de “menor distância possível” em relação aos valores observados.

Estimação dos parâmetros

(11)

Em geral não se conhece os valores de

0

,

1

e

2

Eles podem ser estimados através de dados obtidos por

amostras.

O método utilizado na estimação dos parâmetros é o

método

dos mínimos quadrados

, o qual considera os desvios dos Y

i

de seu valor esperado:

i

= Y

i

– (

0

+

1

X

i

)

Em particular, o método dos mínimos quadrados requer que

consideremos a soma dos n

desvios quadrados, denotado por

Q

:

2 1 0 1 ] [ i i n i X Y Q

Estimação dos parâmetros

(12)

Estimação dos parâmetros

Estimação dos parâmetros

De acordo com o método dos mínimos quadrados, os estimadores de

0 e 1 são aqueles, denotados por b0 e b1, que tornam mínimo o

valor de Q. Derivando 2 [ ] 1 0 1 0 i i n i X Y Q       

i i i n i X X Y Q ] [ 2 0 1 1 1         

    2 2 1 1 ) ( i i i i n i i i X X n Y X Y X n b X b Y b0   1 ei Yi Yi X b b Y X Y E ˆ ˆ ) ( 1 0 1 0      

(resíduo)

Igualando-se essas equações a zero obtém-se os valores b0 e b1 que minimizam Q:

(13)

Hipóteses Básicas do modelo de regressão

Hipóteses Básicas do modelo de regressão

A reta de regressão calculada a partir dos dados amostrais pode ser encarada como uma estimativa da relação real, porém desconhecida, que existe entre as duas variáveis na população.

Daí, os coeficientes β´s servem como estimativas pontuais dos dois parâmentros populacionais correspondentes e a equação

Y´ = β´0 + β´1X

é uma estimativa da verdadeira relação populacional entre as variávies Y = β0 + β1X + e, onde e representa a dispersão na população.

(14)

Hipóteses Básicas do modelo de regressão

Hipóteses Básicas do modelo de regressão

A análise de regressão supõe que, para cada possível valor de X, há uma distribuição de Y que segue a lei normal. É a chamada distribuição condicional.

A média de cada distribuição condicional é igual ao valor médio de Y na população para um particular X.

Além disso, todas as distribuições condicionais tem o mesmo desvio padrão(homoscedasticidade) e Y é uma variável aleatória.

(15)

nados correlacio são não Y e Y constante variância X Y X X E E(Y X v.a.(Y uma é Y j i i i i i 2 i i i i i i i i i . 4 ) ( ) ( ) ( ) ( . 3 ) ( ) . 2 ) . 1 2 2 1 0 2 1 0 1 0 1 0                                aleatório

O modelo de regressão mostra que as respostas Yi são oriundas de uma distribuição de probabilidades com média

E(Yi) = 0 +1Xi e cujas variâncias são 2, a mesma para

todos os valores de X. Além disso, quaisquer duas respostas Yi e Yj não são correlacionadas.

constante

Hipóteses Básicas do modelo de regressão

(16)

Hipóteses Básicas do modelo de regressão

Hipóteses Básicas do modelo de regressão

A aplicação do modelo de regressão linear múltipla (bem como da simples) pressupõe a verificação de alguns pressupostos que condensamos

seguidamente:

1.Os erros são variáveis aleatórias de média zero;

2.Os erros são variáveis aleatórias de variância constante; 3.As variáveis aleatórias e1, e2, …, en são independentes;

4.As variáveis explicativas X1, X2, …, Xk são não correlacionadas – hipótese de ausência de multicolinearidade entre as variáveis

explicativas;

Para conduzir os testes de Hipóteses que abordaremos seguidamente, necessitamos ainda do seguinte pressuposto:

(17)

Hipóteses Básicas do modelo de regressão

Hipóteses Básicas do modelo de regressão

Portanto, é necessário expor aspectos importantes para que seja possível construir um modelo de regressão.

Análise de Resíduos: ei ~ N(0, σ2).

• Somente será possível construir um modelo de regressão linear simples se os resíduos estiverem distribuídos normalmente com média 0 (zero) e

variância constante.

• Se σ2 não for constante não será possível construir um intervalo de

(18)

Hipóteses Básicas do modelo de regressão

(19)

Hipóteses Básicas do modelo de regressão

Hipóteses Básicas do modelo de regressão

INTERVALOS DE VARIAÇÃO

•DESVIO TOTAL (em relação à media) do pto (x,y) é a distância vertical ⇒ entre o pto (x,y)e a reta horizontal que passa pela média amostral.

•DESVIO EXPLICADO distância vertical entre o valor predito e a reta ⇒ horizontal que passa pela média amostral.

•DESVIO NÃO EXPLICADO distância vertical entre o pto(x,y) e a reta de ⇒ regressão. Também chamada de RESÍDUO.

(20)

Hipóteses Básicas do modelo de regressão

(21)

Hipóteses Básicas do modelo de regressão

Hipóteses Básicas do modelo de regressão

COEFICIENTE DE DETERMINAÇÃO DA REGRESSÃO

Uma medida útil, associada à reta de regressão, é o grau em que as predições baseadas na equação de regressão superam as predições baseadas na média de Y.

Se as predições baseadas na reta não são melhores que as baseadas no valor médio de Y, então não adianta dispormos de uma equação de

regressão.

Um teste de significância para β1 indicará se o coeficiente angular da reta é, ou não, diferente de zero. No entanto, não é fácil traduzir isto numa medida que represente o quanto os valores de Y estão relacionados com os de X.

(22)

Hipóteses Básicas do modelo de regressão

Hipóteses Básicas do modelo de regressão

COEFICIENTE DE DETERMINAÇÃO DA REGRESSÃO

Daí, se a dispersão (erro) associada à reta de regressão e muito menor que a dispersão associada à média de Y, as predições baseadas na reta de

regressão serão melhores que as baseadas na média de Y.

Portanto, o coeficiente de determinação é uma medida que reflete o quanto o valor da variável Y é explicado pela reta de regressão. Mede a proporção da Variação de Y que poderá ser explicada pela variação de X.

Ou seja, representa uma maneira de mensurar o quanto bem a variável explicativa ou independente, X, explica a variável dependente Y.

É ainda interpretado como a fração da variação amostral em Y que é explicada por X.

(23)

Hipóteses Básicas do modelo de regressão

Hipóteses Básicas do modelo de regressão

COEFICIENTE DE DETERMINAÇÃO DA REGRESSÃO

A variação de pontos em torno da média de Y é chamada de Variação Total e se calcula como uma soma dos desvios elevados ao quadrado:

2 i

Y

)

Y

(

=

SQT

(24)

Hipóteses Básicas do modelo de regressão

Hipóteses Básicas do modelo de regressão

COEFICIENTE DE DETERMINAÇÃO DA REGRESSÃO

Os desvios verticais dos Y’s em relação à reta de regressão chamam-se

Variação Não-Explicada (não podem ser explicadas somente pelo valor de x, i.e. ainda há uma dispersão mesmo depois de se levar em conta a reta) e é denotada por:

2 i

)

Y

(

=

SQE

(25)

Hipóteses Básicas do modelo de regressão

Hipóteses Básicas do modelo de regressão

COEFICIENTE DE DETERMINAÇÃO DA REGRESSÃO

Por fim, temos que o valor da variação explicada pela reta de regressão é igual ao somatório das diferenças quadradas entre o valor de Y estimado pela regressão e o valor médio de Y. Ou ainda, a variação explicada pela regressão é a diferença entre a variação total e a variação não-explicada:

(

Y

)

2

=

SQR

(26)

Hipóteses Básicas do modelo de regressão

Hipóteses Básicas do modelo de regressão

COEFICIENTE DE DETERMINAÇÃO DA REGRESSÃO

Daí, a percentagem da variação explicada pela regressão é a razão da variação explicada para a variação total:

tal

VariaçãoTo

oExplicada

VariaçãoNã

tal

VariaçãoTo

=

tal

VariaçãoTo

plicada

VariaçãoEx

=

R

2

1

<

R

<

0

:

onde

SQT

SQE

1

=

SQT

SQE

SQT

=

SQT

SQR

=

R

2 2

(27)

Hipóteses Básicas do modelo de regressão

(28)

Hipóteses Básicas do modelo de regressão

Hipóteses Básicas do modelo de regressão

 

X

Interpretação: é o quanto da variabilidade total dos dados é explicada pelo modelo de regressão. Quanto maior o r2 mais a variação total de Y é reduzida pela introdução da v.

preditora X no modelo.       X b b Yˆ  01 r2=1 Y X Y         r2=0

Y

Y

ˆ

A variável preditora X é responsável por toda a variação nas observações Yi.

A v. X não ajuda na redução da variação de Yi com a Reg.

Linear                  

(29)

Estimação da variância (

Estimação da variância (

σ

σ

²)

²)

A variância, 2, dos erros, e

i, no modelo de regressão precisa ser estimado para obter uma indicação da variabilidade da distribuição de probabilidade de Y. Necessário para

inferências.

A variância de cada observação Yi para o nosso modelo de regressão é 2, a mesma de cada ei.

Precisamos calcular a soma de quadrados de desvios, considerando que cada Yi vem de diferentes distribuições de probabilidade com diferentes médias que dependem do nível de

Xi; as médias são estimadas por Yi(chapéu). Assim os desvios são os resíduos:

A soma de quadrados do erro (resíduo), SQE, é dada por:

Daí, o valor de 2 é calculado por:

onde k é o número de variáveis explicativas do modelo.(Regressão Simples k=1)

i i i Y Y e   ˆ

     n i i n i i i Y e Y SQE 1 2 1 2 ) ˆ ( 1 -k -n SQE 2

=

σ

(30)

Inferência na Análise de Regressão

Inferência na Análise de Regressão

Assumimos o modelo: Yi  0  1Xi i i1,..,n0 e 1 são os parâmetros;

Xi são constantes conhecidas, fixas.

(31)

Queremos fazer testes de hipóteses com relação.

0

β

:

H

0

=

β

:

H

i 1 i 0

Para realizar inferências sobre i, precisamos conhecer a sua distribuição amostral de probabilidade.

A distribuição amostral de b1 refere-se aos diferentes valores de b1 que seriam obtidos com muitas amostras para um mesmo nível da variável preditora X (constante).

Já conhecemos os estimadores pontuais de 0 e 1.

Inferências para

Inferências para

00

e

e

11

    2 2 1 1 ) ( i i i i n i i i X X n Y X Y X n b b0  Yb1X

(32)

Inferências para

Inferências para

00

e

e

11

Podemos estimar a variância amostral de β0 e β1 por:

(

)

=

)

β

(

s

2 i 2 X X σ 1 2

(

)

=

)

β

(

s

2 i 2 2 X X n X σ 0 2

(33)

Inferências para

Inferências para

00

e

e

11

• O objetivo aqui é testar se os valores são importantes para o modelo.

• O principal teste que será feito é se β1 = 0. Esse teste poderá ser realizado pois o estimador de β1 se distribui normalmente e conhecemos os seus valores de média e variância.

• Se β1 = 0 estará claro que não existirá relação linear entre as variáveis X e Y e o

modelo de regressão não será válido. Outra análise possível é que esse coeficiente não será importante para o modelo, porém, se isso ocorre o modelo linear não terá sentido. • Um outro teste importante é de β0 = 0. Fazer esse teste significa, da mesma forma, verificar se o valor estimado para β0 é importante para o modelo linear. Assim, se encontramos que β0 = 0 significa que o coeficiente linear encontrado pelo modelo não será relevante para a análise e poderá ser descartado. Se chegarmos à conclusão que β0 ≠ 0 significará que ele deve constar no modelo.

• Partindo da normalidade dos coeficientes βi a estatística de teste adequada para qualquer tamanho de amostra será a t de student.

(34)

Inferências para

Inferências para

00

e

e

11

• Logo, estaremos testando as seguintes hipóteses:

0

β

:

H

0

=

β

:

H

1 1 1 0

0

β

:

H

0

=

β

:

H

0 1 0 0

• Nossas estatísticas de teste serão:

2)

t(n

~

=

t

sβ(1β10)

2)

t(n

~

=

t

sβ(0β00) 0 * 0 * H se -rejeita ), 2 ; 2 / 1 ( | | H se -rejeita não ), 2 ; 2 / 1 ( | |       n t t Se n t t Se  

(35)

Inferências para

Inferências para

00

e

e

11

(36)

Inferências para

Inferências para

00

e

e

11

Já encontrar um coeficiente β0 = 0 significa que o valor encontrado com o método dos mínimos quadrado não fará diferença para a construção do modelo. Isso ocorrerá em casos onde a ordem de grandeza de β1 for muito maior que a de β0.

• Vamos supor um modelo em que se tenha E(Y | X) = 1000x + 0,9. A ordem de grandeza do coeficiente de X é muito maior que 0,9. Provavelmente, não fará diferença ter um

Referências

Documentos relacionados

A pesquisa “Estratégias para o varejo brasileiro – Reflexões sobre os anseios do consumidor” realizada pela Deloitte em 2010 apresentou de forma muito objetiva o que

Tudo começou com o Josué, um cara da FFLCH-História, que inclusive tinha mania de fazer uma oposição ferrada contra a minha gestão (dessa forma, alguns membros

Com o objetivo de verificar o comportamento dinâmico do trocador de calor, perturbações nas variáveis de entrada (temperatura, vazão e bypasses, das linhas quente

De fato, a aplicação das propriedades da regra variável aos estudos lingüísticos além da fonologia não constitui assunto tranqüilo, seja porque a variável passa a ser

Este trabalho se propõe a investigar as relações entre o jornalismo, a literatura e o cinema por meio da análise da obra O que é isso, companheiro?, de Fernando Gabeira (1979) e a sua

Processo de se examinar, em conjunto, os recursos disponíveis para verificar quais são as forças e as fraquezas da organização.

Nossos olhos se arregalaram por um momento, até que alguém resolveu, corajosamente, questionar: “Mas por quê?” E a resposta veio pronta: “Porque, meu filho, por mais que nós

Benetton (1999) apresenta o caráter de funcionalidade na Terapia Ocupacional como tendo sido assumido por muitos autores, pelos precurssores da profissão (Meyer, Simon e Schneider)