• Nenhum resultado encontrado

Slides - Introdução (parte 2)

N/A
N/A
Protected

Academic year: 2021

Share "Slides - Introdução (parte 2)"

Copied!
49
0
0

Texto

(1)

CE043 - GAMLSS

Silva, J.P; Taconeli, C.A.

(2)
(3)

Introdução

GAMLSS (Generalized aditive models for location, scale and shape) configura uma família de modelos de regressão (semi) paramétricos, contemplando uma grande variedade de distribuições, e em que qualquer parâmetro da distribuição pode ser modelado em função de covariáveis.

Permite modelar dados com dispersão não constante, diferentes níveis de assimetria e curtose, relações não lineares. . .

O pacote gamlss e pacotes complementares permitem ajustar modelos da classe GAMLSS para diferentes tipos e estruturas de dados.

(4)

Nesta aula vamos discutir alguns pontos da metodologia por meio de um exemplo referente aos preços de aluguel de imóveis em Munique, 1980 (data set rent, pacote gamlss).

Adicionalmente, vamos explorar, de maneira preliminar, recursos computacionais implementados na biblioteca gamlss do R.

Vamos ajustar uma sequência de modelos com nível crescente de complexidade, partindo de uma regressão linear.

Os slides apresentados na sequência são complementados com scripts em R, disponíveis na página da disciplina.

(5)

Exemplo - Modelagem dos preços de aluguel de

imóveis

(6)

A base de dados dispõe de informações de 1969 imóveis disponíveis para aluguel em nove variáveis, das quais cinco serão usadas na análise:

R: variável resposta, é o aluguel mensal (em Marcos alemães) menos o custo utilitário do imóvel;

Fl: Área construída, em metros quadrados;

A: Ano de construção;

H: Fator com dois níveis, se o imóvel tem (0) ou não (1) aquecimento central;

loc: um fator que classifica a locação do imóvel como abaixo da média (1), na média (2) ou acima da média (3).

(7)

Análise exploratória

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 40 60 80 100 120 0 500 1000 1500 2000 2500 3000 Fl R ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● 1900 1920 1940 1960 1980 0 500 1000 1500 2000 2500 3000 A R ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 1 0 500 1000 1500 2000 2500 3000 H R ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 1 2 3 0 500 1000 1500 2000 2500 3000 loc R

(8)

Não linearidade da relação entre a variável resposta e alguma(s) variáveis explicativas;

A variância dos valores de aluguel não é constante para diferentes valores das variáveis explicativas;

Distribuição dos valores de aluguel é assimétrica, e o nível de assimetria aparentemente varia conforme os valores das variáveis explicativas.

(9)
(10)

O primeiro modelo a ser ajustado é o de regressão linear, considerando resposta com distribuição Normal.

Considere y a variável resposta e x1, x2, ..., xr um conjunto de r

covariáveis avaliados em uma amostra de tamanho n.

O modelo de regressão linear fica definido, para uma amostra de tamanho n, por:

yi= β0+ β1xi1+ ... + βrxir+ i,

(11)

Modelo de regressão linear

O modelo de regressão linear pode ser representado na forma matricial por:

y = Xβ + ,

onde y = (y1, ..., yn)0 é o vetor de respostas, X é a matriz do modelo

n × p (p = r + 1), β = (β0, β1, ..., βr)0 é o vetor de parâmetros de

regressão e  = (1, 2, ..., n)0 o vetor de erros.

Uma forma equivalente (e mais flexível) de representar o modelo de regressão linear é a seguinte:

y|xind∼ N (µx, σ2),

(12)

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 x y

(13)

Modelo de regressão linear

O método de mínimos quadrados é usado na estimação dos

parâmetros do modelo (β0s);

O estimador de mínimos quadrados de β é o vetor ˆβ que minimiza

a soma de quadrados dos erros, dada por:

SQE(β) = (y − Xβ)0(y − Xβ).

O vetor ˆβ é obtido de forma analítica, resultando em:

ˆ

(14)

Sob a especificação do modelo de regressão linear, o estimador de mínimos quadrados é também o estimador de máxima

verossimilhança de β.

O estimador de máxima verossimilhança de σ2 é dado por:

ˆ

σ2= SQRes

n =

(y − X ˆβ)0(y − X ˆβ)

n ,

sendo viciado para σ2. Um estimador não viciado de σ2 é dado por:

s2 = SQRes

n − p =

(y − X ˆβ)0(y − X ˆβ)

(15)

Modelo de regressão linear

Voltando à análise dos dados de aluguéis de imóveis, o seguinte modelo de regressão linear é proposto:

y|x ∼ N ormal(µx, σ2),

em que

µx0+ β1× F l + β2× A + β3× I(H = 1)

+ β4× I(loc = 2) + β5× I(loc = 3),

sendo I(·) é a função indicadora, tal que, por exemplo, I(H = 1) = 1 para os imóveis sem aquecimento central (H = 1) e I(H = 1) = 0 para os imóveis com aquecimento central (H=0).

(16)

O modelo de regressão linear ajustado tem a seguinte expressão: ˆ µx= − 2775.04 + 8.84 × F l + 1.48 × A − 204.76 × I(H = 1) + 134.05 × I(loc = 2) + 209.58 × I(loc = 3). Além disso: log(ˆσ) = 5.73165, tal que ˆσ = 308.48.

(17)
(18)

Modelos lineares generalizados configuram extensões dos modelos de regressão linear, apresentando como diferenciais:

Permitem modelar respostas com distribuição pertencente à família exponencial;

A relação entre a média de y e as covariáveis é linearizada por meio de uma função de ligação monotônica g(·);

A estimação dos parâmetros do modelo se dá por um algoritmo de mínimos quadrados ponderados iterativamente.

(19)

Modelo linear generalizado

Uma variável aleatória y tem distribuição pertencente à família exponencial se sua função (densidade) de probabilidade puder ser expressa na seguinte forma:

f (y; µ, φ) = exp

yθ − b(θ)

φ + c(y, φ)



,

em que θ e φ são parâmetros canônico e de dispersão, respectivamente.

A média e a variância de y são dadas, repsectivamente, por

E(y) = b0(θ) e V ar(y) = φV (µ), onde V (µ) = b00[θ(µ)] é a chamada

(20)

Dentre as principais distribuições contempladas pela teoria de MLG estão a normal (V (µ) = 1), binomial (V (µ) = µ(1 − µ)), Poisson

(V (µ) = µ), gamma (V (µ) = µ2) e normal inversa (V (µ) = µ3).

Um modelo linear generalizado pode ser representado, genericamente, da seguinte forma:

y|xind∼ f (µx, φ),

em que f (·) denota uma particular distribuição da família exponencial,

φ é o parâmetro de dispersão e

(21)

Modelo linear generalizado

Na aplicação dos dados sobre os valores de aluguel de imóveis, vamos considerar a distribuição gamma, que é uma alternativa para a modelagem de dados contínuos assimétricos.

Uma variável aleatória com distribuição gamma de média µ e parâmetro de dispersão φ tem a função densidade de probabilidade dada por: f (y; µ, φ) = y 1 φ−1exp y φµ  (φµ)1/φγ(1/φ) , y > 0, µ > 0, φ > 0.

No pacote gamlss a distribuição gamma é parametrizada pelo

(22)

Como µ > 0, vamos usar a função de ligação logarítmica na análise dos valores dos imóveis, de forma que o modelo a ser ajustado fica especificado por:

y|xind∼ gamma(µx, σ), y > 0, µ > 0, σ > 0,

com

log(µx) =β0+ β1× F l + β2× A + β3× I(H = 1)

(23)

Modelo linear generalizado

−0.5 0.0 0.5 1.0 1.5 2.0 2 4 6 8 x y

Figura 3: Ilustração de modelo de regressão gamma com função de ligação logarítmica.

(24)

O ajuste do modelo linear generalizado com resposta gamma resulta

em y|x ∼ gamma(ˆµx, ˆσ), tal que:

log(ˆµx) =2.8649 + 0.0106 × F l + 0.0015 × A − 0.3001 × I(H = 1)

+ 0.1907 × I(loc = 2) + 0.2641 × I(loc = 3), com

log(ˆσ) = −0.9822,

tal que ˆσ = 0.3745.

Informações mais detalhadas sobre o ajuste encontram-se no script disponível na página da disciplina.

(25)
(26)

Modelos generalizados aditivos configuram extensões dos MLGs em que o efeito de ao menos uma das covariáveis é incorporado ao preditor linear através de uma função suavizadora (não

paramétrica).

Um modelo generalizado aditivo pode ser representado, de forma geral, por:

y|xind∼ f (µx, φ),

onde

g(µx) = β0+ β1x1+ ... + βjxj+ ... + sj+1(xj+1) + ... + sr(xr),

(27)

Modelo generalizado aditivo

−0.5 0.0 0.5 1.0 1.5 2.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 x y

Figura 4: Ilustração de modelo de regressão gamma com função suave para a média.

(28)

Modelos aditivos são mais flexíveis do que modelos totalmente paramétricos, permitindo lidar melhor com relações não lineares entre covariáveis e a resposta.

Os efeitos das covariáveis inseridas ao preditor por meio de funções suaves podem ser interpretados usando gráficos apropriados; O pacote gamlss oferece diferentes alternativas de funções suaves a serem usadas em modelos aditivos, que serão abordadas

posteriormente.

Na aplicação referente aos preços de aluguel vamos considerar a inclusão de efeitos aditivos (não paramétricos) para a área e o ano de construção do imóvel.

(29)

Modelo generalizado aditivo

O modelo generalizado aditivo a ser ajustado aos dados de preços de aluguel, considerando resposta gamma, é especificado da seguinte forma:

y|xind∼ gamma(µx, σ), y > 0, µ > 0, σ > 0,

com

log(µx) =β0+ s1(F l) + s2(A) + β1× I(H = 1)

+ β2× I(loc = 2) + β3× I(loc = 3),

em que s1 e s2 são suavizadores não paramétricos aplicados às variáveis

(30)

O modelo ajustado fica dado por:

log(ˆµx) =3.0851 + s1(F l) + s2(A) − 0.3008 × I(H = 1)

+ 0.1887 × I(loc = 2) + 0.2720 × I(loc = 3), com

log(ˆσ) = −1.0019,

(31)
(32)

Até o momento consideramos apenas modelos em que a média (parâmetro de locação) da distribuição varia conforme os valores das

covariáveis;

Modelos mais gerais permitem incluir covariáveis também na modelagem de outros parâmetros da distribuição (por exemplo, para o parâmetro de escala).

Para a distribuição gamma, por exemplo, temos que V ar(y) = σ2µ2,

ou seja, σ =p

V ar(y)/µ é o coeficiente de variação de y.

Podemos modelar σ em função de covariáveis, permitindo que o coeficiente de variação varie conforme os valores de alguma (ou algumas) covariáveis.

(33)

Modelo generalizado aditivo duplo

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 x y

Figura 5: Ilustração - distribuição normal com média e variância dependentes de x.

(34)

Uma formulação geral para o modelo, neste caso, seria da seguinte forma: y|xind∼ D(µx, σx), onde g1x) = β10+ β11x1+ ... + β1j1xj1 + ... + sj1+1(xj1+1) + ... + sr1(xr1) g2x) = β20+ β21x1+ ... + β2j2xj2 + ... + sj2+1(xj2+1) + ... + sr2(xr2),

em que D representa alguma distribuição de probabilidades em que seus dois parâmetros (µ e σ) são funções de covariáveis, inseridas no preditor por meio de termos paramétricos ou não paramétricos.

(35)

Modelo generalizado aditivo duplo

Vamos retomar a análise dos dados de preços de aluguel com o ajuste de modelos com resposta gamma e normal inversa, inserindo covariáveis também na modelagem do parâmetro de escala.

Em ambos os casos vamos considerar função de ligação logarítmica tanto para µ quanto para σ, produzindo os seguintes modelos:

log(µx) =β10+ s11(F l) + s12(A) + β11× I(H = 1)

+ β12× I(loc = 2) + β13× I(loc = 3),

e

log(σx) =β20+ s21(F l) + s22(A) + β21× I(H = 1)

(36)

O modelo ajustado com resposta gamma (que produziu menor AIC do que com resposta normal inversa) é o seguinte:

log(ˆµx) =2.8844 + s11(F l) + s12(A) − 0.2918 × I(H = 1)

+ 0.1938 × I(loc = 2) + 0.2734 × I(loc = 3), com

log(ˆσx) =5.9225 + s21(F l) + s22(A) + 0.0659 × I(H = 1)

(37)

Modelo generalizado aditivo para locação, escala e

forma

(38)

Os modelos considerados anteriormente baseiam-se em distribuições com dois parâmetros, permitindo modelar locação (média) e escala (dispersão) da distribução da variável em função de covariáveis.

A metodologia GAMLSS contempla distribuições de probabilidade com até quatro parâmetros, permitindo modelar outros parâmetros da distribuição, associados, por exemplo, à forma da distribuição (assimetria, curtose,. . . ).

Desta forma, dispõe-se de uma ampla variedade de modelos para a análise de dados com distribuições de diferentes formas.

(39)

Modelo generalizado aditivo para locação, escala e

forma

6 8 10 12 14 16 18 0 5 10 15 20 25 x y

Figura 6: Ilustração - distribuição com locação, dispersão e forma dependentes de x.

(40)

Um modelo generalizado aditivo para locação, escala e forma é definido, de forma geral, por:

y|xind∼ D(µx, σx, νx, τx), onde g1x) = β10+ β11x1+ ... + β1j1xj1+ ... + sj1+1(xj1+1) + ... + sr1(xr1) g2x) = β20+ β21x1+ ... + β2j2xj2 + ... + sj2+1(xj2+1) + ... + sr2(xr2) g3x) = β30+ β31x1+ ... + β3j3xj3 + ... + sj3+1(xj3+1) + ... + sr3(xr3) g4x) = β40+ β41x1+ ... + β4j4xj4 + ... + sj4+1(xj4+1) + ... + sr4(xr4) ,

(41)

Modelo generalizado aditivo para locação, escala e

forma

O pacote gamlss dispõe de dezenas de distribuições implementadas. Além disso:

É possível ao usuário implementar novos modelos;

Versões truncadas ou censuradas podem ser definidas a partir das distribuições originais;

Pode-se criar novas distribuições a partir de misturas das distribuições originais;

Distribuições discretas podem ser criadas a partir de distribuições originalmente contínuas;

Distribuições com suporte nos intervalos (0, ∞) ou (0, 1) podem ser criadas a partir de variáveis com suporte no intervalo (−∞, ∞).

(42)

Termos aditivos podem ser adicionados ao modelo de diferentes foras, usando, por exemplo:

Penalized B-splines (P-splines); Monotone P-splines;

Cycle P-splines;

Varying coefficient P-splynes; Cubic smoothing P-splynes; Loess curve fitting;

Fractional polynomials; Random effects; Ridge regression;

(43)

Modelo generalizado aditivo para locação, escala e

forma

Quando o modelo especificado contém apenas termos paramétricos, o método da máxima verossimilhança é usado na estimação dos parâmetros;

Em situações mais gerais (ex: para modelos incluindo suavizadores) o método da máxima verossimilhança penalizada é aplicado;

O pacote gamlss dispõe de dois algoritmos distintos para o ajuste dos modelos: CG (Cole e Green) e RS (Rigby e Stasinopoulos), que podem ainda ser usados de forma combinada.

(44)

Dando sequência à análise dos dados de preços de aluguel, vamos considerar, como alternativa à distribuição gamma, a distribuição Box-Cox Cole e Green (BCCGo);

A distribuição BCCGo tem três parâmetros (µ, σ e τ ), sendo τ o parâmetro de forma da distribuição;

Cada um dos parâmetros pode ou não ser modelado em função de covariáveis. Além disso, diferentes conjuntos de covariáveis podem ser incluídos para cada parâmetro;

Modelos com diferentes especificações (distribuições, termos aditivos, covariáveis. . . ) podem ter seus ajustes comparados usando o critério de informação de Akaike (AIC) ou Akaike generalizado (GAIC), dentre outros.

(45)

Modelo generalizado aditivo para locação, escala e

forma

No modelo especificado para esta análise, todas as covariáveis foram incluídas na modelagem dos três parâmetros (µ, σ e ν).

Como funções de ligação para cada parâmetro adotou-se o default do pacote gamlss para a distribuição BCCGo (log, log e identidade, respectivamente);

Novamente, funções suaves foram consideradas para as variáveis F l e A.

(46)

Dessa forma, o seguinte modelo foi proposto:

y|xind∼ BCCGo(µx, σx, νx),

onde

log(µx) =β10+ s11(F l) + s12(A) + β11× I(H = 1)

+ β12× I(loc = 2) + β13× I(loc = 3),

log(σx) =β20+ s21(F l) + s22(A) + β21× I(H = 1)

+ β22× I(loc = 2) + β23× I(loc = 3),

(47)

Modelo generalizado aditivo para locação, escala e

forma

Como resultado temos o seguinte modelo ajustado:

log(ˆµx) =2.0285 + s11(F l) + s12(A) − 0.3213 × I(H = 1)

+ 0.1853 × I(loc = 2) + 0.2742 × I(loc = 3),

log(ˆσx) =6.6534 + s21(F l) + s22(A) + 0.0819 × I(H = 1)

− 0.0851 × I(loc = 2) − 0.1410 × I(loc = 3),

ˆ

νx= − 3.1601 + s31(F l) + s32(A) − 0.2866 × I(H = 1)

(48)
(49)

Por que GAMLSS?

GAMLSS configura uma metodologia flexível para análise de regressão;

Permite especificar diversas distribuições de probabilidades para a variável resposta;

Todos os parâmetros da distribuição podem ser modelados em função de covariáveis;

Diferentes tipos de termos aditivos podem ser incluídos nos preditores de cada parâmetro;

GAMLSS estende diversas outras metodologias (como LM, GLM e GAM) permitindo modelar dados com super-dispersão, excesso de zeros, diferentes níveis de assimetria e curtose. . .

Referências

Documentos relacionados

Caso o óleo residual de fritura seja aproveitado para a geração de um novo produto, existe também uma cadeia logística composta por atores poluentes, ou seja, tanto o processo de

Grande parte das professoras revela que apenas vê o PPP da unidade como um instrumento burocrático a ser entregue para a Secretaria de Educação no início do ano e não o utiliza

Noutros termos, a pretensão diz respeito a verdadeiro ataque à norma jurídica em tese, e seu acolhimento possuiria efeitos erga omnes , que, na hipótese, são reservados

144 Figura 95: final da primeira repetição da Valsa Venezuelana e os primeiros cinco compassos da segunda repetição com a entrada do bandolim, segundo o arranjo do Trio

Avaliou-se o efeito fungitóxico in vitro de óleos essenciais de copaíba (Copaifera sp.) E eucalipto (Eucalyptus sp.) sobre o crescimento micelial de Alternaria

De acordo com Morais (2012), “não prevendo a lei qualquer procedimento especial dirigido á fixação do quantitativo da matéria coletável dos contribuintes

O presente trabalho trata da Descrição da Prática de Ensino Supervisionada (PES), contendo experiência de ensino/aprendizagem nos 1º Ciclo de Ensino Básico e 2º

Jose Bene Dias de Medeiros... 31 de marco do