Polinómios fracionários na modelação do preço de imóveis

(1)

Universidade de Aveiro Departamento de Matemática 2011

Tânia Baptista

Polinómios fracionários na modelação

(2)

(3)

Universidade de Aveiro Departamento de Matemática 2011

Tânia Baptista

Polinómios fracionários na modelação

Guedes

do preço de imóveis

Dissertação apresentada à Universidade de Aveiro para cumprimento dos requi-sitos necessários à obtenção do grau de Mestre em Matemática e Aplicações, re-alizada sob a orientação científica da Professora Doutora Gladys Castillo Jordán e co-orientação da Professora Doutora Isabel Maria Simões Pereira, professoras auxiliares do Departamento de Matemática da Universidade de Aveiro.

(4)

(5)

(6)

(7)

o júri

presidente Prof. Doutora Andreia Oliveira Hall

Professora Associada do Departamento de Matemática da Universidade de Aveiro

arguente Prof. Doutora Ana Maria Perfeito Tomé

Professora Associada do Departamento de Electrónica, Telecomunicações e Informática da Universidade de Aveiro

orientadora Prof. Doutora Gladys Castillo Jordán

Professora Auxiliar do Departamento de Matemática da Universidade de Aveiro

co-orientadora Prof. Doutora Isabel Maria Simões Pereira

(8)

(9)

agradecimentos Em primeiro lugar gostaria de agradecer a todos que permitiram a realização deste trabalho, à minha orientadora Professora Gladys, à Professora Isabel que contribuiu para a sua finalização e a todos os participantes do projeto “Casa Sapo Real-Estate Analytics” pela partilha de informação e experiência.

Gostaria também de deixar um grande obrigado aos meus pais, sem vocês nada disto seria possível.

Queria ainda agradecer a duas pessoas muito especiais que embora sem estarem presentes fisicamente, contribuíram e muito com o exemplo de vida que me deram.

Deixo aqui também uma palavra de apreço a todos os meus familiares, amigos e colegas de trabalho que de uma ou outra forma ajudaram a manter a moral em cima durante a realização deste trabalho.

Por último, um agradecimento muito especial ao João pela paciência, com-panhia e motivação ao longo da realização deste trabalho.

(10)

(11)

palavras-chave Regressão Linear, Regressão Não Linear, Polinómios Fracionários, “Data min-ing”, Mercado Imobiliário, CRISP-DM

resumo O mercado imobiliário tem características únicas, os bens que se transacionam são imóveis e de grande durabilidade. É particularmente difícil atribuir o valor comercial a um item deste mercado devido à sua heterogeneidade. O preço que um comprador está disposto a pagar por este tipo de bens é influenciado por inúmeros fatores: a sua localização, tipologia, o que o rodeia, o estado em que se encontra, entre outros.

Durante vários anos foram feitas tentativas para modelar o preço de um imóvel e poder assim atribuir um valor de forma automática a este tipo de items. Um dos grandes problemas desta tarefa prende-se com a falta de linearidade na relação entre o preço de um imóvel e os fatores que o condicionam. Neste trabalho é apresentada uma abordagem baseada em polinómios fracionários que visa lidar com essa falta de linearidade. Todo o processo é feito com base na metodologia CRISP-DM que se pretende expor como uma forma de homogeneizar a implementação de processos de “data mining”.

(12)

(13)

keywords Linear Regression, Nonlinear Regression, Fractional Polynomials, Data mining, Real Estate Market, CRISP-DM

abstract The Real Estate Market has unique features, the transacted items are static and of great durability. Is particulary hard to define the comercial value in this market due to it’s heterogeneity. The price a buyer is willing to pay is affected by a large amount of factors: the location, number of rooms, what’s around it, the state of conservation, among others.

For several years attempts were maid to model the price of houses and with that attribute automatically a value to this kind of items. The major problem in this task is the lack of linearity between the price and the features that are conditioning it. In this thesis an approach based in fractional polynomials is presented to deal with this nonlinearity. The whole process is done based in the CRISP-DM methodology, that is intended to be presented as a way of homogenize the implementation of data mining processes.

(14)

(15)

Conte´

udo

1 Introdu¸cão 1 1.1 Contexto . . . 1 1.2 Organiza¸cão . . . 2 2 Modelos de Regressão 5 2.1 Regressão Linear . . . 6

2.1.1 M´etodo dos M´ınimos Quadrados . . . 7

2.1.2 Regress˜ao Linear Multivariada . . . 10

2.2 Regress˜ao N˜ao Linear . . . 12

2.2.1 Polin´omios Fracion´arios . . . 12

2.2.2 Teste de Raz˜ao de Verosimilhan¸ca . . . 13

2.2.3 Procedimento de teste fechado - Algoritmo RA2 . . . 14

2.2.4 Procedimento sequencial . . . 16

2.2.5 Polin´omios Fracion´arios Multivariados . . . 16

2.2.6 Algoritmo MF P - Exemplo . . . 17

3 Data mining 21 3.1 A metodologia CRISP-DM . . . 22

3.1.1 Compreens˜ao do neg´ocio . . . 23

3.1.2 Compreens˜ao dos dados . . . 23

3.1.3 Prepara¸c˜ao de dados . . . 23

3.1.4 Modela¸c˜ao . . . 24

3.1.5 Avalia¸c˜ao . . . 24

3.1.5.1 M´etodos de Avalia¸c˜ao do Desempenho . . . 25

3.1.5.2 Medidas de Avalia¸c˜ao . . . 26

3.1.6 Desenvolvimento . . . 27

4 Estudo Experimental 29 4.1 Compreens˜ao do neg´ocio . . . 29

(16)

4.3 Prepara¸cão de dados . . . 30 4.4 Modela¸cão e Avalia¸cão . . . 35

5 Notas Finais 41

Anexos 45

A Descri¸c˜ao das vari´aveis 47

B C´odigo em R 49

(17)

Lista de Figuras

2.1 Diagrama de dispers˜ao . . . 7

2.2 Reta de ajustamento . . . 7

3.1 Processo de “data mining” . . . 21

3.2 Metodologia CRISP-DM . . . 22

3.3 Divis˜ao “Hold-Out” . . . 25

3.4 “Hold-Out” . . . 25

3.5 Valida¸c˜ao Cruzada . . . 26

4.1 Extra¸c˜ao dos im´oveis de Aveiro . . . 30

4.2 Operador Trim . . . 30

4.3 Filtros de valores omissos e Neg´ocio . . . 31

4.4 Natureza . . . 31

4.5 Filtros segundo ´Areas e Tipologia . . . 33

4.6 Filtros segundo ´Areas e Tipologia . . . 33

(18)

(19)

Lista de Tabelas

4.1 Tipologia - CodigoTipologia . . . 32

4.2 Intervalos ´Area/Tipologia . . . 33

4.3 Caracter´ısticas retiradas do campo DescriptionPT . . . 35

4.4 Combina¸c˜oes de atributos . . . 36

4.5 Valores de R2 nas várias experiências com regressão linear multivariada . . 37

4.6 Valores de MAD nas várias experiências com regressão linear multivariada 37 4.7 Valores de R2 e MAD - média usando regressão linear múltipla . . . 38

4.8 Valores de R2 _{e MAD nas várias experiências com polinómios fracionários} múltiplos . . . 39

(20)

(21)

Lista de Algoritmos

1 RA2 . . . 15

2 Procedimento Sequencial . . . 16

3 M F P . . . 17

(22)

Cap´ıtulo 1

Introdu¸

c˜

ao

1.1 Contexto

O mercado de habita¸cão tem especifica¸cões muitos particulares quando comparado com outros mercados de bens e servi¸cos. Os bens transacionados são caracterizados pela sua heterogeneidade, imobilidade e durabilidade, por serem simultaneamente de consumo e de investimento, por terem um custo elevado e até um certo “status” associado à sua posse.

A heterogeneidade vem da quantidade de atributos distintos que podemos atribuir a um imóvel como responsáveis na defini¸cão do seu pre¸co. A imobilidade destes bens é também um fator de peso na hora da escolha, a distância ao emprego, às escolas das crian¸cas e a servi¸cos, influencia o valor que o comprador está disposto a dar em troca de determinado imóvel. A durabilidade, o facto de constituir um investimento, de ser um bem caro e de estar associado a determinado “status” para o futuro proprietário, fazem com que a atri-bui¸cão de valor a cada caracter´ıstica do bem seja determinante para a decisão de compra.

Com todos estes pormenores a ter em conta, torna-se dif´ıcil encontrar uma forma de atribuir automaticamente o valor a um im´ovel. Pode ler-se um pouco mais sobre este mercado em [3].

Como vimos, existem inúmeros fatores que influenciam o valor que um determinado com-prador está disposto a pagar por um bem deste tipo. Podemos subdividi-los em três grupos: fatores gerais, macrolocaliza¸cão e microlocaliza¸cão. Os fatores gerais prendem-se com a dimensão/crecimento da cidade onde se localiza o imóvel e também com a conje-tura e fatores institucionais. Já o grupo da macrolocaliza¸cão contém as acessibilidades e rede de transportes,a densidade populacional e fatores urban´ısticos. Por fim ao n´ıvel da microlocaliza¸cão temos a acessibilidade a servi¸cos, o ajustamento aos interesses pessoais,

(23)

as amenidades, a vizinhan¸ca e os atributos do pr´oprio im´ovel.

O pre¸co hedônico de determinado produto é definido como o pre¸co impl´ıcito dos atributos que definem esse produto. Através dos pre¸cos observados de diferentes produtos e das quantidades de cada uma das caracter´ıstica que lhes está associada é poss´ıvel definir o seu pre¸co.

Segundo [8], também o pre¸co de um imóvel podia ser representado como uma fun¸cão dos seus atributos. Na aproxima¸cão hedónica, a habita¸cão é caracterizada pelos atributos já descritos e assume-se que cada comprador escolhe o imóvel que maximiza valores para esses atributos, dadas as restri¸cões de rendimentos, pre¸co da habita¸cão e impostos relacionados.

Para encontrar o valor associado a cada atributo podemos recorrer à estima¸cão dessa fun¸cão hedônica, a primeira formaliza¸cão em termos de mercado imobiliário foi proposta em [12].

Seja x = (x1, x2, . . . , xN) um conjunto de atributos associados a um im´ovel y, ent˜ao o

pre¸co desse imóvel será uma fun¸cão de x, p(x).

Como não se conhece a forma funcional da fun¸cão hedónica de pre¸cos recorre-se a métodos de estima¸cão (ou aproxima¸cão) dessa fun¸cão. A forma mais usual de obter esta fun¸cão é a regressão linear, ou seja,

p(x) = xβ + ε (1.1)

onde β = (β1, β2, . . . , βN) é o vetor dos pesos atribu´ıdos às caracter´ısticas do imóvel e ε

uma componente aleat´oria.

Mas na maioria das vezes esta abordagem não se adequa à resolu¸cão do problema em causa. Nesta disserta¸cão é proposta a utiliza¸cão de um método de regressão que lida com a não linearidade das rela¸cões entre os atributos e o valor do imóvel, baseado em fun¸cões de polinómios fracionários.

1.2 Organiza¸

c˜

ao

Esta disserta¸cão é constitu´ıda por 5 cap´ıtulos. Neste primeiro pretende-se contextualizar o estudo levado a cabo ao longo desta disserta¸cão.

(24)

No Cap´ıtulo 2 faz-se uma descri¸cão do problema da regressão e são apresentadas diferentes abordagens ao mesmo. Aqui é exposta alguma teoria que servirá de sustenta¸cão a todo o trabalho.

Em seguida, no Cap´ıtulo 3, é descrito o processo de “data mining” e as várias tarefas e metodologias que envolve este processo. Em particular é exposto o procedimento CRISP-DM, desenhado para normalizar os processos de “data mining”.

No Cap´ıtulo 4 é descrito todo o processo de tratamento dos dados e consecutivo estudo experimental que deu origem a esta disserta¸cão. São ainda expostos os resultados obtidos e sua discussão.

Por último, no Cap´ıtulo 5, são descritas as conclusões ao trabalho realizado e dos resul-tados obtidos, assim como algumas sugestões de trabalho futuro.

(25)

(26)

Cap´ıtulo 2

Modelos de Regress˜

ao

A análise de regressão tem imensas aplica¸cões em inúmeras áreas da ciência desde as en-genharias às ciências sociais.

É uma das técnicas estat´ısticas mais usadas e consiste em investigar e modelar a rela¸cão entre uma variável aleatória dependente y e uma ou mais variáveis independentes x1, x2,

. . . , xN. Em geral, o material exposto neste cap´ıtulo foi extra´ıdo de [5], [7] e [13].

Os modelos de regressão têm inúmeras aplica¸cões, das quais se destacam:

Descrever os dados - um modelo de regressão é uma forma bastante útil de sumariar os dados, substituindo o uso de inúmeros gráficos e tabelas;

Estimar parâmetros - muitos modelos assemelham-se a regressões, recorrendo a técnicas análise de regressão é poss´ıvel estimar os parâmetros de interesse;

Previsão - muitas aplica¸cões envolvem previsão da variável resposta, isto pode trazer alguns problemas relacionados com o erro do modelo;

Controlo - quando a rela¸cão descrita pelo modelo de regressão é de causa-efeito, a equa¸cão do modelo pode ser usado no controlo de processos.

Um modelo de regressão é um modelo estat´ıstico no qual se supõe que o valor esperado de uma variável depende do valor observado de outra, ou de outras variáveis, através de uma rela¸cão funcional com uma forma espec´ıfica; ou seja, é um modelo que se desenvolve a partir de uma equa¸cão da forma

E[y|x] = g(x), com x ∈ Rp, p ≥ 1. (2.1) À equa¸cão anterior dá-se o nome de equa¸cão de regressão. A variável x é uma variável observável, determin´ıstica, supostamente observada sem erro e é designada por variável

(27)

independente, preditora ou regressora. A variável y é chamada de variável resposta. Trata-se de uma variável aleatória obTrata-servável, cujo valor esperado condicionado pelo valor de x, é expresso como uma fun¸cão de g(x). A natureza aleatória de y é formalizada considerando os desvios aleatórios que a variável pode assumir em rela¸cão ao valor médio condicional. Assim, o modelo de regressão é caraterizado por

y= g(x) + ε, com E[ε] = 0. (2.2)

A variável ε é uma variável aleatória não observável, chamada desvio ou erro do modelo. A fun¸cão de regressão g(x) é especificada através de um conjunto de parâmetros.

O modelo de regressão diz-se linear quando é linear nos parâmetros e não linear em caso contrário. Um modelo de regressão diz-se simples quando se supõe um único regressor e diz-se múltiplo quando se admite a existência de diversos regressores, que representam as componentes de x.

Na aplica¸cão de um modelo de regressão é suposto que ele modele bem a rela¸cão existente entre as componentes de observa¸cão do tipo (xi, yi), i = 1, . . . , N. Logo, tendo em conta

uma amostra (xi, yi), i = 1, . . . , N as variáveis xi e yi deverão verificar a equa¸cão de

regressão E[yi|xi] = g(xi), para todo i = 1, . . . , N. A forma da fun¸cão g é especificada,

mas os parâmetros do modelo são sempre desconhecidos e serão estimados com base nas observa¸cões (xi, yi), i = 1, . . . , N.

Nota¸c˜ao

Em modelos lineares é muito comum usar letras minúsculas para denotar indiferentemente as variáveis aleatórias e as suas realiza¸cões. Assim yi tanto poderá representar a variável

aleatória como o seu valor observado. As letras maiúsculas são, em geral, reservadas para designar matrizes; os vetores serão representados por letras minúsculas a cheio, como por exemplo em x.

2.1 Regress˜

ao Linear

Comecemos por considerar o caso mais simples, isto é, com uma única variável inde-pendente x. Os pares (xi, yi), i = 1, . . . , N podem ser representados num diagrama de

dispersão, Figura 2.1. O objetivo é ajustar uma reta que se aproxime o mais poss´ıvel às observa¸cões, Figura 2.2.

(28)

Figura 2.1: Diagrama de dispers˜ao Figura 2.2: Reta de ajustamento

Num modelo de regressão linear simples, considera-se que se dispõe de um conjunto de N pares de observa¸cões (x1, y1), . . . , (xN, yN) tais que, a rela¸cão entre a variável resposta y

e a sua preditora x pode ser descrita em termos lineares por

yi = β0+ β1xi+ εi, i = 1, . . . , N (2.3)

onde os erros εi têm valor médio nulo, variância constante σ2 e são não correlacionados.

Assim,

E[yi|xi] = β0+ β1xi (2.4)

e

V[yi|xi] = σ2, i = 1, . . . , N. (2.5)

A equa¸cão de regressão é a reta

E[yi|xi] = β0+ β1xi (2.6)

cujos parˆametros β0 – valor da ordenada na origem – e β1 – declive da reta – se pretendem

estimar a partir das observa¸c˜oes (x1, y1), . . . , (xN, yN).

2.1.1 M´

etodo dos M´ınimos Quadrados

Sem que sejam assumidas mais hip´oteses, para encontrar os valores de β0 e β1 recorre-se

ao método dos m´ınimos quadrados, [5]. Nesse sentido, o objectivo é procurar a reta “mais próxima” do conjunto das observa¸cões, determinando os estimadores dos coeficientes de regressão β0 e β1 que permitam minimizar a soma dos quadrados das distâncias entre os

pontos observados e a reta, medindo as distˆancias na vertical.

Para isso, minimiza-se a soma dos quadrados dos desvios, dada por

L= N X i=1 ε2_i = N X i=1 [yi− β0 − β1xi]2 (2.7)

(29)

onde N representa o número de observa¸cões. Note-se que se recorre ao uso do quadrado porque a soma dos desvios é nula, PN

i=1εi = 0.

O primeiro passo a tomar é derivar a expressão (2.7) em rela¸cão aos parâmetros β0 e β1

∂L(β0, β1) ∂β0 = −2 N X i=1 [yi− β0− β1xi] (2.8) ∂L(β0, β1) ∂β1 = −2XN i=1 [yi− β0− β1xi]xi (2.9)

Particularizando e igualando as derivadas parciais a zero obt´em-se

−2 N X i=1 [yi− ˆβ0− ˆβ1xi] = 0 (2.10) −2 N X i=1 [yi− ˆβ0− ˆβ1xi]xi = 0 (2.11)

Simplificando, obtˆem-se as equa¸c˜oes normais de m´ınimos quadrados

N ˆβ0+ ˆβ1 N X i=1 xi = N X i=1 yi (2.12) ˆ β0 N X i=1 xi+ ˆβ1 N X i=1 x2_i = N X i=1 xiyi (2.13) de onde ˆ β0 = PN i=1yi N − ˆ β1PNi=1xi N = ¯y − ˆβ1¯x (2.14) onde ¯x = 1 N PN

i=1xi e ¯y = _N1 PNi=1yi s˜ao as m´edias das amostrais das componentes xi e yi.

Considerando as expressões (2.12), (2.13) e (2.14) obtém-se a seguinte rela¸cão ˆ β1 N X i=1 x2_i = N X i=1 xiyi− ˆβ0 N X i=1 xi = XN i=1 xiyi−(¯y − ˆβ1¯x) N X i=1 xi = XN i=1 xiyi−¯y N X i=1 xi− ˆβ1¯x) N X i=1 xi = XN xy − N¯x¯y − N ˆβ ¯x2;

(30)

ent˜ao vem, ˆ β1( N X i=1 x2_i − N¯x2) = N X i=1 xiyi− N¯x¯y e portanto, ˆ β1 = PN i=1xiyi− N¯x¯y PN i=1x2i − N¯x2 . (2.15)

A ˆβ0 e ˆβ1 chamamos estimadores de m´ınimos quadrados, e com eles obt´em-se a reta de

regress˜ao ajustada, ˆyi = ˆβ0+ ˆβ1xi, i= 1, . . . , N.

Recorrendo agora a uma nota¸c˜ao mais usual temos

¯x = 1 N N X i=1 xi (2.16) ¯y = 1 N N X i=1 yi (2.17) Sxx = N X i=1 x2_i − ( PN i=1xi)2 N (2.18) Syy = N X i=1 y2_i −( PN i=1yi)2 N (2.19) Sxy = N X i=1 xiyi− N¯x¯y (2.20)

onde Sxx e Syy são as somas dos quadrados dos desvios das médias e Sxy é a soma dos

produtos cruzados dos desvios de x e y.

Os estimadores de β0 e β1 na nota¸c˜ao anterior s˜ao dados por

ˆ β1 = Sxy Sxx (2.21) ˆ β0 = ¯y − ˆβ1¯x (2.22)

Quando se considera, adicionalmente que εi ∼ N(0, σ2), i = 1, . . . , N, os estimadores de

(31)

2.1.2 Regress˜

ao Linear Multivariada

Como se referiu, um modelo de regressão que envolva mais do que uma variável preditora é chamado modelo de regressão linear multivariado e pode ser escrito da seguinte forma

y = β0+ β1x1+ . . . + βnxn+ ε (2.23)

onde n é o número de variáveis regressoras, βj, j = 1, . . . , n são os coeficientes de regressão

e ε uma componente aleat´oria.

Este modelo descreve um hiperplano no espa¸co n-dimensional. Cada βj, j = 1, . . . , n

representa a altera¸c˜ao esperada em y por unidade alterada em xj quando as restantes

variáveis preditoras são mantidas constantes, por esta razão denominam-se regularmente os βj, j = 1, . . . , n de coeficientes parciais de regressão.

Para encontrar os valores de βj, j = 1, . . . , n recorre-se novamente ao m´etodo dos m´ınimos

quadrados. Neste caso pretende-se encontrar um hiperplano de regressão que será aquele que minimiza a distância das observa¸cões ao hiperplano, segundo o eixo dos yy.

A soma dos quadrados dos desvios ´e dada por

L= N X i=1 ε2_i = N X i=1 [yi− β0− n X j=1 βjxij]2 (2.24)

Derivando (2.24) em rela¸c˜ao a cada βj, j = 1, . . . , n e igualando os resultados a 0, obtˆem-se

as seguintes equa¸c˜oes normais

N ˆβ0+ ˆβ1 N X i=1 xi1+ ˆβ2 N X i=1 xi2+ . . . + ˆβn N X i=1 xin = N X i=1 yi (2.25) ˆ β0 N X i=1 xi1+ ˆβ1 N X i=1 x2_i1+ ˆβ2 N X i=1 xi1xi2+ . . . + ˆβn N X i=1 xi1xin = N X i=1 xi1yi (2.26) ... ˆ β0 N X i=1 xin+ ˆβ1 N X i=1 xinx2i1+ ˆβ2 N X i=1 xinxi2+ . . . + ˆβn N X i=1 x2_in = N X i=1 xinyi (2.27)

A solu¸cão destas n + 1 equa¸cões são os estimadores de m´ınimos quadrados ˆβ0, ˆβ1, . . . , ˆβn.

(32)

onde y=         y1 y2 ... yN         , X =         1 x11 x12 . . . x1n 1 x21 x22 . . . x2n ... ... ... ... 1 xN 1 xN 2 . . . xN n         , β=         β0 β1 ... βn         e ε =         ε1 ε2 ... εN        

Analogamente aos pressupostos do modelo de regress˜ao linear simples, tem-se

E[y|X] = Xβ, E[ε] = 0 e V [ε] = σ2I.

Pretende-se encontrar o vetor dos estimadores dos m´ınimos quadrados, ˆβ, que minimiza a express˜ao (2.24) agora dada por

S(β) =

N

X

i=1

ε2_i = εTε= (y − Xβ)T(y − Xβ) = yTy −2βTXTy+ βTXTXβ (2.29)

Como βT_XT_y _{´e um escalar, e a sua transposta (β}T_XT_y₎T _{= y}T_Xβ _{´e o mesmo escalar,}

derivando a express˜ao (2.29) e igualando a 0 temos

−2XT_y_{+ 2X}T_{X ˆ}_β_{= 0}

⇔ XT_{X ˆ}_β_{= X}T_y

⇔ ˆβ = (XTX)−1XTy (2.30)

No cálculo anterior é necessário garantir a existência de (XT_X₎−1_{, que existe sempre que}

as regressoras sejam linearmente independentes.

Daqui ressalta a importância da escolha das variáveis preditoras a ter em conta e a ne-cessidade de garantir a não existência de variáveis confundidoras(1) _{entre as usadas para}

prever o modelo.

Se adicionalmente, se suposer a normalidade dos erros, ˆβ é também estimador de máxima verosimilhan¸ca.

(1) _{Uma vari´}_{avel de confus˜}_{ao ou confundidora ´}_{e uma vari´}_{avel de um modelo estat´ıstico que se}

(33)

2.2 Regress˜

ao N˜

ao Linear

Existem inúmeras situa¸cões onde a linearidade da rela¸cão entre as variáveis não se verifica. Para contornar este problema foram propostas ao longo dos tempos várias solu¸cões. As mais comuns são baseadas na lineariza¸cão das rela¸cões.

Na verdade podemos fazˆe-lo escrevendo um modelo similar ao descrito pelas equa¸c˜oes (2.3) e (2.23) da seguinte forma

y= β0 + β1z1+ β2z2+ . . . + βkzn+ ε (2.31)

onde zi, i = 1, . . . , n representam fun¸c˜oes das vari´aveis originais x1, . . . , xn e podem

in-cluir transforma¸c˜oes do tipo sin(xi), sqrt(xi), ln(xi), entre outras.

Os polinómios fracionários, F P , são uma abordagem a esta falta de linearidade, proposta em [6].

2.2.1 Polin´

omios Fracion´

arios

Imaginemos que o modelo linear y = β1xnão traduz a rela¸cão das variáveis x e y, ou seja

que esta não é uma rela¸cão linear. Uma forma de contornar este problema é considerar y = β1xp, onde a rela¸cão entre y e xp é linear. À transforma¸cão xp chamamos polinómio

fracion´ario de primeiro grau, F P 1.

Os autores desta abordagem sugerem a escolha do expoente p num conjunto S = {−2, −1, −0.5, 0, 0.5, 1, 2, 3} onde é considerada a não transforma¸cão (p = 1) e as transforma¸cões inversa (p = −1), logar´ıtmica (p = 0), ra´ız quadrada (p = 0.5), quadrado (p = 2) e cúbica (p = 3).

Para uma maior flexibilidade, podemos ainda considerar polin´omios fracion´arios de se-gundo grau, F P 2, definidos da seguinte forma: y = β1xp1+ β2xp2, p1, p2 ∈ S. No caso em

que p1 = p2 considera-se o modelo y = β1xp1 + β2xp1ln(x).

Foram propostos dois procedimentos distintos para selecionar a fun¸cão usada na trans-forma¸cão de cada variável:

(34)

Ambos s˜ao baseados em testes de raz˜ao de verosimilhan¸ca para a escolha do modelo mais adequado.

O primeiro procedimento é o preferido pois como o próprio nome indica é baseado num método de teste fechado que controla a taxa de erros de Tipo I ao permitir o aumento progressivo da complexidade dos modelos candidatos. É poss´ıvel ler com mais pormenor sobre métodos de teste fechado em [11].

2.2.2 Teste de Raz˜

ao de Verosimilhan¸

ca

A verosimilhan¸ca mede o ajustamento dos dados a determinado modelo.

Sejam M um modelo cuja distribui¸c˜ao de probabilidade depende de β e D um conjunto de observa¸c˜oes x1, . . . , xN.

Defini¸c˜ao 1 A verosimilhan¸ca da amostra ´e dada por L(M; D) = L(β) ≡ P (D|M) =

N

Y

i=1

f(xi; β) (2.32)

onde f(xi; β) representa a fun¸cão de densidade de probabilidade da i-ésima observa¸cão xi.

A fun¸cão de verosimilhan¸ca expressa a plausibilidade de diferentes parâmetros ocorrerem, depois de observado um conjunto de observa¸cões D.

O teste de razão de verosimilhan¸ca é usado para comparar o ajustamento de dois modelos. A razão de verosimilhan¸ca mostra quantas vezes é mais provável que os dados se ajustem a um modelo contra o outro.

Defini¸c˜ao 2 Sejam M1 e M2 dois modelos a comparar. A raz˜ao de verosimilhan¸ca

entre eles ´e dada por:

LR(M1, M2; D) ≡

L(M1; D)

L(M2; D)

(2.33) Por vezes a verosimilhan¸ca ´e substitu´ıda pelo seu logaritmo, uma vez que converte os produtos em somas, reduzindo os problemas associados ao uso de valores demasiado pe-quenos.

Defini¸c˜ao 3 A log-verosimilhan¸ca de um modelo M dado um conjunto de dados

ob-servado D ´e o logaritmo da verosimilhan¸ca de M dado D,ou seja,

(35)

A estat´ıstica de teste associada ao teste de raz˜ao de verosimilhan¸ca ´e

G = −2 log(L(M1; D) L(M2; D))

= −2 log(L(M1; D)) + 2 log(L(M2; D)) (2.35)

Pelo teorema de Wilks, a estat´ıstica G tem distribui¸c˜ao χ2 _{com n graus de liberdade onde}

n = df1− df2, onde dfi = ´e o n´umero de graus de liberdade do modelo Mi, i = 1, 2.

2.2.3 Procedimento de teste fechado - Algoritmo RA

2

Um procedimento de teste fechado é um processo que permite a realiza¸cão de vários testes de hipóteses simultaneamente, controlando a taxa de erros Tipo I.

Defini¸c˜ao 4 Um Teste de Hipóteses ´e um processo que conduz a uma tomada de decisão, com base na informa¸cão fornecida pelos dados, sobre a rejei¸cão ou não de deter-minada hipótese estat´ıstica que se coloca.

O teste deve ser iniciado definindo a hip´otese nula, H0, e a hip´otese alternativa, H1,

assim como o n´ıvel de significˆancia α.

Defini¸c˜ao 5 Um erro Tipo I consiste em rejeitar H0 sendo esta verdadeira e a

proba-bilidade da sua ocorrência define o n´ıvel de significância α usado no teste de hipóteses. Assim,

α= P (erro tipo I) = P (rejeitar H0|H0 verdadeira).

Suponhamos que existem n hip´oteses H1, ..., Hn a serem testadas. Partindo do princ´ıpio

que o conjunto de hipóteses é fechado para a interseçcão, um procedimento de teste fechado permitirá a rejei¸cão de cada uma das hipóteses, Hi, i = 1, ..., n, se todas as interseçcões

de hip´oteses contendo Hi forem rejeitadas.

O procedimento conhecido como RA2, Algoritmo 1, ´e constitu´ıdo por trˆes passos:

i) Um primeiro teste de associa¸cão geral para perceber se a variável preditora em questão é significante ou não, para isso testa-se a melhor transforma¸cão contra a não inclusão dessa variável – modelo com coeficiente desta variável nulo.

M1 é o modelo sem a variável em estudo e M2 é o modelo usando a melhor fun¸cão

F P2 como transforma¸c˜ao. Queremos testar H0 : β = 0 vs H1 : β 6= 0 sob a

hip´otese nula a estat´ıstica G tem distribui¸c˜ao χ2

(36)

ii) No segundo passo testa-se a não linearidade para perceber se a rela¸cão entre a variável preditora e a variável resposta é linear ou não.

M1 - o modelo considerando uma rela¸c˜ao linear com a vari´avel em estudo e M2

- o modelo usando a melhor fun¸cão F P 2 como transforma¸cão. Queremos testar H0 : p = 0 vs H1 : p 6= 0 sob a hipótese nula a estat´ıstica G tem distribui¸cão χ23,

onde p representa o expoente a aplicar na vari´avel em estudo.

iii) Por ´ultimo escolhe-se entre o uso duma transforma¸c˜ao mais ou menos complexa, ou seja, entre usar o modelo FP1 e FP2.

M1 - o modelo usando a melhor fun¸c˜ao F P 1 como transforma¸c˜ao e M2 - o modelo

usando a melhor fun¸c˜ao F P 2 como transforma¸c˜ao. Queremos testar H0 : p =

1 vs H1 : p 6= 1 sob a hip´otese nula a estat´ıstica G tem distribui¸c˜ao χ22, onde p

representa o expoente a aplicar na vari´avel em estudo.

Algoritmo 1 RA2

Entrada: Conjunto de dados com uma variável resposta y e uma variável preditora x Sa´ıda: Transforma¸cão adequada para a variável preditora x

1: Fazer um teste a 4 graus de liberdade e a um n´ıvel de significˆancia α para o melhor

F P2 contra o modelo nulo (modelo omitindo x);

2: if O teste n˜ao ´e significante then 3: Remover x e PARAR;

4: else

F P2 contra o modelo linear;

6: if O teste n˜ao ´e significante then

7: PARAR, a fun¸c˜ao final ´e linear;

8: else

9: Fazer um teste a 2 graus de liberdade e a um n´ıvel de significˆancia α para o

melhor F P 2 contra o melhor F P 1;

10: if O teste ´e significante then

11: A fun¸c˜ao final ´e F P 2;

12: else

(37)

2.2.4 Procedimento sequencial

O procedimento sequencial não controla a taxa de erros de Tipo I, podendo esta ser maior que α no caso da rela¸cão ser linear. Por esta razão, os modelos mais complexos são favorecidos nos testes deste algoritmo.

Algoritmo 2 Procedimento Sequencial

Entrada: Conjunto de dados com uma variável resposta y e uma variável preditora x Sa´ıda: Transforma¸cão adequada para a variável preditora x

F P2 contra o melhor F P 1;

3: PARAR, a fun¸c˜ao final ´e F P 2; 4: else

5: Fazer um teste a 1 grau de liberdade e a um n´ıvel de significˆancia α para o melhor

F P contra o modelo linear;

7: PARAR, a fun¸c˜ao final ´e F P 1;

8: else

9: Fazer um teste a 1 grau de liberdade e a um n´ıvel de significˆancia α para o modelo

linear contra o modelo nulo(omitindo x);

11: A fun¸c˜ao final ´e linear;

12: else

13: Remover x;

2.2.5 Polin´

omios Fracion´

arios Multivariados

O algoritmo de polinómios fracionários multivariados, MF P (“Multivariate Fractional Polynomials”), combina sele¸cão de variáveis usando elimina¸cão regressiva, BE (“Backward Elimination”), e sele¸cão de fun¸cões usando polinómios fracionários, F SP (“Function Se-lection Procedure”). A cada uma destas etapas está associado um n´ıvel de significância α1 e α2. Um processo MF P (α1, α2) equivale a BE(α1) + F SP (α2), quando α1 = α2 = α

usa-se MF P (α).

(38)

1. S˜ao escolhidos os n´ıveis de significˆancia α1e α2. Tipicamente α1 = α2 = 0.05. Fazendo

α1 = 1 for¸ca a não existir sele¸cão de variáveis, e fazendo α2 = 1 for¸ca a escolha da

fun¸c˜ao F P mais complexa.

2. Escolhe-se o número máximo de graus de liberdade permitidos na escolha das fun¸cões F P, por norma define-se 4 (4,2 e 1 graus de liberdade correspondem a F P 2, F P 1 e linear respetivamente).

3. Define-se o número máximo de ciclos permitidos até obten¸cão do modelo final,cmax.

Por norma toma-se o valor 5.

Algoritmo 3 M F P

Entrada: Conjunto de dados com uma vari´avel resposta y e vari´aveis preditoras x1, ..., xN

Sa´ıda: Modelo de Polin´omios Fracion´arios Multivariados

1: Ajustar o modelo linear completo;

2: Encontrar os p values associados a cada xj;

3: Ordenar x₁, ..., xN do menos para o mais significante;

4: Inicializar o contador de ciclos: c = 0; 5: repeat

6: Inicializar o contador de vari´aveis: j = 1; 7: repeat

8: if xj não é numérica then

9: Fazer teste da significˆancia conjunta das “dummies” associadas a x_j; 10: if xj ´e significante then

11: xj ´e considerada no modelo;

12: else

13: xj ´e removida;

14: else

15: Aplicar o passo 1 do algoritmo RA2 a x_j ao n´ıvel de significˆancia α₁e os passos

2 e 3 ao n´ıvel de significˆancia α2.

16: if ´E escolhida transforma¸c˜ao n˜ao linear de ordem n then

17: xj = xnj

18: until j = N

19: until N˜ao existem altera¸c˜oes entre os ciclos e c > cmax

2.2.6 Algoritmo M F P - Exemplo

Para ilustrar melhor o algoritmo MF P segue-se um exemplo passo a passo de uma itera¸c˜ao deste mesmo algoritmo, implementada em R. Ao longo deste exemplo o n´ıvel de

(39)

signi-ficância considerado é α = 0.05. O código completo deste exemplo pode ser consultado em anexo.

Para simplificar esta demonstra¸cão, foi retirada um amostra da base de dados em estudo com 5000 exemplos e considerando apenas as variáveis independentes AreaUtil, Codi-goTipologia, AnoEntrada, TOM (tempo de permanência do imóvel no mercado).

O primeiro passo ´e ajustar o modelo linear e encontrar os “p-values” associados a cada vari´avel preditora. Neste exemplo obtemos os seguintes “p-values”: AreaUtil < 2e−16_,

CodigoTipologia = 0.042188, AnoEntrada = 0.001519 e TOM = 0.013816. Orde-nando as vari´aveis da menos significante para a mais significante ficamos com a seguinte ordem: AreaUtil < AnoEntrada < TOM < CodigoTipologia, que ser´a a ordem usada no algoritmo.

Comecemos pela AreaUtil, como é uma variável numérica vamos aplicar o algoritmo RA2, 1. O primeiro passo é fazer um teste de associa¸cão geral, testando a melhor trans-forma¸cão F P 2 contra a não inclusão dessa variável. O “p-value” deste teste é 0 e portanto inferior ao n´ıvel de significância estabelecido, 0.05, sendo assim passamos ao segundo teste. O teste que se segue é de linearidade onde se testa o uso da melhor transforma¸cão F P 2 contra o uso do modelo linear, o “p-value” resultante é 0 < 0.05, como é significante passamos último teste que pretende escolher entre uma transforma¸cão mais ou menos complexa. O “p-value” é 3.524869e−11 _<_{0.05 e portanto a transforma¸cão a aplicar a esta}

variável é de 2ª ordem, sendo assim a AreaUtil passa a AreaUtil2_{. Passamos então}

para a an´alise da vari´avel AnoEntrada.

Inicia-se com o teste de associa¸c˜ao geral, cujo “p-value” ´e 2.360960e−09 _< _{0.05, sendo}

assim a variável AnoEntrada é inclu´ıda e passamos ao próximo teste. De seguida é testada a linearidade, com um “p-value” de 7.407686e−08 _{e portanto inferior ao n´ıvel de}

significância estabelecido, a rela¸cão com esta variável não é linear e portanto é feito o terceiro teste. Este teste determina se a transforma¸cão a aplicar será um F P 1 ou um F P2. O “p-value” que se obteve foi 1.544905e−08<0.05 logo o transforma¸cão de que será alvo é um F P 2. A variável AnoEntrada passa a AnoEntrada2 _{e prossegue-se com a}

vari´avel TOM.

A variável TOM é sujeita ao primeiro teste para decidir se é ou não inclu´ıda no modelo, o “p-value” resultante é 2.289429e−08_{que é inferior a 0.05 e portanto a variável é inclu´ıda}

(40)

1.069207e−07_<_{0.05. A linearidade não se verifica logo é feito um último teste para}

esco-lher entre uma transforma¸cão F P 1 ou F P 2. O “p-value” é 0.01531591, inferior ao n´ıvel de significância estabelecido, portanto a transforma¸cão aplicar será de 2º grau. Sendo assim a variável TOM passa a TOM2 _{e faz-se a análise da última variável dispon´ıvel.}

É feito o teste de associa¸cão geral à variável CodigoTipologia e obtém-se o “p-value” 0 < 0.05 e portanto a variável é inclu´ıda no modelo. De seguida é testada a sua lineari-dade, o “p-value” resultante é 0, inferior ao limite estabelecido logo a linearidade não se verifica. Falta decidir se a transforma¸cão a aplicar é de 1ª ou de 2ª ordem. O “p-value” do último teste é 0 portanto a transforma¸cão a aplicar é também de 2ª ordem e a variável CodigoTipologia passa a CodigoTipologia2.

Caso acabasse aqui o ciclo todas as vari´aveis teriam transforma¸c˜oes de 2ª ordem e seriam escritas da seguinte forma:

AreaUtil−2+AreaUtil0.5

AnoEntrada−2+ AnoEntrada−2×log(AnoEntrada) TOM + TOM× log(TOM)

CodigoTipologia + CodigoTipologia× log(CodigoTipologia)

A próxima itera¸cão prosseguiria com as variáveis AreaUtil2_{, AnoEntrada}2_{, TOM}2 _e

CodigoTipologia2_{, até que não houvesse altera¸cões ou atingir o valor máximo de ciclos}

(41)

(42)

Cap´ıtulo 3

Data mining

“Data mining” é o processo de explora¸cão e análise de grandes quantidades de dados, com o objetivo de descobrir padrões ou regras que permitam uma melhor compreensão da informa¸cão contida nos mesmos. Este processo desenvolve-se ao longo de diferentes fases, como se vê na Figura 3.1.

Figura 3.1: Processo de “data mining”

Na fase de modela¸cão identifica-se o dom´ınio e a aplica¸cão de “data mining” onde se insere o nosso problema. De seguida é feita a sele¸cão de um conjunto de dados apropriado e a sua limpeza. Na fase de transforma¸cão pode-se reduzir dimensionalidade, discretizar os atributos, entre outros, de forma a facilitar trabalhar os dados. O “data mining” especi-ficamente consiste em definir a tarefa, escolher o modelo e o algoritmo de aprendizagem a ser usado. Por fim é necessário avaliar o desempenho do modelo induzido e

(43)

interpre-tar resultados, e finalmente chegamos `a tomada de decis˜ao com base no conhecimento extra´ıdo.

3.1 A metodologia CRISP-DM

A metodologia CRISP-DM (“Cross-Industry Standard Process for data mining”), [4], foi concebida em 1996 por três especialistas da área, ainda recente de “data mining”. A necessidade de comprovar a qualidade das técnicas usadas era imperativa para ganhar a confian¸ca de novos clientes e poder refor¸car o crescimento desta área de investiga¸cão. Desenvolveram então esta metodologia, com o intuito de uniformizar o processo de uso das referidas técnicas. Segundo os seus autores, a implementa¸cão de um sistema de “data mining” pode ser dividida em seis fases, como se vê na Figura 3.2.

Figura 3.2: Metodologia CRISP-DM

Em primeiro lugar há que entender os objetivos do projeto e os requisitos numa perspetiva de negócios, e em seguida, converter esse conhecimento na defini¸cão do problema de “data mining” e de um plano preliminar projetado para atingir os objetivos. Seguidamente é também necessário investir na compreensão dos dados passando por uma fase de entendi-mento e familiariza¸cão com a base de dados tentando perceber a qualidade dos mesmos.

(44)

e transforma¸cão do conhecido processo de “data mining” anteriormente descrito. Depois passa-se à modela¸cão; para isso é necessário definir a tarefa, escolher o modelo e o algo-ritmo de aprendizagem a ser usado. O passo seguinte é avaliar o desempenho do modelo induzido e interpretar resultados. Finalmente os conhecimentos adquiridos terão de ser organizados e apresentados de maneira a que o cliente possa utilizá-lo. Em muitos casos, será o cliente, não o analista de dados, que irá realizar esta etapa. Mesmo não sendo o analista a fazê-lo, cabe-lhe a tarefa de explicar ao cliente que a¸cões deverão ser realizadas a fim de realmente fazer uso dos modelos criados.

3.1.1 Compreens˜

ao do neg´

ocio

A fase de compreensão do negócio acontece pela necessidade do analista estar dentro do esp´ırito do mercado a estudar, para permitir que este tenha a melhor abordagem poss´ıvel ao problema. Cada mercado tem especificidades distintas e em alguns casos bastante particulares, e só um estudo aprofundado dele e da sua envolvente faz com que o estudioso consiga obter resultados satisfatórios e com fundamenta¸cão lógica. É aqui que se come¸ca a desenhar o percurso a seguir na fase de modela¸cão do problema.

3.1.2 Compreens˜

ao dos dados

Cada conjunto de dados tem caracter´ısticas espec´ıficas inerentes ao mercado que lhe dá origem. É necessário então, após a compreensão do negócio que lhe está associado perceber o enquadramento dos dados, a sua qualidade e os seus problemas, com o intuito de definir os passos a seguir à fase de prepara¸cão dos dados.

3.1.3 Prepara¸

c˜

ao de dados

A fase de prepara¸cão de dados é fundamental no processo de aprendizagem computacional, apenas com uma boa prepara¸cão dos dados se consegue extrair a informa¸cão correta. As técnicas de prepara¸cão podem ser agrupadas em quatro grandes grupos:

1. Limpeza:

(a) Tratamento de valores desconhecidos - podem ser substitu´ıdos por determinado valor, a média por exemplo, ou então podem ser imputados recorrendo a técnicas de classifica¸cão;

(b) Tratamento de ru´ıdos - aplica¸c˜ao de filtros adequados;

(c) Tratamento de “outliers” - podem ser descartados quando se considerem pouco relevantes;

(45)

2. Redu¸c˜ao da dimensionalidade:

(a) Análise de Componentes Principais - proje¸cão do espa¸co de atributos num espa¸co de menor dimensão;

(b) Sele¸c˜ao de Atributos - selecionar um subconjunto de atributos por forma a elimi-nar os redundantes e irrelevantes;

(c) Pesagem de Atributos - atribuir pesos aos atributos, orden´a-los e selecionar os de maior peso;

Transforma¸c˜ao:

(a) Normaliza¸c˜ao dos dados - aplica-se quando as grandezas dos atributos s˜ao muitos diferentes;

(b) Aplica¸cão de fun¸cões (logaritmo ou ra´ız quadrado por exemplo) - com vista à transforma¸cão de dados;

3. Discretiza¸c˜ao (converte atributos num´ericos cont´ınuos):

(a) Não supervisionada - não considera a classe e podem ser criados intervalos de largura/frequência fixa ou aplicadas técnicas de clustering;

(b) Supervisionada - considera a classe e baseia-se no c´alculo da entropia.

3.1.4 Modela¸

c˜

ao

A fase de modela¸cão corresponde à fase de “data mining” do processo mais usual e consiste na defini¸cão da tarefa e do modelo a usar na implementa¸cão do algoritmo de aprendizagem e extra¸cão do conhecimento. Por vezes esta fase é repetida para diferentes algoritmos com a finalidade de comparar os resultados obtidos por forma a tomar uma decisão mais acertada na altura de decidir qual o caminho final a seguir.

3.1.5 Avalia¸

c˜

ao

A avalia¸cão é provavelmente a fase mais importante de todo este processo. Apenas usando um bom método de avalia¸cão e uma medida adequada, é poss´ıvel tomar uma decisão em consciência quando chega a hora de escolher que modelo melhor se ajusta aos dados es-tudados.

Nesta fase tentam-se perceber os resultados e também verificar se a informa¸cão ganha em cada modelo é de facto relevante e se vale a pena investir recursos na sua implementa¸cão.

(46)

O cenário ideal seria aquele onde existem dois conjuntos de dados com o mesmo compor-tamento, o primeiro para o processo de aprendizagem e defini¸cão do modelo – Conjunto de Treino – e o segundo para fazer a avalia¸cão e valida¸cão do modelo obtido – Conjunto de Teste. Uma vez que é bastante improvável de acontecer, existem alguns métodos que de-finem o processo de avalia¸cão de desempenho a realizar, consoante o número de exemplos dispon´ıveis em cada estudo.

3.1.5.1 M´etodos de Avalia¸c˜ao do Desempenho

Existem três métodos usuais que definem o processo de avalia¸cão do desempenho: “Hold-Out”, Valida¸cão Cruzada e “Bootstrap”.

O “hold-out” é o mais intuitivo, e também o mais fácil de aplicar. Consiste em dividir os dados em dois conjuntos, normalmente com 2_/₃ e 1_/₃ do total de exemplos, em Conjunto

de Treino e Conjunto de Teste, respetivamente.

Figura 3.3: Divis˜ao “Hold-Out”

O tamanho dos conjuntos pode ser ajustado às necessidades do problema, no entanto, esta divisão deve ser preferencialmente efetuada usando amostragem estratificada, ou seja, de forma a garantir que a distribui¸cão dos exemplos de Treino e Teste é o mais semelhante poss´ıvel. O uso deste método só é aconselhável quando o número total de exemplos ultrapassa os 1000. Do Conjunto de Treino obtém-se o modelo e depois é aplicado no Conjunto de Teste para se poder avaliar o seu desempenho.

(47)

O método de valida¸cão cruzada (“cross-validation”) é aconselhado para conjuntos de dados com cerca de 1000 exemplos. Os Exemplos são divididos por N subconjuntos iguais, com N a definir pelo analista e usando amostragem estratificada, para garantir a equidade dos subconjuntos. Quanto maior é o número de subconjuntos mais exata é a avalia¸cão, mas também maior é o tempo de processamento, por norma toma-se N = 10. Depois para cada subconjunto i com i = 1, . . . , N é obtido o modelo usando o conjunto de dados excepto o subconjunto i como conjunto de treino. De seguida aplica-se o modelo tomando como conjunto de teste o subconjunto i. A medida de avalia¸cão é obtida pela média das N medidas obtidas ao longo deste processo.

Figura 3.5: Valida¸c˜ao Cruzada

Um caso particular deste método é o “leave-one-out” que se pode aplicar quando o con-junto de dados muito pequeno, cerca de 30 exemplos. Nesta situa¸cão existirão tantos subconjuntos quantos exemplos, ou seja, cada subconjunto será constitu´ıdo por um único elemento.

O método “bootstrap” baseia-se num procedimento estat´ıstico de reamostragem com re-posi¸cão. Partindo do conjunto inicial de exemplos é gerada uma amostra com o mesmo número de exemplos, esta amostra será o conjunto de treino. Já o conjunto de teste será constitu´ıdo por todos os elementos do conjunto inicial que não tenham sido selecionados. Este processo é repetido várias vezes e a medida de avalia¸cão é dada pela média de todas as medidas obtidas.

3.1.5.2 Medidas de Avalia¸c˜ao

As medidas de avalia¸cão são inúmeras e com diversos propósitos. No âmbito deste estudo pretendem-se utilizar medidas de avalia¸cão que permitam avaliar a qualidade dos diferen-tes modelos. Optou-se pelo uso do coeficiente de determina¸cão, R2, e da média de desvios

(48)

O R2 d´a o grau de proximidade entre os valores estimados e observados da vari´avel

dependente e ´e dado da seguinte forma:

R2 = Varia¸c˜ao explicada Varia¸c˜ao Total = Pni=1( ˆyi−¯y)2

Pn

i=1(yi−¯y)2

(3.1)

onde yi, ˆyi e ¯y s˜ao respetivamente o valor da vari´avel dependente no registo i, o valor

estimado da variável dependente para o registo i e a média da variável dependente, com i= 1, . . . , n.

Da análise da expressão (3.1) vemos que o coeficiente de determina¸cão é sempre um número positivo entre zero e um. Pode-se ainda concluir que quanto maior for este valor melhor será o poder de explica¸cão do modelo de regressão. No cap´ıtulo 4 desta disserta¸cão é desenvolvida toda a fase de avalia¸cão e interpreta¸cão dos resultados obtidos.

A medida conhecida como MAD ou MAE é o desvio absoluto médio ou erro absoluto médio, representa a média dos desvios absolutos e é dada da seguinte forma:

M AD= 1 n n X i=1 |ˆyi− yi|

onde yi e ˆyi s˜ao respetivamente o valor da vari´avel dependente e o valor estimado da

vari´avel dependente para o registo i com i = 1, . . . , n.

3.1.6 Desenvolvimento

A fase de desenvolvimento é por norma realizada pelo cliente e não pelo analista. É nesta altura que se toma a decisão cuja necessidade desencadeou todo o estudo. Cabe ao analista expor todo o estudo, pressupostos assumidos e conclusões retiradas por forma a elucidar e orientar o cliente durante o processo de tomada de decisão e implementa¸cão de medidas em consonância.

(49)

(50)

Cap´ıtulo 4

Estudo Experimental

4.1 Compreens˜

ao do neg´

ocio

Como já foi referido no cap´ıtulo introdutório desta disserta¸cão, 1, o mercado imobiliário tem caracter´ısticas muito peculiares, tais como heterogeneidade, imobilidade e durabili-dade dos bens que nele são transacionados. Torna-se portanto uma complicada tarefa encontrar uma forma automática de definir o pre¸co de um imóvel.

As caracter´ısticas que definem um imóvel podem ser separadas em dois grandes gru-pos: intr´ınsecas e de localiza¸cão. No primeiro grande grupo estão inclu´ıdos os atributos f´ısicos que definem o imóvel como a área, tipologia, comodidades e afins. Os atributos de localiza¸cão estão relacionados com o espa¸co f´ısico onde o imóvel está implementado e al-berga coisas como o concelho, a freguesia, a zona, amenidades na vizinhan¸ca, entre outras.

A forma encontrada para lidar com a modela¸cão deste problema passa pela implementa¸cão dum modelo hedónico de pre¸cos baseado em regressões, lineares ou não.

4.2 Compreens˜

ao dos dados

Os dados analisados nesta disserta¸cão são provenientes do portal imobiliário “Casa Sapo”, [1]. Em Novembro de 2010, o referido portal albergava uma base de dados com cerca de 4 milhões de exemplos referentes a imóveis em território português, inseridos neste portal entre 2000 e 2010 por particulares e profissionais do ramo imobiliário. Estes imóveis estão caracterizados com inúmeros atributos, os mais relevantes podem ser con-sultados em anexo.

(51)

Foram objeto de um estudo detalhado os cerca de 50000 im´oveis do concelho de Aveiro. Numa primeira an´alise foram encontrados os seguintes problemas que dificultaram o tra-tamento dos dados:

• alguns valores contêm espa¸cos desnecessários no final; • alguns atributos têm valores em falta;

• existem valores estranhos em v´arios atributos.

Tendo em vista a análise do mais importante setor do mercado imobiliário, os estudos apresentados são baseados em imóveis de carater residencial e cuja transa¸cão associada seja “Venda”.

4.3 Prepara¸

c˜

ao de dados

Na fase de limpeza e prepara¸cão dos dados recorreu-se ao uso do software “RapidMiner 5”, [15]. Este software permite a integra¸cão com o “SQL Server” e assim é poss´ıvel extrair diretamente da base de dados os exemplos pretendidos. Neste caso foram extra´ıdos todos os imóveis do concelho de Aveiro perfazendo um total de 54580 exemplos.

Figura 4.1: Extra¸c˜ao dos im´oveis de Aveiro

O primeiro problema a abordar é a questão dos espa¸cos extra em determinados campos que impossibilitam a implementa¸cão de métodos de compara¸cão e extra¸cão de valores desses mesmos campos. Aplicando o operador Trim a todos os atributos fica-se com uma base de dados livre de espa¸cos incómodos, o que permite prosseguir o tratamento da mesma.

Figura 4.2: Operador Trim

(52)

atributos AreaUtil, AnoConstrucao, Preco, Tipologia, Zona e Estado. Estes filtros s˜ao aplicados com recurso ao operador Filter Examples.

Figura 4.3: Filtros de valores omissos e Neg´ocio

A maior fatia do mercado imobiliário é a venda de imóveis com fim à habita¸cão, e é neste setor que os estudos desenvolvidos se aplicam. Sendo assim é necessário excluir todos os exemplos que não se encaixam neste quadro e para isso usam-se dois filtros:

• Selecionar os exemplos cujo Negocio ´e “Venda”;

• Selecionar os registos onde a Natureza é “Andar de Moradia”, “Andar de Prédio”, “Apartamento”, “Casa Antiga”, “Casa Rústica”, “Casa Térrea”, “Moradia”, “Mo-radia em Banda”, “Mo“Mo-radia Geminada” ou “Mo“Mo-radia Isolada”.

É ainda necessário fazer alguns ajustes nos termos usados na variável Natureza: os registos com o conteúdo “Andar de Prédio” passam a “Apartamento” e aqueles com “Moradia” passam a “Moradia Isolada”. Isto é conseguido recorrendo ao uso do operador Replace.

Figura 4.4: Natureza

O atributo Tipologia assume valores do tipo “Ta + b c”, onde a e b são valores inteiros e c denota se o imóvel é Duplex, Triplex ou nenhum deles. Esta variável está guardada na base de dados como nominal, no entanto esta caracter´ıstica dos imóveis é ordenável.

Por forma a permitir este tipo de abordagem criou-se o atributo CodigoTipologia que ´e dado pela express˜ao:

(53)

Para melhor entendimento da express˜ao (4.1) veja-se na Tabela 4.1 alguns exemplos de transforma¸c˜ao entre Tipologia e CodigoTipologia.

Tipologia CodigoTipologia

T0 1

T1 + 1 10101

T3 Duplex 30002

T5 50001

Tabela 4.1: Tipologia - CodigoTipologia

O atributo Estado assume valores no conjunto {“Em constru¸cão”, “Em projecto”, “Novo”, “Usado”, “Recuperado”, “Por Recuperar”}. Um imóvel usado pode variar imenso na idade, para perceber essas diferen¸cas criou-se uma nova variável, Preserva¸cão que con-juga o Estado e o AnoConstrucao recorrendo ao operador Generate Attributes. Pode ver-se a sua constru¸cão no Algoritmo 4. Os registos com o valor “Em constru¸cão”, “Em projecto” foram também agregados num só “Em constru¸cão/projecto”.

Algoritmo 4 Preservac¸˜ao

Entrada: Valor do campo Estado Sa´ıda: Valor do atributo Preservacao

1: if Estado 6= “Usado” then 2: Preservacao ← Estado; 3: else

4: if Idade do Im´ovel < 10 then

5: Preservacao ← “Usado at´e 10 anos”; 6: else

7: if Idade do Im´ovel < 25 then

8: Preservacao ← “Usado de 10 a 25 anos”;

9: else

10: Preservacao ← “Usado com mais de 25 anos”;

O último grande problema desta base de dados é a estranheza de alguns dos valores. Isto está associado ao erro humano e deve-se ao facto de ser um base de dados on-line, onde cada utilizador insere os dados relativos ao imóvel que pretende vender. No caso da rela¸cão entre a área de um imóvel e a sua tipologia existem muitas incoerências.

Por forma a contorná-las encontrou-se um conjunto de valores m´ınimos e máximos de área permitidos para cada tipologia até um máximo de “T9”. Os valores podem ser con-sultados na Tabela 4.2 e foram obtidos através do Regulamento Geral das Edifica¸cões Urbanas,[16], da seguinte forma: os valores m´ınimos são os m´ınimos permitidos para a área útil de cada tipologia por este regulamento e os valores máximos equivalem a 4 vezes

(54)

T0 T1 T2 T3 T4 T5 T6 T7 T8 T9 ´

Area m´ınima 26 34 47 59 66 80 89 99 109 119

´

Area m´axima (Apartamento) 140 208 288 364 420 488 536 630 694 758

´

Area m´axima (Moradia) 210 312 432 546 630 732 804 946 1042 1138

Tabela 4.2: Intervalos ´Area/Tipologia

O corte segundo estes intervalos foi conseguido criando uma variável nova recorrendo ao operador Generate Attributes que toma o valor 1 quando o imóvel está fora dos intervalos permitidos e 0 caso contrário, de seguida é aplicado o operador Filter Examples que elimina os valores indesejados.

Figura 4.5: Filtros segundo ´Areas e Tipologia

Os valores do ano de constru¸cão e do pre¸co dos imóveis também foram alvo de ajusta-mentos. Em primeiro lugar descartaram-se todos os registos cujo AnoConstrucao era inferior a 1000. Para além disso foram também eliminados todos os exemplos da base de dados que tivessem AnoConstrucao superior a 2010 mas o seu Estado não fosse ‘Em constru¸cão/projecto”. Em rela¸cão ao pre¸co removeram-se os imóveis cujo valor de venda era inferior a 1000e.

Figura 4.6: Filtros segundo ´Areas e Tipologia

Acabada a fase de corre¸cão dos problemas existentes na base de dados, foi necessário criar algumas novas variáveis para permitir uma melhor modela¸cão do problema. Nesta área de negócio, os objetos transacionados são muito diferentes entre si. Os imóveis residenciais tomam as mais diversas tipologias e área pelo que se torna inapropriado fazer a modela¸cão do pre¸co. Sendo assim pode-se tomar em considera¸cão o pre¸co por m2 como um ´ındice

(55)

operador Generate Attributes com a f´ormula:

PrecoM2= Preco ÷ AreaUtil

O facto dos imóveis terem uma linha temporal de venda também foi levado em conta e para isso recorreu-se à cria¸cão de dois novos atributos: AnoEntrada e TOM. O primeiro identifica o ano em que o imóvel foi colocado à venda no portal, a sua obten¸cão é feita recorrendo ao operador Date to Numerical considerando como parâmetro de unidade de tempo o ano. Este operador converte um atributo do tipo data num valor numérico tendo por base a unidade de tempo especificada.

O atributo TOM indica o tempo em que o imóvel esteve no mercado desde a data de entrada no portal até à data da sua sa´ıda, que se presume ser igual à de venda. Este valor é dado em dias e é conseguido fazendo a diferen¸ca entre as duas datas após terem sido transformadas em dias pelo operador anterior.

Como este atributo envolve as datas de entrada e de sa´ıda de cada registo no portal, pode apenas ser gerado para imóveis que já deram sa´ıda da base de dados. Para isso é usado um filtro antes da sua cria¸cão que remove todos os exemplos que não tenham data de sa´ıda.

Após este processo encontraram-se registos cujo valor da variável TOM era 0, isto pode indicar por exemplo que o utilizador se enganou a inserir o imóvel e o retirou passado pouco tempo para corrigir a situa¸cão. Por forma a contornar esta situa¸cão, removeram-se todos os registos cujo TOM era 0.

Figura 4.7: Pre¸co por m2

Existe ainda na base de dados “Casa Sapo” um campo de texto livre, designado por DescriptionPT. Neste campo ´e permitido ao utilizador inserir uma descri¸c˜ao livre do

(56)

Sapo Real-Estate Analytics” na Universidade de Aveiro foi desenvolvida uma ferramenta C#que analisa cada registo da base de dados e armazena a informa¸c˜ao interessante criando um novo campo por cada caracter´ıstica referida na Tabela 4.3 da seguinte forma:

• Se é referido que o imóvel não possui uma dada caracter´ıstica, o respetivo campo toma o valor −1;

• Se é referido que o imóvel possui uma dada caracter´ıstica ou um dado número n de exemplares dessa caracter´ıstica, o campo toma respetivamente os valores 1 ou n; • Se nada é referido acerca de determinada caracter´ıstica, o campo toma o valor 0.

Caracter´ısticas do Im´ovel

Ar Condicionado Aquecimento Central Arrecada¸c˜ao Arrumos

Aspira¸c˜ao Churrasqueira Climatiza¸c˜ao Despensa

Dom´otica Estacionamento Garagem Hidromassagem

Jacuzzi Jardim Kitchenette Lareira

Lavandaria Logradouro Marquise Mobilado

P´atio Porteiro Recuperador Sauna

S´ot˜ao Terra¸co Varanda

Tabela 4.3: Caracter´ısticas retiradas do campo DescriptionPT

Na análise levada a cabo foram consideradas novas variáveis booleanas que indicam apenas se a caracter´ıstica do imóvel foi ou não referida no campo de descri¸cão e não a quantidade de exemplares dessa caracter´ıstica que cada imóvel possui.

4.4 Modela¸

c˜

ao e Avalia¸

c˜

ao

A modela¸cão deste problema foi dividida em duas fases, cada uma com base num modelo de regressão diferente, e ambas implementadas com recurso ao software R, [14], em par-ticular recorrendo ao pacote RMiner, [2] que contém diversas tarefas de “data mining” implementadas.

Em primeiro lugar aplicou-se um modelo de regressão linear múltipla com diferentes com-bina¸cões de atributos, por forma a perceber qual o conjunto de atributos que melhor descreve o problema. Numa segunda abordagem foi implementado um modelo de re-gressão múltipla com base em polinómios fracionários à combina¸cão de atributos com melhor desempenho.

(57)

O método de avalia¸cão usado foi o “hold-out”, uma vez que o número de exemplos dis-pon´ıveis era elevado. Para garantir a distribui¸cão geográfica da base de dados, a amos-tragem realizada foi estratificada, tendo em conta a variável Zona. De seguida foram definidas oito combina¸cões de atributos denominadas F1, F2, F3, F4, Z1, Z2, Z3 e Z4, a sua constitui¸cão pode ser consultada na Tabela 4.4.

F1 F2 F3 F4 Z1 Z2 Z3 Z4 Base Natureza x x x x x x x x Preservacao x x x x x x x x Freguesia x x x x Zona x x x x CodigoTipologia x x x x x x x x AreaUtil x x x x x x x x Descri¸c˜ao d01 ArCondicionado x x x x d02 AquecimentoCentral x x x x d03 Arrecadacao x x x x d04 Arrumos x x x x d05 Aspiracao x x x x d06 Churrasqueira x x x x d07 Climatizacao x x x x d08 Despensa x x x x d09 Domotica x x x x d10 Estacionamento x x x x d11 Garagem x x x x d12 Hidromassagem x x x x d13 Jacuzzi x x x x d14 Jardim x x x x d15 Kitchenette x x x x d16 Lareira x x x x d17 Lavandaria x x x x d18 Logradouro x x x x d19 Marquise x x x x d20 Mobilado x x x x d21 Patio x x x x d22 Porteiro x x x x d23 Recuperador x x x x d24 Sauna x x x x d25 Sotao x x x x d26 Terraco x x x x d27 Varanda x x x x Tempo AnoEntrada x x x x TOM x x x x