• Nenhum resultado encontrado

Polinómios fracionários na modelação do preço de imóveis

N/A
N/A
Protected

Academic year: 2021

Share "Polinómios fracionários na modelação do preço de imóveis"

Copied!
80
0
0

Texto

(1)

Universidade de Aveiro Departamento de Matemática 2011

Tânia Baptista

Polinómios fracionários na modelação

(2)
(3)

Universidade de Aveiro Departamento de Matemática 2011

Tânia Baptista

Polinómios fracionários na modelação

Guedes

do preço de imóveis

Dissertação apresentada à Universidade de Aveiro para cumprimento dos requi-sitos necessários à obtenção do grau de Mestre em Matemática e Aplicações, re-alizada sob a orientação científica da Professora Doutora Gladys Castillo Jordán e co-orientação da Professora Doutora Isabel Maria Simões Pereira, professoras auxiliares do Departamento de Matemática da Universidade de Aveiro.

(4)
(5)
(6)
(7)

o júri

presidente Prof. Doutora Andreia Oliveira Hall

Professora Associada do Departamento de Matemática da Universidade de Aveiro

arguente Prof. Doutora Ana Maria Perfeito Tomé

Professora Associada do Departamento de Electrónica, Telecomunicações e Informática da Universidade de Aveiro

orientadora Prof. Doutora Gladys Castillo Jordán

Professora Auxiliar do Departamento de Matemática da Universidade de Aveiro

co-orientadora Prof. Doutora Isabel Maria Simões Pereira

(8)
(9)

agradecimentos Em primeiro lugar gostaria de agradecer a todos que permitiram a realização deste trabalho, à minha orientadora Professora Gladys, à Professora Isabel que contribuiu para a sua finalização e a todos os participantes do projeto “Casa Sapo Real-Estate Analytics” pela partilha de informação e experiência.

Gostaria também de deixar um grande obrigado aos meus pais, sem vocês nada disto seria possível.

Queria ainda agradecer a duas pessoas muito especiais que embora sem estarem presentes fisicamente, contribuíram e muito com o exemplo de vida que me deram.

Deixo aqui também uma palavra de apreço a todos os meus familiares, amigos e colegas de trabalho que de uma ou outra forma ajudaram a manter a moral em cima durante a realização deste trabalho.

Por último, um agradecimento muito especial ao João pela paciência, com-panhia e motivação ao longo da realização deste trabalho.

(10)
(11)

palavras-chave Regressão Linear, Regressão Não Linear, Polinómios Fracionários, “Data min-ing”, Mercado Imobiliário, CRISP-DM

resumo O mercado imobiliário tem características únicas, os bens que se transacionam são imóveis e de grande durabilidade. É particularmente difícil atribuir o valor comercial a um item deste mercado devido à sua heterogeneidade. O preço que um comprador está disposto a pagar por este tipo de bens é influenciado por inúmeros fatores: a sua localização, tipologia, o que o rodeia, o estado em que se encontra, entre outros.

Durante vários anos foram feitas tentativas para modelar o preço de um imóvel e poder assim atribuir um valor de forma automática a este tipo de items. Um dos grandes problemas desta tarefa prende-se com a falta de linearidade na relação entre o preço de um imóvel e os fatores que o condicionam. Neste trabalho é apresentada uma abordagem baseada em polinómios fracionários que visa lidar com essa falta de linearidade. Todo o processo é feito com base na metodologia CRISP-DM que se pretende expor como uma forma de homogeneizar a implementação de processos de “data mining”.

(12)
(13)

keywords Linear Regression, Nonlinear Regression, Fractional Polynomials, Data mining, Real Estate Market, CRISP-DM

abstract The Real Estate Market has unique features, the transacted items are static and of great durability. Is particulary hard to define the comercial value in this market due to it’s heterogeneity. The price a buyer is willing to pay is affected by a large amount of factors: the location, number of rooms, what’s around it, the state of conservation, among others.

For several years attempts were maid to model the price of houses and with that attribute automatically a value to this kind of items. The major problem in this task is the lack of linearity between the price and the features that are conditioning it. In this thesis an approach based in fractional polynomials is presented to deal with this nonlinearity. The whole process is done based in the CRISP-DM methodology, that is intended to be presented as a way of homogenize the implementation of data mining processes.

(14)
(15)

Conte´

udo

1 Introdu¸c˜ao 1 1.1 Contexto . . . 1 1.2 Organiza¸c˜ao . . . 2 2 Modelos de Regress˜ao 5 2.1 Regress˜ao Linear . . . 6

2.1.1 M´etodo dos M´ınimos Quadrados . . . 7

2.1.2 Regress˜ao Linear Multivariada . . . 10

2.2 Regress˜ao N˜ao Linear . . . 12

2.2.1 Polin´omios Fracion´arios . . . 12

2.2.2 Teste de Raz˜ao de Verosimilhan¸ca . . . 13

2.2.3 Procedimento de teste fechado - Algoritmo RA2 . . . 14

2.2.4 Procedimento sequencial . . . 16

2.2.5 Polin´omios Fracion´arios Multivariados . . . 16

2.2.6 Algoritmo MF P - Exemplo . . . 17

3 Data mining 21 3.1 A metodologia CRISP-DM . . . 22

3.1.1 Compreens˜ao do neg´ocio . . . 23

3.1.2 Compreens˜ao dos dados . . . 23

3.1.3 Prepara¸c˜ao de dados . . . 23

3.1.4 Modela¸c˜ao . . . 24

3.1.5 Avalia¸c˜ao . . . 24

3.1.5.1 M´etodos de Avalia¸c˜ao do Desempenho . . . 25

3.1.5.2 Medidas de Avalia¸c˜ao . . . 26

3.1.6 Desenvolvimento . . . 27

4 Estudo Experimental 29 4.1 Compreens˜ao do neg´ocio . . . 29

(16)

4.3 Prepara¸c˜ao de dados . . . 30 4.4 Modela¸c˜ao e Avalia¸c˜ao . . . 35

5 Notas Finais 41

Anexos 45

A Descri¸c˜ao das vari´aveis 47

B C´odigo em R 49

(17)

Lista de Figuras

2.1 Diagrama de dispers˜ao . . . 7

2.2 Reta de ajustamento . . . 7

3.1 Processo de “data mining” . . . 21

3.2 Metodologia CRISP-DM . . . 22

3.3 Divis˜ao “Hold-Out” . . . 25

3.4 “Hold-Out” . . . 25

3.5 Valida¸c˜ao Cruzada . . . 26

4.1 Extra¸c˜ao dos im´oveis de Aveiro . . . 30

4.2 Operador Trim . . . 30

4.3 Filtros de valores omissos e Neg´ocio . . . 31

4.4 Natureza . . . 31

4.5 Filtros segundo ´Areas e Tipologia . . . 33

4.6 Filtros segundo ´Areas e Tipologia . . . 33

(18)
(19)

Lista de Tabelas

4.1 Tipologia - CodigoTipologia . . . 32

4.2 Intervalos ´Area/Tipologia . . . 33

4.3 Caracter´ısticas retiradas do campo DescriptionPT . . . 35

4.4 Combina¸c˜oes de atributos . . . 36

4.5 Valores de R2 nas v´arias experiˆencias com regress˜ao linear multivariada . . 37

4.6 Valores de MAD nas v´arias experiˆencias com regress˜ao linear multivariada 37 4.7 Valores de R2 e MAD - m´edia usando regress˜ao linear m´ultipla . . . 38

4.8 Valores de R2 e MAD nas v´arias experiˆencias com polin´omios fracion´arios m´ultiplos . . . 39

(20)
(21)

Lista de Algoritmos

1 RA2 . . . 15

2 Procedimento Sequencial . . . 16

3 M F P . . . 17

(22)

Cap´ıtulo 1

Introdu¸

ao

1.1

Contexto

O mercado de habita¸c˜ao tem especifica¸c˜oes muitos particulares quando comparado com outros mercados de bens e servi¸cos. Os bens transacionados s˜ao caracterizados pela sua heterogeneidade, imobilidade e durabilidade, por serem simultaneamente de consumo e de investimento, por terem um custo elevado e at´e um certo “status” associado `a sua posse.

A heterogeneidade vem da quantidade de atributos distintos que podemos atribuir a um im´ovel como respons´aveis na defini¸c˜ao do seu pre¸co. A imobilidade destes bens ´e tamb´em um fator de peso na hora da escolha, a distˆancia ao emprego, `as escolas das crian¸cas e a servi¸cos, influencia o valor que o comprador est´a disposto a dar em troca de determinado im´ovel. A durabilidade, o facto de constituir um investimento, de ser um bem caro e de estar associado a determinado “status” para o futuro propriet´ario, fazem com que a atri-bui¸c˜ao de valor a cada caracter´ıstica do bem seja determinante para a decis˜ao de compra.

Com todos estes pormenores a ter em conta, torna-se dif´ıcil encontrar uma forma de atribuir automaticamente o valor a um im´ovel. Pode ler-se um pouco mais sobre este mercado em [3].

Como vimos, existem in´umeros fatores que influenciam o valor que um determinado com-prador est´a disposto a pagar por um bem deste tipo. Podemos subdividi-los em trˆes grupos: fatores gerais, macrolocaliza¸c˜ao e microlocaliza¸c˜ao. Os fatores gerais prendem-se com a dimens˜ao/crecimento da cidade onde se localiza o im´ovel e tamb´em com a conje-tura e fatores institucionais. J´a o grupo da macrolocaliza¸c˜ao cont´em as acessibilidades e rede de transportes,a densidade populacional e fatores urban´ısticos. Por fim ao n´ıvel da microlocaliza¸c˜ao temos a acessibilidade a servi¸cos, o ajustamento aos interesses pessoais,

(23)

as amenidades, a vizinhan¸ca e os atributos do pr´oprio im´ovel.

O pre¸co hedˆonico de determinado produto ´e definido como o pre¸co impl´ıcito dos atributos que definem esse produto. Atrav´es dos pre¸cos observados de diferentes produtos e das quantidades de cada uma das caracter´ıstica que lhes est´a associada ´e poss´ıvel definir o seu pre¸co.

Segundo [8], tamb´em o pre¸co de um im´ovel podia ser representado como uma fun¸c˜ao dos seus atributos. Na aproxima¸c˜ao hed´onica, a habita¸c˜ao ´e caracterizada pelos atributos j´a descritos e assume-se que cada comprador escolhe o im´ovel que maximiza valores para esses atributos, dadas as restri¸c˜oes de rendimentos, pre¸co da habita¸c˜ao e impostos relacionados.

Para encontrar o valor associado a cada atributo podemos recorrer `a estima¸c˜ao dessa fun¸c˜ao hedˆonica, a primeira formaliza¸c˜ao em termos de mercado imobili´ario foi proposta em [12].

Seja x = (x1, x2, . . . , xN) um conjunto de atributos associados a um im´ovel y, ent˜ao o

pre¸co desse im´ovel ser´a uma fun¸c˜ao de x, p(x).

Como n˜ao se conhece a forma funcional da fun¸c˜ao hed´onica de pre¸cos recorre-se a m´etodos de estima¸c˜ao (ou aproxima¸c˜ao) dessa fun¸c˜ao. A forma mais usual de obter esta fun¸c˜ao ´e a regress˜ao linear, ou seja,

p(x) = xβ + ε (1.1)

onde β = (β1, β2, . . . , βN) ´e o vetor dos pesos atribu´ıdos `as caracter´ısticas do im´ovel e ε

uma componente aleat´oria.

Mas na maioria das vezes esta abordagem n˜ao se adequa `a resolu¸c˜ao do problema em causa. Nesta disserta¸c˜ao ´e proposta a utiliza¸c˜ao de um m´etodo de regress˜ao que lida com a n˜ao linearidade das rela¸c˜oes entre os atributos e o valor do im´ovel, baseado em fun¸c˜oes de polin´omios fracion´arios.

1.2

Organiza¸

ao

Esta disserta¸c˜ao ´e constitu´ıda por 5 cap´ıtulos. Neste primeiro pretende-se contextualizar o estudo levado a cabo ao longo desta disserta¸c˜ao.

(24)

No Cap´ıtulo 2 faz-se uma descri¸c˜ao do problema da regress˜ao e s˜ao apresentadas diferentes abordagens ao mesmo. Aqui ´e exposta alguma teoria que servir´a de sustenta¸c˜ao a todo o trabalho.

Em seguida, no Cap´ıtulo 3, ´e descrito o processo de “data mining” e as v´arias tarefas e metodologias que envolve este processo. Em particular ´e exposto o procedimento CRISP-DM, desenhado para normalizar os processos de “data mining”.

No Cap´ıtulo 4 ´e descrito todo o processo de tratamento dos dados e consecutivo estudo experimental que deu origem a esta disserta¸c˜ao. S˜ao ainda expostos os resultados obtidos e sua discuss˜ao.

Por ´ultimo, no Cap´ıtulo 5, s˜ao descritas as conclus˜oes ao trabalho realizado e dos resul-tados obtidos, assim como algumas sugest˜oes de trabalho futuro.

(25)
(26)

Cap´ıtulo 2

Modelos de Regress˜

ao

A an´alise de regress˜ao tem imensas aplica¸c˜oes em in´umeras ´areas da ciˆencia desde as en-genharias `as ciˆencias sociais.

´E uma das t´ecnicas estat´ısticas mais usadas e consiste em investigar e modelar a rela¸c˜ao entre uma vari´avel aleat´oria dependente y e uma ou mais vari´aveis independentes x1, x2,

. . . , xN. Em geral, o material exposto neste cap´ıtulo foi extra´ıdo de [5], [7] e [13].

Os modelos de regress˜ao tˆem in´umeras aplica¸c˜oes, das quais se destacam:

Descrever os dados - um modelo de regress˜ao ´e uma forma bastante ´util de sumariar os dados, substituindo o uso de in´umeros gr´aficos e tabelas;

Estimar parˆametros - muitos modelos assemelham-se a regress˜oes, recorrendo a t´ecnicas an´alise de regress˜ao ´e poss´ıvel estimar os parˆametros de interesse;

Previs˜ao - muitas aplica¸c˜oes envolvem previs˜ao da vari´avel resposta, isto pode trazer alguns problemas relacionados com o erro do modelo;

Controlo - quando a rela¸c˜ao descrita pelo modelo de regress˜ao ´e de causa-efeito, a equa¸c˜ao do modelo pode ser usado no controlo de processos.

Um modelo de regress˜ao ´e um modelo estat´ıstico no qual se sup˜oe que o valor esperado de uma vari´avel depende do valor observado de outra, ou de outras vari´aveis, atrav´es de uma rela¸c˜ao funcional com uma forma espec´ıfica; ou seja, ´e um modelo que se desenvolve a partir de uma equa¸c˜ao da forma

E[y|x] = g(x), com x ∈ Rp, p ≥ 1. (2.1) `A equa¸c˜ao anterior d´a-se o nome de equa¸c˜ao de regress˜ao. A vari´avel x ´e uma vari´avel observ´avel, determin´ıstica, supostamente observada sem erro e ´e designada por vari´avel

(27)

independente, preditora ou regressora. A vari´avel y ´e chamada de vari´avel resposta. Trata-se de uma vari´avel aleat´oria obTrata-serv´avel, cujo valor esperado condicionado pelo valor de x, ´e expresso como uma fun¸c˜ao de g(x). A natureza aleat´oria de y ´e formalizada considerando os desvios aleat´orios que a vari´avel pode assumir em rela¸c˜ao ao valor m´edio condicional. Assim, o modelo de regress˜ao ´e caraterizado por

y= g(x) + ε, com E[ε] = 0. (2.2)

A vari´avel ε ´e uma vari´avel aleat´oria n˜ao observ´avel, chamada desvio ou erro do modelo. A fun¸c˜ao de regress˜ao g(x) ´e especificada atrav´es de um conjunto de parˆametros.

O modelo de regress˜ao diz-se linear quando ´e linear nos parˆametros e n˜ao linear em caso contr´ario. Um modelo de regress˜ao diz-se simples quando se sup˜oe um ´unico regressor e diz-se m´ultiplo quando se admite a existˆencia de diversos regressores, que representam as componentes de x.

Na aplica¸c˜ao de um modelo de regress˜ao ´e suposto que ele modele bem a rela¸c˜ao existente entre as componentes de observa¸c˜ao do tipo (xi, yi), i = 1, . . . , N. Logo, tendo em conta

uma amostra (xi, yi), i = 1, . . . , N as vari´aveis xi e yi dever˜ao verificar a equa¸c˜ao de

regress˜ao E[yi|xi] = g(xi), para todo i = 1, . . . , N. A forma da fun¸c˜ao g ´e especificada,

mas os parˆametros do modelo s˜ao sempre desconhecidos e ser˜ao estimados com base nas observa¸c˜oes (xi, yi), i = 1, . . . , N.

Nota¸c˜ao

Em modelos lineares ´e muito comum usar letras min´usculas para denotar indiferentemente as vari´aveis aleat´orias e as suas realiza¸c˜oes. Assim yi tanto poder´a representar a vari´avel

aleat´oria como o seu valor observado. As letras mai´usculas s˜ao, em geral, reservadas para designar matrizes; os vetores ser˜ao representados por letras min´usculas a cheio, como por exemplo em x.

2.1

Regress˜

ao Linear

Comecemos por considerar o caso mais simples, isto ´e, com uma ´unica vari´avel inde-pendente x. Os pares (xi, yi), i = 1, . . . , N podem ser representados num diagrama de

dispers˜ao, Figura 2.1. O objetivo ´e ajustar uma reta que se aproxime o mais poss´ıvel `as observa¸c˜oes, Figura 2.2.

(28)

Figura 2.1: Diagrama de dispers˜ao Figura 2.2: Reta de ajustamento

Num modelo de regress˜ao linear simples, considera-se que se disp˜oe de um conjunto de N pares de observa¸c˜oes (x1, y1), . . . , (xN, yN) tais que, a rela¸c˜ao entre a vari´avel resposta y

e a sua preditora x pode ser descrita em termos lineares por

yi = β0+ β1xi+ εi, i = 1, . . . , N (2.3)

onde os erros εi tˆem valor m´edio nulo, variˆancia constante σ2 e s˜ao n˜ao correlacionados.

Assim,

E[yi|xi] = β0+ β1xi (2.4)

e

V[yi|xi] = σ2, i = 1, . . . , N. (2.5)

A equa¸c˜ao de regress˜ao ´e a reta

E[yi|xi] = β0+ β1xi (2.6)

cujos parˆametros β0 – valor da ordenada na origem – e β1 – declive da reta – se pretendem

estimar a partir das observa¸c˜oes (x1, y1), . . . , (xN, yN).

2.1.1

etodo dos M´ınimos Quadrados

Sem que sejam assumidas mais hip´oteses, para encontrar os valores de β0 e β1 recorre-se

ao m´etodo dos m´ınimos quadrados, [5]. Nesse sentido, o objectivo ´e procurar a reta “mais pr´oxima” do conjunto das observa¸c˜oes, determinando os estimadores dos coeficientes de regress˜ao β0 e β1 que permitam minimizar a soma dos quadrados das distˆancias entre os

pontos observados e a reta, medindo as distˆancias na vertical.

Para isso, minimiza-se a soma dos quadrados dos desvios, dada por

L= N X i=1 ε2i = N X i=1 [yi− β0 − β1xi]2 (2.7)

(29)

onde N representa o n´umero de observa¸c˜oes. Note-se que se recorre ao uso do quadrado porque a soma dos desvios ´e nula, PN

i=1εi = 0.

O primeiro passo a tomar ´e derivar a express˜ao (2.7) em rela¸c˜ao aos parˆametros β0 e β1

∂L(β0, β1) ∂β0 = −2 N X i=1 [yi− β0− β1xi] (2.8) ∂L(β0, β1) ∂β1 = −2XN i=1 [yi− β0− β1xi]xi (2.9)

Particularizando e igualando as derivadas parciais a zero obt´em-se

−2 N X i=1 [yi− ˆβ0− ˆβ1xi] = 0 (2.10) −2 N X i=1 [yi− ˆβ0− ˆβ1xi]xi = 0 (2.11)

Simplificando, obtˆem-se as equa¸c˜oes normais de m´ınimos quadrados

N ˆβ0+ ˆβ1 N X i=1 xi = N X i=1 yi (2.12) ˆ β0 N X i=1 xi+ ˆβ1 N X i=1 x2i = N X i=1 xiyi (2.13) de onde ˆ β0 = PN i=1yi N − ˆ β1PNi=1xi N = ¯y − ˆβ1¯x (2.14) onde ¯x = 1 N PN

i=1xi e ¯y = N1 PNi=1yi s˜ao as m´edias das amostrais das componentes xi e yi.

Considerando as express˜oes (2.12), (2.13) e (2.14) obt´em-se a seguinte rela¸c˜ao ˆ β1 N X i=1 x2i = N X i=1 xiyi− ˆβ0 N X i=1 xi = XN i=1 xiyi(¯y − ˆβ1¯x) N X i=1 xi = XN i=1 xiyi¯y N X i=1 xi− ˆβ1¯x) N X i=1 xi = XN xy − N¯x¯y − N ˆβ ¯x2;

(30)

ent˜ao vem, ˆ β1( N X i=1 x2i − N¯x2) = N X i=1 xiyi− N¯x¯y e portanto, ˆ β1 = PN i=1xiyi− N¯x¯y PN i=1x2i − N¯x2 . (2.15)

A ˆβ0 e ˆβ1 chamamos estimadores de m´ınimos quadrados, e com eles obt´em-se a reta de

regress˜ao ajustada, ˆyi = ˆβ0+ ˆβ1xi, i= 1, . . . , N.

Recorrendo agora a uma nota¸c˜ao mais usual temos

¯x = 1 N N X i=1 xi (2.16) ¯y = 1 N N X i=1 yi (2.17) Sxx = N X i=1 x2i − ( PN i=1xi)2 N (2.18) Syy = N X i=1 y2i −( PN i=1yi)2 N (2.19) Sxy = N X i=1 xiyi− N¯x¯y (2.20)

onde Sxx e Syy s˜ao as somas dos quadrados dos desvios das m´edias e Sxy ´e a soma dos

produtos cruzados dos desvios de x e y.

Os estimadores de β0 e β1 na nota¸c˜ao anterior s˜ao dados por

ˆ β1 = Sxy Sxx (2.21) ˆ β0 = ¯y − ˆβ1¯x (2.22)

Quando se considera, adicionalmente que εi ∼ N(0, σ2), i = 1, . . . , N, os estimadores de

(31)

2.1.2

Regress˜

ao Linear Multivariada

Como se referiu, um modelo de regress˜ao que envolva mais do que uma vari´avel preditora ´e chamado modelo de regress˜ao linear multivariado e pode ser escrito da seguinte forma

y = β0+ β1x1+ . . . + βnxn+ ε (2.23)

onde n ´e o n´umero de vari´aveis regressoras, βj, j = 1, . . . , n s˜ao os coeficientes de regress˜ao

e ε uma componente aleat´oria.

Este modelo descreve um hiperplano no espa¸co n-dimensional. Cada βj, j = 1, . . . , n

representa a altera¸c˜ao esperada em y por unidade alterada em xj quando as restantes

vari´aveis preditoras s˜ao mantidas constantes, por esta raz˜ao denominam-se regularmente os βj, j = 1, . . . , n de coeficientes parciais de regress˜ao.

Para encontrar os valores de βj, j = 1, . . . , n recorre-se novamente ao m´etodo dos m´ınimos

quadrados. Neste caso pretende-se encontrar um hiperplano de regress˜ao que ser´a aquele que minimiza a distˆancia das observa¸c˜oes ao hiperplano, segundo o eixo dos yy.

A soma dos quadrados dos desvios ´e dada por

L= N X i=1 ε2i = N X i=1 [yi− β0− n X j=1 βjxij]2 (2.24)

Derivando (2.24) em rela¸c˜ao a cada βj, j = 1, . . . , n e igualando os resultados a 0, obtˆem-se

as seguintes equa¸c˜oes normais

N ˆβ0+ ˆβ1 N X i=1 xi1+ ˆβ2 N X i=1 xi2+ . . . + ˆβn N X i=1 xin = N X i=1 yi (2.25) ˆ β0 N X i=1 xi1+ ˆβ1 N X i=1 x2i1+ ˆβ2 N X i=1 xi1xi2+ . . . + ˆβn N X i=1 xi1xin = N X i=1 xi1yi (2.26) ... ˆ β0 N X i=1 xin+ ˆβ1 N X i=1 xinx2i1+ ˆβ2 N X i=1 xinxi2+ . . . + ˆβn N X i=1 x2in = N X i=1 xinyi (2.27)

A solu¸c˜ao destas n + 1 equa¸c˜oes s˜ao os estimadores de m´ınimos quadrados ˆβ0, ˆβ1, . . . , ˆβn.

(32)

onde y=         y1 y2 ... yN         , X =         1 x11 x12 . . . x1n 1 x21 x22 . . . x2n ... ... ... ... 1 xN 1 xN 2 . . . xN n         , β=         β0 β1 ... βn         e ε =         ε1 ε2 ... εN        

Analogamente aos pressupostos do modelo de regress˜ao linear simples, tem-se

E[y|X] = Xβ, E[ε] = 0 e V [ε] = σ2I.

Pretende-se encontrar o vetor dos estimadores dos m´ınimos quadrados, ˆβ, que minimiza a express˜ao (2.24) agora dada por

S(β) =

N

X

i=1

ε2i = εTε= (y − Xβ)T(y − Xβ) = yTy −TXTy+ βTXT (2.29)

Como βTXTy ´e um escalar, e a sua transposta (βTXTy)T = yT ´e o mesmo escalar,

derivando a express˜ao (2.29) e igualando a 0 temos

2XTy+ 2XTX ˆβ= 0

⇔ XTX ˆβ= XTy

⇔ ˆβ = (XTX)−1XTy (2.30)

No c´alculo anterior ´e necess´ario garantir a existˆencia de (XTX)−1, que existe sempre que

as regressoras sejam linearmente independentes.

Daqui ressalta a importˆancia da escolha das vari´aveis preditoras a ter em conta e a ne-cessidade de garantir a n˜ao existˆencia de vari´aveis confundidoras(1) entre as usadas para

prever o modelo.

Se adicionalmente, se suposer a normalidade dos erros, ˆβ ´e tamb´em estimador de m´axima verosimilhan¸ca.

(1) Uma vari´avel de confus˜ao ou confundidora ´e uma vari´avel de um modelo estat´ıstico que se

(33)

2.2

Regress˜

ao N˜

ao Linear

Existem in´umeras situa¸c˜oes onde a linearidade da rela¸c˜ao entre as vari´aveis n˜ao se verifica. Para contornar este problema foram propostas ao longo dos tempos v´arias solu¸c˜oes. As mais comuns s˜ao baseadas na lineariza¸c˜ao das rela¸c˜oes.

Na verdade podemos fazˆe-lo escrevendo um modelo similar ao descrito pelas equa¸c˜oes (2.3) e (2.23) da seguinte forma

y= β0 + β1z1+ β2z2+ . . . + βkzn+ ε (2.31)

onde zi, i = 1, . . . , n representam fun¸c˜oes das vari´aveis originais x1, . . . , xn e podem

in-cluir transforma¸c˜oes do tipo sin(xi), sqrt(xi), ln(xi), entre outras.

Os polin´omios fracion´arios, F P , s˜ao uma abordagem a esta falta de linearidade, proposta em [6].

2.2.1

Polin´

omios Fracion´

arios

Imaginemos que o modelo linear y = β1xn˜ao traduz a rela¸c˜ao das vari´aveis x e y, ou seja

que esta n˜ao ´e uma rela¸c˜ao linear. Uma forma de contornar este problema ´e considerar y = β1xp, onde a rela¸c˜ao entre y e xp ´e linear. `A transforma¸c˜ao xp chamamos polin´omio

fracion´ario de primeiro grau, F P 1.

Os autores desta abordagem sugerem a escolha do expoente p num conjunto S = {−2, −1,0.5, 0, 0.5, 1, 2, 3} onde ´e considerada a n˜ao transforma¸c˜ao (p = 1) e as transforma¸c˜oes inversa (p = −1), logar´ıtmica (p = 0), ra´ız quadrada (p = 0.5), quadrado (p = 2) e c´ubica (p = 3).

Para uma maior flexibilidade, podemos ainda considerar polin´omios fracion´arios de se-gundo grau, F P 2, definidos da seguinte forma: y = β1xp1+ β2xp2, p1, p2 ∈ S. No caso em

que p1 = p2 considera-se o modelo y = β1xp1 + β2xp1ln(x).

Foram propostos dois procedimentos distintos para selecionar a fun¸c˜ao usada na trans-forma¸c˜ao de cada vari´avel:

(34)

Ambos s˜ao baseados em testes de raz˜ao de verosimilhan¸ca para a escolha do modelo mais adequado.

O primeiro procedimento ´e o preferido pois como o pr´oprio nome indica ´e baseado num m´etodo de teste fechado que controla a taxa de erros de Tipo I ao permitir o aumento progressivo da complexidade dos modelos candidatos. ´E poss´ıvel ler com mais pormenor sobre m´etodos de teste fechado em [11].

2.2.2

Teste de Raz˜

ao de Verosimilhan¸

ca

A verosimilhan¸ca mede o ajustamento dos dados a determinado modelo.

Sejam M um modelo cuja distribui¸c˜ao de probabilidade depende de β e D um conjunto de observa¸c˜oes x1, . . . , xN.

Defini¸c˜ao 1 A verosimilhan¸ca da amostra ´e dada por L(M; D) = L(β) ≡ P (D|M) =

N

Y

i=1

f(xi; β) (2.32)

onde f(xi; β) representa a fun¸c˜ao de densidade de probabilidade da i-´esima observa¸c˜ao xi.

A fun¸c˜ao de verosimilhan¸ca expressa a plausibilidade de diferentes parˆametros ocorrerem, depois de observado um conjunto de observa¸c˜oes D.

O teste de raz˜ao de verosimilhan¸ca ´e usado para comparar o ajustamento de dois modelos. A raz˜ao de verosimilhan¸ca mostra quantas vezes ´e mais prov´avel que os dados se ajustem a um modelo contra o outro.

Defini¸c˜ao 2 Sejam M1 e M2 dois modelos a comparar. A raz˜ao de verosimilhan¸ca

entre eles ´e dada por:

LR(M1, M2; D) ≡

L(M1; D)

L(M2; D)

(2.33) Por vezes a verosimilhan¸ca ´e substitu´ıda pelo seu logaritmo, uma vez que converte os produtos em somas, reduzindo os problemas associados ao uso de valores demasiado pe-quenos.

Defini¸c˜ao 3 A log-verosimilhan¸ca de um modelo M dado um conjunto de dados

ob-servado D ´e o logaritmo da verosimilhan¸ca de M dado D,ou seja,

(35)

A estat´ıstica de teste associada ao teste de raz˜ao de verosimilhan¸ca ´e

G = −2 log(L(M1; D) L(M2; D))

= −2 log(L(M1; D)) + 2 log(L(M2; D)) (2.35)

Pelo teorema de Wilks, a estat´ıstica G tem distribui¸c˜ao χ2 com n graus de liberdade onde

n = df1− df2, onde dfi = ´e o n´umero de graus de liberdade do modelo Mi, i = 1, 2.

2.2.3

Procedimento de teste fechado - Algoritmo RA

2

Um procedimento de teste fechado ´e um processo que permite a realiza¸c˜ao de v´arios testes de hip´oteses simultaneamente, controlando a taxa de erros Tipo I.

Defini¸c˜ao 4 Um Teste de Hip´oteses ´e um processo que conduz a uma tomada de decis˜ao, com base na informa¸c˜ao fornecida pelos dados, sobre a rejei¸c˜ao ou n˜ao de deter-minada hip´otese estat´ıstica que se coloca.

O teste deve ser iniciado definindo a hip´otese nula, H0, e a hip´otese alternativa, H1,

assim como o n´ıvel de significˆancia α.

Defini¸c˜ao 5 Um erro Tipo I consiste em rejeitar H0 sendo esta verdadeira e a

proba-bilidade da sua ocorrˆencia define o n´ıvel de significˆancia α usado no teste de hip´oteses. Assim,

α= P (erro tipo I) = P (rejeitar H0|H0 verdadeira).

Suponhamos que existem n hip´oteses H1, ..., Hn a serem testadas. Partindo do princ´ıpio

que o conjunto de hip´oteses ´e fechado para a intersec¸c˜ao, um procedimento de teste fechado permitir´a a rejei¸c˜ao de cada uma das hip´oteses, Hi, i = 1, ..., n, se todas as intersec¸c˜oes

de hip´oteses contendo Hi forem rejeitadas.

O procedimento conhecido como RA2, Algoritmo 1, ´e constitu´ıdo por trˆes passos:

i) Um primeiro teste de associa¸c˜ao geral para perceber se a vari´avel preditora em quest˜ao ´e significante ou n˜ao, para isso testa-se a melhor transforma¸c˜ao contra a n˜ao inclus˜ao dessa vari´avel – modelo com coeficiente desta vari´avel nulo.

M1 ´e o modelo sem a vari´avel em estudo e M2 ´e o modelo usando a melhor fun¸c˜ao

F P2 como transforma¸c˜ao. Queremos testar H0 : β = 0 vs H1 : β 6= 0 sob a

hip´otese nula a estat´ıstica G tem distribui¸c˜ao χ2

(36)

ii) No segundo passo testa-se a n˜ao linearidade para perceber se a rela¸c˜ao entre a vari´avel preditora e a vari´avel resposta ´e linear ou n˜ao.

M1 - o modelo considerando uma rela¸c˜ao linear com a vari´avel em estudo e M2

- o modelo usando a melhor fun¸c˜ao F P 2 como transforma¸c˜ao. Queremos testar H0 : p = 0 vs H1 : p 6= 0 sob a hip´otese nula a estat´ıstica G tem distribui¸c˜ao χ23,

onde p representa o expoente a aplicar na vari´avel em estudo.

iii) Por ´ultimo escolhe-se entre o uso duma transforma¸c˜ao mais ou menos complexa, ou seja, entre usar o modelo FP1 e FP2.

M1 - o modelo usando a melhor fun¸c˜ao F P 1 como transforma¸c˜ao e M2 - o modelo

usando a melhor fun¸c˜ao F P 2 como transforma¸c˜ao. Queremos testar H0 : p =

1 vs H1 : p 6= 1 sob a hip´otese nula a estat´ıstica G tem distribui¸c˜ao χ22, onde p

representa o expoente a aplicar na vari´avel em estudo.

Algoritmo 1 RA2

Entrada: Conjunto de dados com uma vari´avel resposta y e uma vari´avel preditora x Sa´ıda: Transforma¸c˜ao adequada para a vari´avel preditora x

1: Fazer um teste a 4 graus de liberdade e a um n´ıvel de significˆancia α para o melhor

F P2 contra o modelo nulo (modelo omitindo x);

2: if O teste n˜ao ´e significante then 3: Remover x e PARAR;

4: else

5: Fazer um teste a 3 graus de liberdade e a um n´ıvel de significˆancia α para o melhor

F P2 contra o modelo linear;

6: if O teste n˜ao ´e significante then

7: PARAR, a fun¸c˜ao final ´e linear;

8: else

9: Fazer um teste a 2 graus de liberdade e a um n´ıvel de significˆancia α para o

melhor F P 2 contra o melhor F P 1;

10: if O teste ´e significante then

11: A fun¸c˜ao final ´e F P 2;

12: else

(37)

2.2.4

Procedimento sequencial

O procedimento sequencial n˜ao controla a taxa de erros de Tipo I, podendo esta ser maior que α no caso da rela¸c˜ao ser linear. Por esta raz˜ao, os modelos mais complexos s˜ao favorecidos nos testes deste algoritmo.

Algoritmo 2 Procedimento Sequencial

Entrada: Conjunto de dados com uma vari´avel resposta y e uma vari´avel preditora x Sa´ıda: Transforma¸c˜ao adequada para a vari´avel preditora x

1: Fazer um teste a 2 graus de liberdade e a um n´ıvel de significˆancia α para o melhor

F P2 contra o melhor F P 1;

2: if O teste ´e significante then

3: PARAR, a fun¸c˜ao final ´e F P 2; 4: else

5: Fazer um teste a 1 grau de liberdade e a um n´ıvel de significˆancia α para o melhor

F P contra o modelo linear;

6: if O teste ´e significante then

7: PARAR, a fun¸c˜ao final ´e F P 1;

8: else

9: Fazer um teste a 1 grau de liberdade e a um n´ıvel de significˆancia α para o modelo

linear contra o modelo nulo(omitindo x);

10: if O teste ´e significante then

11: A fun¸c˜ao final ´e linear;

12: else

13: Remover x;

2.2.5

Polin´

omios Fracion´

arios Multivariados

O algoritmo de polin´omios fracion´arios multivariados, MF P (“Multivariate Fractional Polynomials”), combina sele¸c˜ao de vari´aveis usando elimina¸c˜ao regressiva, BE (“Backward Elimination”), e sele¸c˜ao de fun¸c˜oes usando polin´omios fracion´arios, F SP (“Function Se-lection Procedure”). A cada uma destas etapas est´a associado um n´ıvel de significˆancia α1 e α2. Um processo MF P (α1, α2) equivale a BE(α1) + F SP (α2), quando α1 = α2 = α

usa-se MF P (α).

(38)

1. S˜ao escolhidos os n´ıveis de significˆancia α1e α2. Tipicamente α1 = α2 = 0.05. Fazendo

α1 = 1 for¸ca a n˜ao existir sele¸c˜ao de vari´aveis, e fazendo α2 = 1 for¸ca a escolha da

fun¸c˜ao F P mais complexa.

2. Escolhe-se o n´umero m´aximo de graus de liberdade permitidos na escolha das fun¸c˜oes F P, por norma define-se 4 (4,2 e 1 graus de liberdade correspondem a F P 2, F P 1 e linear respetivamente).

3. Define-se o n´umero m´aximo de ciclos permitidos at´e obten¸c˜ao do modelo final,cmax.

Por norma toma-se o valor 5.

Algoritmo 3 M F P

Entrada: Conjunto de dados com uma vari´avel resposta y e vari´aveis preditoras x1, ..., xN

Sa´ıda: Modelo de Polin´omios Fracion´arios Multivariados

1: Ajustar o modelo linear completo;

2: Encontrar os p values associados a cada xj;

3: Ordenar x1, ..., xN do menos para o mais significante;

4: Inicializar o contador de ciclos: c = 0; 5: repeat

6: Inicializar o contador de vari´aveis: j = 1; 7: repeat

8: if xj n˜ao ´e num´erica then

9: Fazer teste da significˆancia conjunta das “dummies” associadas a xj; 10: if xj ´e significante then

11: xj ´e considerada no modelo;

12: else

13: xj ´e removida;

14: else

15: Aplicar o passo 1 do algoritmo RA2 a xj ao n´ıvel de significˆancia α1e os passos

2 e 3 ao n´ıvel de significˆancia α2.

16: if ´E escolhida transforma¸c˜ao n˜ao linear de ordem n then

17: xj = xnj

18: until j = N

19: until N˜ao existem altera¸c˜oes entre os ciclos e c > cmax

2.2.6

Algoritmo M F P - Exemplo

Para ilustrar melhor o algoritmo MF P segue-se um exemplo passo a passo de uma itera¸c˜ao deste mesmo algoritmo, implementada em R. Ao longo deste exemplo o n´ıvel de

(39)

signi-ficˆancia considerado ´e α = 0.05. O c´odigo completo deste exemplo pode ser consultado em anexo.

Para simplificar esta demonstra¸c˜ao, foi retirada um amostra da base de dados em estudo com 5000 exemplos e considerando apenas as vari´aveis independentes AreaUtil, Codi-goTipologia, AnoEntrada, TOM (tempo de permanˆencia do im´ovel no mercado).

O primeiro passo ´e ajustar o modelo linear e encontrar os “p-values” associados a cada vari´avel preditora. Neste exemplo obtemos os seguintes “p-values”: AreaUtil < 2e−16,

CodigoTipologia = 0.042188, AnoEntrada = 0.001519 e TOM = 0.013816. Orde-nando as vari´aveis da menos significante para a mais significante ficamos com a seguinte ordem: AreaUtil < AnoEntrada < TOM < CodigoTipologia, que ser´a a ordem usada no algoritmo.

Comecemos pela AreaUtil, como ´e uma vari´avel num´erica vamos aplicar o algoritmo RA2, 1. O primeiro passo ´e fazer um teste de associa¸c˜ao geral, testando a melhor trans-forma¸c˜ao F P 2 contra a n˜ao inclus˜ao dessa vari´avel. O “p-value” deste teste ´e 0 e portanto inferior ao n´ıvel de significˆancia estabelecido, 0.05, sendo assim passamos ao segundo teste. O teste que se segue ´e de linearidade onde se testa o uso da melhor transforma¸c˜ao F P 2 contra o uso do modelo linear, o “p-value” resultante ´e 0 < 0.05, como ´e significante passamos ´ultimo teste que pretende escolher entre uma transforma¸c˜ao mais ou menos complexa. O “p-value” ´e 3.524869e−11 <0.05 e portanto a transforma¸c˜ao a aplicar a esta

vari´avel ´e de 2ª ordem, sendo assim a AreaUtil passa a AreaUtil2. Passamos ent˜ao

para a an´alise da vari´avel AnoEntrada.

Inicia-se com o teste de associa¸c˜ao geral, cujo “p-value” ´e 2.360960e−09 < 0.05, sendo

assim a vari´avel AnoEntrada ´e inclu´ıda e passamos ao pr´oximo teste. De seguida ´e testada a linearidade, com um “p-value” de 7.407686e−08 e portanto inferior ao n´ıvel de

significˆancia estabelecido, a rela¸c˜ao com esta vari´avel n˜ao ´e linear e portanto ´e feito o terceiro teste. Este teste determina se a transforma¸c˜ao a aplicar ser´a um F P 1 ou um F P2. O “p-value” que se obteve foi 1.544905e−08<0.05 logo o transforma¸c˜ao de que ser´a alvo ´e um F P 2. A vari´avel AnoEntrada passa a AnoEntrada2 e prossegue-se com a

vari´avel TOM.

A vari´avel TOM ´e sujeita ao primeiro teste para decidir se ´e ou n˜ao inclu´ıda no modelo, o “p-value” resultante ´e 2.289429e−08que ´e inferior a 0.05 e portanto a vari´avel ´e inclu´ıda

(40)

1.069207e−07<0.05. A linearidade n˜ao se verifica logo ´e feito um ´ultimo teste para

esco-lher entre uma transforma¸c˜ao F P 1 ou F P 2. O “p-value” ´e 0.01531591, inferior ao n´ıvel de significˆancia estabelecido, portanto a transforma¸c˜ao aplicar ser´a de 2º grau. Sendo assim a vari´avel TOM passa a TOM2 e faz-se a an´alise da ´ultima vari´avel dispon´ıvel.

´E feito o teste de associa¸c˜ao geral `a vari´avel CodigoTipologia e obt´em-se o “p-value” 0 < 0.05 e portanto a vari´avel ´e inclu´ıda no modelo. De seguida ´e testada a sua lineari-dade, o “p-value” resultante ´e 0, inferior ao limite estabelecido logo a linearidade n˜ao se verifica. Falta decidir se a transforma¸c˜ao a aplicar ´e de 1ª ou de 2ª ordem. O “p-value” do ´ultimo teste ´e 0 portanto a transforma¸c˜ao a aplicar ´e tamb´em de 2ª ordem e a vari´avel CodigoTipologia passa a CodigoTipologia2.

Caso acabasse aqui o ciclo todas as vari´aveis teriam transforma¸c˜oes de 2ª ordem e seriam escritas da seguinte forma:

AreaUtil−2+AreaUtil0.5

AnoEntrada−2+ AnoEntrada−2×log(AnoEntrada) TOM + TOM× log(TOM)

CodigoTipologia + CodigoTipologia× log(CodigoTipologia)

A pr´oxima itera¸c˜ao prosseguiria com as vari´aveis AreaUtil2, AnoEntrada2, TOM2 e

CodigoTipologia2, at´e que n˜ao houvesse altera¸c˜oes ou atingir o valor m´aximo de ciclos

(41)
(42)

Cap´ıtulo 3

Data mining

“Data mining” ´e o processo de explora¸c˜ao e an´alise de grandes quantidades de dados, com o objetivo de descobrir padr˜oes ou regras que permitam uma melhor compreens˜ao da informa¸c˜ao contida nos mesmos. Este processo desenvolve-se ao longo de diferentes fases, como se vˆe na Figura 3.1.

Figura 3.1: Processo de “data mining”

Na fase de modela¸c˜ao identifica-se o dom´ınio e a aplica¸c˜ao de “data mining” onde se insere o nosso problema. De seguida ´e feita a sele¸c˜ao de um conjunto de dados apropriado e a sua limpeza. Na fase de transforma¸c˜ao pode-se reduzir dimensionalidade, discretizar os atributos, entre outros, de forma a facilitar trabalhar os dados. O “data mining” especi-ficamente consiste em definir a tarefa, escolher o modelo e o algoritmo de aprendizagem a ser usado. Por fim ´e necess´ario avaliar o desempenho do modelo induzido e

(43)

interpre-tar resultados, e finalmente chegamos `a tomada de decis˜ao com base no conhecimento extra´ıdo.

3.1

A metodologia CRISP-DM

A metodologia CRISP-DM (“Cross-Industry Standard Process for data mining”), [4], foi concebida em 1996 por trˆes especialistas da ´area, ainda recente de “data mining”. A necessidade de comprovar a qualidade das t´ecnicas usadas era imperativa para ganhar a confian¸ca de novos clientes e poder refor¸car o crescimento desta ´area de investiga¸c˜ao. Desenvolveram ent˜ao esta metodologia, com o intuito de uniformizar o processo de uso das referidas t´ecnicas. Segundo os seus autores, a implementa¸c˜ao de um sistema de “data mining” pode ser dividida em seis fases, como se vˆe na Figura 3.2.

Figura 3.2: Metodologia CRISP-DM

Em primeiro lugar h´a que entender os objetivos do projeto e os requisitos numa perspetiva de neg´ocios, e em seguida, converter esse conhecimento na defini¸c˜ao do problema de “data mining” e de um plano preliminar projetado para atingir os objetivos. Seguidamente ´e tamb´em necess´ario investir na compreens˜ao dos dados passando por uma fase de entendi-mento e familiariza¸c˜ao com a base de dados tentando perceber a qualidade dos mesmos.

(44)

e transforma¸c˜ao do conhecido processo de “data mining” anteriormente descrito. Depois passa-se `a modela¸c˜ao; para isso ´e necess´ario definir a tarefa, escolher o modelo e o algo-ritmo de aprendizagem a ser usado. O passo seguinte ´e avaliar o desempenho do modelo induzido e interpretar resultados. Finalmente os conhecimentos adquiridos ter˜ao de ser organizados e apresentados de maneira a que o cliente possa utiliz´a-lo. Em muitos casos, ser´a o cliente, n˜ao o analista de dados, que ir´a realizar esta etapa. Mesmo n˜ao sendo o analista a fazˆe-lo, cabe-lhe a tarefa de explicar ao cliente que a¸c˜oes dever˜ao ser realizadas a fim de realmente fazer uso dos modelos criados.

3.1.1

Compreens˜

ao do neg´

ocio

A fase de compreens˜ao do neg´ocio acontece pela necessidade do analista estar dentro do esp´ırito do mercado a estudar, para permitir que este tenha a melhor abordagem poss´ıvel ao problema. Cada mercado tem especificidades distintas e em alguns casos bastante particulares, e s´o um estudo aprofundado dele e da sua envolvente faz com que o estudioso consiga obter resultados satisfat´orios e com fundamenta¸c˜ao l´ogica. ´E aqui que se come¸ca a desenhar o percurso a seguir na fase de modela¸c˜ao do problema.

3.1.2

Compreens˜

ao dos dados

Cada conjunto de dados tem caracter´ısticas espec´ıficas inerentes ao mercado que lhe d´a origem. ´E necess´ario ent˜ao, ap´os a compreens˜ao do neg´ocio que lhe est´a associado perceber o enquadramento dos dados, a sua qualidade e os seus problemas, com o intuito de definir os passos a seguir `a fase de prepara¸c˜ao dos dados.

3.1.3

Prepara¸

ao de dados

A fase de prepara¸c˜ao de dados ´e fundamental no processo de aprendizagem computacional, apenas com uma boa prepara¸c˜ao dos dados se consegue extrair a informa¸c˜ao correta. As t´ecnicas de prepara¸c˜ao podem ser agrupadas em quatro grandes grupos:

1. Limpeza:

(a) Tratamento de valores desconhecidos - podem ser substitu´ıdos por determinado valor, a m´edia por exemplo, ou ent˜ao podem ser imputados recorrendo a t´ecnicas de classifica¸c˜ao;

(b) Tratamento de ru´ıdos - aplica¸c˜ao de filtros adequados;

(c) Tratamento de “outliers” - podem ser descartados quando se considerem pouco relevantes;

(45)

2. Redu¸c˜ao da dimensionalidade:

(a) An´alise de Componentes Principais - proje¸c˜ao do espa¸co de atributos num espa¸co de menor dimens˜ao;

(b) Sele¸c˜ao de Atributos - selecionar um subconjunto de atributos por forma a elimi-nar os redundantes e irrelevantes;

(c) Pesagem de Atributos - atribuir pesos aos atributos, orden´a-los e selecionar os de maior peso;

Transforma¸c˜ao:

(a) Normaliza¸c˜ao dos dados - aplica-se quando as grandezas dos atributos s˜ao muitos diferentes;

(b) Aplica¸c˜ao de fun¸c˜oes (logaritmo ou ra´ız quadrado por exemplo) - com vista `a transforma¸c˜ao de dados;

3. Discretiza¸c˜ao (converte atributos num´ericos cont´ınuos):

(a) N˜ao supervisionada - n˜ao considera a classe e podem ser criados intervalos de largura/frequˆencia fixa ou aplicadas t´ecnicas de clustering;

(b) Supervisionada - considera a classe e baseia-se no c´alculo da entropia.

3.1.4

Modela¸

ao

A fase de modela¸c˜ao corresponde `a fase de “data mining” do processo mais usual e consiste na defini¸c˜ao da tarefa e do modelo a usar na implementa¸c˜ao do algoritmo de aprendizagem e extra¸c˜ao do conhecimento. Por vezes esta fase ´e repetida para diferentes algoritmos com a finalidade de comparar os resultados obtidos por forma a tomar uma decis˜ao mais acertada na altura de decidir qual o caminho final a seguir.

3.1.5

Avalia¸

ao

A avalia¸c˜ao ´e provavelmente a fase mais importante de todo este processo. Apenas usando um bom m´etodo de avalia¸c˜ao e uma medida adequada, ´e poss´ıvel tomar uma decis˜ao em consciˆencia quando chega a hora de escolher que modelo melhor se ajusta aos dados es-tudados.

Nesta fase tentam-se perceber os resultados e tamb´em verificar se a informa¸c˜ao ganha em cada modelo ´e de facto relevante e se vale a pena investir recursos na sua implementa¸c˜ao.

(46)

O cen´ario ideal seria aquele onde existem dois conjuntos de dados com o mesmo compor-tamento, o primeiro para o processo de aprendizagem e defini¸c˜ao do modelo – Conjunto de Treino – e o segundo para fazer a avalia¸c˜ao e valida¸c˜ao do modelo obtido – Conjunto de Teste. Uma vez que ´e bastante improv´avel de acontecer, existem alguns m´etodos que de-finem o processo de avalia¸c˜ao de desempenho a realizar, consoante o n´umero de exemplos dispon´ıveis em cada estudo.

3.1.5.1 M´etodos de Avalia¸c˜ao do Desempenho

Existem trˆes m´etodos usuais que definem o processo de avalia¸c˜ao do desempenho: “Hold-Out”, Valida¸c˜ao Cruzada e “Bootstrap”.

O “hold-out” ´e o mais intuitivo, e tamb´em o mais f´acil de aplicar. Consiste em dividir os dados em dois conjuntos, normalmente com 2/3 e 1/3 do total de exemplos, em Conjunto

de Treino e Conjunto de Teste, respetivamente.

Figura 3.3: Divis˜ao “Hold-Out”

O tamanho dos conjuntos pode ser ajustado `as necessidades do problema, no entanto, esta divis˜ao deve ser preferencialmente efetuada usando amostragem estratificada, ou seja, de forma a garantir que a distribui¸c˜ao dos exemplos de Treino e Teste ´e o mais semelhante poss´ıvel. O uso deste m´etodo s´o ´e aconselh´avel quando o n´umero total de exemplos ultrapassa os 1000. Do Conjunto de Treino obt´em-se o modelo e depois ´e aplicado no Conjunto de Teste para se poder avaliar o seu desempenho.

(47)

O m´etodo de valida¸c˜ao cruzada (“cross-validation”) ´e aconselhado para conjuntos de dados com cerca de 1000 exemplos. Os Exemplos s˜ao divididos por N subconjuntos iguais, com N a definir pelo analista e usando amostragem estratificada, para garantir a equidade dos subconjuntos. Quanto maior ´e o n´umero de subconjuntos mais exata ´e a avalia¸c˜ao, mas tamb´em maior ´e o tempo de processamento, por norma toma-se N = 10. Depois para cada subconjunto i com i = 1, . . . , N ´e obtido o modelo usando o conjunto de dados excepto o subconjunto i como conjunto de treino. De seguida aplica-se o modelo tomando como conjunto de teste o subconjunto i. A medida de avalia¸c˜ao ´e obtida pela m´edia das N medidas obtidas ao longo deste processo.

Figura 3.5: Valida¸c˜ao Cruzada

Um caso particular deste m´etodo ´e o “leave-one-out” que se pode aplicar quando o con-junto de dados muito pequeno, cerca de 30 exemplos. Nesta situa¸c˜ao existir˜ao tantos subconjuntos quantos exemplos, ou seja, cada subconjunto ser´a constitu´ıdo por um ´unico elemento.

O m´etodo “bootstrap” baseia-se num procedimento estat´ıstico de reamostragem com re-posi¸c˜ao. Partindo do conjunto inicial de exemplos ´e gerada uma amostra com o mesmo n´umero de exemplos, esta amostra ser´a o conjunto de treino. J´a o conjunto de teste ser´a constitu´ıdo por todos os elementos do conjunto inicial que n˜ao tenham sido selecionados. Este processo ´e repetido v´arias vezes e a medida de avalia¸c˜ao ´e dada pela m´edia de todas as medidas obtidas.

3.1.5.2 Medidas de Avalia¸c˜ao

As medidas de avalia¸c˜ao s˜ao in´umeras e com diversos prop´ositos. No ˆambito deste estudo pretendem-se utilizar medidas de avalia¸c˜ao que permitam avaliar a qualidade dos diferen-tes modelos. Optou-se pelo uso do coeficiente de determina¸c˜ao, R2, e da m´edia de desvios

(48)

O R2 d´a o grau de proximidade entre os valores estimados e observados da vari´avel

dependente e ´e dado da seguinte forma:

R2 = Varia¸c˜ao explicada Varia¸c˜ao Total = Pni=1( ˆyi¯y)2

Pn

i=1(yi¯y)2

(3.1)

onde yi, ˆyi e ¯y s˜ao respetivamente o valor da vari´avel dependente no registo i, o valor

estimado da vari´avel dependente para o registo i e a m´edia da vari´avel dependente, com i= 1, . . . , n.

Da an´alise da express˜ao (3.1) vemos que o coeficiente de determina¸c˜ao ´e sempre um n´umero positivo entre zero e um. Pode-se ainda concluir que quanto maior for este valor melhor ser´a o poder de explica¸c˜ao do modelo de regress˜ao. No cap´ıtulo 4 desta disserta¸c˜ao ´e desenvolvida toda a fase de avalia¸c˜ao e interpreta¸c˜ao dos resultados obtidos.

A medida conhecida como MAD ou MAE ´e o desvio absoluto m´edio ou erro absoluto m´edio, representa a m´edia dos desvios absolutos e ´e dada da seguinte forma:

M AD= 1 n n X i=1 |ˆyi− yi|

onde yi e ˆyi s˜ao respetivamente o valor da vari´avel dependente e o valor estimado da

vari´avel dependente para o registo i com i = 1, . . . , n.

3.1.6

Desenvolvimento

A fase de desenvolvimento ´e por norma realizada pelo cliente e n˜ao pelo analista. ´E nesta altura que se toma a decis˜ao cuja necessidade desencadeou todo o estudo. Cabe ao analista expor todo o estudo, pressupostos assumidos e conclus˜oes retiradas por forma a elucidar e orientar o cliente durante o processo de tomada de decis˜ao e implementa¸c˜ao de medidas em consonˆancia.

(49)
(50)

Cap´ıtulo 4

Estudo Experimental

4.1

Compreens˜

ao do neg´

ocio

Como j´a foi referido no cap´ıtulo introdut´orio desta disserta¸c˜ao, 1, o mercado imobili´ario tem caracter´ısticas muito peculiares, tais como heterogeneidade, imobilidade e durabili-dade dos bens que nele s˜ao transacionados. Torna-se portanto uma complicada tarefa encontrar uma forma autom´atica de definir o pre¸co de um im´ovel.

As caracter´ısticas que definem um im´ovel podem ser separadas em dois grandes gru-pos: intr´ınsecas e de localiza¸c˜ao. No primeiro grande grupo est˜ao inclu´ıdos os atributos f´ısicos que definem o im´ovel como a ´area, tipologia, comodidades e afins. Os atributos de localiza¸c˜ao est˜ao relacionados com o espa¸co f´ısico onde o im´ovel est´a implementado e al-berga coisas como o concelho, a freguesia, a zona, amenidades na vizinhan¸ca, entre outras.

A forma encontrada para lidar com a modela¸c˜ao deste problema passa pela implementa¸c˜ao dum modelo hed´onico de pre¸cos baseado em regress˜oes, lineares ou n˜ao.

4.2

Compreens˜

ao dos dados

Os dados analisados nesta disserta¸c˜ao s˜ao provenientes do portal imobili´ario “Casa Sapo”, [1]. Em Novembro de 2010, o referido portal albergava uma base de dados com cerca de 4 milh˜oes de exemplos referentes a im´oveis em territ´orio portuguˆes, inseridos neste portal entre 2000 e 2010 por particulares e profissionais do ramo imobili´ario. Estes im´oveis est˜ao caracterizados com in´umeros atributos, os mais relevantes podem ser con-sultados em anexo.

(51)

Foram objeto de um estudo detalhado os cerca de 50000 im´oveis do concelho de Aveiro. Numa primeira an´alise foram encontrados os seguintes problemas que dificultaram o tra-tamento dos dados:

• alguns valores contˆem espa¸cos desnecess´arios no final; • alguns atributos tˆem valores em falta;

• existem valores estranhos em v´arios atributos.

Tendo em vista a an´alise do mais importante setor do mercado imobili´ario, os estudos apresentados s˜ao baseados em im´oveis de carater residencial e cuja transa¸c˜ao associada seja “Venda”.

4.3

Prepara¸

ao de dados

Na fase de limpeza e prepara¸c˜ao dos dados recorreu-se ao uso do software “RapidMiner 5”, [15]. Este software permite a integra¸c˜ao com o “SQL Server” e assim ´e poss´ıvel extrair diretamente da base de dados os exemplos pretendidos. Neste caso foram extra´ıdos todos os im´oveis do concelho de Aveiro perfazendo um total de 54580 exemplos.

Figura 4.1: Extra¸c˜ao dos im´oveis de Aveiro

O primeiro problema a abordar ´e a quest˜ao dos espa¸cos extra em determinados campos que impossibilitam a implementa¸c˜ao de m´etodos de compara¸c˜ao e extra¸c˜ao de valores desses mesmos campos. Aplicando o operador Trim a todos os atributos fica-se com uma base de dados livre de espa¸cos inc´omodos, o que permite prosseguir o tratamento da mesma.

Figura 4.2: Operador Trim

(52)

atributos AreaUtil, AnoConstrucao, Preco, Tipologia, Zona e Estado. Estes filtros s˜ao aplicados com recurso ao operador Filter Examples.

Figura 4.3: Filtros de valores omissos e Neg´ocio

A maior fatia do mercado imobili´ario ´e a venda de im´oveis com fim `a habita¸c˜ao, e ´e neste setor que os estudos desenvolvidos se aplicam. Sendo assim ´e necess´ario excluir todos os exemplos que n˜ao se encaixam neste quadro e para isso usam-se dois filtros:

• Selecionar os exemplos cujo Negocio ´e “Venda”;

• Selecionar os registos onde a Natureza ´e “Andar de Moradia”, “Andar de Pr´edio”, “Apartamento”, “Casa Antiga”, “Casa R´ustica”, “Casa T´errea”, “Moradia”, “Mo-radia em Banda”, “Mo“Mo-radia Geminada” ou “Mo“Mo-radia Isolada”.

´E ainda necess´ario fazer alguns ajustes nos termos usados na vari´avel Natureza: os registos com o conte´udo “Andar de Pr´edio” passam a “Apartamento” e aqueles com “Moradia” passam a “Moradia Isolada”. Isto ´e conseguido recorrendo ao uso do operador Replace.

Figura 4.4: Natureza

O atributo Tipologia assume valores do tipo “Ta + b c”, onde a e b s˜ao valores inteiros e c denota se o im´ovel ´e Duplex, Triplex ou nenhum deles. Esta vari´avel est´a guardada na base de dados como nominal, no entanto esta caracter´ıstica dos im´oveis ´e orden´avel.

Por forma a permitir este tipo de abordagem criou-se o atributo CodigoTipologia que ´e dado pela express˜ao:

(53)

Para melhor entendimento da express˜ao (4.1) veja-se na Tabela 4.1 alguns exemplos de transforma¸c˜ao entre Tipologia e CodigoTipologia.

Tipologia CodigoTipologia

T0 1

T1 + 1 10101

T3 Duplex 30002

T5 50001

Tabela 4.1: Tipologia - CodigoTipologia

O atributo Estado assume valores no conjunto {“Em constru¸c˜ao”, “Em projecto”, “Novo”, “Usado”, “Recuperado”, “Por Recuperar”}. Um im´ovel usado pode variar imenso na idade, para perceber essas diferen¸cas criou-se uma nova vari´avel, Preserva¸c˜ao que con-juga o Estado e o AnoConstrucao recorrendo ao operador Generate Attributes. Pode ver-se a sua constru¸c˜ao no Algoritmo 4. Os registos com o valor “Em constru¸c˜ao”, “Em projecto” foram tamb´em agregados num s´o “Em constru¸c˜ao/projecto”.

Algoritmo 4 Preservac¸˜ao

Entrada: Valor do campo Estado Sa´ıda: Valor do atributo Preservacao

1: if Estado 6= “Usado” then 2: Preservacao ← Estado; 3: else

4: if Idade do Im´ovel < 10 then

5: Preservacao ← “Usado at´e 10 anos”; 6: else

7: if Idade do Im´ovel < 25 then

8: Preservacao ← “Usado de 10 a 25 anos”;

9: else

10: Preservacao ← “Usado com mais de 25 anos”;

O ´ultimo grande problema desta base de dados ´e a estranheza de alguns dos valores. Isto est´a associado ao erro humano e deve-se ao facto de ser um base de dados on-line, onde cada utilizador insere os dados relativos ao im´ovel que pretende vender. No caso da rela¸c˜ao entre a ´area de um im´ovel e a sua tipologia existem muitas incoerˆencias.

Por forma a contorn´a-las encontrou-se um conjunto de valores m´ınimos e m´aximos de ´area permitidos para cada tipologia at´e um m´aximo de “T9”. Os valores podem ser con-sultados na Tabela 4.2 e foram obtidos atrav´es do Regulamento Geral das Edifica¸c˜oes Urbanas,[16], da seguinte forma: os valores m´ınimos s˜ao os m´ınimos permitidos para a ´area ´util de cada tipologia por este regulamento e os valores m´aximos equivalem a 4 vezes

(54)

T0 T1 T2 T3 T4 T5 T6 T7 T8 T9 ´

Area m´ınima 26 34 47 59 66 80 89 99 109 119

´

Area m´axima (Apartamento) 140 208 288 364 420 488 536 630 694 758

´

Area m´axima (Moradia) 210 312 432 546 630 732 804 946 1042 1138

Tabela 4.2: Intervalos ´Area/Tipologia

O corte segundo estes intervalos foi conseguido criando uma vari´avel nova recorrendo ao operador Generate Attributes que toma o valor 1 quando o im´ovel est´a fora dos intervalos permitidos e 0 caso contr´ario, de seguida ´e aplicado o operador Filter Examples que elimina os valores indesejados.

Figura 4.5: Filtros segundo ´Areas e Tipologia

Os valores do ano de constru¸c˜ao e do pre¸co dos im´oveis tamb´em foram alvo de ajusta-mentos. Em primeiro lugar descartaram-se todos os registos cujo AnoConstrucao era inferior a 1000. Para al´em disso foram tamb´em eliminados todos os exemplos da base de dados que tivessem AnoConstrucao superior a 2010 mas o seu Estado n˜ao fosse ‘Em constru¸c˜ao/projecto”. Em rela¸c˜ao ao pre¸co removeram-se os im´oveis cujo valor de venda era inferior a 1000e.

Figura 4.6: Filtros segundo ´Areas e Tipologia

Acabada a fase de corre¸c˜ao dos problemas existentes na base de dados, foi necess´ario criar algumas novas vari´aveis para permitir uma melhor modela¸c˜ao do problema. Nesta ´area de neg´ocio, os objetos transacionados s˜ao muito diferentes entre si. Os im´oveis residenciais tomam as mais diversas tipologias e ´area pelo que se torna inapropriado fazer a modela¸c˜ao do pre¸co. Sendo assim pode-se tomar em considera¸c˜ao o pre¸co por m2 como um ´ındice

(55)

operador Generate Attributes com a f´ormula:

PrecoM2= Preco ÷ AreaUtil

O facto dos im´oveis terem uma linha temporal de venda tamb´em foi levado em conta e para isso recorreu-se `a cria¸c˜ao de dois novos atributos: AnoEntrada e TOM. O primeiro identifica o ano em que o im´ovel foi colocado `a venda no portal, a sua obten¸c˜ao ´e feita recorrendo ao operador Date to Numerical considerando como parˆametro de unidade de tempo o ano. Este operador converte um atributo do tipo data num valor num´erico tendo por base a unidade de tempo especificada.

O atributo TOM indica o tempo em que o im´ovel esteve no mercado desde a data de entrada no portal at´e `a data da sua sa´ıda, que se presume ser igual `a de venda. Este valor ´e dado em dias e ´e conseguido fazendo a diferen¸ca entre as duas datas ap´os terem sido transformadas em dias pelo operador anterior.

Como este atributo envolve as datas de entrada e de sa´ıda de cada registo no portal, pode apenas ser gerado para im´oveis que j´a deram sa´ıda da base de dados. Para isso ´e usado um filtro antes da sua cria¸c˜ao que remove todos os exemplos que n˜ao tenham data de sa´ıda.

Ap´os este processo encontraram-se registos cujo valor da vari´avel TOM era 0, isto pode indicar por exemplo que o utilizador se enganou a inserir o im´ovel e o retirou passado pouco tempo para corrigir a situa¸c˜ao. Por forma a contornar esta situa¸c˜ao, removeram-se todos os registos cujo TOM era 0.

Figura 4.7: Pre¸co por m2

Existe ainda na base de dados “Casa Sapo” um campo de texto livre, designado por DescriptionPT. Neste campo ´e permitido ao utilizador inserir uma descri¸c˜ao livre do

(56)

Sapo Real-Estate Analytics” na Universidade de Aveiro foi desenvolvida uma ferramenta C#que analisa cada registo da base de dados e armazena a informa¸c˜ao interessante criando um novo campo por cada caracter´ıstica referida na Tabela 4.3 da seguinte forma:

• Se ´e referido que o im´ovel n˜ao possui uma dada caracter´ıstica, o respetivo campo toma o valor −1;

• Se ´e referido que o im´ovel possui uma dada caracter´ıstica ou um dado n´umero n de exemplares dessa caracter´ıstica, o campo toma respetivamente os valores 1 ou n; • Se nada ´e referido acerca de determinada caracter´ıstica, o campo toma o valor 0.

Caracter´ısticas do Im´ovel

Ar Condicionado Aquecimento Central Arrecada¸c˜ao Arrumos

Aspira¸c˜ao Churrasqueira Climatiza¸c˜ao Despensa

Dom´otica Estacionamento Garagem Hidromassagem

Jacuzzi Jardim Kitchenette Lareira

Lavandaria Logradouro Marquise Mobilado

P´atio Porteiro Recuperador Sauna

S´ot˜ao Terra¸co Varanda

Tabela 4.3: Caracter´ısticas retiradas do campo DescriptionPT

Na an´alise levada a cabo foram consideradas novas vari´aveis booleanas que indicam apenas se a caracter´ıstica do im´ovel foi ou n˜ao referida no campo de descri¸c˜ao e n˜ao a quantidade de exemplares dessa caracter´ıstica que cada im´ovel possui.

4.4

Modela¸

ao e Avalia¸

ao

A modela¸c˜ao deste problema foi dividida em duas fases, cada uma com base num modelo de regress˜ao diferente, e ambas implementadas com recurso ao software R, [14], em par-ticular recorrendo ao pacote RMiner, [2] que cont´em diversas tarefas de “data mining” implementadas.

Em primeiro lugar aplicou-se um modelo de regress˜ao linear m´ultipla com diferentes com-bina¸c˜oes de atributos, por forma a perceber qual o conjunto de atributos que melhor descreve o problema. Numa segunda abordagem foi implementado um modelo de re-gress˜ao m´ultipla com base em polin´omios fracion´arios `a combina¸c˜ao de atributos com melhor desempenho.

(57)

O m´etodo de avalia¸c˜ao usado foi o “hold-out”, uma vez que o n´umero de exemplos dis-pon´ıveis era elevado. Para garantir a distribui¸c˜ao geogr´afica da base de dados, a amos-tragem realizada foi estratificada, tendo em conta a vari´avel Zona. De seguida foram definidas oito combina¸c˜oes de atributos denominadas F1, F2, F3, F4, Z1, Z2, Z3 e Z4, a sua constitui¸c˜ao pode ser consultada na Tabela 4.4.

F1 F2 F3 F4 Z1 Z2 Z3 Z4 Base Natureza x x x x x x x x Preservacao x x x x x x x x Freguesia x x x x Zona x x x x CodigoTipologia x x x x x x x x AreaUtil x x x x x x x x Descri¸c˜ao d01 ArCondicionado x x x x d02 AquecimentoCentral x x x x d03 Arrecadacao x x x x d04 Arrumos x x x x d05 Aspiracao x x x x d06 Churrasqueira x x x x d07 Climatizacao x x x x d08 Despensa x x x x d09 Domotica x x x x d10 Estacionamento x x x x d11 Garagem x x x x d12 Hidromassagem x x x x d13 Jacuzzi x x x x d14 Jardim x x x x d15 Kitchenette x x x x d16 Lareira x x x x d17 Lavandaria x x x x d18 Logradouro x x x x d19 Marquise x x x x d20 Mobilado x x x x d21 Patio x x x x d22 Porteiro x x x x d23 Recuperador x x x x d24 Sauna x x x x d25 Sotao x x x x d26 Terraco x x x x d27 Varanda x x x x Tempo AnoEntrada x x x x TOM x x x x

Referências

Documentos relacionados

- Se o estagiário, ou alguém com contacto direto, tiver sintomas sugestivos de infeção respiratória (febre, tosse, expetoração e/ou falta de ar) NÃO DEVE frequentar

Entre as atividades, parte dos alunos é também conduzida a concertos entoados pela Orquestra Sinfônica de Santo André e OSESP (Orquestra Sinfônica do Estado de São

Os resultados deste estudo mostram que entre os grupos pesquisados de diferentes faixas etárias não há diferenças nos envoltórios lineares normalizados das três porções do

Note on the occurrence of the crebeater seal, Lobodon carcinophagus (Hombron &amp; Jacquinot, 1842) (Mammalia: Pinnipedia), in Rio de Janeiro State, Brazil.. On May 12, 2003,

Os candidatos reclassificados deverão cumprir os mesmos procedimentos estabelecidos nos subitens 5.1.1, 5.1.1.1, e 5.1.2 deste Edital, no período de 15 e 16 de junho de 2021,

Desta maneira, observando a figura 2A e 2C para os genótipos 6 e 8, nota-se que os valores de captura da energia luminosa (TRo/RC) são maiores que o de absorção (ABS/RC) e

A clínica gestáltica tem o intuito de desenvolver um trabalho baseado na relação dialógica, que facilita o processo de autorregulação e ajustamento criativo para as pessoas.. Tais

- Remover as pastilhas usadas e retornar todo o parafuso de regulagem em seguida montar uma pastilha nova do lado da roda, empurrando com a mão a pinça no sentido do cilindro de