Árvores de regressão e generalizações : Aplicações

(1)

Maria de Fátima Monteiro Ferreira

Arvores de Regressão e generalizações

Aplicações

-Faculdade de Ciências da Universidade do Porto

Departamento de Matemática Aplicada

(2)

Maria de Fátima Monteiro Ferreira

Arvores de Regressão e generalizações

Aplicações

-Tese submetida à Faculdade de Ciências da Universidade do Porto

para obtenção do grau de Mestre em Matemática Aplicada

Faculdade de Ciências da Universidade do Porto

Departamento de Matemática Aplicada

(3)

Gostaria de agradecer:

* Ao meu orientador, professor Doutor Joaquim Fernando Pinto da Costa, pelo apoio,

disponibilidade e compreensão manifestados ao longo destes meses, assim como por

todos os reparos críticos feitos a este trabalho.

* Ao professor Doutor Torres Pereira, reitor da Universidade de Trás-os-Montes e Alto

Douro, pela ajuda económica e por me ter proporcionado a frequência do mestrado.

* A professora Doutora Emília Giraldes e ao professor Doutor Fernandes de Carvalho,

todo o apoio e interesse manifestados, que constituíram um forte incentivo para a

reali-zação deste trabalho.

* Ao professor Doutor José Basto, pela acessibilidade, compreensão e conselhos dados.

* A Dra

Gabriela Direito, pelas facilidades concedidas nos horários Durante o tempo de

frequência do mestrado.

* Aos meus pais e irmã, que sempre acreditaram em mim e cuja força me deu coragem

para continuar.

* Ao Doutor Garcia e à Dr

a

Gabriela, pelo apoio e amizade demonstrados.

* Ao PRODEP, pela atribuição de uma bolsa que facilitou a frequência deste mestrado.

Um agradecimento muito especial à minha mãe e a um leque de

amigos que me incentivaram a continuar e sem os quais este

trabalho não teria sido realizado.

(4)

Indice

I n t r o d u ç ã o 3 1. A r v o r e s binárias d e regressão e o m é t o d o C A R T 5

1.1 Construção inicial de uma árvore de regressão 6

1.2 Regra de Bayes ou do risco mínimo 9 1.3 Estimadores do risco mínimo 12

1.4 A divisão dos nós 13 1.4.1 Conjunto das questões binárias inerentes ao método CART e que

determinam as divisões admitidas em cada nó 13 1.4.2 Redução da complexidade do algoritmo de determinação da partição

óptima de uma variável nominal na regressão LSD 15 1.5 Quando parar o processo de segmentação dos nós. O método da poda 16

1.5.1 A árvore Tm a x 17

1.5.2 A sequência de sub-árvores podadas 18 1.6 A melhor sub-árvore podada: um problema de estimação 22

1.6.1 Estimadores de amostra independente 23 1.6.2 Estimadores de validação cruzada 25 1.6.3 A escolha da árvore final: utilização da regra 1 SE 27

2. O m é t o d o M A R S 29

2.1 Uma outra apresentação do método CART 29 2.2 O método MARS como produto de generalizações do CART 32

2.2.1 Continuidade 32 2.2.2 Novas generalizações 33

2.2.3 O algoritmo do MARS 35 2.2.4 O processo de poda 36 2.4 Decomposição ANOVA 37

(5)

2.5 O critério LOF: estimador da ineficiência da função aproxiroante 38 2.6 O modelo final: contínuo e com primeira derivada contínua 40

3. A p l i c a ç õ e s 4 2

3.1 Dados simulados 45 3.1.1 Aproximação de uma função com estrutura não linear 45

3.1.2 Aproximação de uma função linear 48

3.2 Dados reais 50 3.2.1 Previsão da idade do abalone 51

3.2.2 Previsão dos preços médios das casas em Boston 54

A n e x o A 57

Al Algoritmo que gerou o Io conjunto de dados simulados 57 A2 Resultados dos métodos LR, CART e MARS no Io

conjunto de dados simulados 58

A n e x o B 22

Resultados dos métodos LR, CART e MARS no 2o

conjunto de dados simulados 71

(6)

Introdução

Os métodos de regressão CART ("Classification and Regression Trees") e MARS ("Multi-variate Adaptive Regression Splines") que apresentaremos neste trabalho são filhos da era dos computadores. Com efeito, ao contrário de alguns métodos que passaram do papel e lápis para as calculadoras e posteriormente para os computadores, estes eram impensáveis antes da existência dos computadores. Eles fornecem novas formas de explorar os dados. Não pretendemos neste trabalho dar a ideia de que qualquer um destes métodos seja sempre o melhor. A potenciali-dade de cada método está directamente ligada à estrutura dos dados em estudo. Nenhum deles deve portanto ser usado em exclusividade, pondo de lado os outros métodos existentes. Estes métodos devem ser encarados como novas ferramentas, flexíveis e não paramétricas, do arsenal de métodos de que o analista deve dispor ao estudar um conjunto de dados.

A utilização de técnicas de segmentação ou de aproximação com recurso a árvores foi mo-tivada pela necessidade de lidar com problemas complexos (envolvendo por exemplo dados de dimensão elevada e/ou variável). Esta técnica teve início nas ciências sociais nos traba-lhos de [Morgan k Sonquist, 63] e [Sonquist k Morgan, 64]. Mais tarde [Hunt & Stone, 66],

[Messenger k Mandell, 72] e [Morgan k Messenger, 73] desenvolveram esta técnica para proble-mas de classificação. Contudo, foram as modificações introduzidas por Quinlan em 1979, 1983 e 1986 ([Quinlan, 86]) e os trabalhos de [Breiman k ai., 84] que mais contribuíram para a grande popularidade da utilização de árvores binárias em problemas de classificação. A utilização de árvores em problemas de regressão iniciou-se nos trabalhos de [Morgan k Sonquist, 63] com o seu programa AID ("Automatic Interaction Detection"). Generalizações do mesmo são descritas em [Sonquist k Morgan, 64], [Sonquist, 70], [Sonquist, Baker k Morgan, 73], [Fielding, 77] e em [Van Eck, 80]. [Breiman k ai., 84] extenderam ainda mais estas técnicas dando origem ao programa CART. As principais diferenças entre o AID e o CART encontram-se no processo de poda e de estimação, ou seja no processo de crescimento de uma árvore "honesta". O CART não coloca restrições ao número de valores que uma variável pode tomar e contém algumas ferra-mentas adicionais (combinações lineares das variáveis, tratamento de dados "omissos", acesso à importância relativa das variáveis, e t c . ) . Por outro lado, o CART não contém algumas das opções disponíveis no AID, como por exemplo a possibilidade de um "look ahead" limitado.

As árvores são muito utilizadas em problemas de botânica, biologia, medicina, etc....

(7)

compreender quais as variáveis que originam o fenómeno em estudo, e o modo como estão relacionadas nesse fenómeno. Ao contrário das outras técnicas, as árvores não necessitam de conhecer à priori todos os atributos. Este facto é especialmente vantajoso em problemas nos quais os valores dos atributos são difíceis de medir ou cuja medição acarreta custos elevados. Para prever o valor resposta de um caso temos apenas de recolher um a um os valores dos atributos que aparecem no seu percurso de descida na árvore. A utilização e interpretação simples de certas árvores são outros dos atractivos da utilização das mesmas.

As árvores binárias, são construídas de acordo com regras de divisão baseadas nas variáveis preditivas do domínio em estudo. O domínio é particionado recursivamente de forma binária, por forma a aumentar a homogeneidade dentro dos nós, a qual é determinada pela variável resposta do problema. Quando o processo de partição termina, cada um dos nós obtidos é declarado terminal e a cada um deles é associada uma classe nos problemas de classificação, ou um valor constante real nos problemas de regressão. Assim, os ingredientes principais da construção de uma árvore resumem-se aos seguintes pontos:

1. determinação de todas as divisões possíveis de um nó para cada variável do espaço de predição (usualmente as divisões são determinadas por questões binárias);

2. selecção da "melhor" divisão de todas;

3. determinar quando se deve considerar um nó como terminal; 4. atribuição de um valor resposta a cada nó terminal.

No capítulo 1, explicitaremos o processo de construção de arvores de regressão, dando prin-cipal relevo ás técnicas utilizadas por [Breiman & ai., 84] no programa CART. Este programa, implementa um dos métodos não paramétricos que melhor se adapta à aproximação de funções multivariadas. Contudo, o método CART revela-se extremamente ineficiente ao aproximar funções contínuas, ou funções nas quais as interações existentes envolvem um pequeno número de variáveis (por exemplo funções lineares). No capítulo 2, apresentamos uma série de modi-ficações introduzidas por Friedman no programa CART, as quais vieram permitir a obtenção de funções aproximantes contínuas com primeira derivada contínua. Estas modificações originaram o método MARS ("Multivariate Adaptive Regression Splines"). Este método partilha das pro-priedades atractivas do método CART, sendo no entanto mais potente e flexível na modelação de funções contínuas ou de funções cuja interação entre as variáveis envolva um número reduzido de variáveis.

Por último, no capítulo 4, alertamos para os problemas inerentes à comparação global dos métodos e apresentamos os resultados da aplicação dos mesmos a conjuntos de dados reais e simulados.

(8)

Capítulo 1

Arvores binárias de regressão e o método CART

No problema clássico de regressão múltipla pretendemos determinar um modo sistemático de prever o valor de uma variável real de resposta (também dita dependente) a partir da observação prévia de um conjunto de medidas que, supostamente, descrevem o objecto em estudo e cujos valores influenciam o valor tomado pela variável resposta.

Formalizando a ideia anterior, considere-se o vector das medidas observadas para o referido objecto e seja x um espaço mensurável M-dimensional contendo todos os valores possíveis desse vector; defina-se uma variável aleatória X = (X\, X2,..., XM), com valores em x e denote-se por

Y a variável de resposta associada a X.

Pretende-se determinar a função f{x)=y,ye R, de tal modo que y é o verdadeiro valor de Y quando X toma o valor x. Razões práticas, como por exemplo a existência de erros de observação e a impossibilidade do vector X conter todos os factores que influenciam o comportamento de

Y, inviabilizam a determinação da referida função. Inevitavelmente, limitamo-nos na prática

a procurar, com os dados disponíveis, uma função aproximante de / . A função aproximante, que designaremos de função de predição e denotaremos por / , é uma função definida em \ e com valores em JR, tal que a resposta / (x) é dada quando x é um valor observado da variável aleatória X

**f- x —* R**

x —> f(x)

O nosso objectivo resume-se à procura da função aproximante, / , minimizadora do custo dos possíveis erros associados às respostas dadas.

Seja L (y, f (x)J o custo originado pela resposta / (2) quando y é o verdadeiro valor de Y para o caso x em estudo.

(9)

de-terminação do valor de resposta, denota-se por R* (f(X)), e representa o risco asssociado à utilização de / (X) para prever o verdadeiro valor de Y;

**R*(Î(X))=E(L(YJ(X))).**

Na regressão dos menores desvios absolutos (LAD) o valor do risco da função de predição / (X) é dado pelo erro absoluto médio

R(f(X))=E(\Y-f(X)\)*

e na regressão dos menores desvios quadrados (LSD) pelo erro quadrático médio

R(f(X))=E^Y-f(X)j*

(para uma revisão de métodos de regressão linear de menor desvio absoluto veja-se [Narula e Wellington, 82]).

Neste capítulo apresentaremos a técnica de regressão por arvores binárias de regressão. Em particular descreveremos alguma da metodologia utilizada no programa CART ("Classification and Regression Trees"), desenvolvido em 1984 por Breiman, Friedman, Olshen e Stone [Breiman

k al., 84].

1.1 C o n s t r u ç ã o inicial de u m a árvore d e regressão

A uma árvore binária de regressão associa-se uma função de predição correspondente a uma partição T de x, isto é, uma função de predição que a cada elemento t € T ( logo í c x ) associa uma constante real t? (t).

A construção de uma árvore de regressão binária efectua-se de modo recursivo determinando uma sequência de divisões binárias de subconjuntos de x (a iniciar-se pela divisão do próprio

X em 2 subconjuntos descendentes). As sucessivas divisões processam-se por forma a obter a

partição T do espaço x Toaais adequada ao nosso problema. Posteriormente é atribuído um valor real de resposta a cada elemento dessa partição.

Na figura 1.1, que se segue, representamos uma possível árvore de regressão T. Os conjuntos Xi e X2 são disjuntos com x = Xi U X2'-> analogamente xs e X4 são disjuntos com xi = Xz U X4> e assim sucessivamente. O conjunto x designa-se por nó raiz de T e os seus subconjuntos, determinados pelas sucessivas divisões, por nós de T. Os nós de T que não sofrem divisões, neste caso X4> X5> X7> X8> X9 e Xio> designam-se por nós terminais e formam a partição T de x determinada pela árvore. Sob cada nó terminal encontramos o correspondente valor de resposta.Assim, uma árvore de regressão T determina uma função de partição associada a T,

(10)

isto é, uma função T \ \-*T onde r (x) = t se e somente se x G t, à qual fica associada uma função de predição / (r (a;)) = tf (í), i9 (í) G J? para cada valor x de X.

s(x

7

) ô(x

8

) »(x

9

) »(x

10

)

Fig 1.1: Arvore binária de regressão

Na prática, para construir uma árvore binária dispomos apenas de uma amostra aleatória do vector (X,Y), ou seja, dispomos de um conjunto de valores observados de X para os quais se sabe o valor exacto da variável resposta, e é com base nestes dados que se efectuam as referidas divisões. Em cada passo, a ideia fundamental por detrás da divisão de um nó, consiste em determinar, de entre todos os elementos do conjunto S (conjunto de todas as divisões binárias admissíveis de um nó), aquele que origine os dois nós descendentes com dados mais "puros"; isto é, aquele que conduza a uma diminuição máxima da "impureza" entre um nó de partida, t, e os seus descendentes, Í£ e ÍR.

A "impureza" de um nó t é quantificada pelo risco pesado

R* (t) =E(L (Y, tf (í)) /Xet)P{t)=r(t)P (í)

onde P (t) = P (X € t ) > 0 e r (í) representa o custo esperado de se tomar no nó t a resposta 1? (t) G M.

Deste modo, uma divisão s G S de um nó t em Í£ e £R origina um decréscimo de impureza dado por

AiT (s, t) = R* (í) - R* (tL) - R* (tR).

O processo descrito acima, da escolha do elemento s G S que maximiza o decréscimo de impureza, consiste em seleccionar a divisão binária s* G S, efectuada em í, tal que

AR* (s*,t) =max AR" (s, t).

Um conjunto de sucessivas divisões binárias conjuntamente com a ordem pela qual são efectuadas formam uma árvore binária T e a partição de x Po r ele s determinada constitui o conjunto T dos seus nós terminais (ou nós folhas).

(11)

A impureza de uma árvore T, que denotaremos por R* (T), é dada pela soma das impurezas de cada uma das suas folhas. Assim,

ir(r)=£iT(í)=5>(í)p(í),

tef tef

o n d e P ( í ) > 0 , V t e T .

Cada divisão de um nó t G T em £& e tR origina uma nova árvore T' de folhas

f = (f-{t})u{t

L

,t

R

}

Em cada passo, procuramos escolher a divisão s* G S do nó t E T que minimize a impureza da árvore T7 criada. De facto, como AR*(s,t) = R* (t) - R* (tL) - R* (tR)

= 53 i2 (Í) - ^ R* (t) , pois f' = (f- {t}) U {t*

L

, t

R

}

tef t<=f = R*(T)-R*(T'),

a divisão s*que maximiza AR* (s,t), maximiza R* (T) — R*(T'), o que equivale a minimizar

RÇf).*

Observando que

AR*(s,t) = R*(t) - R*(tL) - R*(tR) = [r(t) - PLr{t£) - PRr(tR)]P(t),

onde

p

L

= P(Xet

L

/Xet) = ^ - e P

R

= P(X€t

R

/X€t) = ^ - ,

e que P(t) > 0 é constante, maximizar AR* (s, t) consiste em maximizar

AR*(s/t) = r(t) - PLr(tL) - PRr(tR),

onde PL > 0 e PR > 0 representam a probabilidade dos elementos de t serem enviados pela

divisão para o nó ti, e tR, respectivamente (figura 1.2).

(12)

A construção de uma árvore binária de regressão inicia-se com um processo iterativo que em

cada passo visa a maximização de AR(s /t); terminado o processo de crescimento da árvore,*

a cada nó terminal t fica associada a resposta $(i) que será produzida pela árvore sempre que

um caso "atinja" esse nó. Fica assim definida uma função de predição, a qual confere à árvore

binária a estrutura de árvore binária de regressão.

1.2 Regra de Bayes ou do risco mínimo

Considere-se de novo o vector aleatório X com valores em x e a variável real de resposta Y.

Uma qualquer regra optimal fg (X), minimizadora do risco da sua utilização para prever o valor

de Y, diz-se uma regra de Bayes. Assim, fB

(X) é uma regra de Bayes se e só se

V/ (função de predição), R (fB*

(X)) < R ( / (X)) .*

Considerando que fx representa a densidade de X temos

R(f(x)) =*

E[E(L(YJ(X))/X)]

= J

E(L

(Y, f ()) /X = x)f*

x

(x) dx.

x

Assim sendo, a regra f

B

é uma regra de Bayes se

Vx G x E(L (Y, h ()) /X = x) =min E (l (Y, f (»)) /X = x)*

e o seu risco é dado por

R (f*

B

(X)) = / m i n E (L (Y, f (x)) fX = x) f

x

(x) dx.

x

No problema de regressão LAD, a função de predição /g núoimizadora de

R(f(X))=E(\Y-f(X)\),*

é dada por um qualquer valor da mediana da distribuição de Y condicionada por X = x, ou

seja,

f

B

(x) = v(Y/X = x),

onde

P (Y > v (Y/X = x)/X = x)>0.5 e P (Y < v (Y/X = x)/X = x)> 0.5.

Quanto ao problema de regressão LSD, a função de predição fg que nmiimiza

(13)

é dada pela função de regressão de Y em X, isto é,

fB(x)=E(Y/X = x).

Definimos de modo análogo a regra de Bayes correspondente a uma partição. O risco de uma função de predição ff correspondente a uma partição T é dado por

R* (ff) = R* (T) = £ E(L(Y,*(t)) /X € t)P(t) = £ r (í)P(í) (1.1)

onde P (t) = P (X € *) e -õ (t) = / (x),V x€t.

A função / g , minimizadora de (1.1), diz-se uma regra de Bayes. Assim / g é a regra de Bayes correspondente à partição T se

SB (X) =0(T (X)) onde Vi G f, a = 1? (í) minimiza £ (L (Y, a) /Xet).

Considerando na regressão LAD

v(t) = v(Y/Xet),

a regra de Bayes é dada por um qualquer valor da mediana da variável resposta no nó " atingido" por X, isto é,

fB(X) = v(r(X)),

e o seu risco é dado por

**K*(f**

B

(X)) = X>(|y-t>(í)|/XGt).P(í)

= £>(Í)P(Í).

No que respeita à regressão LSD, fazendo

l*(t)=E(Y/Xet),

a regra de Bayes é dada pela média da variável resposta no nó "atingido" por X, ou seja,

fB(X) = /,(r(X)),

sendo o seu risco calculado pela expressão

R*(h(X)) = ^ £ ( ( y -M( í ) f / l € í ) P ( í )

t€T

= ^ C 72( Í ) P ( Í ) .

(14)

V t e í , o = i9(t) minimiza £ ( L (Y, a) /Xet). Neste caso, o risco da regra de Bayes é dado por

R* ( / B ) = R* (T) = £ R* (t) = £ r (í) P (í),

ter tef com

r ( í ) = £ ( L ( y , t f ( í ) ) / X € í ) .

T e o r e m a 1.1: Seja t um nó de uma árvore T e J w uma colecção de nós que formam uma

partição de t. Então

**R(t)>Y, R(s),**

sefW

ocorrendo a igualdade, se e só se a resposta óptima dada no nó t, i9 (t), for também óptima para cada nó s da partição de t, isto é, se e só se

r(s) = E (L (F,*(*)) /X£s) , Vs G f(t).

T e o r e m a 1.2: Sejam T e T duas partições de x iois que a partição T refina a partição T.

Então

R* (T) > R* ( V ) , ocorrendo a igualdade, se e só se,

r(s) — E (L (Y, T? (í)) / X G s) para todos os pares t ET, s G T tais que s C t.

Os teoremas anteriores, provados em [Breiman &; ai., 84], pág. 271, garantem-nos que o risco de Bayes de uma árvore não aumenta com as segmentações dos nós; na pior das hipóteses uma segmentação manterá inalterado o valor do risco. S e i G T for segmentado em ti, e ÍR dando origem à árvore T', então o risco de Bayes de T1 será estritamente inferior ao risco de Bayes de

T, exceptuando se a acção óptima i? (í), tomada em t, for também óptima para ti, e ÍR (caso em que a redução do risco é nula). Assim, AR*(s /t) > 0, ocorrendo a igualdade se e só se

r{tL)=E{L(X,ti(t)) IX G t£) er(tR)=E(L(Y,#(t)) jX G tR).

Embora óptima e garantindo que AR*(s/t) = r(t) — PL r(ti) — PRr(tn) > 0, a utilização directa da regra de Bayes na escolha da divisão s* que maximiza AR* (s /1) pressupõe o conhecimento prévio da distribuição conjunta de (X,Y). No entanto, na prática não dispomos geralmente da distribuição de (X, Y), pelo que os valores reais de P(t), P{t£), P(tR), r(í), r{ti) e r(tji) têm de ser estimados a partir da amostra disponível.

(15)

1.3 E s t i m a d o r e s d o r i s c o m í n i m o

Seja {(Xn,Yn)}n=1 uma amostra aleatória de (X,Y) da qual dispomos da realização

{(xn,yn)}n=i, e, dado um nó t, considerem-se ra^(í) = {n G {1, ..., N} : xn € t} e

N(t) = |njv(í)|- Os valores de P(t), P(t£), P{tR), são estimados pelas proporções de elementos

da amostra em cada um dos nós:

onde N(t), N(tj_) e N(tn) representam o número de elementos da amostra que pertencem a t,

ÍL e ÍR, respectivamente.

Assim PL e PR são estimados pela proporção de dados de í que são enviados para Í£ e ÍR, respectivamente:

PL =

W

e

**

=

w

Na regressão dos menores desvios absolutos os valores de d(t), d(ti) e <a(i#) são estimados pelos respectivos desvios médios amostrais em relação à mediana amostrai do respectivo nó:

ã

® = m £ i

y

**»-()i. (**

L2

)

*■ ' nenN(t)

onde í)(t) representa a mediana amostrai do nó t; d[ti) e C2(ÍR) calculam-se de modo análogo

substituindo em (1.2) t por Í£ e ÍR, respectivamente. Deste modo um estimador de

AR*(s/t) = d(t) - PLd(tL) - PR d(tR)

é dado por

AR(s J t) = d(t) - pL d(tL) - PR d(tR).

Neste caso, a melhor divisão de t será a minimizadora da soma pesada dos desvios médios dos nós descendentes relativos à sua mediana amostrai

PLd(tL)+pRd{tR). (1.3)

Na regressão dos menores desvios quadrados

AR*(s/t) = a2(í) - PL a\tL) - PR a2(tR), (1.4)

sendo os valores de <x2(í), <T2(ÍL) ecr2(í^) estimados pelas respectivas variâncias amostrais:

v ' n€nN(t) com

S2

® = m) S (Yn-Y(t))

2

, (1.5)

?

W = ] 4 £ fti

(1-6)

(16)

S ^ Í L ) e S^(ifl) calculam-se de modo análogo substituindo em (1.5) e (1.6) t por í& e t

R

,

respectivamente.

Assim um estimador de AR(s /t) é dado por*

AR(s/t) = S

2

(t) -p

L

S

2

(t

L

) -p

R

£?(t

R

),

sendo a melhor divisão de t determinada por forma a minimizar a soma pesada das variâncias

amostrais dos nós descendentes

p

L

S

2

(t

L

)+p

R

S

2

(t

R

). (1.7)

Como

n(t)=P

L

ix(t

L

) + P

R

n{t

R

)

e

a

2

(t) = E[(Y - n{t)?/X 6 t] = P

L

E[(Y - »(t))

2

/X € t

L

) + P

R

E[(Y - ^{t)f /X e t

R

],

podemos dar à expressão (1.4) a forma

AR(s/t) = PLH*

2

(tL) + P

R

li

2

(t

R

)-i?(t) (1.8)

= P L P R ( M ^ ) - M * Í Í ) )2,

a qual, quando não dispomos da distribuição de (X, Y), ê estimada por

AE(s/t) = ^M

{

Y(t,)-Y(t

R

)f. (1.9)

No programa CART, [Breiman &; ai., 84], em problemas de regressão nos quais não dispomos

da distribuição de (X, Y), a regra utilizada na divisão de cada nó consiste em escolher, de entre

as divisões possíveis desse nó, aquela que minimiza (1.3) ou (1.7), consoante o problema de

regressão. Na regressão LSD minimizar (1.7) é equivalente a maximizar (1.9). Mais à frente

explicamos qual o método escolhido para terminar o crescimento da árvore e como a escolha da

árvore final é feita recorrendo a uma amostra independente ou à vaJidação-cruzada, para podar

a arvore.

1.4 A divisão dos nós

1.4-1 Conjunto das questões binárias inerentes ao método CART e que

de-terminam as divisões admitidas em cada nó

Os dados que neste trabalho nos propusemos estudar possuem estrutura standard, ou seja, os

vectores i e ^ , descritores dos casos em estudo tem dimensão fixa. O programa CART incorpora

para este tipo de situação (que ocorre na maioria dos problemas existentes) um conjunto standard

(17)

de questões binárias da forma x E Al que determina o conjunto das divisões standard permitidas em cada nó. A questão x G A? associada a um qualquer nó t determina de modo unívoco a divisão do conjunto t em dois subconjuntos disjuntos Í£ e ÍR, com Í£, U ÍR = í tais que,

t

L

= tDA e t

R

= tn(x-A),

assim, o nó descendente esquerdo, t^, será constituído pelos elementos de t que originam uma resposta afirmativa à questão x e Al, sendo o nó descendente direito, ÍR, formado pelos restantes elementos de t.

Considerando que cada vector observado é constituído pelos valores { xm} ^ _x, tomados pelas

M variáveis {Xm}m=l, o conjunto das questões standard é dado por:

Q = {{xm < c?) ) c € IR , Xm variável numérica} U

{(xm € Bi?) , Bi C B ,Xm variável nominal com modalidades em B} .

Notemos que embora # Q possa ser infinito, o número de divisões binárias distintas origi-nadas por um conjunto de dados ( # 5 ) é sempre finito. De facto, sendo a amostra finita, uma variável numérica, digamos Xm, tomará no máximo N valores distintos. Sejam xmi, xm2,..., xmN

esses valores que, sem perda de generalidade, consideraremos ordenados. As questões standard associadas a tal variável conduzirão, no máximo, a J V - 1 divisões binárias distintas de um nó, as quais coincidem com as divisões geradas pelas questões xm < Ci ?, com xmi < Cj < xmi+1,

i = 1,..., N — 1. Por sua vez, as questões associadas a uma variável nominal com L modalidades

conduzem à obtenção de 2L~l — 1 divisões binárias distintas de um nó.

As divisões geradas por questões standard dependem apenas do valor tomado por uma única variável (numérica ou nominal). Sob um ponto de vista geométrico, no caso das variáveis serem todas numéricas, o processo de construção de uma árvore de regressão binária recorrendo a divisões standard, consiste em particionar recursivamente o espaço em rectângulos multidimen-sionais, de lados perpendiculares aos eixos determinados pelas variáveis, nos quais a população é cada vez mais homogénea (figura 1.3).

A h *

(18)

Situações há de problemas nos quais dados homogéneos se separam de um modo natural por hiperplanos não perpendiculares aos eixos. O tratamento deste tipo de problemas torna-se complexo e origina árvores de grandes dimensões se as divisões possíveis em cada nó se basearem apenas em questões standard. Para tratar mais eficazmente dados que apresentam estrutura linear, o conjunto das questões permitidas em cada nó foi extendido, possibilitando que a procura da melhor divisão em cada nó se efectue também ao longo das combinações lineares das variáveis ordenadas. Reuniu-se então ao conjunto das questões standard o conjunto de todas as questões

K

da forma Yl °fcxfc < c ?, onde K representa o número de variáveis numéricas, c um qualquer

fc=i

número real e os coeficientes a\, ..., a # (associados ás variáveis numéricas com o mesmo índice)

K

números reais tais que £) aI — !• No entanto a introdução de questões permitindo combinações

fc=i

lineares das variáveis numéricas não trás só benefícios; se por um lado ela permite que se descubra e utilize possíveis estruturas lineares dos dados, gerando árvores menos complexas (com menos nós terminais), por outro lado tais árvores não têm a interpretação fácil, característica daquelas produzidas apenas com questões standard.

1.4.2 R e d u ç ã o d a c o m p l e x i d a d e d o algoritmo de d e t e r m i n a ç ã o d a partição ó p t i m a de u m a variável n o m i n a l n a regressão LSD

Seja Xm uma variável nominal do vector X com modalidades em B = {61, ..., &£,}.

Considere-se a divisão de um nó t em Í£, e i# efectuada em Xm dividindo B em Bi = {b^, ...} C B e

Bi = B—Bi e originando os nós descendentes Í£ = {x € t : Xm € Bi} e ÍR = {x € t : Xm €

-62}-Suponhamos que a divisão óptima de um nó t é aquela que origina a bipartição Bi, Bi de

B, minimizadora de Pz,(j) (/li (íz,)) + PR(J> (/U(ÍR)), onde (f> é uma função côncava num intervalo contendo /J,(.) (ver por exemplo (1.7)). Denomine-se esta partição por bipartição óptima de B. Como o número de divisões possíveis de um nó, baseadas numa variável nominal, aumenta

exponencialmente com o número de modalidades (2L~l — 1 divisões binárias distintas de um

nó para uma variável nominal com L modalidades), a complexidade do algoritmo de escolha da bipartição óptima que testa exaustivamente todas as possíveis bipartições torna-se insustentável para variáveis nominais com um elevado número de modalidades. Na procura da bipartição óptima de B pressupomos que

P(Xet,Xm = b)>0,\/b<EB

e que

E(Y J X Et, Xm = b) não é constante para b e B,

(19)

O teorema que se segue, é demonstrado em [Breiman & ai., 84], págs. 275-278 (com simpli-ficação devida a P. Feigin). No caso particular da regressão LSD, no qual <j> (y) = —y2 (veja-se

(1.8)), o resultado deve-se a [Fisher, 58]. Este resultado é a base teórica do algoritmo de pesquisa utilizado no programa CART [Breiman & ai., 84] na regressão LSD e que reduz a complexidade.

Teorema 1.3: Existe uma partição óptima de B em Bi e B^. Essa partição é tal que

E(Y/Xet,Xm = bl)<E(Y/X£t,Xm = b2)

para b\ 6 Bi e b2 G Bi.

Assim ordenando os valores de E(Y / X et, Xm = h), h G B:

E(Y/Xe t,X

m = bh

) <E{Y/Xet,X

m

= b

h

) < ... <E(Y/Xe t,X

m

= b

lL

),

o teorema 1.3 garante que a bipartição óptima de B estará entre as L — 1 bipartições de B em

Bl = {bh, ...,blh} e B2 = {blh+1, ...,blL) ,h=l, ..., L-l.

Quando a distribuição de (X, Y) é desconhecida temos de estimar os valores das médias a partir dos valores da amostra aleatória {(Xn,Yn)}^=l. Seja então y{b{) o valor da média de

todos os yn tais que a m-ésima coordenada de xm é fy. Se ordenarmos esses valores:

y(bh)<y(bh)<...<y(blL)

temos a certeza de que a melhor divisão s* em Xm no nó t é uma das L — l divisões que originam

tL = {xet:XmeBi} e tR = {x G t : Xm G B2} com Bi = {bh, ...,kh} e

-S2 = {fy.+i' — ,hL\, h = 1, ..., L — 1. Assim, em vez de procurar Bi de entre 2L~l — 1

subconjuntos de B basta procurá-lo entre os L — 1 subconjuntos de B descritos acima. Este resultado reduz drasticamente a complexidade do algoritmo de procura da bipartição óptima baseada numa variável nominal aumentando consideravelmente a eficiência computacional.

1.5 Q u a n d o parar o processo d e s e g m e n t a ç ã o dos nós. O m é t o d o d a p o d a

[Breiman & ai., 84] revolucionaram de certo modo o processo de criação de árvores de regressão ao abordarem o problema da determinação da árvore de regressão final sob um ponto de vista completamente diferente dos adoptados até à data. Os métodos de construção de árvores de regressão existentes até então, e mesmo o método CART [Breiman & ai., 84] numa fase inicial, utilizavam uma regra heurística de paragem da segmentação dos nós para terminar o processo de crescimento da árvore e declará-la como árvore final. Esta regra consistia em declarar um nó como terminal quando este não admitisse nenhuma divisão que conduzisse a um decréscimo

(20)

significativo da impureza, ou seja, se fixada à priori uma quantidade /3 > 0, max AR (s, t) < (3. Tal regra produzia geralmente resultados insatisfatórios; tornava-se impossível fixar um /? que fosse eficaz para todos os nós. Um j3 "pequeno" tinha o inconveniente de conduzir a árvores "excessivamente grandes", no entanto, um aumento de f3 levava normalmente a declarar como terminais certos nós nos quais o decréscimo de impureza era ínfimo mas cujos descendentes possuíam divisões que originavam grandes decréscimos de impureza. Assim, aumentando /3, as árvores tornavam-se "demasiado pequenas", na medida em que, alguns nós com elevado poder predictivo (e portanto desejáveis) não chegavam a ser criados.

Depois de inventarem e testarem algumas variantes desta regra, que se revelaram de igual modo insatisfatórias, [Breiman & ai., 84] propuseram um novo método de procura da árvore final. Em vez de utilizarem critérios de paragem resolveram deixar crescer a árvore inicial até obter uma árvore, Tmax, de grandes dimensões, a qual é posteriormente submetida a um adequado processo de poda ascendente (que explicitaremos mais adiante) por forma a produzir uma sequência de sub-árvores

Tmax, Ti, T2, —, {h} , com ti = Taiz(Tmax),

de complexidade decrescente. A árvore de regressão final será então escolhida desta sequência como sendo aquela que minimiza a estimativa do risco da sua utilização como função de predição. A escolha é feita através de uma amostra teste independente no caso de a amostra ter grandes dimensões, ou através de um processo de validação cruzada no caso contrário.

1.5.1 A á r v o r e Tm a a.

Sob um ponto de vista teórico a construção da árvore inicial Tmax de [Breiman & ai., 84], consistia num processo sequencial de divisão dos nós por forma a maximizar o decréscimo de impureza, processo este que finalizaria apenas quando todos os nós folhas fossem conjuntos singulares. No entanto, em diversos problemas, a criação de tal árvore acarretava custos com-putacionais elevados e pressupunha a disponibilidade de tempo computacional ilimitado o que inviabilizava a sua utilização directa. Assim, uma vez que o tempo e custo computacionais dis-pendidos são factores de extrema importância e limitados, na prática, ao criar a árvore Tmax, termina-se o processo de segmentação de um nó se este for puro (isto é, se o valor da variável de resposta for o mesmo para todos os seus casos), ou for formado por um número pequeno (geralmente entre 1 e 5) de casos.

As árvores Tmax assim obtidas são menores; no entanto, o tamanho exacto da árvore Tmax de partida não é importante, desde que seja "suficientemente grande", uma vez que não tem influência na determinação da árvore final. Como veremos, a partir de dada altura, a sequência

(21)

de subárvores originadas pelo processo de poda aplicado à maior árvore Tmax será coincidente com a sequência obtida pelo mesmo processo quando este é aplicado a uma árvore de tamanho inferior. Para uma árvore inferior mas "suficientemente grande" as sequências poderão ser totalmente coincidentes, conduzindo à escolha da mesma árvore final.

Como nota final, referiremos apenas que, comparativamente, as árvores iniciais dos problemas de regressão têm geralmente dimensões muito maiores do que as dos problemas de classificação.

1.5.2 A s e q u ê n c i a d e s u b - á r v o r e s p o d a d a s

Numa fase inicial de trabalhos, [Breiman k, ai., 84] sugeriram construir a sequência de sub árvores podadas de Tmax,

Tmax, T\,T2,..., {ti} ,

do seguinte modo:

considerese para cada H, 1 < H < \fmax\ (onde \Tmax\ representa a complexidade, isto é, o número de nós terminais da árvore Tmax) a classe TH de todas as subárvores de Tmax com

complexidade \Tmax\ — He escolhase a árvore TH da classe TH tal que

R(TH) = min R(T),

Tern

para tomar parte da sequência.

Este procedimento origina com efeito uma sequência de subárvores de Tm a x de complexidade decrescente, cada uma delas a melhor para o seu tamanho, no sentido de minimização do custo; no entanto tem o inconveniente de que nós previamente podados podem reaparecer mais à frente na sequência. Para evitar este problema [Breiman & ai., 84] impuseram a seguinte restrição:

"a sequência de sub-árvores podadas de Tmax deverá ser constituída por árvores encaixadas"

Tmax ^Ti^T2y ... >- {h} .

Para posterior determinação desta sequência definiram previamente uma medida de custocomplexidade de uma árvore, acrescentando ao custo global da mesma uma penalização a (geralmente > 0) por cada nó terminal.

A medida de custocomplexidade de uma árvore T, que denotaremos por Ra(T), é dada por

RciT) = R(T) + a\f\ = £ ((*) + «) = E «■().

tef tef

onde a representa o parâmetro de complexidade e ilQ(í) = R(t) + a a medida de custocomplexidade de um nó t.

Definiram ainda a menor subárvore optimamente podada de T com respeito a a como sendo a subárvore T(a) de T verificando as seguintes condições:

(22)

(i) R

a

(T(a)) = min R

a

{ï) ;

(H) se J R Q ^ ) = Ra(T(a)) então T ( a ) ^ T \

Assim, T ( a ) é a menor subárvore de T que minimiza o custocomplexidade com respeito a

a, sendo a sua existência e unicidade garantida pelo teorema 1.4 ([Breiman & al., 84], pág. 285).

Nota: Um ramo Tt de T com raiz t ET consiste no nó t e todos os seus descendentes em T;

TL = Tt1L e TR = Tt1R representam os ramos primários de uma árvore T com raiz t\. Podar um

ramo Tt de uma árvore T consiste em remover de T todos os descendentes de t.

Teorema 1.4: Toda a árvore T tem uma única menor sub-árvore optimamente podada com

respeito a a. Seja T uma árvore não trivial com raiz ti e ramos primários TL e TR. Então,

Ra(T(a)) = m i n ^ f r ) , Ra(TL(a)) + Ra(TR(a))] ;

Temos T(a) = {h} se Ra(h) < Ra(TL(a)) + Ra(TR(a)) e T(a) = {ti} U TL(a) U TR(a) no

caso contrário.

A quantidade a (a > 0) influencia directamente o tamanho de T(a): se a é pequeno a penalização da subárvore por ter um grande número de nós terminais é pequena e T(a) será grande; um aumento de a traduzse em fortes penalizações para subárvores mais complexas e na consequente obtenção de menores subárvores T(a); por último, para um valor de a significativamente elevado, a subárvore T(a) reduzirseá apenas à raiz de T.

O teorema que se segue vem fundamentar as observações anteriores.

Teorema 1.5: Se aç > a i então T(ct2) •< T{a{).

Da transitividade de ■< segue que

s e T ( a ) <f di T então T(a) = T> (a). (1.10)

Se T < Tmax, a partir de um dado a teremos Tmax(a) ■< T1, logo T'(a) = Tmax(o;). Isto

significa que se começarmos o processo de poda com uma subárvore T1 de Tmax, a partir de um

certo a a sequência de subárvores obtida coincide com a que se obteria partindo de Tmax. Se a subárvore "t for "suficientemente grande" o primeiro valor de a para o qual Tmax{a) ^ T" será pequeno e as referidas sequências serão praticamente idênticas.

Seja N(T) o número de subárvores podadas de uma árvore T. Se T é trivial teremos

N(T) = 1 caso contrário N(T) = N(TL) x N(TR) + 1 onde TL e TR representam os ramos

(23)

a raiz até aos nós terminais têm exactamente n + 1 nós. Temos f"1 = 2n e N(Trn+1) =

(N(Tn))2 + 1. Assim, para n = 4 teremos 677 sub-árvores, para n = 5, 458330 sub-árvores e,

para n = 6, 210066388900 sub-árvores. Daqui se depreende que o número de sub-árvores de uma dada árvore aumenta vertiginosamente com o número de nós, pelo que, um processo de pesquisa directo sobre todas as sub-árvores de T para determinar a sub-árvore T(a) se torna computacionalmente dispendioso podendo até ser inviável em árvores de grandes dimensões.

O teorema 1.5, juntamente com os dois que se seguem, provados em [Breiman & ai., 84], págs. 286-288, permitem mostrar como é possível determinar a cadeia de sub-árvores encaixadas por um processo iterativo simples.

Seja

Ra{Tt) = R{Tt) + a

a medida de custo-complexidade de um ramo Tt de raiz t.

Teorema 1.6: Se Ra(t) > Ra(Tt), VteT-T então Ra(T(a)) = Ra(T) e

T(a) = {t e T : Ra(s) > Ra(Ts)para todos os antepassados s G Tde t}.

Assim, a determinação de T(a) em árvores onde Vi G T — T ,Ra(t) > Ra(Tt) consiste em

podar de T todos os ramos Tt para os quais Ra(t) = Ra(Tt).

Dada uma árvore não trivial T, a condição necessária de aplicabilidade do teorema anterior ocorre se e só se

Ra(t) > Ra{Tt) <* R(t) + a> R(Tt) + aft& g(t, T) = Ã^ _ ~ R(T*> > a vt G T - f.

Tt - 1

Temos então,

Teorema 1.7: Dada uma árvore não trivial T, seja a\ = min g(t,T). Então T é a única

teT-f

árvore optimamente podada de si própria com respeito a a para a < a\; T é uma sub-árvore optimamente podada de si própria com respeito a a i , mas não a menor; e T não é uma sub-árvore optimamente podada de si própria com respeito a a para a > ot\.

T\ = T(ai) = {t G T : g(s,T) > ampara todos os antepassados s G Tde t}.

SeteTi-fi então g(t,T{) > g(t,T) se Tu <Tt e g(t,T{) = g(t,T) no caso contário.

Com base nos teoremas anteriores determina-se de forma recursiva uma sequência de perâmetros de complexidade

(24)

—OO < aX < OC < ... < OiK < + ° ° e uma sequência de sub-árvores

Tmax yTi^T2y ... ^TK = {*!> ,

onde cada sub-árvore Tfc+i, k=û,...,K-i, é a menor sub-árvore optimamente podada de Tmax com respeito a afc+i e é obtida da sub-árvore anterior Tfc removendo desta um ou mais dos seus ramos.

Considere-se a árvore Tmax referida anteriormente. Seja

a i = min_ g(t,TmaX)

cfc-í max -* max e

Ti = {t € Tmax '■ 9(s, Tmax) > <*i para todos os antepassados s € Tmax de í } . Obviamente Tmax >- 2\ e pelo teorema 1.7 temos

Tmax{<x) = Tmax se a < a i e Tm a x(a) = T\ se a = a i .

Se Ti = {íi} temos, pelo teorema 1.5, Trnaa;(a) = Ti para todo o a > a i e o processo termina. Caso contrário tome-se

a2 = min. g(t,Ti)

teTi-Ti

e

T% = {t € Ti : p(s, Ti) > a2 para todos os antepassados s G Ti de í } .

Temos Ti >~ T2 e pelo teorema 1.7

Ti (a) = Ti se a < a2 e Ti (a) = T2 se a = a2.

Como a2 > a i , decorre do teorema 1.5, que Tmaxi^) ^ Tmax(ai) = Ti ■< Tmax logo por (1.10)

Tmaxfa) = Ti(a2) = T2. Por outro lado se a i < a < a2 então T ^ a ) X Tmax(ai) = Ti -<

Tmax pelo que, por (1.10), Tmax(a) = Ti{a) = Tx.

Caso T2 = {ti}, pelo teorema 1.5, Tm a x(a) = T2 para todo o a > a2 e o processo termina. Senão o processo prossegue de modo análogo: no passo, fc + 1, definimos

afc+i = min_ g(t,Tk)

e

Tfc+i = {t € Tfc : g(s,Tk) > ctk+i para todos os antepassados s G Tk de t}. Temos Tk >■ Tk+i e pelo teorema 1.7

(25)

Como ak > afc+1) temos pelo teorema 1.5 Tmax{ak+i) < Tmax(ak) = Tk< Tmax logo por (1.10)

TmaX(ak+i) = Tk(ak+i) = Tk+i. Por outro lado para ak < a < ak+i vem, pelo teorema 1.5,

Tmax(a) 1 Tm^iak) = Tk± Tmax logo por (1.10) Tmaxia) = Tfc(a) = Tk.

Se Tk+i = {ti} então, pelo teorema 1.5, Tmax(a) = Tk+i para todo o a > ak+i e o processo

termina. Caso contrário o processo segue até se obter uma subárvore trivial.

Terminado o processo obtemos uma sequência de K parâmetros de complexidade

—00 < « i < Oi2 < ■■■ < OLK < + o o

e uma sequência de subárvores da forma

Tmax >-nyT2y ... ^ TK = {h}, tais que Tmax{oc) — < Tmax , a <a\ Tk , l<k<Keak<a< ak+i TK -, Oi>aK

Notese que a sequência de subárvores determinada desta forma é uma subsequência da sequência de subárvores referida no início (na qual cada uma das subárvores é a minimizadora do custo na classe das árvores com a sua complexidade).

Com efeito, se considerarmos uma árvore TTnax(a) desta sequência então não existe uma outra subárvore T de Tmax com a mesma complexidade e menor custo, caso contrário teríamos

R

a

(T) = R{T) + a\f\= R(T) + a \fmax{a)\ < R(Tmax{a)) + a \fmax(<x)\ = RaiTmaxia)),

o que é absurdo por definição de Tm o x( a ) .

1.6 A m e l h o r s u b - á r v o r e p o d a d a : u m p r o b l e m a d e e s t i m a ç ã o

O método de poda descrito na secção anterior resulta numa sequência de subárvores

Tmax =T0>-Tl^T2^ ... >- TK = {íx} ,

de complexidade decrescente de entre as quais se deverá escolher a subárvore de tamanho óptimo. Para o efeito, a cada árvore Tk, k = 0,1,...,if, é asssociada uma estimativa R(Tk)

do custo real R* (Tk) de utilização dessa subárvore como função de predição. A subárvore de

tamanho óptimo é definida como sendo a núnimizadora de R (Tk);

Topt = Tk:R (Tfc) = min R (Tk).

(26)

Tendo sido as divisões de Tmax determinadas a partir da amostra £ por forma a mini-mizar a impureza estimada da árvore, torna-se óbvio que a utilização da estimativa R (Tk) de

R* (Tk), calculada com base na mesma amostra, levaria inevitavelmente à escolha de Tmax para

árvore óptima e dar-nos-ia um panorama optimista e enviesado do erro. A estimativa R(Tk) diminui à medida que Tk aumenta, porque em cada divisão de um nó t em Í£ e tu se tem

R(t) > R(t£) + R(tR). Sendo assim, a estimativa R(Tk) de R* (Tk) é tanto mais optimista

quanto maior for a árvore.

Uma forma óbvia de curar a tendência optimista da estimativa R (Tk) é basear o seu cálculo num novo conjunto de dados distintos dos de £, não intervenientes na criação da árvore. Contudo, usualmente apenas dispomos da amostra de dados £, havendo poucas hipóteses de se obter um novo conjunto de dados. Deste modo a amostra £ tem de ser utilizada simultaneamente para gerar a árvore e para calcular estimativas credíveis do seu erro. A este tipo de estimativas chamamos estimativas internas de £. Em [Toussaint, 74] encontrará um resumo e referência a alguma bibliografia acerca das mesmas.

Apresentamos a seguir dois métodos de estimação frequentemente utilizados: o método de amostra independente e o método de validação cruzada. A escolha de cada um deles depende geralmente da dimensão de £: o método de amostra independente é preferível em amostras de grandes dimensões uma vez que é computacionalmente mais eficiente; em amostras pequenas, o método de validação cruzada, embora computacionalmente mais dispendioso é o preferido porque faz uma utilização exaustiva dos dados tanto na criação da árvore como na estimação do seu erro.

1.6.1 E s t i m a d o r e s d e a m o s t r a i n d e p e n d e n t e

Considere-se de novo uma amostra aleatória £ de (X, Y) de dimensão N. A utilização de estimadores de amostra independente pressupõe uma divisão aleatória prévia da amostra £ em duas amostras independentes £1 e £2, com Ni e N2 elementos, respectivamente. Frequentemente toma-se Ni = |iV e JVjj = ^JV, embora não exista justificação teórica para esta divisão.

A árvore Tmax = TQ e a sequência de sub-árvores podadas To y Ti y ... >- TK = {ti} são construídas apenas com os dados da amostra £1 (sem terem acesso aos dados de £2).

Recorde-se que cada árvore Tk, 0 < k < K, determina uma função de partição Tk, correspon-dente a Tk, que a cada x de x £az corresponder um nó t de Tk ao qual fica associada a resposta real fk (x) — tf (rfc (x)) = i9 (í). Seja fk a função de predição determinada por

(27)

sendo essa estimativa dada por

2 (x„,y„)e&

com

na regressão LAD e

£ í n> /fc (X*

n

)) = in ~ À (X

n

)

L(Y

n

J

k

(X

n

j) = (Y

n

-f

k

(X

n

))

na regressão L5.D.

Notando que os L \Y

n

,fk (X

n

)j são variáveis aleatórias independentes e identicamente

dis-tribuídas, por serem funções contínuas de variáveis aleatórias independentes e identicamente

distribuídas, é fácil ver que

Var (R

ts

(T

k

)) = ±- | E [L (Y

n

, f

k

(X

n

))

2

] ~E[L (r

n

, f

k

(X

n

))]

2

} .

Utilizando as estimativas dos momentos amostrais, a estimativa do desvio padrão de Rts

(Tk)

é dada por

i £ [i(^,/

fc

(X

n

))-i?

ÍS

(T,)]

2

.

2

(x„,y„)6& J

= / —

As estimativas do desvio padrão na regressão LAD dependem apenas dos momentos absolutos

amostrais de primeira e segunda ordem, pelo que são menos variáveis do que as correspondentes

estimativas na regressão LSD (que dependem dos momentos amostrais de segunda e quarta

ordem) e portanto mais credíveis.

Para eliminar a dependência do valor de R(Tk*

) relativamente à escala de medida da variável

de resposta, determina-se o erro relativo, RE(T*

k

), que é uma medida de erro normalizada e

dada por:

onde ip — v (1") (mediana de Y) na regressão LAD e <p = E (Y) na regressão LSD.

Na regressão LSD o erro relativo determina a precisão de uma árvore de regressão T

k

com-parando o seu erro quadrático médio com o erro quadrático médio do predictor constante que a

(28)

cada valor associa E (Y); na regressão LAD comparando o desvio absoluto médio de Tk com o

desvio absoluto médio do predictor constante que a cada valor associa a mediana de Y. Assim o estimador i£E*s(Tfc) de RE*(Tk) é dado por

Rts(Tk)

REts(Tk) =

&>{$)

onde ip = v (mediana amostrai de Y) na regresssão LAD e tp = Y (media amostrai de Y) na regressão LSD.

Por razões que dizem respeito à eficiência computacional, a medida de erro classicamente utilizada em regressão é o erro quadrático médio. Neste caso, um estimador do erro padrão assintótico ([Breiman & ai., 84], págs. 305 e 306) é dado por:

I" i / tí2 o o rfM1/2

SE (itE*

s

(T

fc

)J = RE*

5

^

S?

2Si2 S%

N

2

\i?

s

(r

f c

)

2

^(Tfc)^

2

s\

onde S2 representa a variância amostrai de Y,

S

l = (w E {Yn-f

k

(Xn))

4

)-R

tS

(T

k

f,

V 2 (x„,yn)eí2 / e 5

12 = ( ~ E fr - A (X

n

))

2

(Y

n

~ Y)

2

) - R^S*

V 2 (^n,yn)SÍ2 / 1.6.2 E s t i m a d o r e s d e validação cruzada

Se a amostra de dados é pequena, a sua divisão em duas amostras independentes conduz geralmente à construção de árvores "fracas". Por um lado, porque existem poucos dados para basear a sua construção; por outro lado, porque obtemos estimativas imprecisas da precisão da árvore criada, uma vez que a amostra disponível para estimar o erro tem também um número muito reduzido de elementos. Neste caso, é preferível utilizar por exemplo o método de estimação de validação cruzada, que cria a árvore com todos os dados disponíveis e permite obter bons estimadores do erro real da mesma, usando igualmente todos os dados disponíveis.

Seja £ uma amostra de (X, Y) de dimensão N. Divida-se a amostra £ em V subconjuntos disjuntos £„, v = 1,2,..., V com aproximadamente o mesmo número de elementos. A partir da amostra £ e das V amostras complementares £ ^ de £„ em £ ( £(*) = £ — £„ ), construam-se V +1 árvores maximais

(29)

rp rp\ rpV

Pelo processo de poda já descrito obtenha-se a sequência de sub-árvores encaixadas de Tmax

Tmax >- Ti >- T2 y ... ^TK = {ti}

bem como os correspondentes valores dos parâmetros de complexidade

0 < « 1 < OL-Í < ... <

OLK-Relembre-se que

Tk = Tmax{ot) , Va G [cxk,otk+i[ com k — 1,2,...,K - 1

e

{*i} = Tmax{a) para a > aK.

Para um valor de V suficientemente grande as amostras £W têm a maior parte dos elementos de £, pelo que podemos supor que as árvores Tmax e Tmax ,v = 1,2,..., V, não são muito dife-rentes. Assim sendo, uma estimação credível de R*(Tk) pode ser obtida testando as observações

de £„, que não foram consideradas na criação de 7 ^ . , na sub-árvore optimalmente podada de

Tmax c o m respeito a a'k, Tmàx{aík), onde a'k € [afc, ak+i[ para fc = 1,2,..., K.

[Breiman & ai., 84] sugerem utilizar para ak a média geométrica de ak e ak+i,

Qifc = y/atkak+l para fc = 1,2,..., í í - 1 e a'K = +oo,

sendo Tmàx (+oo) = {íi}.

Designando por / ^ a função de predição correspondente à árvore Tmàx(a'k), o estimador de

validação cruzada do custo real da árvore Tk é definido por

v

N

onde

«"PM = ^ E E ^n,jf(Xn))

= è E ^ / S *

0 **(*»)),**

(x„,y„)€í

/í

l)

(X

n

) se (X

n

,Y

n

)eh

f{kVn) (Xn) = \

fi

V)

(X

n

) se (X

n

,Y

n

)e£

v O estimador de validação cruzada RE^iTk) de RE*(Tk) é dado por

(30)

onde ip = v (mediana amostrai de Y) na regressão LAD e ip — Y (média amostrai de Y) na regressão LSD.

Não é claro como se poderão obter estimadores do desvio padrão de iîcu(Tfc) e de RE^iTk) porque as variáveis L \Yn, f^' (Xn)j não são independentes. [Breiman k, ai., 84] sugerem que na

prática se utilizem regras heurísticas que ignorem a falta de independência entre essas variáveis. As fórmulas heurísticas assim obtidas são semelhantes ás obtidas no método de amostra inde-pendente. Temos,

SE(R™(T

k

)) = M,

com

52

= ^E^(^^

n)

(^))-^N

:

n = l

e, na regressão dos menores desvios quadrados,

sendo S2 a variância amostrai de Y,

Sf

2S\2

st

N

2

{R^in)

2

R^iT^S

2

' S

+

4 1/2

% = (w E {Y

n

-ft

]

(X

n

)y)-R™(T

k

)

2

,

\ 2 (*«,yn)€& /

S

2

=

£ (Y

n

-Y)

4

)-S*

(x„,yn)€í2 \ 2 (x„,Yn)eç2 " /

O grande problema da validação cruzada é o tempo de cálculo, que é função crescente de V. [Breiman & ai., 84] sugerem a utilização de V = 10, podendo no entanto outros valores de V serem mais adequados em certos conjuntos de dados.

1.6.3 A e s c o l h a d a á r v o r e final: u t i l i z a ç ã o d a r e g r a 1 S E

Estimativas de amostra independente ou de validação cruzada podem ser usadas para se-leccionar a árvore óptima de entre as candidatas To >- Ti y T2 y ... y TK- De entre estas sub-árvores a de tamanho óptimo pode ser definida como sendo a árvore T ^ minimizadora da estimativa R (Tk) utilizada (Rts(Tk) ou jR^ÇT*)), ou seja, T^ é tal que

R(Tka)= min R(Tk).

(31)

Observando as estimativas R (Tk) como função do número Tk de nós terminais, [Breiman & ai., 84] verificaram que à medida que Tk aumenta ocorre um decréscimo inicial rápido dos val-ores das estimativas, seguindo-se um longo vale onde esses valval-ores são praticamente constantes, terminando com um aumento gradual dos valores das estimativas para valores elevados de Tk

(figura 1.4). — i — 30 — i — 40 50 — i — 00 80

iV

Fig 1.4 : Representação gráfica de R (Tk) como função de Tk

O valor R(Tko) referido em (1.11) encontra-se necessariamente nesse longo vale, onde os valores dos R (Tk) são praticamente constantes mas a sua posição é instável na medida em que, uma ligeira alteração dos dados (ou até uma separação aleatória distinta dos mesmos) pode originar a escolha de uma árvore final ligeiramente diferente (mas cujo valor da estimativa de erro se encontra nesse vale). Assim, atendendo à referida instabilidade e visando obter uma árvore precisa mas o mais simples possível, [Breiman h al., 84] sugeriram que em alternativa à regra (1.11) se utilizasse a regra 1SE. Esta regra consiste em escolher para árvore final a árvore com menor número de nós terminais e com precisão comparável à da árvore Tfc„, no sentido de que o valor da sua estimativa de erro não difira de R (T^) mais do que um desvio padrão.

Em resumo, a árvore de tamanho óptimo, Topt, é a menor sub-árvore Tk que verifique

R(Tk) <R(Tko) + SE(£(Z*o)),

(32)

Capítulo 2

O método MARS

Embora sendo um dos métodos não paramétricos que melhor se adapta à aproximação de funções gerais multivariadas, o método CART de [Breiman & ai., 84] apresenta certas restrições que limitam fortemente a sua eficiência. A utilização da metodologia de atribuir à função apro-ximante valores constantes nas sub-regiões do espaço de predição determinadas pelas divisões, conduz inevitavelmente à obtensão de funções aproximantes fortemente descontínuas nas fron-teiras dessas sub-regiões e é uma das causas principais da ineficiência deste método quando aplicado a situações em que a função a aproximar é contínua. Outro problema do método CART é a extrema dificuldade que ele tem em aproximar funções lineares ou aditivas com mais do que uma variável; de um modo geral, este método aproxima com dificuldade funções nas quais as interações existentes envolvem um pequeno número de variáveis. A necessidade de colmatar estas (e outras) limitações motivou o desenvolvimento de novas metodologias. Neste capítulo descreveremos de forma sucinta o método MARS ("Multivariate Adaptive Regression Splines"), desenvolvido por Friedman, em 1991, apresentando-o como uma série de genera-lizações do método CART que ultrapassam algumas das limitações referidas anteriormente. Este método permite obter funções aproximantes, / , contínuas com primeira derivada contínua e é mais potente e flexível na modelação de funções aditivas ou de funções cuja interação entre as variáveis envolva um número reduzido de variáveis.

2.1 U m a outra apresentação do método CART

Os valores de resposta originados por uma árvore de regressão obtida através do método CART podem ser expressos formalmente pela função aproximante

M

f(X)=T,<hnB

m

(X),

(33)

onde os {Bm (.)}£f=1 representam as funções base

1 se X e Km 0 se X^Rm

Bm (X) = <

os {Rm}m=i as sub-regiões nas quais a árvore particionou o espaço de predição e os {am}m = = 1 os coeficientes estimados por forma a melhor aproximar os dados (o que neste caso equivale à estimativa da função de regressão da variável resposta na respectiva função base).

Seja H (rj) a função definida por

1 se 77 > 0

H(rj) = { (2.1)

0 se 77 < 0

e LOF (g) a função que estima, com base na amostra de dados, a ineficiência da função g como função aproximante da função real. Então o procedimento de regressão passo a passo apresentado no algoritmo 1 (que se segue) é equivalente ao do método CART aquando da criação da árvore

J-max-A primeira linha do algoritmo 1 equivale no método CJ-max-ART a tomar para região inicial todo o espaço de predição; o primeiro ciclo "for" gere as sucessivas divisões das regiões, permitindo um número máximo, Mm a x, de sub-regiões (funções base) finais; nos três ciclos "for" interiores procede-se à escolha da função base Bm*, da variável xv* e do ponto de divisão t* que originam

a melhor função aproximante g (minimizadora de LOF(g)), de entre todas as funções base existentes até então. A função base Bm* é posteriormente substituída pelo seu produto por

H [— (x„* — **)] e uma nova função base, produto de Bm* (x) por H [+ (xv* —£*)], é introduzida

no modelo. Este processo equivale no método CART a escolher em cada iteração, de entre todas as regiões existentes, a região Rm que proporcione a melhor divisão, sendo esta divisão efectuada sob a variável xv* no ponto t*.

Algoritmo 1

Bi (z) «- 1;

For M = 2 to Mmax do:

l0f* +- +OO;

For m = 1 to M — 1 do: For v = 1 to n do:

For t G {xvj : Bm {XJ) > 0} do:

(34)

lof- min LOF (g);*

01,...,OM

if lof < lof then:*

lof <— lof; m* <—m;v<^- v; t <— t;*

end if

end for

B

M

(x) <- B

m

. (x) H [- (x

v

. -1)] ;*

B

m

. (x) «- B

m

- (x) H [+ (x„. -1)] ;*

end for

As funções resultantes da aplicação do algoritmo 1 são da forma

Km

r /

M

B

m (x) =Y[ H \S

km (x„(fc,m

) - ífcmj

fc=l

(2.2)

onde a quantidade ífm representa o número de divisões que dão origem a Bm

, os s km tomam

os valores ±1 e indicam o sentido (dir./esq.) imposto pela função H que lhes corresponde, os

v (k, m) indicam as variáveis de predição intervenientes na função base B

m e os £fcm

os valores

dessas variáveis nos quais se processa a divisão.

A figura 2.1, que se segue, representa em forma de árvore binária uma possível solução do

algoritmo 1. Aos nós intermédios da árvore estão associadas funções H, com os respectivos

parâmetros. Aos nós terminais da árvore estão associadas as funções base (2.2), produto das

funções H encontradas percorrendo o único caminho descendente desde a raiz até ao nó folha

correspondente. Assim,

Bi = H[-(xVa - ta

)]H[-(x

Vb

- t

b

)], B

2

= H[-(xVa

- t

a

)]H[+(x

Vb

- t

b

)]H[-(x

Vc

- t

c

)],

B

3

= H [-(x

Va

- t

a

)]H [+{x

Vb

- t

b

)]H [+(x

Vc

- tc)] eB

4

= H [+{x

Va

- t

a

)}.

(35)

Terminado o algoritmo 1 efectua-se um processo adequado de poda ascendente. O procedi-mento de podar uma das funções base de cada vez não é conveniente porque origina "buracos" no espaço de predição a cujos elementos o algoritmo 1 atribui indesejavelmente o valor zero. Analogamente ao que foi visto no capítulo 1, o processo adequado de poda ascendente remove, em cada iteração, duas regiões complementares substituindo-as pela região pai (que no processo descendente lhes deu origem).

2.2 O m é t o d o M A R S c o m o p r o d u t o de generalizações d o C A R T 2.2.1 Continuidade

Referimos anteriormente que a eficiência do método CART (ou equivalentemente do algoritmo 1) na aproximação de funções contínuas é severamente limitada pela descontinuidade das funções aproximantes produzidas. Verifica-se contudo que tal limitação é facilmente ultrapassável. Como a utilização da função H (ri) (2.1) no algoritmo 1, é o único factor que introduz descontinuidade no modelo, a simples substituição desta função por uma função contínua do mesmo argumento, conduz à obtensão de um algoritmo com funções aproximantes contínuas.

Para fundamentar a escolha da função contínua substituta de H (77) (2.1) considere-se a base bilateral de potências truncadas

**1, {•%*. {(± OS-^KL**

(onde a notação a+ representa o valor zero para valores negativos de a e os {ífc}fc=1 representam a localização dos "knots") geradora do espaço das funções "spline" univariadas de grau q. Para

q > 0, as aproximações de funções univariadas dadas por estas funções são contínuas e têm q - 1 derivadas contínuas (veja-se [de Boor, 78] para uma revisão geral de funções "spline"). Na

aproximação de funções multivariadas por funções "spline" a correspondente base é dada pelo produto tensorial sobre todas as funções base associadas a cada variável.

Como as funções H (2.1) do algoritmo 1 são funções de potências truncadas de grau 0

H(±(x-t)) = {±(x-t

k

))°

+

,

ocorre de modo natural substitui-las pelas funções de potências truncadas de grau q > 0,

6f = (± (x - t

k

))%,

de modo a originar um modelo contínuo com q — l derivadas contínuas. As funções base obtidas com a referida substituição são da forma

**B$ (*) = I Ï [**

s

>™ {•) - fcm)]l • <**

2

-

3)

Árvores de regressão e generalizações : Aplicações

Maria de Fátima Monteiro Ferreira

Arvores de Regressão e generalizações

Aplicações

-Faculdade de Ciências da Universidade do Porto

Departamento de Matemática Aplicada

Maria de Fátima Monteiro Ferreira

Arvores de Regressão e generalizações

Aplicações

-Tese submetida à Faculdade de Ciências da Universidade do Porto

para obtenção do grau de Mestre em Matemática Aplicada

Faculdade de Ciências da Universidade do Porto

Departamento de Matemática Aplicada

Gostaria de agradecer:

* Ao meu orientador, professor Doutor Joaquim Fernando Pinto da Costa, pelo apoio,

disponibilidade e compreensão manifestados ao longo destes meses, assim como por

todos os reparos críticos feitos a este trabalho.

* Ao professor Doutor Torres Pereira, reitor da Universidade de Trás-os-Montes e Alto

Douro, pela ajuda económica e por me ter proporcionado a frequência do mestrado.

* A professora Doutora Emília Giraldes e ao professor Doutor Fernandes de Carvalho,

todo o apoio e interesse manifestados, que constituíram um forte incentivo para a

reali-zação deste trabalho.

* Ao professor Doutor José Basto, pela acessibilidade, compreensão e conselhos dados.

* A Dra

Gabriela Direito, pelas facilidades concedidas nos horários Durante o tempo de

frequência do mestrado.

* Aos meus pais e irmã, que sempre acreditaram em mim e cuja força me deu coragem

para continuar.

* Ao Doutor Garcia e à Dr

Gabriela, pelo apoio e amizade demonstrados.

* Ao PRODEP, pela atribuição de uma bolsa que facilitou a frequência deste mestrado.

Um agradecimento muito especial à minha mãe e a um leque de

amigos que me incentivaram a continuar e sem os quais este

trabalho não teria sido realizado.

Indice

Introdução

Capítulo 1

Arvores binárias de regressão e o método CART

f- x —* R

R*(Î(X))=E(L(YJ(X))).

R*(f(X))=E(\Y-f(X)\)

R*(f(X))=E^Y-f(X)j

s(x

) ô(x

) »(x

) »(x

)

ir(r)=£iT(í)=5>(í)p(í),

f = (f-{t})u{t

,t

}

= 53 i2* (Í) - ^ R* (t) , pois f' = (f- {t}) U {t

, t

}

R*Çf).

p

= P(Xet

/Xet) = ^ - e P

= P(X€t

/X€t) = ^ - ,

A construção de uma árvore binária de regressão inicia-se com um processo iterativo que em

cada passo visa a maximização de AR*(s /t); terminado o processo de crescimento da árvore,

a cada nó terminal t fica associada a resposta $(i) que será produzida pela árvore sempre que

um caso "atinja" esse nó. Fica assim definida uma função de predição, a qual confere à árvore

binária a estrutura de árvore binária de regressão.

1.2 Regra de Bayes ou do risco mínimo

Considere-se de novo o vector aleatório X com valores em x e a variável real de resposta Y.

Uma qualquer regra optimal fg (X), minimizadora do risco da sua utilização para prever o valor

de Y, diz-se uma regra de Bayes. Assim, fB

(X) é uma regra de Bayes se e só se

V/ (função de predição), R* (fB

(X)) < R* ( / (X)) .

Considerando que fx representa a densidade de X temos

R*(f(x)) =

E[E(L(YJ(X))/X)]

= J

E(L

(Y, f (*)) /X = x)f

(x) dx.

x

**f- x —* R**

**R*(Î(X))=E(L(YJ(X))).**

R(f(X))=E(\Y-f(X)\)*

R(f(X))=E^Y-f(X)j*

= 53 i2 (Í) - ^ R* (t) , pois f' = (f- {t}) U {t*

RÇf).*

cada passo visa a maximização de AR(s /t); terminado o processo de crescimento da árvore,*

V/ (função de predição), R (fB*

(X)) < R ( / (X)) .*

R(f(x)) =*

(Y, f ()) /X = x)f*

Vx G x E(L (Y, h ()) /X = x) =min E (l (Y, f (»)) /X = x)*

R (f*

R(f(X))=E(\Y-f(X)\),*

**K*(f**

**R(t)>Y, R(s),**

**»-()i. (**

Assim um estimador de AR(s /t) é dado por*

AR(s/t) = PLH*