Dados simulados - Fig 2.1: Árvore binária de regressão com as funções base associadas

Fig 2.1: Árvore binária de regressão com as funções base associadas

3.1 Dados simulados

3.1.1 Aproximação de uma função com estrutura não linear

Para averiguar o comportamento dos três métodos (LR, CART e MARS) na aproximação de uma função com estrutura não linear geramos um conjunto de dados artificiais do modo seguinte:

1. geramos 10 variáveis, X\, X2,..., -X"io, correlacionadas (descrição detalhada no anexo

Al);

2. a variável resposta Y associada ao vector X = {X\,..., -X"io), e que pretendemos prever, foi obtida pela equação Y - 10sin(7rXi X2) + 20(X3 - 0.5)2 + 10X4 + 5X5 + e, onde e

representa uma perturbação Gaussiana de média nula e variância unitária.

[Friedman,1991], págs. 37-41, e [Breiman, 96], pag. 193, estudaram esta mesma equação mas para variáveis X\, X2,..., X10 independentes e uniformemente distribuídas no intervalo [0,1].

Geramos dois conjuntos de treino com 100 e 5000 elementos, respectivamente, e um conjunto de teste com 10000 elementos. Para cada conjunto de treino construímos os modelos em estudo e, para obter as estimativas dos erros, recorremos ao conjunto de teste.

Tendo a função a prever uma estrutura fortemente não linear é de esperar que o método de regressão linear multivariada não aproxime adequadamente a função. Vejamos como se compor- tam nesta situação o método CART e o método MARS. No anexo A2 encontram-se os resultados detalhados obtidos em cada programa.

Paxá a amostra treino de 100 elementos o CART gerou a árvore de regressão da figura 3.1. Os nós não terminais da árvore são representados por elipses e os terminais por rectângulos. Em cada nó encontra-se o valor da média e do desvio padrão da variável resposta nesse nó, bem como o número de elementos no nó. Nos nós não terminais refere-se ainda a variável e o ponto no qual se efectua a divisão do nó. A arvore é muito simples, apresentando apenas divisões na variável X3 (que é sem dúvida a variável que mais influencia o valor da função a prever). No entanto, o erro associado à sua utilização como função de predição é elevado.

av=220.0, sd=20.0 N=4 av=140.0, sd=35.0 N=2 av=33.0, sd=9.8 N=18 av=11.0,sd=!4.0 N=59

Fig 3.1: Arvore produzida pelo CART para o primeiro conjunto de dados simulados Com 5000 elementos de treino o método CART constrói agora uma árvore com 107 nós, 54 deles terminais, seleccionando como relevantes as variáveis Xz, X4, X2, X& e X10. Observe- se contudo, que a variável X10 não figura na função a prever e que a variável X\, embora presente na função, não é identificada pelo CART. Os valores das estimativas de erro diminuiram significativamente quando comparados com os da árvore anterior.

No que diz respeito ao método MARS, observando a decomposição ANOVA do modelo produzido pelo MARS a partir de 100 elementos de treino, concluímos que o modelo MARS obtido é aditivo nas variáveis X3, X4 e X5, e envolve interacção entre as variáveis X2 e Xs (note-se que a variável X$ não intervém na função real). As estimativas de erro associadas a

este modelo são bastante elevadas. O modelo produzido a partir de 5000 elementos de treino e permitindo no máximo 15 funções base apresenta estimativas de erro significativamente menores e, por observação da decomposição ANOVA do mesmo, concluímos que o modelo obtido é aditivo nas variáveis X$, X4 e X5, e envolve interacção entre as variáveis X\ e X%. Este modelo está de acordo com a função real. Permitindo um número máximo de 30 funções base no modelo construído a partir de 5000 elementos, obtivemos erros muito menores. A decomposição ANOVA confirma a construção de um modelo aditivo nas variáveis Xz, X4 e X5, envolvendo interacção entre as variáveis Xi e Xi- A mesma decomposição revela interação entre as variáveis X3 e Xf

(que não faz parte da função real). Atendendo a que, a remoção da 7a função ANOVA conduz

a um pequeno desvio da função aproximante (na ordem de 1.612, vejase anexo A2), e a que a variável X7 tem pouca importância para o modelo, podemos considerar que a 7o função ANOVA é desnecessária, podendo ser removida do modelo. Notese que todos os modelos MARS relativos a esta função seleccionam as variáveis X3, X4, X5, X2 e Xi como variáveis relevantes no modelo (por esta ordem de importância). A variável X3 é sem dúvida a que mais influencia os valores de resposta.

Na tabela seguinte apresentamos os erros associados aos modelos produzidos.

Dim. Amostra treino 100 5000

Tipo de erro

MSE MAD MSE MAD

LR (RT4.0) 920.493 22.950 747.206 18.501

CART 273.972 11.820 65.580 6.188

MARS (15 bf) 51.454 5.359 11.647 2.642

MARS (30 bf) 3.302 1.327

Para averiguar se devemos considerar significativas as diferenças dos resultados obtidos nos 3 métodos efectuamos os seguintes testes (cada um com significância de (5/3)%):

Ho : VDLRCART = 0 contra Hx : VDLRCART # 0;

H0 '■ VDLR MARS-30 = 0 contra H[ : \IDLR MARS_30 ^ 0; # 0 : PDCART MARS-30 = ° contra Hx : ^DCART MARS-SO ¥" 0.

Tendo em conta que, para cada teste za ~ 2.395, obtivemos os seguintes resultados:

Dim. 100 5000 Sob Ho Ho' Valor de z Conclusão 32.404 Reg. H0 38.079 Reg. IÏ0 31.447 Reg. HQ' Valor de z Conclusão 25.282 Rej. H0 27.013 Rej. HQ 42.150 Rej. HQ'

Deste modo concluímos, com um nível global de significância não superior a 5%, que os resultados obtidos nos 3 métodos são significativamente diferentes. Por observação das estimativas dos erros podemos agora afirmar que o método de regressão linear não é adequado para tratar este problema (o que era de esperar) e que, embora neste problema o método CART seja muito melhor do que a regressão linear, é o método MARS aquele que produz as melhores aproximações.

3.1.2 Aproximação de uma função linear

Para averiguar o comportamento dos três métodos (LR, CART e MARS) na aproximação de uma função linear, geramos um conjunto de dados simulados, da forma que se segue:

1. geramos 10 variáveis, X\, -X2,..., .X10, independentes e uniformemente distribuídas no intervalo [0,1];

2. a variável resposta Y, associada ao vector X = (X\,..., -X10), e que pretendemos prever, foi obtida pela equação Y = 2X\ — 4X2+20( X3 — 0.5) + IO.X4 + 5X5 + e, onde e representa uma perturbação Gaussiana de média nula e variância unitária.

Deste modo geramos dois conjuntos de treino com 100 e 5000 elementos, respectivamente, e um conjunto de teste com 10000 elementos. Como no exemplo anterior, para cada conjunto de treino construímos os modelos em estudo, e obtivemos as estimativas dos erros recorrendo ao conjunto de teste.

Tendo a função a prever uma estrutura fortemente linear é de esperar que, dos três métodos, o mais adequado para aproximar esta função seja o método de regressão linear multivariada. Vejamos que de facto isto acontece e que, embora nesta situação o método CART não aproxime adequadamente a função, o método MARS produz resultados competitivos comparativamente aos obtidos na regressão linear. No anexo B encontram-se os resultados detalhados obtidos em cada programa.

Para a amostra treino com 100 elementos o CART (utilizando apenas as questões standard) produziu a árvore de regressão da figura 3.2. As variáveis X3, X4, X$ e XQ foram seleccionadas como relevantes e obtivemos um MSE = 9.871.

Com 5000 elementos de treino, o MSE reduziu para 3.910, no entanto, a árvore obtida é muitíssimo mais complexa (122 nós terminais). A elevada complexidade desta árvore não é de estranhar. Como o método CART que utiliza apenas as questões standard aproxima a função particionando o espaço em rectângulos de lados perpendiculares aos eixos determinados pelas variáveis, ele tem de efectuar enumeras divisões nas variáveis seleccionadas para aproximar uma estrutura linear. Neste último conjunto de dados, o CART identificou como relevantes para o

problema, as variáveis X\, X2, X3, X4 e X5, atribuindo-lhes a seguinte importância relativa:

No documento Árvores de regressão e generalizações : Aplicações (páginas 48-52)