Arvores de Regress˜ ´ ao - Elaborar modelos a partir de dados

2.2 Elaborar modelos a partir de dados

2.2.2 Arvores de Regress˜ ´ ao

As árvores de regressão são em tudo idênticas às árvores de decisão analisadas na Seçcão O que é uma árvore de regressão

2.2.1. A diferen¸ca principal reside no facto de as folhas das primeiras conterem previsões numéricas e não decisões.

A obten¸cão de árvores de regressão usando o R é conseguida usando exactamente a mesma fun¸cão usada para as árvores de decisão. De facto, a fun¸cão rpart vai obter uma ´

arvore de regressão ou de decisão consoante o tipo da variável objectivo. Se esta for um factor, a fun¸cão obtém uma árvore de decisão, se for uma variável numérica é obtida uma ´

arvore de regressão. De resto toda a sintaxe é igual, embora a fun¸cão possua parâmetros espec´ıficos para cada tipo de árvore.

Para ilustrar a cria¸cão de árvores de regressão vamos usar um dos muitos conjuntos de dados que vêm com o próprio R. O exemplo concreto que vamos usar reporta a um estudo demográfico levado a cabo na Su´ı¸ca em 1888. Para várias regiões deste pa´ıs registaram-se uma série de variáveis, como sejam, um ´ındice de fertilidade, a percentagem de popula¸cão afecta à agricultura, percentagem de militares que receberam a nota máxima num teste do exército, percentagem de pessoas com mais do que a escola primária, percentagem da popula¸cão católica, e percentagem de nascimentos que sobrevivem menos do que um ano

(´ındice de mortalidade infantil). Para “carregar” estes dados basta fazer, Carregar dados que vˆem com o R

Esta instru¸c˜ao cria um data frame com o nome swiss com os dados. Podemos obter

uma ideia das principais estat´ısticas descritivas destes dados fazendo, Estat´ısticas descritivas b´asicas

> summary(swiss)

Fertility Agriculture Examination Education Min. :35.00 Min. : 1.20 Min. : 3.00 Min. : 1.00 1st Qu.:64.70 1st Qu.:35.90 1st Qu.:12.00 1st Qu.: 6.00 Median :70.40 Median :54.10 Median :16.00 Median : 8.00 Mean :70.14 Mean :50.66 Mean :16.49 Mean :10.98 3rd Qu.:78.45 3rd Qu.:67.65 3rd Qu.:22.00 3rd Qu.:12.00 Max. :92.50 Max. :89.70 Max. :37.00 Max. :53.00

Catholic Infant.Mortality Min. : 2.150 Min. :10.80 1st Qu.: 5.195 1st Qu.:18.15 Median : 15.140 Median :20.00 Mean : 41.144 Mean :19.94 3rd Qu.: 93.125 3rd Qu.:21.70 Max. :100.000 Max. :26.60

A fun¸cão summary mostra-nos o valor m´ınimo e máximo de cada variável, os 1o e 3o _{quartis, e a m´}_{edia e mediana. Se por acaso o data frame tivesse colunas que fossem}

factores apareceria o número de ocorrências de cada valor (ao estilo do que se obtém com a fun¸cão table). Caso seja prefir´ıvel uma visualiza¸cão mais gráfica da distribui¸cão dos valores de uma variável em particular, podemos usar um histograma,

Histogramas

> hist(swiss$Infant.Mortality)

O resultado da fun¸cão hist pode ser visto na Figura 4. A fun¸cão “parte” a gama de valores da variável numa série de intervalos e mostra-nos o número de ocorrências de cada intervalo. Isto permite-nos, por exemplo, observar que a maioria dos valores da mortalidade infantil se distribui à volta do valor 20.

Figura 4: Um exemplo de um histograma.

Para obtermos uma árvore de regressão que relacione a variável Infant.Mortality

Obter uma ´arvore

de regress˜ao com as outras basta fazermos,

> arv.regr <- rpart(Infant.Mortality ~ ., swiss) > arv.regr

n= 47

node), split, n, deviance, yval * denotes terminal node 1) root 47 390.25490 19.94255 2) Fertility< 64.25 11 76.84727 17.35455 * 3) Fertility>=64.25 36 217.22000 20.73333 6) Agriculture>=72.8 7 20.56000 18.10000 * 7) Agriculture< 72.8 29 136.40210 21.36897 14) Catholic< 59.305 19 50.76421 20.73684 * 15) Catholic>=59.305 10 63.62100 22.57000 *

2.2 Elaborar modelos a partir de dados 43

A maneira como o R mostra a árvore é idêntica à das árvores de decisão. No entanto, para cada nó da árvore a informa¸cão dada é ligeiramente diferente. Concretamente, além do teste no nó, é indicado o número de casos que satisfazem o teste, a variância da variável objectivo desses casos, e o valor médio desses exemplos na variável objectivo.

E este valor médio que constitui a “decisão” deste modelo em cada folha da árvore (assinaladas com “*”). Olhando para este modelo podemos observar que ele prevê valores mais baixos de mortalidade infantil para as regiões com mais baixo ´ındice de fertilidade, sendo que a maior mortalidade ocorre em regiões com alta fertilidade, maior percentagem de popula¸cão agr´ıcola e maior percentagem de popula¸cão católica.

Vejamos agora como podemos usar as árvores de regressão obtidas com a fun¸cão

rpart para fazer previsões. O processo que iremos usar é em tudo idêntico ao usado na As previsões de uma ´

arvore de regress˜ao

Seçcão2.2.1, para as árvores de decisão. Ou seja, vamos dividir os nossos dados numa amostra aleatória para obter a árvore de regressão, e numa amostra de teste para avaliar a árvore obtida,

> amostra.modelo <- sample(1:nrow(swiss),as.integer(0.7*nrow(swiss))) > dados.modelo <- swiss[amostra.modelo,]

> dados.teste <- swiss[-amostra.modelo,]

> arv.regr <- rpart(Infant.Mortality ~ .,dados.modelo) > arv.regr

n= 32

node), split, n, deviance, yval * denotes terminal node 1) root 32 218.00220 19.61562 2) Fertility< 64.55 10 74.85600 17.22000 * 3) Fertility>=64.55 22 59.66955 20.70455 6) Examination< 13 8 10.68875 19.78750 * 7) Examination>=13 14 38.40857 21.22857 * > prev.arv <- predict(arv.regr,dados.teste) > prev.arv

Delemont Porrentruy Broye Sarine Veveyse Cossonay Morges 19.78750 19.78750 21.22857 21.22857 21.22857 17.22000 21.22857 Yverdon Conthey Herens Martigwy Sierre Sion Le Locle 21.22857 19.78750 19.78750 19.78750 19.78750 21.22857 21.22857 Neuchatel

17.22000

Atente-se que o processo é em tudo igual ao usado para as árvores de decisão. Nomeadamente, a fun¸cão usada para obter as previsões do modelo é também a fun¸cão predict. No entanto, as previsões obtidas são numéricas, o que seria de esperar tratando-

se de uma ´arvore de regress˜ao. Uma pequena nota relativamente aos nomes que aparecem Data frames com linhas com nomes

por cima de cada previsão, quando se manda imprimir as mesmas. Assim, como é poss´ıvel dar nomes aos elementos de um vector (c.f. Seçcão1.8, página19), também é poss´ıvel dar nomes às linhas de um data frame. O data frame swiss vem com nomes em cada linha (que são os nomes das regiões da Su´ı¸ca a que os dados dizem respeito). Essa é a razão para aparecerem os nomes acima das previões.

Qual a valia destas previsões? Podemos calcular algumas estat´ısticas que nos dêm alguma informa¸cão sobre isto. Uma poss´ıvel estat´ıstica para avaliar as previsões da árvore ´

e o erro absoluto médio, isto é, em média qual o erro absoluto das previsões da árvore. Vejamos como o obter,

> (mad <- mean(abs(prev.arv-dados.teste$Infant.Mortality))) [1] 3.020429

Este número significa que em média a árvore de regressão erra à volta de 3% na previsão do ´ındice de mortalidade infantil.

No documento Faculdade de Economia (páginas 41-44)