Arvores de Decis˜ ´ ao - Elaborar modelos a partir de dados

2.2 Elaborar modelos a partir de dados

2.2.1 Arvores de Decis˜ ´ ao

O R possu´ı uma gama bastante variada de métodos que podem ser usados para obter modelos para problemas de classifica¸cão como por exemplo o da concessão de crédito que temos vindo a usar. Um desses métodos é normalmente conhecido como árvores de decisão. Antes de vermos como obter uma árvore de decisão em R, vejamos em que consistem esses modelos e como podem ser usados para tomar decisões. A Figura 3

mostra um exemplo de uma árvore de decisão para o problema da concessão de crédito.

Uma árvore de decisão consiste numa hierarquia de testes a algumas das variáveis O que é uma árvore de decisão

envolvidas no problema de decisão, que no nosso exemplo são as variáveis montante, idade, salário e conta. A árvore pode ser “lida” a partir do teste encontrado na

parte superior da mesma, normalmente chamado o nó raiz da árvore. Em concreto, Nó raiz

se pretendêssemos usar a árvore da Figura 3 para tomar uma decisão para um novo cliente do banco, a primeira coisa para que dever´ıamos olhar, de acordo com esta árvore de decisão, seria para o seu salário. Se este fosse baixo, então de acordo com a árvore dever´ıamos verificar qual o montante pedido. Se for um montante alto ou médio então a decisão aconselhada pela árvore é não conceder crédito. Se por outro lado o montante fosse baixo então já dever´ıamos conceder crédito ao cliente. Ou seja, para usar uma árvore deste tipo para tomar decisões, come¸camos por fazer o teste do nó raiz. Se for verdadeiro

Figura 3: Um exemplo de uma ´arvore de decis˜ao.

seguimos para o ramo esquerdo da árvore e fazemos o teste que a´ı se encontra, se for falso seguimos o ramo direito, e assim sucessivamente até chegarmos a um nó terminal

Folhas das ´arvores

(normalmente conhecidos por folhas da árvore), onde temos a decisão do modelo para o caso em análise.

As árvores de decisão como a da Figura 3 podem ser “lidas” como um conjunto de regras de decisão. Por exemplo o caminho desde o nó raiz, seguindo sempre o ramo esquerdo até encontrar uma folha, corresponde à regra,

se salário baixo e montante alto ou médio então não conceder crédito

Isto quer dizer que seria poss´ıvel traduzir uma árvore de decisão para um conjunto de regras de decisão, e assim usar um procedimento semelhante ao seguido na Seçcão2.1.1

para as implementar como uma fun¸c˜ao que toma decis˜oes para novos casos.

Vejamos agora como construir uma árvore de decisão no R. Conforme já mencionamos anteriormente, a significância da amostra usada para obter o modelo é essencial para termos um m´ınimo de garantias da representatividade do modelo constru´ıdo. Assim, não faz grande sentido obter uma árvore de decisão usando meia dúzia de exemplos de decisões. De facto, quanto maior a amostra usada melhor. Apesar destas considera¸cões, para o efeito de mostrar como se obtém uma árvore em R, é indiferente o tamanho da amostra usada. Assim, vamos criar um pequeno data frame com exemplos de decisões (por exemplo semelhantes às apresentadas na Tabela 1da página35). Podemos usar o editor de data frames do R para criar um data frame com os exemplos, ou em alternativa podemos usar a possibilidade que o R nos dá de ir buscar informa¸cão à Internet, desde

Ir buscar dados `a

Internet que obviamente o computador em causa esteja ligado a esta rede. Vejamos como proceder

neste segundo caso,

> download.file(’http://www.liacc.up.pt/~ltorgo/Ensino/FEP/AnaliseDados/credito.Rdata’,’exp.data’) trying URL ‘http://www.liacc.up.pt/~ltorgo/Ensino/FEP/AnaliseDados/credito.Rdata’

Content type ‘text/plain’ length 2661 bytes opened URL

downloaded 2661 bytes

> dados <- read.csv(’exp.data’) > dados

montante idade salario conta emprestimo 1 medio junior baixo sim nao 2 medio junior baixo nao nao 3 baixo junior baixo sim sim 4 alto media baixo sim sim

2.2 Elaborar modelos a partir de dados 37

5 alto senior alto sim sim ...

...

A primeira instru¸cão apresentada acima é uma chamada à fun¸cão download.file do R que pode ser usada para fazer o download de um ficheiro da Internet a partir do seu endere¸co (URL), colocando o resultado num ficheiro local ao computador onde se está a executar o R. Neste caso indicamos um URL que foi criado para este efeito, e que é suposto conter um ficheiro de texto com uma série de exemplos de decisões. O resultado do download é colocado num ficheiro que resolvemos chamar “exp.data”.

A segunda instru¸cão usa a fun¸cão read.csv para ler o conteúdo do ficheiro “exp.data” Ler dados de ficheiros de texto

para um data frame. Esta fun¸c˜ao pode ser usada para ler o conte´udo de ficheiros de

texto do tipo CSV. Este tipo de ficheiros contém informa¸cão tabular com a informa¸cão Ficheiros CSV

distribu´ıda por linhas, e com os valores em cada linha separados por v´ırgulas. Este tipo de ficheiros pode ser gerado pela maioria dos programas como por exemplo o Access, o Excel, etc. Para termos uma melhor ideia do seu conte´udo, apresentam-se em seguida as primeiras linhas do ficheiro “exp.data”,

montante,idade,salario,conta,emprestimo medio,junior,baixo,sim,nao medio,junior,baixo,nao,nao baixo,junior,baixo,sim,sim alto,media,baixo,sim,sim ...

Com a instru¸cão read.csv() usada da forma apresentada acima, a primeira linha deste ficheiro é interpretada como os nomes a dar às colunas do data frame que será criado, e as linhas sucessivas como o conteúdo desse data frame. Isso mesmo pode ser confirmado pedindo ao R para mostrar o conteúdo do objecto dados.

Ap´os termos um conjunto de exemplos de cr´edito num data frame, estamos em

condi¸cões de obter uma árvore de decisão. As seguintes instru¸cões fazem isso mesmo, Obter uma árvore em R

> library(rpart)

> ´arvore <- rpart(emprestimo ~ ., dados) > ´arvore

n= 99

node), split, n, loss, yval, (yprob) * denotes terminal node

1) root 99 29 sim (0.29292929 0.70707071) 2) salario=baixo 31 11 nao (0.64516129 0.35483871) 4) montante=alto,medio 21 1 nao (0.95238095 0.04761905) * 5) montante=baixo 10 0 sim (0.00000000 1.00000000) * 3) salario=alto 68 9 sim (0.13235294 0.86764706) 6) conta=nao 27 9 sim (0.33333333 0.66666667) 12) montante=alto 9 0 nao (1.00000000 0.00000000) * 13) montante=baixo,medio 18 0 sim (0.00000000 1.00000000) * 7) conta=sim 41 0 sim (0.00000000 1.00000000) *

A primeira destas instru¸cões carrega o package “rpart” que contém as fun¸cões necessárias Carregar packages

para a obten¸cão de árvores de decisão no R. A segunda instru¸cão obtém um destes modelos usando a fun¸cão rpart colocando o resultado no objecto árvore. A fun¸cão rpart tem dois argumentos principais. Um indica a forma do modelo a obter, e o outro os dados a usar para o obter. A forma do modelo a obter é fornecida à fun¸cão usando uma

sintaxe gen´erica de descri¸c˜ao de modelos que consiste, sucintamente, em indicar o nome Formas dos modelos

da variável de decisão seguida do s´ımbolo “∼” e uma lista das variáveis que podem ser usadas no modelo para obter a decisão. Esta lista pode ser substitu´ıda pelo s´ımbolo “.” (como no exemplo acima), querendo significar que se podem usar todas as outras variáveis existentes nos dados fornecidos à fun¸cão. Os dados a usar na obten¸cão do modelo são fornecidos no segundo argumento da fun¸cão e devem ser um data frame com as

colunas com nomes que estejam de acordo com os nomes de vari´aveis referidos na forma do modelo.

A seguir a obter a ´arvore podemos pedir ao R para mostrar o conte´udo do objecto a

Mostrar uma ´arvore

que atribu´ımos o resultado. O R apresenta a árvore de decisão em forma de texto. Como veremos mais à frente vai ser também poss´ıvel obter uma representa¸cão gráfica como a da Figura3. Analisemos para já a informa¸cão dada pelo R sobre o objecto árvore. Em primeiro lugar o R indica-nos o número de casos usados para obter o modelo. Em seguida, são apresentadas uma série de linhas que representam os diferentes testes e nós da árvore. Estes são apresentados seguindo uma certa indenta¸cão e com um número associado, com o objectivo de melhor percebermos a hierarquia dos testes. Maior indenta¸cão significa que o teste / nó se situa num n´ıvel mais abaixo na árvore (ajuda a compreender a informa¸cão olhar para a Figura 3 em paralelo, que é uma representa¸cão gráfica da mesma árvore). Assim, neste exemplo concreto a primeira linha identificada com o número 1 dá-nos a informa¸cão respeitante ao nó raiz da árvore, antes de efectuar qualquer teste a uma variável. De acordo com essa informa¸cão no nó raiz, antes de sabermos / testarmos o valor de qualquer variável, a melhor decisão seria “sim” (i.e. conceder crédito). Esta decisão é sustentada pelo facto de dos 99 exemplos dados ao R só 29 serem da “classe” não, o que leva a uma probabilidade de 29.9% de qualquer cliente ser um caso de “não conceder” crédito, e uma probabilidade de 70.7% de ser uma caso de “sim, conceder” crédito. Estas probabilidades são os números apresentados entre parênteses. Deste nó ra´ız temos duas deriva¸cões consoante o valor da variável salário. Estas deriva¸cões estão identificadas pelos números 2 e 3, e correspondem ao n´ıvel seguinte de identa¸cão. Dos 99 casos fornecidos ao R, 31 têm a propriedade “salário = baixo” e nestes a classe maioritária ´

e “não” conceder crédito, sendo que só 11 dos 31 correspodem a situa¸cões onde os peritos decidiram dar crédito. Para estes 31 casos o teste seguinte é o valor do montante pedido. Se este for alto ou médio, então atinge-se uma decisão (o R assinala isso colocando um “*” na respectiva linha), que neste caso é não conceder crédito. Esta decisão é suportada pelo facto de dos 21 casos com montante alto ou médio só 1 ter recebido uma decisão de conceder crédito pelos peritos humanos. Em resumo, usando os números e a identa¸cão é poss´ıvel ficar com uma ideia da forma do modelo de decisão obtido com a fun¸cão rpart. A cria¸cão de uma representa¸cão gráfica de uma árvore de decisão, é um processo de

Representa¸c˜ao gr´afica de uma ´

arvore

duas fases em R. Em primeiro lugar desenha-se a ´arvore e depois coloca-se o texto no desenho. As instru¸c˜oes seguintes fazem isso mesmo,

> plot(´arvore) > text(´arvore)

O resultado obtido desta forma é um pouco fraco em termos gráficos. Conseguem-se melhores resultados jogando um pouco com os muitos parâmetros destas duas fun¸cões. No sentido de evitarmos estarmos a escrever estes parâmetros sempre que queiramos visualizar uma árvore de decisão, vamos criar um fun¸cão para esse efeito,

> mostra.arvore <- function(´arvore) { + plot(´arvore,uniform=T,branch=0)

+ text(´arvore,digits=3,cex=0.65,font=10, pretty=0,fancy=T,fwidth=0,fheight=0) + }

> mostra.arvore(´arvore)

Como se pode ver pela amostra da Figura3(que também foi produzida com estas duas fun¸cões, mas com parâmetros diferentes), pode-se fazer ainda muito melhor manipulando os parâmetros destas fun¸cões, no entanto tais detalhes saiem fora do âmbito desta cadeira.

Após a obten¸cão de um modelo de decisão deste tipo, a pergunta óbvia que surge é, Qual a confian¸ca que podemos ter na performance deste modelo?

Uma das formas mais pr´aticas de responder a esta quest˜ao consiste em testar o modelo

Testar a ´arvore

2.2 Elaborar modelos a partir de dados 39

incorrectas, quando comparadas com as dos peritos humanos, cometidas pela ´arvore de decis˜ao.

Uma forma de simular a existˆencia de mais casos para testarmos o nosso modelo,

consiste em dividir os casos que possu´ımos em dois sub-conjuntos: uma para obter o Obter amostras aleat´orias de casos

modelo; e outro para o testar. Vejamos como fazer isso em R,

> amostra.modelo <- sample(1:nrow(dados),as.integer(0.7*nrow(dados))) > dados.modelo <- dados[amostra.modelo,]

> dados.teste <- dados[-amostra.modelo,]

O objectivo da primeira instru¸cão é obter uma amostra aleatória de números entre 1 e o número de linhas do data frame dados. O tamanho dessa amostra corresponde a 70% do número de linhas do objecto dados. A fun¸cão sample() permite obter este tipo de resultados. Por exemplo, se pretendessemos obter um vector com 3 números aleatórios entre 1 e 10, bastaria fazer,

> v <- sample(1:10,3)

Uma vez obtido um vector com um conjunto de número aleatórios entre 1 e o número de casos que possu´ımos, podemos usar este vector (amostra.modelo) para indexar o data frame com todos os casos, e deste modo obter um novo data frame contendo um sub-conjunto aleatório dos casos dispon´ıveis. Usando as facilidades de indexa¸cão do R (c.f. Seçcão 1.8), podemos facilmente obter o complemento deste conjunto, isto é os casos restantes. Com estas duas amostras aleatórias, que são exclusivas, podemos construir uma árvore de decisão e depois testá-la numa amostra de casos independente, garantindo assim alguma fiabilidade às nossas estimativas da qualidade do modelo de decisão. Vejamos como proceder,

> ´arvore <- rpart(emprestimo ~.,dados.modelo) > ´arvore

n= 69

node), split, n, loss, yval, (yprob) * denotes terminal node

1) root 69 21 sim (0.3043478 0.6956522)

2) salario=baixo 24 9 nao (0.6250000 0.3750000)

4) montante=alto,medio 16 1 nao (0.9375000 0.0625000) * 5) montante=baixo 8 0 sim (0.0000000 1.0000000) * 3) salario=alto 45 6 sim (0.1333333 0.8666667) *

> previs~oes.modelo <- predict(´arvore,dados.teste) > previs~oes.modelo nao sim 2 0.9375000 0.0625000 5 0.1333333 0.8666667 7 0.1333333 0.8666667 8 0.9375000 0.0625000 11 0.1333333 0.8666667 ...

Repare que, uma vez que usamos um conjunto de dados diferente para obter o modelo,

a árvore obtida é diferente da anterior. A terceira instru¸cão usa a fun¸cão predict para Obter as previsões de uma árvore

obter as previsões da árvore para os casos da amostra separada para teste. Repare que o papel desta fun¸cão é semelhante à fun¸cão de decisão que implementamos na Seçcão2.1.1, isto é, para cada casos de teste emite uma previsão. Neste caso concreto a fun¸cão predict produz um data frame com tantas linhas quantos os casos de teste, e com tantas colunas quantas as decisões poss´ıveis no problema. Para cada caso de teste a fun¸cão produz a probabilidade de cada decisão. Assim, por exemplo, no primeiro caso de teste a árvore prevê não conceder crédito com cerca de 93.7% de “confian¸ca” e conceder crédito com somente 6.2%.

Para calcularmos a percentagem de erros destas decisões da árvore, é prefer´ıvel obter as decisões de uma outra forma,

> previs~oes.modelo <- predict(´arvore,dados.teste,type=’class’) > previs~oes.modelo

[1] nao sim sim nao sim sim sim sim sim sim sim sim sim sim sim nao sim sim sim [20] nao sim sim sim sim nao sim sim sim sim sim

Levels: nao sim

Com o parâmetro “type=’class’” a fun¸cão predict produz um factor com as de- cisões “definitivas” da árvore, em vez das probabilidades de cada classe (decisão). Estas previsões podem agora ser comparadas com os valores verdadeiros dos casos de teste e deste modo obter uma ideia da performance da árvore,

> table(dados.teste$emprestimo,previs~oes.modelo) previs~oes.modelo

nao sim

nao 5 3

sim 0 22

A fun¸cão table foi já apresentada anteriormente, e permite fazer a tabula¸cão cruzada de dois factores. Neste caso concreto, estamos a comparar os valores da coluna com a decisão dos peritos humanos nos casos de teste (as previsões “correctas”), com as previsões da árvore. A informa¸cão resultante é normalmente conhecida como a matriz de confusão das previsões do modelo. Ela diz-nos que dos 8 casos em que os peritos

Matriz de confus˜ao

humanos recomendaram não conceder crédito, a árvore também recomendou o mesmo em 5 casos, mas fez a recomenda¸cão errada em 3. Por outro lado, dos 22 casos em que os peritos do banco recomendaram dar crédito, a árvore disse o mesmo para todos eles. Com esta informa¸cão é fácil calcular a percentagem de decisões erradas da árvore, uma

Calcular a percentagem de erros

vez que o resultado da fun¸c˜ao table ´e uma matriz,

> m.conf <- table(dados.teste$emprestimo,previs~oes.modelo) > perc.erro <- 100 * (m.conf[1,2]+m.conf[2,1]) / sum(m.conf) > perc.erro

[1] 10

Em primeiro lugar colocámos o resultado da fun¸cão table usada acima, num objecto chamado m.conf. Em seguida, calculamos a percentagem de previsões erradas usando a informa¸cão da matriz de confusão. A percentagem de decisões corresponde a somar todos os números da matriz que não estão na diagonal (pois estas são as decisões acertadas), e dividir esta soma pela soma total de todos os números (que de facto é o número total de decisões tomadas). Repare que a solu¸cão apresentada é espec´ıfica para um problema com duas decisões poss´ıveis, pois de contrário ter´ıamos mais células da matriz que corresponderiam a decisões erradas.

Podemos facilitar o nosso uso futuro das ´arvores do R criando uma fun¸c˜ao que realize toda a parte de

PARTE OPCIONAL

avalia¸c˜ao,

> avalia.árvore <- function(árv,dados.teste,objectivo=ncol(dados.teste)) { + prevs <- predict(árv,dados.teste)

+ m.conf <- table(dados.teste[,objectivo],predict(´arv,dados.teste,type=’class’)) + erro <- 100*sum(m.conf[col(m.conf) != row(m.conf)]) / sum(m.conf)

+ list(previs~oes=prevs, matriz.confus~ao=m.conf, perc.erro=erro) + }

> resultados <- avalia.´arvore(´arvore,dados.teste) > resultados $previs~oes nao sim 2 0.9375000 0.0625000 5 0.1333333 0.8666667 7 0.1333333 0.8666667 8 0.9375000 0.0625000 11 0.1333333 0.8666667 13 0.1333333 0.8666667 20 0.1333333 0.8666667 ... ...

2.2 Elaborar modelos a partir de dados 41 $matriz.confus~ao nao sim nao 5 3 sim 0 22 $perc.erro [1] 10

Repare que esta fun¸cão já não tem a limita¸cão do número de decisões ser duas, mencionada acima. De facto, com a estratégia seguida conseguimos calcular a percentagem de erro qualquer que seja o número de decisões (classes). A soma dos elementos fora da diagonal pode parecer um pouco “rebuscada”. O que fizemos foi, tirar partido das capacidades de indexa¸cão do R, e de duas fun¸cões (col() e row()) que produzem uma matriz com os números das colunas, respectivamente linhas, dos elementos de uma matriz. Assim, a leitura da constru¸cão sum(m.conf[col(m.conf) != row(m.conf)]) é: somar os elementos da matriz m.conf que estão em posi¸cões em que o número da coluna é diferente (o operador !=) do número da linha, ou seja os elementos fora da diagonal da matriz!

A fun¸cão avalia.árvore tem algumas novidades em rela¸cão às que vimos anteriormente. A primeira é Parâmetros com valores por defeito

a forma do seu terceiro argumento. Por vezes existem situa¸cões em que uma fun¸cão tem parâmetros que na maioria das vezes vão ser usados com o mesmo valor. Nestas situa¸cões, em vez de obrigar o utilizador da fun¸cão a, sempre que utiliza a fun¸cão, incluir esses parâmetros que quase sempre têm o mesmo valor, o R permite-nos evitar este trabalho indicando um valor por defeito para esses argumentos. Deste modo, se o utilizador não explicitar nenhum valor para esses parâmetros o R vai usar esse valor por defeito. Para indicar o valor por defeito de um argumento basta, quando se cria a fun¸cão, à frente do argumento pôr um sinal igual e o valor por defeito, como acontece com o parâmetro objectivo da nossa fun¸cão. Vejamos então qual a ideia no nosso exemplo concreto. Como pretendemos que a nossa fun¸cão avalia.árvore funcione para qualquer problema de decisão, e não só este da concessão de crédito, não sabemos à partida qual o nome da coluna do data frame com os dados, que corresponde à variável de decisão. Assim, decidimos assumir que, se nada for dito pelo utilizador, a variável de decisão é a última coluna do data frame. Esse é o papel do parâmetro objectivo. Ele por defeito é um número que corresponde ao número de colunas do data frame. Se o utilizador estiver a testar um problema em que a variável objectivo não esteja na última coluna, então terá que o explicitar ao usar a fun¸cão, como no exemplo seguinte,

> res <- avalia.´arvore(outra, outros.dados, objectivo=1)

Neste exemplo o utilizador indica à fun¸cão que a variável objectivo está na primeira coluna do data frame. A outra novidade da fun¸cão avalia.árvore é a de que ela dá como resultado uma lista com três compo- nentes. A primeira componente, chamada previsões contém as decisões com respectivas probabilidades para

No documento Faculdade de Economia (páginas 35-41)