Algoritmo CART - An´alises Preliminares (“Get to know the data”)

4.3 An´alises Preliminares (“Get to know the data”)

4.4.3 Algoritmo CART

O algoritmo CART é uma das mais conhecidas implementa¸cões das Árvores de Decisão. Tais estruturas de dados, por sua vez, podem ser definidas como modelos es- tat´ısticos que utilizam um treinamento supervisionado para classifica¸cão e previsão de dados.

As Árvores de Decisão podem ser divididas basicamente em 3 componentes: • Nós-principais ou atributos: representam um mapeamento das variáveis (ou colunas)

da flat table utilizada como conjunto de treinamento. A cada nó-principal está associado um subconjunto de dados, sendo que ao primeiro nó da árvore corresponde toda a massa de dados do conjunto de treinamento;

s´ıveis para um determinado atributo;

• N´os-folha: representam as diferentes classes do conjunto de treinamento.

Na figura 4.10 observa-se um exemplo de uma árvore para suporte à tomada de decisão de conceder ou não um empréstimo por parte de uma institui¸cão bancária. A estrutura leva em considera¸cão os atributos montante, salário e o saldo existente na conta- corrente do candidato a empréstimo. Cada um desses atributos pode assumir apenas os valores “alto” ou “baixo”. Os nós-folhas da árvore indicam a existência de apenas duas classes: “sim” ou “não”, para libera¸cão do empréstimo.

Figura 4.10: Exemplo de ´Arvore de Decis˜ao - Adaptado de (Garcia, 2000)

A metodologia do modelo CART é tecnicamente conhecida como parti¸cão recursiva binária. O processo é binário porque os nós-pais são sempre divididos em apenas dois nós- filhos, e recursivo porque pode ser repetido tratando cada nó-filho como um nó-pai.

O algoritmo CART pode ser resumido nos seguintes passos (Yohannes and Webb, 1999):

1. Dado um determinado nó, o algoritmo aplica todas as poss´ıveis regras para se dividir o conjunto de dados associados ao mesmo. Cada valor que cada variável assume dentro da massa de dados é uma poss´ıvel regra. Por exemplo, se uma massa de dados possui duas variáveis, uma cont´ınua X assumindo os valores 0.1, 0.7 e 3.4, e outra categórica Y assumindo os valores baixo, médio e alto, as poss´ıveis regras para dividir um nó seriam:

• X ≥ 0.1? • X ≥ 0.7? • X ≥ 3.4? • Y é baixo? • Y é médio? • Y é alto?

Para cada poss´ıvel regra, a amostra de dados é divida em duas, gerando dois nós- filhos. Os casos que respondam“sim”para uma regra vão para o nó-filho da esquerda, e os casos que respondam “não” vão para o nó da direita.

2. O CART aplica então um critério de parti¸cão para cada nó-filho gerado por cada uma das poss´ıveis regras. O critério de parti¸cão utilizado pelo CART é ´ındice Gini11

. O grau Gini de impureza de um determinado nó t é definido como 1 - F I, onde F I (fun¸cão de impureza) é calculado por

F I = −Xp2(j|t) para j = 1, 2.., k (4.1)

onde p é a probabilidade de ocorrência de cada classe j do modelo de classifica¸cão no subconjunto de dados associado ao nó t em questão. Tão melhor será uma regra de divisão quanto maior for a redu¸cão de impureza associada à ela. Dado um nó t, o critério de parti¸cão gerado por uma regra s é dado por

∆(s, t) = i(t) − pE[i(tE)] − pD[i(tD)], (4.2) onde pE é a propor¸cão de casos associados ao nó t que vão para o nó-filho à esquerda, pE é a propor¸cão de casos que vão para o nó-filho à direita, i(tE) é a impureza associada ao nó-filho à esquerda, e i(tD) a impureza associada ao nó-filho à direita. 3. O algoritmo seleciona então a regra que gerou a maior redu¸cão na impureza da

´arvore.

O ´ındice Gini, desenvolvido por Conrado Gini em 1912, mede o grau de heterogeneidade dos dados. Logo, pode ser utilizado para medir a impureza de um nó de uma árvore de decisão. Quando este ´ındice é igual a zero, o nó é puro. Por outro lado, quando ele se aproxima do valor um, o nó é impuro (aumenta o número de classes uniformemente distribu´ıdas neste nó)(Rätsch et al., 2001).

4. O próximo passo é então dividir o conjunto de dados em dois, a partir da regra selecionada.

5. Cada nó filho é então classificado dentro de uma das poss´ıveis classes do conjunto de treinamento. Essa classifica¸cão é feita pela simples análise de distribui¸cão dos registros que foram separados para um determinado nó-filho. Por exemplo, supondo que o conjunto de dados possa ser classificado nas classes A, B e C, se uma divisão CART gerou um nó-filho esquerdo com uma maior quantidade de registros da classe A, esse nó será atribu´ıdo como classe A. Caso também existam registros das classes B e C, esse nó ainda não será 100% puro.

6. O CART continua então dividindo a árvore, aplicando os passos acima de forma recursiva aos nós-filhos gerados até que só existam nós-filhos 100% puros, ou com um grau de pureza considerado aceitável. Outro critério de parada que pode ser difinido é o do número máximo de nós que a árvore pode ter.

Durante ou após a gera¸cão da árvore, técnicas de “podagem” (pruning) podem ser aplicadas com o intuito de estancar o crescimento da árvore ou diminuir o seu tamanho final. Existem várias formas de se realizar a podagem, porém a mais simples e eficaz é a que verifica se o erro de classifica¸cão de um determinado nó é menor do que a soma dos erros dos nós-filhos. Quando isso ocorre, os nós-filhos são descartados e o nó em questão se torna uma folha da árvore.

A particularidade das árvores CART serem estruturas binárias permite um trata- mento mais simplificado em rela¸cão a outras estruturas de dados mais complexas. Além disso, podemos apresentar outras vantagens desse algoritmo:

• Possui, junto com o C4.5, os melhores tempos de resposta médios para gera¸cão de árvores de decisão (Garcia, 2004);

• É flex´ıvel para trabalhar tanto com atributos numéricos, quanto com atributos categóricos, podendo devido a isso tratar de problemas de regressão, além dos de classifica¸cão (Flores, 2005);

• O algoritmo lida bem com pontos muito fora da distribui¸cão padrão dos dados (outliers), normalmente os separando em nós isolados (Lewis, 2000).

No documento Aplicação do processo de KDD a um ambiente industrial (páginas 67-71)