Decision Tress (Árvores de Decisão) - CLASSIFICAÇÃO E REGRESSÃO EM MODELOS SUPERVISIONADOS DE A

2 FUNDAMENTAÇÃO TEÓRICA

2.6 CLASSIFICAÇÃO E REGRESSÃO EM MODELOS SUPERVISIONADOS DE APRENDIZADO DE MÁQUINA

2.6.1 Decision Tress (Árvores de Decisão)

função 𝑌 = 𝑓(𝑥). A medida em que as funções de mapeamento são aperfeiçoadas, torna-se possível, a partir de uma nova entrada (𝑥), prever seu correspondente (𝑌).

Por sua vez, algoritmos de Aprendizado de Máquina não supervisionados inferem padrões de um conjunto de dados sem referência a resultados conhecidos ou rotulados. Diferentemente do Aprendizado de Máquina supervisionado, os métodos não supervisionados não podem ser diretamente aplicados a um problema de Regressão ou Classificação, alvos desta pesquisa, porque o modelador não tem ideia de quais são os valores dos dados de saída, impossibilitando que você treine o algoritmo como faria normalmente. O aprendizado não supervisionado não será abordado neste trabalho.

Dentro da abordagem supervisionada, destacam-se os métodos de Classificação e Regressão, utilizados em larga escala no meio científico. Enquanto o método da Classificação se preocupa em classificar as variáveis em termos categóricos, o método de Regressão tem como saída variáveis em formato de valores reais. Nesta pesquisa, os dois métodos supracitados foram utilizados para a compreensão do mesmo problema, mas sobre óticas diferentes: enquanto a abordagem de Classificação se preocupou em determinar a intensidade da internação do paciente com PAC (pouco, médio, ou muito tempo internado), a abordagem de Regressão pautou-se na predição do LOS numericamente falando. Ainda sobre os métodos de Classificação e Regressão, podem ser destacados uma série de algoritmos que procuram resolver problemas dessa natureza, como por exemplo, Neural Networks, Support-vector Machines, Baysian Networks, Random Forest, entre outros. Nesta pesquisa, fora utilizado um algoritmo de Classificação Binária e Random Forest. Enquanto o primeiro procurou resolver o problema sob a ótica da Classificação, o segundo algoritmo foi utilizado na abordagem da Regressão.

2.6.1 Decision Tress (Árvores de Decisão)

Para entender o conceito por trás de algoritmos Random Forest é interessante em primeiro lugar entender sua origem. Uma árvore tem muitas analogias na vida real, e acaba por influenciar uma ampla área em modelos supervisionados de Aprendizado de Máquina, cobrindo tanto a Classificação quanto a Regressão. Na análise de decisão, uma Árvore de Decisão pode ser usada para representar visualmente e explicitamente as decisões e a tomada de decisões. Como o nome sugere, este tipo de análise se utiliza de um modelo de decisões em forma de árvore. Embora seja

uma ferramenta comumente usada na mineração de dados para derivar uma estratégia para atingir uma meta específica, ela também é amplamente usada no Aprendizado de Máquina. De acordo com Witten et al. (2011), Árvores de Decisão são modelos representados graficamente por nós e ramos.

Uma Árvore de Decisão é desenhada de cabeça para baixo com sua raiz no topo. O texto em negrito em preto representa uma condição/nó interno, com base no qual a árvore se divide em ramificações/restas. O fim do ramo que não divide mais é a decisão/folha, neste caso. Ainda é possível, por meio de um processo chamado de poda, remover sub-nós de um nó de decisão, oposto quando se decide por uma divisão. A Figura 5 ilustra uma Árvore de Decisão genérica.

Figura 5 - Árvore de Decisão Genérica

Fonte: Elaborado pelo autor (2019).

Embora, um conjunto de dados real possua uma quantidade de features muito maior e isso representará apenas uma ramificação em uma árvore muito maior, não se pode ignorar a simplicidade desse algoritmo em compreender problemas mais complexos. Em geral, os algoritmos da Árvore de Decisão são chamados de Árvores de CART ou Classificação e Regressão (GOMES, 2011). Simplificadamente, a abordagem CART, proposta por Breiman et al. (1984), tem seu processo de implementação resumido em três fases: construção e crescimento da árvore; parada do processo de crescimento; e pruning ou poda.

A primeira etapa, de construção e crescimento, é realizada de forma recursiva, em que os nós são repetidamente divididos até atingir às folhas. De acordo com Gomes (2011), essa divisão recursiva se inicia na raiz e começa utilizando a melhor variável na divisão, para que

posteriormente seja determinado os pontos de divisão ideais da variável definida anteriormente dependendo do algoritmo utilizado no processo.

A segunda etapa, parada do processo de crescimento da árvore, ocorre até que não seja mais possível fazê-lo ou ao atingir uma condição de parada já definida, que varia desde a profundidade da árvore até um resultado de significância onde um corte implicaria na predição do modelo (BREIMAN et al., 1984). Gomes (2011) salienta a importância da definição das condições de parada no impacto da performance do processo, pois caso contrário seria gerado uma “árvore maximal”, que englobaria todas as informações inseridas, originando um problema de overfitting, já explicado nesta pesquisa.

Finalmente, o processo de poda simplifica a árvore através da realização de cortes sucessivos de nós que representam baixa relevância preditiva para o modelo em questão (HELMBOLD; SCHAPIRE, 1997). Este processo está associado diretamente aos resultados de overfitting, pois tem como principal objetivo reduzir o risco deste problema.

Se tratando da área médica, em artigos mais gerais, Crémilleux e Robert (1997) apresentam a estrutura geral para o uso de Árvores de Decisão na medicina. Kokol et al. (1998) em seu artigo mostram certa limitação de Árvores de Decisão no domínio médico. Zorman et al. (2000) avaliaram diferentes estratégias de indução de Árvores de Decisão em um problema de dados de fratura ortopédica com 2637 casos. Os autores testaram diversos métodos para a construção de Árvores de Decisão univariada, a fim de encontrar a melhor estratégia de indução. Os resultados mostram que todas as abordagens tiveram problemas com exatidão, sensibilidade ou tamanho da Árvore de Decisão. Em trabalhos mais específicos, Tsien et al. (1998) mostram que as Árvores de Decisão podem apoiar o diagnóstico precoce e preciso do infarto do miocárdio. Babic et al. (2000) mostram o uso de Árvores de Decisão fuzzy no apoio à tomada de decisão na amamentação. Por sua vez, Jones (2001) utilizou Árvores de Decisão na identificação de sinais de possíveis reações adversas a medicamentos.

2.6.2 Random Forest (Florestas Aleatórias)

Random Forest é um algoritmo de aprendizagem supervisionada popular e muito eficiente, baseado em conceitos de agregação de modelos, tanto para problemas de classificação quanto para regressão, introduzido por Breiman (2001). Nos algoritmos padrões de Árvore de Decisão, cada nó é dividido usando a melhor divisão entre todas as variáveis, como já explicitado. Por sua vez, nos algoritmos Random

Forest cada nó é dividido usando o melhor entre um subconjunto de preditores escolhidos aleatoriamente naquele nó. Essa estratégia, um pouco contra intuitiva, acaba se mostrando muito bem em comparação com muitos outros classificadores, incluindo Neural Networks, Support Vector Machines, Baysian Networks, e é, ainda, robusta contra o overfitting (BREIMAN, 2001) Em outras palavras, tais algoritmos criam diversas Árvores de Decisão e as combinam para obter uma predição com maior acurácia e estabilidade, evitando o caráter greedy (guloso) das Árvores de Decisão pela limitação do algoritmo em se preocupar apenas com a divisão atual através da melhor variável disponível, ignorando divisões futuras que poderiam levar a uma árvore melhor.

Para facilitar a compreensão do funcionamento do algoritmo Random Forest, uma analogia com a vida real pode ser feita: considera- se uma pessoa A decidida a realizar uma viagem de férias. No entanto, esta não possui maiores informações sobre os diversos lugares disponíveis em que poderia viajar. A fim de resolver tal problema, A, questiona um amigo B sobre recomendações de lugares. B, por sua vez, retorna com perguntas sobre lugares em que A já viajou, e se a mesma gostou. Baseado nas respostas que obteve, B recomenda novos destinos. Esta é uma abordagem típica de Árvores de Decisão, quando B criou regras para guiar a decisão sobre o que recomendar, a partir das primeiras respostas de A. Em Random Forest, a pessoa A perguntaria recomendações para diversos amigos simultaneamente, e estes fariam diversas perguntas diferentes antes de darem uma sugestão. Então, A escolheria os lugares que receberam mais recomendações.

Assim, pode-se definir que algoritmos Random Forest são uma combinação de Árvores de Decisão, em que cada árvore depende dos valores de vetores aleatórios amostrados de forma independente e distribuídos igualmente para todas as árvores na floresta. Depois que um determinado número de árvores é gerado, cada uma destas lança um voto para uma classe do problema, considerando um vetor de entrada. Desta forma, a classe mais votada será escolhida na predição do classificador. Breiman também demonstrou que os ganhos consequenciais na classificação ou na precisão da previsão podem ser alcançados usando conjuntos de árvores, onde cada árvore no conjunto é cultivada de acordo com a realização de um vetor aleatório. As previsões finais são obtidas pela agregação (votação) sobre o conjunto, geralmente usando pesos iguais. Somado a isso, ainda baseando-se nos trabalhos de Breiman, o número de variáveis é um parâmetro definido pelo usuário, mas o algoritmo não é sensível a ele. Muitas vezes, esse valor selecionado cegamente é definido como a raiz quadrada do número de entradas. Ao

limitar o número de variáveis usadas para uma divisão, a complexidade computacional do algoritmo é reduzida e a correlação entre as árvores também é reduzida. Finalmente, as árvores em Florestas Aleatórias não são podadas, reduzindo ainda mais a carga computacional (GISLASON; BENEDIKTSSON; SVEINSSON, 2006).

Como resultado, o algoritmo Random Forest pode manipular dados de alta dimensionalidade e usar um grande número de árvores no conjunto. Isso combinado com o fato de que a seleção aleatória de variáveis para uma divisão procura minimizar a correlação entre as árvores no conjunto, resulta em taxas de erro que foram comparadas com as de famosos algoritmos como AdaBoost (FREUND; SCHAPIRE, 1996), enquanto que o primeiro computacionalmente muito mais leve (GISLASON; BENEDIKTSSON; SVEINSSON, 2006).

Ademais, melhor que um modelo que consegue de forma sucedida prever quais pacientes estão próximos da data de alta, é um modelo capaz de identificar quais features são as mais importantes e que podem auxiliar na identificação prévia para ações serem tomadas com antecedência.

Quando o algoritmo Random Forest é analisado sob a ótica da metodologia de Classificação, a diferença entre a taxa de erro das predições obtidas a partir de dados resulta em uma, chamada, medida de variável. O mesmo procedimento é usado para Regressão, mas utilizando erro quadrático médio ao invés de taxas de erro. Assim, a importância geral das variáveis é calculada pela média de todas as observações. (CUTLER, et al. 2011). Estatisticamente, além de medidas de variáveis importantes ou feature importance, Cutler et al. (2011) caracterizam o algoritmo Random Forest como atraentes pelos recursos adicionais que fornecem, como: ponderação diferentes entre classes; imputação de valores faltantes; detecção de outliers; e aprendizado não supervisionado. Esta pesquisa utiliza algoritmo Random Forest dentro da metodologia de Regressão, objetivando a predição do LOS para pacientes internados com PAC.

2.6.2.1 O algoritmo

O algoritmo Random Forest pode ser resumido nas seguintes etapas a seguir (LIAW; WIENER, 2002):

a) Criação de 𝑛 amostras de árvores bootstrap a partir dos dados originais. Aqui, Bootstraping refere-se a uma técnica de reamostragem estatística que envolve amostragem aleatória de um conjunto de dados com substituição. É frequentemente

utilizado como um meio de quantificar a incerteza associada a um modelo de Aprendizado de Máquina.

b) Para cada uma das amostras de bootstrap, uma árvore é cultivada, podendo ser esta de classificação ou regressão, com a seguinte modificação: em cada nó, em vez de escolher a melhor divisão entre todos os predicadores, um determinado número de variáveis de entrada (denotadas por 𝑚𝑡𝑟𝑦) são escolhidas aleatoriamente, e a melhor divisão é calculada apenas com base neste subconjunto. Diferentemente dos bem conhecidos métodos de CART, também propostos por Breiman (1996), nenhuma etapa de “poda” é realizada nos algoritmos de Random Forest, de modo que todas as árvores da floresta sejam pontos máximos, como já mencionado.

c) Novos valores são previstos, agregando as previsões das 𝑛 árvores criadas em primeiro lugar, sendo a escolha feita por votos em problemas de classificação, e média para regressão.

Um algoritmo Random Forest é, portanto, uma coleção de preditores de árvores ℎ(𝑥; 𝜃𝑘), 𝑘 = 1, … , 𝐾, onde 𝑥 representa o vetor de entrada observado (covariável), de tamanho 𝑝, associado ao vetor aleatório 𝑋, e 𝜃𝑘 são vetores aleatórios independentes e identicamente distribuídos (𝑖𝑖𝑑) (SEGAL, 2004). Focando no problema de regressão, alvo deste trabalho, o resultado do modelo preditivo dar-se-á como um resultado numérico 𝑌. Os dados de treino são retirados de forma independente da distribuição conjunta (𝑋, 𝑌), compreendendo 𝑛(𝑝 + 1)- conjuntos (𝑥1, 𝑦1), . . . , (𝑥𝑛, 𝑦𝑛).

Desta forma, para Regressão, a previsão fornecida pelo algoritmo Random Forest é a média não ponderada sobre a coleção:

ℎ̅(𝑥) = (1

𝐾) ∑ ℎ(𝑥; 𝜃𝑘) 𝐾

𝑘=1 .

Como 𝑘 → ∞, a Lei dos Grandes Números garante que: 𝐸𝑋,𝑌(𝑌 − ℎ̅(𝑋))

→ 𝐸𝑋,𝑌(𝑌 − 𝐸𝜃ℎ(𝑋; 𝜃)) 2

A quantidade à direita é o erro de previsão (ou generalização) para o algoritmo, designado por 𝑃𝐸𝑓∗. A convergência em (1) implica que Random Forest não sofra overfitting.

Na sequência, define-se o erro médio de previsão para uma árvore individual ℎ(𝑥; 𝜃𝑘) como:

𝑃𝐸𝑡∗= 𝐸𝜃𝐸𝑋,𝑌(𝑌 − ℎ(𝑋; 𝜃)) 2

(2) Supondo que para todos 𝜃, a árvore seja imparcial, ou seja: 𝐸𝑌 = 𝐸𝑋ℎ(𝑋; 𝜃), então:

𝑃𝐸𝑓∗ ≤ 𝜌̅𝑃𝐸𝑡∗ (3) Onde 𝜌̅ é a correlação ponderada entre os resíduos 𝑌 − ℎ(𝑥; 𝜃𝑘) e 𝑌 − ℎ(𝑋; 𝜃′_{) para independentes 𝜃 e 𝜃}′_.

A desigualdade (3) indica o que é necessário para que uma Regressão com algoritmo Random Forest possua um elevado nível de acurácia: (i) baixa correlação entre resíduos de diferentes membros da floresta, e (ii) baixos erros preditivos para as árvores individuais. Além disso, o algoritmo, em sua expectativa, irá diminuir o erro médio de previsão para uma árvore individual pelo fator 𝜌̅ (SEGAL, 2004). 2.7 MÉTRICAS DE AVALIAÇÃO EM CLASSIFICAÇÃO E REGRESSÃO

Uma vez que um modelo preditivo tenha sido treinado, é necessário avaliar seu poder preditivo em novos dados que não foram vistos antes. Esse processo determina se o modelo preditivo é bom o suficiente para ser movido para a fase de produção. O objetivo da análise de teste é comparar as respostas do modelo preditivo treinado com as previsões corretas para cada uma das instâncias do conjunto de testes. Como esses casos não foram usados antes para treinar o modelo preditivo, os resultados desse processo podem ser usados como uma simulação do que aconteceria em uma situação do mundo real.

Dependendo do tipo de problema em que se está analisando, diferentes métodos específicos facilitam o processo de análise profunda do desempenho de modelos preditivos. Na presente pesquisa, tendo como base as duas abordagens propostas de Classificação e Regressão, são apresentadas a seguir as principais métricas de avaliação.

No documento Lucas de Souza Silva (páginas 51-58)