A rela¸cão entre a organiza¸cão dos dados e os métodos

Uma parte importante da modelagem consta em entender os dados dispon´ıveis e decidir os métodos mais apropriados para essa aplica¸cão. Phua et al. [PLSG05] descreve em seu trabalho os tipos de informa¸cões que podemos ter sobre um determinado fenômeno e quais métodos são mais utilizados em cada uma das situa¸cões. Como será visto mais adiante nosso trabalho usou aprendizagem supervisionada, de modo que achamos importante reservar esta se¸cão para trazer um breve resumo da descri¸cão apresentada por Phua et al. sobre a organiza¸cão de dados, e em particular, uma explica¸cão sobre modelagem supervisionada. Outro trabalho importante, é de Stolfo et al. [SFL+_{97]. Neste artigo}

os autores apontam algumas das principais dificuldades das pesquisas

Uma observa¸cão interessante sobre a AUC, é que a AUC é uma por¸cão do quadrado de área 1 (espa¸co ROC), portanto, seus valores variam entre 0.0 e 1.0. Entretanto, como classificadores piores que os aleatórios não são encontrados no espa¸co ROC, não existem classificadores com AUC menor que 0.5 (0.5 é a área de uma classificador aleatório).

Figura 3.1: Separa¸c˜ao dos dados, adaptado de [PLSG05]

em preven¸cão à fraude, que vão desde o desbalaceamento dos dados até o não compartilhamento dos dados entre as empresas por razões mercadológicas. O intu´ıto deste artigo foi utilizar-se de alguns métodos para mostrar que um rebalanceamento 50% (fraudulentas) X 50% (leg´ıtimas) apresenta resultados melhores segundo o critério de redu¸cão de falso positivo e falso negativo do que as classes em sua propor¸cão real. Em outro trabalho com participa¸cão do autor principal [FSZC99], levou-se também em considera¸cão a diferen¸ca entre os custos dos diferentes tipos de erros (falso positivo e falso negativo), enquanto ao mesmo tempo, apresentou pela primeira vez um algoritmo totalmente otimizado para essa tarefa, o Adacost, uma adapta¸cão do Adaboost lidando com custo. Em anos mais recentes, descobriu-se que esses princ´ıpios usados para transfomar o Adaboost em Adacost podem ser usados para implemen- tar meta-heur´ısticas capazes de tornar um método não baseado em custo em um método baseado em custo. O software Weka3 _disponibi-

liza duas implementa¸c˜oes o CostSensitiveClassifier e o MetaCost4 _am-

bos capazes de realizar essa tranforma¸c˜ao.

Modelos Supervisionados, n˜ao supervisionados e semi-

supervisionados. [PLSG05] Chamamos de modelos supervisiona-

Para mais detalhes ver se¸c˜ao de introdu¸c˜ao ao Weka mais a frente.

dos aqueles que se utilizam da informa¸c˜ao da classe a que cada registro

pertence para o desenvolvimento do modelo. Uma modelagem supervisionada usa portanto as informa¸cões do tipo ( A, B, C e D) na figura 3.1. Onde A corresponde aos dados das transa¸cões fraudulentas, B corresponde ao indicador de fraude, C corresponde aos dados das transa¸cões leg´ıtimas e D corresponde ao indicador de transa¸cão leg´ıtima.

[PLSG05] relata que o uso de desenvolvimento e valida¸cão e o uso da marca¸cão da classe fraude/não-fraude é o tipo de estratégia de modelagem mais utilizada nos artigos de deteçcão da fraude. Além disso, aponta que a maioria das aplica¸cões em deteçcão de fraude são feitas em Cartões de Crédito, devido à facilidade que ausência de senha pro- porciona e porque no mundo todo o sistema de Cartões de Crédito é o mais automático dentre todos os outros. Segundo o artigo quase to- das as técnicas podem ser utilizadas em uma estratégia supervisionada (quando se possui o marcador fraude/não-fraude), mas as mais encon- tradas com aplica¸cões em deteçcão da fraude são Redes Neurais, Redes Bayesianas, Árvores de Decisão e SVMs.

Em contraposi¸cão, chamamos de modelos não supervisionados aque- les que não se utilizam da informa¸cão da classe a que cada registro pertence para o desenvolvimento do modelo. Uma modelagem não supervisionada usa portanto as informa¸cões do tipo (A e C) na figura 3.1, geralmente observa-se a utiliza¸cão dessa metodologia quando algo impede ou torna de custo elevado a observa¸cão da variável objetivo. Se- gundo [PLSG05], modelos não supervisionados são piores que os modelos supervisionados, porém o artigo aponta que existem bons resultados em trabalhos que combinam esses dois tipos de estrutura¸cão dos dados, um exemplo apontado foi o uso de métodos de clusteriza¸cão associada ao uma modelagem supervisionada para cada um desses clusteres, o artigo afirma que clusteriza¸cão é a técnica não supervisionada mais utilizada.

Por fim, temos os modelos semi-supervisionadas, muito comuns na área médica, onde obtemos na grande maioria dados apenas dos pacientes doentes, se quisermos fazer um paralelo com nosso trabalho, seria um modelo que usasse apenas as informa¸cões das transa¸cões de fraudulentas (A). Segundo [PLSG05], esse tipo de combina¸cão dos dados não é efetivo para avalia¸cão do risco de fraude, porém afirma, que pode- se aplicar algoritmos como Cluster [BL97] ou Market Basket Analisys

(MBA) [BL97] para identificar e entender o perfil das transa¸c˜oes reali- zadas por fraudadores.

Cap´ıtulo 4

Os m´etodos de classifica¸c˜ao

comparados - uma vis˜ao

geral

Neste cap´ıtulo falaremos sobre os cinco métodos de classifica¸cão que comparamos neste trabalho. Iniciamos por uma breve discussão sobre a terminologia e, posteriormente, reservamos uma se¸cão para descrever cada um dos métodos: Árvores de Decisão, Redes Neurais, Redes Bayesianas, Naive Bayes e Sistemas Imunológicos Artificiais. Aqui, in- troduzimos os métodos de maneira mais próxima da teoria, não nos atentando a fatores relacionados às implementa¸cões. Mais à frente, em um outro cap´ıtulo, descreveremos os parâmetros dispon´ıveis nas implementa¸cões desses métodos no Weka, nesse momento discutiremos pontos mais práticos das implementa¸cões dos algoritmos.

O Weka é um ambiente para descoberta de conhecimento, feito em Java. Ele possui implementa¸cões de diversos métodos de classifica¸cão e seg- menta¸cão (clustering). Além desse ambiente, adotamos o livro [WF05] que descreve o software como referência principal de nosso trabalho, pois ele traz detalhes sobre o funcionamento do Weka e sobre as implementa¸cões dos algoritmos, é rico na descri¸cão teórica dos métodos que testamos, e discute assuntos relevantes aos nossos testes, dois exemplos são: Aprendizagem sens´ıvel ao custo e Meta Heur´ıstica.

sempre que poss´ıvel, os termos foram adaptados aos encontrados neste, de modo que referˆencias nem sempre estar˜ao expl´ıcitas.

No final desse cap´ıtulo, reservamos espa¸co para descrever o Algoritmo Genético (GA) que, apesar de não ser um método de classifica¸cão, e parecer fora de contexto para esse cap´ıtulo, utilizamo-lo para um ajuste paramétrico do métodos de classifica¸cão, como será visto em mais detalhes à frente.

Uma pequena discuss˜ao conceitual sobre terminologia

Definir os conceitos associados aos algoritmos dos quais participam

Arvores de Decisão, Redes Neurais, Redes Bayesianas, Naive Bayes e Sistemas Imunológicos Artificiais se mostrou um trabalho árduo. O principal problema encontrado foi o de atribuir nome a cada parte en- volvida no processo. Muitas são as áreas que se utilizam dos cinco algoritmos que comparamos, e não é dif´ıcil encontrar nomes distintos atribu´ıdos às tarefas que esses algoritmos exercem, ou mesmo atribuir nomes às classes que esses algoritmos pertencem. Podemos citar alguns exemplos de nomes que encontramos em nossas leituras: Métodos de Aprendizagem Computacional, Métodos de Aprendizagem de Máquina, Métodos de Reconhecimento de Padrões, Método de Classifica¸cão, Clas- sificador e Técnicas de Modelagem. Quando olhamos o software Weka, por exemplo, vemos que o termo utilizado para agrupar esses algoritmos é Classificador.

Nós optamos por não usar o termo Classificador para esses algorit- mos1_{, pois esses são algoritmos capazes de treinar um Classificador}

(modelo capaz de classificar, distinguir entre fraude / não fraude) e não classificar uma observa¸cão em uma dada classe, em outras palavras, esses algoritmos recebem como entrada uma base de dados e devolve como sa´ıda um modelo, que, esse, podemos chamar de um Classificador. Definimos usar o termo Método de Classifica¸cão por entendermos que esse é um termo aceito entre os profissionais da área de Reconhecimento de Padrões. Do mesmo modo, optamos pelo termo Modelo quando tratamos do objeto de sa´ıda destes Métodos de Classifica¸cão.

1´

Arvores de Decis˜ao, Redes Neurais, Redes Bayesianas, Naive Bayes e Sistemas Imunol´ogicos Artificiais.

No documento Uma comparação de métodos de classificação aplicados à detecção de fraude em cartões... (páginas 39-45)