• Nenhum resultado encontrado

A rela¸c˜ao entre a organiza¸c˜ao dos dados e os m´etodos

Uma parte importante da modelagem consta em entender os dados dispon´ıveis e decidir os m´etodos mais apropriados para essa aplica¸c˜ao. Phua et al. [PLSG05] descreve em seu trabalho os tipos de informa¸c˜oes que podemos ter sobre um determinado fenˆomeno e quais m´etodos s˜ao mais utilizados em cada uma das situa¸c˜oes. Como ser´a visto mais adiante nosso trabalho usou aprendizagem supervisionada, de modo que achamos importante reservar esta se¸c˜ao para trazer um breve resumo da descri¸c˜ao apresentada por Phua et al. sobre a organiza¸c˜ao de dados, e em particular, uma explica¸c˜ao sobre modelagem supervisionada. Outro trabalho importante, ´e de Stolfo et al. [SFL+97]. Neste artigo

os autores apontam algumas das principais dificuldades das pesquisas

2

Uma observa¸c˜ao interessante sobre a AUC, ´e que a AUC ´e uma por¸c˜ao do quadrado de ´area 1 (espa¸co ROC), portanto, seus valores variam entre 0.0 e 1.0. Entretanto, como classificadores piores que os aleat´orios n˜ao s˜ao encontrados no espa¸co ROC, n˜ao existem classificadores com AUC menor que 0.5 (0.5 ´e a ´area de uma classificador aleat´orio).

Figura 3.1: Separa¸c˜ao dos dados, adaptado de [PLSG05]

em preven¸c˜ao `a fraude, que v˜ao desde o desbalaceamento dos dados at´e o n˜ao compartilhamento dos dados entre as empresas por raz˜oes mercadol´ogicas. O intu´ıto deste artigo foi utilizar-se de alguns m´etodos para mostrar que um rebalanceamento 50% (fraudulentas) X 50% (leg´ıtimas) apresenta resultados melhores segundo o crit´erio de redu¸c˜ao de falso positivo e falso negativo do que as classes em sua propor¸c˜ao real. Em outro trabalho com participa¸c˜ao do autor principal [FSZC99], levou-se tamb´em em considera¸c˜ao a diferen¸ca entre os custos dos diferentes tipos de erros (falso positivo e falso negativo), enquanto ao mesmo tempo, apresentou pela primeira vez um algoritmo totalmente otimizado para essa tarefa, o Adacost, uma adapta¸c˜ao do Adaboost lidando com custo. Em anos mais recentes, descobriu-se que esses princ´ıpios usados para transfomar o Adaboost em Adacost podem ser usados para implemen- tar meta-heur´ısticas capazes de tornar um m´etodo n˜ao baseado em custo em um m´etodo baseado em custo. O software Weka3 disponibi-

liza duas implementa¸c˜oes o CostSensitiveClassifier e o MetaCost4 am-

bos capazes de realizar essa tranforma¸c˜ao.

Modelos Supervisionados, n˜ao supervisionados e semi-

supervisionados. [PLSG05] Chamamos de modelos supervisiona-

3

Para mais detalhes ver se¸c˜ao de introdu¸c˜ao ao Weka mais a frente.

4

dos aqueles que se utilizam da informa¸c˜ao da classe a que cada registro

pertence para o desenvolvimento do modelo. Uma modelagem supervi- sionada usa portanto as informa¸c˜oes do tipo ( A, B, C e D) na figura 3.1. Onde A corresponde aos dados das transa¸c˜oes fraudulentas, B corres- ponde ao indicador de fraude, C corresponde aos dados das transa¸c˜oes leg´ıtimas e D corresponde ao indicador de transa¸c˜ao leg´ıtima.

[PLSG05] relata que o uso de desenvolvimento e valida¸c˜ao e o uso da marca¸c˜ao da classe fraude/n˜ao-fraude ´e o tipo de estrat´egia de mode- lagem mais utilizada nos artigos de detec¸c˜ao da fraude. Al´em disso, aponta que a maioria das aplica¸c˜oes em detec¸c˜ao de fraude s˜ao feitas em Cart˜oes de Cr´edito, devido `a facilidade que ausˆencia de senha pro- porciona e porque no mundo todo o sistema de Cart˜oes de Cr´edito ´e o mais autom´atico dentre todos os outros. Segundo o artigo quase to- das as t´ecnicas podem ser utilizadas em uma estrat´egia supervisionada (quando se possui o marcador fraude/n˜ao-fraude), mas as mais encon- tradas com aplica¸c˜oes em detec¸c˜ao da fraude s˜ao Redes Neurais, Redes Bayesianas, ´Arvores de Decis˜ao e SVMs.

Em contraposi¸c˜ao, chamamos de modelos n˜ao supervisionados aque- les que n˜ao se utilizam da informa¸c˜ao da classe a que cada registro pertence para o desenvolvimento do modelo. Uma modelagem n˜ao su- pervisionada usa portanto as informa¸c˜oes do tipo (A e C) na figura 3.1, geralmente observa-se a utiliza¸c˜ao dessa metodologia quando algo impede ou torna de custo elevado a observa¸c˜ao da vari´avel objetivo. Se- gundo [PLSG05], modelos n˜ao supervisionados s˜ao piores que os mode- los supervisionados, por´em o artigo aponta que existem bons resultados em trabalhos que combinam esses dois tipos de estrutura¸c˜ao dos dados, um exemplo apontado foi o uso de m´etodos de clusteriza¸c˜ao associada ao uma modelagem supervisionada para cada um desses clusteres, o artigo afirma que clusteriza¸c˜ao ´e a t´ecnica n˜ao supervisionada mais utilizada.

Por fim, temos os modelos semi-supervisionadas, muito comuns na ´area m´edica, onde obtemos na grande maioria dados apenas dos pacientes doentes, se quisermos fazer um paralelo com nosso trabalho, seria um modelo que usasse apenas as informa¸c˜oes das transa¸c˜oes de fraudulen- tas (A). Segundo [PLSG05], esse tipo de combina¸c˜ao dos dados n˜ao ´e efetivo para avalia¸c˜ao do risco de fraude, por´em afirma, que pode- se aplicar algoritmos como Cluster [BL97] ou Market Basket Analisys

(MBA) [BL97] para identificar e entender o perfil das transa¸c˜oes reali- zadas por fraudadores.

Cap´ıtulo 4

Os m´etodos de classifica¸c˜ao

comparados - uma vis˜ao

geral

Neste cap´ıtulo falaremos sobre os cinco m´etodos de classifica¸c˜ao que comparamos neste trabalho. Iniciamos por uma breve discuss˜ao sobre a terminologia e, posteriormente, reservamos uma se¸c˜ao para descre- ver cada um dos m´etodos: ´Arvores de Decis˜ao, Redes Neurais, Redes Bayesianas, Naive Bayes e Sistemas Imunol´ogicos Artificiais. Aqui, in- troduzimos os m´etodos de maneira mais pr´oxima da teoria, n˜ao nos atentando a fatores relacionados `as implementa¸c˜oes. Mais `a frente, em um outro cap´ıtulo, descreveremos os parˆametros dispon´ıveis nas im- plementa¸c˜oes desses m´etodos no Weka, nesse momento discutiremos pontos mais pr´aticos das implementa¸c˜oes dos algoritmos.

O Weka ´e um ambiente para descoberta de conhecimento, feito em Java. Ele possui implementa¸c˜oes de diversos m´etodos de classifica¸c˜ao e seg- menta¸c˜ao (clustering). Al´em desse ambiente, adotamos o livro [WF05] que descreve o software como referˆencia principal de nosso trabalho, pois ele traz detalhes sobre o funcionamento do Weka e sobre as imple- menta¸c˜oes dos algoritmos, ´e rico na descri¸c˜ao te´orica dos m´etodos que testamos, e discute assuntos relevantes aos nossos testes, dois exemplos s˜ao: Aprendizagem sens´ıvel ao custo e Meta Heur´ıstica.

sempre que poss´ıvel, os termos foram adaptados aos encontrados neste, de modo que referˆencias nem sempre estar˜ao expl´ıcitas.

No final desse cap´ıtulo, reservamos espa¸co para descrever o Algoritmo Gen´etico (GA) que, apesar de n˜ao ser um m´etodo de classifica¸c˜ao, e parecer fora de contexto para esse cap´ıtulo, utilizamo-lo para um ajuste param´etrico do m´etodos de classifica¸c˜ao, como ser´a visto em mais detalhes `a frente.

Uma pequena discuss˜ao conceitual sobre terminologia

Definir os conceitos associados aos algoritmos dos quais participam

´

Arvores de Decis˜ao, Redes Neurais, Redes Bayesianas, Naive Bayes e Sistemas Imunol´ogicos Artificiais se mostrou um trabalho ´arduo. O principal problema encontrado foi o de atribuir nome a cada parte en- volvida no processo. Muitas s˜ao as ´areas que se utilizam dos cinco algoritmos que comparamos, e n˜ao ´e dif´ıcil encontrar nomes distintos atribu´ıdos `as tarefas que esses algoritmos exercem, ou mesmo atribuir nomes `as classes que esses algoritmos pertencem. Podemos citar alguns exemplos de nomes que encontramos em nossas leituras: M´etodos de Aprendizagem Computacional, M´etodos de Aprendizagem de M´aquina, M´etodos de Reconhecimento de Padr˜oes, M´etodo de Classifica¸c˜ao, Clas- sificador e T´ecnicas de Modelagem. Quando olhamos o software Weka, por exemplo, vemos que o termo utilizado para agrupar esses algoritmos ´e Classificador.

N´os optamos por n˜ao usar o termo Classificador para esses algorit- mos1, pois esses s˜ao algoritmos capazes de treinar um Classificador

(modelo capaz de classificar, distinguir entre fraude / n˜ao fraude) e n˜ao classificar uma observa¸c˜ao em uma dada classe, em outras palavras, esses algoritmos recebem como entrada uma base de dados e devolve como sa´ıda um modelo, que, esse, podemos chamar de um Classificador. Definimos usar o termo M´etodo de Classifica¸c˜ao por entendermos que esse ´e um termo aceito entre os profissionais da ´area de Reconhecimento de Padr˜oes. Do mesmo modo, optamos pelo termo Modelo quando tratamos do objeto de sa´ıda destes M´etodos de Classifica¸c˜ao.

Arvores de Decis˜ao, Redes Neurais, Redes Bayesianas, Naive Bayes e Sistemas Imunol´ogicos Artificiais.

Documentos relacionados