• Nenhum resultado encontrado

6.8

Amostragem

O planejamento amostral é o primeiro passo quando se pretende estudar características de uma determinada população. Assim, nesta seção, apresentamos as técnicas de amostragem adotadas no estudo.

Como apresentado em diversos trabalhos relacionados à identificação de fraudes, como em Chan e Stolfo (1998) e Gadi et al. (2008), a distribuição dos dados relacionados a tran- sações fraudulentas é altamente desbalanceada. Isto é, há poucos eventos de fraudes para muitas transações não fraude. Esse tipo de distribuição de dados também é conhecido como skewed data. Para os dados desse trabalho, encontramos a proporção de aproximadamente 29 transações fraudulentas para 10.000 transações não fraudulentas.

Dessa maneira, para que no processo de modelagem os modelos sejam capazes de identifi- car o perfil de fraude e não fraude, é adequada a utilização de uma amostragem estratificada. Para obter as amostras estratificadas, primeiramente, avaliamos as variáveis com maior capacidade de discriminar as transações fraudulentas e não fraudulentas. Em seguida, usamos essas variáveis para formar as amostras estratificadas dos registros não fraude mantendo a mesma proporção. Por fim, essa proporção de registros não fraude foram combinados com todos os registros fraudulentos da base de dados.

Foram amostrados 428.256 registros, sendo 22.615 fraudes e 405.641 não fraude. Isso implica em uma proporção de aproximadamente 1 registro de fraude para cada 18 não fraude.

Esse valor de proporção entre fraude e não fraude aproxima-se bastante dos valores adotados para esse tipo de problema, conforme observado em experimentos anteriores de Chan e Stolfo (1998), Gadi (2006) e Gadi et al. (2008).

Após a coleta da amostra, para o processo de modelagem, a base foi dividida em 80% (342.605) para desenvolvimento do modelo e 20% (85.651) para validação.

Devido à utilização da amostragem estratificada, é adequada a ponderação da pontuação ao final do processo de modelagem. Como estamos interessados em comparar a eficiência dos modelos, não aplicaremos as ponderações nas análises. Maiores referências podem ser encontradas em Frayback (2008) e Weiss et al. (2005).

Para sintetizar as etapas realizadas para se obter as amostras de desenvolvimento e vali- dação a partir da base final, apresentamos na figura 6.6 o fluxo do processo de amostragem.

68 METODOLOGIA DO EXPERIMENTO 6.8

Capítulo 7

Desenvolvimento dos Modelos

Neste capítulo, apresentamos detalhes sobre o desenvolvimento dos modelos. Mais espe- cificamente, na subseção 7.1 análise descritiva, estudamos o comportamento das variáveis candidatas com a apresentação dos valores de informação de cada variável, a correlação entre as variáveis candidatas, os gráficos de boxplot com suas medidas resumo e os valores médios em relação à variável resposta. Em seguida, na subseção 7.2, realizamos a modelagem dos dados utilizando o modelo de regressão logística binária clássica e DMA.

7.1

Análise Descritiva

Por meio da técnica de valor da informação que aplicamos nas variáveis candidatas, é possível ordená-las a fim de identificar quais contribuem para o processo de modelagem. Na figura 7.1, mostramos o valor da informação (IV) para cada variável candidata utilizando a amostra definida anteriormente. Nele, observamos que a variável V01 apresentou um IV alto (0,64), o que pode representar uma variável com poder de discriminação questionável, conforme descreve Siddiqi (2006) . Adicionalmente, o gráfico apresenta que há 5 variáveis candidatas classificadas com poder discriminatório forte, 18 médio, 20 baixo e 8 muito baixo.

70 DESENVOLVIMENTO DOS MODELOS 7.1

Figura 7.1: Poder discriminatório (valor da informação) das variáveis candidatas.

Para avaliar a relação entre as variáveis candidatas, calculamos o coeficiente de correlação de Pearson (ρ) usando os valores de peso da evidência. Os valores de ρ, que variam entre -1 e 1, são interpretados da seguinte maneira:

• ρ = 1: significa uma correlação perfeita positiva entre as duas variáveis.

• ρ = −1: significa uma correlação negativa perfeita entre as duas variáveis. Se o valor de uma variável aumenta, o da outra sempre diminui, e vice-versa.

• ρ = 0: significa que as duas variáveis não dependem linearmente uma da outra. Porém, pode existir uma dependência não linear.

Na figura 7.2, bem como na tabela A.1, que se encontra no apêndice deste trabalho, estão dispostos os resultados dos coeficientes de correlação das variáveis candidatas.

7.1 ANÁLISE DESCRITIVA 71 Observamos que a maioria das variáveis (65%) apresenta correlação entre 0 e 0,25 (verde). Avaliando outras faixas de correlação, temos 28% entre -0,25 e 0 (amarelo), 5% entre 0,25 e 0,5 (azul claro), 1% entre 0,5 e 0,75 (azul) e 1% entre 0,75 e 1 (azul escuro). Dado isso, temos a indicação de que 93% das variáveis candidatas apresentam correlação entre -0,25 e 0,25 (verde e amarelo), o que representa uma correlação fraca entre elas e um resultado

positivo para evitar problemas de colineariade ou multicolinearidade7.

Figura 7.2: Correlação entre as variáveis candidatas para o modelo.

Para apresentar as estatísticas resumo dos valores do peso da evidência das variáveis can- didatas, temos os gráficos de boxplot separados pelos grupos da variável resposta não fraude e fraude (figura 7.3). Nos gráficos das variáveis V25 a V52, observamos uma semelhança muito grande entre os grupos não fraude e fraude. É o mesmo conjunto de variáveis que apresentaram valores de IV abaixo de 0,1, indicando um poder de discriminação baixo.

7Colinearidade(Multicolinearidade) são indicadores utilizados para indicar a existência forte de correlação

7.1 ANÁLISE DESCRITIVA 73

74 DESENVOLVIMENTO DOS MODELOS 7.1 Quando analisamos os gráficos das médias do peso da evidência das variáveis candidatas para cada grupo da variável resposta (não fraude e fraude), pode-se notar na figura 7.4 que, para todas as variáveis, existe, descritivamente, diferença entre as médias dentro de um intervalo de 95% de confiança. Dessa maneira, espera-se que os valores médios das variáveis contribuam para discriminar se uma transação é classificada no grupo não fraude ou fraude.

7.2 ANÁLISE DESCRITIVA 75

Figura 7.4: Médias do peso da evidência das variáveis candidatas com intervalo de 95% de confi- ança.

Nas próximas seções, apresentamos os resultados obtidos com o ajuste de um modelo de regressão logística binária clássica, muito utilizado para esse tipo de problema e que será utilizado como modelo de referência para a comparação e, em seguida, apresentamos o modelo DMA, cuja avaliação da performance é o principal objetivo deste trabalho.

76 DESENVOLVIMENTO DOS MODELOS 7.2

Documentos relacionados