• Nenhum resultado encontrado

2.3 Classificação de dados

2.3.4 Balanceamento de classes

Um dos principais desafios enfrentados na classificação, consiste no desequilíbrio entre o número de observações e os atributos (categorias) das classes presentes na base de dados (Alejo et al., 2013; Anand et al., 1993; Piri, Delen e Liu, 2018). Em especial, no tratamento de problemas multiclasses, como em Segurança Viária, em que essa particularidade pode afetar o desempenho dos algoritmos de classificação (Cateni, Colla e Vannucci, 2014; Krawczyk, 2016; Sain e Wulan, 2015; Zhou e Liu, 2006).

O desequilíbrio também denominado de desbalanceamento da base de dados ocorre quando existem classes majoritárias e minoritárias, ou seja, quando o número de instâncias de uma determinada classe é muito maior do que de outras classes (Alejo et al., 2013; Loyola-González et al., 2016; Roy et al., 2018; Yang e Wu, 2006). Esse fenômeno ocorre frequentemente em problemas do mundo real como em banco de dados de acidentes rodoviários, nos quais a classe predominante corresponde as observações relacionadas aos acidentes sem vítimas e a classe menos frequente aos acidentes com vítimas fatais e não fatais.

Quando se lida com bancos de dados desequilibrados, o algoritmo tende a convergir mais lentamente e acaba por tornar o processo de aprendizagem tendencioso, negligenciando as classes menos recorrentes no banco de dados (Alejo et al., 2013; Anand

et al., 1993; Roy et al., 2018; Galar et al., 2016; Li et al., 2018; Sain e Wulan, 2015).

Na literatura, o problema de desequilíbrio de classes é minimizado pela aplicação de técnicas de balanceamento ou amostragem de banco de dados como a subamostragem (undersampling), a sobreamostragem (oversampling) e a SMOTE (Synthetic Minority

Over-sampling TEchnique), (Li et al., 2017; Maloof, 2003; Weiss, 2004; Sain e Wulan,

a magnitude das amostras da classe minoritária para realizar o processo de reequilíbrio da base de dados.

A undersampling reduz a população da classe majoritária e implica em perda de informação, com a eliminação de amostras pertencentes à classe dominante, podendo afetar a qualidade do processo de classificação, conforme ilustra a Figura 2.6 (Alejo et

al., 2013; Castellanos et al., 2018). A oversampling equilibra a distribuição de classes

pelo aumento da população da classe minoritária, por meio da replicação aleatória das amostras presentes nestas classes, conforme ilustra a Figura 2.7. Em geral, este procedimento não implica em qualquer perda de informação, uma vez que nenhuma amostra é descartada (Alejo et al., 2013; Castellanos et al., 2018; Cateni, Colla & Vannucci, 2014).

Figura 2.6 – Balanceamento de classes de

dados pela técnica undersampling. Figura 2.7 – Balanceamento de classes de dados pela técnica oversampling.

Fonte: Adaptado de Fawcett (2016).

Na técnica SMOTE, a classe minoritária é balanceada considerando cada uma de suas instâncias e a introdução de amostras sintéticas baseadas em critérios de vizinhança, como a distância euclidiana, usando o algoritmo de vizinho mais próximo (Bolón-Canedo et al., 2014; Chawla et al., 2002).

A Figura 2.8 ilustra basicamente a aplicação da técnica de balanceamento de classes usando o algoritmo SMOTE.

Figura 2.8 – Processo de balanceamento de classes de dados pela técnica SMOTE.

Fonte: Adaptado de Fawcett (2016).

As técnicas que utilizam oversampling e SMOTE, embora sejam as mais promissoras ao balanceamento de bases de dados, no processo de classificação, apresentam um maior custo computacional quando comparada as técnicas de undersampling, em especial quando são utilizados classificadores baseados em similaridades, como o vizinho mais próximo. Além disso, a amostragem superabundante pode acarretar o excesso de ajuste dos dados de treinamento ao modelo, processo também conhecido como overtuning ou

overftting (Salunkhe e Mali, 2016).

Como exemplo, a seguir, é demonstrado o impacto na classificação da severidade em base de acidentes rodoviários, pela abordagem da ANN com MPL, pela utilização de diferentes técnicas de amostragem de dados. Na Tabela 2.1, nota-se que ao se considerar um conjunto de variáveis originais, analisadas de forma exploratória no âmbito da segurança viária, ocorre overftting do algoritmo ANN com MPL para a classe majoritária de dados, que corresponde aos acidentes sem vítimas (SV), com uma taxa de acerto de 97,9%, enquanto que para a classe minoritária de dados, acidentes com vítimas (CV) esta taxa é de apenas 14,2%, com uma precisão geral de classificação de 76,7%. A aplicação da técnica undersampling resulta em uma melhora na precisão geral dos dados (82,0%). Contudo, resulta em perda da informação da classe majoritária de dados, conforme se verifica na Tabela 2.2.

Tabela 2.1: Desempenho da classificação por ANN com

MPL e usando banco de dados desequilibrado. Preditos Subconjuntos Nível da lesão SV CV (%) Acerto Treinamento SV 2.163 46 97,9 CV 643 106 14,2 (%) Total) 94,9 5,1 76,7 Teste SV 954 21 97,8 CV 282 44 13,5 (%) Total) 95,0 5,0 76,7

Tabela 2.2: Desempenho da classificação por ANN com

MPL e usando banco de dados undersampling. Preditos Subconjuntos Nível da lesão SV CV (%) Acerto Treinamento SV 28 7 80,0 CV 10 26 72,2 (%) Total) 53,5 46,5 76,1 Teste SV 15 0 100,0 CV 5 8 61,5 (%) Total) 71,4 28,6 82,0

Tabela 2.3: Desempenho da classificação por ANN com

MPL e usando banco de dados oversampling. Preditos Subconjuntos Nível da lesão SV CV (%) Acerto Treinamento SV 2.826 116 96,1 CV 0 2.916 100,0 (%) Total) 48,2 51,8 98,0 Teste SV 1.199 67 94,7 CV 0 1.292 100,0 (%) Total) 46,9 53,1 97,4

Tabela 2.4: Desempenho da classificação por ANN com

MPL e usando banco de dados SMOTE. Preditos Subconjuntos Nível da lesão SV CV (%) Acerto Treinamento SV 138 5 96,5 CV 20 96 82,8 (%) Total) 61,0 39,0 90,3 Teste SV 53 4 93,0 CV 5 32 86,5 (%) Total) 61,7 38,3 90,4 Fonte: Autora (2018).

A técnica oversampling resulta em uma melhora significativa da precisão geral de classificação da ordem de 97,4%, conforme ilustra a Tabela 2.3. Todavia, se verifica que o classificador foi tendencioso, resultando em falsos positivos para os acidentes CV. A técnica SMOTE, Tabela 2.4, por sua vez, evita e detecta overftting, a partir do treinamento do classificador supervisionado considerando a distribuição dos dados originais e a análise de vizinhança dos dados, o que proporciona uma precisão geral de 90,4% e em uma taxa de acerto de 96,5% para os acidentes SV e de 82,8% para os acidentes CV.

A seguir apresenta-se a avaliação da curva ROC (Receiver Operating Characteristic), expressa pela relação entre a sensibilidade e a especificidade do modelo (Fawcett, 2006). A sensibilidade corresponde a proporção de verdadeiros positivos, ou seja, avalia a capacidade do modelo classificar corretamente uma observação. A especificidade equivale a proporção de verdadeiros negativos, isto é, a capacidade do modelo em predizer observações incorretamente.

A Figura 2.9 (a) apresenta a curva ROC, na qual se verifica que a AUC assumiu valores médios da ordem de 0,641, para as variáveis alvo acidentes SV e CV, considerando o banco de dados desbalanceado. Ressalta-se que valores de AUC no intervalo de 0,7 AUC0,8 fornecem uma modelagem com discriminação aceitável, enquanto que valores entre 0,8 AUC0,9 expressam uma modelagem excelente e, por fim, valores

de AUC0,9 uma modelagem com elevado potencial de discriminação (Hosmer e Lemeshow, 2000).

A Figura 2.9 (b) apresenta a curva ROC para cada variável dependente (SV e CV) com a aplicação da técnica de amostragem undersampling. Ao analisar o gráfico da curva ROC (Figura 2.9 (b)), verifica-se que os valores preditos apresentaram AUC com valores médios de 0,895 tanto para os acidentes SV quanto para os acidentes CV. A modelagem da severidade dos acidentes (SV e CV) pela oversampling resultou em uma precisão geral com

AUC0,7

conforme ilustra a Figura 2.9 (c). A Figura 2.9 (d) apresenta a curva ROC para cada variável dependente SV e CV em função da aplicação da técnica de amostragem SMOTE. Neste caso, a curva ROC apresenta valores médios iguais a 0,952 para as predições das classes de acidentes SV e CV.

Figura 2.9 – Desempenho da classificação com ANN utilizando MPL em bases de

dados de acidentes utilizando técnicas de amostragem.

(a) (b)

(c) (d)

Legenda: classificação utilizando bases de dados desbalanceadas (a); classificação com dados amostrados pela undersampling (b); classificação com dados amostrados pela oversampling (c) e classificação com dados amostrados pela SMOTE (d).

Fonte: Autora (2018).