MODELO PFC APLICADO A DADOS COM DISTRIBUIÇÃO NORMAL

Este exemplo apresentado originalmente por Li et al. (2017) busca justificar o uso de região Ideal como forma de reduzir a variabilidade presente nos dados de treinamento para regiões heterogêneas dentro do antecedente de cada regra.

Considere um problema de classificação binário cujo conjunto de dados tem um única característica (x) definida em um intervalo unitário. Mais concretamente, o conjunto de dados é composto de observações amostradas a partir de duas distribuições normais, uma com média 0 e a outra com média 1, ambas com o mesmo desvio padrão σ (serão avaliados σ = 0.3 e σ = 0.5. Dados oriundos da distribuição normal com média 0 são denominados classe (B1) e dados da outra distribuição classe (B2).

O exemplo assume uma série de simplificações como as descritas a seguir.

Considerando-se que os dados vêm de duas distribuições distintas, utiliza-se um CFP com duas regras. Além disso, a região de ativação das regras é definida por funções de perti- nência Gaussiana cujos parâmetros são equivalentes aos parâmetros das distribuições normais que foram usadas para gerar os dados.

Estas funções de pertinência podem ser pensadas, por exemplo como a representação linguística dos termos pequeno e grande, respectivamente. Uma vez que os antecedentes da regra são conjuntos, é possível verificar como os consequentes serão estimados e como esta estimação influencia a performance de classificação e interpretabilidade.

Quando σ = 0.3, o conjunto de dados resultante e funções de pertinência estão ilus- trados na Figura 16. Nesta figura um α-corte 0.6 é utilizado para caracterizar a região Idealα. Três diferentes regiões do espaço de características são visíveis: 2 regiões onde as observações são associadas a uma única classe (região Ideal) e uma região que as observações envolvem as

duas classes.

Figura 16: Dados gerados da distribuição Normal com Média 0 e 1 e σ = 0.3 com Região Ideal Definida com α-corte 0.6

Para ilustrar o efeito da região Ideal na estimação do consequente e portanto na performance do modelo, o α-corte é variado no intervalo de 0 até 1. Por fim, compara-se cada modelo obtido com o modelo SUP proposto por Abonyi e Szeifert (2003), usando o protocolo holdout. Na Figura 17 o box-plot é utilizado para ilustrar a distribuição da acurácia para cada α-corte.

Figura 17: Box-Plot com Acurácia dos Modelos para Identificação de Dados Gerados da Dis- tribuição Normal com Média 0 e 1 e σ = 0.3

Ao variar o valor de α, varia-se indiretamente o tamanho da região ideal (valores maiores resultam em regiões Ideais menores).

Pelo aumento de α ocorre a redução do suporte da região ideal tendendo para o caso onde a estimação do consequente da regra utiliza dados exclusivos daquela regra.

Esta redução visa também reduzir a incerteza nas probabilidades do consequente uma vez que regiões menores tendem a ser mais homogêneas em relação à ocorrência das classes.

Quando α → 1 a performance tende a degradar com menos dados para a estimação. Uma outra situação onde pode ocorrer uma degradação do desempenho do classificador é quando a regiao Ideal é muito heterogênea no centro (ou seja muitos pontos com elevado grau de ativação pertencem a classes diferentes). Isto acontece porque o clustering em geral é não supervisionado. Neste caso o desempenho com a região ideal pode ser tão degradado quanto sem a região ideal.

Para um α-corte 0.6 utilizando o esquema de holdout o CFP proposto atingiu acurácia mediana de 100 % com o seguinte conjunto de regras:

R1 := Se x é Pequeno então ˆy1= B1com p(B1|Ideal1) = 1; [w1= 0.5] R2 := Se x é Grande então ˆy2= B2com p(B2|Ideal2) = 1; [w2= 0.5]

Já com o modelo SUP só foi possível atingir uma acurácia mediana de 90 %. A máxima acurácia foi obtida com o seguinte conjunto de regras:

R1 := Se x é Pequeno então ˆy1= B1com p(B1|R1) = 0.8917;

ˆy2= B2com p(B2|R2) = 0.1083; [w1= 0.458] R2 := Se x é Grande então ˆy1= B1com p(B1|R1) = 0.1210;

ˆy2= B2com p(B2|R2) = 0.8790; [w2= 0.5342]

Conforme apresentado por Li et al. (2017), observa-se que o método proposto consegue reduzir a incerteza no consequente ao mínimo sendo possível diferenciar uma única classe por regra: B1pertence a R1com probabilidade 1 e B2pertence a R2com probabilidade 1. Entretanto, no SUP onde a incerteza foi maior não ocorreu esta diferenciação.

Além disso, a decisão de fronteira obtida pelo método proposto está corretamente po- sicionada em 0.5 enquanto o limite de decisão obtido pelo método SUP é erroneamente po- sicionado em 0.49, isto é, para dados de entrada de teste maiores ou iguais a 0.49, os dados começam a ser classificados como classe 2. Como os antecedentes são os mesmos para ambos os métodos, o viés observado só pode ser devido ao método SUP de estimação de consequente dos parâmetros.

Um segundo experimento é realizado aumentando-se o desvio padrão(σ = 0.5).

Verifica-se uma diferença ainda maior de desempenho entre os modelos para regiões de sobreposição mais largas, como ilustram as Figuras 18 e 19. O CFP baseado em região Ideal teve um desempenho ainda melhor que o SUP com regiões com maior sobreposição: é possível

Figura 18: Dados Gerados da Distribuição Normal com Média 0 e 1 e σ = 0.5 com Região Ideal Definida com α-corte 0.6

Figura 19: Box-Plot com Acurácia dos Modelos para Identificação de Dados Gerados da Dis- tribuição Normal com Média 0 e 1 e σ = 0.5

observar no boxplot da Figura 19 com αs-cortes 0.4, 0.6 e 0.8 o PFC atingiu 100% de acurácia enquanto o SUP atingiu no máximo 78% de acurácia. Aplicando o teste de Friedman, conclui- se que ocorreu diferença significativa (p-valor< 0.01) e constata-se que os CFPs propostos com α-corte 0.6 e 0.8 foram superiores ao SUP.

Uma questão a ser observada é se com esta estratégia torna-se o modelo menos fuzzy ou menos probabilístico. Aqui duas observações são importantes. Primeiro, a característica fuzzy dos CFPs usados depende principalmente dos antecedentes e não dos consequentes. Se- gundo, uma coisa é o modelo, outra coisa diferente são os dados usados para se estimar o modelo. Ao usar uma região relevante (e no caso da região Idealα o suporte dessa região pode ser ampliado ou reduzido de acordo com o valor de α) para estimar o consequente de uma regra, melhora-se a estimativa de probabilidade das classes mais prováveis dentro da região de influência da regra. Em contraste, ao considerar apenas os valores de pertinência dos antecedentes diretamente, a abordagem convencional tende a estimar probabilidades mais uniformes sobre todas as classes dentro da região de ativação de cada regra aumentando assim a incerteza no consequente. Com probabilidades mais uniformes, obtém-se um classificador de variância mais elevado e, portanto, capacidades preditivas comparativamente mais baixas.

Nas seções a seguir, os dados do conjunto benchmark mostrados na Tabela 1 são di- vididos em dois grupos: benchmark1 e benchmark2. O primeiro grupo é usado para comparar diferentes classificadores fuzzy probabilísticos buscando identificar vantagens e desvantagens da proposta 1 e 2 descritas no capítulo 3, enquanto que o segundo grupo é utilizado para identificar a melhor dentre as variantes propostas. Este segundo grupo também é utilizado para comparar a versão padrão (escolhida como a melhor variante) com classificadores tradicionais na literatura.

No documento Definição automática de classificadores fuzzy probabilísticos (páginas 103-107)