• Nenhum resultado encontrado

4.3 Método de Aprendizado Semi-Supervisionado

5.1.1 Medidas de Sobreposição

Estas medidas são focadas na efetividade de um único atributo na separação de classes. Em outras palavras, estima o poder discriminativo dos atributos.

1. Razão discriminante de Fisher (F1): retorna o máximo poder discriminativo de um atributo, isto é:

F1=maxd

i=1 fi, (5.1)

onde fié o poder discriminativo do i-ésimo atributo, d é o número de atributos na base

de dados, e a função max retorna o maior poder discriminativo.

Para o caso de uma base de dados com somente duas classes, o valor de fié calculado

de acordo com a Equação 5.2:

fi=

1,i− µ2,i)2

(σ1,i)2+ (σ2,i)2

, (5.2)

(a) (b)

Figura 5.1: Tanto em (a) quanto em (b) a separação entre classes é linear. Em (a) uma única característica não é suficiente para realizar a separação entre as classes, e o valor de F1 é baixo. Em (b) a separação entre as classes pode ser realizada usando qualquer uma das duas características, e o valor de F1 é mais elevado.

Para bases de dados com mais de duas classes, o valor de fié obtido pela Equação 5.3:

fi= |C|−1k=1 |C|j=k+1 pkpj µk,i− µj,i2 |C|k=1 pk σk,i2 , (5.3)

onde|C| é a quantidade de classes; e pk e pj são as proporções de amostras das classe ck e cj, respectivamente.

Valor alto de F1 indica que ao menos um dos atributos é capaz de separar amostras de classes diferentes em partições paralelas ao eixo do espaço de características. Um valor baixo não significa, necessariamente, que as classes não são linearmente separáveis, mas que não podem ser discriminadas por hiperplanos paralelos a um dos eixos do espaço de características. O limite inferior dessa medida é zero, mas não existe limite superior definido (nas bases de dados analisadas, valores de F1 maiores do que 10 indicaram uma maior facilidade para realizar a correta classificação das amostras das bases de dados).

A Figura 5.1 ilustra duas situações nas quais a separação entre as classes é linear. Na Figura 5.1(a) não é possível realizar uma separação apropriada entre as classes usando somente uma característica, e o valor de F1 é baixo. Na Figura 5.1(b) a separação pode ser realizada usando qualquer uma das duas características, e o valor de F1 é mais elevado.

2. Volume de região sobreposta (F2): calcula a escala de sobreposição das distribuições espaciais de cada classe.

A definição desta medida para bases de dados de duas classes é dada a seguir. Para cada atributo, é calculada a razão da largura do intervalo de sobreposição (intervalo possuidor de amostras de ambas as classes) pela largura de todo o intervalo. Então, a medida retorna o produto das razões calculadas para cada atributo:

F2=

d

i=1

MIN_MAXi− MAX_MINi

MAX _MAXi− MIN_MINi

, (5.4)

onde d é o número de atributos, e:

MIN_MAXi= min (max (ai, c1) , max (ai, c2)) , (5.5)

MAX _MINi= max (min (ai, c1) , min (ai, c2)) , (5.6)

MAX _MAXi= max (max (ai, c1) , max (ai, c2)) , (5.7)

MIN_MINi= min (min (ai, c1) , min (ai, c2)) , (5.8)

onde aié o i-ésimo atributo, c1e c2referem às duas classes, e max(ai, ck) e min (ai, ck)

são os valores máximo e mínimo do atributo aipara a classe ck, respectivamente.

Para o caso de três ou mais classes, o valor absoluto de F2 é calculado para cada par de classes, e a soma desses valores é retornada como saída. A Figura 5.2 ilustra, para cada atributo, o intervalo de sobreposição e a largura total de intervalo de amostras de duas classes hipotéticas. Um baixo valor de F2 significa atributos podendo discriminar bem amostras de classes diferentes. O menor valor de F2 é zero e o maior valor é

|C|(|C| − 1)/2, sendo |C| o número de classes da base de dados. Para |C| = 2, o maior

valor de F2 é 1.

3. Eficiência individual de atributo (F3): calcula o poder discriminativo de cada atri- buto individual e retorna o poder discriminativo do atributo capaz de distinguir o maior número de amostras de treinamento dentro da base de dados.

Desta forma, para cada atributo, é considerada a região de sobreposição (isto é, a região onde existem amostras de ambas as classes) e retorna a razão entre o número de amostras que não estão nessa região de sobreposição e o número total de amostras. O cálculo é realizado para cada par de classes. A maior taxa de discriminação é o valor da medida F3. A Figura 5.3 ilustra, para cada atributo, o intervalo de sobreposição de amostras de duas classes hipotéticas e indica a forma de calculo da medida F3.

Um alto valor de F3 indica haver pelo menos um atributo com grande capacidade de discriminação. O valor de F3 encontra-se entre 0 e 1.

4. Eficiência coletiva de atributos (F4): segue a mesma ideia da apresentada para F3, mas agora considera o poder discriminativo de todos os atributos.

INTERVALO IN T E R V A L O

Figura 5.2: A figura mostra a distribuição de duas classes (pontos e cruzes) e o intervalo de sobreposição das amostras de ambas as classes para cada atributo (característica). Também é mostrada a largura total do intervalo de amostras para cada atributo. Quanto maior a razão entre a sobreposição e a largura do intervalo, maior o valor de F2.

Figura 5.3: A figura mostra a distribuição de duas classes (pontos e cruzes) e o intervalo de sobreposição das amostras de ambas as classes para cada atributo (característica). Para calcular a medida F3, é calculado para cada característica o número de amostras fora do intervalo de sobreposição dividido pelo número total de amostras. No caso dessa figura, a maior porcentagem de amostras fora do intervalo de sobreposição é obtida pela característica

X1, e essa taxa é o valor de F3.

O poder discriminativo coletivo é calculado da seguinte forma: primeiro, é selecionado o atributo mais discriminativo, isto é, o atributo capaz de distinguir o maior número de amostras de uma classe. Esse atributo é selecionado usando o mesmo procedimento descrito para calcular o valor de F3. Então, todas as amostras discriminadas são re-

movidas, e o segundo atributo mais discriminativo é selecionado (usando as amostras restantes). Esse procedimento continua até todas as amostras serem discriminadas ou todos os atributos serem selecionados. Finalmente, a medida retorna a proporção de amostras que têm sido discriminadas. Esse cálculo é realizado para cada par de classes. Esta medida é ligeiramente diferente da medida F3. Enquanto F3 somente considera a fração de amostras discriminadas pelo atributo mais discriminativo, a medida F4 considera o efeito de todos os atributos. Portanto, F4 providencia mais informação por considerar o efeito de todos os atributos, já que realça o poder discriminativo coletivo de todos os atributos. O valor mínimo de F4 é zero. Para problemas de duas classes o valor está entre 0 e 1.

5.1.2

Medidas de separabilidade das classes

A seguir, serão descritas medidas capazes de estimar a complexidade de separação de amostras de diferentes classes baseadas na forma e contorno das classes.

1. Fração de pontos no contorno da classe (N1): fornece uma estimativa do compri- mento do contorno da classe.

O método baseia-se em calcular um minimum spanning tree (MST) conectando todos os pontos (amostras) aos vizinhos mais próximos deles, independentemente da classe ao qual pertençam. Então, os pontos conectados e pertencentes a classes diferentes são contados. Se um ponto é conectado a mais de uma classe diferente, ele é contado somente uma vez. Esses são pontos próximos ao contorno da classe (Figura 5.4). A fração desses pontos pelo número total de pontos no conjunto de dados é o valor da medida N1.

Valores altos para esta medida indicam que a maioria dos pontos encontra-se próximo ao contorno da classe, e assim pode ser mais difícil para um classificador definir pre- cisamente o contorno dessa classe. O valor de N1 situa-se entre 0 e 1.

2. Razão da distância média dos vizinhos mais próximos dentro das classes e en-

tre classes (N2): compara o espalhamento das amostras dentro de uma classe com a

distância dos vizinhos mais próximos de outras classes.

Para cada amostra xi é calculada a distância ao vizinho mais próximo dela dentro da

classe (Dist_int(xi)) e a distância ao vizinho mais próximo de qualquer outra classe

Figura 5.4: Um minimum spanning tree conectando pontos de duas classes. Círculos com tons mais escuros pertencem a uma classe diferente à dos círculos com um tom mais claro no interior. As linhas mais espessas conectam pontos de classes diferentes (Ho e Basu, 2002).

pela soma das distâncias fora da classe, isto é:

N2= ni=1 Dist_int(xi) ni=1 Dist_ext(xi) , (5.9)

onde n é o número de amostras na base de dados.

Valores baixos desta medida sugerem amostras da mesma classe encontrarem-se pró- ximas no espaço de características com relação à distância entre amostras de outras classes. Valores altos indicam amostras da mesma classe dispersas. O menor valor de N2 tende a zero, mas não existe limite superior para esta medida. A Figura 5.5 ilustra duas situações em que são obtidos valores diferentes de N2.

3. Taxa de erro de leave-one-out do classificador vizinho mais próximo (N3): informa o quão próximas estão as amostras de diferentes classes. Ela retorna a taxa de erro de

leave-one-out (ver Subseção 5.3.3) do classificador vizinho mais próximo. Baixos

valores dessa medida sugerem haver grande vazio entre os contornos de classe. O valor de N3 pode variar entre 0 a 1.