Resultados Obtidos - Importˆ ancia do Conjunto de Exemplos Inicialmente Rotulados

6.4 Importˆ ancia do Conjunto de Exemplos Inicialmente Rotulados

6.4.2 Resultados Obtidos

Na Tabela 6.23 s˜ao mostrados os resultados obtidos utilizando 6 (seis) exemplos rotulados, 2 (dois) de cada classe, que se encontram perto do centro dos clusters cor- respondentes a cada uma das 3 (trˆes) classes do conjunto de dados Iris.

O experimento foi realizado somente uma vez já que se trata de um exemplo ilus- trativo, e os resultados obtidos são ilustrados na Tabela 6.23 na página oposta. Como pode ser observado, os resultados obtidos são muito bons.

Na Tabela6.24é mostrado o erro dos classificadores induzidos nas simula¸cões realizadas, antes e após a rotula¸cão. Como pode ser observado, apesar de utilizar somente 6 (seis) exemplos iniciais rotulados, por serem eles exemplos muito especiais que se encontram perto do centro dos clusters, os classificadores induzidos conseguem, exceto em um caso, classificar razoavelmente bem os exemplos do conjunto de teste.

Nas figuras a seguir é ilustrado graficamente o processo de rotula¸cão ao qual se refere a Tabela6.23. Deve ser ressaltado que os gráficos levam em considera¸cão apenas a distância Euclideana.

Na Figura 6.7(a) são mostrados, em vermelho, os exemplos rotulados pela versão 1 do k-meanski, utilizando um threshold de 5%. Como descrito anteriormente, a versão

1 consiste de uma única itera¸cão. Já na Figura 6.7(b) pode ser visto, também em vermelho, o resultado do processo de rotula¸cão da versão 2 do k-meanski, com o mesmo

Rotulados

Distˆancia Threshold Vers˜ao Total % Rotulados Errados

5% v1 31 21.5 0 v2 31 21.5 0 Euclideana 10% v1 54 37.5 0 v2 59 41.0 0 20% v1 99 68.7 1 v2 114 79.2 4 5% v1 39 27.1 0 v2 41 28.5 0 Chebychev 10% v1 65 45.1 0 v2 67 46.5 0 20% v1 99 68.7 1 v2 104 72.2 1

Tabela 6.23: Iris — Resultados com 6 (4%) exemplos rotulados apropriados para o bias do k-meanski

Erro no 5-cv

Pós-Rotula¸cão Pré-Rotula¸cão Distância Threshold Versão C4.5rules CN 2 C4.5rules CN 2

5% v1 8.85 7.96 v2 8.85 7.96 Euclideana 10% v1 11.11 5.56 v2 11.76 2.35 20% v1 11.11 15.56 v2 20.00 20.00 14.58 9.03 5% v1 9.52 4.76 v2 9.71 4.85 Chebychev 10% v1 11.39 2.53 v2 11.69 1.3 20% v1 11.11 13.33 v2 12.50 14.50

Tabela 6.24: Iris — Performance dos classificadores antes (com 6 exemplos rotulados apropriados para o bias do k-meanski) e depois da rotula¸c˜ao

threshold de 5%. Os pontos representados por ∗ ilustram a posi¸cão do centróide na versão 2. Pode-se notar, nesse caso, tanto pelos gráficos quanto pelos resultados na Tabela6.23, que a versão 2 do algoritmo comportou-se da mesma maneira que a versão 1, ambas rotulando 31 exemplos4 _{corretamente.}

Na Figura 6.8(a) são mostrados, em vermelho, os exemplos rotulados pela versão 1 do k-meanski, utilizando um threshold de 10%. O resultado da versão 2 do algoritmo,

utilizando o mesmo threshold de 10%, é ilustrado na Figura 6.8(b), também em vermelho. Os pontos representados por ∗ ilustram a posi¸cão do centróide na versão 2.

4_{Obviamente, os exemplos rotulados pela vers˜}_{ao 1 s˜}_{ao os mesmos que aqueles rotulados pela ver-} s˜ao 2.

100 Se¸c˜ao 6.4: Importˆancia do Conjunto de Exemplos Inicialmente Rotulados

(a) (b)

Figura 6.7: Conjunto Iris aplicado ao k-meanski — Threshold 5%

Nesse caso, a vers˜ao 1 rotulou 54 exemplos e a vers˜ao 2 rotulou 59 exemplos. Em ambos os casos todos os exemplos foram rotulados corretamente.

(a) (b)

Figura 6.8: Conjunto Iris aplicado ao k-meanski — Threshold 10%

Na Figura 6.9 ´e mostrado o resultado do k-meanski quando aplicado um threshold

de 20%. Em (a) são mostrados, em vermelho, os exemplos rotulados pela versão 1 do k-meanski. Em (b), (c) e (d) são ilustradas, respectivamente, a segunda, terceira

e quarta itera¸cões da versão 2 do algoritmo (vale lembrar que a primeira itera¸cão da versão 2 corresponde à versão 1), estando os pontos em vermelho representando os exemplos rotulados pelo algoritmo. Os pontos representados por ∗ ilustram a posi¸cão do centróide em cada itera¸cão da versão 2. Nessa experiência, a versão 1 rotulou 99 exemplos, sendo apenas 1 (um) exemplo rotulado erroneamente, e a versão 2 rotulou

114 exemplos, dos quais 4 (quatro) deles erroneamente.

(a) (b)

Figura 6.9: Conjunto Iris aplicado ao k-meanski — Threshold 20%

6.5 Considera¸c˜oes Finais

Neste cap´ıtulo foram mostrados os resultados experimentais obtidos com o algoritmo k-meanski utilizando os conjuntos de dados Breast–Cancer 2, Hepatitis e Breast–

Cancer. Esses conjuntos foram particionados em 2 (dois) subconjuntos, um pequeno, com exemplos rotulados e um grande, com não rotulados. Dessa forma, é simulada a situa¸cão para a qual o algoritmo k-meanski foi concebido, aquela em que está dispon´ıvel

um pequeno conjunto de exemplos rotulados e uma grande quantidade de exemplos n˜ao rotulados.

102 Se¸c˜ao 6.5: Considera¸c˜oes Finais

Os resultados mostram que o comportamento do algoritmo k-meanski ´e bom, desde

que se verifiquem as premissas nas quais ele se ap´oia.

Para ilustrar a importˆancia dos exemplos inicialmente rotulados para um bom de- sempenho do k-meanski, foi utilizado o conhecido conjunto Iris, no qual os exemplos

inicialmente rotulados foram escolhidos de forma a estarem localizados perto do centro dos respectivos agrupamentos.

7 Conclus˜oes

“Diga a verdade, e saia correndo.”

Anˆonimo

N

este trabalho ´e proposto um algoritmo, denominado k-meanski, a ser uti-

lizado no processo de rotula¸cão de exemplos a partir de poucos exemplos rotulados. Baseado no conhecido algoritmo k-means, o algoritmo aqui proposto utiliza técnicas de clusteriza¸cão para melhorar o processo de classifica¸cão, e está baseado em duas premissas. A primeira delas é que os exemplos tendem a se agru- par naturalmente em clusters, ao invés de se distribuirem uniformemente no espa¸co de descri¸cão dos exemplos. Além disso, cada exemplo do conjunto inicial de exemplos rotulados deve estar localizado perto do centro de um dos clusters existentes no espa¸co de descri¸cão de exemplos. A segunda premissa diz que a maioria dos exemplos nos clusters pertencem a uma classe espec´ıfica.

Por trabalhar simultaneamente com exemplos rotulados e n˜ao rotulados, o k-meanski

enquadra-se na categoria dos algoritmos de aprendizado semi-supervisionado.

A motiva¸c˜ao para o seu uso deve-se ao fato de, na grande maioria das vezes, estar

104 Se¸c˜ao 7.1: Resultados Iniciais

dispon´ıvel um pequeno conjunto de exemplos rotulados e uma grande quantidade de exemplos não rotulados. Essa situa¸cão, geralmente, inviabiliza o uso de algoritmos de aprendizado supervisionado. A idéia então consiste em incrementar, a partir da rotula¸cão de novos exemplos, o conjunto de exemplos rotulados, procurando viabilizar a utiliza¸cão de algoritmos de aprendizado supervisionado.

7.1 Resultados Iniciais

A maioria das conclusões obtidas com este trabalho podem ser feitas a partir dos resultados experimentais obtidos com o algoritmo k-meanski. Essas conclusões são

listadas a seguir.

• A qualidade dos exemplos inicialmente rotulados ´e de suma importˆancia para o bom funcionamento do algoritmo proposto. O algoritmo k-meanski, como citado

anteriormente, apóia-se em duas premissas, ambas relacionadas com o conjunto de dados utilizado. Uma delas diz que os exemplos rotulados devem estar localizados perto do centro do agrupamento ao qual eles pertencem. Como foi mostrado — Se¸cão6.4na página96— , exemplos pertencentes ao conjunto inicial de exemplos rotulados localizados longe do centro do agrupamento ao qual eles pertencem, podem, com grande probabilidade, acarretar na rotula¸cão errônea de exemplos, o que não é desejável.

• A medida de distância utilizada, principalmente quando da utiliza¸cão de conjuntos de dados heterogêneos (com atributos discretos e cont´ınuos), influi, drastica- mente no processo de rotula¸cão. Como mostrado nos experimentos, utilizando os conjuntos de dados Breast–Cancer 2 e Hepatitis — Se¸cão6.3.1 na página83e Se¸cão 6.3.2 na página 87, respectivamente — com a distância Chebychev, o algoritmo k-meanski não rotulou nenhum exemplo, visto que essa distância não se

mostrou apropriada para conjuntos de dados heterogˆeneos. Assim, ao se escolher a medida de similaridade a ser utilizada no processo de rotula¸c˜ao deve-se levar em conta os dados utilizados.

• O valor do threshold deve ser utilizado com cautela. A utiliza¸cão de um alto threshold acarretará na forma¸cão de grandes clusters. Por conseguinte, aumenta- se a possibilidade de rotular um exemplo erroneamente, visto que quanto maior o threshold, mais longe o exemplo não rotulado pode estar do centro do cluster para ser rotulado. Como mostrado anteriormente — Se¸cão5.2na página65— , o k-meanski utiliza restri¸cões para rotular um exemplo, o que não necessariamente

diminuirá a percentagem de exemplos rotulados erroneamente. Além disso, tais restri¸cões somente são válidas quando há uma interseçcão de clusters originados por exemplos de classes diferentes. Caso contrário, o aumento do threshold, cer- tamente acarretará no aumento do número de exemplos rotulados erroneamente.

• As duas vers˜oes propostas do algoritmo k-meanski comportam-se de forma seme-

lhante. Pode ser comprovado pelas experiências realizadas que, na grande maioria dos casos, a versão 2 do k-meanski rotulou mais exemplos que a versão 1. Pode

ser visto também que o erro no processo de rotula¸cão foi maior para a versão 2. Conclui-se então que ao se escolher a versão a ser utilizada deve-se ponderar entre um número menor, mas com maior precisão, de exemplos rotulados — versão 1 — ou mais exemplos rotulados, com a possibilidade de aumentar o erro — versão 2.

Os resultados obtidos, utilizando o conjunto de dados Breast–Cancer, mostram que a idéia utilizada pelo algoritmo é promissora, provendo uma gama de trabalhos futuros, os quais são descritos a seguir.

No documento Aprendizado de máquina semi-supervisionado: proposta de um algoritmo para rotular exemplos a partir de poucos exemplos rotulados (páginas 120-127)