• Nenhum resultado encontrado

6.4 Importˆ ancia do Conjunto de Exemplos Inicialmente Rotulados

6.4.2 Resultados Obtidos

Na Tabela 6.23 s˜ao mostrados os resultados obtidos utilizando 6 (seis) exemplos rotulados, 2 (dois) de cada classe, que se encontram perto do centro dos clusters cor- respondentes a cada uma das 3 (trˆes) classes do conjunto de dados Iris.

O experimento foi realizado somente uma vez j´a que se trata de um exemplo ilus- trativo, e os resultados obtidos s˜ao ilustrados na Tabela 6.23 na p´agina oposta. Como pode ser observado, os resultados obtidos s˜ao muito bons.

Na Tabela6.24´e mostrado o erro dos classificadores induzidos nas simula¸c˜oes reali- zadas, antes e ap´os a rotula¸c˜ao. Como pode ser observado, apesar de utilizar somente 6 (seis) exemplos iniciais rotulados, por serem eles exemplos muito especiais que se encontram perto do centro dos clusters, os classificadores induzidos conseguem, exceto em um caso, classificar razoavelmente bem os exemplos do conjunto de teste.

Nas figuras a seguir ´e ilustrado graficamente o processo de rotula¸c˜ao ao qual se refere a Tabela6.23. Deve ser ressaltado que os gr´aficos levam em considera¸c˜ao apenas a distˆancia Euclideana.

Na Figura 6.7(a) s˜ao mostrados, em vermelho, os exemplos rotulados pela vers˜ao 1 do k-meanski, utilizando um threshold de 5%. Como descrito anteriormente, a vers˜ao

1 consiste de uma ´unica itera¸c˜ao. J´a na Figura 6.7(b) pode ser visto, tamb´em em vermelho, o resultado do processo de rotula¸c˜ao da vers˜ao 2 do k-meanski, com o mesmo

Rotulados

Distˆancia Threshold Vers˜ao Total % Rotulados Errados

5% v1 31 21.5 0 v2 31 21.5 0 Euclideana 10% v1 54 37.5 0 v2 59 41.0 0 20% v1 99 68.7 1 v2 114 79.2 4 5% v1 39 27.1 0 v2 41 28.5 0 Chebychev 10% v1 65 45.1 0 v2 67 46.5 0 20% v1 99 68.7 1 v2 104 72.2 1

Tabela 6.23: Iris — Resultados com 6 (4%) exemplos rotulados apropriados para o bias do k-meanski

Erro no 5-cv

P´os-Rotula¸c˜ao Pr´e-Rotula¸c˜ao Distˆancia Threshold Vers˜ao C4.5rules CN 2 C4.5rules CN 2

5% v1 8.85 7.96 v2 8.85 7.96 Euclideana 10% v1 11.11 5.56 v2 11.76 2.35 20% v1 11.11 15.56 v2 20.00 20.00 14.58 9.03 5% v1 9.52 4.76 v2 9.71 4.85 Chebychev 10% v1 11.39 2.53 v2 11.69 1.3 20% v1 11.11 13.33 v2 12.50 14.50

Tabela 6.24: Iris — Performance dos classificadores antes (com 6 exemplos rotulados apropriados para o bias do k-meanski) e depois da rotula¸c˜ao

threshold de 5%. Os pontos representados por ∗ ilustram a posi¸c˜ao do centr´oide na vers˜ao 2. Pode-se notar, nesse caso, tanto pelos gr´aficos quanto pelos resultados na Tabela6.23, que a vers˜ao 2 do algoritmo comportou-se da mesma maneira que a vers˜ao 1, ambas rotulando 31 exemplos4 corretamente.

Na Figura 6.8(a) s˜ao mostrados, em vermelho, os exemplos rotulados pela vers˜ao 1 do k-meanski, utilizando um threshold de 10%. O resultado da vers˜ao 2 do algoritmo,

utilizando o mesmo threshold de 10%, ´e ilustrado na Figura 6.8(b), tamb´em em ver- melho. Os pontos representados por ∗ ilustram a posi¸c˜ao do centr´oide na vers˜ao 2.

4Obviamente, os exemplos rotulados pela vers˜ao 1 s˜ao os mesmos que aqueles rotulados pela ver- s˜ao 2.

100 Se¸c˜ao 6.4: Importˆancia do Conjunto de Exemplos Inicialmente Rotulados

(a) (b)

Figura 6.7: Conjunto Iris aplicado ao k-meanski — Threshold 5%

Nesse caso, a vers˜ao 1 rotulou 54 exemplos e a vers˜ao 2 rotulou 59 exemplos. Em ambos os casos todos os exemplos foram rotulados corretamente.

(a) (b)

Figura 6.8: Conjunto Iris aplicado ao k-meanski — Threshold 10%

Na Figura 6.9 ´e mostrado o resultado do k-meanski quando aplicado um threshold

de 20%. Em (a) s˜ao mostrados, em vermelho, os exemplos rotulados pela vers˜ao 1 do k-meanski. Em (b), (c) e (d) s˜ao ilustradas, respectivamente, a segunda, terceira

e quarta itera¸c˜oes da vers˜ao 2 do algoritmo (vale lembrar que a primeira itera¸c˜ao da vers˜ao 2 corresponde `a vers˜ao 1), estando os pontos em vermelho representando os exemplos rotulados pelo algoritmo. Os pontos representados por ∗ ilustram a posi¸c˜ao do centr´oide em cada itera¸c˜ao da vers˜ao 2. Nessa experiˆencia, a vers˜ao 1 rotulou 99 exemplos, sendo apenas 1 (um) exemplo rotulado erroneamente, e a vers˜ao 2 rotulou

114 exemplos, dos quais 4 (quatro) deles erroneamente.

(a) (b)

(c) (d)

Figura 6.9: Conjunto Iris aplicado ao k-meanski — Threshold 20%

6.5

Considera¸c˜oes Finais

Neste cap´ıtulo foram mostrados os resultados experimentais obtidos com o algo- ritmo k-meanski utilizando os conjuntos de dados Breast–Cancer 2, Hepatitis e Breast–

Cancer. Esses conjuntos foram particionados em 2 (dois) subconjuntos, um pequeno, com exemplos rotulados e um grande, com n˜ao rotulados. Dessa forma, ´e simulada a situa¸c˜ao para a qual o algoritmo k-meanski foi concebido, aquela em que est´a dispon´ıvel

um pequeno conjunto de exemplos rotulados e uma grande quantidade de exemplos n˜ao rotulados.

102 Se¸c˜ao 6.5: Considera¸c˜oes Finais

Os resultados mostram que o comportamento do algoritmo k-meanski ´e bom, desde

que se verifiquem as premissas nas quais ele se ap´oia.

Para ilustrar a importˆancia dos exemplos inicialmente rotulados para um bom de- sempenho do k-meanski, foi utilizado o conhecido conjunto Iris, no qual os exemplos

inicialmente rotulados foram escolhidos de forma a estarem localizados perto do centro dos respectivos agrupamentos.

7

Conclus˜oes

“Diga a verdade, e saia correndo.”

Anˆonimo

N

este trabalho ´e proposto um algoritmo, denominado k-meanski, a ser uti-

lizado no processo de rotula¸c˜ao de exemplos a partir de poucos exemplos rotulados. Baseado no conhecido algoritmo k-means, o algoritmo aqui pro- posto utiliza t´ecnicas de clusteriza¸c˜ao para melhorar o processo de classifica¸c˜ao, e est´a baseado em duas premissas. A primeira delas ´e que os exemplos tendem a se agru- par naturalmente em clusters, ao inv´es de se distribuirem uniformemente no espa¸co de descri¸c˜ao dos exemplos. Al´em disso, cada exemplo do conjunto inicial de exemplos rotulados deve estar localizado perto do centro de um dos clusters existentes no espa¸co de descri¸c˜ao de exemplos. A segunda premissa diz que a maioria dos exemplos nos clusters pertencem a uma classe espec´ıfica.

Por trabalhar simultaneamente com exemplos rotulados e n˜ao rotulados, o k-meanski

enquadra-se na categoria dos algoritmos de aprendizado semi-supervisionado.

A motiva¸c˜ao para o seu uso deve-se ao fato de, na grande maioria das vezes, estar

104 Se¸c˜ao 7.1: Resultados Iniciais

dispon´ıvel um pequeno conjunto de exemplos rotulados e uma grande quantidade de exemplos n˜ao rotulados. Essa situa¸c˜ao, geralmente, inviabiliza o uso de algoritmos de aprendizado supervisionado. A id´eia ent˜ao consiste em incrementar, a partir da rotula¸c˜ao de novos exemplos, o conjunto de exemplos rotulados, procurando viabilizar a utiliza¸c˜ao de algoritmos de aprendizado supervisionado.

7.1

Resultados Iniciais

A maioria das conclus˜oes obtidas com este trabalho podem ser feitas a partir dos resultados experimentais obtidos com o algoritmo k-meanski. Essas conclus˜oes s˜ao

listadas a seguir.

• A qualidade dos exemplos inicialmente rotulados ´e de suma importˆancia para o bom funcionamento do algoritmo proposto. O algoritmo k-meanski, como citado

anteriormente, ap´oia-se em duas premissas, ambas relacionadas com o conjunto de dados utilizado. Uma delas diz que os exemplos rotulados devem estar localizados perto do centro do agrupamento ao qual eles pertencem. Como foi mostrado — Se¸c˜ao6.4na p´agina96— , exemplos pertencentes ao conjunto inicial de exemplos rotulados localizados longe do centro do agrupamento ao qual eles pertencem, podem, com grande probabilidade, acarretar na rotula¸c˜ao errˆonea de exemplos, o que n˜ao ´e desej´avel.

• A medida de distˆancia utilizada, principalmente quando da utiliza¸c˜ao de conjun- tos de dados heterogˆeneos (com atributos discretos e cont´ınuos), influi, drastica- mente no processo de rotula¸c˜ao. Como mostrado nos experimentos, utilizando os conjuntos de dados Breast–Cancer 2 e Hepatitis — Se¸c˜ao6.3.1 na p´agina83e Se¸c˜ao 6.3.2 na p´agina 87, respectivamente — com a distˆancia Chebychev, o al- goritmo k-meanski n˜ao rotulou nenhum exemplo, visto que essa distˆancia n˜ao se

mostrou apropriada para conjuntos de dados heterogˆeneos. Assim, ao se escolher a medida de similaridade a ser utilizada no processo de rotula¸c˜ao deve-se levar em conta os dados utilizados.

• O valor do threshold deve ser utilizado com cautela. A utiliza¸c˜ao de um alto threshold acarretar´a na forma¸c˜ao de grandes clusters. Por conseguinte, aumenta- se a possibilidade de rotular um exemplo erroneamente, visto que quanto maior o threshold, mais longe o exemplo n˜ao rotulado pode estar do centro do cluster para ser rotulado. Como mostrado anteriormente — Se¸c˜ao5.2na p´agina65— , o k-meanski utiliza restri¸c˜oes para rotular um exemplo, o que n˜ao necessariamente

diminuir´a a percentagem de exemplos rotulados erroneamente. Al´em disso, tais restri¸c˜oes somente s˜ao v´alidas quando h´a uma intersec¸c˜ao de clusters originados por exemplos de classes diferentes. Caso contr´ario, o aumento do threshold, cer- tamente acarretar´a no aumento do n´umero de exemplos rotulados erroneamente.

• As duas vers˜oes propostas do algoritmo k-meanski comportam-se de forma seme-

lhante. Pode ser comprovado pelas experiˆencias realizadas que, na grande maioria dos casos, a vers˜ao 2 do k-meanski rotulou mais exemplos que a vers˜ao 1. Pode

ser visto tamb´em que o erro no processo de rotula¸c˜ao foi maior para a vers˜ao 2. Conclui-se ent˜ao que ao se escolher a vers˜ao a ser utilizada deve-se ponderar entre um n´umero menor, mas com maior precis˜ao, de exemplos rotulados — vers˜ao 1 — ou mais exemplos rotulados, com a possibilidade de aumentar o erro — vers˜ao 2.

Os resultados obtidos, utilizando o conjunto de dados Breast–Cancer, mostram que a id´eia utilizada pelo algoritmo ´e promissora, provendo uma gama de trabalhos futuros, os quais s˜ao descritos a seguir.