Resultados Obtidos Usando o Atributo Classe Original

5.3 A Implementa¸c˜ ao de PreTexT

6.1.3 Resultados Obtidos Usando o Atributo Classe Original

Os mesmos experimentos descritos na Se¸cão 6.1.1 na página 98 foram realizados, fixando o número de clusters em 2, 3, 5, 7 e, também, deixando AutoClass determinar o número de clusters automaticamente. Neste último caso, AutoClass novamente encontrou 10 clusters.

Os resultados obtidos com o número de clusters fixado em 2, 3 e 5 clusters foram idênticos aos anteriores. Em outras palavras, o atributo classe nesse conjunto de dados não é considerado relevante por AutoClass para agrupar os exemplos. No experimento com 7 clusters, apenas o erro aparente — ErrA — diminuiu de 0, 4% ± 0, 4% para 0, 3% ± 0, 3%. Para o experimento que AutoClass determina o número de clusters, os resultados são similares, e são mostrados na Tabela 6.16.

Rule 1: (cover 60) Rule 2: (cover 49) involved_nodes > 0 tumor_size > 0 degree_of_malig > 2 involved_nodes <= 0 -> class C10(0) [0.984] degree_of_malig <= 1

-> class C10(1) [0.980] Rule 3: (cover 43) Rule 4: (cover 37)

involved_nodes > 1 age_at_meno = premenopaus degree_of_malig > 1 tumor_size > 0

degree_of_malig <= 2 involved_nodes <= 0 -> class C10(2) [0.978] degree_of_malig > 1 degree_of_malig <= 2 -> class C10(3) [0.974] Rule 5: (cover 28) Rule 6: (cover 1)

age_at_meno = leq40 age_at_meno = gt40 involved_nodes <= 0 involved_nodes <= 0 degree_of_malig > 1 degree_of_malig > 1 degree_of_malig <= 2 -> class C10(4) [0.667] -> class C10(4) [0.933]

Rule 7: (cover 25) Rule 8: (cover 17)

involved_nodes <= 0 involved_nodes > 0 degree_of_malig > 2 involved_nodes <= 1 -> class C10(5) [0.926] degree_of_malig > 1 degree_of_malig <= 2 -> class C10(6) [0.947] Rule 9: (cover 12) Rule 10: (cover 8)

involved_nodes > 0 tumor_size <= 0 involved_nodes <= 1 -> class C10(8) [0.900] degree_of_malig <= 1

-> class C10(7) [0.929]

Rule 11: (cover 7) Default class: C10(0) involved_nodes > 1

degree_of_malig <= 1 -> class C10(9) [0.889]

Tabela 6.14: Breast-cancer: regras induzidas (P = 0) - 10 clusters

Quando os resultados na Tabela6.16são comparados com os resultados na Tabela6.11na página 105, pode ser observado que o erro verdadeiro e o número de regras induzidas diminuiu para o experimento com o atributo classe. De um número total de 285 exemplos, apenas 43 (15%) exemplos (285 - 242) — Tabela 6.16 — pertencem ao cluster com probabilidade menor que 1. Deve ser observado que, quando o atributo classe não foi usado, Tabela 6.11, o número de exemplos que pertencem ao mesmo cluster com probabilidade menor do que 1 é 86 (285 - 199). Portanto, nesse caso, existem 50% mais exemplos que pertencem a mais de um cluster. Na Tabela6.17 são mostrados os clusters sobrepostos e na Figura 6.3 são ilustrados graficamente os clusters encontrados.

Na Tabela 6.18 s˜ao mostrados os atributos usados por See5 para P ≥ 0 e P = 1 usados para descrever os 10 clusters.

Se¸c˜ao 6.1: O Conjunto de Dados Breast-Cancer 109

Rule 1: (cover 60) Rule 2: (cover 49) involved_nodes > 0 tumor_size > 0 degree_of_malig > 2 involved_nodes <= 0 -> class C10(0) [0.984] degree_of_malig <= 1

-> class C10(1) [0.980] Rule 3: (cover 43) Rule 4: (cover 8)

involved_nodes > 0 tumor_size > 0 degree_of_malig > 1 involved_nodes <= 0 degree_of_malig <= 2 degree_of_malig > 1 -> class C10(2) [0.978] degree_of_malig <= 2

-> class C10(3) [0.900] Rule 5: (cover 24) Rule 6: (cover 8)

tumor_size > 0 tumor_size <= 0 involved_nodes <= 0 -> class C10(8) [0.900] degree_of_malig > 2

-> class C10(5) [0.962]

Rule 7: (cover 7) Default class: C10(0) involved_nodes > 0

degree_of_malig <= 1 -> class C10(9) [0.889]

Tabela 6.15: Breast-cancer: regras induzidas (P = 1) - 10 clusters

Tabela 6.16: Breast-cancer: resultados usando o atributo classe - 10 clusters

Cluster P # Ex Rec nRec # ExCl % ExCl ErrCM % ErrA % Err10cv % # R # MR

C10(0) 9 56 65 22,8 C10(1) 40 20 60 21,1 C10(2) 4 45 49 17,1 C10(3) 13 20 33 11,6 C10(4) 0 285 5 19 24 8,4 77, 2 0, 4 0, 4 ± 0, 4 10 10, 0 ± 0, 0 C10(5) 0 17 17 6,0 C10(6) 7 5 12 4,2 C10(7) 4 6 10 3,5 C10(8) 1 7 8 2,8 C10(9) 1 6 7 2,5 C10(0) 9 56 65 26,9 C10(1) 39 21 60 24,8 C10(2) 4 45 49 20,3 C10(3) 13 16 29 12,0 C10(4) 1 242 5 19 24 9,9 73, 3 0, 4 0, 4 ± 0, 4 7 7, 0 ± 0, 0 C10(5) 0 0 0 0,0 C10(6) 0 0 0 0,0 C10(7) 0 0 0 0,0 C10(8) 1 7 8 3,3 C10(9) 1 6 7 2,9

O conjunto de regras induzido por See5 considerando P ≥ 0 ´e mostrado na Tabela6.19.

Pode ser observado que quatro atributos (age, tumor_size, involved_nodes, degree_of_malig) foram suficientes para representar o conjunto de regras. O n´umero de exemplos cobertos

Tabela 6.17: Breast-cancer: clusters sobrepostos usando o atributo classe - 10 clusters

Clusters Sobrepostos # Ex Comuns C10(3, 5) 7

C10(3, 7) 9

C10(5, 7) 2

C10(6, 9) 5

Figura 6.3: Breast-cancer: clusters sobrepostos usando o atributo classe - 10 clusters

Tabela 6.18: Breast-cancer: atributos no conjunto de regras usando o atributo classe - 10 clusters

Atributos

age age at tumor involved node degree of breast breast irradiation meno size nodes capsule malig quadrant

• • • C10(0) ◦ ◦ ◦ • • C10(1) ◦ ◦ • • • C10(2) ◦ ◦ ◦ • • • C10(3) ◦ ◦ • • C10(4) ◦ ◦ • • C10(5) • • C10(6) • • • C10(7) • C10(8) ◦ • • C10(9) ◦ ◦

Se¸c˜ao 6.1: O Conjunto de Dados Breast-Cancer 111

por esse conjunto de regras ´e 286. Isso significa que apenas um exemplo (286 − 285) ´e coberto por mais de um regra, o que representa 0,35% dos exemplos nesse conjunto de dados.

Rule 1: (cover 65) Rule 2: (cover 60) tumor_size > 0 involved_nodes > 0 involved_nodes <= 0 degree_of_malig > 2 degree_of_malig > 1 -> class C10(1) [0.984] degree_of_malig <= 2

-> class C10(0) [0.985]

Rule 3: (cover 49) Rule 4: (cover 33) tumor_size > 0 age <= 58

involved_nodes <= 0 involved_nodes > 1 degree_of_malig <= 1 degree_of_malig > 1 -> class C10(2) [0.980] degree_of_malig <= 2

-> class C10(3) [0.971] Rule 5: (cover 25) Rule 6: (cover 17)

involved_nodes <= 0 involved_nodes > 0 degree_of_malig > 2 involved_nodes <= 1 -> class C10(4) [0.926] degree_of_malig > 1 degree_of_malig <= 2 -> class C10(5) [0.947] Rule 7: (cover 12) Rule 8: (cover 10)

involved_nodes > 0 age > 58

involved_nodes <= 1 involved_nodes > 1 degree_of_malig <= 1 degree_of_malig > 1 -> class C10(6) [0.929] degree_of_malig <= 2

-> class C10(7) [0.917] Rule 9: (cover 8) Rule 10: (cover 7)

tumor_size <= 0 involved_nodes > 1 -> class C10(8) [0.900] degree_of_malig <= 1

-> class C10(9) [0.889] Default class: C10(0)

Tabela 6.19: Breast-cancer: regras induzidas usando o atributo classe (P = 0) - 10 clusters

O conjunto de regras induzidas por See5 considerando P = 1 é mostrado na Tabela6.20. O número de regras induzidas diminuiu de 10 (P ≥ 0) para 7 (P = 1). Além do mais, apenas três atributos (tumor_size, involved_nodes, degree_of_malig) foram suficientes para representar o conjunto de regras para P = 1. Exceto para o último experimento (com 10 clusters), os experimentos incluindo o atributo classe descobriram os mesmos clusters que os experimentos realizados sem considerar o atributo classe.

Pode-se então concluir que para esse conjunto de dados, o atributo classe quando considerado como outro atributo qualquer, não tem uma fun¸cão importante para Auto- Class, que busca por uma classifica¸cão de probabilidade máxima a posteriori nos exemplos. Informa¸cões de como os exemplos foram agrupados, quais os atributos são considerados mais relevantes, tanto pelo algoritmo não supervisionado quanto pelo supervisionado uti-

Rule 1: (cover 65) Rule 2: (cover 60) tumor_size > 0 involved_nodes > 0 involved_nodes <= 0 degree_of_malig > 2 degree_of_malig > 1 -> class C10(1) [0.984] degree_of_malig <= 2 -> class C10(0) [0.985]

Rule 3: (cover 49) Rule 4: (cover 29)

tumor_size > 0 involved_nodes > 0 involved_nodes <= 0 degree_of_malig > 1 degree_of_malig <= 1 degree_of_malig <= 2 -> class C10(2) [0.980] -> class C10(3) [0.968] Rule 5: (cover 25) Rule 6: (cover 8)

involved_nodes <= 0 tumor_size <= 0 degree_of_malig > 2 -> class C10(8) [0.900] -> class C10(4) [0.926]

Rule 7: (cover 7) Default class: C10(0) involved_nodes > 0

degree_of_malig <= 1 -> class C10(9) [0.889]

Tabela 6.20: Breast-cancer: regras induzidas usando o atributo classe (P = 1) - 10 clusters

lizado, auxiliam o especialista a ter uma compreensão melhor dos dados, realizar uma análise minuciosa dos resultados obtidos com as diversas informa¸cões a ser utilizada na tomada de decisões, ou mesmo ajustar o(s) algoritmo(s) ao conjunto de dados. Por exemplo, nesse conjunto de dados, após o agrupamento realizado por AutoClass, See5 induziu um conjunto de regras utilizando apenas quatro (dos nove) atributos, os quais o especialista pode usar para “explicar” os clusters encontrados.

No documento Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado. Claudia Aparecida Martins (páginas 131-136)