5.3 A Implementa¸c˜ ao de PreTexT
6.1.3 Resultados Obtidos Usando o Atributo Classe Original
Os mesmos experimentos descritos na Se¸c˜ao 6.1.1 na p´agina 98 foram realizados, fixando o n´umero de clusters em 2, 3, 5, 7 e, tamb´em, deixando AutoClass determinar o n´umero de clusters automaticamente. Neste ´ultimo caso, AutoClass novamente encontrou 10 clusters.
Os resultados obtidos com o n´umero de clusters fixado em 2, 3 e 5 clusters foram idˆenticos aos anteriores. Em outras palavras, o atributo classe nesse conjunto de dados n˜ao ´e considerado relevante por AutoClass para agrupar os exemplos. No experimento com 7 clusters, apenas o erro aparente — ErrA — diminuiu de 0, 4% ± 0, 4% para 0, 3% ± 0, 3%. Para o experimento que AutoClass determina o n´umero de clusters, os resultados s˜ao similares, e s˜ao mostrados na Tabela 6.16.
Rule 1: (cover 60) Rule 2: (cover 49) involved_nodes > 0 tumor_size > 0 degree_of_malig > 2 involved_nodes <= 0 -> class C10(0) [0.984] degree_of_malig <= 1
-> class C10(1) [0.980] Rule 3: (cover 43) Rule 4: (cover 37)
involved_nodes > 1 age_at_meno = premenopaus degree_of_malig > 1 tumor_size > 0
degree_of_malig <= 2 involved_nodes <= 0 -> class C10(2) [0.978] degree_of_malig > 1 degree_of_malig <= 2 -> class C10(3) [0.974] Rule 5: (cover 28) Rule 6: (cover 1)
age_at_meno = leq40 age_at_meno = gt40 involved_nodes <= 0 involved_nodes <= 0 degree_of_malig > 1 degree_of_malig > 1 degree_of_malig <= 2 -> class C10(4) [0.667] -> class C10(4) [0.933]
Rule 7: (cover 25) Rule 8: (cover 17)
involved_nodes <= 0 involved_nodes > 0 degree_of_malig > 2 involved_nodes <= 1 -> class C10(5) [0.926] degree_of_malig > 1 degree_of_malig <= 2 -> class C10(6) [0.947] Rule 9: (cover 12) Rule 10: (cover 8)
involved_nodes > 0 tumor_size <= 0 involved_nodes <= 1 -> class C10(8) [0.900] degree_of_malig <= 1
-> class C10(7) [0.929]
Rule 11: (cover 7) Default class: C10(0) involved_nodes > 1
degree_of_malig <= 1 -> class C10(9) [0.889]
Tabela 6.14: Breast-cancer: regras induzidas (P = 0) - 10 clusters
Quando os resultados na Tabela6.16s˜ao comparados com os resultados na Tabela6.11na p´agina 105, pode ser observado que o erro verdadeiro e o n´umero de regras induzidas diminuiu para o experimento com o atributo classe. De um n´umero total de 285 exemp- los, apenas 43 (15%) exemplos (285 - 242) — Tabela 6.16 — pertencem ao cluster com probabilidade menor que 1. Deve ser observado que, quando o atributo classe n˜ao foi usado, Tabela 6.11, o n´umero de exemplos que pertencem ao mesmo cluster com prob- abilidade menor do que 1 ´e 86 (285 - 199). Portanto, nesse caso, existem 50% mais exemplos que pertencem a mais de um cluster. Na Tabela6.17 s˜ao mostrados os clusters sobrepostos e na Figura 6.3 s˜ao ilustrados graficamente os clusters encontrados.
Na Tabela 6.18 s˜ao mostrados os atributos usados por See5 para P ≥ 0 e P = 1 usados para descrever os 10 clusters.
Se¸c˜ao 6.1: O Conjunto de Dados Breast-Cancer 109
Rule 1: (cover 60) Rule 2: (cover 49) involved_nodes > 0 tumor_size > 0 degree_of_malig > 2 involved_nodes <= 0 -> class C10(0) [0.984] degree_of_malig <= 1
-> class C10(1) [0.980] Rule 3: (cover 43) Rule 4: (cover 8)
involved_nodes > 0 tumor_size > 0 degree_of_malig > 1 involved_nodes <= 0 degree_of_malig <= 2 degree_of_malig > 1 -> class C10(2) [0.978] degree_of_malig <= 2
-> class C10(3) [0.900] Rule 5: (cover 24) Rule 6: (cover 8)
tumor_size > 0 tumor_size <= 0 involved_nodes <= 0 -> class C10(8) [0.900] degree_of_malig > 2
-> class C10(5) [0.962]
Rule 7: (cover 7) Default class: C10(0) involved_nodes > 0
degree_of_malig <= 1 -> class C10(9) [0.889]
Tabela 6.15: Breast-cancer: regras induzidas (P = 1) - 10 clusters
Tabela 6.16: Breast-cancer: resultados usando o atributo classe - 10 clusters
Cluster P # Ex Rec nRec # ExCl % ExCl ErrCM % ErrA % Err10cv % # R # MR
C10(0) 9 56 65 22,8 C10(1) 40 20 60 21,1 C10(2) 4 45 49 17,1 C10(3) 13 20 33 11,6 C10(4) 0 285 5 19 24 8,4 77, 2 0, 4 0, 4 ± 0, 4 10 10, 0 ± 0, 0 C10(5) 0 17 17 6,0 C10(6) 7 5 12 4,2 C10(7) 4 6 10 3,5 C10(8) 1 7 8 2,8 C10(9) 1 6 7 2,5 C10(0) 9 56 65 26,9 C10(1) 39 21 60 24,8 C10(2) 4 45 49 20,3 C10(3) 13 16 29 12,0 C10(4) 1 242 5 19 24 9,9 73, 3 0, 4 0, 4 ± 0, 4 7 7, 0 ± 0, 0 C10(5) 0 0 0 0,0 C10(6) 0 0 0 0,0 C10(7) 0 0 0 0,0 C10(8) 1 7 8 3,3 C10(9) 1 6 7 2,9
O conjunto de regras induzido por See5 considerando P ≥ 0 ´e mostrado na Tabela6.19.
Pode ser observado que quatro atributos (age, tumor_size, involved_nodes, degree_of_malig) foram suficientes para representar o conjunto de regras. O n´umero de exemplos cobertos
Tabela 6.17: Breast-cancer: clusters sobrepostos usando o atributo classe - 10 clusters
Clusters Sobrepostos # Ex Comuns C10(3, 5) 7
C10(3, 7) 9
C10(5, 7) 2
C10(6, 9) 5
Figura 6.3: Breast-cancer: clusters sobrepostos usando o atributo classe - 10 clusters
Tabela 6.18: Breast-cancer: atributos no conjunto de regras usando o atributo classe - 10 clusters
Atributos
age age at tumor involved node degree of breast breast irradiation meno size nodes capsule malig quadrant
• • • C10(0) ◦ ◦ ◦ • • C10(1) ◦ ◦ • • • C10(2) ◦ ◦ ◦ • • • C10(3) ◦ ◦ • • C10(4) ◦ ◦ • • C10(5) • • C10(6) • • • C10(7) • C10(8) ◦ • • C10(9) ◦ ◦
Se¸c˜ao 6.1: O Conjunto de Dados Breast-Cancer 111
por esse conjunto de regras ´e 286. Isso significa que apenas um exemplo (286 − 285) ´e coberto por mais de um regra, o que representa 0,35% dos exemplos nesse conjunto de dados.
Rule 1: (cover 65) Rule 2: (cover 60) tumor_size > 0 involved_nodes > 0 involved_nodes <= 0 degree_of_malig > 2 degree_of_malig > 1 -> class C10(1) [0.984] degree_of_malig <= 2
-> class C10(0) [0.985]
Rule 3: (cover 49) Rule 4: (cover 33) tumor_size > 0 age <= 58
involved_nodes <= 0 involved_nodes > 1 degree_of_malig <= 1 degree_of_malig > 1 -> class C10(2) [0.980] degree_of_malig <= 2
-> class C10(3) [0.971] Rule 5: (cover 25) Rule 6: (cover 17)
involved_nodes <= 0 involved_nodes > 0 degree_of_malig > 2 involved_nodes <= 1 -> class C10(4) [0.926] degree_of_malig > 1 degree_of_malig <= 2 -> class C10(5) [0.947] Rule 7: (cover 12) Rule 8: (cover 10)
involved_nodes > 0 age > 58
involved_nodes <= 1 involved_nodes > 1 degree_of_malig <= 1 degree_of_malig > 1 -> class C10(6) [0.929] degree_of_malig <= 2
-> class C10(7) [0.917] Rule 9: (cover 8) Rule 10: (cover 7)
tumor_size <= 0 involved_nodes > 1 -> class C10(8) [0.900] degree_of_malig <= 1
-> class C10(9) [0.889] Default class: C10(0)
Tabela 6.19: Breast-cancer: regras induzidas usando o atributo classe (P = 0) - 10 clusters
O conjunto de regras induzidas por See5 considerando P = 1 ´e mostrado na Tabela6.20. O n´umero de regras induzidas diminuiu de 10 (P ≥ 0) para 7 (P = 1). Al´em do mais, ape- nas trˆes atributos (tumor_size, involved_nodes, degree_of_malig) foram suficientes para representar o conjunto de regras para P = 1. Exceto para o ´ultimo experimento (com 10 clusters), os experimentos incluindo o atributo classe descobriram os mesmos clusters que os experimentos realizados sem considerar o atributo classe.
Pode-se ent˜ao concluir que para esse conjunto de dados, o atributo classe quando considerado como outro atributo qualquer, n˜ao tem uma fun¸c˜ao importante para Auto- Class, que busca por uma classifica¸c˜ao de probabilidade m´axima a posteriori nos exemplos. Informa¸c˜oes de como os exemplos foram agrupados, quais os atributos s˜ao considerados mais relevantes, tanto pelo algoritmo n˜ao supervisionado quanto pelo supervisionado uti-
Rule 1: (cover 65) Rule 2: (cover 60) tumor_size > 0 involved_nodes > 0 involved_nodes <= 0 degree_of_malig > 2 degree_of_malig > 1 -> class C10(1) [0.984] degree_of_malig <= 2 -> class C10(0) [0.985]
Rule 3: (cover 49) Rule 4: (cover 29)
tumor_size > 0 involved_nodes > 0 involved_nodes <= 0 degree_of_malig > 1 degree_of_malig <= 1 degree_of_malig <= 2 -> class C10(2) [0.980] -> class C10(3) [0.968] Rule 5: (cover 25) Rule 6: (cover 8)
involved_nodes <= 0 tumor_size <= 0 degree_of_malig > 2 -> class C10(8) [0.900] -> class C10(4) [0.926]
Rule 7: (cover 7) Default class: C10(0) involved_nodes > 0
degree_of_malig <= 1 -> class C10(9) [0.889]
Tabela 6.20: Breast-cancer: regras induzidas usando o atributo classe (P = 1) - 10 clusters
lizado, auxiliam o especialista a ter uma compreens˜ao melhor dos dados, realizar uma an´alise minuciosa dos resultados obtidos com as diversas informa¸c˜oes a ser utilizada na tomada de decis˜oes, ou mesmo ajustar o(s) algoritmo(s) ao conjunto de dados. Por exem- plo, nesse conjunto de dados, ap´os o agrupamento realizado por AutoClass, See5 induziu um conjunto de regras utilizando apenas quatro (dos nove) atributos, os quais o especial- ista pode usar para “explicar” os clusters encontrados.