• Nenhum resultado encontrado

5.3 Redu¸ c˜ ao de Atributos

6.1.2 Ranker

6.1.2.1 Ganho de Informa¸c˜ ao

Para o caso do uso da t´ecnica de ganho de informa¸c˜ao, onde foram selecionados os cinquenta atributos mais relevantes, foram obtidos os resultados de taxas de acerto para as classifica¸c˜oes na figura 24. Observa-se uma queda consider´avel em todas as taxas de acerto, onde j´a pode ser evidenciado uma das limita¸c˜oes desta t´ecnica que ´e apenas considerar a contribui¸c˜ao individual de um atributo para a classifica¸c˜ao, deixando de levar em conta as rela¸c˜oes inter-atributos, isto ´e, os que forem selecionados por esta t´ecnica podem at´e serem relevantes no contexto geral, por´em muitos deles possuem alto grau de redundˆancia entre si. Percebe-se que apenas o caso de mamas fibroglandulares com a transformada Haar obtiveram taxas razo´aveis.

Estatisticamente, esta abordagem descreve-se conforme tabela 13. Onde pode ser observado que para todas os testes houve a rejei¸c˜ao da Hip´otese nula (H0), de forma

que para os tipos de mamas densas, e mamas adiposa, houve uma superioridade da transformada de Wavelets morfol´ogica e para os outros tipos de mama, a situa¸c˜ao foi inversa.

Figura 24 – Gr´afico de barras das m´edias das taxas percentuais de acerto para

as classifica¸c˜oes com redu¸c˜ao de atributos pela t´ecnica de Ganho de

Informa¸c˜ao com 50 atributos, considerando ambos os casos de pr´e-

processamento

Com rela¸c˜ao `a quantidade de atributos, foram selecionados os cinquenta mais relevantes segundo esta t´ecnica, o que representa 22,32% do total sem redu¸c˜oes. Para o caso seguinte foram selecionados sessenta, o que representa um percentual de 26,79%, na figura 25 est˜ao expressos os valores m´edios de taxas de acerto. Pode ser observada uma ´obvia ascens˜ao de todas as taxas de acerto m´edias em compara¸c˜ao com a abordagem anterior, por´em de uma maneira geral, esta n˜ao aparenta ser ainda uma boa abordagem. Na tabela 14 s˜ao observadas as an´alises estat´ısticas para este caso e de forma muito semelhante as mesmas observa¸c˜oes do caso anterior podem ser feitas.

Em seguida, selecionando-se os 70 atributos (equivalente a 31,25% do total) mais relevantes a partir do uso do Ganho de Informa¸c˜ao como m´etrica, temos o exposto na figura 26. ´E observada a mesma tendˆencia de crescimento geral das taxas de acerto, por´em no caso de mamas fibroglandulares na abordagem de Haar ´e evidenciado uma redu¸c˜ao da taxa m´edia de acerto em compara¸c˜ao `a anterior. Isso demonstra que uma quantidade grande de atributos, al´em de ser ineficiente computacionalmente por requerer um sistema

Tabela 13 – M´edia (

µ

) e desvio padr˜ao (

σ

) do percentual de taxa de acerto para

classifica¸c˜ao das instˆancias com o vetor de atributos reduzido pela

t´ecnica de Ganho de Informa¸c˜ao com 50 atributos para as duas abor-

dagens de pr´e-processamento, seguido do p-value para indica¸c˜ao, ou

n˜ao, da rejei¸c˜ao da hip´otese nula (

H0

) pelo teste de Wilcoxon a um

n´ıvel de significˆancia de 5%

Wavelet Haar

Wavelet Morf.

Tipo de mama

µ

(%)

σ

(%)

µ

(%)

σ

(%)

p-value

Rejei¸c˜ao de

H0

Ext. Densa

85,87

±

0,43

83,74

±

0,54

1

,

23

×

10

−9

Sim

Densa

84,64

±

0,57

85,35

±

0,46

1

,

06

×

10

−5

Sim

Fibroglandular

90,00

±

0,41

84,35

±

0,40

2

,

73

×

10

−11

Sim

Adiposa

82,10

±

0,64

83,54

±

0,35

9

,

09

×

10

−11

Sim

Tabela 14 – M´edia (

µ

) e desvio padr˜ao (

σ

) do percentual de taxa de acerto para

classifica¸c˜ao das instˆancias com o vetor de atributos reduzido pela

t´ecnica de Ganho de Informa¸c˜ao com 60 atributos para as duas abor-

dagens de pr´e-processamento, seguido do p-value para indica¸c˜ao, ou

n˜ao, da rejei¸c˜ao da hip´otese nula (

H0

) pelo teste de Wilcoxon a um

n´ıvel de significˆancia de 5%

Wavelet Haar

Wavelet Morf.

Tipo de mama

µ

(%)

σ

(%)

µ

(%)

σ

(%)

p-value

Rejei¸c˜ao de

H0

Ext. Densa

87,29

±

0,49

85,08

±

0,45

3

,

01

×

10

−11

Sim

Densa

85,16

±

0,42

88,16

±

0,35

2

,

65

×

10

−11

Sim

Fibroglandular

91,85

±

0,35

87,10

±

0,49

2

,

75

×

10

−11

Sim

Adiposa

84,70

±

0,41

87,44

±

0,47

2

,

78

×

10

−11

Sim

de classifica¸c˜ao maior, pode piorar tamb´em o desempenho do sistema, induzindo por exemplo efeitos de

over-fitting

ou podem trazer informa¸c˜ao n˜ao relevante para o contexto que acaba reduzindo a capacidade de extrapola¸c˜ao para instˆancias que n˜ao pertenceram ao conjunto de treinamento, sendo esses alguns dos problemas a serem combatidos com a sele¸c˜ao de atributos.

Na tabela 15 s˜ao analisados estatisticamente esses dados, de maneira que para os tipos de mama extremamente densas, as duas abordagens de Wavelets foram equivalentes, para as mamas densas e adiposas, a transformada morfol´ogica se saiu melhor e o oposto ocorreu para as fibroglandulares.

Figura 25 – Gr´afico de barras das m´edias das taxas percentuais de acerto para

as classifica¸c˜oes com redu¸c˜ao de atributos pela t´ecnica de Ganho de

Informa¸c˜ao com 60 atributos, considerando ambos os casos de pr´e-

processamento

Quando selecionados 80 atributos (35,7%) s˜ao obtidas as taxas presentes na figura 27. Novamente, um acr´escimo geral nas taxas de acerto, por´em esta t´ecnica n˜ao demonstra ser robusta o suficiente.

Na tabela 16 analisa-se os dados das taxas de acerto estatisticamente, com um comportamento muito similar ao anterior.

Por ´ultimo, para esta t´ecnica, s˜ao analisados os resultados com a sele¸c˜ao de noventa atributos. O que reflete num percentual de 40,18% do total de atributos. Como esperado, a maioria das taxas de acerto m´edias cresceu, apenas o caso de mamas densas com a Transformada Haar obteve o oposto desta tendˆencia. Esses resultados j´a come¸cam a se mostrar um pouco mais satisfat´orios, cabendo uma an´alise comparativa mais geral entre as diferentes t´ecnicas.

Na tabela 17 s˜ao expostos os dados estat´ısticos a respeito dessas taxas de acerto, onde s˜ao notados que para o caso de mamas fibroglandulares n˜ao houve distin¸c˜ao de

Figura 26 – Gr´afico de barras das m´edias das taxas percentuais de acerto para

as classifica¸c˜oes com redu¸c˜ao de atributos pela t´ecnica de Ganho de

Informa¸c˜ao com 70 atributos, considerando ambos os casos de pr´e-

processamento

t´ecnica, ao passo que para mamas densas e adiposas, a abordagem morfol´ogica foi superior, sendo inferior no caso de mamas extremamente densas.

6.1.2.2

An´alise de Componentes Principais

Com rela¸c˜ao `a t´ecnica de An´alise de Componentes Principais, s˜ao efetuadas as mesmas an´alises e observa¸c˜oes para cinquenta, sessenta, setenta, oitenta e noventa atributos selecionados, por´em com uma diferen¸ca a ser considerada. Esta t´ecnica, por efetuar uma combina¸c˜ao linear dos atributos originais, pode resultar em um novo conjunto de atributos que seja numericamente inferior ao original (isto por si s´o j´a poderia ser um efeito explorado na redu¸c˜ao de atributos) e em algumas vezes, o que pode ocorrer ´e que o conjunto de componentes principais (o novo vetor de atributos) tenha um tamanho inferior ao requisitado e, com isso, quando for realizada uma sele¸c˜ao de atributos, se a quantidade existente for inferior ao desejado, ser´a utilizada esta quantidade m´axima.

Tabela 15 – M´edia (

µ

) e desvio padr˜ao (

σ

) do percentual de taxa de acerto para

classifica¸c˜ao das instˆancias com o vetor de atributos reduzido pela

t´ecnica de Ganho de Informa¸c˜ao com 70 atributos para as duas abor-

dagens de pr´e-processamento, seguido do p-value para indica¸c˜ao, ou

n˜ao, da rejei¸c˜ao da hip´otese nula (

H0

) pelo teste de Wilcoxon a um

n´ıvel de significˆancia de 5%

Wavelet Haar

Wavelet Morf.

Tipo de mama

µ

(%)

σ

(%)

µ

(%)

σ

(%)

p-value

Rejei¸c˜ao de

H0

Ext. Densa

87,92

±

0,65

87,85

±

0,41

0,3165

N˜ao

Densa

85,49

±

0,44

88,82

±

0,43

2

,

69

×

10

−11

Sim

Fibroglandular

91,38

±

0,38

90,33

±

0,33

9

,

44

×

10

−11

Sim

Adiposa

84,76

±

0,59

88,34

±

0,57

2

,

79

×

10

−11

Sim

Tabela 16 – M´edia (

µ

) e desvio padr˜ao (

σ

) do percentual de taxa de acerto para

classifica¸c˜ao das instˆancias com o vetor de atributos reduzido pela

t´ecnica de Ganho de Informa¸c˜ao com 80 atributos para as duas abor-

dagens de pr´e-processamento, seguido do p-value para indica¸c˜ao, ou

n˜ao, da rejei¸c˜ao da hip´otese nula (

H0

) pelo teste de Wilcoxon a um

n´ıvel de significˆancia de 5%

Wavelet Haar

Wavelet Morf.

Tipo de mama

µ

(%)

σ

(%)

µ

(%)

σ

(%)

p-value

Rejei¸c˜ao de

H0

Ext. Densa

89,28

±

0,48

89,39

±

0,62

0,4353

N˜ao

Densa

86,76

±

0,58

90,73

±

0,39

2

,

81

×

10

−11

Sim

Fibroglandular

91,88

±

0,35

90,92

±

0,44

1

,

01

×

10

−9

Sim

Adiposa

86,86

±

0,67

88,99

±

0,58

1

,

50

×

10

−10

Sim

Iniciando para o caso de cinquenta componentes principais, temos as m´edias das taxas de acerto conforme a figura 29. Inicialmente j´a ´e poss´ıvel perceber a superioridade desta t´ecnica quando comparada, por exemplo, com a t´ecnica de Ganho de Informa¸c˜ao tamb´em com cinquenta atributos. Isto pode ser evidenciado pelo fato de esta t´ecnica fazer uso de uma an´alise n˜ao apenas individual, mas tamb´em das dependˆencias entre atributos.

Na tabela 18 s˜ao vistos os dados estat´ısticos para essas taxas de acerto. Para esta abordagem, ´e observada a superioridade da transformada de Wavelets morfol´ogica em quase todos os casos, salvo no caso de mamas fibroglandulares onde as t´ecnicas foram equivalentes.

Figura 27 – Gr´afico de barras das m´edias das taxas percentuais de acerto para

as classifica¸c˜oes com redu¸c˜ao de atributos pela t´ecnica de Ganho de

Informa¸c˜ao com 80 atributos, considerando ambos os casos de pr´e-

processamento

Tabela 17 – M´edia (

µ

) e desvio padr˜ao (

σ

) do percentual de taxa de acerto para

classifica¸c˜ao das instˆancias com o vetor de atributos reduzido pela

t´ecnica de Ganho de Informa¸c˜ao com 90 atributos para as duas abor-

dagens de pr´e-processamento, seguido do p-value para indica¸c˜ao, ou

n˜ao, da rejei¸c˜ao da hip´otese nula (

H0

) pelo teste de Wilcoxon a um

n´ıvel de significˆancia de 5%

Wavelet Haar

Wavelet Morf.

Tipo de mama

µ

(%)

σ

(%)

µ

(%)

σ

(%)

p-value

Rejei¸c˜ao de

H0

Ext. Densa

91,36

±

0,38

90,73

±

0,39

7

,

32

×

10

−7

Sim

Densa

86,10

±

0,71

91,23

±

0,48

2

,

82

×

10

−11

Sim

Fibroglandular

92,27

±

0,51

92,51

±

0,46

0,073

N˜ao

Adiposa

89,11

±

0,54

89,55

±

0,42

6

,

91

×

10

−4

Sim

Para sessenta atributos selecionados, ´e tido de acordo com a figura 30. Atrav´es desta imagem, pode-se perceber um aumento das taxas de acerto m´edias para as quatro abordagens com utiliza¸c˜ao de transformada morfol´ogica, ao passo que para a transformada Haar houve o aumento das taxas de acerto para dois tipos de mama, por´em com a redu¸c˜ao de outros dois.

Figura 28 – Gr´afico de barras das m´edias das taxas percentuais de acerto para

as classifica¸c˜oes com redu¸c˜ao de atributos pela t´ecnica de Ganho de

Informa¸c˜ao com 90 atributos, considerando ambos os casos de pr´e-

processamento

Na tabela 19 s˜ao vistos com mais detalhes os dados estat´ısticos para essas taxas de acerto. Nesta abordagem, ´e observada a superioridade da transformada de Wavelets morfol´ogica em todos os casos. E, novamente esta abordagem se mostra bastante superior `

a sua contrapartida com Ganho de Informa¸c˜ao.

Com a sele¸c˜ao de setenta atributos, s˜ao obtidas as taxas de acerto m´edias conforme figura 31, onde ´e observado um aumento geral das taxas de acerto, conforme ´e de se esperar.

Na tabela 20 s˜ao exibidos com mais detalhes os dados estat´ısticos referentes a essas taxas de acerto. Nesta abordagem, ´e observada, mais uma vez, a superioridade da transformada de Wavelets morfol´ogica em todos os casos. E, novamente esta abordagem se mostra bastante superior `a sua contrapartida com Ganho de Informa¸c˜ao. De uma maneira geral, a t´ecnica de redu¸c˜ao de atributos por an´alise de componentes principais apresenta a tendˆencia de despontar como uma forte candidata `a melhor t´ecnica para sele¸c˜ao de atributos estudadas neste trabalho.

Figura 29 – Gr´afico de barras das m´edias das taxas percentuais de acerto para

as classifica¸c˜oes com redu¸c˜ao de atributos pela t´ecnica de An´alise de

Componentes Principais com 50 atributos, considerando ambos os ca-

sos de pr´e-processamento

Em sequˆencia, selecionando-se oitenta atributos, s˜ao obtidas as taxas de acerto m´edias conforme figura 32, onde ´e observado um aumento geral m´edio das taxas de acerto um pouco mais singelo.

Atrav´es da tabela 21 podem ser observados com mais detalhes os dados estat´ısticos referentes a essas taxas m´edias de acerto, de forma que para mamas extremamente densas, ambas as abordagens de transformada s˜ao equivalentes, por´em nos tipos restantes de mama, a abordagem morfol´ogica se mostra superior.

´

E importante notar que para alguns dos tipos analisados nesta etapa a quantidade de componentes principais obtidas pela t´ecnica foi inferior a oitenta, como est´a demons- trado na tabela 22. Nos tipos de mama adiposas com uso de transformada morfol´ogica existem um total m´aximo de setenta atributos selecionados, bem como no caso de mamas fibroglandulares para o mesmo tipo de pr´e-processamento, h´a um total de setenta e nove componentes principais.

Tabela 18 – M´edia (

µ

) e desvio padr˜ao (

σ

) do percentual de taxa de acerto para

classifica¸c˜ao das instˆancias com o vetor de atributos reduzido pela

t´ecnica de An´alise de Componentes Principais com 50 atributos para

as duas abordagens de pr´e-processamento, seguido do p-value para

indica¸c˜ao, ou n˜ao, da rejei¸c˜ao da hip´otese nula (

H0

) pelo teste de

Wilcoxon a um n´ıvel de significˆancia de 5%

Wavelet Haar

Wavelet Morf.

Tipo de mama

µ

(%)

σ

(%)

µ

(%)

σ

(%)

p-value

Rejei¸c˜ao de

H0

Ext. Densa

87,31

±

0,56

89,25

±

0,52

4

,

46

×

10

−11

Sim

Densa

86,89

±

0,54

88,74

±

0,61

5

,

82

×

10

−11

Sim

Fibroglandular

91,48

±

0,52

91,56

±

0,55

0,4355

N˜ao

Adiposa

86,38

±

0,59

87,05

±

0,45

2

,

75

×

10

−5

Sim

Tabela 19 – M´edia (

µ

) e desvio padr˜ao (

σ

) do percentual de taxa de acerto para

classifica¸c˜ao das instˆancias com o vetor de atributos reduzido pela

t´ecnica de An´alise de Componentes Principais com 60 atributos para

as duas abordagens de pr´e-processamento, seguido do p-value para

indica¸c˜ao, ou n˜ao, da rejei¸c˜ao da hip´otese nula (

H0

) pelo teste de

Wilcoxon a um n´ıvel de significˆancia de 5%

Wavelet Haar

Wavelet Morf.

Tipo de mama

µ

(%)

σ

(%)

µ

(%)

σ

(%)

p-value

Rejei¸c˜ao de

H0

Ext. Densa

88,83

±

0,49

92,77

±

0,44

2

,

81

×

10

−11

Sim

Densa

86,40

±

0,59

92,23

±

0,47

2

,

80

×

10

−11

Sim

Fibroglandular

92,27

±

0,48

93,89

±

0,39

3

,

42

×

10

−11

Sim

Adiposa

86,05

±

0,51

89,67

±

0,58

2

,

87

×

10

−11

Sim

Por fim, para o caso de at´e noventa atributos selecionados pela t´ecnica de an´alise de componentes principais, tem-se as taxas de acerto m´edias conforme figura 33. Pode ser observado que ocorreram apenas modifica¸c˜oes singelas, onde apenas houve uma redu¸c˜ao um pouco mais aparente nas taxas de acerto para mamas densas com uso da transformada de Haar.

Atrav´es da tabela 23 podem ser observados com mais detalhes os dados estat´ısticos referentes a essas taxas m´edias de acerto, de forma que para mamas extremamente densas, a abordagem de Haar ´e mais eficiente, por´em nos tipos restantes de mama, a abordagem morfol´ogica se mostra superior.

Figura 30 – Gr´afico de barras das m´edias das taxas percentuais de acerto para

as classifica¸c˜oes com redu¸c˜ao de atributos pela t´ecnica de An´alise de

Componentes Principais com 60 atributos, considerando ambos os ca-

sos de pr´e-processamento

Para este caso, n˜ao houve abordagem que possu´ısse os noventa atributos, na verdade, todos os vetores de componentes principais utilizados para a classifica¸c˜ao estavam maximizados de acordo com a t´ecnica de sele¸c˜ao de atributos, cujos valores absolutos e percentuais podem ser observados na tabela 24.

Tabela 24 – Valores absolutos e percentuais da quantidade de atributos seleciona-

dos para classifica¸c˜ao das instˆancias pelo uso da t´ecnica de An´alise de

Componentes Principais com at´e 90 atributos para as duas abordagens

de pr´e-processamento

Wavelet Haar

Wavelet Morf.

Tipo de mama

Atributos

Percentual (%)

Atributos

Percentual (%)

Ext. Densa

83

37,05

89

39,73

Densa

86

38,39

87

38,84

Fibroglandular

84

37,50

79

35,27

Figura 31 – Gr´afico de barras das m´edias das taxas percentuais de acerto para

as classifica¸c˜oes com redu¸c˜ao de atributos pela t´ecnica de An´alise de

Componentes Principais com 70 atributos, considerando ambos os ca-

sos de pr´e-processamento

Documentos relacionados