5.3 Redu¸ c˜ ao de Atributos
6.1.2 Ranker
6.1.2.1 Ganho de Informa¸c˜ ao
Para o caso do uso da t´ecnica de ganho de informa¸c˜ao, onde foram selecionados os cinquenta atributos mais relevantes, foram obtidos os resultados de taxas de acerto para as classifica¸c˜oes na figura 24. Observa-se uma queda consider´avel em todas as taxas de acerto, onde j´a pode ser evidenciado uma das limita¸c˜oes desta t´ecnica que ´e apenas considerar a contribui¸c˜ao individual de um atributo para a classifica¸c˜ao, deixando de levar em conta as rela¸c˜oes inter-atributos, isto ´e, os que forem selecionados por esta t´ecnica podem at´e serem relevantes no contexto geral, por´em muitos deles possuem alto grau de redundˆancia entre si. Percebe-se que apenas o caso de mamas fibroglandulares com a transformada Haar obtiveram taxas razo´aveis.
Estatisticamente, esta abordagem descreve-se conforme tabela 13. Onde pode ser observado que para todas os testes houve a rejei¸c˜ao da Hip´otese nula (H0), de forma
que para os tipos de mamas densas, e mamas adiposa, houve uma superioridade da transformada de Wavelets morfol´ogica e para os outros tipos de mama, a situa¸c˜ao foi inversa.
Figura 24 – Gr´afico de barras das m´edias das taxas percentuais de acerto para
as classifica¸c˜oes com redu¸c˜ao de atributos pela t´ecnica de Ganho de
Informa¸c˜ao com 50 atributos, considerando ambos os casos de pr´e-
processamento
Com rela¸c˜ao `a quantidade de atributos, foram selecionados os cinquenta mais relevantes segundo esta t´ecnica, o que representa 22,32% do total sem redu¸c˜oes. Para o caso seguinte foram selecionados sessenta, o que representa um percentual de 26,79%, na figura 25 est˜ao expressos os valores m´edios de taxas de acerto. Pode ser observada uma ´obvia ascens˜ao de todas as taxas de acerto m´edias em compara¸c˜ao com a abordagem anterior, por´em de uma maneira geral, esta n˜ao aparenta ser ainda uma boa abordagem. Na tabela 14 s˜ao observadas as an´alises estat´ısticas para este caso e de forma muito semelhante as mesmas observa¸c˜oes do caso anterior podem ser feitas.
Em seguida, selecionando-se os 70 atributos (equivalente a 31,25% do total) mais relevantes a partir do uso do Ganho de Informa¸c˜ao como m´etrica, temos o exposto na figura 26. ´E observada a mesma tendˆencia de crescimento geral das taxas de acerto, por´em no caso de mamas fibroglandulares na abordagem de Haar ´e evidenciado uma redu¸c˜ao da taxa m´edia de acerto em compara¸c˜ao `a anterior. Isso demonstra que uma quantidade grande de atributos, al´em de ser ineficiente computacionalmente por requerer um sistema
Tabela 13 – M´edia (
µ) e desvio padr˜ao (
σ) do percentual de taxa de acerto para
classifica¸c˜ao das instˆancias com o vetor de atributos reduzido pela
t´ecnica de Ganho de Informa¸c˜ao com 50 atributos para as duas abor-
dagens de pr´e-processamento, seguido do p-value para indica¸c˜ao, ou
n˜ao, da rejei¸c˜ao da hip´otese nula (
H0) pelo teste de Wilcoxon a um
n´ıvel de significˆancia de 5%
Wavelet Haar
Wavelet Morf.
Tipo de mama
µ(%)
σ(%)
µ(%)
σ(%)
p-value
Rejei¸c˜ao de
H0Ext. Densa
85,87
±0,43
83,74
±0,54
1
,23
×10
−9Sim
•Densa
84,64
±0,57
85,35
±0,46
1
,06
×10
−5Sim
•Fibroglandular
90,00
±0,41
84,35
±0,40
2
,73
×10
−11Sim
•Adiposa
82,10
±0,64
83,54
±0,35
9
,09
×10
−11Sim
•Tabela 14 – M´edia (
µ) e desvio padr˜ao (
σ) do percentual de taxa de acerto para
classifica¸c˜ao das instˆancias com o vetor de atributos reduzido pela
t´ecnica de Ganho de Informa¸c˜ao com 60 atributos para as duas abor-
dagens de pr´e-processamento, seguido do p-value para indica¸c˜ao, ou
n˜ao, da rejei¸c˜ao da hip´otese nula (
H0) pelo teste de Wilcoxon a um
n´ıvel de significˆancia de 5%
Wavelet Haar
Wavelet Morf.
Tipo de mama
µ(%)
σ(%)
µ(%)
σ(%)
p-value
Rejei¸c˜ao de
H0Ext. Densa
87,29
±0,49
85,08
±0,45
3
,01
×10
−11Sim
•Densa
85,16
±0,42
88,16
±0,35
2
,65
×10
−11Sim
•Fibroglandular
91,85
±0,35
87,10
±0,49
2
,75
×10
−11Sim
•Adiposa
84,70
±0,41
87,44
±0,47
2
,78
×10
−11Sim
•de classifica¸c˜ao maior, pode piorar tamb´em o desempenho do sistema, induzindo por exemplo efeitos de
over-fitting
ou podem trazer informa¸c˜ao n˜ao relevante para o contexto que acaba reduzindo a capacidade de extrapola¸c˜ao para instˆancias que n˜ao pertenceram ao conjunto de treinamento, sendo esses alguns dos problemas a serem combatidos com a sele¸c˜ao de atributos.Na tabela 15 s˜ao analisados estatisticamente esses dados, de maneira que para os tipos de mama extremamente densas, as duas abordagens de Wavelets foram equivalentes, para as mamas densas e adiposas, a transformada morfol´ogica se saiu melhor e o oposto ocorreu para as fibroglandulares.
Figura 25 – Gr´afico de barras das m´edias das taxas percentuais de acerto para
as classifica¸c˜oes com redu¸c˜ao de atributos pela t´ecnica de Ganho de
Informa¸c˜ao com 60 atributos, considerando ambos os casos de pr´e-
processamento
Quando selecionados 80 atributos (35,7%) s˜ao obtidas as taxas presentes na figura 27. Novamente, um acr´escimo geral nas taxas de acerto, por´em esta t´ecnica n˜ao demonstra ser robusta o suficiente.
Na tabela 16 analisa-se os dados das taxas de acerto estatisticamente, com um comportamento muito similar ao anterior.
Por ´ultimo, para esta t´ecnica, s˜ao analisados os resultados com a sele¸c˜ao de noventa atributos. O que reflete num percentual de 40,18% do total de atributos. Como esperado, a maioria das taxas de acerto m´edias cresceu, apenas o caso de mamas densas com a Transformada Haar obteve o oposto desta tendˆencia. Esses resultados j´a come¸cam a se mostrar um pouco mais satisfat´orios, cabendo uma an´alise comparativa mais geral entre as diferentes t´ecnicas.
Na tabela 17 s˜ao expostos os dados estat´ısticos a respeito dessas taxas de acerto, onde s˜ao notados que para o caso de mamas fibroglandulares n˜ao houve distin¸c˜ao de
Figura 26 – Gr´afico de barras das m´edias das taxas percentuais de acerto para
as classifica¸c˜oes com redu¸c˜ao de atributos pela t´ecnica de Ganho de
Informa¸c˜ao com 70 atributos, considerando ambos os casos de pr´e-
processamento
t´ecnica, ao passo que para mamas densas e adiposas, a abordagem morfol´ogica foi superior, sendo inferior no caso de mamas extremamente densas.
6.1.2.2
An´alise de Componentes Principais
Com rela¸c˜ao `a t´ecnica de An´alise de Componentes Principais, s˜ao efetuadas as mesmas an´alises e observa¸c˜oes para cinquenta, sessenta, setenta, oitenta e noventa atributos selecionados, por´em com uma diferen¸ca a ser considerada. Esta t´ecnica, por efetuar uma combina¸c˜ao linear dos atributos originais, pode resultar em um novo conjunto de atributos que seja numericamente inferior ao original (isto por si s´o j´a poderia ser um efeito explorado na redu¸c˜ao de atributos) e em algumas vezes, o que pode ocorrer ´e que o conjunto de componentes principais (o novo vetor de atributos) tenha um tamanho inferior ao requisitado e, com isso, quando for realizada uma sele¸c˜ao de atributos, se a quantidade existente for inferior ao desejado, ser´a utilizada esta quantidade m´axima.
Tabela 15 – M´edia (
µ) e desvio padr˜ao (
σ) do percentual de taxa de acerto para
classifica¸c˜ao das instˆancias com o vetor de atributos reduzido pela
t´ecnica de Ganho de Informa¸c˜ao com 70 atributos para as duas abor-
dagens de pr´e-processamento, seguido do p-value para indica¸c˜ao, ou
n˜ao, da rejei¸c˜ao da hip´otese nula (
H0) pelo teste de Wilcoxon a um
n´ıvel de significˆancia de 5%
Wavelet Haar
Wavelet Morf.
Tipo de mama
µ(%)
σ(%)
µ(%)
σ(%)
p-value
Rejei¸c˜ao de
H0Ext. Densa
87,92
±0,65
87,85
±0,41
0,3165
N˜ao
•Densa
85,49
±0,44
88,82
±0,43
2
,69
×10
−11Sim
•Fibroglandular
91,38
±0,38
90,33
±0,33
9
,44
×10
−11Sim
•Adiposa
84,76
±0,59
88,34
±0,57
2
,79
×10
−11Sim
•Tabela 16 – M´edia (
µ) e desvio padr˜ao (
σ) do percentual de taxa de acerto para
classifica¸c˜ao das instˆancias com o vetor de atributos reduzido pela
t´ecnica de Ganho de Informa¸c˜ao com 80 atributos para as duas abor-
dagens de pr´e-processamento, seguido do p-value para indica¸c˜ao, ou
n˜ao, da rejei¸c˜ao da hip´otese nula (
H0) pelo teste de Wilcoxon a um
n´ıvel de significˆancia de 5%
Wavelet Haar
Wavelet Morf.
Tipo de mama
µ(%)
σ(%)
µ(%)
σ(%)
p-value
Rejei¸c˜ao de
H0Ext. Densa
89,28
±0,48
89,39
±0,62
0,4353
N˜ao
•Densa
86,76
±0,58
90,73
±0,39
2
,81
×10
−11Sim
•Fibroglandular
91,88
±0,35
90,92
±0,44
1
,01
×10
−9Sim
•Adiposa
86,86
±0,67
88,99
±0,58
1
,50
×10
−10Sim
•Iniciando para o caso de cinquenta componentes principais, temos as m´edias das taxas de acerto conforme a figura 29. Inicialmente j´a ´e poss´ıvel perceber a superioridade desta t´ecnica quando comparada, por exemplo, com a t´ecnica de Ganho de Informa¸c˜ao tamb´em com cinquenta atributos. Isto pode ser evidenciado pelo fato de esta t´ecnica fazer uso de uma an´alise n˜ao apenas individual, mas tamb´em das dependˆencias entre atributos.
Na tabela 18 s˜ao vistos os dados estat´ısticos para essas taxas de acerto. Para esta abordagem, ´e observada a superioridade da transformada de Wavelets morfol´ogica em quase todos os casos, salvo no caso de mamas fibroglandulares onde as t´ecnicas foram equivalentes.
Figura 27 – Gr´afico de barras das m´edias das taxas percentuais de acerto para
as classifica¸c˜oes com redu¸c˜ao de atributos pela t´ecnica de Ganho de
Informa¸c˜ao com 80 atributos, considerando ambos os casos de pr´e-
processamento
Tabela 17 – M´edia (
µ) e desvio padr˜ao (
σ) do percentual de taxa de acerto para
classifica¸c˜ao das instˆancias com o vetor de atributos reduzido pela
t´ecnica de Ganho de Informa¸c˜ao com 90 atributos para as duas abor-
dagens de pr´e-processamento, seguido do p-value para indica¸c˜ao, ou
n˜ao, da rejei¸c˜ao da hip´otese nula (
H0) pelo teste de Wilcoxon a um
n´ıvel de significˆancia de 5%
Wavelet Haar
Wavelet Morf.
Tipo de mama
µ(%)
σ(%)
µ(%)
σ(%)
p-value
Rejei¸c˜ao de
H0Ext. Densa
91,36
±0,38
90,73
±0,39
7
,32
×10
−7Sim
•Densa
86,10
±0,71
91,23
±0,48
2
,82
×10
−11Sim
•Fibroglandular
92,27
±0,51
92,51
±0,46
0,073
N˜ao
•Adiposa
89,11
±0,54
89,55
±0,42
6
,91
×10
−4Sim
•Para sessenta atributos selecionados, ´e tido de acordo com a figura 30. Atrav´es desta imagem, pode-se perceber um aumento das taxas de acerto m´edias para as quatro abordagens com utiliza¸c˜ao de transformada morfol´ogica, ao passo que para a transformada Haar houve o aumento das taxas de acerto para dois tipos de mama, por´em com a redu¸c˜ao de outros dois.
Figura 28 – Gr´afico de barras das m´edias das taxas percentuais de acerto para
as classifica¸c˜oes com redu¸c˜ao de atributos pela t´ecnica de Ganho de
Informa¸c˜ao com 90 atributos, considerando ambos os casos de pr´e-
processamento
Na tabela 19 s˜ao vistos com mais detalhes os dados estat´ısticos para essas taxas de acerto. Nesta abordagem, ´e observada a superioridade da transformada de Wavelets morfol´ogica em todos os casos. E, novamente esta abordagem se mostra bastante superior `
a sua contrapartida com Ganho de Informa¸c˜ao.
Com a sele¸c˜ao de setenta atributos, s˜ao obtidas as taxas de acerto m´edias conforme figura 31, onde ´e observado um aumento geral das taxas de acerto, conforme ´e de se esperar.
Na tabela 20 s˜ao exibidos com mais detalhes os dados estat´ısticos referentes a essas taxas de acerto. Nesta abordagem, ´e observada, mais uma vez, a superioridade da transformada de Wavelets morfol´ogica em todos os casos. E, novamente esta abordagem se mostra bastante superior `a sua contrapartida com Ganho de Informa¸c˜ao. De uma maneira geral, a t´ecnica de redu¸c˜ao de atributos por an´alise de componentes principais apresenta a tendˆencia de despontar como uma forte candidata `a melhor t´ecnica para sele¸c˜ao de atributos estudadas neste trabalho.
Figura 29 – Gr´afico de barras das m´edias das taxas percentuais de acerto para
as classifica¸c˜oes com redu¸c˜ao de atributos pela t´ecnica de An´alise de
Componentes Principais com 50 atributos, considerando ambos os ca-
sos de pr´e-processamento
Em sequˆencia, selecionando-se oitenta atributos, s˜ao obtidas as taxas de acerto m´edias conforme figura 32, onde ´e observado um aumento geral m´edio das taxas de acerto um pouco mais singelo.
Atrav´es da tabela 21 podem ser observados com mais detalhes os dados estat´ısticos referentes a essas taxas m´edias de acerto, de forma que para mamas extremamente densas, ambas as abordagens de transformada s˜ao equivalentes, por´em nos tipos restantes de mama, a abordagem morfol´ogica se mostra superior.
´
E importante notar que para alguns dos tipos analisados nesta etapa a quantidade de componentes principais obtidas pela t´ecnica foi inferior a oitenta, como est´a demons- trado na tabela 22. Nos tipos de mama adiposas com uso de transformada morfol´ogica existem um total m´aximo de setenta atributos selecionados, bem como no caso de mamas fibroglandulares para o mesmo tipo de pr´e-processamento, h´a um total de setenta e nove componentes principais.
Tabela 18 – M´edia (
µ) e desvio padr˜ao (
σ) do percentual de taxa de acerto para
classifica¸c˜ao das instˆancias com o vetor de atributos reduzido pela
t´ecnica de An´alise de Componentes Principais com 50 atributos para
as duas abordagens de pr´e-processamento, seguido do p-value para
indica¸c˜ao, ou n˜ao, da rejei¸c˜ao da hip´otese nula (
H0) pelo teste de
Wilcoxon a um n´ıvel de significˆancia de 5%
Wavelet Haar
Wavelet Morf.
Tipo de mama
µ(%)
σ(%)
µ(%)
σ(%)
p-value
Rejei¸c˜ao de
H0Ext. Densa
87,31
±0,56
89,25
±0,52
4
,46
×10
−11Sim
•Densa
86,89
±0,54
88,74
±0,61
5
,82
×10
−11Sim
•Fibroglandular
91,48
±0,52
91,56
±0,55
0,4355
N˜ao
•Adiposa
86,38
±0,59
87,05
±0,45
2
,75
×10
−5Sim
•Tabela 19 – M´edia (
µ) e desvio padr˜ao (
σ) do percentual de taxa de acerto para
classifica¸c˜ao das instˆancias com o vetor de atributos reduzido pela
t´ecnica de An´alise de Componentes Principais com 60 atributos para
as duas abordagens de pr´e-processamento, seguido do p-value para
indica¸c˜ao, ou n˜ao, da rejei¸c˜ao da hip´otese nula (
H0) pelo teste de
Wilcoxon a um n´ıvel de significˆancia de 5%
Wavelet Haar
Wavelet Morf.
Tipo de mama
µ(%)
σ(%)
µ(%)
σ(%)
p-value
Rejei¸c˜ao de
H0Ext. Densa
88,83
±0,49
92,77
±0,44
2
,81
×10
−11Sim
•Densa
86,40
±0,59
92,23
±0,47
2
,80
×10
−11Sim
•Fibroglandular
92,27
±0,48
93,89
±0,39
3
,42
×10
−11Sim
•Adiposa
86,05
±0,51
89,67
±0,58
2
,87
×10
−11Sim
•Por fim, para o caso de at´e noventa atributos selecionados pela t´ecnica de an´alise de componentes principais, tem-se as taxas de acerto m´edias conforme figura 33. Pode ser observado que ocorreram apenas modifica¸c˜oes singelas, onde apenas houve uma redu¸c˜ao um pouco mais aparente nas taxas de acerto para mamas densas com uso da transformada de Haar.
Atrav´es da tabela 23 podem ser observados com mais detalhes os dados estat´ısticos referentes a essas taxas m´edias de acerto, de forma que para mamas extremamente densas, a abordagem de Haar ´e mais eficiente, por´em nos tipos restantes de mama, a abordagem morfol´ogica se mostra superior.
Figura 30 – Gr´afico de barras das m´edias das taxas percentuais de acerto para
as classifica¸c˜oes com redu¸c˜ao de atributos pela t´ecnica de An´alise de
Componentes Principais com 60 atributos, considerando ambos os ca-
sos de pr´e-processamento
Para este caso, n˜ao houve abordagem que possu´ısse os noventa atributos, na verdade, todos os vetores de componentes principais utilizados para a classifica¸c˜ao estavam maximizados de acordo com a t´ecnica de sele¸c˜ao de atributos, cujos valores absolutos e percentuais podem ser observados na tabela 24.