5.2 Column Selection Method (CSM)
5.3.1 Atestando a Qualidade das Amostras
Para avaliar o mecanismo de amostragem desenvolvido e atestar a qualidade das amostras selecionadas, o Column Selection Method (CSM) foi comparado contra quatro mecanismos de amostragem conhecidos: Reservoir (Vitter, 1985), Knuth (Knuth, 1997), Two Pass (Till´e, 2006), e Approximate Random Sampling Algorithm (Till´e, 2006).
A Figura 5.4 exibe o resultado de todos os mecanismos de amostragem para trˆes diferentes tipos de conjuntos de dados: classes n˜ao uniformes com baixa varia¸c˜ao, classes n˜ao uniformes com alta varia¸c˜ao e classes uniformes com baixa varia¸c˜ao. O objetivo deste experimento ´e evidenciar a capacidade da CSM de selecionar instˆancias representativas com base na variabilidade dos dados.
Os histogramas de frequˆencia apresentados na Figura 5.4 correspondem ao percentual m´edio de instˆancias selecionadas em cada classe, ap´os 100 (cem) execu¸c˜oes sucessivas de cada algoritmo, exceto na CSM cujo processo ´e determin´ıstico. Neste caso, os dados
Figura 5.4: Histograma de frequˆencia x coeficiente de varia¸c˜ao (CV) para trˆes diferentes tipos de conjuntos de dados: (a) US counties, classes n˜ao uniformes com baixa varia¸c˜ao; (b) US counties-ad, classes n˜ao uniformes com alta varia¸c˜ao; e (c) Ad-10, classes uniformes com baixa varia¸c˜ao.
foram obtidos a partir de uma ´unica execu¸c˜ao. O n´umero total de amostras selecionadas foi fixado em 10% do total de instˆancias do conjunto de dados, em todas as situa¸c˜oes. O n´umero original de instˆancias em cada classe ´e mostrado junto ao r´otulo da classe no eixo horizontal, enquanto que a variabilidade em cada classe ´e apresentada como um gr´afico de caixas horizontais na parte inferior de cada subfigura. A variabilidade foi calculada com base no coeficiente de varia¸c˜ao, indicado por CV (ver Defini¸c˜ao 2.4).
A fim de construir cada caixa horizontal da Figura 5.4 (parte inferior), o c´alculo do CV em cada classe foi realizado por atributo. Vale destacar que a abordagem proposta ´e a ´unica capaz de recuperar instˆancias de acordo com a variabilidade dos dados, ou seja,
5.3 Resultados Experimentais e Compara¸c˜oes 101 quanto maior a variabilidade em uma classe, mais amostras a CSM tende a selecionar naquela classe, em contraste aos mecanismos de amostragem comparados, os quais dis- tribuem as amostras proporcionalmente entre as classes. Esta caracter´ıstica transforma a CSM em um mecanismo de amostragem apto a manipular conjuntos de dados contendo classes com poucos elementos, dados com alta variabilidade e at´e mesmo discrepˆancias nos dados (outliers).
Para confirmar a efetividade da CSM como ferramenta de amostragem, considere o experimento mostrado na Figura 5.5. Para realizar este experimento foram escolhidos trˆes conjuntos de dados dentre os listados na Tabela 5.1: Shuttle, US counties e Ad-100. Eles foram escolhidos por serem desbalanceados quanto `a distribui¸c˜ao de instˆancias por classe. A Tabela 5.2 apresenta os detalhes de cada um deles.
Figura 5.5: Detec¸c˜ao de classes pelas t´ecnicas de amostragem. O eixo y representa o percentual de vezes que cada t´ecnica conseguiu recuperar ao menos uma instˆancia em cada classe, ap´os 1.000 tentativas.
Tabela 5.2: Distribui¸c˜ao de instˆancias por classe para os conjuntos de dados utilizados no experimento de detec¸c˜ao de classes mostrado na Figura 5.5.
Conjunto Classes ✴
de Dados Instˆancias por Classe
Shuttle BpvClose [6], BpvOpen [11], Bypass [2.458], FpvClose [37], FpvOpen [132], High [6.748], RadFlow [34.108]
US counties Class1 [647], Class2 [1.157], Class3 [1.224]
Ad-100 Class1 [8.231], Class2 [2], Class3 [15.640], Class4 [4], Class5 [70], Class6 [61.280], Class7 [300], Class8 [7.049], Class9 [2.700], Class10 [4.724]
O experimento da Figura 5.5 mostra a dificuldade que as t´ecnicas de amostragem aleat´oria apresentam ao tentar discriminar instˆancias em classes com poucos elementos.
Os valores que aparecem no eixo horizontal da figura, junto ao nome do conjunto de da- dos, correspondem ao n´umero m´ınimo de amostras necess´arias para a CSM selecionar ao menos uma instˆancia representativa em cada classe. Usando esses valores como parˆametro de entrada para os outros quatro m´etodos, isto ´e, como o n´umero de amostras a ser recu- perada em cada um deles, computamos o percentual m´edio de vezes que cada mecanismo de amostragem conseguiu selecionar ao menos uma instˆancia por classe, mas, desta vez em 1.000 (mil) execu¸c˜oes sucessivas, visando aumentar as possibilidades de sucesso.
Considere, por exemplo, o conjunto de dados Shuttle (Figura 5.5 – barras verticais `a esquerda). Pela Tabela 5.2 ´e f´acil ver que este conjunto de dados ´e altamente desbalan- ceado, com classes que v˜ao de 6 a 34.108 instˆancias. Note que os m´etodos de amostragem comparados: Approximate, Knuth, Reservoir e Two Pass obtiveram ˆexito na tarefa em menos de 1% das vezes, mesmo em mil tentativas. Mais precisamente, acertaram apenas 2, 6, 2 e 7 vezes em mil, respectivamente.
O conjunto de dados US counties (Figura 5.5 – barras verticais centrais) possui trˆes classes melhor balanceadas. Neste conjunto, a CSM conseguiu amostrar todas as classes usando apenas quatro instˆancias como entrada. No entanto, usando quatro instˆancias como entrada para os demais algoritmos, eles obtiveram ˆexito em menos de 50% das vezes. J´a o conjunto de dados Ad-100 (barras verticais `a direita) tamb´em ´e desbalanceado. Al´em disso, possui classes com alta variabilidade, fazendo com que a CSM selecione muitas instˆancias, 33.295, para conseguir amostrar todas as classes. Note que, mesmo usando um n´umero muito grande de instˆancias como entrada, os m´etodos comparados, novamente, obtiveram ˆexito em menos de 50% das tentativas. Experimentos como este garantem ao Column Selection Method (CSM) uma grande vantagem em rela¸c˜ao aos demais m´etodos, j´a que consegue selecionar instˆancias representativas em todas as classes do conjunto de dados com efic´acia, de forma determin´ıstica.
O experimento da Figura 5.6 utiliza os conjuntos de dados Shuttle e Ad-100, que s˜ao altamente desbalanceados (ver Tabela 5.2), para mostrar a frequˆencia de instˆancias recuperadas em cada classe quando os algoritmos de amostragem s˜ao aplicados. O n´umero total de instˆancias recuperadas em cada m´etodo foi estabelecido de acordo com o n´umero m´ınimo de instˆancias necess´arias para a CSM encontrar ao menos um representante em cada classe, ou seja, 605 para o conjunto de dados Shuttle e 33.295 para o conjunto de dados Ad-100, similar ao experimento anterior. Neste gr´afico, os valores que figuram no eixo x correspondem ao nome da classe e total de instˆancias que cont´em. O eixo y exibe a frequˆencia de instˆancias selecionadas em cada classe, em porcentagem. No caso da CSM, apenas uma execu¸c˜ao foi realizada. Nas t´ecnicas com comportamento aleat´orio foi admitida a “melhor” resposta em cem execu¸c˜oes sucessivas, tal que a melhor resposta ´e aquela em que mais classes s˜ao amostradas.
O conjunto de dados Shuttle (Figura 5.6(a)) tem maior variabilidade nas classes Bpv- Close, BpvOpen e Bypass, onde a CSM recuperou grande parte das instˆancias representa-
5.3 Resultados Experimentais e Compara¸c˜oes 103
Figura 5.6: Detec¸c˜ao de classes em conjuntos de dados altamente desbalanceados contendo outliers.
tivas. Particularmente nas duas primeiras, onde o n´umero de representantes ´e pequeno, 6 e 11 respectivamente, as t´ecnicas comparadas falharam em quase todas as tentativas.
O conjunto de dados sint´etico Ad-100 foi constru´ıdo de modo a garantir classes com grande variabilidade de dados. Al´em disso, outliers (ver Defini¸c˜ao 2.3) foram adicionados nas cinco primeiras classes deste conjunto de dados, isto ´e, nas classes rotuladas como Class1, Class2, ..., Class5. Embora detec¸c˜ao de outliers n˜ao seja o foco principal da CSM, note que nestas classes, cuja variabilidade ´e ainda maior devido `a presen¸ca dos outliers, o mecanismo de amostragem proposto tenta recuperar tantas instˆancias quanto poss´ıvel (Figura 5.6(b)). J´a nas t´ecnicas comparadas n˜ao existe garantia alguma de que os outliers foram selecionados.
Por fim, observando a Figura 5.6, ´e f´acil ver que nenhuma das t´ecnicas comparadas com a CSM conseguiu amostrar todas as classes em 100 (cem) tentativas, falhando em pelo menos uma classe para ambos os conjuntos de dados, evidenciando mais uma vez a importˆancia de uma t´ecnica de amostragem baseada na variabilidade dos dados em oposi¸c˜ao `as baseadas em distribui¸c˜ao aleat´oria.