Atestando a Qualidade das Amostras - Column Selection Method (CSM)

5.2 Column Selection Method (CSM)

5.3.1 Atestando a Qualidade das Amostras

Para avaliar o mecanismo de amostragem desenvolvido e atestar a qualidade das amostras selecionadas, o Column Selection Method (CSM) foi comparado contra quatro mecanismos de amostragem conhecidos: Reservoir (Vitter, 1985), Knuth (Knuth, 1997), Two Pass (Till´e, 2006), e Approximate Random Sampling Algorithm (Till´e, 2006).

A Figura 5.4 exibe o resultado de todos os mecanismos de amostragem para três diferentes tipos de conjuntos de dados: classes não uniformes com baixa varia¸cão, classes não uniformes com alta varia¸cão e classes uniformes com baixa varia¸cão. O objetivo deste experimento é evidenciar a capacidade da CSM de selecionar instâncias representativas com base na variabilidade dos dados.

Os histogramas de frequência apresentados na Figura 5.4 correspondem ao percentual médio de instâncias selecionadas em cada classe, após 100 (cem) execu¸cões sucessivas de cada algoritmo, exceto na CSM cujo processo é determin´ıstico. Neste caso, os dados

Figura 5.4: Histograma de frequência x coeficiente de varia¸cão (CV) para três diferentes tipos de conjuntos de dados: (a) US counties, classes não uniformes com baixa varia¸cão; (b) US counties-ad, classes não uniformes com alta varia¸cão; e (c) Ad-10, classes uniformes com baixa varia¸cão.

foram obtidos a partir de uma única execu¸cão. O número total de amostras selecionadas foi fixado em 10% do total de instâncias do conjunto de dados, em todas as situa¸cões. O número original de instâncias em cada classe é mostrado junto ao rótulo da classe no eixo horizontal, enquanto que a variabilidade em cada classe é apresentada como um gráfico de caixas horizontais na parte inferior de cada subfigura. A variabilidade foi calculada com base no coeficiente de varia¸cão, indicado por CV (ver Defini¸cão 2.4).

A fim de construir cada caixa horizontal da Figura 5.4 (parte inferior), o cálculo do CV em cada classe foi realizado por atributo. Vale destacar que a abordagem proposta é a única capaz de recuperar instâncias de acordo com a variabilidade dos dados, ou seja,

5.3 Resultados Experimentais e Compara¸cões 101 quanto maior a variabilidade em uma classe, mais amostras a CSM tende a selecionar naquela classe, em contraste aos mecanismos de amostragem comparados, os quais dis- tribuem as amostras proporcionalmente entre as classes. Esta caracter´ıstica transforma a CSM em um mecanismo de amostragem apto a manipular conjuntos de dados contendo classes com poucos elementos, dados com alta variabilidade e até mesmo discrepâncias nos dados (outliers).

Para confirmar a efetividade da CSM como ferramenta de amostragem, considere o experimento mostrado na Figura 5.5. Para realizar este experimento foram escolhidos três conjuntos de dados dentre os listados na Tabela 5.1: Shuttle, US counties e Ad-100. Eles foram escolhidos por serem desbalanceados quanto à distribui¸cão de instâncias por classe. A Tabela 5.2 apresenta os detalhes de cada um deles.

Figura 5.5: Deteçcão de classes pelas técnicas de amostragem. O eixo y representa o percentual de vezes que cada técnica conseguiu recuperar ao menos uma instância em cada classe, após 1.000 tentativas.

Tabela 5.2: Distribui¸cão de instâncias por classe para os conjuntos de dados utilizados no experimento de deteçcão de classes mostrado na Figura 5.5.

Conjunto Classes ✴

de Dados Instˆancias por Classe

Shuttle BpvClose [6], BpvOpen [11], Bypass [2.458], FpvClose [37], FpvOpen [132], High [6.748], RadFlow [34.108]

US counties Class1 [647], Class2 [1.157], Class3 [1.224]

Ad-100 Class1 [8.231], Class2 [2], Class3 [15.640], Class4 [4], Class5 [70], Class6 [61.280], Class7 [300], Class8 [7.049], Class9 [2.700], Class10 [4.724]

O experimento da Figura 5.5 mostra a dificuldade que as técnicas de amostragem aleatória apresentam ao tentar discriminar instâncias em classes com poucos elementos.

Os valores que aparecem no eixo horizontal da figura, junto ao nome do conjunto de dados, correspondem ao número m´ınimo de amostras necessárias para a CSM selecionar ao menos uma instância representativa em cada classe. Usando esses valores como parâmetro de entrada para os outros quatro métodos, isto é, como o número de amostras a ser recu- perada em cada um deles, computamos o percentual médio de vezes que cada mecanismo de amostragem conseguiu selecionar ao menos uma instância por classe, mas, desta vez em 1.000 (mil) execu¸cões sucessivas, visando aumentar as possibilidades de sucesso.

Considere, por exemplo, o conjunto de dados Shuttle (Figura 5.5 – barras verticais à esquerda). Pela Tabela 5.2 é fácil ver que este conjunto de dados é altamente desbalanceado, com classes que vão de 6 a 34.108 instâncias. Note que os métodos de amostragem comparados: Approximate, Knuth, Reservoir e Two Pass obtiveram êxito na tarefa em menos de 1% das vezes, mesmo em mil tentativas. Mais precisamente, acertaram apenas 2, 6, 2 e 7 vezes em mil, respectivamente.

O conjunto de dados US counties (Figura 5.5 – barras verticais centrais) possui três classes melhor balanceadas. Neste conjunto, a CSM conseguiu amostrar todas as classes usando apenas quatro instâncias como entrada. No entanto, usando quatro instâncias como entrada para os demais algoritmos, eles obtiveram êxito em menos de 50% das vezes. Já o conjunto de dados Ad-100 (barras verticais à direita) também é desbalanceado. Além disso, possui classes com alta variabilidade, fazendo com que a CSM selecione muitas instâncias, 33.295, para conseguir amostrar todas as classes. Note que, mesmo usando um número muito grande de instâncias como entrada, os métodos comparados, novamente, obtiveram êxito em menos de 50% das tentativas. Experimentos como este garantem ao Column Selection Method (CSM) uma grande vantagem em rela¸cão aos demais métodos, já que consegue selecionar instâncias representativas em todas as classes do conjunto de dados com eficácia, de forma determin´ıstica.

O experimento da Figura 5.6 utiliza os conjuntos de dados Shuttle e Ad-100, que são altamente desbalanceados (ver Tabela 5.2), para mostrar a frequência de instâncias recuperadas em cada classe quando os algoritmos de amostragem são aplicados. O número total de instâncias recuperadas em cada método foi estabelecido de acordo com o número m´ınimo de instâncias necessárias para a CSM encontrar ao menos um representante em cada classe, ou seja, 605 para o conjunto de dados Shuttle e 33.295 para o conjunto de dados Ad-100, similar ao experimento anterior. Neste gráfico, os valores que figuram no eixo x correspondem ao nome da classe e total de instâncias que contém. O eixo y exibe a frequência de instâncias selecionadas em cada classe, em porcentagem. No caso da CSM, apenas uma execu¸cão foi realizada. Nas técnicas com comportamento aleatório foi admitida a “melhor” resposta em cem execu¸cões sucessivas, tal que a melhor resposta é aquela em que mais classes são amostradas.

O conjunto de dados Shuttle (Figura 5.6(a)) tem maior variabilidade nas classes Bpv- Close, BpvOpen e Bypass, onde a CSM recuperou grande parte das instˆancias representa-

5.3 Resultados Experimentais e Compara¸c˜oes 103

Figura 5.6: Detec¸c˜ao de classes em conjuntos de dados altamente desbalanceados contendo outliers.

tivas. Particularmente nas duas primeiras, onde o número de representantes é pequeno, 6 e 11 respectivamente, as técnicas comparadas falharam em quase todas as tentativas.

O conjunto de dados sintético Ad-100 foi constru´ıdo de modo a garantir classes com grande variabilidade de dados. Além disso, outliers (ver Defini¸cão 2.3) foram adicionados nas cinco primeiras classes deste conjunto de dados, isto é, nas classes rotuladas como Class1, Class2, ..., Class5. Embora deteçcão de outliers não seja o foco principal da CSM, note que nestas classes, cuja variabilidade é ainda maior devido à presen¸ca dos outliers, o mecanismo de amostragem proposto tenta recuperar tantas instâncias quanto poss´ıvel (Figura 5.6(b)). Já nas técnicas comparadas não existe garantia alguma de que os outliers foram selecionados.

Por fim, observando a Figura 5.6, é fácil ver que nenhuma das técnicas comparadas com a CSM conseguiu amostrar todas as classes em 100 (cem) tentativas, falhando em pelo menos uma classe para ambos os conjuntos de dados, evidenciando mais uma vez a importância de uma técnica de amostragem baseada na variabilidade dos dados em oposi¸cão às baseadas em distribui¸cão aleatória.

No documento Técnicas de projeção para identificação de grupos e comparação de dados multidimensionais... (páginas 129-133)