• Nenhum resultado encontrado

Neste projeto, os experimentos envolvidos consistiram em comparar-se a taxa de acerto do algoritmo SACA em diferentes parametrizações relatadas na seção 3.2.2, fazendo-se uso das bases de dados descritas na seção 3.1, através da aplicação de testes estatísticos. A taxa de acerto considerada no presente trabalho é avaliada a partir da geração dos clusters e é representada pela equação 3.1.

objetos acertos N N to taxadeacer  (3.1)

O termo Nacertos corresponde ao número de objetos que foram agrupados corretamente, enquanto que Nobjetos corresponde ao total de objetos da base de dados. Neste trabalho, o acerto é considerado se o objeto que está sendo avaliado foi agrupado no seu respectivo cluster. É considerado fazer parte de um determinado

cluster objetos que estejam no máximo a distância de uma célula do mesmo, ou

seja, objetos que sejam vizinhos ao agrupamento formado. Os objetos que não pertencem a nenhum agrupamento ou fazem parte de um grupo que não são os seus de origem são contabilizados como erro de classificação.

A partir dos objetivos deste projeto, assumiu-se a seguinte hipótese:

 Hipótese 1 (H1): O uso do algoritmo SACA com medição de insucessos do agente produz agrupamentos com melhor taxa de

acerto em relação ao SACA em sua forma básica e ao SACA com melhoria no parâmetro  .

3.3.1 Variáveis e Escalas

 Fator 1 (F1): algoritmo de agrupamento dos objetos na grade.

o Alternativa 1 (F1-A1): agrupamento construído a partir do SACA na versão original (seção 2.3).

o Alternativa 2 (F1-A2): agrupamento construído a partir do SACA com melhoria no parâmetro  (seção 2.4.5).

o Alternativa 3 (F1-A3): agrupamento construído a partir do SACA com medição de insucessos (seção 3.2.2).

o Os valores desta variável são medidos de acordo com uma escala nominal.

 Valores possíveis: SACA em sua forma básica, SACA com melhoria no parâmetro  e SACA com medição de insucessos.

 Parâmetro 1 (P1): base de dados considerada.

o Os valores desta variável são medidos de acordo com uma escala nominal.

 Valores possíveis: Iris e Wine.

 Variável de Resposta 1 (R1): taxa de acerto dos agrupamentos formados.

o Os valores desta variável são medidos de acordo com uma escala razão.

 Valores possíveis: taxa de acerto dos agrupamentos formados, definido como a razão entre o número de

exemplos classificados corretamente e o número total de exemplos.

3.3.2 Hipóteses Nulas e Alternativas

A partir da definição das variáveis na seção 3.3.1, pode-se formalizar a hipótese H1 nas seguintes hipóteses nulas e alternativas:

 H0-1,1: R1,F1A3 R1,F1A1 0

o A hipótese nula tem o seguinte significado: o valor médio de R1, quando for feito uso da alternativa F1-A3, será menor ou similar ao valor médio de R1, quando for feito uso da alternativa F1-A1. Em outras palavras, a diferença entre as duas médias será menor ou igual à zero.

 H0-1,2: R1,F1A3 R1,F1A2 0

o A hipótese nula tem o seguinte significado: o valor médio de R1, quando for feito uso da alternativa F1-A3, será menor ou similar ao valor médio de R1, quando for feito uso da alternativa F1-A2. Em outras palavras, a diferença entre as duas médias será menor ou igual à zero.

 H1-1,1: R1,F1A3 R1,F1A1 0

o A hipótese alternativa tem o seguinte significado: o valor médio de R1, quando for feito uso da alternativa F1-A3, será maior que o valor médio de R1, quando for feito uso da alternativa F1-A1. Em outras palavras, a diferença entre as duas médias será maior que zero.

 H1-1,2: R1,F1A3 R1,F1A2 0

o A hipótese alternativa tem o seguinte significado: o valor médio de R1, quando for feito uso da alternativa F1-A3, será maior que o valor médio

de R1, quando for feito uso da alternativa F1-A2. Em outras palavras, a diferença entre as duas médias será maior que zero.

3.3.3 Instrumento

As unidades experimentais (bases de dados) utilizadas nos experimentos foram armazenadas em arquivos de texto de modo a serem posteriormente utilizadas no Matlab durante a fase de agrupamento. Os dados resultantes da execução foram armazenados em arquivos do Microsoft Excel 2010. Os parâmetros correspondentes de cada execução também foram salvos nestes arquivos. O algoritmo SACA e algumas variações foram implementados no software Matlab 7.12.0.635. Por fim, o software R na versão 2.15.2 foi utilizado na parte de testes estatísticos.

3.3.4 Metodologia de Análise

Os experimentos foram conduzidos através de dois grupos de projetos experimentais, um para cada base de dados. As alternativas descritas na seção 3.3.1 foram aplicadas nas duas bases (Iris e Wine), sendo 33 vezes em cada uma delas. A cada execução, a informação da taxa de acerto (equação 3.1) foi armazenada.

Antes da aplicação dos testes de hipóteses, foi necessária a aplicação da técnica de boxplot através do Matlab para identificar a existência de outliers8 nos dados coletados. A presença de outliers pode comprometer a qualidade dos testes estatísticos, motivo pelo qual os mesmos devem ser retirados da base. Maiores informações sobre esta técnica podem ser obtidas em [10].

Após a filtragem descrita anteriormente, os dados ficaram disponíveis para aplicação dos testes estatísticos de hipóteses. No presente projeto, as escolhas foram dos testes t de Student, que tem como premissa ser aplicado em dados que representam uma distribuição normal, e o teste de Wilcoxon, que pode ser utilizado em dados que não necessariamente obedecem a uma distribuição normal. Neste

8

caso, visto que mais de 30 coletas de dados foram realizadas em cada experimento, pode-se supor a normalidade na distribuição gerada. Caso isto não seja suficiente, o teste de Wilcoxon pôde ser utilizado nestes experimentos. O nível de significância considerado foi de 5%. A aplicação destes testes aconteceu no software R. LEVINE, BERENSON e STEPHAN [10] explicam o funcionamento dos testes t de Student e

Capítulo 4

Documentos relacionados