• Nenhum resultado encontrado

VISUALIZAÇÃO DOS RESULTADOS DO ALGORITMO DE AGRUPAMENTO

5 APLICAÇÃO DE TÉCNICAS DE VISUALIZAÇÃO DE INFORMAÇÃO

5.2 VISUALIZAÇÃO DOS RESULTADOS DO ALGORITMO DE AGRUPAMENTO

Por meio deste exemplo, foi possível extrair algumas interpretações. No entanto, a avaliação apresentada na Tabela 4.1 pontuou a característica interpretabilidade para a visualização “Star Glyphs” com valor três, pela necessidade do uso do mapa representado na Figura 5.3.

5.2 VISUALIZAÇÃO DOS RESULTADOS DO ALGORITMO DE

Os parâmetros da função “Kmeans” são descritos a seguir:

• x - é a estrutura de dados da base de dados de entrada, juntamente com o seu conteúdo (valores numéricos dos atributos);

• centers – número desejado de grupos;

• inter.max – número máximo de interações que o algoritmo deve realizar.

method – medida de distância a ser utilizada: "euclidean", "maximum","manhattan",

"canberra", "binary", "pearson" ou "correlation.

A Figura 5.4 ilustra os resultados obtidos com a execução do algoritmo K-médias, que são divididos em quatro partes:

1. indica a quantidade de registros para cada grupo criado;

2. indica os centróides de cada atributo relacionado para cada grupo;

3. vetor do agrupamento que identifica o grupo criado para cada registro;

4. somatória da raiz quadrada por grupo.

Conforme pode ser observado na Figura 5.4, os resultados apresentados não dão subsídios suficientes para a sua interpretação, sendo necessário, portanto, o uso de técnicas de

Figura 5.4: Resultado do algoritmo K-médias - (Linguagem R).

1 2

3

4

visualização de informação. A seguir são demonstradas as visualizações de informação utilizadas para representar esses resultados.

a) Projeção Geométrica

De acordo com a avaliação realizada neste trabalho, a visualização de coordenadas paralelas é uma das técnicas de projeção geométrica que obtiveram boa pontuação referente à característica de escalabilidade, pelo fato de conseguir demonstrar padrões nos resultados obtidos pelo algoritmo de agrupamento. Wegmam e Luo (1996) afirmam que a tarefa de agrupamento é facilmente interpretada utilizando a representação de coordenadas paralelas.

Observando a projeção do resultado do algoritmo na visualização de coordenadas paralelas, ilustrada na Figura 5.5, é possível constatar a formação de padrões nos quatro grupos gerados pelo algoritmo de agrupamento, como descritos a seguir:

• Grupo 1 (linhas pretas) – grande maioria dos candidatos reprovados com o total de pontuação igual a zero.

• Grupo 2 (linhas vermelhas) – grande maioria dos candidatos desclassificados com o total de pontuação inferior a aproximadamente 754 (metade do total de pontuação obtida pelo candidato classificado em primeiro lugar que foi 1508).

• Grupo 3 (linhas azuis) – grande maioria dos candidatos desclassificados com o total de pontuação superior a aproximadamente 754.

• Grupo 4 (linhas verdes) - grupo de candidatos que obtiveram as melhores pontuações.

Além da identificação dos padrões dos grupos, é possível identificar outras interpretações na visualização de coordenadas paralelas, por exemplo:

• A faixa etária da maioria dos candidatos é inferior a aproximadamente 27 anos.

• Quase todos os candidatos do Grupo 1 (linhas pretas) obtiveram nota zero na redação, e neste mesmo grupo é possível verificar a existência de candidatos que obtiveram notas com valores acima da média, sendo o grupo que apresenta a maior dispersão em outras provas.

• Muitos candidatos do Grupo 1 zeraram a prova de língua estrangeira, considerando que existe uma concentração de linhas pretas no valor zero referente ao atributo LE (língua estrangeira).

• Existem candidatos que obtiveram boas notas na prova de redação, mas não estão agrupados no Grupo 4, pois é possível verificar na visualização que há candidatos de outros grupos no topo da linha vertical que representa o atributo redação, conforme Figura 5.6.

• O Grupo 4 é o grupo dos candidatos que obtiveram as melhores notas nas provas de biologia, química e português, como pode ser observado na concentração de linhas verdes no topo das linhas verticais que representam os atributos referentes a estas provas. O destaque maior está na prova de química.

• Apesar dos candidatos do Grupo 4 terem obtido as melhores pontuações no total geral, é possível observar que muitos deles obtiveram notas abaixo da média nas provas de matemática, língua estrangeira e física.

• Entre os candidatos com as melhores notas, poucos obtiveram notas com valores próximos ao valor máximo atingido na prova de matemática, conforme pode ser observado na dispersão existente na linha vertical que representa este atributo.

• Pode-se observar a existência de candidatos do Grupo 2 com boas notas (acima da média) nas provas de redação, geografia, história, língua estrangeira e química e com notas abaixo da média na prova de matemática.

Figuras 5.5: Coordenadas paralelas gerado pelo algoritmo K-means - (Linguagem R).

As interpretações realizadas na visualização de coordenadas paralelas não se esgotaram, outras poderiam ser listadas de acordo com o conhecimento e o interesse sobre o tipo de informação a ser extraído pelo avaliador, por exemplo, o avaliador pode estar interessado apenas no grupo que representa os melhores candidatos. Assim, pode-se filtrar da base de dados os candidatos do Grupo 4 e serem gerados novos agrupamentos, ou até mesmo utilizar outras tarefas de mineração de dados (associações, regressão, sumarização ou classificação).

Outra visualização que apresentou boa escalabilidade para demonstrar padrões de resultados do algoritmo de agrupamento é a visualização de dispersão de dados tridimensional (Figuras 5.7), utilizando a propriedade cor para representar os grupos formados.

De forma geral, observando o eixo referente ao atributo da prova de biologia das Figuras 5.7a e 5.7b, é possível constatar a separação das cores, sugerindo as seguintes interpretações:

• O grupo de cor vermelha representa a maioria dos candidatos que obteve na prova de biologia nota inferior a aproximadamente 30 pontos.

• O grupo de cor verde representa a maioria dos candidatos que obteve na prova de biologia nota no intervalo aproximado entre 30 e 50 pontos. o grupo de cor azul representa a maioria dos candidatos que obteve na prova de biologia nota superior a aproximadamente 50 pontos;

• O grupo de cor preta representa a maioria dos candidatos que obteve nota zero para a prova de redação.

Pode-se observar, também, na Figura 5.7a a existência de correlação positiva entre a prova de química e a prova de biologia, já demonstrada pela Figura 5.1, e a separação dos grupos

Figura 5.6: Coordenadas paralelas com destaque no eixo vertical que representa o atributo redação - (linguagem R).

(representados pelas cores) verificada pelo menor e maior valor do atributo da prova de química. Possibilitando as seguintes interpretações:

• O grupo representado pela cor vermelha tem a maioria dos candidatos com a pontuação inferior ao grupo representado pela cor verde e azul.

• O grupo representado pela cor verde tem a maioria dos candidatos com a pontuação superior ao grupo representado pela cor vermelha e inferior ao grupo representado pela cor azul.

• O grupo representado pela cor azul tem a maioria dos candidatos com a pontuação superior aos grupos representados pelas cores verde e vermelha.

Não se esgotaram as possibilidades de identificação de outras interpretações que podem ser realizadas, até porque, esta visualização permite a sua projeção em diferentes ângulos.

b) Técnicas Iconográficas

De acordo com a avaliação das técnicas de visualização de informação que resultou na Tabela 4.1, as visualizações “faces de chernoff” e “Star Glyphs”, tiveram baixa pontuação na característica escalabilidade e maior pontuação para dimensionalidade. Considerando que a escabilidade analisada diz respeito à quantidade de grupos, após a aplicação de um algoritmo de agrupamento, e que os centróides representam os grupos criados, ou seja, para cada grupo

a) b)

Figura 5.7: Dispersão de dados tridimensional

representando resultado do algoritmo de agrupamento da base “UEM-2005” - (linguagem R).

existe um centróide que é um conjunto de valores calculados para cada atributo, mantendo o mesmo número de atributos, é possível utilizar a visualização “faces de chernoff” ou “star grlyphs” para representar os grupos.

A Figura 5.8 ilustra a visualização “faces de chernoff” representando os centróides dos quatros grupos gerados pelo algoritmo K-médias, sendo que as variações nos valores dos atributos determinam faces distintas. As alterações que ocorrem nas faces são realizadas pelo mapeamento do atributo com as características de uma face (altura da face, altura da boca, altura dos olhos, largura do cabelo e etc...).

A função da Linguagem R que implementa a geração da visualização “faces de chernoff” não apresenta qualquer informação sobre como foi realizado o mapeamento de cada atributo com as propriedades da face. Com a realização de alguns testes com o atributo total de pontuação, pode-se verificar que este atributo está relacionado com as propriedades relativas a cabelo.

Somente a face quatro tem uma maior projeção do cabelo, sendo assim é possível afirmar que o Grupo 4 contém os candidatos aprovados e o Grupo 1 os candidatos reprovados.

Documentos relacionados