• Nenhum resultado encontrado

AVALIAÇÃO DE TÉCNICAS DE VISUALIZAÇÃO PARA MINERAÇÃO DE DADOS

N/A
N/A
Protected

Academic year: 2022

Share "AVALIAÇÃO DE TÉCNICAS DE VISUALIZAÇÃO PARA MINERAÇÃO DE DADOS"

Copied!
104
0
0

Texto

(1)

EMERSON RABELO

AVALIAÇÃO DE TÉCNICAS DE VISUALIZAÇÃO PARA MINERAÇÃO DE DADOS

MARINGÁ 2007

(2)

EMERSON RABELO

AVALIAÇÃO DE TÉCNICAS DE VISUALIZAÇÃO PARA MINERAÇÃO DE DADOS

Dissertação apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Estadual de Maringá, como requisito parcial para obtenção do grau de Mestre em Ciência da Computação.

Orientadora: Profª. Drª. Maria Madalena Dias

MARINGÁ 2007

(3)

Dados Internacionais de Catalogação-na-Publicação (CIP) (Biblioteca Central - UEM, Maringá – PR., Brasil)

Rabelo, Emerson

R114a Avaliação de técnicas de visualização para mineração de dados / Emerson Rabelo. -- Maringá : [s.n.], 2007.

103 p. : il. color., figs.

Orientadora : Profª. Drª. Maria Madalena Dias.

Dissertação (mestrado) - Universidade Estadual de Maringá. Programa de Pós-graduação em Ciência da Computação, 2007.

1. Mineração de dados. 2. Visualização de informação. I.

Universidade Estadual de Maringá. Programa de Pós-graduação em Ciência da Computação. II. Título.

CDD 21.ed. 006.312

(4)

EMERSON RABELO

AVALIAÇÃO DE TÉCNICAS DE VISUALIZAÇÃO PARA MINERAÇÃO DE DADOS

Dissertação apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Estadual de Maringá, como requisito parcial para obtenção do grau de Mestre em Ciência da Computação.

Aprovado em 05/09/2007

BANCA EXAMINADORA

Profa. Dra. Maria Madalena Dias Universidade Estadual de Maringá – DIN/UEM

Profa. Dra. Clélia Franco

Universidade Estadual de Maringá – DIN/UEM

Prof. Dr. Júlio Cesar Nievola

Pontifícia Universidade Católica do Paraná – PPGIa/PUCPR

(5)

AGRADECIMENTOS

Agradeço primeiramente a Deus pela força nos momentos de dificuldades e, pela luz que iluminou e guiou meus passos direcionando-me no caminho da aprendizagem.

Agradeço a minha mãe Josefa Benites Rabelo, pela sua dedicação e amor e ao meu pai Valentim Rabelo, que sempre me mostrou por meio de atitudes o valor da humildade e do trabalho. O meu irmão que sempre esteve presente e disposto a me ajudar em qualquer momento.

Agradeço a minha Esposa Juliana F. Rabelo por estar ao meu lado em todos os momentos de alegria e dificuldades, pois sem a sua presença com certeza seria muito mais difícil.

Agradeço a Deus mais uma vez, por ter colocado no meu caminho uma pessoa maravilhosa que é minha orientadora professora Maria Madalena Dias, pela oportunidade, profissionalismo, não medindo esforços no apoio para realização deste trabalho compartilhando o seu conhecimento.

Agradeço a todos os professores que, de forma direta ou indireta, contribuíram para este trabalho, principalmente a professora Clélia Franco pelo valor dos seus conhecimentos, conselhos e sua disposição.

Agradeço ao meu Primo Heber Rabelo pela ajuda na finalização deste trabalho.

Agradeço aos funcionários do Departamento de informática em especial a Maria Inês Davanço pela ajuda e paciência.

A todos que direta ou indiretamente contribuíram para a realização deste trabalho.

(6)

“As invenções são sobretudo os resultados de um trabalho teimoso”

Alberto Santos Dumont ( 1873-1932)

{inventor do avião e do relógio de pulso}

(7)

RESUMO

Nas últimas décadas, o constante avanço na área de Tecnologia da Informação (TI) tem viabilizado o armazenamento de grandes quantidades de dados. Viabilidade fornecida pelo baixo custo de dispositivos de armazenando, fácil acesso à Internet, existência de sistemas de informação e de ferramentas de gerenciamento. Com essa explosão no volume de dados, surge a necessidade de novas pesquisas para encontrar formas eficazes e inteligentes na busca de informações úteis. A mineração de dados é uma área de pesquisa que tem contribuído na busca de conhecimentos implícitos que possam dar suporte à tomada de decisão. Na verdade, a mineração de dados faz parte de uma área mais ampla que é descoberta de conhecimento em banco de dados (Knowledge Discovery in Database - KDD). O processo KDD envolve várias atividades que são divididas em três etapas principais: pré-processamento, mineração de dados e pós-processamento. Na etapa de pós-processamento, o usuário final precisa interagir com o sistema para analisar os resultados obtidos. No entanto, ainda existe dificuldade no entendimento desses resultados. A utilização de técnicas de visualização de informação tem se mostrado um meio de promover esse entendimento. Assim, este trabalho apresenta uma avaliação de técnicas de visualização de informação para representação dos resultados obtidos com a aplicação de técnicas de mineração de dados. Esta avaliação foi realizada de acordo com o método conhecido como Avaliação de Características, tendo como resultado a análise da eficácia da utilização de técnicas de visualização de informação geométricas e iconográficas, principalmente em relação aos resultados obtidos com a aplicação do algoritmo K-médias.

Palavras-Chave: Descoberta de conhecimento em banco de dados. Visualização de informação. Mineração de dados.

(8)

ABSTRACT

In the last few decades, constant advances in the field of Information Technology (IT) have enabled the storage of large quantities of data. This has been possible to the low costs of storage devices, easy access to the Internet, and the existence of information systems and management tools. With this surge in data volume, new researches become necessary in order to find efficient and intelligent methods when searching for useful information. Data mining is an area of research that has contributed in the search for implicit knowledge that can give support to decision-making. In reality, data mining is part of a broader field, Knowledge Discovery in Database – (KDD). The KDD process involves several activities, which are divided into three main stages: data preparation, data mining and results analysis. In the results analysis stage, the final user needs to interact with the system in order to analyze the obtained results. However, there is much in difficulty in interpreting these results. The use of information visualization techniques has shown to be an effective way to promote better result interpretation. Thus, this study presents an evaluation of information visualization techniques for the display of results obtained through the application of data mining techniques. This evaluation was carried through in accordance with the known method as Evaluation of Characteristics, having as resulted the analysis of the effectiveness of the use of geometric and iconographic techniques of information visualization, mainly in relation to the results gotten with the application of the K-media algorithm.

Keywords: Knowledge Discovery in Database. Information visualization. Data mining.

(9)

LISTA DE ILUSTRAÇÕES

Figura 1.1 – Processo de Desenvolvimento da Pesquisa ...19

Figura 2.1 – Processo KDD...23

Figura 2.2 – Associação entre conjunto de dados e classes ...26

Figura 2.3 – Algoritmo K-médias ...31

Figura 2.4 – Passos de execução do algoritmo K-média...32

Figura 2.5 – Processo simplificado de visualização de informação auxiliada por computador ...34

Figura 2.6 – Modelo de referência para visualização ...35

Figura 2.7 – Exemplo de matriz de dispersão ...38

Figura 2.8 – Eixos da visualização de dispersão de dados 3D ...39

Figura 2.9 – Exemplo de coordenadas paralelas com dados fictícios ...40

Figura 2.10 – Exemplo de faces de chernoff...41

Figura 2.11 – Exemplo de um icone da visualização Star Glyphs ...42

Figura 2.12 – Exemplo da visualização de dados utilizando Star Glyphs...42

Figura 2.13 – Exemplo de um icone da visualização figura de aresta ...43

Figura 3.1 – Ser humano como elemento central do processo KDD ...47

Figura 4.1a – Coordenadas paralelas com 10.000 registros...54

Figura 4.1b – Coordenadas paralelas com 100.000 registros...54

Figura 4.2a – Dispersão de dados tridimensional com 100 registros ...55

Figura 4.2b – Dispersão de dados tridimensional com 1.000 registros...55

Figura 4.2c – Dispersão de dados tridimensional com 10.000 registros ...55

Figura 4.3a – Faces de chernoff com 56 registros ...55

Figura 4.3b – Faces de chernoff com 169 registros ...55

(10)

Figura 4.4 – Visualização Figuras de aresta (Stick figure) ...56

Figura 4.5a – Coordenadas paralelas representando 100 registros com 10 atributos ...57

Figura 4.5b – Coordenadas paralelas representando 100 registros com 34 atributos ...57

Figura 4.5c – Coordenadas paralelas representando 100 registros com 100 atributos...57

Figura 4.6 – Faces de chenorff com 15 atributos ...59

Figura 4.7a – Coordenadas Star Glyphs com 10 atributos...59

Figura 4.7b – Coordenadas Star Glyphs com 30 atributos...59

Figura 4.7c – Coordenadas Star Glyphs com 80 atributos ...59

Figura 4.7d – Coordenadas Star Glyphs com 500 atributos...59

Figura 4.8 – Coordenadas Star Glyphs com 500 atributos...61

Figura 4.9 – Matriz dispersão de dado representando a base de dados “mtcars”...64

Figura 4.10 – Coordenadas paralelas representado base de dados “mtcars”...65

Figura 4.11 – Matriz de Dispersão – Base de dados “USarrests” ...66

Figura 4.12 – Coordenadas paralelas - Base de dados “USarrests” ...67

Figura 4.13 – Dispersão de dados representando Correlação positiva, negativa e nula...68

Figura 4.14 – Correlação na visualização de dispersão de dados base“USarrests” ...68

Figura 4.15 – Repr. de correlação positiva da visualização de coordenadas paralelas ...69

Figura 4.16 – Repr. de correlação negativa da visualização de coordenadas paralelas ...69

Figura 4.17 – Correlação e distribuição de valores em Coordenadas Paralelas...69

Figura 5.1 – Matriz de dispersão (base de dados Uem/2005) ...76

Figura 5.2a – Coordenadas paralelas representando 131 registros contendo valores nulos para o atributo sexo ...77

Figura 5.2b – Coordenadas paralelas representando 10 registros contendo valores nulos para o atributo sexo ...77

Figura 5.3 – Star Glyph representando os candidatos aprovados...78

(11)

Figura 5.4 – Resultado do algoritmo K-médias ...79 Figura 5.5 – Coordenadas paralelas gerado pelo algoritmo K-means...81 Figura 5.6 – Coordenadas paralelas com destaque no eixo vertical que representa o atributo redação...82 Figura 5.7 – Dispersão de dados tridimensional representado resultado do algoritmo de agrupamento da base “UEM-2005”...83 Figura 5.8 – Faces de chernof. Representando os Centróides dos grupos gerados pelo algoritmo K-médias ...84

(12)

LISTA DE TABELAS

Tabela 2.1 – Tarefas e Métodos de MD ...29

Tabela 2.2 – Visualização de informação comparada à visualização científica...34

Tabela 3.1 – Tipo de dados para o atributo estado civil ...48

Tabela 3.2 – Características de dados...49

Quadro 4.1 – Classificação da informação...60

Quadro 4.2 – Ranking dos atributos em relação à percepção ...61

Tabela 4.1 – Análise de características das técnicas de visualização ...73

(13)

LISTA DE SIGLAS

KDD Knowledge Discovery in Databases

MD Mineração de Dados

IHC Interação Humano-Computador

VDM Visual Data Mining

DW Data Warehouse

UEM Universidade Estadual de Maringá

(14)

SUMÁRIO

1 INTRODUÇÃO ... 16

1.1OBJETIVOS ... 17

1.2JUSTIFICATIVA ... 18

1.3METODOLOGIADEDESENVOLVIMENTODAPESQUISA... 18

1.3.1 Processo de Desenvolvimento da Pesquisa...19

1.4ORGANIZAÇÃODOTRABALHO ... 21

2 FUNDAMENTAÇÃO TÉORICA... 23

2.1INTRODUÇÃO ... 23

2.2DESCOBERTADECONHECIMENTOEMBANCODEDADOS(KDD)... 23

2.3MINERAÇÃODEDADOS... 26

2.3.1 Tarefas de mineração de dados...27

2.3.2 Técnicas de mineração de dados...28

2.3.3 Algoritmo de Agrupamento...30

2.4VISUALIZAÇÃODEINFORMAÇÃO ... 34

2.4.1 Mineração Visual de Dados...36

2.4.2 Técnicas de Visualização de Informação...37

2.5LINGUAGEMR... 44

2.6CONSIDERAÇÕESFINAIS... 45

3 ANÁLISE DE PARÂMETROS GERAIS PARA KDD ... 47

3.1INTRODUÇÃO ... 47

3.2FATORHUMANOEDOMÍNIODEAPLICAÇÃO ... 47

3.3DOMÍNIODEDADOS ... 48

3.4CONSIDERAÇÕESFINAIS... 50

4 AVALIAÇÃO DE TÉCNICAS DE VISUALIZAÇÃO... 52

4.1INTRODUÇÃO ... 52

4.2FONTESDEDADOS... 52

4.3AVALIAÇÃODASCARACTERÍSTICAS ... 54

4.3.1 Escalabilidade...54

4.3.2 Dimensionalidade...57

4.3.3 Tipos de dados...61

4.3.4 Interação...63

4.3.5 Interpretabilidade...65

4.3.6 Relacionamento entre os atributos...67

4.3.7 Correlação...69

4.4RESULTADOSECONSIDERAÇÕESFINAIS... 72

5 APLICAÇÃO DE TÉCNICAS DE VISUALIZAÇÃO DE INFORMAÇÃO... 76

5.1VISUALIZAÇÃODOSDADOSORIGINAIS ... 76

5.2VISUALIZAÇÃODOSRESULTADOSDOALGORITMODEAGRUPAMENTO... 80

5.3CONSIDERAÇÕEFINAIS ... 86

6 CONCLUSÃO E TRABALHOS FUTUROS... 88

REFERÊNCIAS ... 91

APÊNDICE A - ALGORITMOS DE AGRUPAMENTO... 95

A.1-ALGORITMOK-MÉDIASEMPORTUGOL... 95

A.2-FUNÇÃODOALGORITMODEAGRUPAMENTOK-MÉDIANALINGUAGEMR... 96

APÊNDICE B - VISUALIZAÇÃO DE INFORMAÇÃO UTILIZANDO LINGUAGEM R... 98

(15)

B.1-MATRIZDEDISPERSÃO... 98

B.2-DISPERSÃODEDADOSTRIDIMENSIONAL(SCATTERPLOT3D) ... 99

B.3-COORDENADASPARALELAS... 101

B.4-FACESDECHERNOFF... 102

B.5-STARPLOT... 103

(16)

1 INTRODUÇÃO

Diante de um cenário com gigantesco acúmulo de informações, surge a necessidade de ferramentas computacionais apropriadas para gerenciar e analisar tais informações. No mundo atual vem crescendo a participação dos computadores na sociedade em vários ramos de atividades como econômica, científica, saúde e social. Existem computadores prontos para armazenar o que foi efetuado, calculado, medido e decidido. No entanto, muitas decisões são tomadas sem que haja conhecimento suficiente baseado em informações provenientes dos dados acumulados em bases de dados de sistemas transacionais.

Para atender este contexto, surge uma nova área denominada Descoberta de Conhecimento em Banco de Dados (Knowledge Discovery in Databases – KDD), que é uma área da ciência da computação. A descoberta de conhecimento é caracterizada como um processo complexo que tem por objetivo extrair conhecimento em grandes volumes de dado e é composto por três etapas principais: pré-processamento, mineração de dados e pós-processamento.

A etapa de pré-processamento tem como objetivo a preparação dos dados para a aplicação de técnicas de mineração de dados (MD). A etapa de mineração de dados realiza a busca efetiva por conhecimentos úteis para suporte à tomada de decisão. A etapa de pós-processamento abrange o tratamento e o entendimento dos conhecimentos obtidos na MD. Tal tratamento tem como objetivo viabilizar a avaliação da utilidade do conhecimento descoberto (FAYYAD; PIATESTKY; SHAPIRO, 1996a).

Para facilitar o entendimento dos resultados da MD, é necessário o uso de técnicas de visualização de informação, que tem como objetivo possibilitar a introspecção de um conjunto de dados, fornecendo uma representação visual, evidenciando possíveis fatos dentro do contexto de investigação (RODRIGUES, 2003). É importante considerar no processo de visualização, a escolha de qual técnica deve ser empregada em determinada aplicação ou situação.

O estudo de técnicas de visualização de informação em sistemas de KDD envolve as seguintes áreas: Computação Gráfica, Interface Humano-Computador, Banco de dados e MD.

(17)

As técnicas de visualização de informação têm por objetivo representar graficamente um determinado domínio de aplicação, de forma a explorar com alto desempenho o conhecimento deste domínio e a capacidade cognitiva do homem, facilitando a compreensão e a interpretação das informações apresentadas, na busca de novos conhecimentos.

Atualmente, existe certa dificuldade no entendimento e uso do conhecimento descoberto com a aplicação de técnicas de mineração de dados. Esta dificuldade pode estar relacionada à inexistência de critérios de integração de técnicas visualização de informação com técnicas de mineração de dados.

A utilização mal empregada de técnicas de visualização em qualquer etapa do processo KDD pode gerar resultados insuficientes ou até mesmo incorretos, provenientes de erros de representação gráfica. Na tentativa de sanar este tipo de problema, nesta pesquisa foi realizada a avaliação de técnicas de visualização de informação na representação de resultados obtidos com a aplicação de técnicas de agrupamento.

1.1 OBJETIVOS

O objetivo geral é avaliar técnicas de visualização de informação para proporcionar, aos desenvolvedores e utilizadores de sistemas de KDD, meios eficazes para a escolha de técnicas adequadas na representação dos conhecimentos obtidos. Para atingir este objetivo, inicialmente foram identificadas características que influenciam na representação de informações.

Os objetivos específicos são:

• Apresentar os elementos teóricos relacionados às técnicas de mineração de dados e técnicas de visualização de informação;

• Selecionar características de técnicas de visualização capazes de conduzir à escolha daquela mais adequada na representação de resultados obtidos na aplicação de técnicas de agrupamento;

• Avaliar técnicas de visualização por meio das características selecionadas;

• Apresentar os resultados obtidos na MD utilizando técnicas de visualização, segundo as características selecionadas.

(18)

1.2 JUSTIFICATIVA

A busca de conhecimento em banco de dados abrange várias áreas de pesquisa, tais como:

sistemas de informação, banco de dados, mineração de dados e visualização de informação.

A mineração de dados, que é uma das etapas do processo KDD, utiliza vastos repositórios de dados (data warehouse - DW) para tentar descobrir se há algum conhecimento escondido entre os dados. Neste contexto, a área de visualização de informação, aliada à mineração de dados, apresenta-se como um campo de estudo de grande utilidade. Esta agregação é referenciada na literatura como mineração visual de dados (MVD), apresentada na Seção 2.4.1.

A área de visualização de informação é um campo emergente de pesquisa que se preocupa com a representação de informações através de imagens gráficas, que possam ser reconhecidas e facilitem o entendimento pelos seres humanos.

O emprego da visualização apropriada pode ajudar na capacidade de descoberta de padrões, relacionamento de dados ou até mesmo resultados gerados por algoritmos utilizando técnicas de mineração de dados. Porém, um mau emprego de técnicas de visualização pode comprometer o trabalho de descoberta de conhecimento.

A avaliação realizada neste trabalho busca fornecer subsídios aos usuários e analistas de sistemas KDD na escolha da visualização mais adequada. A sugestão sobre qual técnica de visualização de informação utilizar na descoberta de padrões, relacionamento de dados e interpretação dos resultados gerados por algoritmos de mineração de dados, pode evitar erros na análise desses resultados.

1.3 METODOLOGIA DE DESENVOLVIMENTO DA PESQUISA

Esta pesquisa pode ser classificada como aplicada com procedimentos técnicos experimentais.

Menezes e Silva (2001, p. 20) classificam a pesquisa de natureza aplicada da seguinte forma:

“objetiva gerar conhecimento para aplicar práticas dirigidas à solução de problemas específicos”. Do ponto de vista de procedimento técnico experimental: “determina-se um

(19)

objeto de estudo, selecionam-se as variáveis capazes de influenciá-lo, definem-se as formas de controle e de observação dos efeitos que a variável produz no objeto”.

A metodologia adotada neste trabalho é fundamentada no estudo de diversas tecnologias, as principais são: descoberta de conhecimento em banco de dados (Knowledge Discovery in Database – KDD), mineração de dados (Data Mining - MD), técnicas de visualização de informação e linguagem R.

1.3.1 Processo de Desenvolvimento da Pesquisa

As principais etapas de pesquisa desta dissertação foram: revisão da literatura versando sobre KDD, MD, algoritmos de MD, técnicas visualização; definição das características das técnicas de visualização, avaliação das técnicas de visualização utilizando as características levantadas, aplicação da técnica de visualização em conjunto com mineração de dados e resultados alcançados.

A Figura 1.1 representa as etapas do processo de desenvolvimento da pesquisa. Nesta Figura, à esquerda estão relacionados às principais etapas da pesquisa e à direita os elementos envolvidos em cada etapa. Através destas etapas foi possível criar um ambiente de avaliação.

1) Revisão da Literatura

A revisão da literatura englobou conceitos e características do processo KDD, mineração de dados, técnicas de visualização (projeções geométricas e iconográficas) e técnicas de interação.

2) Estudo e Seleção de Algoritmo de MD

Nesta etapa foram estudados alguns algoritmos de agrupamento (K-médias, Kmedoid, entre outros) e selecionado o algoritmo K-médias, que é um algoritmo amplamente utilizado na implementação da tarefa de agrupamento.

(20)

3) Identificação das características.

Esta etapa visou a identificação de características relevantes das técnicas de visualização de informação, tendo como base as vantagens, desvantagens e limitações de sua utilização. Após essa identificação, foi realizado um filtro para selecionar somente as características comuns a todas as técnicas, sendo descartadas aquelas de caráter particular (característica referente somente a uma visualização).

4) Estudo de ferramentas

Nesta etapa foram feitas pesquisas sobre ferramentas para manipulação de dados, que executem algoritmos de MD e projetem técnicas de visualização.

Figura 1.1: Processo de Desenvolvimento da Pesquisa.

Revisão da literatura

Estudo e seleção de Algoritmo de

MD

Avaliação das técnicas de visualização Identificação das

características

Estudo da ferramenta

KDD, MD, Técnica de visualização, Interação na

visualização.

Identificar características comuns a todas as técnicas de

visualização de informação

Linguagem R

Avaliação das técnicas de visualização por meio das características comuns.

Selecionar o algoritmo de agrupamento.

(K-Médias, K-medoid Agnes, DBscan)

Uso de técnicas de visualização na MD

Mostrar o uso de técnicas de visualização de informação para representar resultados de mineração de

dados

(21)

5) Avaliação das técnicas de visualização na MD

A avaliação é a verificação da eficiência na capacidade de exibir informações realmente relevantes que facilitem a análise, interpretação e compreensão do conjunto de informações.

Nesta etapa foram utilizadas as características propostas neste trabalho, selecionadas bases de dados e avaliadas as técnicas por meio de sua implementação na Linguagem R.

6) Uso de técnicas de visualização.

Esta etapa consistiu nos seguintes passos:

• Selecionar uma base de dados real;

• Projetar a base de dados utilizando visualização de informação e elaborar algumas interpretações;

• Aplicar o algoritmo de MD em bases de dados;

• Apresentar o resultado do algoritmo de MD em algumas visualizações de informação, identificar padrões e interpretar os resultados;

Para realização desses passos, foi utilizada a linguagem R e o resultado obtido na etapa anterior.

1.4 ORGANIZAÇÃO DO TRABALHO

Além deste capítulo que apresenta a introdução, objetivos, justificativa e metodologia de desenvolvimento da pesquisa, este trabalho é dividido em mais cinco capítulos:

No segundo capítulo é apresentada a fundamentação teórica dos conceitos relativos ao processo KDD, à mineração de dados, às técnicas de visualização de informação e à ferramenta utilizada.

No terceiro capítulo são descritos os parâmetros gerais (fator humano e domínio de dados), necessários na realização do processo KDD.

(22)

No quarto capítulo é descrita a avaliação realizada sobre as técnicas de visualização de informação.

No quinto capítulo é mostrado o uso de técnicas de visualização de informação na análise de dados e dos resultados obtidos na aplicação do algoritmo K-médias, conforme as características avaliadas e descritas no capítulo anterior.

No sexto capítulo são apresentadas a conclusões e sugestões para trabalhos futuros.

(23)

2 FUNDAMENTAÇÃO TÉORICA

2.1 INTRODUÇÃO

Neste capítulo são apresentados os principais conceitos teóricos necessários para o desenvolvimento deste trabalho, que são: processo KDD; mineração de dados; métodos de agrupamento e algoritmo K-médias; técnicas de visualização de informação e a linguagem R que foi a ferramenta utilizada neste trabalho.

2.2 DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS (KDD)

O termo KDD foi formalizado em 1989 para atender os processos referentes à busca de conhecimento a partir de bases de dados. Uma das definições mais populares foi proposta em 1996 por um grupo de pesquisadores (FAYYAD; PIATESTKY; SMYTH, 1996b, p. 30):

“KDD é um processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de grandes conjuntos de dados.”

O termo Interativo indica a atuação do Homem para a realização dos processos, sendo ele o responsável por utilizar as ferramentas computacionais para análise e interpretação dos dados.

Para obter um resultado satisfatório, é necessário muitas vezes repetir o processo de forma integral ou parcial, ou seja, o processo é iterativo.

A descoberta de conhecimento em base de dados é o processo de extração de conhecimento através de manipulação de dados. Feldens (1998 apud DIAS, 2001) define as seguintes etapas para KDD:

Pré-processamento: Atividades que visam gerar uma representação conveniente para os algoritmos de mineração, a partir da base de dados. Inclui a seleção (automática e/ou manual de atributos relevantes), amostragem, transformações de representação, etc. Goldschmidt e Passos (2005) afirmam que esta etapa possui fundamental relevância no processo KKD, e apresenta as seguintes funcionalidades para esta etapa:

seleção de dados, limpeza dos dados, codificação dos dados, normalização dos dados, construção de novos atributos e correção de prevalência.

(24)

Mineração de dados: Aplicação de algoritmos de mineração aos dados pré- processados, ou seja, busca efetiva por conhecimentos úteis a partir dos dados. Esta etapa é detalhada na próxima seção.

Pós-processamento: Seleção e ordenação das descobertas interessantes, mapeamentos de representação de conhecimento e geração de relatórios. É nesta etapa que o especialista em KDD e o especialista no domínio de aplicação avaliam os resultados obtidos e criam novas alternativas para novas investigações de dados. Goldschmidt e Passos (2005) apresentam algumas operações para a realização desta etapa, tais como:

simplificação do modelo de conhecimento, transformação do modelo de conhecimento e organização e apresentação dos resultados.

A Figura 2.1 ilustra um exemplo proposto por Fayyad, Piatestky e Smyth (1996a) que consiste em cinco passos básicos: Seleção, Pré-Processamento, Transformação, Mineração de dados e Interpretação.

Seleção: os dados são escolhidos como um subconjunto de interesse, ou sumarizados em um subconjunto de amostragem. Os itens mais apropriados, segundo o analista, são escolhidos e prossegue-se com a descoberta de conhecimento.

Pré-processamento: são utilizadas ferramentas para preparação dos dados visando deixá-los em um formato mais apropriado para as próximas etapas. Aqui são tratadas distorções, ausência de dados ou, simplesmente, é realizada uma reorganização das informações.

Figura 2.1: Processo KDD

Fonte: adaptado de (FAYYAD; PIATESTKY; SMYTH, 1996b, p. 29).

(25)

Transformação: os dados são processados e disponibilizados em uma forma diferente da original, mas ainda mantendo suas propriedades. O novo formato busca o melhor aproveitamento dos dados nas etapas seguintes. Como exemplo, tem-se a discretização de dados, normalização e redução de dimensionalidade.

Mineração de Dados: é extraído conhecimento com o auxílio de métodos computacionais capazes de revelar padrões, estruturas, tendências, etc. Diferentes métodos podem ser usados em função da natureza dos dados e das informações que se desejam alcançar, como identificação de aglomerados, geração de resumos e classificação.

Interpretação: o resultado da mineração é submetido à apreciação do analista, que pode julgar necessário refazer o processo, alterando uma ou todas as etapas anteriores. Podem ser utilizados outros conjuntos de interesse, outras técnicas de pré-processamento/transformação ou ferramentas de MD adicionais.

De uma forma geral, a complexidade que envolve o processo de KDD, decorre de diversos fatores que podem ser subdivididos em dois conjuntos (FAYYAD; PIATETSKY; SMYTH, 1996b):

Fatores operacionais – dificuldade de integrar diversos algoritmos específicos, manipulação de grande base de dados e tratamento dos resultados de forma ideal.

Fator de controle – considera a complexidade de gerenciar e direcionar o processo KDD. Exemplos de dificuldades encontradas neste fator: formulação dos objetivos a serem alcançados, realização do pré-processamento, seleção do algoritmo ideal para mineração de dados que satisfaça os objetivos, limitações humanas, tais como:

o capacidade limitada e memorização de resultados, pois a cada momento surgem diversos resultados diferentes;

o dificuldade em interpretar resultados;

o conjugar tais interpretações para tomada de decisão.

Goldschmidt (2003) organiza as atividades realizadas na área KDD em três grandes grupos, que são:

(26)

Atividades voltadas ao desenvolvimento tecnológico - abrange todas as iniciativas de concepção e desenvolvimento de recursos de apoio que possam ser utilizados na busca por novos conhecimentos em grandes bases de dados.

Atividades de execução de processos de KDD - refere-se às atividades voltadas à busca efetiva de conhecimento em bases de dados. As ferramentas produzidas pelas atividades de desenvolvimento tecnológico são utilizadas na execução de KDD.

Atividades envolvendo a aplicação de resultados obtidos em processos de KDD – uma vez obtidos modelos de conhecimento úteis a partir de grandes bases de dados, as atividades se voltam à aplicação dos resultados no contexto em que foi realizado o processo de KDD. Exemplos comuns de aplicação de resultados são as alterações em estratégias de negócios que tenham como objetivo procurar tirar proveito do conhecimento obtido. Tais alterações podem variar desde o posicionamento de produtos nas gôndolas de um mercado até políticas estratégicas corporativas.

2.3 MINERAÇÃO DE DADOS

Conforme já citado a mineração de dados pode ser considerada como uma parte do processo de KDD. Goldschmidt e Passos (2005) afirmam que este é a principal etapa. Segundo Shimabukuru (2004), estima-se que a MD represente de 15% a 25% do processo de KDD.

Nessa etapa que compreende a aplicação de algoritmo para extrair e ser capaz de identificar padrões, estruturas, tendências e revelar novidades que sejam úteis e de interesse do usuário, vários métodos podem ser usados em função da natureza dos dados e das informações que se desejam alcançar.

Mineração de dados também pode ser definida como a descoberta de informações úteis a partir de um conjunto de dados. Para a obtenção dessas informações, é necessária a utilização de técnicas e tarefas de busca por relacionamentos e padrões existentes entre os dados (DIAS, 2001). Nas próximas seções são descritas resumidamente as principais tarefas e técnicas de MD.

(27)

2.3.1 Tarefas de mineração de dados

As tarefas correspondem aos problemas que podem ser tratados pela mineração de dados. As tarefas mais comuns são:

Classificação: é uma das tarefas mais importantes e populares conhecidas. Ela busca uma função que permite associar corretamente cada registro (x) (Figura 2.2) de um banco de dados a um único rótulo categórico de (y) chamado de classe. Exemplo: num levantamento de regiões com probabilidade de existência de mosquito da dengue. Sendo possível criar classes de baixa, médio e alto risco de contaminação. Exemplos (DIAS, 2001):

• Classificar pedidos de crédito.

• Identificar pedidos de seguros fraudulentos.

• Identificar a melhor forma de tratamento de um paciente.

Associação: procuram encontrar associações entre conjunto de valores. Um exemplo clássico é determinar quais produtos costumam serem colocados juntos em um carrinho de supermercado. Outra definição, “A tarefa de associação pode ser considerada uma tarefa bem definida, determinística e relativamente simples, que não envolve predição da mesma forma que a tarefa de classificação” (FREITAS, 2000 apud DIAS, 2000, p. 10). Exemplo:

determinar quais produtos geralmente são colocados juntos em um carrinho de supermercado.

Regressão: esta tarefa é similar à tarefa de classificação. Fundamentalmente ela busca por funções que mapeiem os registros de um banco de dados. Exemplos (DIAS, 2001):

X1

X2

X3

X4

Y1

Y2

Y3

Y4

Dados Classes

Figura 2.2: Associação entre conjunto de dados e classes.

(28)

• estimativa da probabilidade de um paciente sobreviver, dado o resultado de um conjunto de diagnóstico de exames;

• definição do limite do cartão de crédito para cada cliente em um banco;

• estimativa do número de filhos ou a renda total de uma família;

• previsão da demanda de um consumidor para um novo produto.

Agrupamento: Usado para particionar os registros de uma base de dados em subconjuntos ou clusters1. Nesta tarefa, não há classes predefinidas, os registros são agrupados segundo algum critério de semelhança. Exemplos (DIAS, 2001):

• agrupar clientes por região do país;

• agrupar clientes com comportamento de compra similar;

• agrupar seções de usuários Web para prever comportamento futuro de usuário.

Sumarização: consiste em identificar e apresentar, de forma concisa e compreensível, as principais características dos dados em um conjunto de dados (DIAS, 2001). Exemplo:

identificar as características dos candidatos de um concurso público: São pessoas com faixa etária entre X e Y anos, possuem casa própria e nível superior completo. Exemplos:

• tabular o significado e desvios padrão para todos os itens de dados;

• derivar regras de síntese.

Após a seleção de qual tarefa utilizar, deve-se também escolher o algoritmo, pois para cada tarefa existem diferentes algoritmos, alguns simples e outros mais sofisticados, como os algoritmos que utilizam redes neurais.

2.3.2 Técnicas de mineração de dados

As tarefas de mineração de dados são desempenhadas por técnicas de mineração de dados e diferentes técnicas servem para diferentes propósitos (HARRISON, 1998). A seguir são descritas de forma sucinta as técnicas de mineração de dados normalmente utilizadas:

Descoberta de Regras de Associação – introduzida por Agrawal, Imielinski e Swamil (1993), identifica conjuntos de itens que ocorrem simultaneamente e de forma freqüente em

1 cluster é um grupo de entidades que têm características similares e que compartilham certas propriedades.

(29)

banco de dados, esta técnica estabelece uma correlação estatística entre os itens de dados (GOEBEL; GRUENWALD, 1999). Existem diversos algoritmos desenvolvidos para aplicação de descoberta de regras de associação, dentre eles (GOLDSCHMIDT; PASSOS, 2005): Apriori, DHP (Direct Hashing and Pruning, Partiition, DIC ( Dynamic Itemset Counting), Eclat, Maxclique e Cumalte.

Árvores de Decisão – Técnica que utiliza a recursividade para particionamento da base de dados na construção de uma árvore de decisão. Cada nó não terminal desta árvore representa um teste ou decisão sobre o item de dado (GOEBEL;GRUENWALD, 1999). Os algoritmos que implementam esta técnica são: CART, CHAID, C5.0, Quest, ID-3, SLIQ, SPRINT (DIAS, 2001).

Raciocínio Baseado em Casos – Procura solucionar problemas fazendo uso direto de experiências e soluções passadas, a distância dos vizinhos dá uma medida da exatidão dos resultados (DIAS, 2001). Algoritmos que implementam esta técnica: BIRCH, CLIQUE.

Algoritmos Genéticos – Muito útil para problemas que envolve otimização (GOLDSCHMIDT; PASSOS, 2005). Procedimento interativo para construção de hipóteses sobre a depedencia entre as variáveis (GOEBEL; GRUENWALD, 1999). Algoritmos que implementam esta técnica (DIAS, 2001): Algoritmo Genético Simples, CHC, Algoritmo de Hillis, GA-Nuggets, GA-PVMINER.

Redes Neurais Artificiais – segue analogia do funcionamento de um cérebro humano formando neurônios artificiais conectados (GOEBEL; GRUENWALD, 1999). As redes neurais não supervisionados são os mais adequados para realização tas tarefas de agrupamento (GOLDSCHMIDT; PASSOS, 2005). Algoritmos desenvolvidos para estas técnicas: Perceptron, Rede MLP, Rede Hopfield, Rede BAM, Redes ART, Rede IAC, Rede LVQ, Rede Counterpropagation, Rede RBF, Rede PNN, Rede Time Delay, Neocognitron, Rede BSB (DIAS, 2001).

Goldschmidt e Passos (2005) apresentam um resumo das tarefas de KDD de acordo com as técnicas e algoritmos, Tabela 2.1:

(30)

Tarefas Métodos de MD Associação Basic, Apriori, DHP, Partition, DIC, ASCX-2P

Classificação Redes neurais: C4.5, Rough sets, algortimo genéticos (Ex: Rule Evolver), Cart, K-NN, Classificadores Bayesianos.

Regressão Redes Neurais (Ex: Back Propagation).

Sumarização C4.5, Algoritmo Genético (Ex: Rule Evolver)

Agrupamento K-Means, K-Modes, K-Prototypes, Fuzzy K-Means, Algoritmo Genéticos, Redes Neurais (Ex: Kohonen), Clarans.

2.3.3 Algoritmo de Agrupamento

Técnicas de agrupamento são empregadas para dividir os registros de uma base em subconjuntos, de tal forma que os registros que compartilham o conjunto tenham similaridades entre si e sejam distintos dos registros armazenados em outros conjuntos. As medidas de similaridades são pré-estabelecidas.

Definição formal para agrupamento não fuzzy de acordo com Hruschka e Ebecken (2003), determina que um conjunto com n registros X = {X1, X2, ..., Xn}, onde Xi ∈ ℜp é um vetor de dimensão p que pode ser agrupado em k subconjuntos disjuntos C={C1,C2,....,CK}, desde que as seguintes condições sejam respeitadas:

A união dos subconjuntos forma o conjunto original - C1 C2 C3 ... ∪ Ck = X.

Um registro não pode pertencer a mais de um subconjunto - Ci Cj = {}, ∀ i j, 1i

k e 1j k.

Cada subconjunto deve ter ao menos um objeto - Ci ≠ {}, ∀ i, 1i k.

Um algoritmo ideal que implementa a tarefa de agrupamento deve ser capaz de lidar com os atributos categóricos, numéricos e ordinais. Quando o algoritmo não atende a estes requisitos é necessário efetuar uma codificação de dados2.

2 Codificação de dados: operação de pré-processamento responsável pela forma como os dados serão representados durante o processo KDD (GOLDSCHMIDT; PASSOS ,2005).

Tabela 2.1: Tarefas e Métodos de MD

Fonte: Adaptado de (GOLDSCHMIDT; PASSOS, 2005, p.116).

(31)

Para análise de agrupamento existem diferentes critérios que medem a similaridade entre os registros, porém, para realização deste trabalho foi utilizado o método de agrupamento onde a distância entre dois registros é expressa pela distância euclidiana na seguinte fórmula:

Sendo,

d - resultado do cálculo (distância);

i , j – representam os dois registros selecionados;

p – número de variáveis (dimensão);

Não é somente o método que calcula a distância entre registros que diferenciam os algoritmos de agrupamento, eles também podem ser diferenciados de acordo com o método de formação, tais como: (Partição, Hierárquico, Baseado em modelo, Baseado em Grade e Baseado em Densidade). Este trabalho trata somente do algoritmo que utiliza o método de partição (K- médias).

O método de partição permite que os registros em análise sejam movidos de um grupo para outro grupo em diferentes etapas que ocorrem no processamento do algoritmo, na tentativa de buscar de forma direta a divisão aproximadamente ótima dos registros.

De acordo com Goldschmidt e Passos (2005), o algoritmo mais popular para realização da tarefa de agrupamento é o K-médias proposto em 1967 por J. MacQueen (DINIZ; LOUZADA NETO, 2000 apud PRASS 2004, p. 38) que utiliza o método de partição. Este Algoritmo possui diversas variações, tais como: K-modes, K-Prototypes e Kmedoids. Em geral estas variações diferem no cálculo da similaridade entre os grupos encontrados e o elemento ou na estratégia para calcular a média dos grupos.

O algoritmo K-médias faz uso de dados numéricos, selecionando k elementos para formação inicial dos centróides (elementos centrais) do grupo. Esta seleção pode ser realizada das seguintes formas:

• Selecionando randomicamente k elementos.

• Selecionando os k primeiros elementos.

• Selecionar k elementos de tal forma que seus valores sejam bem diferentes.

(32)

Após a seleção dos centróides, é calculada a distância de cada elemento (registro da base) em relação aos centróides, sendo considerada a menor distância encontrada para efetuar o agrupamento. O processo termina somente quando todos os elementos estejam agrupados. A Figura 2.3 apresenta um resumo do funcionamento do algoritmo K-médias:

A Figura 2.4 mostra um exemplo da execução do algoritmo de agrupamento K-médias, formando dois grupos, com os seguintes elementos: (4,7,8,2,5,3,9). Para definição dos centróides, podem ser utilizados os critérios citados acima, porém neste exemplo foram selecionados os dois primeiros elementos e, posteriormente, utilizou-se a média para a formação dos novos centróides.

Figura 2.3: Algoritmo K-médias Fonte: Goldschmidt e Passos (2005, p. 104)

Escolher k-centróides

Atualizar grupos Selecionar a menor distância

Atribuir objeto ao grupos Calcular distância

dos grupos

Apresentar grupos Houve mudança na configuração dos grupos ?

Sim

Não

(33)

Descrição dos passos da execução do algoritmo K-médias da Figura 2.4:

• Os dois primeiros elementos do conjunto formaram dois grupos e foram utilizados como centróides.

• O próximo elemento é selecionado e verifica-se qual centróide tem o valor mais próximo ao seu valor, o elemento é adicionado ao grupo e é calculado o novo valor para o centróide, assim por diante.

• Esgotados os elementos, termina-se o processo.

• Resultado: grupo 1 com os seguintes elementos (4,2,5,3) – grupo 2 com os seguintes elementos (7,8,9).

Este algoritmo apresenta atributos confiáveis, porém foram identificados os seguintes problemas:

• Não consegue determinar se há realmente apenas k grupos distintos (PINHEIRO, 2006) (este problema é comum a todos algoritmos de agrupamento).

• O fato do usuário ter que especificar o número de grupos é visto como uma desvantagem, sendo necessária a realização de diversos experimentos (GOLDSCHMIDT; PASSOS, 2005).

• É sensível a ruídos (outliers), já que pequena quantidade de dados inconsistentes ou diferentes, em relação ao conjunto de dados formado, pode influenciar substancialmente na formação dos grupos (CARLANTONIO, 2001).

{8,2,5,3,9}

grupo 1 (4) grupo2 (7) Centróide - 1 (4) Centróide - 2 (7)

a)

{2,3,4,9}

grupo 1 (4) grupo 2 (7, 8) Centróide - 1 (4) Centróide - 2 (7,5)

b)

{5,3,9}

grupo 1 (4,2) grupo 2 (7,8) Centróide - 1 (3) Centróide - 2 (7,5)

c)

{9}

grupo1(4,2,5,3) grupo2(7,8) Centróide - 1 (3,5) Centróide - 2 (7,5)

e)

{3,9}

grupo 1 (4,2,5) grupo 2 (7,8) Centróide - 1 (3,6) Centróide - 2 (7,5)

d)

{}

grupo1(4,2,5,3)grupo2(7,8,9) Centróide - 1 (3,5)

Centróide - 2 (8)

f)

Figura 2.4: Passos de execução do algoritmo k-média.

(34)

• Não é adequado para descobrir grupos com tamanhos muitos diferentes (CARLANTONIO, 2001).

• Exige que os dados sejam do tipo numérico ou binário (HUANG, 1997).

2.4 VISUALIZAÇÃO DE INFORMAÇÃO

No mundo contemporâneo, a facilidade de coletar e armazenar informações se tornou uma tarefa de certo modo “trivial”, mas quando se trata de extrair conhecimentos em grandes bases de dados esta tarefa torna-se complexa. Desta forma muitos pesquisadores têm se motivado a descobrir recursos, métodos e técnicas para facilitar a descoberta de conhecimento e, também, o entendimento desses conhecimentos.

As técnicas de visualização de informação podem ser usadas para facilitar esse entendimento.

Elas baseiam-se na capacidade humana de percepção e cognição. A interação do ser humano faz parte do processo que envolve visualização de informação. O sistema de percepção humano analisa eventos complexos com rapidez, reconhece automaticamente propriedades não usuais e, ao mesmo tempo, desconsidera propriedades sem interesse.

Combinando aspectos de computação gráfica, interação humano-computador (IHC) e mineração de dados, é possível criar um modelo de visualização de informação em modo gráfico para que o usuário, utilizando sua visão, consiga interpretar as informações de forma rápida. Não tendo o mesmo efeito se fosse apresentado no formato original (tabelas). Na literatura foram encontrados dois ramos que tratam as visualizações de informação:

visualização de dados científicos e visualização de informação (RODRIGUES, 2003). A Tabela 2.2 ilustra as diferenças entre os parâmetros das técnicas de visualização de informação e cientifica.

Tabela 2.2: Visualização de informação comparada à visualização científica.

Fonte: adaptado de (GERSHON E EICK, 1997, p.29)

Usuário Tarefa Entrada Volume

Visualização cientifica Especializado, altamente técnico

Profundo entendimento dos fenômenos científicos

Dados físicos, medidas, resultados de simulação

Pequeno a volumoso

Visualização de informação

Usuário comum, especializado e altamente técnico

Busca, descoberta de relações

Relações, dados não- físicos, informação

Pequeno a volumoso

(35)

Visualização de dados científicos que provem de dados que correspondem a medidas associadas a objetos físicos, fenômenos ou posição num domínio espacial. Um exemplo desta visualização poderia ser um fluxo de ar sobre as asas de um avião, tendo informações no formato de vetores 3D amostrado periodicamente em um experimento aeronáutico, sendo este fenômeno representado através de flechas que indicam a direção do fluxo de ar posicionado em relação às asas do avião.

Visualização de informações procura representar graficamente dados de um determinado domínio de aplicação. Exemplo deste tipo é uma base de dados de pacientes de um hospital, com nome, sexo e número de internações e consultas, data de nascimento e naturalidade.

Estes dados são considerados abstratos e necessita de um mapeamento para representação gráfica, assim poderá ser revelada informação interessante para um determinado propósito. A Figura 2.5 demonstra um processo automatizado de visualização de informação.

Embora a visualização de dados científicos seja uma área muito interessante, o foco desta proposta está na realização de visualização de informações de dados abstratos. Entretanto, Rhyne (2003 apud SHIMABUKURU, 2004, p.12) questionam a necessidade de diferenciação entre visualização científica e de informação em virtude do uso intercambiado das técnicas de visualização, particularmente em domínios emergentes, como visualização geográfica e visualização em bioinformática.

A Figura 2.6 exibe graficamente um modelo de referência para desenvolvimento de sistemas de visualização de informação. A direção das setas da esquerda para direita representa a transformação dos dados brutos em transformações visuais para interpretação humana. As

Figura 2.5: Adaptação do processo simplificado de visualização de informações auxiliada por computador.

Fonte: Nascimento e Ferreira (2005, p. 1268).

(36)

setas da direita para esquerda representam a modificação de cada etapa das transformações e do mapeamento visual realizado pelo ser humano.

2.4.1 Mineração Visual de Dados

A integração de técnicas de mineração de dados e visualização de informação é referenciada na literatura como mineração visual de dados (Visual Data Mining - VDM), ocorrendo um balanceamento entre o processo automático e o interativo (WONG, 1999; KEIM, 2002;

SHIMABUKURU, 2004). A Mineração Visual de Dados aproxima o usuário e o processo de descoberta de conhecimento em termos de técnicas de visualização eficientes, capacidade de interação e transferência de conhecimento.

A visualização de informação não é capaz de substituir as técnicas convencionais de MD, mas existem possibilidades únicas que não podem ser desprezadas, ou seja, as duas técnicas unidas podem potencializar enormemente a exploração de informação, observando que a utilização intercalada pode causar penalidades relativas às deficiências e limitações de cada uma (WONG, 1999). O mesmo autor define duas formas de integração das técnicas de visualização, que são:

• Acoplamento forte, onde a visualização e o processo analítico são integrados em uma única ferramenta, aproveitando os pontos fortes de cada uma das áreas.

• Acoplamento fraco, onde as áreas são simplesmente intercaladas, possibilitando um aproveitamento parcial do potencial de cada uma delas no uso em conjunto.

De acordo com Han e Kamber (2000 apud BARIONI, 2002, p. 22), a visualização e mineração de dados são processos que podem ser integrados das seguintes formas:

Figura 2.6: Modelo de referência para visualização Fonte: Adaptado (CARD; MACKINLAY, 1999, p.232).

(37)

• Dados armazenados em banco de dados podem ser visualizados sob diferentes níveis de abstração, podendo ser utilizadas diferentes combinações de atributos. As formas visuais utilizadas podem ser cubos 3D, curvas, superfícies, grafos ligados e outras.

• Os resultados da mineração de dados podem ser visualizados por meio de formas visuais.

• Visualizar as etapas do KDD de forma que o usuário possa acompanhar o processo desde a extração dos dados até a apresentação do resultado.

• Mineração de dados visual (VDM – Visual Data Mining): Ferramentas de visualização de informação podem ser utilizadas tanto para extrair conhecimentos quanto para a análise dos resultados obtidos com a aplicação de alguma técnica de mineração de dados.

Em casos que envolvem grande volume de dados, o usuário pode selecionar porções da base de dados de interesse utilizando técnicas de visualização de informação, diminuindo assim a árdua tarefa exercida no entendimento dos resultados de MD para grande volume de dados.

2.4.2 Técnicas de Visualização de Informação

As técnicas de visualização de informação podem ser utilizadas como mecanismos que auxiliam a compreensão dos resultados da mineração de dados.

A seguir são descritas as técnicas de visualizações de informação selecionadas. Antes, porém, são feitos alguns comentários relativos ao conceito de foco/contexto e de técnicas de interação (RUSSO; GROS; ABEL, 1999; NASCIMENTO; FERREIRA, 2005).

O conceito foco\contexto apresenta uma visão geral dos dados a serem visualizados, mas destacando uma região de interesse (foco) através de uma ampliação. Exemplos de técnica que utilizam estes conceitos: Fish-eye e Browser Hiperbólico.

o Fish-eye - consiste numa representação de uma lente que aumenta os objetos que estão próximos, enquanto mostra os objetos circundantes com menos detalhes.

o Browser Hiperbólico – utilizado nas técnicas de visualização que representam árvores, auxiliando a exploração das hierarquias.

(38)

As técnicas de interação têm o intuito de facilitar o processo de compreensão dos dados, auxiliando o usuário na exploração e criando outras possibilidades de visualização. A Figura 2.6 apresenta um modelo de visualização de informação que permite a inserção do humano na transformação dos dados, no mapeamento visual e na transformação das visões.

As técnicas de interação que podem ser utilizadas em técnicas de visualização são as seguintes:

• Projeção interativa: redefine as projeções dinâmicas geradas a partir de um conjunto multidimensional.

• Filtragem interativa: o usuário filtra a porção de dados mais interessante e efetua comparações entre as mesmas.

• Zoom interativo: possibilidade de expandir ou diminuir os elementos de visualização.

• Distorção interativa: é a deformação dos elementos visuais de maneira que as propriedades visuais não sejam perdidas.

Concluindo, a visualização de informação, além de transmitir conhecimentos, tem um grande potencial para receber comandos, tais como, por exemplo: controlar a quantidade de dados na tela, alterar a representação da visualização e ajustar escalas.

Keim e Kriegel (1996) descrevem técnicas de visualização de informação multidimensional agrupando-as nas categorias de técnicas geométricas, iconográficas, hierárquicas e orientadas a pixel. No entanto, neste trabalho foram utilizadas somente as visualizações pertencentes às técnicas de visualização de informação geométricas e iconográficas, que se demonstrou adequada para projeção do resultado do algoritmo de agrupamento. Essas técnicas são descritas a seguir.

a) Técnicas de Projeções Geométricas

As visualizações existentes nessa técnica tentam gerar projeções bidimensional e tridimensional em base de dados multidimensionais, com intuito de revelar informações de interesse. Dentre estas técnicas encontram-se: matriz de dispersão, gráfico de dispersão de dados em três dimensões (Scatter plot 3D) e coordenadas paralelas.

(39)

Matriz de Dispersão

Esta visualização é a mais antiga, popular e muito utilizada para representação de dados de alta dimensionalidade em uma representação bidimensional (SHIMABUKURU, 2004;

NASCIMENTO; FERREIRA, 2005).

A matriz de dispersão permite a visualização do relacionamento entre os atributos. Para isto, esta visualização projeta os atributos aos pares formando células associadas a dois atributos que são mapeados pelo eixo x (linha horizontal) e eixo y (linha vertical), conforme é ilustrado na Figura 2.7, que foi gerada com auxílio da linguagem R (ferramenta discutida mais adiante).

Para a projeção da visualização da matriz de dispersão são necessárias n(n-1)/2 células para representar uma base de dados com “n” atributos.

Figura 2.7: Exemplo de matriz de dispersão - (linguagem R)

(40)

Gráfico de Dispersão de Dados 3D - (Scatter Plot 3d)

Esta visualização consiste em projetar registros de uma base de dados representados por pontos num plano e os atributos representados por eixos. sendo a posição dos pontos dependente dos eixos que formam as dimensões da visualização (KOSARA; SAHLING;

HAUSER, 2004).

Gráfico de dispersão de dados é uma visualização popular e muito conhecida utilizada para mapear dados multidimensionais utilizando coordenadas (FEKETE; PLAISANT, 2002). Esta visualização em três dimensões projeta, num espaço tridimensional, o relacionamento de três atributos da base de dados, representado pelas coordenadas X, Y e Z, conforme ilustrado na Figura 2.8. Um dos intuitos desta visualização é revelar os dados de maneira experimental a fim de determinar os pontos de concordância (KOSARA; SAHLING; HAUSER, 2004). Este método gráfico é muito eficiente para determinar se existe uma relação, padrão ou tendência entre variáveis.

Esta visualização permite a inserção de propriedades visuais (cor, tamanho, forma, orientação e etc...), aumentando desta forma o número de atributos que podem ser representados.

Figura 2.8: Eixos da visualização de dispersão de dados 3D - os registros são representados pelas esferas.

(41)

Coordenadas Paralelas

A visualização de Coordenadas Paralelas, proposta por Inselberg e Dimsdale (1990), consiste em mapear um espaço n-dimensional em uma estrutura bidimensional que utiliza n eixos eqüidistantes denominados coordenadas (BENDIX; KOSARA; HAUSER, 2005;

NASCIMENTO; FERREIRA, 2005). Os eixos verticais representam as dimensões ou atributos de dados. Uma linha representa cada item de dado conectado aos eixos com os seus respectivos valores, permitindo a visão de padrões, conforme ilustrado na Figura 2.9. Os eixos verticais são padronizados em uma escala que varia do menor ao maior valor do atributo.

Para representar uma base de dados com x atributos, x = (x1 ,x2 ,...,xn ), necessita-se a mesma quantidade de coordenadas, isto é, a representação de x1 na coordenada 1, x2 na coordenada 2 e assim por diante até a representação de xn na coordenada n.

Uma vantagem desta visualização de informação é a representação de todos os atributos em uma mesma visualização, permitindo fazer interpretações visuais entre os atributos, exemplo:

a visualização da Figura 2.9 permite observar que a maioria das pessoas relacionadas tem aproximadamente 30 anos, sendo a maior parte delas do sexo feminino, residentes na zona 7 e que obtiveram notas próximas a 10,0.

Ana Maria João

Ricardo Paula

Kátia Carla Flavia

Nome Idade Sexo Bairro Nota

20 30 40 50 60 Acima

F M

Zona 5

Aeroporto Centro

Zona 7

0 2,5 5,0 7,5 10,

Figura 2.9: Exemplo de Coordenadas Paralelas com dados fictícios.

(42)

b) Técnicas Iconográficas

Estas técnicas trabalham com objetos geométricos com aparência paramétrica que podem ser mapeados a atributos de uma base de dados (ESTIVALET; FREITAS, 2000). A idéia é mostrar as características essenciais de um domínio de dados, por meio de ícones.

Elas também são utilizadas para representações multidimensionais e podem ser compostas por atributos geométricos (forma, tamanho e orientação) e atributos de aparência (cor e textura), que podem ser associados aos itens de dados em análise.

Algumas das visualizações classificadas como técnicas iconográficas são: Faces de Chernoff, Star Glyphs e Figura de Arestas (Stick Figure).

Faces de Chernoff

Um dos primeiros trabalhos utilizando uma técnica baseada em ícones foi realizado por Chernoff (1973). Este autor observou que o ser humano tem sensibilidade a uma grande variedade de expressões faciais. Assim, ele sugeriu que ícones pudessem ser representados por faces, associando suas propriedades (tais como as formas da boca, cabelo e olhos) com atributo de dados. Este tipo de visualização é denominado Faces de Chernoff.

A Figura 2.10 mostra um exemplo de representação de Faces de Chernoff, que representam uma base de dados contendo notas dos alunos de uma escola. São exemplos do mapeamento de propriedades do ícone com os atributos da base de dados:

• cores das faces associadas ao sexo (azul-masculino ou rosa-feminino);

• a curva da boca representando a situação (aprovado e reprovado);

• a quantidade de cabelos representando o valor das notas.

Figura 2.10: Exemplo de Faces de Chernoff

Fonte: adaptado de (NASCIMENTO; FERREIRA , 2005, p. 1268).

Referências

Documentos relacionados

Este presente artigo é o resultado de um estudo de caso que buscou apresentar o surgimento da atividade turística dentro da favela de Paraisópolis, uma

Changes in the gut microbiota appears to be a key element in the pathogenesis of hepatic and gastrointestinal disorders, including non-alcoholic fatty liver disease, alcoholic

No modo desativado o roteador transmitirá apenas sinal de conexão apenas via cabo UTP  SSID: insira um nome de sua escolha para a rede WI-FI..  Criptografia: insira uma senha para

Estes resultados apontam para melhor capacidade de estabelecimento inicial do siratro, apresentando maior velocidade de emergência e percentual de cobertura do solo até os 60

Entendendo, então, como posto acima, propõe-se, com este trabalho, primeiramente estudar a Lei de Busca e Apreensão para dá-la a conhecer da melhor forma, fazendo o mesmo com o

A variação do pH da fase móvel, utilizando uma coluna C8 e o fluxo de 1,2 mL/min, permitiu o ajuste do tempo de retenção do lupeol em aproximadamente 6,2 minutos contribuindo para

Os casos não previstos neste regulamento serão resolvidos em primeira instância pela coorde- nação do Prêmio Morena de Criação Publicitária e, em segunda instância, pelo

 Numéricos das das Propriedades Propriedades do do Ar Ar Úmido, Úmido, Cartas Cartas Psicrométricas, Psicrométricas, Processos Processos Psicrométricos, Psicrométricos,