Minera¸c˜ ao de Dados (Data Mining) - Visualiza¸c˜ ao e Minera¸c˜ ao de Dados

Visualiza¸c˜ ao e Minera¸c˜ ao de Dados

5.2 Minera¸c˜ ao de Dados (Data Mining)

O conceito de minera¸cão de dados remete à extra¸cão de conhecimento em grandes quantidades de dados. O termo “minera¸cão”, que pode soar estranho neste contexto, é análogo ao aplicado, por exemplo, na minera¸cão de ouro: o objetivo é encontrar por¸cões preciosas em grandes quantidades de material bruto (HAN; KAMBER, 2006). A Figura 28 apresenta o escopo da minera¸cão de dados, que engloba uma série de disciplinas, tais como estat´ıstica, aprendizado de máquinas, visualiza¸cão de dados, dentre outras.

Figura 28: Escopo da Minera¸c˜ao de Dados. Traduzido de Han e Kamber (2006, p. 29).

Outro conceito aplic´avel neste contexto ´e o de Descoberta de Conhecimento em Bases de Dados (Knowledge Discovery from Data - KDD1

). Este conceito pode ser visto como

1_{A defini¸c˜}_{ao Knowledge Discovery in Databases tamb´}_{em pode ser encontrada na literatura para a sigla}

um processo mais abrangente, o qual inclui em uma de suas etapas o processo de minera¸c˜ao de dados. Mesmo assim, o termo Data Mining tem sido mais utilizado (HAN; KAMBER, 2006).

A Figura 29 apresenta o processo KDD, incluindo a etapa de minera¸cão de dados. Dados de diversas fontes são pré-processados a fim de se garantir a consistência dos mesmos. Em seguida, os mesmos podem ser integrados em um repositório central. Na etapa seguinte, um subconjunto de interesse é recuperado do repositório. Nesta etapa, pode ser necessária a realiza¸cão de transforma¸cões sobre os dados: como exemplo, pode-se recorrer à normaliza¸cão dos mesmos. A maior parte do tempo é gasta nestas etapas, podendo atingir até 70% do tempo total. Em seguida, tem-se o processo de minera¸cão, onde mé- todos são aplicados a fim de se extrair padrões sobre os dados. Após este processo, os resultados podem ser avaliados por métricas espec´ıficas - que funcionam como indicadores de qualidade sobre o processo de minera¸cão -, e apresentados ao usuário por técnicas de visualiza¸cão e representa¸cão de conhecimento. Este processo segue em um fluxo de dados, informa¸cão e conhecimento, onde partindo-se sobre a massiva quantidade de dados, busca-se alcan¸car um novo conhecimento sobre certo fenômeno (HAN; KAMBER, 2006; REZENDE, 2009).

Figura 29: Processo KDD incluindo a Minera¸c˜ao de Dados. Adaptado de Han e Kamber (2006, p. 6).

tada na Figura 30. Na camada base, tem-se as fontes de dados, que podem ter diferentes origens. Na camada superior, tem-se uma unidade central ou data warehouse, a qual é responsável por armazenar os dados selecionados pelo usuário em seu processo de minera- ¸cão. O módulo de minera¸cão inclui os algoritmos para realiza¸cão de tarefas, tais como a classifica¸cão e análise de correla¸cão. Este módulo interage com o módulo de avalia¸cão de padrões, que comporta as métricas utilizadas para reconhecimento de padrões. Observa- se que estes dois módulos estão ligados à base de conhecimento. O conhecimento prévio acerca do dom´ınio dos dados é utilizado como guia durante o desenvolvimento do mó- dulo de minera¸cão e do módulo de avalia¸cão de padrões. No topo, tem-se a interface de comunica¸cão com o usuário, a qual permite a intera¸cão do mesmo com o sistema, permi- tindo a realiza¸cão de consultas e demais tarefas durante o processo de minera¸cão (HAN; KAMBER, 2006).

Figura 30: Arquitetura geral de um Sistema de Minera¸c˜ao de Dados. Adaptado de Han e Kamber (2006, p. 8).

5.2.1 Funcionalidades da Minera¸c˜ao de Dados

O processo de minera¸cão de dados tem por objetivo final a extra¸cão de conhecimento em grandes quantidades de dados, conforme definido na Se¸cão 5.2.

Algumas caracter´ısticas definem tarefas no processo de minera¸cão de dados, as quais podem ser definidas como descritivas ou preditivas. Enquanto as tarefas descritivas ca- racterizam as propriedades dos dados, as preditivas visam visam realizar inferências sobre os mesmos a fim de se obter comportamentos futuros. As seguintes funcionalidades são destacadas por Han e Kamber (2006):

• Caracteriza¸cão e Discrimina¸cão de Dados: a caracteriza¸cão visa sumarizar os dados de uma classe de estudo, denominada classe alvo. A discrimina¸cão visa comparar a classe alvo com um conjunto de classes comparativas, denominadas classes contraste. Os resultados da caracteriza¸cão podem ser apresentados de várias formas, como gráficos de pizza e de barra;

• Minera¸cão de Padrões, Associa¸cões e Correla¸cões: o termo padrão recorrente é auto-explicativo. Han e Kamber (2006) classifica os padrões recorrentes em três tipos: conjunto de items, sequenciais e estruturados. Os padrões em conjuntos de itens acontecem quando um conjunto de atributos aparece simultaneamente. Exemplificando-se, um comerciante pode observar que uma parte considerável das pessoas que compram um computador adquire também uma impressora. Já os padrões sequenciais são formados pelo desencadeamento de a¸cões. Por exemplo, o mesmo comerciante pode observar que pouco tempo após comprarem um mp3 player, os compradores adquirem um novo fone de ouvido. Já os padrões sub- estruturados são formados por sequências sistematizadas de padrões em conjuntos de itens e/ou sequenciais. A minera¸cão de padrões recorrentes leva à descoberta de associa¸cões e correla¸cões;

• Classifica¸cão e Predi¸cão: a classifica¸cão é o processo de encontrar uma fun¸cão (ou modelo) que descreve e distingue classes em um conjunto de dados, identificadas por rótulos. Desta forma, torna-se poss´ıvel a utiliza¸cão desta fun¸cão para tentar identificar a classe pertencente de objetos cujo rótulo ainda é desconhecido. Para deriva¸cão do modelo, recorre-se a um conjunto de treinamento caracterizado por valores já rotulados. Destaca-se que anteriormente aos processos de classifica¸cão e predi¸cão, uma análise de relevância deve ser realizada como tentativa de identifica¸cão de atributos que não contribuem para estes processos, os quais podem ser exclu´ıdos; • Análise de Agrupamentos (Cluster Analysis): a análise de agrupamentos é realizada sem a consulta ao rótulo da classe; de uma forma geral, tais valores são ainda desconhecidos nesta etapa, e o processo de clusteriza¸cão pode ser realizado para

encontrá-los. Neste processo, os objetos são agrupados de maneira com aqueles que pertencem a um mesmo cluster tenham a maior similaridade entre si, mas tenham também a maior dissimilaridade se comparados a objetos de outros clusters. Ao término do processo, cada cluster formado pode ser visto como uma classe de objetos;

• Análise de Anomalias (Outliers): as anomalias são caracterizadas por elementos que não respeitam o comportamento habitual ou o modelo dos dados. Em algumas aplica¸cões, como deteçcão de fraudes, estes elementos podem ser mais interessantes que os habituais. Em contrapartida, em outros cenários, tais valores podem não ser interessantes, os quais podem ser descartados;

• Análise de Evolu¸cão: a análise de evolu¸cão descreve e modela regularidades ou tendências de objetos cujo comportamento varia ao longo do tempo. Esta análise pode incluir todas as etapas anteriores, além da análise de séries temporais.

No documento Análise da cintilação ionosférica no Brasil empregando GNSS e técnicas de mineração e visualização de dados (páginas 74-78)