• Nenhum resultado encontrado

Visualiza¸c˜ ao e Minera¸c˜ ao de Dados

5.2 Minera¸c˜ ao de Dados (Data Mining)

O conceito de minera¸c˜ao de dados remete `a extra¸c˜ao de conhecimento em grandes quantidades de dados. O termo “minera¸c˜ao”, que pode soar estranho neste contexto, ´e an´alogo ao aplicado, por exemplo, na minera¸c˜ao de ouro: o objetivo ´e encontrar por¸c˜oes preciosas em grandes quantidades de material bruto (HAN; KAMBER, 2006). A Figura 28 apresenta o escopo da minera¸c˜ao de dados, que engloba uma s´erie de disciplinas, tais como estat´ıstica, aprendizado de m´aquinas, visualiza¸c˜ao de dados, dentre outras.

Figura 28: Escopo da Minera¸c˜ao de Dados. Traduzido de Han e Kamber (2006, p. 29).

Outro conceito aplic´avel neste contexto ´e o de Descoberta de Conhecimento em Bases de Dados (Knowledge Discovery from Data - KDD1

). Este conceito pode ser visto como

1A defini¸c˜ao Knowledge Discovery in Databases tamb´em pode ser encontrada na literatura para a sigla

um processo mais abrangente, o qual inclui em uma de suas etapas o processo de minera¸c˜ao de dados. Mesmo assim, o termo Data Mining tem sido mais utilizado (HAN; KAMBER, 2006).

A Figura 29 apresenta o processo KDD, incluindo a etapa de minera¸c˜ao de dados. Dados de diversas fontes s˜ao pr´e-processados a fim de se garantir a consistˆencia dos mes- mos. Em seguida, os mesmos podem ser integrados em um reposit´orio central. Na etapa seguinte, um subconjunto de interesse ´e recuperado do reposit´orio. Nesta etapa, pode ser necess´aria a realiza¸c˜ao de transforma¸c˜oes sobre os dados: como exemplo, pode-se recorrer `a normaliza¸c˜ao dos mesmos. A maior parte do tempo ´e gasta nestas etapas, podendo atingir at´e 70% do tempo total. Em seguida, tem-se o processo de minera¸c˜ao, onde m´e- todos s˜ao aplicados a fim de se extrair padr˜oes sobre os dados. Ap´os este processo, os resultados podem ser avaliados por m´etricas espec´ıficas - que funcionam como indicadores de qualidade sobre o processo de minera¸c˜ao -, e apresentados ao usu´ario por t´ecnicas de visualiza¸c˜ao e representa¸c˜ao de conhecimento. Este processo segue em um fluxo de da- dos, informa¸c˜ao e conhecimento, onde partindo-se sobre a massiva quantidade de dados, busca-se alcan¸car um novo conhecimento sobre certo fenˆomeno (HAN; KAMBER, 2006; REZENDE, 2009).

Figura 29: Processo KDD incluindo a Minera¸c˜ao de Dados. Adaptado de Han e Kamber (2006, p. 6).

tada na Figura 30. Na camada base, tem-se as fontes de dados, que podem ter diferentes origens. Na camada superior, tem-se uma unidade central ou data warehouse, a qual ´e respons´avel por armazenar os dados selecionados pelo usu´ario em seu processo de minera- ¸c˜ao. O m´odulo de minera¸c˜ao inclui os algoritmos para realiza¸c˜ao de tarefas, tais como a classifica¸c˜ao e an´alise de correla¸c˜ao. Este m´odulo interage com o m´odulo de avalia¸c˜ao de padr˜oes, que comporta as m´etricas utilizadas para reconhecimento de padr˜oes. Observa- se que estes dois m´odulos est˜ao ligados `a base de conhecimento. O conhecimento pr´evio acerca do dom´ınio dos dados ´e utilizado como guia durante o desenvolvimento do m´o- dulo de minera¸c˜ao e do m´odulo de avalia¸c˜ao de padr˜oes. No topo, tem-se a interface de comunica¸c˜ao com o usu´ario, a qual permite a intera¸c˜ao do mesmo com o sistema, permi- tindo a realiza¸c˜ao de consultas e demais tarefas durante o processo de minera¸c˜ao (HAN; KAMBER, 2006).

Figura 30: Arquitetura geral de um Sistema de Minera¸c˜ao de Dados. Adaptado de Han e Kamber (2006, p. 8).

5.2.1

Funcionalidades da Minera¸c˜ao de Dados

O processo de minera¸c˜ao de dados tem por objetivo final a extra¸c˜ao de conhecimento em grandes quantidades de dados, conforme definido na Se¸c˜ao 5.2.

Algumas caracter´ısticas definem tarefas no processo de minera¸c˜ao de dados, as quais podem ser definidas como descritivas ou preditivas. Enquanto as tarefas descritivas ca- racterizam as propriedades dos dados, as preditivas visam visam realizar inferˆencias sobre os mesmos a fim de se obter comportamentos futuros. As seguintes funcionalidades s˜ao destacadas por Han e Kamber (2006):

• Caracteriza¸c˜ao e Discrimina¸c˜ao de Dados: a caracteriza¸c˜ao visa sumarizar os dados de uma classe de estudo, denominada classe alvo. A discrimina¸c˜ao visa comparar a classe alvo com um conjunto de classes comparativas, denominadas classes contraste. Os resultados da caracteriza¸c˜ao podem ser apresentados de v´arias formas, como gr´aficos de pizza e de barra;

• Minera¸c˜ao de Padr˜oes, Associa¸c˜oes e Correla¸c˜oes: o termo padr˜ao recorrente ´e auto-explicativo. Han e Kamber (2006) classifica os padr˜oes recorrentes em trˆes tipos: conjunto de items, sequenciais e estruturados. Os padr˜oes em conjuntos de itens acontecem quando um conjunto de atributos aparece simultaneamente. Exemplificando-se, um comerciante pode observar que uma parte consider´avel das pessoas que compram um computador adquire tamb´em uma impressora. J´a os padr˜oes sequenciais s˜ao formados pelo desencadeamento de a¸c˜oes. Por exemplo, o mesmo comerciante pode observar que pouco tempo ap´os comprarem um mp3 player, os compradores adquirem um novo fone de ouvido. J´a os padr˜oes sub- estruturados s˜ao formados por sequˆencias sistematizadas de padr˜oes em conjuntos de itens e/ou sequenciais. A minera¸c˜ao de padr˜oes recorrentes leva `a descoberta de associa¸c˜oes e correla¸c˜oes;

• Classifica¸c˜ao e Predi¸c˜ao: a classifica¸c˜ao ´e o processo de encontrar uma fun¸c˜ao (ou modelo) que descreve e distingue classes em um conjunto de dados, identificadas por r´otulos. Desta forma, torna-se poss´ıvel a utiliza¸c˜ao desta fun¸c˜ao para tentar identificar a classe pertencente de objetos cujo r´otulo ainda ´e desconhecido. Para deriva¸c˜ao do modelo, recorre-se a um conjunto de treinamento caracterizado por valores j´a rotulados. Destaca-se que anteriormente aos processos de classifica¸c˜ao e predi¸c˜ao, uma an´alise de relevˆancia deve ser realizada como tentativa de identifica¸c˜ao de atributos que n˜ao contribuem para estes processos, os quais podem ser exclu´ıdos; • An´alise de Agrupamentos (Cluster Analysis): a an´alise de agrupamentos ´e realizada sem a consulta ao r´otulo da classe; de uma forma geral, tais valores s˜ao ainda desconhecidos nesta etapa, e o processo de clusteriza¸c˜ao pode ser realizado para

encontr´a-los. Neste processo, os objetos s˜ao agrupados de maneira com aqueles que pertencem a um mesmo cluster tenham a maior similaridade entre si, mas tenham tamb´em a maior dissimilaridade se comparados a objetos de outros clusters. Ao t´ermino do processo, cada cluster formado pode ser visto como uma classe de objetos;

• An´alise de Anomalias (Outliers): as anomalias s˜ao caracterizadas por elementos que n˜ao respeitam o comportamento habitual ou o modelo dos dados. Em algumas aplica¸c˜oes, como detec¸c˜ao de fraudes, estes elementos podem ser mais interessantes que os habituais. Em contrapartida, em outros cen´arios, tais valores podem n˜ao ser interessantes, os quais podem ser descartados;

• An´alise de Evolu¸c˜ao: a an´alise de evolu¸c˜ao descreve e modela regularidades ou tendˆencias de objetos cujo comportamento varia ao longo do tempo. Esta an´alise pode incluir todas as etapas anteriores, al´em da an´alise de s´eries temporais.