• Nenhum resultado encontrado

Descoberta de Conhecimento em Bases de Dados

Com uma produção de dados cada vez maior, surge a necessidade de transformar esses mesmos dados em informação e conhecimento úteis.

Esta necessidade de compreender dados, por vezes complexos e semanticamente ricos é transversal a todas as áreas: negócios, ciência, engenharia, saúde, entre outras e tem vindo a assumir cada vez mais relevância no dia-a-dia das organizações e da sociedade. Assim, tem-se tornado urgente o aparecimento de novas técnicas e ferramentas computacionais capazes de ajudar o ser humano no processo de DCBD.

Ao longo dos anos, o processo de descoberta de padrões/modelos úteis em dados recebeu várias designações, Descoberta de Conhecimento em Base de Dados, Data Mining, Extração de Conhecimento, Descoberta de Informação, Coleta de Informação e Processamento de Padrões entre Dados (U. Fayyad, Piatetsky-Shapiro, & Smyth, 1996b). A DCBD é um processo complexo de extração de conhecimento a partir de grandes bases de dados recorrendo a algoritmos de Data Mining para encontrar padrões úteis nos dados. Por outro lado, Data Mining é considerada uma etapa que intervém em todo este complexo processo e que consiste na aplicação de algoritmos específicos para extrair padrões/modelos em dados.

Segundo Han et al. (Han et al., 2012) muitas vezes os termos Data Mining e DCBD são tratados como sinónimos. Alternativamente, outros autores veem o Data Mining simplesmente como uma etapa essencial no processo de descoberta de conhecimento. Frawley et al. (Frawley et al., 1992) definem o processo de DCBD como "o processo não trivial de identificação de padrões válidos e potencialmente úteis percetíveis a partir dos dados".

Este processo ao contrário da análise de dados tradicional é um processo interativo, uma vez que exige a participação do utilizador em praticamente todas as etapas e iterativo, na medida em que é possível ocorrerem retrocessos a etapas anteriores.

O processo global de DCBD é constituído por diferentes fases, que segundo Santos e Ramos (Santos & Ramos, 2006) incluem a seleção de dados, o tratamento dos dados, o pré-

processamento dos dados, o Data Mining e por fim a interpretação dos resultados. Cada uma destas fases é descrita com mais detalhe de seguida.

Figura 2.5: Etapas do processo de DCBD segundo Santos e Ramos (Santos & Ramos, 2006).

Seleção dos dados

Nesta fase é feita a seleção dos dados armazenados em diversos repositórios de dados tendo em conta os atributos que se considerem úteis, permitindo assim eliminar aqueles que não têm interesse no processo de descoberta de conhecimento, normalmente aqueles que têm caráter meramente informativo.

Tratamento dos dados

Nesta fase procede-se à limpeza de registos duplicados, corrompidos ou inconsistentes.

Os registos duplicados são normalmente originados por negligência na introdução dos dados, pelo incorreto fornecimento dos mesmos ou por erros de digitação. Por exemplo, pode ocorrer que os mesmos dados de um utilizador estarem contidos em diferentes registos e este utilizador ser considerado como duas pessoas distintas.

Esta fase é parte crucial no processo de DCBD, pois a qualidade dos dados vai influenciar os resultados a obter pelos algoritmos de Data Mining.

Pré-processamento dos dados

Esta fase passa essencialmente pela redução do espaço de pesquisa, utilizando métodos de redução ou transformação para diminuir o número de variáveis envolvidas no processo. Esta redução é conseguida transformando atributos com valores contínuos em atributos com valores discretos, nomeadamente através da substituição de idades por faixas etárias (Santos & Ramos, 2006). Com isto, pretende-se melhorar o desempenho dos algoritmos de análise na fase posterior, de Data Mining.

Data Mining

A partir da seleção de algoritmos e técnicas adequadas, procede-se à análise dos dados provenientes da fase anterior de Pré-processamento dos dados. “Não há um método de Data

certa forma uma arte." (U. Fayyad et al., 1996b). O processo de Data Mining raramente fica completo apenas pela aplicação de um único algoritmo, pelo que normalmente são combinados dois ou mais, de acordo com as tarefas a executar.

Interpretação dos resultados

Procede-se à análise dos resultados obtidos pela aplicação de algoritmos de Data Mining. Se os modelos encontrados satisfizerem o interesse do utilizador são então aplicados a novos conjuntos de dados, caso contrário é necessário identificar a razão pelo qual isso sucedeu. Para tal, provavelmente é necessário retroceder a fases anteriores do processo para alterar decisões tomadas ou então incluir novos dados na análise. O processo é posteriormente retomado, de forma a identificar novos modelos resultantes das alterações efetuadas.

Literaturas mais recentes apresentam um modelo do processo DCBD com algumas diferenças relativamente à versão inicial apresentada por Fayyad et al. (U. M. Fayyad, Piatetsky- Shapiro, Smyth, & Uthurusamy, 1996). É exemplo disso a recente versão apresentada por Han et al. (Han et al., 2012), em que o processo de DCBD é constituído por 7 fases, como mostra a Figura 2.6. Estas fases incluem a limpeza dos dados, a integração dos dados, a seleção dos dados, a transformação dos dados, o Data Mining, a avaliação do padrão e por fim a apresentação dos resultados. Cada uma destas fases é descrita com mais detalhe de seguida. Limpeza dos dados

Eliminação de ruído e dados inconsistentes. Integração dos dados

As várias fontes de dados são combinadas. Seleção dos dados

É feita a seleção dos dados armazenados em diversos repositórios para posterior análise.

Transformação

Os dados são transformados e consolidados de forma adequada para a aplicação do processo de Data Mining através da realização de operações de resumo ou agregação.

Data Mining

Aplicação de algoritmos para extrair padrões dos dados. Avaliação dos modelos

Identificação de padrões interessantes, isto é padrões que representam conhecimento para o utilizador.

Apresentação dos resultados

Técnicas de representação e visualização de conhecimento são usadas para apresentar o conhecimento extraído aos utilizadores de forma compreensível.

Figura 2.6: Processo de DCBD segundo Han etl al. (Han et al., 2012).

Depois de apresentadas as fases do processo de descoberta de conhecimento, é de seguida descrita com maior detalhe a fase de Data Mining na qual algoritmos de análise são aplicados sobre os dados.

Documentos relacionados