• Nenhum resultado encontrado

2. Estado da arte

2.4 A descoberta de conhecimento em bases de dados

2.4.1 Data Mining

O avanço da tecnologia tem proporcionado novas formas de criar e armazenar dados (Santos e Azevedo, 2005). Hoje em dia, a quantidade de dados armazenados excede a capacidade de análise desses mesmos dados sem o uso de técnicas de análise automatizadas. Como consequência deste aumento efetivo de informação, o processamento através de métodos tradicionais tornou-se mais difícil e complexo (Goebel e Gruenwald, 1999). As ferramentas convencionais de análises de dados têm capacidades limitadas em detetar padrões e descobrir o conhecimento inserido nos dados, pois só utilizam métodos estatísticos (Santos e Azevedo, 2005). A extração de conhecimento nas bases de dados é um campo que está em evolução de forma a fornecer soluções de análise automatizadas.

A necessidade de desenvolver um processo automático ou semiautomático para a extração de conhecimento a partir de bases de dados consiste numa resposta a cinco grandes desafios, referidos por Tan et al. (2006), que motivaram o desenvolvimento do DM em detrimento da utilização das metodologias de análise de dados tradicionais:

Capítulo 2 | Estado da arte 45

i) Dimensionalidade: o crescimento exponencial da capacidade de processamento e armazenagem dos sistemas informáticos e consequente decréscimo dos custos de geração, recolha e armazenamento de informacao resultam em novas e multifacetadas estruturas de bases de dados com uma vastidão de atributos associáveis a cada objeto de estudo;

ii) Escalabilidade: as técnicas e algoritmos desenvolvidos devem ser altamente escaláveis, ou seja, devem funcionar com grandes volumes de dados (terabytes de informação). Como norma, as técnicas de análise de dados tradicionais podem funcionar bem com pequenas amostras mas não ser suficientemente escalável para tratar bases de dados com maior dimensão;

iii) Heterogeneidade e complexidade: as bases de dados armazenam novas tipologias de atributos diferentes dos atributos tradicionais (categóricos e numéricos) comummente utilizados em análise de dados. Por outro lado, têm surgido novas e complexas fontes de dados provenientes de paginas web, redes sociais, fluxo constante de dados (data streams), etc;

iv) Distribuição da informação: a circulação da informação é um aspeto fulcral na capacidade de aceder, armazenar e disponibilizar informação. Torna-se essencial responder a desafios como: reduzir a quantidade de informação, consolidar os resultados da análise de dados provenientes de multiplas fontes, e garantir a segurança da informação do ponto de vista da sua qualidade e também da privacidade;

v) Paradigma de análise: o principio tradicional das técnicas de análise de dados baseia-se na utilização de testes de hipótese, a partir do qual se desenha um dispositivo experimental que permite recolher os dados necessários para o teste e posterior análise da hipótese colocada. A dimensionalidade, heterogeneidade e complexidade da informação disponível torna extremamente complexo este processo, que obrigaria, por exemplo, à colocação de centenas de hipóteses.

Tornou-se necessário uma nova geração de técnicas e ferramentas computacionais de forma a assistir o ser humano na extracção de informação útil, isto é, conhecimento. O DM surge da convergência de várias disciplinas, nomeadamente, a estatistica clássica, a IA e a aprendizagem automática, entre outras, para responder a todos estes desafios colocados pela rápida evolução dos recursos e tecnologias computacionais verificados nas últimas decadas.

Por tudo isto, emergiu a área da DCBD (Knowledge Discovery in Databases – KDD), recorrendo a modelos e técnicas de DM para extrair conhecimento útil, padrões e tendências, previamente desconhecidas, de forma autónoma e semi-automática (Apte et al., 2002).

O processo de descoberrta de conhecimento em bases de dados é iterativo e interativo, envolvendo diversas etapas, como é demonstrado na Figura 2-11.

Figura 2-11 - Fases do processo de DCBD.

Desta forma, pode-se considerar os seguintes passos no processo de extração de conhecimento (Fayyad et al., 1996a):

i) Seleção de dados, consiste na recolha e criação de um conjunto de dados que servirão de base de estudo. Com o domínio de estudo especificado, deve-se localizar e escolher quais as fontes de dados que servirão de base ao estudo a efetuar, para que um conjunto de dados apropriado possa ser selecionado e retirado das mesmas. As fontes de dados utilizadas para realizar o processo de DCBD podem ser classificadas como internas e externas. As fontes internas normalmente são repositórios de dados que já estão incorporados no sistema de aplicação do domínio em questão, e normalmente, são constituídas por data warehouses 3, bases de dados operacionais e dados

históricos. As fontes externas são compostas por todos os outros tipos de dados que habitualmente não estão incorporados no sistema de aplicação. Os dados existentes em fontes internas normalmente já estão armazenados em algum tipo de repositório estruturado (i.e. bases de dados relacionais) e por isso, requerem menos processamento, já que eles podem ser recuperados utilizando-se, por exemplo, consultas SQL4. No entanto, os dados contidos em fontes externas necessitam de

3 Ou base de dados. Consiste num sistema de computação utilizado para armazenar informações relativas às atividades de uma organização em

bases de dados.

Capítulo 2 | Estado da arte 47

formatação e seguidamente serem inseridos no sistema para que possam ser recuperados e preparados para análise. As fontes de dados podem possuir quantidades na ordem dos gigabytes ou terabytes e, além disso, estes dados podem ser provenientes de distintas fontes, necessitando que estes sejam reduzidos e colocados num conjunto de dados com estrutura homogénea (i.e. tabelas) de forma a permitir a sua análise conjunta. A realização de amostragem é crítica dentro do processo de DCBD, pois se não forem utilizadas técnicas estatísticas adequadas, pode- se gerar um subconjunto de dados não representativo, resultando análises que não demonstram a verdadeira situação dos factos registados na base de dados ou distorcendo os possíveis resultados;

ii) Pré-processamento dos dados: decide-se as estratégias e realizam-se as devidas limpezas dos dados, a fim de remover ruídos e tratar possíveis inconsistências. Seguidamente, é efetuada uma análise dos dados armazenados, verificando a sua topologia e a identificação de valores ausentes e/ou desconhecidos;

iii) Transformação dos dados: como as técnicas (algoritmos) de DM poderão não conseguir aceder e processar os dados no seu formato original, devido à forma de armazenamento ou normalização adotada na modelação da base de dados de suporte ao estudo, torna-se necessária a conversão desses mesmos dados para um formato mais apropriado, sendo possível ainda a sua sumarização, a fim de reduzir o número de variáveis consideradas ou criar novos atributos que possam ser agregadores de valor à base de dados;

iv) Data mining: etapa onde é selecionada e aplicada uma determinada técnica de acordo com o objetivo do processo de DCBD, isto é, classificação, previsão, descrição, segmentação ou visualização. Nesta fase é escolhida a técnica (algoritmo) de DM e sua metodologia de implementação na busca de novos padrões de conhecimento. Esta escolha dependerá do objetivo do DM, que poderá passar pela criação de modelos de predição ou apenas a obtenção de uma melhor compreensão da base de dados. Posteriormente, são aplicadas as técnicas selecionadas sobre os dados analisados com o objetivo de localizar os padrões desejados. A qualidade dos resultados desta etapa depende diretamente da correta execução das etapas anteriores. Esta é a fase em que através da utilização de algoritmos de DM, os dados previamente seleccionados, pré-processados e transformados são utilizados pelo algoritmo de DM

escolhido com base no objectivo do processo de DCBD: regressão, classificação, previsão, etc. As tarefas e os algoritmos de DM são objecto de uma descrição mais detalhada nas subsecções 2.4.3 e 2.4.4;

v) Interpretação dos resultados: os novos padrões de conhecimento encontrados devem ser validados a partir da interpretação e avaliação destes. Para interpretação dos padrões extraídos, é possível lançar mão a ferramentas estatísticas e de visualização que permitam efetuar uma “leitura” precisa dos resultados obtidos, de forma a possibilitar a verificação da validade e novidade, ou mesmo, a relevância dos padrões encontrados. Caso o conhecimento não seja validado, então, pode-se retornar às etapas anteriores e tentar refazê-las ou melhorá-las. Esta iteração pode ocorrer até que se obtenha resultados aceitáveis ou concluir-se que não seja possível extrair conhecimento relevante dos dados em análise.

Desta forma, a DCBD, tecnicamente, deslumbra-se como um desafio de carácter significante, bem como difícil. De forma global, o processo de DCBD é considerado “a extracção não trivial de informação implícita, previamente desconhecida e potencialmente útil, a partir dos dados” (Fayyad et al., 1996a). Assim, faz-se uma distinção clara entre a extração dos dados e a descoberta de conhecimento. A descoberta de conhecimento examina os resultados tal como provêm da análise dos dados (processo de extrair tendências ou modelos dos dados), e após este processo, de forma cuidada e com precisão, transforma-os em informação útil e compreensível. Esta informação não é tipicamente recuperável pelas técnicas normais, mas sim através do uso de técnicas de IA (Fayyad e Piatetsky-Shapiro, 1996b).

O processo de DCBD depende de uma nova geração de ferramentas e técnicas de análise de dados, que envolve diversas etapas. A principal, que forma o núcleo do processo e que muitas vezes se confunde com ele, tal como referido anteriormente, chama-se DM.

O DM e a DCBD tornaram-se proeminentes campos de pesquisa em constante e rápido crescimento. Muitas técnicas e algoritmos têm sido desenvolvidos e utilizados em DM. Se os dados armazenados estão disponibilizados em diferentes formatos e/ou tabelas, têm que ser integrados numa etapa de preparação, pré-etapa de DM. Esta etapa de preparação dos dados não é automatizada através de nenhuma ferramenta de DM.

O DM, por outro lado, através do uso de algoritmos específicos ou de mecanismos de pesquisa, tenta descobrir padrões discerníveis e tendências nos dados, inferindo regras para os mesmos (Han e Kamber, 2001).

Capítulo 2 | Estado da arte 49

Quando, ao longo do processo de DCBD, ocorrem falhas originadas por decisões que se revelam inapropriadas, estas vão refletir-se na validade e utilidade dos modelos obtidos, não satisfazendo os objetivos delineados, ou retratando apenas o comportamento dos dados analisados, não podendo ser aplicados a dados desconhecidos por uma dificuldade de generalização. Quando se verificam estes casos, retrocede-se no processo, de modo a alterar as decisões tomadas, sendo o processo posteriormente retomado, permitindo identificar novos modelos que resultam das alterações efetuadas, verificando o grau de validade e utilidade dos mesmos e analisando o incremento ou decremento relativamente aos modelos anteriormente gerados (Teixeira, 2005).

Apesar dos algoritmos disponíveis possuirem critérios objetivos de avaliação da qualidade das regras, a introdução de medidas de interesse subjetivas tem como propósito limitar o conjunto de resultados a apresentar ao utilizador. A definição de medidas de interesse subjetivas, e que dependem de utilizador para utilizador, tendem a aumentar o grau de envolvimento do utilizador no processo de descoberta de conhecimento, tendo como contrapartida o aumento do interesse das diversas regras encontradas. Duas medidas de interesse subjetivas são o grau de surpresa, salientando que um padrão é interessante se ele é inesperado pelo utilizador, e a utilidade do padrão, sendo este interessante se o utilizador ou a organização poder usufruir do mesmo em seu benefício (Teixeira, 2005).