• Nenhum resultado encontrado

DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS (KDD)

No documento Download/Open (páginas 31-37)

1. INTRODUÇÃO

2.2 DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS (KDD)

Para Cardoso e Machado (2008) a necessidade de informações disponíveis vem crescendo nos últimos anos e vários fatores contribuíram para esse aumento. O baixo custo de armazenagem pode ser visto como a principal causa do surgimento dessas enormes bases de dados. Outro fator é a disponibilidade de computadores de alto desempenho a um custo razoável. Como consequência, bancos de dados passam a conter verdadeiros tesouros de informação e, devido ao seu volume, ultrapassam a habilidade técnica e a capacidade humana na sua captação e interpretação.

As organizações têm se mostrado bastante eficientes em capturar, organizar e armazenar grandes quantidades de dados, obtidos de suas operações diárias. Porém, a maioria delas ainda não usa adequadamente essa grande massa de dados para transformá-la em conhecimentos que possam ser utilizados em suas próprias atividades. Com a geração de um volume cada vez maior de informação, é essencial tentar aproveitar o máximo possível desse investimento (AMORIM, 2006).

A análise de grandes quantidades de dados pelo homem é inviável sem o auxílio de ferramentas computacionais apropriadas. Portanto, torna-se imprescindível o desenvolvimento de ferramentas que auxiliem o homem, de forma automática e inteligente, na tarefa de analisar, interpretar e relacionar esses dados para que se possa desenvolver e selecionar estratégias de ação em cada contexto de aplicação (GOLDSCHMIDT e PASSOS, 2005).

Num ambiente mutável, como o das organizações na atualidade, torna-se necessária a aplicação de técnicas e ferramentas automáticas que agilizem o processo de extração de informações relevantes de grandes volumes de dados. Uma metodologia emergente, que tenta solucionar o problema da análise de grandes

quantidades de dados e ultrapassa a habilidade e a capacidade humanas, é o

Knowledge Discovery in Databases - KDD (CARDOSO e MACHADO, 2008).

Goldschmidt e Passos (2005, p. 2) também afirmam que para atender a este novo contexto, surge a área denominada Knowledge Discovery in Databases - KDD (em português, o acrônimo é o DCBD), que vem despertando grande interesse junto às comunidades científica e industrial.

A utilização do KDD acontece principalmente em organizações em que grandes bancos de dados são formados e há uma percepção do valor da sua análise de forma eficaz. Sem essa interpretação correta dos dados, importantes análises e decisões deixam de ser amparadas pelas informações contidas nos registros da empresa e passam a ser feita apenas na intuição de um tomador de decisão.

Os bancos de dados presentes nas organizações são utilizados para extrair informações úteis, mas o processo KDD provê mais do que isso, pois permite a determinação de padrões e modelos de forma que estes sejam os alicerces para a construção de conhecimento. Segundo Lemos (2003), isso ocorre porque o KDD é um processo interdisciplinar, que envolve diversas áreas do conhecimento que completam o processo de transformação dos dados, dentre elas estão: o aprendizado de máquina, bases de dados, a matemática e a estatística, sistemas especialistas e visualização de dados, como ilustra a Figura 2.

Figura 2 - Característica multidisciplinar do KDD

O mecanismo de descoberta de conhecimento em Mineração de Dados (MD) consiste em uma série de etapas, iniciando com a definição dos objetivos para os quais é aplicado novo conhecimento até a exposição do mesmo a alta direção da organização como apoio a tomada de decisão. A MD propriamente dita é apenas uma destas etapas, conforme será mostrado na Figura 3.

No âmbito do KDD e da Mineração de Dados, é notável o trabalho pioneiro de Fayyad et al. (1996), resultado da compilação de vários artigos descritos por uma série de Workshops que foram realizados entre os anos de 1989 e 1994, que abordavam processos, modelos de classificação, clusterização e perspectivas estatísticas (ARAÚJO, 2007).

Segundo Fayyad et al. (1996, p. 6) o KDD é um processo que tem por objetivo a descoberta de conhecimento em banco de dados, sendo um processo não trivial de identificação de padrões, a fim de extrair informações implícitas e potencialmente úteis.

Para Fayyad apud Carvalho (2005a), os termos Data Mining e KDD (ou DCBD) muitas vezes são confundidos como sinônimos para identificar o processo de descoberta de conhecimento útil a partir de bancos de dados. O termo KDD foi estabelecido no primeiro workshop de KDD em 1989 para enfatizar que conhecimento é o produto final de uma descoberta baseada em dados.

Ainda no entendimento de Fayyad et al. (1996), o KDD se refere a todo o processo de descoberta de conhecimento mediante o processamento de dados, e envolve também a limpeza e preparação, incorporação de conhecimento e apresentação de resultados. O processo de KDD é interativo e iterativo, pois requer o envolvimento dos utilizadores nas tomadas de decisão e permite voltar às etapas anteriores. O processo é desenvolvido por uma sequência de etapas (Figura 3), não necessariamente por uma ordem linear, podendo ser realizadas por diversas vezes, bem como voltar aos passos anteriores para uma revisão do processo. A obtenção de

informação e de conhecimento válido e potencialmente útil só é possível com uma participação ativa dos utilizadores, ao nível das tomadas de decisão nas diferentes etapas que compõem o processo.

Figura 3 - Etapas do processo KDD

Fonte: FAYYAD et al. (1996, p. 10)

Damasceno (2010) explica as etapas da Figura 3, referentes ao processo KDD descrito por Fayyad et al. (1996), conforme descrito abaixo.

Na primeira etapa é necessária a definição dos objetivos do usuário, ou seja, definir o tipo de conhecimento que se deseja extrair do banco de dados. Após o levantamento de requisitos, deve-se criar o conjunto de dados no qual o processo irá trabalhar. Este conjunto de dados deve conter todas as informações necessárias para que os algoritmos de mineração possam alcançar seu objetivo. Essa etapa é conhecida como Seleção.

A segunda etapa é composta por tarefas de Pré-Processamento. Técnicas de pré-processamento são responsáveis pela remoção de ruídos (erros e exemplos fora do padrão), pela definição de estratégias para lidar com valores faltosos e pela formatação dos dados de acordo com os requisitos da ferramenta de mineração.

A terceira etapa, conhecida como Transformação, tem por objetivo localizar características úteis para representar os dados. É responsável também pela seleção dos melhores exemplos e atributos presentes no conjunto de dados. Após os dados terem sido limpos e pré-processados, aplica-se as técnicas de Mineração de Dados para alcançar os objetivos definidos na primeira etapa. Os objetivos identificados podem ser descritos como tarefas de classificação, regressão, agrupamento, predição, etc. É necessário escolher qual algoritmo de mineração deve ser utilizado após a determinação de qual tarefa de mineração será executada. As técnicas são escolhidas de acordo com as características dos dados e com os requisitos apresentados pelos usuários. Algumas técnicas de mineração contêm parâmetros que são utilizados em seu funcionamento, também faz parte desta etapa encontrar os melhores parâmetros, para que o método possa ser o mais preciso e ágil possível. Somente após todas essas tarefas terem sido realizadas, é hora da execução propriamente dita do algoritmo de mineração.

Na quarta etapa da Mineração de Dados, é que o algoritmo irá procurar por padrões utilizando as suas estratégias e todos os dados que foram informados.

A quinta etapa é a de Interpretação/Avaliação dos padrões identificados. Este passo inclui visualizar os padrões extraídos ou os modelos que resumem a estrutura e as informações presentes nos dados. Além da visualização, são utilizadas medidas tanto técnicas quanto subjetivas para avaliar os padrões extraídos. As medidas técnicas são informações referentes à precisão, erro médio, erro quadrático e taxas de falsos positivos e falsos negativos. Medidas subjetivas são referentes a informações como utilidade, entendimento ou complexidade dos padrões extraídos.

Ao final de todo o processo tem-se o “Conhecimento” em forma de padrões. Sendo assim, pode-se utilizar os padrões extraídos para os quais eles foram desejados. Os padrões podem ser utilizados sozinhos ou embutidos em outros sistemas.

A fase de preparação dos dados (que vai até a etapa de Transformação da Figura 3) absorve uma boa parte do tempo do processo Knowledge Discovery in

Databases (KDD), consumindo aproximadamente 70%, além de ser uma fase de

grande importância, pois nela são identificados os dados relevantes para a solução satisfatória do problema. Na verdade, apenas ter os dados não é suficiente; é necessário que eles estejam suficientemente corretos, adequados e tenham sido corretamente selecionados para que preencham todas as características desejadas. Para que um processo KDD obtenha sucesso, é necessário que os dados estejam disponíveis para o processamento e em condições de serem utilizados (AMARAL, 2001, p. 17).

Para que seja possível realizar a análise de grandes volumes de dados durante a fase de preparação dos dados, é importante mencionar outra área correlata à atividade de Mineração de Dados chamada Data Warehouse (DW). A criação de um DW é considerada como um dos primeiros passos para viabilizar a análise em grandes massas de dados (REZENDE, 2005, p. 308). Segundo Tarapanoff (2001, p. 271) o DW é um aliado no sentido de tornar a MD mais eficiente, além da análise de transações individualizadas, é possível tirar proveito da agregação e sumarização de coleções de dados-alvo.

Um Data Warehouse é uma forma de organizar os dados corporativos em um banco de dados paralelo, onde os dados se encontram bem estruturados e consolidados. Além de estar perfeitamente integrado ao ambiente operacional (que utilizam dados tipicamente armazenados, recuperados e atualizados pelos sistemas de informação da empresa), ele permite a segmentação dos dados e introduz mais atributos que podem aumentar o nível de informação, principalmente levando em conta o contexto histórico dos dados.

De acordo com Inmon e Hackathorn (1997), considerados pioneiros sobre o tema, o DW é uma coleção de dados integrados, orientados por assunto, variáveis com o tempo e não voláteis, usados para suporte ao processo gerencial de tomada de

decisões. O objetivo de um DW é fornecer uma imagem única da realidade do negócio. De uma forma geral, sistemas de Data Warehouse compreendem um conjunto de programas que extraem dados do ambiente de dados operacionais da empresa, um banco de dados que os mantém, e sistemas que fornecem estes dados aos seus usuários.

No documento Download/Open (páginas 31-37)