PROCESSO DE DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS 30

Segundo Fayyad, Piatetsky-Shapiro e Smyth (1996), a Descoberta de Conheci- mento em Bases de Dados (DCBD) é o processo não trivial de descobrir padrões novos, válidos, úteis e compreensíveis a partir de bancos de dados. Padrões são válidos quando podem ser aplicados a novos dados com algum grau de certeza dos resultados. Os padrões são úteis quando podem gerar uma ação prática e se transformar numa vantagem competitiva. E os padrões são compreensíveis quando podem ser repre- sentados numa linguagem que pode ser compreendida pelos usuários.

Este processo envolve as seguintes etapas:

• Compreensão do domínio da aplicação e identificação do objetivo do processo de DCBD.

• Criação de um conjunto de dados alvos: seleção do conjunto de dados nos quais a descoberta será executada.

• Pré-processamento e limpeza dos dados: operações básicas como remoção de ruído se apropriado, coletar as informações necessárias para o modelo, tratar campos de dados ausentes.

• Projeção e redução dos dados: encontrar características úteis para representar os dados dependendo do objetivo da tarefa. Utilização de métodos de redução ou transformação para reduzir o número efetivo de variáveis.

• Combinar o objetivo do processo de DCBD com um método particular de data

mining, isto é, sumarização, classificação, regressão, clusterização etc.

• Escolha do algoritmo de data mining: selecionar o método (ou os métodos) a ser(em) utilizado(s) para a busca de padrões nos dados.

• Aplicação do algoritmo de data mining: busca por padrões interessantes repre- sentados em uma forma em particular ou num conjunto de representações como: regras ou árvores de classificação, regressão, clusterização, etc.

• Interpretação dos padrões minerados: possibilidade de retornar para qualquer um dos passos anteriores para iterações adicionais. E este passo pode também envolver a forma de visualização dos padrões / modelos extraídos.

• Consolidação do conhecimento descoberto: incorporar este conhecimento em outro sistema para ações adicionais, ou simplesmente realizar sua documenta- ção relatando partes interessantes. Também inclui detecção e resolução de conflitos com o conhecimento prévio do próprio usuário (especialista do domínio) ou do extraído.

A figura 2 apresenta um resumo dos passos que compreendem o processo de DCBD.

Figura 2: Os passos do processo de DCBD adaptado Fonte: Fayyad, Piatetsky-Shapiro e Smyth (1996)

Assim, pode-se resumir que a DCBD consiste na descoberta de conhecimento útil em dados. Em se tratando de grandes volumes de dados, a utilização de ferramen- tas torna-se necessária e é de grande ajuda ao especialista (ou usuário). Durante todas as etapas, as tarefas são realizadas pelo usuário interagindo com o sistema DCBD, podendo para algumas existir métodos automatizados ou não.

Caso em algum momento o usuário perceba que os padrões gerados não estão de acordo com o seu conhecimento, ou que existem conflitos, ou a necessidade de se testar a geração de novos padrões, é possível recorrer a etapas anteriores do processo retomando a sua execução, caracterizando assim, a interatividade e a iteratividade do processo de DCBD.

2.3.1 DESCOBERTA DE CONHECIMENTO EM TEXTO

Text Mining (ou KDT – Descoberta de Conhecimento em Texto) é o processo de extrair padrões ou conhecimentos interessantes e não-triviais a partir de documentos textuais. Diferentemente da Descoberta de Conhecimento em Bancos de Dados (DCBD), documentos textuais são apresentados normalmente de forma não estrutura- da.

Como a forma mais natural de armazenar informação é texto, a mineração de textos tem uma demanda maior do que a mineração de dados, pois a forma mais co- mum de armazenamento de informações é em documentos textuais. Porém, é um processo muito mais complexo à medida que envolve procedimentos com dados textuais que estão em linguagem natural, não estruturados e confusos. (apud NASUKAWA, NAGANO, 2001).

Segundo Nasukawa e Nagano (2001), o conhecimento disponível com pessoas pode ser armazenado em textos, os quais serão analisados para se entender seu signi- ficado, ou seja, do que tratam os textos. Depois, pode-se explorar o conhecimento ex- traído dos textos para gerar novos conhecimentos que podem ser de extrema impor- tância para os gestores na tomada de decisão.

Diferente das técnicas de busca e organização de documentos, a descoberta de conhecimento tem propósito e resultados bem mais úteis, no enfoque de obtençáo de conhecimento tácito a partir de consultas textuais. O quadro 2 mostra um comparativo das tecnologias de manuseio de documentos, feita por Nasukawa e Nagano (2001).

Comparativo de tecnologias de manuseio de documentos Função Propósito Tecnologia Representação

de Dados Processamento de Linguagem Natural Resultados (Saída) Busca de Doc- umentos Focalizado em dados relacio- nados a tópicos específicos Recuperação de Informação Palavras Cha- ve, Sequência de Caracteres Extração de Palavras Chave Um conjunto de documentos Organização de Documentos Visão geral de tópicos Clustering e Classificação Conjunto de Palavras Chave Análise de Distribuição de Palavras Chave Conjuntos (clusters) de documentos

Comparativo de tecnologias de manuseio de documentos Descoberta de Conhecimento Extração de informações interessantes do conteúdo Processamento de Linguagem Natural, Data Mining e Visu- alização Conceitos se- mânticos Análise semân- tica, análise de intenções Informação digerida (ten- dências, regras de associação, etc) Quadro 2: Comparativo de Tecnologias de Manuseio de Documentos adaptado

Fonte: Nasukawa e Nagano (2001).

Para Tan (1999), o processo de KDT pode ser realizado aplicando-se técnicas de DCBD sobre dados extraídos de textos, não necessariamente valores numéricos, mas podendo ser também valores nominais, como palavras do texto. Entretanto, KDT não inclui somente a aplicação das técnicas tradicionais de KDD mas também qualquer técnica nova ou antiga que possa ser aplicada no sentido de encontrar conhecimento em qualquer tipo de texto.

Rezende (2003), afirma que KDT é um campo multidisciplinar, envolvendo re- cuperação de informação, análises textuais, extração de informação, agrupamento, categorização, visualização, tecnologias de base de dados, compreeende nas seguintes fases:

• Coleta de Documentos; • Pré-processamento;

• Extração de Conhecimento;

• Avaliação e Interpretação dos Resultados.

Ainda segundo Rezende (2003), a coleta de documentos consiste no primeiro passo do processo e tem como função recuperar os documentos que possam ser rele- vantes para alcançar o objetivo. Como os documentos coletados podem estar em dife- rentes formatos, o pré-processamento pode envolver a padronização dos mesmos para um formato único.

Além disso, essa etapa é responsável por obter uma tabela no formato de atribu- to-valor, que represente o conteúdo de uma coleção de documentos. Com representa- ção dos documentos na forma atributo-valor, é possível aplicar as técnicas de extração de padrões. Para isso, na etapa de extração de conhecimento, pode ser feita a utiliza- ção de sistemas de aprendizado com a finalidade de encontrar padrões, tendências,

similaridades de acordo com o objetivo e requisitos do usuário e/ou domínio da aplica- ção.

Na etapa de avaliação e interpretação dos resultados, os padrões encontrados podem ser analisados junto a usuários finais, especialistas do domínio ou analistas de dados.

Mediante algumas circunstâncias, como na obtenção de um resultado pouco significativo, pode ser necessário que o processo seja refeito, adequando-se algumas de suas etapas, seja para contar com uma gama mais informativa de documentos, ou mesmo com alguma estratégia que possa melhorar o desempenho do processo (REZENDE, 2003).

2.3.2 FRAMEWORK DE MINERAÇÃO DE TEXTO DE AH-WEE TAN

Tan (1999), propõe um framework para mineração de texto, que é composto de duas fases: uma etapa de refinamento de texto (text refining), onde o documento origi- nal é convertido em uma forma livre para uma forma intermediária e uma etapa posteri- or de destilação do conhecimento (knowledge distillation), que deduz padrões ou co- nhecimento a partir da forma intermediária.

Existem dois tipos de formas intermediárias: uma baseada em documento, onde cada entidade representa um documento, e outra baseada em conceito, onde cada entidade representa um objeto ou conceito de interesses em um domínio específico. A destilação em uma forma intermediária baseada em documento deduz padrões e relacionamentos entre documentos, enquanto a mineração de uma forma intermediária baseada em conceito deriva padrões e relacionamentos entre objetos e conceitos.

Na forma intermediária baseada em documento, as formas de extração de co- nhecimento são a de clustering, categorização, visualização e outras similares, enquan- to na forma intermediária baseada em conceito, as formas de extração de conhecimen- to são a de modelagem preditiva, descoberta associativa, visualização, dentre outras similares.

A figura 2 representa o framework de mineração de texto proposto por Ah-Wee Tan.

Figura 2: Framework de mineração de texto de Ah-Wee Tan, 1999

No documento Inteligência de fontes abertas : um estudo de caso sobre descoberta de conhecimento no Diário Oficial da União (páginas 33-38)