• Nenhum resultado encontrado

ANÁLISE DE PARÂMETROS GERAIS PARA KDD

3.1 INTRODUÇÃO

De acordo com Fayyad, Piatestky e Smyth (1996a), para cada etapa do processo KDD (pré-processamento, mineração de dados e pós-processamento), existem várias opções que podem ser selecionadas. Essas opções estão relacionadas a fator humano, domínio de aplicação e domínio de dados. Assim, neste capítulo é apresentada uma discussão sobre estes fatores.

3.2 FATOR HUMANO E DOMÍNIO DE APLICAÇÃO

A presença humana na escolha e combinação das opções de cada etapa do processo KDD é essencial devido, principalmente, a sua intuição, experiência anterior e conhecimentos para analisar, interpretar, direcionar e combinar estratégias a serem realizadas. Fayyad, Piatestky e Smyth (1996a) e Goldschmidt e Passos (2005) consideram o especialista no domínio de aplicação como um dos principais componentes necessários para melhor compreensão do processo KDD.

Goebel e Gruenwald (1999) relacionam fatores humanos necessários a cada etapa do processo KDD. Eles são classificados como: especialista em mineração de dados, em KDD, no domínio da aplicação e usuários finais (engenheiros, gerentes, administradores, etc.).

Obviamente a existência de profissionais diferentes nestes estágios exige demandas diferentes e trazem pré-requisitos diferentes. Geralmente, os usuários finais não têm capacidade de efetuar uma análise complexa nos dados, mas naturalmente eles têm um grande conhecimento do domínio da aplicação. De forma geral, é o ser humano que executa a difícil tarefa de orientar e executar o processo KDD, conforme ilustrado na Figura 3.1.

Goldschmidt e Passos (2005) apresentam o especialista em KDD como pessoa ou grupo de pessoas experientes para direcionar a execução do processo, que define o que, como e quando deve ser realizada cada ação. O especialista em KDD interage com o especialista no domínio de aplicação.

Mesmo que o processo KDD seja automatizado, o fator humano é essencial para o sucesso de sua realização, porque é ele que tem a compreensão do domínio dos dados (natureza, forma e conteúdo), sendo pré-requisito indispensável na abstração de qualquer conhecimento útil.

Na etapa de pré-processamento, por exemplo, é necessário o conhecimento sobre o domínio da aplicação e domínio de dados para facilitar a organização, limpeza e seleção do conjunto de dados.

3.3 DOMÍNIO DE DADOS

Um exemplo sobre a necessidade do conhecimento do domínio de dados é o fato de não ser possível fazer uma classificação utilizando somente o tipo de dados que foi determinado para o atributo (integer, float, string, char, boolean e etc), pois é necessário ter o conhecimento do seu valor. Este é o caso do atributo que representa o estado civil, onde pode não existir um padrão do tipo de dado que deve ser utilizado, podendo ser representado de várias formas, conforme a Tabela 3.1 abaixo:

Meta Insight

Banco de

dados Dados

processados Saídas

Analise e Visualização Consultas

Apresentação

Figura 3.1: Ser humano como elemento central do processo de KDD.

Fonte: Adaptado de (GOLDSCHMIDT; PASSOS, 2005, p. 22).

Tipo de dados Atributo Integer Char String Solteiro 0 ‘S’ ‘solteiro’

Casado 1 ‘C’ ‘casado’

Viúvo 2 ‘V’ ‘viuvo’

Divorciado 3 ‘D’ ‘divorciado’

Tabela 3.1: Tipo de dados para o atributo estado civil.

O valor do atributo pode ser representado por dois tipos de dados (qualitativo e quantitativo), encontrados na maioria dos repositórios de dados de um sistema de informação.

Os dados quantitativos são representados por valores numéricos que podem ser de duas naturezas: discreta ou contínua. Os valores de natureza discreta referem-se às contagens, por exemplo: número de acidentes com veículos registrados por mês. Os valores de natureza contínua referem-se às representações em escala, por exemplo: área, volume, peso e velocidade.

Os dados qualitativos são utilizados para nomear e atribuir rótulos, identificando característica, qualidade e categoria do atributo, podem ser de natureza nominal ou ordinal.

Não há uma ordenação nos valores de natureza nominal, desta forma só é possível definir uma relação de igualdade ou diferença, por exemplo: estado civil (casado, divorciado, solteiro, viúvo). Os valores de natureza ordinal possibilitam ordenar as categorias, por exemplo: nível de escolaridade, temperatura (frio, morno e quente).

Desta forma, os valores do atributo que representa “estado civil”, apresentando na Tabela 3.1, podem ser classificados como sendo qualitativos de natureza nominal, pois não possuem uma ordem entre seus valores.

O tipo de dado também influencia na escolha da técnica de mineração. Dias (2002) apresenta uma classificação das técnicas de mineração de dados a serem aplicadas de acordo com as características dos dados existentes, conforme pode ser visto na Tabela 3.2.

3.4 CONSIDERAÇÕES FINAIS

Neste capítulo foi discutida a importância do papel humano para a condução do processo de descoberta de conhecimento em banco de dados e a necessidade da participação humana ser especializada, pois influenciam desde a definição dos objetivos da execução do processo até a avaliação dos resultados.

Conclui-se que não é possível criar qualquer tipo de classificação de técnicas de mineração de dados e de visualização de informação utilizando somente o tipo de dado definido para um

Característica Descrição Técnicas de

Mineração de Dados Variáveis de

categorias São campos que apresentam valores de um conjunto de possibilidades limitado e predeterminado

• Descoberta de regras de associação

• Árvores de decisão Variáveis numéricas São aquelas que podem ser somadas e

ordenadas

• Raciocínio baseado em casos (MBR)

• Árvores de Decisão Muitos campos por

registro

Este pode ser um fator de decisão da técnica correta para uma aplicação específica, uma vez que os métodos de mineração de dados variam na

capacidade de processar grandes números de campos de entrada

• Árvores de decisão

Variáveis dependentes múltiplas

Caso em que é desejado prever várias variáveis diferentes baseadas nos mesmos dados de entrada

• Redes neurais

Registro de comprimento variável

Apresentam dificuldades na maioria das técnicas de mineração de dados, mas existem situações em que a

transformação para registros de comprimento fixo não é desejada

• Descoberta de regras de associação

Dados ordenados

cronologicamente Apresentam dificuldades para todas as técnicas e, geralmente, requerem

aumento dos dados de teste com marcas ou avisos, variáveis de diferença etc.

• Rede neural intervalar (time-delay)

• Descoberta de regras de associação Texto sem

formatação

A maioria das técnicas de mineração de dados é incapaz de manipular texto sem formatação

• Raciocínio baseado em casos (MBR)

Tabela 3.2: Características de dados.

Fonte: Dias (2002, p. 1718).

atributo numa base de dados, sendo essencial o conhecimento do domínio de dados antes da realização de qualquer etapa do processo de descoberta de conhecimento em banco de dados.

Documentos relacionados