Di…culdades encontradas no processo de DCBD

3.6 A dimensão dos objectos

4.1.4 Di…culdades encontradas no processo de DCBD

A exploração de dados armazenados em BD reais adiciona algumas di…culdades aos algoritmos de DM, uma vez que os mesmos têm de lidar com problemas existentes nos dados ou com a falta destes (dados). Entre as di…culdades mais usuais encontra-se ainformação insu…ciente (originada pelo tamanho da amostra ou pelos atributos disponíveis), e ainda os dados corrompidos, caracterizados por possuírem ruído ou estarem incompletos [Holsheimer e Kersten, 1994]. Nas próximas subsecções são analisados os principais problemas associados a cada um destes grupos de di…culdades.

Informação insu…ciente

Os SDC procuram regras nos dados, as quais são construídas baseadas nos dados armazenados na BD analisada. A qualidade e disponibilidade destes dados, in‡uencia os resultados que podem ser encontrados. As principais limitações encontradas ao nível da informação insu…ciente são:

² Informação incompleta. A construção de regras para classi…cação dos dados está condicionada pelo valores disponíveis na BD, e a partir dos quais as várias classes são de…nidas. Contudo, e principalmente no contexto de grandes BD, existem valores de atributos que são desconhecidos e que passam a não ser considerados na determinação dos limites das classes. Esta situação faz com que nem sempre seja possível construir regras que classi…- quem correctamente as amostras. Neste casos, as regras indicam a probabilidade de uma dada entidade pertencer a determinada classe.

² Dados dispersos. A determinação dos limites das classes, na construção de regras de classi…cação, está condicionada pelos valores veri…cados na BD para um dado atributo. O facto de poderem existir muitos valores para o referido atributo, dados dispersos, faz com que a determinação das regras seja grandemente di…cultada, não só pela determinação dos limites, com também do próprio número de classes a considerar. Como consequência, os limites das classes não podem ser determinados com exactidão, podendo nalguns casos estar mesmo incorrectos.

² Tamanho da amostra. A amostra/BD utilizada no processo de DCBD é normalmente dividida em dois conjuntos de dados: dados de treino, utilizados na construção das des- crições (modelos, padrões, ...), e dados de teste, utilizados para veri…car a validade das descrições encontradas2_{. Esta divisão permite veri…car o comportamento das descrições,}

quando utilizadas para classi…car dados desconhecidos. As BD normalmente exploradas pelos algoritmos de DM são bastante extensas, facilitando a divisão da amostra nos dois conjuntos de dados necessários. Nem sempre este requisito é veri…cado, implicando a construção de dois conjuntos de dados de tamanho reduzido, que limitam as capacida- des dos algoritmos na identi…cação dos modelos, assim como a avaliação dos mesmos. O facto das BD estarem constantemente a ser alteradas adiciona novas di…culdades, já que as descrições encontradas anteriormente podem tornar-se inconsistentes. O ajustamento das regras deverá ser periodicamente realizado, no sentido de estas permanecerem váli- das. Regras inconsistentes podem ser eliminadas e geradas novas regras, ou então pode ser utilizada uma abordagem mais e…ciente, que passa pela aprendizagem incremental, na qual as regras já conhecidas são utilizadas no processo de aprendizagem que conduz à sua reformulação/actualização, por forma a eliminar as inconsistências.

2_{Os modelos construídos em exercícios de DM podem veri…car dois tipos de problemas, tradicionalmente} denominados de sobre-ajustamento (over…tting) e sub-ajustamento (under…tting) [Elder e Pregibon, 1996]. O sobre-ajustamento do modelo de dados ocorre quando o modelo gerado utiliza particularidades dos dados, na previsão de resultados. Ocorre normalmente quando o conjunto de dados de treino apresenta uma dimensão reduzida, produzindo bons resultados com este conjunto, mas não conseguindo modelar dados desconhecidos (capacidade reduzida de previsão). O sub-ajustamento ocorre quando o modelo gerado é demasiado genérico, não realçando particularidades interessantes nos dados.

Dados corrompidos

É usual surgirem erros nos dados armazenados nas BD organizacionais, os quais introduzem ruído no processo de descoberta de conhecimento. Além dos erros, é com alguma frequência que são encontrados atributos com grande parte dos seus valores omissos, isto é, dados que não foram preenchidos pelo utilizador. Estes dois casos originam problemas diferentes, que são normalmente tratados da forma de seguida descrita.

² Ruído. O ruído ocasiona problemas de dois tipos, que se re‡ectem na: – construção de modelos a partir de amostras com ruído;

– utilização destes modelos na classi…cação de dados com ruído.

No primeiro caso, o sistema deverá ser alertado para o facto da amostra utilizada possuir ruído, o que permitirá aos algoritmos utilizados aplicarem as estratégias adequadas a esta si- tuação3_{, gerando descrições que tentam ultrapassar estas falhas. O ruído nos dados exerce uma}

considerável in‡uência negativa na construção dos modelos, já que a determinação dos limites das classes, por exemplo, deixa de ser a mais apropriada, diminuindo o desempenho das regras quando utilizadas na classi…cação de novos dados. A identi…cação e correcção destas falhas de- verá, sempre que possível, ser efectuada no conjunto de dados de treino, permitindo a construção de descrições mais correctas.

No segundo caso, as descrições obtidas podem ser utilizadas na classi…cação de dados com ruído, já que as mesmas apresentam desempenhos superiores quando comparadas com descrições geradas a partir de amostras sem ruído, e que são utilizadas para classi…car dados com ruído.

² Valores omissos. Os valores desconhecidos para um dado atributo podem ser: – eliminados da amostra, retirando os registos em causa da BD;

– substituídos, através da construção de descrições que permitam prever o valor do atributo em falta, partindo dos valores dos outros atributos da amostra [Quinlan, 1986]. Esta aproximação permite preencher os dados desconhecidos, sendo o conjunto de dados resultante utilizado para construir as descrições;

– etiquetados com uma marca, por exemplo ”desconhecido”, originando um novo valor para o atributo, que é desta forma considerado na construção das descrições.

No documento Maribel Yasmina Campos Alves Santos. Padrão. Um Sistema de Descoberta de Conhecimento em Bases de Dados Geo-referenciadas (páginas 116-118)