• Nenhum resultado encontrado

Descoberta de Conhecimento em Base de Dados (DCBD) é o processo de descoberta de padrões válidos, úteis e compreensíveis em bases de dados extensas e complexas (FAYYAD, 1997). A base da disciplina DBCD é a Mineração de Dados que, por meio da aplicação de algoritmos em bases de dados, busca descobrir com- portamentos suspeitos e/ou desconhecidos pela detecção de padrões e relaciona- mentos.

A acessibilidade e a disponibilidade de dados proporcionadas atualmente, principalmente pelo crescimento e popularização da internet, fez com que essa dis- ciplina ganhasse importância, pois quanto maior a quantidade de dados, maior a difi- culdade de entendê-los e manipulá-los. Com o crescimento deste campo de investi- gação surgiram diversas técnicas e métodos. Não é correto dizer que determinado método é certo ou errado, pois a aplicabilidade está relacionada ao objetivo da mine- ração e à qualidade dos dados disponíveis (WOLPERT, 1997).

DCBD vem sendo aplicada em diversas áreas. Para a detecção de fraudes, em particular, ela vem sendo utilizada para detectar padrões e relações fraudulentas em bases de dados com informações que podem expor comportamentos suspeitos. Exemplos de bases que possuem dados com estas características estão relaciona- das às áreas financeiras, relações criminosas e processos de compra.

Existem diversas propostas para o processo de DCBD. O processo proposto pelo método Cross-Industry Standard Process for Data Mining - CRISP-DM (CHAP- MAN et al, 2000), é o seguinte (Figura 4):

1. O entendimento do negócio tem por objetivo identificar as metas e requerimen- tos do projeto a partir de uma perspectiva de negócio;

2. O entendimento dos dados visa esclarecer aspectos relativos à procedência, às características estruturais e á qualidade dos dados a serem usados;

3. Na preparação dos dados, é feita a extração, limpeza e transformação dos da- dos de forma a adequá-los aos algoritmos de DM a serem utilizados;

4. Durante a modelagem, o(s) algoritmo(s) de aprendizagem de máquina selecio- nados são parametrizados e utilizados para a construção de modelos computa- cionais que refletem os padrões encontrados nos dados;

5. A avaliação verifica a pertinência do(s) modelo(s) gerados em relação às metas e requerimentos definidos anteriormente;

6. Finalmente, é efetivada a aplicação do(s) modelo(s) gerado(s), na forma, por exemplo, de sistemas de apoio à tomada de decisão.

Figura 4: Processo de descoberta de conhecimento em base de dados

Fonte: Chapman et al (2000)

Para a aplicação de técnicas de MD são aplicados métodos estatísticos e de aprendizagem de máquina, tanto supervisionada como não-supervisionada.

2.4.1 Aprendizagem supervisionada

O termo aprendizagem supervisionada representa uma família de algoritmos que, dado um conjunto de observações históricas, constrói um modelo que relaciona variáveis independentes e dependentes a partir daquelas observações, podendo ser utilizado para estimar ou prever o valor das variáveis dependentes em situações no- vas. Esse tipo de aprendizagem inclui tarefas como classificação ou regressão.

A classificação tem por objetivo a construção de modelos capazes de mapear variáveis de um espaço de entrada em um conjunto discreto de classes previamente definidas. Estas relações são obtidas por meio de um treinamento baseado em um conjunto de dados históricos e, usualmente, são expressas na forma de regras “SE

a, b e c ENTÂO d”, significando que, se a, b e c ocorrem em um objeto então este

objeto é da classe d. Dentre os modelos e técnicas de classificação mais conhecidos estão: redes bayesianas, redes neurais, árvore de decisão, naive e k nearest neigh-

Um modelo de regressão relaciona um conjunto de variáveis de entrada com um valor de saída contínuo. Por esse modelo, um valor numérico para uma variável é definido a partir de valores extraídos de variáveis conhecidas (pré-definidas).

2.4.2 Aprendizagem não-supervisionada

Na aprendizagem não-supervisionada, o rótulo da classe não é conhecido e o objetivo é identificar padrões inesperados em um conjunto de objetos usando métri- cas como similaridade entre os objetos ou co-ocorrência de itens. Dentre as técnicas desse tipo de aprendizagem estão a associação e a análise de agrupamentos.

Algoritmos de associação visam detectar padrões de relacionamentos entre os itens de uma base de dados. Uma aplicação deste tipo de regra é a determinação de produtos adquiridos em conjunto em algum estabelecimento comercial.

Algoritmos de análise de agrupamentos visam formar grupos de acordo com uma determinada medida de similaridade por meio de sucessivas iterações. Estes agrupamentos permitem a identificação de grupos homogêneos para os quais de- terminadas ações podem ser dirigidas.

Pela aplicação da análise de agrupamentos, é possível identificar nuvens de objetos no espaço multidimensional, que podem ser definidas de acordo com a pro- ximidade ou distancia dos grupos, levando à indicação de padrões e correlações. Um exemplo de sua utilização é a determinação de grupos de clientes com compor- tamentos similares, o que possibilita a aplicação de marketing diferenciado e focado para cada grupo.

Entre os vários tipos de análise de agrupamentos estão (HAN e KAMBER, 2001):

 Métodos de partição, visam decompor os dados em conjuntos separados de agrupamentos. Dado um conjunto de n objetos de uma base de dados, o méto- do de partição constrói k partições, em que cada uma representa um grupo, sendo k ≤ n. A função tenta minimizar a dessemelhança no interior do agrupa- mento e maximizar a dessemelhança entre os grupos. K-means é o exemplo mais conhecido de algoritmo de partição.

 Métodos hierárquicos, decompõem hierarquicamente um conjunto de dados. Podem ser divisivos ou aglomerativos, dependendo do tipo de decomposição hierárquica utilizada. O método aglomerativo, também chamado aproximação

bottom-up, inicia formando um grupo para cada objeto, seguindo-se da junção

dos grupos até existir apenas um único ou até uma determinada condição de parada. O método divisivo, também chamado aproximação top-down, inicia com todos os objetos no mesmo grupo e, após cada iteração, divide-se em vá- rios grupos, até atingir uma condição de parada. Exemplos de algoritmos que usam este tipo de método são CURE, BIRCH e CHAMALEON;

 Métodos baseados em densidade, a maioria dos métodos de divisão de obje- tos em agrupamentos são baseados na distância. Estes métodos apenas con- seguem encontrar grupos com formas esféricas e há dificuldade na descoberta de agrupamentos com formas arbitrárias. Outros métodos foram desenvolvidos baseados na noção de densidade. Alguns algoritmos que usam este tipo de método são: DBSCAN, OPTICS e DENCLUE;

 Métodos baseados em grid, quantificam o espaço de objetos num número finito de células que formam uma estrutura em grade. A principal vantagem desta a- proximação é o seu rápido tempo de processamento, que geralmente é inde- pendente do número de objetos e depende apenas do número de células em cada dimensão. STING é um típico algoritmo de um método baseado em gra- de.

 Métodos baseados em modelo, criam um modelo para cada agrupamento e a- justa a informação de acordo com o modelo. Um exemplo de algoritmo que uti- liza este dado é o COBWEB.

Documentos relacionados