Mineração de dados - FUNDAMENTAÇÃO TEÓRICA E METODOLÓGICA

SUMÁRIO 1 INTRODUÇÃO

HIDROGRÁFICA DO RIO IVAÍ 162 7.1 I NTRODUÇÃO

3 FUNDAMENTAÇÃO TEÓRICA E METODOLÓGICA

3.5 Mineração de dados

A mineração de dados trata de extrair ou minerar conhecimento de grandes volumes de dados. Geralmente esse termo é referenciado como sinônimo de Knowledge Discovery in Databases (KDD) ou Descoberta de Conhecimento em Banco de Dados, porém, o KDD é um processo mais amplo e envolve além da mineração de dados (aplicação dos algoritmos) várias outras etapas (Figura 3-20).

Os estudos relativos à Descoberta de Conhecimento em Banco de Dados surgiram na década de 80 e são vistos com resultado da evolução natural da tecnologia de informação, sendo este um campo multidisciplinar, que envolve áreas como tecnologia de banco de dados, inteligência artificial, aprendizagem de máquina, redes neurais, estatística, recuperação de informação, computação de alto desempenho e visualiação de dados (HAN, 2000).

O processo KDD é definido por Fayyad et al. (1996) como um amplo processo de descoberta de informações em banco de dados, no qual se enfatiza a aplicação dos métodos de Mineração de Dados. Enquanto a etapa de mineração de dados se destaca pela extração de padrões escondidos nos dados, o processo completo KDD é mais amplo e abrange várias etapas necessárias para que isso ocorra, tornando possível, após técnicas de mineração de dados, avaliar e interpretar os resultados obtidos. O processo KDD envolve uma sequência das seguintes etapas: seleção, pré-processamento, transformação, mineração de dados, interpretação e avaliação.

Seleção: etapa em que são selecionados os atributos que interessam ao usuário. Nesta etapa, os dados podem estar em diferentes estruturas e formatos, como tabelas relacionais e arquivos, o que dificulta sua obtenção pelo analista.

Pré-processamento: bancos de dados reais são geralmente incompletos e cheios de ruídos. Nesta etapa é que as inconsistências (dados nulos, inválidos, ou repetidos) dos dados são eliminadas.

Transformação: o processo KDD demanda a integração de dados (combinação de diferentes bases de dados) e faz-se necessária a transformação ou consolidação dos dados em formatos apropriados. As etapas seleção, pré-processamento e transformação são comumente consideradas como uma única fase, intitulada pré-processamento dos dados.

Mineração de dados: esta etapa utiliza técnicas e algoritmos de diferentes áreas do conhecimento, principalmente do campo da inteligência artificial (especialmente o aprendizagem de máquina), banco de dados (recursos para manipular grandes bases de dados) e estatística (comumente na avaliação e validação de resultados). Segundo Kantardzic (2003), na prática há dois objetivos na mineração de dados: predição e descrição. A predição envolve a utilização de algumas variáveis do banco de dados para predizer valores futuros ou desconhecidos de uma variável de interesse. Já a descrição procura por padrões que descrevem os dados de uma forma compreensível, tendo como alvo a tomada de decisão.

Avaliação e interpretação: produzidos os padrões na etapa de mineração de dados, os resultados são apresentados para interpretação. O conhecimento extraído pode ser utilizado na resolução de problemas da vida real, por meio de um sistema inteligente ou de um indivíduo como apoio ao processo de tomada de decisão (BÜRKLE, 2006). O processo KDD pode ser muito útil nos campos da geomorfologia e ciências ambientais, visto que é cada vez mais comum a manipulação e análise de grandes quantidades de dados.

Devido à complexidade da etapa de mineração de dados é necessário um conjunto de técnicas e ferramentas inteligentes, capazes de cooperar na exploração dos dados. Dentro deste contexto têm-se os sistemas de Aprendizado de Máquina, cujo objetivo principal é a construção de sistemas capazes de adquirir conhecimento de forma automática a partir de bancos de dados. Dentro deste sistema os algoritmos de aprendizado mais comuns são os simbólicos (regras de associação e árvores de decisão), estatísticos (aprendizado bayesiano), baseado em exemplos (nearest neighbours e raciocínio baseado em casos), conexionistas (redes neurais) e algoritmos genéticos (MONARD e BARANAUSKAS, 2005). A aplicação de algoritmos aprendizado de máquina é ampla nos estudos ambientais. No contexto do

mapeamento pedológico, temos o exemplo de Crivelenti et al. (2009), que desenvolveu uma metodologia para o mapeamento digital de solos por meio de aprendizado de máquina, utilizando-o para classificar os solos com base em atributos do relevo, dados de mapas geológicos e pedológicos em diferentes escalas.

No contexto da geomorfologia, Saito et al. (2009) analisou a susceptibilidade à ocorrência de deslizamentos com base nos resultados de um algoritmo de regras de associação aplicado sobre um banco de dados contendo dados topográficos, geológicos e de deslizamentos.

Em um estudo de geomorfologia fluvial, Osis (2012) analisou as relações entre níveis fluviométricos e uma série de indicadores ripários por meio de árvores de decisão e regras de associação.

Nesse sentido, apesar de haver diversos algoritmos possíveis para a aquisição de conhecimento, os algoritmos de árvores de decisão (algoritmos classificadores) possuem grande difusão no contexto da Mineração de Dados, devido a sua facilidade de manipulação e interpretação dos resultados. O presente trabalho focalizou este tipo de algoritmo devido sua estrutura de funcionamento, que pode classificar determinados aspectos selecionados por meio de uma série de outras variáveis independentes.

 Árvores de Decisão

Os algoritmos de árvore de decisão são modelos de classificação/regressão cujas estruturas consistem em um determinado número de nós e arcos (ramos) (FURNKRANZ et al., 2012). Existem três tipos de nós em uma árvore de decisão: o nó raiz, que indica o início da árvore, os nós comuns (filhos), que dividem um determinado atributo e geram ramificações, e os nós folha, que contém as informações de classificação do algoritmo.

A Figura 3-21 exemplifica a estruturação de uma árvore de decisão construída com o algoritmo J48 através do tratamento de um conjunto de dados que já se tornou um clássico para a exemplificação de procedimentos de KDD, onde a questão básica é se deve-se jogar golfe ou não, segundo algumas condições ambientais (WAIKATO, 2004).

Figura 3-21 – Estrutura de uma árvore de decisão.

Os dados sobre os quais foi construída a árvore são listados no Quadro 3-3, com presença de atributos nominais (tempo e vento) e contínuos (temperatura e umidade). Como são poucas instâncias (15), as operações realizadas pela árvore são facilmente visualizadas. Por exemplo, quando ‘tempo é ensolarado e umidade’ é > 75, a classe é ‘sim’, ou seja, não jogar golfe. Os dados que formam este caminho na árvore, indicado em laranja, também são marcados no quadro apresentado a seguir.

Quadro 3-3 - Dados utilizados para a construção da árvore de decisão da Figura 3-21, com utilização do algoritmo J48. Os dados marcados em laranja são correspondentes aos nós também marcados em laranja da

árvore.

Instância Tempo Temperatura Umidade Vento Jogar

1 Ensolarado 85 85 Falso não

2 Ensolarado 80 90 Verdadeiro não

3 Nublado 83 86 Falso sim

5 Chuvoso 70 96 Falso sim

6 Chuvoso 68 80 Falso sim

7 Chuvoso 65 70 Verdadeiro sim

8 Nublado 64 65 Verdadeiro sim

9 Ensolarado 72 95 Falso não

10 Ensolarado 69 70 Falso sim

11 Chuvoso 75 80 Falso sim

12 Ensolarado 75 70 Verdadeiro sim

13 Nublado 72 90 Verdadeiro sim

14 Nublado 81 75 Falso sim

Nota-se que na folha da árvore, além do atributo classe, aparece também um número, que é referente ao número de instâncias que a relação ocorre no banco de dados. Na árvore apresentada anteriormente, pode-se observar que a folha possui valor 2.0, que representa as duas instâncias marcadas nos dados do quadro. Para os valores das demais folhas também se pode verificar o mesmo padrão no banco de dados.

Uma árvore de decisão baseia-se na divisão do problema em vários subproblemas menores, até que uma solução para cada um dos problemas mais simples possa ser encontrada. Dentro deste modelo é possível se manipular dados em diversas escalas sem suposições acerca das distribuições de frequência dos dados (FRIEDL e BRODLEY, 1997).

Dentro dos sistemas de Aprendizado de Máquina, existem dois tipos de atributos, os decisivos, que contêm os resultados que se deseja obter, e os não decisivos, que contêm os valores que conduzem a uma decisão. Para chegar à decisão, a árvore utiliza entropia, que é uma medida de aleatoriedade (impureza) de uma variável. No contexto de árvores de decisão, a entropia é utilizada para estimar a aleatoriedade da variável a prever (classe), assim, dado um conjunto de exemplos, define-se qual o atributo escolher para testes, em que os seus valores definem partições do conjunto de exemplos.

O Ganho de Informação é uma medida baseada na entropia. Esta mede a redução da entropia causada pela partição dos exemplos de acordo com os valores do atributo. Um algoritmo de árvore de decisão muito utilizado é o J48 (QUINLAN, 1986), sendo que este utiliza o grau de entropia do nó-pai (antes da divisão) com o grau de entropia dos nós-filhos (após a divisão).

Durante a construção de uma árvore de decisão, muitas das arestas ou sub-árvores podem refletir ruídos ou erros prejudicando uma determinada tomada de decisão. Para detectar e excluir essas arestas e sub-árvores, são utilizados métodos de poda (pruning) da árvore, cujo objetivo é melhorar a taxa de acerto do modelo, ou seja, torná-la mais simples e facilitar a sua intepretação. A poda é divido em dois métodos: pré-poda e pós-poda.

A pré-poda é feita durante o processo de construção da árvore, esse processo simplesmente cessa o procedimento de dividir um nó, transformando-o em uma folha. Já o pós-poda é realizado após a construção da árvore de decisão, removendo ramos completos, onde tudo que está abaixo de um nó interno é excluído e esse nó é transformado em folha, representando a classe mais frequente no ramo (CARVALHO, 2014).

4 AVALIAÇÃO DOS EFEITOS DA RESOLUÇÃO DE MODELOS

No documento Ambientes de confluência no contexto da rede de drenagem: exemplo da bacia hidrográfica do rio Ivaí - estado do Paraná (páginas 97-102)