• Nenhum resultado encontrado

2.2 DESCOBERTA DE CONHECIMENTO EM BANCOS DE DADOS

2.2.2 Técnicas de Data Mining

Encontram-se na literatura diversos métodos ou algoritmos para a extração de padrões úteis de conjuntos de dados. Alguns desses métodos são: classificação, modelos de relacionamento entre variáveis, análise de agrupamento, sumarização, modelos de dependência, regras de associação e análise de séries temporais. A maioria desses métodos é oriunda das áreas de aprendizagem de máquina, reco- nhecimento de padrões e estatística. Sferra et al. (2003) descrevem esses métodos:  A classificação associa ou classifica um item a uma ou várias classes categóri- cas pré-definidas. Uma técnica estatística apropriada para classificação é a análise discriminante. Os objetivos dessa técnica envolvem a descrição gráfica ou algébrica das características diferenciais das observações de várias popula- ções, além da classificação das observações em uma ou mais classes prede- terminadas. A ideia é derivar uma regra que possa ser usada para associar uma nova observação a uma classe previamente estabelecida;

 Modelos de relacionamento entre variáveis associam uma variável, denomina- da dependente, a uma ou mais variáveis consideradas independentes. Técni- cas estatísticas como regressão linear simples, múltipla e modelos lineares por transformação são utilizadas para verificar o relacionamento funcional que, eventualmente, possa existir entre duas variáveis quantitativas; genericamente estes métodos são considerados métodos de regressão (McCullagh and Nel- der, 1989).

 A análise de agrupamento (clustering) associa um item a uma ou várias classes categóricas (ou clusters), em que as classes são determinadas pelos dados, diversamente da classificação em que as classes são pré-definidas. Os agru- pamentos são definidos por meio do agrupamento de dados baseados em me- didas de similaridade ou modelos probabilísticos. A análise de agrupamento é uma técnica que visa detectar a existência de diferentes grupos dentro de um determinado conjunto de dados e, em caso de sua existência, determinar quais são eles;

 A sumarização determina uma descrição compacta para um dado subconjunto. As medidas de posição e variabilidade são exemplos simples de sumarização. Funções mais sofisticadas envolvem técnicas de visualização e a determinação de relações funcionais entre variáveis. As funções de sumarização são fre- quentemente usadas na análise exploratória de dados com geração automati- zada de relatórios, sendo responsáveis pela descrição compacta de um conjun- to de dados. É utilizada, principalmente, no pré-processamento dos dados, quando valores inválidos são determinados por meio do cálculo de medidas es- tatísticas – como mínimo, máximo, média, moda, mediana e desvio padrão amostral –, no caso de variáveis quantitativas, e, no caso de variáveis categóri- cas, por meio da distribuição de frequência dos valores. Técnicas de sumariza- ção mais sofisticadas são chamadas de visualização, tidas como de extrema importância, e muitas vezes imprescindíveis, para se obter um entendimento, por vezes intuitivo, do conjunto de dados. Exemplos de técnicas de visualiza- ção de dados incluem diagramas baseados em proporções, diagramas de dis- persão, histogramas e box plots;

 Um modelo de dependência descreve dependências significativas entre variá- veis. Modelos de dependência existem em dois níveis: estruturado e quantitati- vo. O nível estruturado especifica, geralmente em forma de gráfico, quais vari- áveis são localmente dependentes. O nível quantitativo especifica o grau de dependência usando alguma escala numérica;

 Regras de associação determinam relações entre campos de um banco de da- dos. A idéia é a derivação de correlações multivariadas que permitam subsidiar as tomadas de decisão. A busca de associação entre variáveis é, frequente- mente, um dos propósitos das pesquisas empíricas. A possível existência de

relação entre variáveis orienta análises, conclusões e evidenciação de achados da investigação. Uma regra de associação é assim definida:

SE X ENTÃO Y,

ou X  Y, onde X e Y são conjuntos de itens e X ∩ Y = Ø. Diz-se que X é o an- tecedente da regra, enquanto Y é o seu consequente. Medidas estatísticas co- mo correlação e testes de hipóteses apropriadas revelam a frequência de uma regra no universo dos dados minerados;

 A análise de séries temporais determina características sequenciais, como da- dos com dependência no tempo. Seu objetivo é modelar o estado do processo extraindo e registrando desvios e tendências no tempo. Correlações entre dois instantes de tempo, ou seja, as observações de interesse, são obtidas em ins- tantes sucessivos de tempo – por exemplo, a cada hora, durante 24 horas – ou são registradas por algum equipamento de forma contínua, como um traçado eletrocardiográfico. As séries são compostas por quatro padrões: tendência, variações cíclicas, variações sazonais e variações irregulares. Há vários mode- los estatísticos que podem ser aplicados a essas situações, como os de re- gressão linear (simples e múltiplos), os lineares por transformação e regres- sões assintóticas, além de modelos com defasagem, como os auto-regressivos (AR) e outros deles derivados;

 Previsão de situações. Além da análise de séries temporais, há situações em que se quer predizer uma variável em função de outras (p. ex., o valor de um imóvel em função de suas características físicas e ambientais) ou efetuar pre- visões (p. ex., prever as vendas para o próximo mês), com base em modelos ou regras a serem construídos a partir de uma grande massa de dados, podem ser tratadas com a análise de regressão, os algoritmos em árvore de decisão ou as redes neurais com aprendizado supervisionado.

Documentos relacionados