Tarefas de Data Mining - Data Mining

2.1.9 Data Mining

2.1.9.2 Tarefas de Data Mining

Para que o Data Mining cumpra o seu propósito, ou seja, a descoberta de conhecimento relevante, é importante estabelecer metas bem definidas. Esta são definidas em função dos objetivos associados à utilização do sistema, podendo ser de dois tipos (Fayyad et al. 1996): verificação ou descoberta. Em detalhe:

Verificação - o sistema está limitado à verificação de hipóteses definidas pelo

utilizador.

Descoberta - o sistema é responsável por encontrar, de forma automática, novos

padrões. Este objetivo pode, ainda, ser subdividido em previsão e descrição:

 Previsão - localiza padrões com a finalidade de prever o comportamento futuro de variáveis ou de novos conjuntos de dados.

 Descrição - procura encontrar padrões, compreensíveis pelo utilizador, que descrevam os dados de maneira concisa e resumida, apresentando propriedades gerais interessantes acerca dos mesmos.

Os objetivos de previsão e descrição são alcançados através das seguintes tarefas de Data Mining: a Classificação, a Regressão Linear, a Segmentação (ou Clustering), a Associação (ou Dependência), a Sumarização e a Deteção de Desvios constituem as seis principais tarefas de Data Mining (Fayyad et al. 1996), seguem-se detalhadamente descritas:

 Classificação

Corresponde a encontrar uma função que associe um caso a uma classe dentro de diversas classes discretas (números inteiros, conjunto finito) de classificação. Esta tarefa de Data Mining permite então enquadrar um conjunto de dados dentro de classes predefinidas, identificando a classe a que cada um pertence (Ribeiro 2011). As técnicas usadas na Classificação utilizam conjuntos de treino com exemplos pré-classificados, com o objetivo de construir modelos adequados à descrição das classes que, posteriormente, são aplicados em dados não classificados (conjuntos de teste). Estas classes representam, então, o conjunto de

valores possíveis, explícitos nos dados analisados, e o atributo corresponde ao valor de saída do processo de Classificação (Ribeiro 2011). Como o atributo e as classes do processo de Classificação são conhecidas desde o início, esta tarefa é considerada uma tarefa de aprendizagem supervisionada (Camilo & Silva 2009).

Figura 2.14 - Exemplo de Classificação Fonte: (Fayyad et al. 1996, p.44)

A Figura 2.14 representa um exemplo de Classificação. Um exemplo de aplicação da Classificação é a concessão de empréstimo bancário. (Fayyad et al. 1996) apresentam um exemplo baseado em 23 pedidos de empréstimo que está representado por cada ponto na Figura 2.14. O eixo horizontal representa o rendimento de cada pessoa e o eixo vertical representa a dívida de cada pessoa. Os atributos são o valor do empréstimo e o rendimento. Os dados foram classificados em duas classes: os maus pagadores e os bons pagadores, representados por X e O respetivamente. Os dados foram divididos através da classificação, empréstimo concedido ou negado. O Banco, com esta informação, decidirá se aceita ou negada novos pedidos de empréstimo em que os proponentes tenham condições idênticas.

A Classificação é um dos objetivos ou tarefas de Data Mining mais comum, sendo as Árvores de Decisão, a Indução de Regras e as Redes Neuronais Artificiais as técnicas mais aplicadas (Chapman et al. 2000).

Um exemplo desta tarefa é aplicação na área da saúde, os utentes podem ser classificados em diferentes classes, utilizando os atributos idade e género. Os médicos para estabelecerem prioridades de atendimento podem, assim, recorrer a modelos que preveem os outcomes dos utentes, a partir dos dados de outros utentes com problemas de saúde mais

graves. Para determinar os modelos preditivos podem, por exemplo, ser utilizadas as árvores de decisão (Vaz 2013).

 Regressão linear

É utilizada para prever atributos com valores contínuos. Trata-se então de encontrar uma função para uma previsão de uma variável, ou seja, consiste na procura de uma função que represente comportamentos de variáveis de uma forma aproximada (Ribeiro 2011).

A Regressão Linear permite a discriminação dos dados. Continuando com exemplo anterior (Fayyad et al. 1996)através da combinação dos atributos de entrada (valor do empréstimo e rendimento), o que equivale a determinar retas de separação dos dados. Na Figura 2.15 é representado o valor do Empréstimo como função linear do Rendimento: a reta tende a dividir as situações em que o empréstimo não é concedido (acima da reta) e aquelas em que é (abaixo da reta).

Figura 2.15 – Exemplo de Regressão Linear Fonte: (Fayyad et al. 1996, p.44)

 Segmentação ou Clustering

É uma tarefa que permite agrupar objetos, tendo em conta as suas similaridades, em diferentes clusters ou segmentos. Esta tarefa assegura, assim, que os objetos pertencentes à mesma classe têm um alto grau de similaridade, enquanto os que não pertencem ao mesmo segmento têm um baixo grau de similaridade (Ribeiro 2011). A Figura 2.16 mostra um exemplo de Clustering, composto por três segmentos diferentes.

Figura 2.16 – Exemplos de Clustering Fonte: (Fayyad et al. 1996, p.45)

A diferença básica entre o Clustering e a Classificação de dados reside no facto de que no Clustering não existem classes predefinidas para classificar os dados em estudo, ou seja, estas são dinamicamente criadas a partir das similaridades entre os objetos, ao contrário da classificação (Leite 2015).

É uma tarefa de aprendizagem não supervisionada, isto porque o utilizador não tem influência na definição das classes que surgem (Camilo & Silva 2009). A triagem realizada nos Serviços de Urgência (Triagem de Manchester) é efetuada através da aplicação desta metodologia.

 Associação ou Dependência

Esta tarefa pretende encontrar um modelo que descreva dependências significativas entre variáveis. Permite, então, identificar grupos de dados tipicamente relacionados e identificar factos que possam ser diretamente ou indiretamente associados, verificando, assim, a correlação que existe entre os mesmos (Ribeiro 2011). Existem dois níveis de modelos de dependência: o estruturado e o quantitativo. O nível estruturado é representado de uma forma gráfica e com variáveis que dependem localmente de outras variáveis. O nível quantitativo específica o grau de dependência, usando para tal uma escala numérica (Fayyad et al. 1996).

Um exemplo de aplicação desta tarefa é na área da saúde: a metodologia de regras de associação é utilizada em particular através de regras de associação semântica pois, muitas vezes, as regras de associação mais abrangentes e intuitivas são descritas de forma semântica e não através de parâmetros específicos. Assim, é mais intuitivo os médicos dizerem “se a

febre é alta e a tosse é moderada então a doença é X” do que “se a febre é 38,78 ˚C e o nível de tosse é 5 em 10 então a doença é X” (Vaz 2013, p.23).

 Sumarização

Esta tarefa utiliza métodos para encontrar uma descrição compacta para um subconjunto de dados. Os métodos de Sumarização mais sofisticados derivam de regras de resumo, técnicas de visualização variadas e descobertas de relações funcionais entre variáveis. As técnicas de Sumarização são frequentemente aplicadas à análise exploratória de dados, permitindo identificar um conjunto de valores ou descrições capazes de descrever os dados analisados (Fayyad et al. 1996).

 Deteção de Desvios

Esta tarefa tem como foco a descoberta de alterações significativas nos dados. Estas alterações são descobertas a partir de valores medidos previamente ou a partir de valores normativos. Permite descobrir relações nos dados baseados no tempo (Ribeiro 2011).Um exemplo de aplicação desta metodologia no sector da saúde é, por exemplo, a identificação das variações sazonais na procura do Serviço de Urgência (Vaz 2013).

No documento Sónia Rocha (páginas 51-55)