2.1.9 Data Mining
2.1.9.2 Tarefas de Data Mining
Para que o Data Mining cumpra o seu propósito, ou seja, a descoberta de conhecimento relevante, é importante estabelecer metas bem definidas. Esta são definidas em função dos objetivos associados à utilização do sistema, podendo ser de dois tipos (Fayyad et al. 1996): verificação ou descoberta. Em detalhe:
Verificação - o sistema está limitado à verificação de hipóteses definidas pelo
utilizador.
Descoberta - o sistema é responsável por encontrar, de forma automática, novos
padrões. Este objetivo pode, ainda, ser subdividido em previsão e descrição:
Previsão - localiza padrões com a finalidade de prever o comportamento futuro de variáveis ou de novos conjuntos de dados.
Descrição - procura encontrar padrões, compreensíveis pelo utilizador, que descrevam os dados de maneira concisa e resumida, apresentando propriedades gerais interessantes acerca dos mesmos.
Os objetivos de previsão e descrição são alcançados através das seguintes tarefas de Data Mining: a Classificação, a Regressão Linear, a Segmentação (ou Clustering), a Associação (ou Dependência), a Sumarização e a Deteção de Desvios constituem as seis principais tarefas de Data Mining (Fayyad et al. 1996), seguem-se detalhadamente descritas:
Classificação
Corresponde a encontrar uma função que associe um caso a uma classe dentro de diversas classes discretas (números inteiros, conjunto finito) de classificação. Esta tarefa de Data Mining permite então enquadrar um conjunto de dados dentro de classes predefinidas, identificando a classe a que cada um pertence (Ribeiro 2011). As técnicas usadas na Classificação utilizam conjuntos de treino com exemplos pré-classificados, com o objetivo de construir modelos adequados à descrição das classes que, posteriormente, são aplicados em dados não classificados (conjuntos de teste). Estas classes representam, então, o conjunto de
valores possíveis, explícitos nos dados analisados, e o atributo corresponde ao valor de saída do processo de Classificação (Ribeiro 2011). Como o atributo e as classes do processo de Classificação são conhecidas desde o início, esta tarefa é considerada uma tarefa de aprendizagem supervisionada (Camilo & Silva 2009).
Figura 2.14 - Exemplo de Classificação Fonte: (Fayyad et al. 1996, p.44)
A Figura 2.14 representa um exemplo de Classificação. Um exemplo de aplicação da Classificação é a concessão de empréstimo bancário. (Fayyad et al. 1996) apresentam um exemplo baseado em 23 pedidos de empréstimo que está representado por cada ponto na Figura 2.14. O eixo horizontal representa o rendimento de cada pessoa e o eixo vertical representa a dívida de cada pessoa. Os atributos são o valor do empréstimo e o rendimento. Os dados foram classificados em duas classes: os maus pagadores e os bons pagadores, representados por X e O respetivamente. Os dados foram divididos através da classificação, empréstimo concedido ou negado. O Banco, com esta informação, decidirá se aceita ou negada novos pedidos de empréstimo em que os proponentes tenham condições idênticas.
A Classificação é um dos objetivos ou tarefas de Data Mining mais comum, sendo as Árvores de Decisão, a Indução de Regras e as Redes Neuronais Artificiais as técnicas mais aplicadas (Chapman et al. 2000).
Um exemplo desta tarefa é aplicação na área da saúde, os utentes podem ser classificados em diferentes classes, utilizando os atributos idade e género. Os médicos para estabelecerem prioridades de atendimento podem, assim, recorrer a modelos que preveem os outcomes dos utentes, a partir dos dados de outros utentes com problemas de saúde mais
graves. Para determinar os modelos preditivos podem, por exemplo, ser utilizadas as árvores de decisão (Vaz 2013).
Regressão linear
É utilizada para prever atributos com valores contínuos. Trata-se então de encontrar uma função para uma previsão de uma variável, ou seja, consiste na procura de uma função que represente comportamentos de variáveis de uma forma aproximada (Ribeiro 2011).
A Regressão Linear permite a discriminação dos dados. Continuando com exemplo anterior (Fayyad et al. 1996)através da combinação dos atributos de entrada (valor do empréstimo e rendimento), o que equivale a determinar retas de separação dos dados. Na Figura 2.15 é representado o valor do Empréstimo como função linear do Rendimento: a reta tende a dividir as situações em que o empréstimo não é concedido (acima da reta) e aquelas em que é (abaixo da reta).
Figura 2.15 – Exemplo de Regressão Linear Fonte: (Fayyad et al. 1996, p.44)
Segmentação ou Clustering
É uma tarefa que permite agrupar objetos, tendo em conta as suas similaridades, em diferentes clusters ou segmentos. Esta tarefa assegura, assim, que os objetos pertencentes à mesma classe têm um alto grau de similaridade, enquanto os que não pertencem ao mesmo segmento têm um baixo grau de similaridade (Ribeiro 2011). A Figura 2.16 mostra um exemplo de Clustering, composto por três segmentos diferentes.
Figura 2.16 – Exemplos de Clustering Fonte: (Fayyad et al. 1996, p.45)
A diferença básica entre o Clustering e a Classificação de dados reside no facto de que no Clustering não existem classes predefinidas para classificar os dados em estudo, ou seja, estas são dinamicamente criadas a partir das similaridades entre os objetos, ao contrário da classificação (Leite 2015).
É uma tarefa de aprendizagem não supervisionada, isto porque o utilizador não tem influência na definição das classes que surgem (Camilo & Silva 2009). A triagem realizada nos Serviços de Urgência (Triagem de Manchester) é efetuada através da aplicação desta metodologia.
Associação ou Dependência
Esta tarefa pretende encontrar um modelo que descreva dependências significativas entre variáveis. Permite, então, identificar grupos de dados tipicamente relacionados e identificar factos que possam ser diretamente ou indiretamente associados, verificando, assim, a correlação que existe entre os mesmos (Ribeiro 2011). Existem dois níveis de modelos de dependência: o estruturado e o quantitativo. O nível estruturado é representado de uma forma gráfica e com variáveis que dependem localmente de outras variáveis. O nível quantitativo específica o grau de dependência, usando para tal uma escala numérica (Fayyad et al. 1996).
Um exemplo de aplicação desta tarefa é na área da saúde: a metodologia de regras de associação é utilizada em particular através de regras de associação semântica pois, muitas vezes, as regras de associação mais abrangentes e intuitivas são descritas de forma semântica e não através de parâmetros específicos. Assim, é mais intuitivo os médicos dizerem “se a
febre é alta e a tosse é moderada então a doença é X” do que “se a febre é 38,78 ˚C e o nível de tosse é 5 em 10 então a doença é X” (Vaz 2013, p.23).
Sumarização
Esta tarefa utiliza métodos para encontrar uma descrição compacta para um subconjunto de dados. Os métodos de Sumarização mais sofisticados derivam de regras de resumo, técnicas de visualização variadas e descobertas de relações funcionais entre variáveis. As técnicas de Sumarização são frequentemente aplicadas à análise exploratória de dados, permitindo identificar um conjunto de valores ou descrições capazes de descrever os dados analisados (Fayyad et al. 1996).
Deteção de Desvios
Esta tarefa tem como foco a descoberta de alterações significativas nos dados. Estas alterações são descobertas a partir de valores medidos previamente ou a partir de valores normativos. Permite descobrir relações nos dados baseados no tempo (Ribeiro 2011).Um exemplo de aplicação desta metodologia no sector da saúde é, por exemplo, a identificação das variações sazonais na procura do Serviço de Urgência (Vaz 2013).