• Nenhum resultado encontrado

2 MEDIÇÃO DE DESEMPENHO

3.1 Contextualização do Data Mining em um Ambiente Organizacional

3.2.3 Técnicas de data mining

No Quadro 3.3 foram apresentadas as principais operações analíticas de

data mining relacionadas com as técnicas da mesma abordagem. Agora serão

apresentadas as principais técnicas de data mining. Dentro dos modelos preditivos, segundo Cabena et al. (1997), as principais técnicas utilizadas são a classificação e a predição de valor.

A classificação consiste em determinar uma função ou critério que classifica um registro de dados em uma dentre as diversas classes predefinidas (FELIPE, 2000). Por exemplo, na Figura 3.8, apresenta uma agência bancária em que é utilizada uma equação linear relacionando debit (débito inicial) e income (renda) para separar em no loan (sem crédito) e loan (com crédito) duas classes representadas pelos

16

Neste item, embora o OLAP seja uma abordagem de TI, é considerado em um dos seus aspectos como uma ferramenta analítica para o uso do data mining.

X (pessoas que têm débito no banco) e O (pessoas que têm crédito no banco). Pode-se verificar que a função linear se aproxima muito da realidade dos clientes do banco.

Fonte: Fayyad et al. (1996, p. 44).

FIGURA 3.8 - Exemplo de uso da técnica de classificação

Já a técnica predição de valor busca informar antecipadamente valores usando uma série de valores (dados) já existentes (CABENA et al., 1997). Busca–se nessa técnica encontrar uma função que mapeie um conjunto de dados, colocando-os como valores reais em uma variável de predição (FAYYAD et al., 1996). Um exemplo de uso dessa técnica é a determinação da probabilidade de um paciente sobreviver a uma cirurgia utilizando dados históricos de sucessos e fracassos na cirurgia de outros pacientes.

Na operação analítica de agrupamento em bancos de dados, destacam-se duas técnicas que são o agrupamento via redes neurais e separação demográfica (CABENA et al., 1997). As duas técnicas buscam identificar um conjunto de categorias finitas ou clusters para descrever os dados (ver na Figura 3.9 um exemplo de separação de dados em uma agência bancária baseada nos critérios de débitos e investimentos).

Nos agrupamentos via redes neurais, os inputs são agrupados e apresentados. Por se tratar de um aprendizado supervisionado, outputs são definidos. A partir disso inicia-se o processo de conexões entre inputs e outputs buscando-se realizar a ligação mais adequada entre eles estabelecendo-se pesos para as conexões (CABENA et al., 1997). Semcrédito Com crédito Débito Inicial Renda

Fonte: Fayyad et al. (1996, p.45).

FIGURA 3.9 - Exemplo de separação dos dados

Segundo o mesmo autor, a separação demográfica constrói segmentos comparando cada registro de dados com todos os segmentos criados e depois adiciona- os a um deles ou cria um novo caso não encontre compatibilidade. Por exemplo, uma agência de pesquisas realiza uma atualização anual do banco de dados demográfico contendo inúmeras informações sobre as características da população de uma determinada região. Na variável “cor do cidadão” existem os segmentos “brancos”, “negros’, “mulatos”, “amarelos’ e outros tipos. Nessa nova atualização a base de dados recebe uma quantidade de dados considerável para a cor “pardos”, o que faz com que a ferramenta de gerenciamento do banco de dados crie um novo segmento “pardos” para a variável cor dos cidadãos.

Na operação analítica de análises de associações existem, segundo Cabena et al. (1997), três técnicas: descoberta de associações, descoberta de padrões seqüenciais e descoberta de seqüências similares no tempo.

A descoberta de associações tem o propósito de encontrar registros de dados que implicam na presença de outros registros da mesma transação (BISPO, 1998). Um exemplo de uso dessa técnica está na Figura 3.10.

Na descoberta de padrões seqüenciais há a detecção de padrões entre registros de dados relacionados com um conjunto de outros registros em transações diferentes de um banco de dados em um dado período de tempo (CABENA et al., 1997). Por exemplo, dados de clientes que realizaram compras em um supermercado são comparados em períodos subseqüentes e procura-se descobrir associações entre os produtos comprados por esses clientes nesses períodos seqüenciais.

D ébito Inic ial

Fonte: Cabena et al. (1997, p.81).

FIGURA 3.10 - Exemplo de uso da técnica de descoberta de associações

Por fim, dentro da operação análise de associações, há a descoberta de seqüências similares no tempo que é definida pela busca de todas as ocorrências, similares ocorrências ou seqüências similares para uma seqüência-alvo com dados em série temporal (CABENA et al., 1997). Por exemplo, em uma empresa de autopeças são monitoradas as vendas de transmissões leves e transmissões pesadas em um período de um ano, quando então busca–se associar as vendas desses dois produtos para encontrar padrões de sazonalidade entre eles.

Na operação analítica “detecção de desvios”, são apresentadas as últimas técnicas que são a estatística e a visualização. Elas focalizam a descoberta das mais significantes mudanças nos dados previamente medidos ou que utilizam valores normativos (FAYYAD et al., 1996).

As técnicas de análise estatística detectam a presença de dados estranhos ou inválidos e os possíveis vieses nos dados que podem inviabilizar a mineração de dados (CABENA et al., 1997). Por exemplo, uma empresa tem um banco de dados contábil que contém informações sobre salários dos funcionários digitados pelo pessoal administrativo. Realizando-se uma análise estatística descritiva (com o uso de valores máximos e mínimos e contagem), verifica-se que diversos dados foram digitados incorretamente podendo enviesar uma posterior análise financeira.

Já a técnica de visualização possibilita ao usuário obter uma compreensão melhor e mais intuitiva dos dados e os resultados apresentados (FELIPE, 2000). Ela auxilia as outras técnicas de data mining, mostradas nas Figuras 3.8 e 3.9, em

Quando um cliente compra uma camisa, em 70% dos casos, ele ou ela irão também comprar uma gravata. Isso acontece em 13,5% de todas as compras

Fator de suporte Fator de confiança. Objeto associado Objeto alvo da análise Camisa + gravata Total camisa Camisa + gravata Total roupa

que foi utilizada a visualização gráfica bidimensional para facilitar o entendimento das técnicas de classificação e, na operação analítica, o agrupamento em bancos de dados.