DATA MINING - GESTÃO DA ASSISTENCIA

Data Mining (DM), ou Mineração de Dados, consiste em um processo analítico projetado para explorar grandes quantidades de dados, tendo como objetivo a criação de séries e/ou padrões consistentes que possam representar informações úteis.

Para Fayyad (1996), a mineração de dados caracteriza um processo não trivial de identificar, em dados, padrões válidos, novos, potencialmente úteis e ultimamente compreensíveis. Já Tarapanoff (2000) apresenta o DM como a tarefa de estabelecer novos padrões de conhecimento, geralmente imprevistos, partindo-se de uma massa de dados previamente coletada e preparada para esse fim. O DM é um dos passos para geração do conhecimento em base de dados – KDD, o qual consiste basicamente na análise dos dados e

algoritmos para a formação de padrões ou modelos de uma base de dados, ou seja, a mineração de dados.

Já Goldschimidt e Passos (2005) afirmam que a Mineração de dados é a principal etapa no processo de KDD, e é nela que ocorre a busca efetiva por conhecimento a partir de dados.

A etapa de mineração de dados é responsável pela seleção dos métodos a serem utilizados para localizar padrões nos dados, com efetiva busca por padrões de interesse numa forma particular de representação, além da busca pelo melhor ajuste dos parâmetros do algoritmo para a tarefa em questão. Essa etapa pressupõe que os dados tenham uma boa qualidade (limpos, sem inconsistências, campos nulos, etc.), além de uma boa representação e relevância semântica (dados devidamente tratados, transformados e enriquecidos). Visando melhorar a compreensão desse procedimento, segue a explicação dos termos utilizados:

 Dados: dados são observações documentadas ou resultados da medição;

 Padrão: expressão de um subconjunto dos dados em alguma linguagem descrevendo seus fatos;

 Processo: o processo de extração de conhecimento de base de dados é constituído por uma sequência de vários passos que envolvem preparação de dados, pesquisa de padrões, avaliação de conhecimento, refinação envolvendo interação e modificação;

 Válido: são aqueles padrões considerados válidos e interessantes ao escopo;

 Novo: é o conhecimento adquirido no desenvolvimento do processo e não previsto;

 Potencialmente utilizável: alguns padrões encontrados podem ou não ser úteis.

Para que o padrão encontrado seja útil, ele deve estar ligado ao resultado do processo e, caso isso não ocorra, a descoberta se torna dispensável;

 Compreensível: o principal objetivo da KDD é tornar os resultados padrão compreensíveis para humanos e acrescentar conhecimento útil para a tomada de decisões.

Durante a etapa de mineração de dados há uma busca efetiva pelo conhecimento útil para atendimento das necessidades levantadas. É também nessa fase que se aplicam diferentes áreas do conhecimento, entre elas a inteligência artificial, modelos estatísticos e probabilísticos, cujo esquema é representado na Figura 2. O DM está diretamente relacionado com a análise de dados e a utilização de ferramentas computacionais em busca de padrões em grande conjunto de dados. Para que os resultados alcancem os objetivos pretendidos, é importante a escolha de uma ferramenta ou um conjunto de ferramentas que serão usadas na extração de padrões que possam apoiar o processo de tomada de decisão nas organizações.

Os objetivos para o planejamento antecipado em mineração de dados são descritos em tarefas básicas. As tarefas podem ser entendidas como tipos de relacionamentos entre dados estabelecidos para obtenção do conhecimento, de maneira compreensível à interpretação humana.

Goldschimidt e Passos (2005) apresentam as tarefas mais utilizadas no processo de mineração de dados:

 Descoberta de associação: tem por finalidade encontrar pontos com maior frequência e, ao mesmo tempo, em várias transações de bases de dados;

 Descoberta de sequências: caracterizada como uma extensão da descoberta por associação, e seus padrões são analisados na ordem cronológica da ocorrência;

 Classificação: tem por função mapear um conjunto de registros em um conjunto de rótulos categóricos predefinidos, denominados classes;

 Regressão: essa tarefa é bem similar à classificação e consiste basicamente em um mapeamento de registros de uma base de dados;

 Sumarização: essa tarefa busca identificar características comuns entre conjuntos de dados;

 Clusterização: tem como meta separar os registros de uma base de dados em subconjuntos possuidores das mesmas propriedades e que os diferenciem dos demais elementos que serão associados em outros clusters;

 Detecção de desvios: tem como objetivo localizar registros em uma base de dados cujas características não atendam aos padrões esperados no contexto atual.

Para Fayyad (1996), não existe um único método de mineração de dados e a escolha do algoritmo está relacionada com as características do problema, assim como as respostas a serem encontradas na execução do processo.

Goldschimidt e Passos (2005) mostram que não existe um único bom algoritmo para todas as tarefas de Mineração de Dados. Para que haja a escolha de vários algoritmos para realizar a tarefa desejada, é necessário conhecer como os dados serão utilizados na fase de pós-processamento. Portanto, a escolha e a configuração do algoritmo têm de ser feitas de forma bastante criteriosa.

Dentre as técnicas existentes, algumas são mais utilizadas em mineração de dados.

Entre elas estão as regras e árvores de decisão, as redes neurais, a lógica difusa e os métodos baseados em algoritmos evolutivos e instâncias.

Segundo Goldschimidt e Passos (2005), na fase do pós-processamento é possível mensurar os resultados obtidos e avaliar novas alternativas para a investigação de dados.

Também nessa fase estão envolvidos os processos de visualização, análise e interpretação de dados. É nesta fase de pós-processamento que estão as seguintes operações:

 Simplificações de modelo de conhecimento: esse método consiste em remover detalhes do modelo de conhecimento de forma a torná-lo menos complexo, sem a perda de informações relevantes ao modelo;

 Transformações de modelo de conhecimento: esse método consiste basicamente na alteração da forma de representação de um modelo de conhecimento;

 Organização e apresentação de resultados: tem como objetivo facilitar a interpretação e a avaliação por parte usuário em relação à utilidade do conhecimento descoberto. Para uma melhor percepção, convém utilizar gráficos, diagramas, etc.

No documento GESTÃO DA ASSISTENCIA (páginas 25-28)