• Nenhum resultado encontrado

3 METODOLOGIA

3.2 Procedimento metodológico

Foi realizada, inicialmente, uma pesquisa bibliográfica dos assuntos discutidos nas seções anteriores, com o objetivo de adquirir um embasamento teórico. Foi necessário conhecer o campo da descoberta de conhecimento em bancos de dados e Data Mining: processos, modelos, técnicas utilizadas, entre outros. Além disso, buscou-se conhecer os problemas enfrentados pelos gestores da Universidade Federal de Lavras, no que diz respeito às pesquisas científicas,

suas prioridades, metas, mecanismos e cultura, de modo geral. A pesquisa documental realizada na Pró-Reitoria de Pesquisa foi essencial para a realização deste trabalho.

Após a coleta de informações necessárias para o embasamento teórico, foi realizado um estudo documental nos arquivos extraídos da Plataforma Lattes. Por meio da interface on-line do Lattes Extrator (Figura 3.1), foram extraídos mais de mil currículos de professores, alunos, ex-alunos, mestrandos e doutorandos.

FIGURA 3.1 Interface disponível na internet do Lattes Extrator Fonte: Grupo Stela, 2002b.

Os currículos estavam disponíveis como documentos no formato XML, o que implicou o desenvolvimento de um sistema para importar os dados desses documentos para um banco de dados. Antes disso, foi modelado e criado um banco de dados relacional, contendo 58 tabelas. Uma descrição da estrutura

dessas tabelas encontra-se no Apêndice A e o modelo Entidade-Relacionamento, que deu origem ao modelo relacional, encontra-se no Apêndice B. Entre as tabelas, algumas das principais e que merecem um destaque, podem ser citadas: dados gerais, com endereço profissional, formação acadêmica e atuações profissionais; produção bibliográfica, que inclui publicação de artigos e trabalho em eventos; produção técnica; outra produção e dados complementares, como participação em banca, orientações concluídas, entre outras.

Vale ressaltar que os dados coletados, em sua grande maioria, são do tipo nominal, o que torna mais difícil a tarefa de realizar análises estatísticas. Estes dados são mais complexos e considerados semi-estruturados. Segundo Abiteboul (1997), os dados semi-estruturados têm as seguintes principais características:

definição a posteriori: os esquemas para dados semi-estruturados são usualmente definidos após a existência dos dados, com base em uma investigação de suas estruturas particulares e da análise de similaridades e diferenças. Isto não significa que sempre existe um esquema associado a um dado semi-estruturado, podendo não haver;

• estrutura irregular: coleções extensas de dados semanticamente similares estão organizadas de maneiras diferentes; algumas ocorrências podem possuir informações incompletas ou adicionais em relação a outras. Em suma, não existe um esquema padrão para esses dados. Os currículos extraídos da Plataforma Lattes enquadram-se nesta característica; • estrutura implícita: muitas vezes, existe uma estrutura básica para os

dados; porém, essa estrutura está implícita na forma como os dados são apresentados. É necessário realizar uma computação para obter essa estrutura;

• estrutura parcial: apenas parte dos dados disponíveis pode ter alguma estrutura, seja implícita ou explícita. Como conseqüência, um esquema

para estes dados nem sempre é completo do ponto de vista semântico e nem sempre todas as informações esperadas estão presentes;

• estrutura extensa: a ordem de magnitude de uma estrutura para estes dados é grande, uma vez que os mesmos são muito heterogêneos. Em outras palavras, os currículos podem ser preenchidos em diferentes formatos e a união destes dados pode produzir um esquema extenso; • estrutura evolucionária: a estrutura dos dados modifica-se tão

freqüentemente quanto os seus valores. Dados disponíveis na internet apresentam este comportamento, uma vez que existe o interesse em manter dados sempre atualizados;

• estrutura descritiva e não prescritiva: dada a natureza irregular e evolucionária dos dados semi-estruturados, as estruturas de representação implícitas ou explícitas normalmente se restringem a descrever o estado corrente de poucas ocorrências de dados similares. Um sinônimo para estrutura descritiva é estrutura indicativa, ou seja, nem sempre descreve exatamente, mas indica uma descrição.

As características de dados semi-estruturados diferem bastante das características de dados mantidos em bancos de dados tradicionais, como é o caso do Banco de Dados (BD) relacional criado neste trabalho. A Tabela 3.1 apresenta estas diferenças.

TABELA 3.1 Diferenças entre dados tradicionais e dados semi-estruturados. Dados tradicionais Dados semi-estruturados

Esquema predefinido Nem sempre há um esquema predefinido

Estrutura regular Estrutura irregular

Estrutura independente dos dados Estrutura embutida no dado

Estrutura reduzida Estrutura extensa

Estrutura fracamente evolutiva Estrutura fortemente evolutiva

Estrutura prescritiva Estrutura descritiva

Distinção entre estrutura e dado é clara Distinção entre estrutura e dado não é clara

Um dado semi-estruturado possui um contexto que o envolve e o faz possuir características que se assemelham mais ao conceito de informação do que ao conceito de dado.

Bancos de dados tradicionais apresentam um esquema predefinido e uma estrutura homogênea para os tipos de dados. Já nos dados semi-estruturados, cada ocorrência de dado pode ser heterogênea. Dada essa heterogeneidade, em geral, a estrutura de um dado semi-estruturado está presente na própria descrição do dado, necessitando ser identificada e extraída. Estas tarefas são complexas, uma vez que a distinção entre esquema e dados nem sempre é clara, se forem comparadas ocorrências de dados semanticamente iguais. Foi necessária a criação de um BD tradicional, baseado nestes dados semi-estruturados.

Implementado o BD tradicional, este foi povoado com mais de 28 mil linhas de dados. Para o povoamento dos dados, cada currículo extraído preenchia diversas tabelas do BD, aquelas cujos dados das pessoas estavam cadastrados no currículo. Posteriormente, passou-se à etapa de filtragem, quando foram removidos dados inconsistentes, campos em branco, informações repetidas, entre outros. Após a filtragem, iniciou-se a etapa de mineração dos dados. Esta etapa foi subdividida em duas fases: a primeira, consistindo basicamente de cruzamento de consultas simples SQL9; a segunda, consistindo de funções e procedimentos que executam as técnicas mais específicas de Data Mining.

Todas estas tarefas foram desenvolvidas de forma específica para conhecer os dados inseridos e gerar relatórios na forma de gráficos, permitindo sua análise e interpretação, e resultando em conhecimento sobre a pesquisa científica na UFLA.