• Nenhum resultado encontrado

2.1 UNIVERSIDADES CLÁSSICAS E TECNÓLOGICAS

3.3.1 Pré-Processamento de Mineração de Dados

Na etapa de pré-processamento foram desenvolvidos os seguintes procedimentos: (i) extração dos dados; (ii) seleção dos dados; (iii) pré-processamento de mineração; e (iv) transformação dos dados.

1- Etapa: Extração dos Dados: na extração foram selecionados os dados considerados importantes para para distinguir as duas IES, baseados nas variáveis dos eixos estabelecidos pela RUTyp como diferencial de uma UT e extraídos da Plataforma Stela Experta, conforme Figura 2.

2- Etapa: Seleção dos Dados: A seleção dos dados tem por objetivo a escolha de dados potencialmente úteis para o processo de DCBD. Dessa forma, baseados nas variáveis da RUTyP foram selecionados os seguintes dados:

(i) formação do perfil dos docentes (faixa etária, gênero e bolsa de produtividade); experiência profissional dos docentes (país e região de formação, atividades complementares, áreas de atuação e linhas de pesquisa); e a formação dos docentes (região e país de formação, mobilidade internacional e domínio de idiomas). Sobre o idioma foram considerados nessa

1-Etapa: Extração de Dados

2-Etapa: Seleção de Dados

3-Etapa: Pré-Processamento de Mineração de Dados

4-Etapa: Transformação dos Dados

5-Etapa: Mineração dos Dados

6-Etapa: Interpretação dos Dados Pré-Processamento

Mineração de Dados

exploração os registros cadastrados para cada docente, analisando-se as variáveis: Compreensão, Conversação, Escrita e Leitura, categorizadas em: bom, regular e pouco.

(ii) Perfil das Produções Técnicas e Científicas: artigos publicados em anais de eventos (grande área, título da produção, país, idioma, tipo da produção, ano da produção, palavra-chave 1, palavra-chave 2, palavra-chave 3, total de autores; artigos publicados em periódicos (grande área, título da produção, país, idioma, tipo da produção, ano da produção, qualis, issn, periódico, jcr, índice h, sjr, snip, ano da produção, palavra-chave 1, palavra-chave 2, palavra- chave 3, total de autores); orientações concluídas (grande área, título da produção, país, idioma, tipo da produção, natureza da produção, ano da produção, palavra-chave, 1 palavra-chave 2, palavra-chave 3, total de autores); grupos de pesquisas (nome do grupo, grande área, área predominante, órgão unidade ano de formação, instituições parceiras, parcerias com empresas, empresas, possui ligações com universidades, equipamentos com uso compartilhado, softwares, participação em redes de pesquisa, pesquisadores, estudantes, colaboradores estrangeiros, técnicos, linha de pesquisa 1, linha de pesquisa 2, linha de pesquisa 3), projetos de pesquisa (título do projeto, coordenador, ano de início, ano de fim, natureza, situação, financiadores, instituição de execução, alunos de graduação envolvidos no projeto, alunos de especialização envolvidos no projeto, alunos de mestrado acadêmico envolvidos no projeto, alunos de mestrado profissionalizante envolvidos no projeto, alunos de doutorado envolvidos no projeto).

(iii) Inovações: patentes desenvolvidas (título da produção, país, grande área, subtipo da produção, ano da produção, abnt, palavra-chave 1, palavra-chave 2, palavra-chave 3, total de autores)

(iv) Empreededorismo, os dados foram selecionados das agências de inovação (AGINT) e relatórios de atividades entre os anos de 2005 a 2017. Para comparar o empreendedorismo em outras áreas, foram utilizadas as palavras- chave extraídos da PL dos: (artigos publicados em anais de evento, artigos publicados em periódicos, orientações concluídas, trabalho de conclusão de curso, orientações de pós-graduação, textos de jornais e revistas, trabalhos técnicos, livros publicados, participação em eventos, redes sociais, programas

de rádio e produções artiticas e culturais) relacionados a empreendedorismo, inovação.

3- Etapa: Pré-Processamento de Mineração de Dados: A exploração dos dados foi realizada em vários momentos e serviu de condução do experimento, iniciando durante a extração e prosseguindo nas etapas de DCBD de limpeza dos dados e exploração propriamente dita, ocorridas nos ambientes Access e no Software R. Finalizando a etapa, foram realizadas algumas Consultas Estruturadas em Banco de Dados (SQL – do inglês – Structured Query Language), conforme o Modelo Entidade Relacionamento (MER), descrito na Figura 23. Posteriormente, foram executadas para a exploração dos dados, os quais foram organizados em planilha e utilizando-se métodos estatísticos. Logo após a importação dos dados da PL, foram criadas pastas no Excel para cada metadado, que corresponderiam a uma determinada tabela no banco de dados Access. Com o banco de dados concluído, foram realizadas várias SQLs para exploração dos dados, em que se verificou falta de padronização de termos decorrentes dos diferentes sinônimos adotados pelos docentes durante o preenchimento de seus currículos. Eles foram padronizados em seguida.

Na etapa de enriquecimento da base de dados, foram criadas variáveis que não constavam nos CLs dos docentes, mas que foram consideradas relevantes para a geração de conhecimento. Os dados acrescentados podem ser visualizados no apêndice da Tabela 33. Nessa etapa foram utilizados os scripts desenvolvidos para as análises das estatísticas das variáveis numéricas e categóricas, utilizando o

software R 3,5. Esse processo resultou nos quadros, tabelas e figuras apresentados

na seção de resultados (4), cujo conteúdo diferencia as duas IES

4- Etapa: Transformação dos Dados: A limpeza da base de dados tem como objetivo retirar dados duplicados, inconsistentes, redundantes e caracteres especiais não aceitos pelos algoritmos de mineração. Nesse contexto, os softwares R e Access foram utilizados para preparação dos dados. Essa etapa é fundamental no processo de DCBD, pois dados inconsistentes podem comprometer a precisão dos resultados da mineração de dados (ITOH, 2013). Durante as tentativas de importação dos dados do Excel para o Software R, verificou-se a existência de caracteres especiais, acentos, vírgulas e delimitadores de campos incompatíveis com os ambientes a serem utilizados no decorrer da pesquisa. Então, o conjunto de dados foi tratado por meio das ferramentas de localizar e substituir do Excel, até que se conseguiu realizar sua importação pelo banco de dados Access.