• Nenhum resultado encontrado

4.2 PERFIL DOS DOCENTES DA UTFPR E UFABC

4.2.6 Análise Multivariada de Regressão Logística

A partir das variáveis selecionadas na análise univariada, foi ajustado um modelo multivariado de Regressão Logística (AGRESTI, 2002) e para esse modelo foi aplicado o método Backward para a seleção final das variáveis, considerando um nível de significância de 5%. É importante destacar que a variável escolaridade foi inserida no modelo de forma ordinal (Graduação = 1, Mestrado = 2, Doutorado = 3, Pós- doutorado = 4) e a variável IES de formação foi inserida na forma de variáveis dummy, sendo incluídas apenas as dummys10 USP e Unicamp, por terem sido os níveis de maior frequência. Já quanto à variável grande área de formação, o nível “linguística” foi agrupado ao nível “multidisciplinar”, por motivo de baixíssima frequência daquele. Destaca-se ainda que a variável continente de formação do último título, apesar de ter sido selecionada para o modelo multivariado, não foi incluída por apresentar VIF (variance inflation fator) superior a 5, indicando multicolinearidade11 (MONTGOMERY; PECK; VINING, 2006).

10 Dummy: frequentemente chamadas de variáveis binárias ou dicotômicas, uma vez que

assumem apenas um de dois valores – em geral 0 ou 1 – para indicar a presença ou ausência de determinada característica.

11 Multicolinearidade: são utilizados para indicar a existência forte de correlação entre duas (ou

A Tabela 6 apresenta os modelos multivariados inicial e final para a derivação dos docentes e a Figura 5 apresenta a ilustração da curva ROC12. Segundo o modelo final, pode-se concluir que houve influência significativa das variáveis escolaridade, dummy USP, dummy Unicamp, grande área de formação, tempo de formado, idiomas, linhas de pesquisa, nível de experiência técnica e formação complementar sobre a derivação dos docentes. Cabe ressaltar que a universidade UFABC foi utilizada como referência nos modelos.

Para as análises estatísticas de escolaridade e titulação com o objetivo de traçar o perfil dos docentes da UTFPR e UFABC, tem-se que: a cada grau aumentado na escolaridade de um docente diminui-se em 0,09 [0,05; 0,18] vezes a chance do mesmo ser pesquisador da universidade UTFPR (valor-p < 0,001). Quando comparado a um docente que não obteve o não o último título na USP, um indivíduo que obteve o último título na USP tem uma diminuição de 0,08 [0,05; 0,11] vezes as chances de ser pesquisador da universidade UTFPR (valor-p < 0,001). Quando comparado a um indivíduo que não obteve o último título ou não na Unicamp, um indivíduo que obteve o último título na Unicamp tem uma diminuição de 0,10 [0,06; 0,17] vezes na chance de ser pesquisador da universidade UTFPR (valor-p < 0,001). Inferindo sobre a grande área de formação do CNPq de um docente cujo o último título foi engenharias, um indivíduo cuja grande área de formação do último título foi ciências biológicas tem uma diminuição de 0,29 [0,11; 0,79] vezes as chance de ser pesquisador da universidade UTFPR (valor-p = 0,015); um docente cuja grande área de formação do último título foi ciências humanas tem uma diminuição de 0,48 [0,27; 0,83] vezes as chances de ser pesquisador da universidade UTFPR (valor-p = 0,009); e um docente cuja grande área de formação do último título foi ciências sociais aplicadas tem uma diminuição de 0,18 [0,10; 0,35] vezes na chance de ser pesquisador da universidade UTFPR (valor-p < 0,001).

Para a medida de tempo de formação, foram constatados que a cada ano acrescido na obtenção do primeiro título de um docente, diminui-se em 0,95 [0,93; 0,98] vezes a chance do mesmo ser pesquisador da universidade UTFPR (valor-p < 0,001). Sobre o domínio do idioma, tem-se que a cada idioma a mais que um docente possui, considerando “conversação” ou fala além do português, diminui-se em 0,72

12 ROC: é uma medida que possui variação entre 0 e 1 e indica a proximidade entre a classificação

predita e a real. Sendo assim, quanto mais próximo de 1 for essa medida, melhor a performance.

[0,63; 0,83] vezes a chance do mesmo ser pesquisador da universidade UTFPR (valor- p < 0,001).

Considerando as linhas de pesquisas dos docentes das duas IES, tem-se que a cada unidade acrescida no número de linhas de pesquisa de um docente diminui- se em 0,84 [0,80; 0,89] vezes a chance do mesmo ser pesquisador da universidade UTFPR (valor-p < 0,001). A cada 0,01 unidade acrescida no nível de experiência técnica de um indivíduo diminui-se em 0,98 [0,97; 0,99] vezes a chance do mesmo ser pesquisador da universidade UTFPR (valor-p < 0,001), ou seja, a cada porcentagem a mais de experiência técnica diminui-se a chance do indivíduo ser pesquisador da universidade UTFPR.

A regressão logística aplicada na base de dados demonstra que a cada unidade acrescida na quantidade de formação complementar de um indivíduo aumenta-se em 0,07 [1,04; 1,09] vezes a chance do mesmo ser pesquisador da universidade UTFPR (valor-p < 0,001).

Tabela 6 - Fatores que influenciam a derivação dos docentes de forma multivariada – perfil dos

pesquisadores.

Fonte Modelo inicial Modelo final

O.R. I.C. 95% Valor-p O.R. I.C. 95% Valor-p

Escolaridade 0,09 [0,04; 0,18] <0,001 0,09 [0,05; 0,18] <0,001

USP = Não 1,00 - - 1,00 - -

USP = Sim 0,08 [0,05; 0,12] <0,001 0,08 [0,05; 0,11] <0,001

Unicamp = Não 1,00 - - 1,00 - -

Unicamp = Sim 0,10 [0,06; 0,17] <0,001 0,10 [0,06; 0,17] <0,001

País de formação = Brasil 1,00 - -

País de formação = Exterior 1,42 [0,48; 4,22] 0,524

G. área de formação = Engenharias 1,00 - - 1,00 - -

G. área de formação = Ciências biológicas 0,29 [0,11; 0,80] 0,016 0,29 [0,11; 0,79] 0,015 G. área de formação = Ciências agrárias 2,06 [0,77; 5,50] 0,150 2,03 [0,76; 5,42] 0,158 G. área de formação = Ciências da saúde 0,76 [0,15; 3,91] 0,740 0,78 [0,15; 3,99] 0,768 G. área de formação = C. exatas e da terra 1,12 [0,69; 1,81] 0,639 1,13 [0,70; 1,83] 0,610 G. área de formação = Ciências humanas 0,48 [0,27; 0,83] 0,009 0,48 [0,27; 0,83] 0,009 G. área de formação = C. sociais aplicadas 0,18 [0,10; 0,35] <0,001 0,18 [0,10; 0,35] <0,001 G. área de formação = Multidisciplinar 1,12 [0,43; 2,93] 0,819 1,11 [0,42; 2,90] 0,834 Tempo de formação 0,91 [0,88; 0,95] <0,001 0,92 [0,89; 0,95] <0,001 Idiomas 0,72 [0,60; 0,85] <0,001 0,72 [0,61; 0,85] <0,001 Linhas de pesquisa 0,90 [0,85; 0,96] 0,002 0,90 [0,85; 0,96] 0,002 N. de experiência técnica (x100) 0,98 [0,97; 1,00] 0,017 0,98 [0,97; 1,00] 0,018 Formação complementar 1,05 [1,03; 1,08] <0,001 1,05 [1,03; 1,08] <0,001 Fonte: O Autor (2019).

Além disso, o teste de Hosmer-Lemeshow evidenciou que o modelo estava bem ajustado (valor-p = 0,761) e o Pseudo R² de Negelkerke foi de 0, 4826, o que indica que as variáveis independentes foram capazes de explicar 48,26% da variabilidade da procedência dos pesquisadores. Analisando a área abaixo da curva ROC (AUC), na Figura 11, observa-se que a Regressão logística foi o método de modelagem que apresentou melhor desempenho. Esta análise permite avaliar a variação da sensibilidade, que é a probabilidade de um indivíduo ser classificado como docente da universidade UTFPR, e especificidade, probabilidade de um indivíduo ser classificado como docente da universidade UFABC para diferentes valores de corte

13 Teste de Hosmer-Lemeshow: avalia o modelo ajustado através das distâncias entre as

probabilidades ajustadas e as probabilidades observadas.

Teste de Hosmer-Lemeshow13 0,768 0,761 Pseudo R² - Negelkerke 48,29% 48,26% Sensibilidade 81,92% 82,21% Especificidade 87,44% 87,91% VPP 98,15% 98,22% VPN 37,30% 37,80%

Figura 11 - Curva ROC para a procedência dos docentes.

Fonte: O Autor (2019).

A Tabela 7 apresenta as medidas de qualidade de ajuste do modelo Logístico para observações fora da amostra, além da comparação do desempenho entre outros métodos de modelagem. Vale ressaltar que para essa análise utilizou-se o método de Validação Cruzada (MINGOTI, 2005) para a estimação das medidas de qualidade de ajuste. Dessa forma, pode-se observar que o modelo Logístico apresentou uma boa capacidade preditiva para observações fora da amostra.

Apesar de os outros modelos terem apresentado maior sensibilidade, isso ocorreu em detrimento da especificidade, visto que esta medida foi baixa em todos os outros modelos. Sendo assim, conclui-se que a Regressão logística é o melhor método para a resolução do problema em questão.

Tabela 7 - Comparação dos métodos de modelagem quanto a performance dos modelos – perfil dos

pesquisadores.

Estatísticas Regressão Logística SVM de decisão Árvore Random Forest

Sensibilidade14 82,46% 99,45% 97,31% 97,19%

Especificidade15 87,32% 7,64% 26,84% 35,02%

VPP16 98,18% 89,90% 91,50% 92,41%

VPN17 38,62% 68,49% 57,32% 60,66%

Área abaixo da curva ROC (AUC) 0,907 0,798 0,745 0,765

Fonte: O Autor (2019).