RECONHECIMENTO DE PADRÕES PELO MÉTODO ESTATÍSTICO
MULTIVARIADO: EVASÃO DE ALUNOS DE CURSO DE GRADUAÇÃO
Sonia Isoldi Marty Gama Müller
DEST/PPGMNE-UFPR Centro Politécnico- Curitiba -PR
soniaisoldi@ufpr.br
Anselmo Chaves Neto
DEST/PPGMNE-UFPR Centro Politécnico- Curitiba -PR
anselmo@ufpr.br
Nelva Maria Zibetti Sganzerla
DEST-UFPR
Centro Politécnico- Curitiba -PR nelva@ufpr.br
RESUMO
Historicamente, um dos problemas das universidades brasileiras, tanto nas públicas quanto nas particulares, é a evasão de alunos dos cursos de graduação. Este trabalho demonstra que é possível detectar uma futura evasão a partir do término do primeiro semestre do curso freqüentado. Para tanto, foram aplicadas e comparadas técnicas estatísticas e de aprendizado de máquina para as tarefas de reconhecimento de padrões e classificação. Os resultados apontaram que, no estudo de caso abordado, as técnicas estatísticas se mostraram mais eficientes que a de aprendizado de máquina (Redes Neurais Artificiais).
PALAVRAS CHAVE. Reconhecimento de Padrão e Classificação. Redes Neurais Artificiais. Análise Multivariada.
EDU – Aplicações a Educação.
ABSTRACT
Historically, one of the problems of the Brazilian universities, so much in public as in private universities, is the students' of degree courses drop out. This work demonstrates that it is possible to detect a future escape starting from the end of the first semester. Therefore, a compared statistical and learning machine techniques for pattern recognition and classification tasks were applied. The results of this case indicated that the statistical techniques were more efficient than the learning Machine(Artificial Neural Network).
KEYWORDS. Pattern Recognition and Classification. Artificial Neural Networks. Multivariate Analysis.
1. Introdução
No processo educacional o fenômeno de evasão é extremamente preocupante. Nas
universidades brasileiras esse fenômeno atinge um índice alto, principalmente, nos cursos da área de Ciências Exatas. Isto ocorre em IES públicas e em IES particulares.
Ao tratar das raízes do abandono universitário, Dupont e Ossandon, citados por SGANZERLA (2001), consideram que, de maneira geral, o abandono se dá sob duas formas: pelos resultados acadêmicos insuficientes e pela sua retirada voluntária da instituição. Segundo os autores POLYDORO (1995, 2000) e AZZI et alii (1996) a perspectiva de alcançar a formação superior se mantém presente na maioria dos evadidos. Também, é grande o interesse da instituição em manter o aluno no curso, pois a evasão representaria uma perda social, de recursos e de tempo de todos os envolvidos. A identificação de um aluno com chances de se evadir, no início do curso, permite que a instituição promova ações que ajudem o aluno a permanecer no curso.
Este estudo não analisa as causas de evasão e sim fornece um instrumento que possibilita aos administradores detectar alunos com chances de evasão e, ainda, facilita a atuação da orientação educacional.
O interesse desta pesquisa foi despertado pela percepção da ocorrência de grande percentual de desistências, trancamentos de matrículas e dificuldades de acompanhamento no curso de Estatística da Universidade Federal do Paraná. Consideraram-se algumas tentativas de solução destes problemas, porém sempre muito tarde para recuperar o aluno. Surgiu a idéia de se detectar um possível evadido ou mesmo um aluno com dificuldades de aprendizado para que uma orientação educacional fizesse já no primeiro ano de curso alguma medida profilática.
Selecionou-se 163 ex-alunos ingressos dos anos de 1998, 1999 e 2000, constatando-se que 92 destes evadiram, 56 não terminaram no prazo mínimo previsto e 15 terminaram no prazo. As variáveis observadas, um total de quarenta e cinco, foram coletadas no processo seletivo e no diário de classe de duas disciplinas do primeiro semestre do curso.
As técnicas utilizadas no reconhecimento de padrão e classificação foram: Função Linear de Fisher para Várias Populações e Redes Neurais Artificiais descritas a seguir.
2. Revisão de Literatura
O Reconhecimento de Padrões por método estatístico se refere às técnicas que visam reconhecer e classificar objetos ou indivíduos em grupos com base em medidas observadas. Esse reconhecimento pode ser feito através de processo supervisionado e não-supervisionado. O processo supervisionado é usado quando se conhece os padrões a serem discriminados e o não-supervisionado não possui padrões definidos e se faz necessário determiná-los.
As técnicas estatísticas têm demonstrado bom desempenho no reconhecimento de padrões e classificação, especialmente o método desenvolvido por Fisher que neste trabalho é descrito na seção 2.1.
Redes Neurais tem sido uma opção alternativa, entre outras, e também tem apresentado bom desempenho na classificação com várias populações, apresentadas na seção 2.2.
A comparação entre os métodos foi feita utilizando o percentual de casos classificados corretamente.
2.1. Método de Fisher
O método de Fisher considera que, segundo JOHNSON & WICHERN (1992), o vetor aleatório que representa um indivíduo (aluno) é composto por características (variáveis aleatórias) que definem o tipo de aluno e, portanto, é oriundo de uma distribuição de probabilidades multivariada com vetor de médias µ
e matriz de covariância Σ, não
necessariamente Gaussiana. É suposto que em cada população (grupo) o vetor aleatório tem a mesma matriz de covariância. A idéia principal é transformar as observações multivariadas (x
em univariadas (y), através de uma combinação linear e de forma a maximizar a distância entre as observações multivariadas dos grupos.
Seja µ
o vetor médio de g grupos e B0 a soma dos produtos cruzados "entre" os grupos populacionais, tais que:
g i i 1 1 g = µ =
∑
µ e(
)(
)
g 0 i i i 1 B ' = =∑
µ − µ µ − µEntão, considerando-se a combinação linear y = 'xA
obtêm-se o valor esperado de y na seqüência: i i (y) = ' (x | ) = ' Ε A Ε π A µ para a população Π ; i
( )
2 y V y 'Cov(x) ' σ = =A A A A= Σpara todas as populações.
Assim, a média global para todas as populações é dada por:
g g y iy i i 1 i 1 1 1 ' ' g = g = µ =
∑
µ =∑
Aµ = µAA razão entre a soma dos quadrados das distâncias de todas as populações para a média global de y e sua variância é dada por:
g g g 2 2 i i iy y i i 1 0 i 1 i 1 2 y ' ( - )( - ) ' ( ) ( ' - ' ) 'B ' ' ' = = = µ µ µ µ µ − µ µ µ = = = Σ Σ Σ σ
∑
∑
∑
A A A A A A A A A A A AEssa razão mede a variabilidade "entre" os grupos de valores relativos y com a variabilidade comum "dentro" dos grupos.
Sejam λ ≥ λ ≥ ≥ λ > os autovalores não nulos de 1 2 ... s 0 1 0 B −
Σ e e ,e ,...,e1 2 s
os autovetores
correspondentes normalizados, tal que e ' e 1Σ =
e s min(g 1,p)≤ − . Então o vetor que maximiza a
razão:
(
)(
)
g i i i 1 0 ' ' 'B ' ' = µ − µ µ − µ = Σ Σ∑
A A A A A A A A é dado por A1=e1. A combinação linear A ' x1 é chamada de 1°.discriminante.O valor A2=e2
maximiza a razão anterior, sujeito a covariância Cov( ' x, ' x) 0A1 A2 =
e a combinação linear A ' x2 é
chamada de 2o.discriminante. Continuando, tem-se que Ak=ek
maximiza a razão sujeita a
k i Cov( ' x, ' x) 0A A =
, para todo i< . Aqui k
1 1
2 2
Σ Σ = Σ é chamado de k-ésimo determinante e para todos os discriminante a variância é igual a unidade.
Pelo teorema de maximização de formas quadráticas para pontos em uma unidade esférica, tem-se o máximo da razão em λ que é o maior autovalor de 1 12 12
0
B
− −
Σ Σ . Este máximo
ocorre quando a e= 1
1 1 2 2 1 1 1 1 e = = Σa A ⇒ A = Σ e
(
)
1 1 1 1 1 1 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 Var ' xA =A' eΣA = Σ ΣΣ′ − − e = Σ Σ Σ Σe′ − − e =e e′ =1 Sabendo-se que aé perpendicular a e1 e que maximiza a razão
1 1 2 2 0 a B a a a − − ′Σ Σ ′ . Então quando a e= 2
este será o autovetor normalizado correspondente para λ2. Então:
1 2 2 e2 − = Σ A
e Cov( ' x, ' x)A 2 A1 =A' 2Σ =A1 e e ′2 1=0 desde que e2⊥e1.
Similarmente tem-se que Var ' x
(
A2)
=A'2Σ e eA2= ′2 2 =1e continuando neste mesmo
raciocínio observa-se que a e= k
maximiza a razão 1 1 2 2 0 a B a a a − − ′Σ Σ ′ sendo a⊥e ,e , ,e1 2 " k e 1 2 k ek − = Σ A satisfaz: 12 12 k i k i k i k i 0 se i<k Cov( ' x, ' x) ' e e e e 1 se i=k − − ′ ′ = Σ = Σ ΣΣ = = A A A A Então, se
λ
e esão respectivamente autovalores e autovetores de
1 1 2 2 0 B − − Σ Σ . Assim, 1 1 2 2 0 B e e − − Σ Σ = λ
e multiplicando os dois termos por
1 2 Σ fica: 1 1 1 1 2 2 2 2 0 B e e − − − − Σ Σ Σ = λΣ ou
(
) (
)
1 1 1 2 2 0 B − e − e − Σ Σ = λ ΣEntão, ∑−1B0 tem os mesmos autovalores que 12 12
0
B
− −
Σ Σ , mas os correspondentes
autovetores são proporcionais a Σ−12e l=
, como se afirmou.
Assim, A A'Σ = Σ ΣΣe′ −12 −12e e e 1= ′ =
e as combinações lineares A ' x, ' x, , ' x1 A2 " A s ,
correspondem a autovalores não nulos de 1
0
B
−
Σ , formando uma série de discriminantes com:
i
Var( x) 1A′ =
e Cov( ' x, ' x) 0 para i kA i Ak = ≠
Sabendo que µ e Σ são geralmente desconhecidos, pode-se então treinar uma série de i observações corretamente classificadas. Supondo ser a série treinada uma amostra aleatória de tamanho n da população i Πi, onde i=1,2,...,g; tem-se o vetor de média amostral é dado por:
i n i ij j 1 i 1 x x n = =
∑
O vetor de média global é definido a seguir, oriundo do vetor médio obtido de todas as observações de uma série treinada.
i n g g ij i ij i 1 j 1 i 1 g g i i i 1 i 1 x n x x n n = = = = = =
∑
=∑∑
∑
∑
A matriz B que corresponde a matriz soma dos produtos cruzados "entre" os grupos 0 populacionais pode ser estimada por:
g 0 i i i 1 B (x - x)(x - x)' = =
∑
A estimativa de Σ se baseia na matriz de soma dos produtos cruzados "dentro" dos grupos amostrais apresentada abaixo, onde S é a matriz de covariância de cada grupo: i
i n g g i i ij i ij i i 1 i 1 j 1 W (n -1) S (x - x )(x - x ) = = = =
∑
=∑∑
Então a estimativa de Σ chamada de matriz de covariância conjunta é dada por:
c 1 2 g W ˆ S (n n ... n - g) Σ = = + + +
Tendo em vista que o mesmo ˆA
que maximiza 0 c ˆ'B 'ˆ ˆ ˆ'Sˆ A A A A também maximiza ˆ'B 'ˆ0ˆ ˆ ˆ'Σ A A A A , então se pode apresentar a otimização de ˆ′A
na forma de autovetores, ˆei
de 1 0 ˆ W B− porque se 1 0 ˆ ˆ ˆ ˆ W B e− = λe então: -1 c ˆ ˆ0 1 2 g ˆ S B e= λ (n +n + +... n - g) e
Portanto, o Discriminante Amostral de Fisher para Várias Populações pode ser definido. Seja 0λˆ.1,λˆ.2,",λˆ.s > os autovalores não nulos de 1
0
ˆ
W B− e e ,e , ,eˆ ˆ1 2 " ˆs
os
correspondentes autovetores. Então, o vetor de coeficientes ˆ 'A
que maximiza a razão
0 ˆ'Bˆ ˆ ˆ'Wˆ A A A A é dado por ˆA1=ˆe1
e a combinação linear ˆA ' x e x1 =ˆ1 é chamada de 1
o. Discriminante Amostral; 2 2 ˆ =ˆe A produz o 2 o.Discriminante Amostral 2 2 ˆ' x e x=ˆ A
, generalizando tem-se que ˆA ' x e xk =ˆk é
o k-ésimo Discriminante Amostral para k≤ . s
O resultado fornece subsídios para classificar novos valores a partir do cálculo das distâncias euclidianas entre o valor da função discriminante no ponto selecionado e os valores das funções discriminantes dos valores médios dos grupos (populações), então a população escolhida é a que tenha menor distância. Para tanto, segue a regra:
Alocar x na população Πk se: r 2 j kj j 1 ˆ (y -y ) = =
∑
r 2 j k j 1 ˆ [ (x x )] = ′ −∑
A ≤ r 2 j i j 1 ˆ [ (x x )] = ′ −∑
A para todo i ≠ k onde:ˆy
j= A
ˆ
jx
e kj j k
ˆ
y
= A
x
com
r
≤
s
2.2 Redes Neurais Artificiais
Segundo LIPPMANN (1987), Redes Neurais Artificiais são modelos que têm sido estudados com o objetivo de simular o desempenho do cérebro humano nos campos de linguagem e reconhecimento de imagens.
Os elementos de processamento são os chamados neurônios artificiais, que elaboram uma soma ponderada das entradas e aplicam o resultado a uma função de transferência não-linear para gerar a saída. Basicamente, estes modelos consistem de elementos de processamento, uma topologia de interconexões e esquemas de aprendizagem obtidos através de modelos matemáticos. Todo aprendizado, segundo GORNI (1996) está armazenado em suas sinapses, isto é, pesos relativos às conexões entre neurônios, assim o processo de treinamento consiste no ajuste desses pesos.
Assim que os pesos forem ajustados na rede neural para cada uma das classes, podem-se inserir novos valores para serem classificados, sendo que haverá uma resposta direta da rede, sem necessidade de comparações, como acontece no caso de métodos estatísticos.
Neste trabalho foi utilizada uma rede neural probabilística (PNN- Probabilistic Neural
Network) do programa Statgraphics, que é um tipo de rede bastante empregado em problemas de classificação. Essa rede possui apenas três camadas: camada de entrada, camada escondida e camada de saída, conforme ilustra a Figura 1. O número de neurônios na camada escondida é definido de acordo com o número de vetores utilizados para o treinamento. Na camada de saída, a quantidade de neurônios é a mesma das classes a serem reconhecidas. O resultado apresentado nesta pesquisa usa este tipo de rede fundamentado nas 45 variáveis de entrada e nos 155 casos de dados de treinamento. Input layer (10 variables) Pattern layer (155 cases) Summation layer (3 neurons) Output layer (3 groups)
Figura 1: Rede Neural Probabilística
Segundo FERNANDES et alii (2005) a rede neural probabilística é uma extensão da rede RBF - Radial Basis Function. Quando uma entrada é apresentada, a primeira camada computa a distância do vetor de entrada aos vetores de treinamento, produzindo um vetor cujos elementos indicam a distância do vetor de entrada para os vetores de treinamento (classes). A segunda camada soma a contribuição da entrada para cada classe, produzindo em sua saída um vetor de probabilidades. Finalmente, uma função de transferência competitiva encontra a classe com maior probabilidade de representar o vetor de entrada.
Um classificador PNN tem o comportamento de um classificador de Bayes e sua relativa facilidade de implementação e treinamento a tornam ideal para um sistema automatizado de classificação. As redes neurais artificiais do tipo RBF são estruturas de rede que, usando campos receptores locais, executam funções de mapeamento.
Treinar este tipo de rede corresponde a encontrar uma superfície em um espaço multidimensional que provê aos dados de treinamento o melhor ajuste do ponto de vista estatístico. O nível de ativação da i-ésima unidade é dado por:
i i i i i
w =R (x) R (| x -= µ σ| / ), i 1,2,...,H=
onde x
é um vetor de entrada multidimensional, µi
é um vetor com a mesma dimensão que x, H é o número de funções de base radial e R é a i-ésima função de base radial com um único i máximo.
O vetor de entrada é comparado com cada um dos H vetores µ, que representam os centros das funções de base radial. Um conjunto de pesos w , resultantes dessa computação, i representa o grau de proximidade do vetor de entrada a cada um destes centros. Não existe nenhuma conexão de pesos entre a camada de entrada e a camada escondida. Tipicamente, R (x)i
é uma função Gaussiana dada por:
2 i i 2 i x -R (x) exp 2 µ = σ
Dessa forma o nível de ativação da função de base radial R (x)i
, computado pela i-ésima unidade da camada escondida, é máximo quando o vetor de entrada x está no centro da unidade
i
µ .
A saída da rede pode ser computada tomando-se a soma ponderada do valor de saída associada a cada unidade ou tomando-se a média ponderada da saída associada a cada unidade.
H i i H i i i 1 i 1 d(x) c w c R (x) = = =
∑
=∑
No caso da Rede Neural Probabilística a saída corresponde ao número de grupos como mostrado anteriormente da figura 1.
3. Materiais e Métodos
A amostra estudada consiste de 163 ex-alunos ingressos nos anos de 1998, 1999 e 2000. Eles estavam agrupados da seguinte maneira: 92 não terminaram o curso, 56 terminaram o curso com atraso e 15 terminaram no prazo certo.
As variáveis estudadas foram coletadas nos arquivos cedidos pelo Núcleo de Concurso da UFPR e nos diários de classe das disciplinas de Estatística Geral I, Cálculo de Probabilidade I e Cálculo com Geometria Analítica I. Dentre as características analisadas (variáveis aleatórias observadas) de cada aluno, encontram-se características sócio-econômicas (situação de moradia, renda familiar, etc.), dados sobre a formação do ensino médio, escores no vestibular, notas e freqüências das disciplinas da graduação já citadas.
Os dados foram analisados no programa SIAVAL 1.0 no caso de reconhecimento de padrões e classificação pelo Método de Fisher e utilizou-se o programa Statgraphics para Redes Neurais.
4. Resultado e Discussão
Os resultados encontrados nos dois métodos testados estão apresentados na tabelas 1 e 2 a seguir, sendo que a primeira se refere às classificações obtidas pelo Método de Fisher e a segunda por Redes Neurais.
Tabela 1: Tabela de Contingência na Classificação feita pelo Método Linear de Fisher. Grupos Previstos
Grupos de Referência Abandonaram
ou Trancaram o Curso Não Concluíram o Curso no Tempo Certo Concluíram o Curso no Tempo certo Total Abandonaram ou Trancaram o Curso 78(47,9%) 10(6,1%) 4(2,5%) 92 Não Concluíram o
Curso no Tempo Certo 8(4,9%) 40(24,5%) 8(4,9%) 56
Concluíram o Curso
no Tempo certo 0(0%) 1(0,6%) 14(8,6%) 15
Total 86 51 26 163
Fonte: Resultado obtido pelos autores no programa SIAVAL 1.0. Obs: Percentual de casos classificados corretamente: 81,0%
Tabela 2: Tabela de Contingência na Classificação feita pela Rede Neural. Grupos Previstos
Grupos de Referência Abandonaram
ou Trancaram o Curso Não Concluíram o Curso no Tempo Certo Concluíram o Curso no Tempo certo Total Abandonaram ou Trancaram o Curso 57(35,0%) 32(19,6%) 3(1,8%) 92 Não Concluíram o
Curso no Tempo Certo 4(2,5%) 42(25,8%) 10(6,1%) 56
Concluíram o Curso
no Tempo certo 0(0%) 6(3,7%) 9(5,5%) 15
Total 61 82 22 163
Fonte: Resultado obtido pelos autores no programa Statgraphics Centurion. Obs: Percentual de casos classificados corretamente: 66,3%
5. Conclusão
Dos procedimentos analisados o Método de Fisher apresentou melhor desempenho que a Rede Neural dado que o percentual de casos classificados corretamente do primeiro método resultou em 81,0% e do segundo 66,3%.
Da tabela 1, vê-se que 78 dos 92 alunos foram corretamente identificados como evadidos e isso representa um percentual de aproximadamente 85%. Por outro lado, 15% foi o erro cometido na classificação, o que pode ser considerado pequeno. É importante destacar que o método pode ser utilizado por gestores da educação que desejam detectar evasões antes que elas ocorram, possibilitando elaborar ações de prevenção diretamente com esta população.
Referências
Azzi, R. G.; Mercuri, E. e Moran, R. C. (1996), Fatores que interferem na decisão de desistência de curso no primeiro ano de graduação, Campinas (Mimeogr.).
Fernandes, Décio E.B.; Alves, Mário F. e Júnior, Pyramo P.C. (2005), Classificação de Padrões de Afundamentos de Tensão em Sistemas de Monitoramento da Qualidade da Energia Elétrica., VI SBQEE, Belém –Pará, 690-696.
Gorni, Antonio A. (1996), Redes Neurais Artificiais. Uma abordagem revolucionária em Inteligência Artificial. Micro Sistemas, Ano XIII. Nº 133.
Hair, J. F; Anderson, R. E.; Tatham, R. L. e Black, W. C., Análise Multivariada de Dados. .; Tradução:. Adonay S.Sant´anna e Anselmo Chaves Neto, Bookman, 2005.
Johnson R. A.; Wichern, D. W., Applied Multivariate Statistical Analysis, Prentice Hall
Internationa, New Jersey, 1992.
Lippmann, Richard P. (1987). Introduction to Computing with Neural Nets, IEEE ASSP Magazine, 04-22.
Polydoro, S. A. J. (1995), Evasão em uma instituição de ensino superior: desafio para a psicologia escolar (Dissertação de Mestrado), Campinas, PUCCAMP.
Polydoro, S. A. J. (2000). O Trancamento de matrícula na trajetória acadêmica do universitário: condições de saída e de retorno à instituição (Tese de Doutorado), Campinas, UNICAMP
Sganzerla, N. M. Z. (2001). Aspectos Relevantes da Estatística e a Evasão de Estudantes no Curso de Graduação em Estatística da UFPR, Tese de Doutorado, Marília, UNESP.