RECONHECIMENTO DE PADRÕES PELO MÉTODO ESTATÍSTICO MULTIVARIADO: EVASÃO DE ALUNOS DE CURSO DE GRADUAÇÃO

(1)

RECONHECIMENTO DE PADRÕES PELO MÉTODO ESTATÍSTICO

MULTIVARIADO: EVASÃO DE ALUNOS DE CURSO DE GRADUAÇÃO

Sonia Isoldi Marty Gama Müller

DEST/PPGMNE-UFPR Centro Politécnico- Curitiba -PR

soniaisoldi@ufpr.br

Anselmo Chaves Neto

DEST/PPGMNE-UFPR Centro Politécnico- Curitiba -PR

anselmo@ufpr.br

Nelva Maria Zibetti Sganzerla

DEST-UFPR

Centro Politécnico- Curitiba -PR nelva@ufpr.br

RESUMO

Historicamente, um dos problemas das universidades brasileiras, tanto nas públicas quanto nas particulares, é a evasão de alunos dos cursos de graduação. Este trabalho demonstra que é possível detectar uma futura evasão a partir do término do primeiro semestre do curso freqüentado. Para tanto, foram aplicadas e comparadas técnicas estatísticas e de aprendizado de máquina para as tarefas de reconhecimento de padrões e classificação. Os resultados apontaram que, no estudo de caso abordado, as técnicas estatísticas se mostraram mais eficientes que a de aprendizado de máquina (Redes Neurais Artificiais).

PALAVRAS CHAVE. Reconhecimento de Padrão e Classificação. Redes Neurais Artificiais. Análise Multivariada.

EDU – Aplicações a Educação.

ABSTRACT

Historically, one of the problems of the Brazilian universities, so much in public as in private universities, is the students' of degree courses drop out. This work demonstrates that it is possible to detect a future escape starting from the end of the first semester. Therefore, a compared statistical and learning machine techniques for pattern recognition and classification tasks were applied. The results of this case indicated that the statistical techniques were more efficient than the learning Machine(Artificial Neural Network).

KEYWORDS. Pattern Recognition and Classification. Artificial Neural Networks. Multivariate Analysis.

(2)

1. Introdução

No processo educacional o fenômeno de evasão é extremamente preocupante. Nas

universidades brasileiras esse fenômeno atinge um índice alto, principalmente, nos cursos da área de Ciências Exatas. Isto ocorre em IES públicas e em IES particulares.

Ao tratar das raízes do abandono universitário, Dupont e Ossandon, citados por SGANZERLA (2001), consideram que, de maneira geral, o abandono se dá sob duas formas: pelos resultados acadêmicos insuficientes e pela sua retirada voluntária da instituição. Segundo os autores POLYDORO (1995, 2000) e AZZI et alii (1996) a perspectiva de alcançar a formação superior se mantém presente na maioria dos evadidos. Também, é grande o interesse da instituição em manter o aluno no curso, pois a evasão representaria uma perda social, de recursos e de tempo de todos os envolvidos. A identificação de um aluno com chances de se evadir, no início do curso, permite que a instituição promova ações que ajudem o aluno a permanecer no curso.

Este estudo não analisa as causas de evasão e sim fornece um instrumento que possibilita aos administradores detectar alunos com chances de evasão e, ainda, facilita a atuação da orientação educacional.

O interesse desta pesquisa foi despertado pela percepção da ocorrência de grande percentual de desistências, trancamentos de matrículas e dificuldades de acompanhamento no curso de Estatística da Universidade Federal do Paraná. Consideraram-se algumas tentativas de solução destes problemas, porém sempre muito tarde para recuperar o aluno. Surgiu a idéia de se detectar um possível evadido ou mesmo um aluno com dificuldades de aprendizado para que uma orientação educacional fizesse já no primeiro ano de curso alguma medida profilática.

Selecionou-se 163 ex-alunos ingressos dos anos de 1998, 1999 e 2000, constatando-se que 92 destes evadiram, 56 não terminaram no prazo mínimo previsto e 15 terminaram no prazo. As variáveis observadas, um total de quarenta e cinco, foram coletadas no processo seletivo e no diário de classe de duas disciplinas do primeiro semestre do curso.

As técnicas utilizadas no reconhecimento de padrão e classificação foram: Função Linear de Fisher para Várias Populações e Redes Neurais Artificiais descritas a seguir.

2. Revisão de Literatura

O Reconhecimento de Padrões por método estatístico se refere às técnicas que visam reconhecer e classificar objetos ou indivíduos em grupos com base em medidas observadas. Esse reconhecimento pode ser feito através de processo supervisionado e não-supervisionado. O processo supervisionado é usado quando se conhece os padrões a serem discriminados e o não-supervisionado não possui padrões definidos e se faz necessário determiná-los.

As técnicas estatísticas têm demonstrado bom desempenho no reconhecimento de padrões e classificação, especialmente o método desenvolvido por Fisher que neste trabalho é descrito na seção 2.1.

Redes Neurais tem sido uma opção alternativa, entre outras, e também tem apresentado bom desempenho na classificação com várias populações, apresentadas na seção 2.2.

A comparação entre os métodos foi feita utilizando o percentual de casos classificados corretamente.

2.1. Método de Fisher

O método de Fisher considera que, segundo JOHNSON & WICHERN (1992), o vetor aleatório que representa um indivíduo (aluno) é composto por características (variáveis aleatórias) que definem o tipo de aluno e, portanto, é oriundo de uma distribuição de probabilidades multivariada com vetor de médias µ

e matriz de covariância Σ, não

necessariamente Gaussiana. É suposto que em cada população (grupo) o vetor aleatório tem a mesma matriz de covariância. A idéia principal é transformar as observações multivariadas (x

(3)

em univariadas (y), através de uma combinação linear e de forma a maximizar a distância entre as observações multivariadas dos grupos.

Seja µ

o vetor médio de g grupos e B0 a soma dos produtos cruzados "entre" os grupos populacionais, tais que:

g i i 1 1 g = µ =

∑

µ e

(

)(

)

g 0 i i i 1 B ' = =

∑

µ − µ µ − µ

Então, considerando-se a combinação linear y = 'xA

obtêm-se o valor esperado de y na seqüência: i i (y) = ' (x | ) = ' Ε A Ε π A µ para a população Π ; i

( )

2 y V y 'Cov(x) ' σ = =A A A A= Σ

para todas as populações.

Assim, a média global para todas as populações é dada por:

g g y iy i i 1 i 1 1 1 ' ' g = g = µ =

∑

µ =

∑

Aµ = µA

A razão entre a soma dos quadrados das distâncias de todas as populações para a média global de y e sua variância é dada por:

g g g 2 2 i i iy y i i 1 0 i 1 i 1 2 y ' ( - )( - ) ' ( ) ( ' - ' ) 'B ' ' ' = = =   µ µ µ µ µ − µ µ µ     = = = Σ Σ Σ σ

∑

A A A A A A A A A A A A

Essa razão mede a variabilidade "entre" os grupos de valores relativos y com a variabilidade comum "dentro" dos grupos.

Sejam λ ≥ λ ≥ ≥ λ > os autovalores não nulos de ₁ ₂ ... _s 0 1 0 B −

Σ e e ,e ,...,e₁ ₂ _s

os autovetores

correspondentes normalizados, tal que e ' e 1Σ =

e s min(g 1,p)≤ − . Então o vetor que maximiza a

razão:

(

)(

)

g i i i 1 0 ' ' 'B ' ' =   µ − µ µ − µ     = Σ Σ

∑

A A A A A A A A é dado por A₁=e₁

. A combinação linear A' x1 é chamada de 1°.discriminante.O valor A2=e2

maximiza a razão anterior, sujeito a covariância Cov( ' x, ' x) 0A₁ A₂ =

e a combinação linear A' x2 é

chamada de 2o.discriminante. Continuando, tem-se que A_k=e_k

maximiza a razão sujeita a

k i Cov( ' x, ' x) 0A A =

, para todo i< . Aqui k

1 1

2 2

Σ Σ = Σ é chamado de k-ésimo determinante e para todos os discriminante a variância é igual a unidade.

Pelo teorema de maximização de formas quadráticas para pontos em uma unidade esférica, tem-se o máximo da razão em λ que é o maior autovalor de ₁ 12 12

0

B

− −

Σ Σ . Este máximo

ocorre quando a e= ₁

(4)

1 1 2 2 1 1 1 1 e = = Σa A ⇒ A = Σ e

(

)

1 1 1 1 1 1 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 Var ' xA =A' eΣA = Σ ΣΣ′ − − e = Σ Σ Σ Σe′ − − e =e e′ =1 Sabendo-se que a

é perpendicular a e1 e que maximiza a razão

1 1 2 2 0 a B a a a − − ′Σ Σ ′ . Então quando a e= ₂

este será o autovetor normalizado correspondente para λ2. Então:

1 2 2 e2 − = Σ A

e Cov( ' x, ' x)A2 A1 =A' 2Σ =A1 e e′2 1=0 desde que e2⊥e1.

Similarmente tem-se que Var ' x

(

A₂

)

=A'₂Σ e eA₂= ′_{2 2} =1

e continuando neste mesmo

raciocínio observa-se que a e= _k

maximiza a razão 1 1 2 2 0 a B a a a − − ′Σ Σ ′ sendo a⊥e ,e , ,e₁ ₂ " _k e 1 2 k ek − = Σ A satisfaz: 12 12 k i k i k i k i 0 se i<k Cov( ' x, ' x) ' e e e e 1 se i=k − −  ′ ′ = Σ = Σ ΣΣ = _{= }  A A A A Então, se

λ

e e

são respectivamente autovalores e autovetores de

1 1 2 2 0 B − − Σ Σ . Assim, 1 1 2 2 0 B e e − − Σ Σ = λ

e multiplicando os dois termos por

1 2 Σ fica: 1 1 1 1 2 2 2 2 0 B e e − − − − Σ Σ Σ = λΣ ou

(

) (

)

1 1 1 2 2 0 B − e − e − Σ Σ = λ Σ

Então, _∑−1_B₀_{tem os mesmos autovalores que} 1₂ 1₂

0

B

− −

Σ Σ , mas os correspondentes

autovetores são proporcionais a Σ−12_{e l}=

, como se afirmou.

Assim, _{A A}_'Σ = Σ ΣΣ_e′ −12 −12_{e e e 1}= ′ =

e as combinações lineares A' x, ' x, , ' x1 A2 " As ,

correspondem a autovalores não nulos de 1

0

B

−

Σ , formando uma série de discriminantes com:

i

Var( x) 1A′ =

e Cov( ' x, ' x) 0 para i kAi Ak = ≠

Sabendo que µ e Σ são geralmente desconhecidos, pode-se então treinar uma série de _i observações corretamente classificadas. Supondo ser a série treinada uma amostra aleatória de tamanho n da população _i Π_i, onde i=1,2,...,g; tem-se o vetor de média amostral é dado por:

i n i ij j 1 i 1 x x n = =

∑

O vetor de média global é definido a seguir, oriundo do vetor médio obtido de todas as observações de uma série treinada.

(5)

i n g g ij i ij i 1 j 1 i 1 g g i i i 1 i 1 x n x x n n = = = = = =

∑

=

∑∑

∑

A matriz B que corresponde a matriz soma dos produtos cruzados "entre" os grupos ₀ populacionais pode ser estimada por:

g 0 i i i 1 B (x - x)(x - x)' = =

∑

A estimativa de Σ se baseia na matriz de soma dos produtos cruzados "dentro" dos grupos amostrais apresentada abaixo, onde S é a matriz de covariância de cada grupo: _i

i n g g i i ij i ij i i 1 i 1 j 1 W (n -1) S (x - x )(x - x ) = = = =

∑

=

∑∑

Então a estimativa de Σ chamada de matriz de covariância conjunta é dada por:

c 1 2 g W ˆ S (n n ... n - g) Σ = = + + +

Tendo em vista que o mesmo ˆA

que maximiza 0 c ˆ_{'B '}ˆ ˆ ˆ_'Sˆ A A A A também maximiza ˆ'B 'ˆ0ˆ ˆ ˆ_'Σ A A A A , então se pode apresentar a otimização de ˆ′A

na forma de autovetores, ˆei

de 1 0 ˆ W B− porque se 1 0 ˆ ˆ ˆ ˆ W B e− = λe então: -1 c ˆ ˆ0 1 2 g ˆ S B e= λ (n +n + +... n - g) e

Portanto, o Discriminante Amostral de Fisher para Várias Populações pode ser definido. Seja 0λˆ.₁,λˆ.₂,",λˆ._s > os autovalores não nulos de 1

0

ˆ

W B− e e ,e , ,eˆ ˆ₁ ₂ " ˆ_s

os

correspondentes autovetores. Então, o vetor de coeficientes ˆ 'A

que maximiza a razão

0 ˆ_'Bˆ ˆ ˆ_'Wˆ A A A A é dado por ˆA₁=ˆe₁

e a combinação linear ˆA' x e x1 =ˆ1 é chamada de 1

o_{. Discriminante Amostral;} 2 2 ˆ ₌_ˆe A produz o 2 o_{.Discriminante Amostral} 2 2 ˆ_{' x e x}₌_ˆ A

, generalizando tem-se que ˆA' x e xk =ˆk é

o k-ésimo Discriminante Amostral para k≤ . s

O resultado fornece subsídios para classificar novos valores a partir do cálculo das distâncias euclidianas entre o valor da função discriminante no ponto selecionado e os valores das funções discriminantes dos valores médios dos grupos (populações), então a população escolhida é a que tenha menor distância. Para tanto, segue a regra:

Alocar x na população Π_k se: r 2 j kj j 1 ˆ (y -y ) = =

∑

r 2 j k j 1 ˆ [ (x x )] = ′ −

∑

A ≤ r 2 j i j 1 ˆ [ (x x )] = ′ −

∑

A para todo i ≠ k onde:

ˆy

_j

= A

ˆ

_j

x

e kj j k

ˆ

y

= A

x

com

r

≤

s

(6)

2.2 Redes Neurais Artificiais

Segundo LIPPMANN (1987), Redes Neurais Artificiais são modelos que têm sido estudados com o objetivo de simular o desempenho do cérebro humano nos campos de linguagem e reconhecimento de imagens.

Os elementos de processamento são os chamados neurônios artificiais, que elaboram uma soma ponderada das entradas e aplicam o resultado a uma função de transferência não-linear para gerar a saída. Basicamente, estes modelos consistem de elementos de processamento, uma topologia de interconexões e esquemas de aprendizagem obtidos através de modelos matemáticos. Todo aprendizado, segundo GORNI (1996) está armazenado em suas sinapses, isto é, pesos relativos às conexões entre neurônios, assim o processo de treinamento consiste no ajuste desses pesos.

Assim que os pesos forem ajustados na rede neural para cada uma das classes, podem-se inserir novos valores para serem classificados, sendo que haverá uma resposta direta da rede, sem necessidade de comparações, como acontece no caso de métodos estatísticos.

Neste trabalho foi utilizada uma rede neural probabilística (PNN- Probabilistic Neural

Network) do programa Statgraphics, que é um tipo de rede bastante empregado em problemas de classificação. Essa rede possui apenas três camadas: camada de entrada, camada escondida e camada de saída, conforme ilustra a Figura 1. O número de neurônios na camada escondida é definido de acordo com o número de vetores utilizados para o treinamento. Na camada de saída, a quantidade de neurônios é a mesma das classes a serem reconhecidas. O resultado apresentado nesta pesquisa usa este tipo de rede fundamentado nas 45 variáveis de entrada e nos 155 casos de dados de treinamento. Input layer (10 variables) Pattern layer (155 cases) Summation layer (3 neurons) Output layer (3 groups)

Figura 1: Rede Neural Probabilística

Segundo FERNANDES et alii (2005) a rede neural probabilística é uma extensão da rede RBF - Radial Basis Function. Quando uma entrada é apresentada, a primeira camada computa a distância do vetor de entrada aos vetores de treinamento, produzindo um vetor cujos elementos indicam a distância do vetor de entrada para os vetores de treinamento (classes). A segunda camada soma a contribuição da entrada para cada classe, produzindo em sua saída um vetor de probabilidades. Finalmente, uma função de transferência competitiva encontra a classe com maior probabilidade de representar o vetor de entrada.

Um classificador PNN tem o comportamento de um classificador de Bayes e sua relativa facilidade de implementação e treinamento a tornam ideal para um sistema automatizado de classificação. As redes neurais artificiais do tipo RBF são estruturas de rede que, usando campos receptores locais, executam funções de mapeamento.

(7)

Treinar este tipo de rede corresponde a encontrar uma superfície em um espaço multidimensional que provê aos dados de treinamento o melhor ajuste do ponto de vista estatístico. O nível de ativação da i-ésima unidade é dado por:

i i i i i

w =R (x) R (| x -= µ σ| / ), i 1,2,...,H=

onde x

é um vetor de entrada multidimensional, µi

é um vetor com a mesma dimensão que x, H é o número de funções de base radial e R é a i-ésima função de base radial com um único _i máximo.

O vetor de entrada é comparado com cada um dos H vetores µ, que representam os centros das funções de base radial. Um conjunto de pesos w , resultantes dessa computação, _i representa o grau de proximidade do vetor de entrada a cada um destes centros. Não existe nenhuma conexão de pesos entre a camada de entrada e a camada escondida. Tipicamente, R (x)_i

é uma função Gaussiana dada por:

2 i i 2 i x -R (x) exp 2  _µ    = _ _ σ    

Dessa forma o nível de ativação da função de base radial R (x)_i

, computado pela i-ésima unidade da camada escondida, é máximo quando o vetor de entrada x está no centro da unidade

i

µ .

A saída da rede pode ser computada tomando-se a soma ponderada do valor de saída associada a cada unidade ou tomando-se a média ponderada da saída associada a cada unidade.

H _i _i H _i _i i 1 i 1 d(x) c w c R (x) = = =

∑

=

∑

No caso da Rede Neural Probabilística a saída corresponde ao número de grupos como mostrado anteriormente da figura 1.

3. Materiais e Métodos

A amostra estudada consiste de 163 ex-alunos ingressos nos anos de 1998, 1999 e 2000. Eles estavam agrupados da seguinte maneira: 92 não terminaram o curso, 56 terminaram o curso com atraso e 15 terminaram no prazo certo.

As variáveis estudadas foram coletadas nos arquivos cedidos pelo Núcleo de Concurso da UFPR e nos diários de classe das disciplinas de Estatística Geral I, Cálculo de Probabilidade I e Cálculo com Geometria Analítica I. Dentre as características analisadas (variáveis aleatórias observadas) de cada aluno, encontram-se características sócio-econômicas (situação de moradia, renda familiar, etc.), dados sobre a formação do ensino médio, escores no vestibular, notas e freqüências das disciplinas da graduação já citadas.

Os dados foram analisados no programa SIAVAL 1.0 no caso de reconhecimento de padrões e classificação pelo Método de Fisher e utilizou-se o programa Statgraphics para Redes Neurais.

4. Resultado e Discussão

Os resultados encontrados nos dois métodos testados estão apresentados na tabelas 1 e 2 a seguir, sendo que a primeira se refere às classificações obtidas pelo Método de Fisher e a segunda por Redes Neurais.

(8)

Tabela 1: Tabela de Contingência na Classificação feita pelo Método Linear de Fisher. Grupos Previstos

Grupos de Referência Abandonaram

ou Trancaram o Curso Não Concluíram o Curso no Tempo Certo Concluíram o Curso no Tempo certo Total Abandonaram ou Trancaram o Curso 78(47,9%) 10(6,1%) 4(2,5%) 92 Não Concluíram o

Curso no Tempo Certo 8(4,9%) 40(24,5%) 8(4,9%) 56

Concluíram o Curso

no Tempo certo 0(0%) 1(0,6%) 14(8,6%) 15

Total 86 51 26 163

Fonte: Resultado obtido pelos autores no programa SIAVAL 1.0. Obs: Percentual de casos classificados corretamente: 81,0%

Tabela 2: Tabela de Contingência na Classificação feita pela Rede Neural. Grupos Previstos

Grupos de Referência Abandonaram

ou Trancaram o Curso Não Concluíram o Curso no Tempo Certo Concluíram o Curso no Tempo certo Total Abandonaram ou Trancaram o Curso 57(35,0%) 32(19,6%) 3(1,8%) 92 Não Concluíram o

Curso no Tempo Certo 4(2,5%) 42(25,8%) 10(6,1%) 56

Concluíram o Curso

no Tempo certo 0(0%) 6(3,7%) 9(5,5%) 15

Total 61 82 22 163

Fonte: Resultado obtido pelos autores no programa Statgraphics Centurion. Obs: Percentual de casos classificados corretamente: 66,3%

5. Conclusão

Dos procedimentos analisados o Método de Fisher apresentou melhor desempenho que a Rede Neural dado que o percentual de casos classificados corretamente do primeiro método resultou em 81,0% e do segundo 66,3%.

Da tabela 1, vê-se que 78 dos 92 alunos foram corretamente identificados como evadidos e isso representa um percentual de aproximadamente 85%. Por outro lado, 15% foi o erro cometido na classificação, o que pode ser considerado pequeno. É importante destacar que o método pode ser utilizado por gestores da educação que desejam detectar evasões antes que elas ocorram, possibilitando elaborar ações de prevenção diretamente com esta população.

Referências

Azzi, R. G.; Mercuri, E. e Moran, R. C. (1996), Fatores que interferem na decisão de desistência de curso no primeiro ano de graduação, Campinas (Mimeogr.).

Fernandes, Décio E.B.; Alves, Mário F. e Júnior, Pyramo P.C. (2005), Classificação de Padrões de Afundamentos de Tensão em Sistemas de Monitoramento da Qualidade da Energia Elétrica., VI SBQEE, Belém –Pará, 690-696.

Gorni, Antonio A. (1996), Redes Neurais Artificiais. Uma abordagem revolucionária em Inteligência Artificial. Micro Sistemas, Ano XIII. Nº_133.

(9)

Hair, J. F; Anderson, R. E.; Tatham, R. L. e Black, W. C., Análise Multivariada de Dados. .; Tradução:. Adonay S.Sant´anna e Anselmo Chaves Neto, Bookman, 2005.

Johnson R. A.; Wichern, D. W., Applied Multivariate Statistical Analysis, Prentice Hall

Internationa, New Jersey, 1992.

Lippmann, Richard P. (1987). Introduction to Computing with Neural Nets, IEEE ASSP Magazine, 04-22.

Polydoro, S. A. J. (1995), Evasão em uma instituição de ensino superior: desafio para a psicologia escolar (Dissertação de Mestrado), Campinas, PUCCAMP.

Polydoro, S. A. J. (2000). O Trancamento de matrícula na trajetória acadêmica do universitário: condições de saída e de retorno à instituição (Tese de Doutorado), Campinas, UNICAMP

Sganzerla, N. M. Z. (2001). Aspectos Relevantes da Estatística e a Evasão de Estudantes no Curso de Graduação em Estatística da UFPR, Tese de Doutorado, Marília, UNESP.