• Nenhum resultado encontrado

Do corpus descrito anteriormente foram extra´ıdos 15426 modelos de formas verbais para treino e 3868 modelos de formas verbais para teste. Das formas verbais de teste, 942 n˜ao tˆem forma correspondente no treino e como tal requerem tratamento especial, quer recorrendo aos aglomerados quer utilizando o mesmo tratamento us- ado na heur´ıstica de m´axima verosimilhan¸ca para as formas que n˜ao ocorrem no treino.18

O modelo com mais atributos cont´em 3044, para o contexto de t´opicos. Para o contexto local o modelo com mais atributos que derivam da binariza¸c˜ao tem 3379. Para os dois contextos o que tem menos cont´em apenas 2. Este n´umero elevado de atributos faz com que a classifica¸c˜ao seja lenta para as formas verbais correspon- dentes, principalmente se a classifica¸c˜ao usar aglomerados, pois os que contˆem mais atributos s˜ao os que s˜ao mais utilizados19

para desambiguar os tra¸cos das formas verbais sem forma correspondente no treino.

O n´umero de instˆancias nos modelos de treino usados na classifica¸c˜ao20

varia entre 1 e 3840, tendo uma m´edia de 17 instˆancias por modelo, sem contar com os aglomerados. Contando com os aglomerados temos uma m´edia de 353 instˆancias de treino por modelo, variando entre 1 e 5130.

A partir das 77029 instˆancias de formas verbais que ocorrem no corpus de treino e que correspondem a 15786 formas verbais ´unicas, foram criados 103 aglomerados.

17

http://java.sun.com/, vers˜ao Java 6

18

Explicado no ponto 3.2

19

Como s˜ao os mais frequentes geram modelos com mais atributos

20

Cap´ıtulo 4. Desambigua¸c˜ao de flex˜ao verbal: uma abordagem DAP 41

H´a alguns problemas que advˆem do facto de o corpus ter uma pequena percent- agem de etiquetas mal formadas/atribu´ıdas. Vamos tomar isto em considera¸c˜ao ao longo do processo de classifica¸c˜ao. Devido a isto, do total de 15786 formas verbais ´

unicas apenas 15426 deram origem a modelos no treino e do total de 3923 formas ´

unicas do teste apenas 3868 serviram para criar ficheiros de teste depois de removidos alguns erros de anota¸c˜ao.

A utiliza¸c˜ao de ferramentas que obedecem a regras gramaticais, como o LX-Lem e LX-Conj, permite-nos detectar erros na etiqueta¸c˜ao dos lexemas, e o facto de estarmos `a espera de um dado formato nos lexemas permite-nos detectar anomalias na sua forma¸c˜ao.

Assim, dado um lexema se usarmos o LX-Conj para conjugar o lema com os tra¸cos que a´ı ocorrem, a forma resultante tem de ser a forma ortogr´afica desse mesmo lexema.

Por sua vez, se usarmos o LX-Lem para lematizar uma forma ortogr´afica, o lema e tra¸cos previamente atribu´ıdos tˆem de ser iguais a uma das respostas devolvidas pelo LX-Lem. Caso isto n˜ao se verifique o erro pode ser um de trˆes casos poss´ıveis. Ou o lema n˜ao corresponde `a forma ortogr´afica, ou a forma ortogr´afica contˆem erros ortogr´aficos, ou os tra¸cos est˜ao mal etiquetados. Estes erros podem ocorrer em simultˆaneo.

Vejamos exemplos para os dois primeiros casos referidos no par´agrafo anterior, pela mesma ordem:

festeja/FSETEJAR/V#pi-3s ou fa´ıscar/FAISCAR/INF#ninf

abondonar/ABANDONAR/INF#ninf ou incantadas/ENCANTAR,ENCANTADO/PPA#fp

O terceiro caso n˜ao ´e detectado. A detec¸c˜ao de erros n˜ao faz parte do presente trabalho. Os erros s˜ao apenas detectados como consequˆencia do processamento feito. Como tal os dados de treino podem ainda conter uma percentagem marginal de erros mal etiquetados. Recapitulando, os erros s˜ao detectados quando se junta o cl´ıtico `a forma ortogr´afica, em que se usa o LX-Conj para recuperar a forma ortogr´afica sem cl´ıtico, caso esta seja diferente.21

Na cria¸c˜ao dos clusters, em que se usa o LX- Lem para descobrir o potencial de tra¸cos de uma dada forma verbal. Este ´ultimo processamento foi adicionado posteriormente na cria¸c˜ao dos modelos para evitar que houvesse modelos para formas ortogr´aficas com erros. Este modelos provavelmente teriam apenas um exemplo, visto que se trata de um erro ortogr´afico. Como tal seria introduzir um pequeno ru´ıdo que n˜ao seria estatisticamente relevante.

21

Dos erros detectados para o corpus de treino, temos 509 lexemas mal etiquetados. Em 360 dos casos, a forma lematizada n˜ao d´a o lema com o qual est´a etiquetado. Em 102 dos casos, a forma ´e imposs´ıvel de acordo com as regras gramaticais do portuguˆes. Os restantes casos s˜ao formas de PPA ainda n˜ao desambiguadas, que como tal n˜ao podem ser usadas para fazer desambigua¸c˜ao.

Para o corpus de teste, temos 64 lexemas detectados com erros. Dos quais em 44 dos casos a forma lematizada n˜ao d´a o lema com o qual est´a etiquetado, e os restantes 20 s˜ao formas de PPA ainda n˜ao desambiguadas.

Todos estes casos de erros, assim detectados, foram removidos.

Existem 8527 instˆancias a ser classificadas no treino. Dessas instˆancias, 7557 tˆem modelos correspondente no treino e 4527 n˜ao s˜ao amb´ıguas no corpus.22

Das 970 instˆancias sem modelos no corpus de treino, 438 n˜ao s˜ao amb´ıguas para o lexico. Quando forem apresentados os resultados de avalia¸c˜ao na pr´oxima sec¸c˜ao, estes n´umeros ser˜ao tidos em conta, pois estas 4965 instˆancias n˜ao represent˜ao trabalho de desambigua¸c˜ao para os algoritmos.

Documentos relacionados