• Nenhum resultado encontrado

Estudo do espa¸co de resultados

4.5 Avalia¸c˜ao

4.5.2 Estudo do espa¸co de resultados

Vamos fazer nesta sec¸c˜ao um estudo do espa¸co dos resultados, de forma a compreen- der melhor os resultados apresentados na sec¸c˜ao anterior.

Tamanho do conjunto de dados

Como se pode observar no gr´afico da Figura 4.3, e ´e ainda mais perceptivel no gr´afico da Figura 4.4, a precis˜ao em modelos com mais instˆancias de treino ´e maior. O gr´afico da Figura 4.5 mostra o desvio de padr˜ao relativamente `a precis˜ao m´edia dos anteriores, ´e de notar que com poucas instˆancias de treino h´a um desvio maior em rela¸c˜ao `a m´edia.

Cap´ıtulo 4. Desambigua¸c˜ao de flex˜ao verbal: uma abordagem DAP 65

Figura 4.3: Precis˜ao m´edia por n´umero de instˆancias de treino nos modelos, s´o para instˆancias amb´ıguas.

Poder-se-ia pˆor a quest˜ao se com mais instˆancias de treino, os resultados seriam melhores. Por´em, como se observa no gr´afico da Figura 4.6, em que se vˆe como evolui a precis˜ao em m´edia `a medida que o n´umero de instˆancias ´e maior, consegue- se ver que esta tende a estabilizar assimptoticamente mais ou menos a partir das 100 instˆancias de treino por modelo. No extremo, com todas as 23919 instˆancias de treino usadas, a precis˜ao m´edia acumulada atinge 85%, com desvio de padr˜ao de 10%, para o algoritmo A, atinge 85%, com desvio de padr˜ao de 11%, para o SVM, e atinge 83%, com desvio de padr˜ao de 11% para o NB.

Este facto pode indicar que um eventual aumento do corpus de treino n˜ao traria benef´ıcios muito significativos `a classifica¸c˜ao e n˜ao alteraria de forma substancial a ordem relativa entre os classificadores. Isto significa que o tamanho dos dados de treino ´e suficiente para ter levado a efeito as experiˆencias efectuadas.

Distribui¸c˜ao do conjunto de dados

Para compreender como evolui o desempenho dos diferentes algoritmos h´a que tomar em considera¸c˜ao a natureza do conjunto de dados.

Em primeiro lugar, podemos observar no gr´afico da Figura 4.7 que a frequˆencia de formas verbais muito frequentes ´e baixa, isto ´e, h´a poucas formas muito frequentes. Em segundo lugar, h´a que ter em conta que as formas verbais mais frequentes

Figura 4.4: Precis˜ao m´edia por n´umero de instˆancias de treino nos modelos, com curva suavizada atrav´es de interpola¸c˜ao, s´o para instˆancias amb´ıguas.

s˜ao normalmente as que tˆem menos possibilidades de flex˜ao. Ver Figura 3.1, pag. 16. Assim, ao ler os gr´aficos das Figuras 4.3 e 4.4, tem de ser ter em conta que o espa¸co do problema diminui `a medida que aumenta o n´umero de instˆancias de treino.

Em terceiro lugar, verifica-se que dos v´arios tra¸cos de flex˜ao poss´ıveis para cada forma verbal, cerca de 94% das ocorrˆencias de formas verbais no corpus expressam o seu tra¸co de flex˜ao mais frequente no corpus (Branco et al., 2006).

Este fen´omeno de `a partida um valor da classe a atribuir ser muito mais prov´avel que os outros pode determinar os classificadores mais sofisticados a n˜ao ultrapas- sarem a heur´ıstica de m´axima verosimilhan¸ca.

Importa tamb´em notar no gr´afico da Figura 4.4, que a linha do classificador SVM, mais ou menos a partir das 10 instˆancias de treino por modelo, segue junto `a linha do algoritmo de m´axima verosimilhan¸ca (Algoritmo A). Isto pode indicar que o classificador SVM n˜ao lida bem com a esparssez dos dados. Como vimos anteriormente, o contexto ´e representado por vectores de 0’s (ausˆencia da palavra na frase) e 1’s (presen¸ca da palavra na frase). Quanto mais instˆancias de treino h´a, maior v˜ao ser os vectores, pois em princ´ıpio aumentam tamb´em o n´umero de palavras de contexto que ocorrem no modelo. No entanto, o n´umero m´edio de

Cap´ıtulo 4. Desambigua¸c˜ao de flex˜ao verbal: uma abordagem DAP 67

Figura 4.5: Desvio de padr˜ao por n´umero de instˆancias de treino nos modelos, com curva suavizada atrav´es de interpola¸c˜ao, s´o para instˆancias amb´ıguas.

palavras por frase andar´a `a volta do mesmo valor, fazendo com que os vectores tenham muitos 0’s e poucos 1’s, que possivelmente os 1’s nas instˆancias de teste nem sempre correspondem a 1’s nas instˆancias de treino, o que pode fazer com que o contexto deixe de pesar na classifica¸c˜ao, caindo assim a atribui¸c˜ao para a classe mais frequente.

Podemos atribuir o facto dos algoritmos de classifica¸c˜ao mais sofisticados seguirem o algoritmo de m´axima verosimilhan¸ca `a estrutura espec´ıfica dos dados de treino.

Reduzindo o tamanho do contexto

Como foi visto nos gr´aficos apresentados, as curvas dos classificadores experimen- tados tendem para a curva do algoritmo de m´axima verosimilhan¸ca, o que poderia indicar que a modela¸c˜ao de contexto n˜ao est´a a ajudar na decis˜ao. Com isto em mente, tent´amos usar outra modela¸c˜ao descrita nos trabalhos de DAP nos quais ´e apresentada uma modela¸c˜ao do contexto de t´opicos com uma abordagem positiva, isto ´e, em que a informa¸c˜ao a ter em conta em cada instˆancia ´e apenas relativa `a informa¸c˜ao que ocorre nessa instˆancia de teste a classificar. Assim, o n´umero de atributos ´e bastante reduzido, os vectores ser˜ao bem mais pequenos, melhorando o tempo de processamento dos classificadores.

Figura 4.6: Precis˜ao m´edia acumulada `a medida que aumenta o n´umero de instˆancias de treino, s´o para instˆancias amb´ıguas.

acerto dos classificadores, em especial para o classificador EB de 43% para 62.1% no melhor dos casos, embora para o Naive Bayes n˜ao se note grande diferen¸ca, apenas 0.1% de melhoria. Em (Agirre e Edmonds, 2006) apenas se usa a abordagem “positiva” e como tal n˜ao nos permite fazer compara¸c˜ao entre as modela¸c˜oes.

Realiz´amos novas experiˆencias com base nesta abordagem “positiva” para o nosso problema. Estas experiˆencias mostram por´em que se obt´em piores resulta- dos: 91.17% de precis˜ao para o Naive Bayes Simples e 92.72% para o SVM Simples, para todas as instˆancias. Por quest˜oes de facilidade de implementa¸c˜ao, para esta modela¸c˜ao usou-se o classificador SMO do Weka, que corresponde `a implementa¸c˜ao do SVM no Weka.

Aumentando a evidˆencia no contexto

Tamb´em foram feitas experiˆencias tendo em conta apenas o lema das palavras de contexto, em vez da forma flexionada, num tentativa de reduzir a esparssez de dados. Os resultados no entanto pioraram ligeiramente para o Naive Bayes Simples, obtendo-se 93.93% de precis˜ao, e melhora ligeiramente para o SVM Simples, com 94.27% de precis˜ao, tendo em conta todas as instˆancias e usando o contexto de t´opicos. Ainda assim continuamos com valores abaixo dos valores do Algoritmo A.

Cap´ıtulo 4. Desambigua¸c˜ao de flex˜ao verbal: uma abordagem DAP 69

Figura 4.7: N´umero de modelos por n´umero de instˆancias de treino no modelo.

pode estar a pesar mais na tarefa de classifica¸c˜ao, sendo que esta influencia negati- vamente na classifica¸c˜ao em mais instˆancias que a modela¸c˜ao anterior.

Resumindo, temos trˆes pontos que convem salientar. Como foi dito nesta sec¸c˜ao, a frequˆencia das formas verbais mais frequentes ´e muito baixa, Figura 4.7, o que est´a em linha com o que ´e comum encontrar em problemas DAP.

Contudo, para este nosso problema espec´ıfico, as formas verbais mais frequentes, ao contr´ario do que ´e comum noutros problemas de DAP (Manning e Sch¨utze, 1999, p. 28), s˜ao as que tˆem menor ambiguidade, Figura 3.1.

O terceiro ponto tamb´em j´a foi referido e ´e possivelmente espec´ıfico deste prob- lema: para cada forma amb´ıgua no l´exico, um dos tra¸cos ´e muito mais frequente que os restantes.

Estas caracter´ısticas espec´ıficas podem explicar porque n˜ao se conseguiu ultra- passar o algoritmo base de atribuir a flex˜ao mais frequente, utilizando abordagens mais sofisticadas que tˆem sucesso em problemas de DAP.

Documentos relacionados