• Nenhum resultado encontrado

Diferen¸cas entre representa¸c˜ oes do mesmo n´ıvel

7.4 Avalia¸c˜ ao comparativa

7.4.1 Diferen¸cas entre representa¸c˜ oes do mesmo n´ıvel

As diferen¸cas entre representa¸c˜oes com o mesmo n´ıvel de informa¸c˜ao lingu´ıstica podem ser avaliadas atrav´es de algumas Tabelas apresentadas ao longo da sec¸c˜ao anterior.

Informa¸c˜ao morfol´ogica

Para os corpora PGR e Folha a redu¸c˜ao do n´umero de atributos foi ben´efica: atingiram- se melhores desempenhos quando aplicada uma redu¸c˜ao de termos com agressividades de 45.5 (l800) e 36.9 (l40), respectivamente. Para o corpus Publico foi poss´ıvel reduzir

o n´umero de atributos com uma agressividade de 7.9 (l50) sem deteriorar os resultados.

Quanto `a normaliza¸c˜ao existem, para os trˆes corpora, experiˆencias que utilizam a ra´ız e a palavra original no grupo das melhores (ver Tabelas 7.7, 7.8 e 7.9). No entanto, se considerarmos os valores de limiar mais altos, aparecem diferen¸cas: no corpus Folha deve ser utilizada a ra´ız, no Publico as palavras originais e no PGR ´e indiferente. Se considerarmos as fun¸c˜oes de gradua¸c˜ao e de pondera¸c˜ao, a frequˆencia das palavras combinada com a mesma medida normalizada constitui a melhor op¸c˜ao para o corpus PGR enquanto que a informa¸c˜ao m´utua combinada com a medida tfidf ´e-o para o corpus Folha. Para o corpus Publico estas combina¸c˜oes j´a n˜ao s˜ao t˜ao claras: enquanto a informa¸c˜ao m´utua deve ser utilizada com a medida tfidf, a utiliza¸c˜ao da frequˆencia das palavras torna a escolha da fun¸c˜ao de pondera¸c˜ao indiferente. Esta diferen¸ca poder´a estar relacionada com tamanho do corpus em estudo: para corpus com mais documentos, as estat´ısticas s˜ao mais fi´aveis tornando os resultados menos vari´aveis a diferentes representa¸c˜oes.

Sobre todo este conjunto de experiˆencias ´e poss´ıvel concluir que a melhor representa¸c˜ao com informa¸c˜ao morfol´ogica depende do corpus em estudo e, como tal, deve ser reali- zada uma an´alise inicial para encontrar qual a combina¸c˜ao de normaliza¸c˜ao, fun¸c˜ao de gradua¸c˜ao, valor de limiar e fun¸c˜ao de pondera¸c˜ao que mais se adequa.

Informa¸c˜ao morfo-sint´actica

Os conjuntos de classes gramaticais mais informativos para a classifica¸c˜ao tamb´em parecem variar com o corpus (Tabelas 7.12, 7.14 e 7.16):

• para o corpus PGR s˜ao os nomes com mais duas ou trˆes classes gramaticais (n+adj+v, n+prop+adj, n+prop+v e n+prop+adj+v);

• para a Folha s˜ao os nomes e nomes pr´oprios com ou sem adjectivos ou a com- bina¸c˜ao das quatro classes gramaticais (n+prop, n+prop+adj e n+prop+adj+v); • para o Publico apenas o conjunto das quatro classes gramaticais (n+prop+adj+v)

obteve valores equivalentes `a representa¸c˜ao morfol´ogica.

Desta forma ´e poss´ıvel concluir que os nomes s˜ao uma classe gramatical fundamental para a classifica¸c˜ao, mas sozinhos n˜ao possuem poder discriminativo suficiente sobre as classes [Gon¸calves and Quaresma 2005b; Gon¸calves et al. 2006]. Mais, os nomes pr´oprios s˜ao igualmente importantes pelo menos para os corpora jornal´ısticos.

Quando aplicados maiores valores de limiar, apenas o conjunto das quatro classes gra- maticais n+prop+adj+v originou desempenhos equivalentes para todos os corpora. Mais ainda, a utiliza¸c˜ao destas classes gramaticais juntamente com valores de limiar mais altos que os utilizados na informa¸c˜ao morfol´ogica permitiu, at´e, obter uma melhoria da micro-precis˜ao para o corpus PGR (ver Tabelas 7.12 e 7.13) sem deteriorar as restantes medidas.

Informa¸c˜ao sint´actica

As trˆes representa¸c˜oes estudadas com informa¸c˜ao sint´actica (arv, seq e saco) compor- taram-se de forma diferente consoante o corpus (ver Tabelas 7.17 e 7.18): enquanto se obtiveram resultados equivalentes com os documentos completos para as trˆes repre- senta¸c˜oes no corpus Folha2, a representa¸c˜ao saco-de-palavras (saco) obteve resultados superiores `as restantes no corpus Publico9510. Este resultado pode dever-se, uma vez mais, ao tamanho do corpus: sendo o Publico9510 maior, as estat´ısticas das palavras tornam-se mais fi´aveis, suplantando outro tipo de informa¸c˜ao.

Por outro lado, a utiliza¸c˜ao da representa¸c˜ao ´arvore-sint´actica apenas obteve bons re- sultados utilizando toda a informa¸c˜ao dos documentos (experiˆencia tot), enquanto a re- presenta¸c˜ao sequˆencia-de-palavras obteve resultados equivalentes utilizando as ora¸c˜oes finitas com sujeito, predicado e complemento directo (experiˆencia fcl). Mais ainda, para o corpus Folha2, obtiveram-se resultados equivalentes utilizando apenas as 5 e 10 primeiras ora¸c˜oes desse tipo.

Das trˆes, a representa¸c˜ao saco-de-palavras pode ser considerada a mais est´avel. Com ela obtiveram-se resultados equivalentes ao melhor com as trˆes primeiras ora¸c˜oes finitas para o corpus Folha2 e as dez primeiras ora¸c˜oes finitas para o corpus Publico9510 (micro-precis˜ao, cobertura e micro-f1).

Sobre este conjunto de experiˆencias ´e poss´ıvel concluir que a informa¸c˜ao sint´actica pode ser utilizada na classifica¸c˜ao de documentos, mas a representa¸c˜ao ´arvore-sint´actica n˜ao ´e a mais adequada. A representa¸c˜ao sequˆencia-de-palavras embora ordenada, ´e mais simples conseguindo discriminar as classes com menos informa¸c˜ao. Na mesma linha, se utilizarmos a informa¸c˜ao sint´actica numa representa¸c˜ao saco-de-palavras s˜ao necess´arias menos frases para poder discriminar de forma equivalente as classes.

Informa¸c˜ao semˆantica

Para ambos os corpora obtiveram-se resultados equivalentes nas representa¸c˜oes saco- de-palavras (saco) e estrutura-do-discurso (disc) com a substitui¸c˜ao corpus+frase (ver Tabelas 7.19 e 7.20). Mais ainda, no corpus Publico9510, obtiveram-se valores de macro-cobertura e macro-f1 superiores na representa¸c˜ao estruturada, e no corpus

Folha2 obtiveram-se resultados equivalentes utilizando a informa¸c˜ao das 10 primeiras frases (disc10).

Por outro lado, a substitui¸c˜ao apenas dos nomes pr´oprios (n´ıvel corpus) n˜ao pareceu produzir bons resultados; apenas na representa¸c˜ao saco-de-palavras para o corpus Folha2 se obtiveram desempenhos equivalentes aos melhores.

Sobre este conjunto de experiˆencias ´e poss´ıvel concluir que a representa¸c˜ao estrutura- do-discurso com a substitui¸c˜ao corpus+frase constitui uma representa¸c˜ao v´alida para problemas de classifica¸c˜ao de texto.