Diferen¸cas entre representa¸c˜ oes do mesmo n´ıvel

7.4 Avalia¸c˜ ao comparativa

7.4.1 Diferen¸cas entre representa¸c˜ oes do mesmo n´ıvel

As diferen¸cas entre representa¸cões com o mesmo n´ıvel de informa¸cão lingu´ıstica podem ser avaliadas através de algumas Tabelas apresentadas ao longo da seçcão anterior.

Informa¸c˜ao morfol´ogica

Para os corpora PGR e Folha a redu¸cão do número de atributos foi benéfica: atingiram- se melhores desempenhos quando aplicada uma redu¸cão de termos com agressividades de 45.5 (l800) e 36.9 (l40), respectivamente. Para o corpus Publico foi poss´ıvel reduzir

o n´umero de atributos com uma agressividade de 7.9 (l50) sem deteriorar os resultados.

Quanto à normaliza¸cão existem, para os três corpora, experiências que utilizam a ra´ız e a palavra original no grupo das melhores (ver Tabelas 7.7, 7.8 e 7.9). No entanto, se considerarmos os valores de limiar mais altos, aparecem diferen¸cas: no corpus Folha deve ser utilizada a ra´ız, no Publico as palavras originais e no PGR é indiferente. Se considerarmos as fun¸cões de gradua¸cão e de pondera¸cão, a frequência das palavras combinada com a mesma medida normalizada constitui a melhor op¸cão para o corpus PGR enquanto que a informa¸cão mútua combinada com a medida tfidf é-o para o corpus Folha. Para o corpus Publico estas combina¸cões já não são tão claras: enquanto a informa¸cão mútua deve ser utilizada com a medida tfidf, a utiliza¸cão da frequência das palavras torna a escolha da fun¸cão de pondera¸cão indiferente. Esta diferen¸ca poderá estar relacionada com tamanho do corpus em estudo: para corpus com mais documentos, as estat´ısticas são mais fiáveis tornando os resultados menos variáveis a diferentes representa¸cões.

Sobre todo este conjunto de experiências é poss´ıvel concluir que a melhor representa¸cão com informa¸cão morfológica depende do corpus em estudo e, como tal, deve ser reali- zada uma análise inicial para encontrar qual a combina¸cão de normaliza¸cão, fun¸cão de gradua¸cão, valor de limiar e fun¸cão de pondera¸cão que mais se adequa.

Informa¸c˜ao morfo-sint´actica

Os conjuntos de classes gramaticais mais informativos para a classifica¸c˜ao tamb´em parecem variar com o corpus (Tabelas 7.12, 7.14 e 7.16):

• para o corpus PGR s˜ao os nomes com mais duas ou trˆes classes gramaticais (n+adj+v, n+prop+adj, n+prop+v e n+prop+adj+v);

• para a Folha são os nomes e nomes próprios com ou sem adjectivos ou a combina¸cão das quatro classes gramaticais (n+prop, n+prop+adj e n+prop+adj+v); • para o Publico apenas o conjunto das quatro classes gramaticais (n+prop+adj+v)

obteve valores equivalentes à representa¸cão morfológica.

Desta forma é poss´ıvel concluir que os nomes são uma classe gramatical fundamental para a classifica¸cão, mas sozinhos não possuem poder discriminativo suficiente sobre as classes [Gon¸calves and Quaresma 2005b; Gon¸calves et al. 2006]. Mais, os nomes próprios são igualmente importantes pelo menos para os corpora jornal´ısticos.

Quando aplicados maiores valores de limiar, apenas o conjunto das quatro classes gramaticais n+prop+adj+v originou desempenhos equivalentes para todos os corpora. Mais ainda, a utiliza¸cão destas classes gramaticais juntamente com valores de limiar mais altos que os utilizados na informa¸cão morfológica permitiu, até, obter uma melhoria da micro-precisão para o corpus PGR (ver Tabelas 7.12 e 7.13) sem deteriorar as restantes medidas.

Informa¸c˜ao sint´actica

As três representa¸cões estudadas com informa¸cão sintáctica (arv, seq e saco) compor- taram-se de forma diferente consoante o corpus (ver Tabelas 7.17 e 7.18): enquanto se obtiveram resultados equivalentes com os documentos completos para as três representa¸cões no corpus Folha2, a representa¸cão saco-de-palavras (saco) obteve resultados superiores às restantes no corpus Publico9510. Este resultado pode dever-se, uma vez mais, ao tamanho do corpus: sendo o Publico9510 maior, as estat´ısticas das palavras tornam-se mais fiáveis, suplantando outro tipo de informa¸cão.

Por outro lado, a utiliza¸cão da representa¸cão árvore-sintáctica apenas obteve bons resultados utilizando toda a informa¸cão dos documentos (experiência tot), enquanto a representa¸cão sequência-de-palavras obteve resultados equivalentes utilizando as ora¸cões finitas com sujeito, predicado e complemento directo (experiência fcl). Mais ainda, para o corpus Folha2, obtiveram-se resultados equivalentes utilizando apenas as 5 e 10 primeiras ora¸cões desse tipo.

Das três, a representa¸cão saco-de-palavras pode ser considerada a mais estável. Com ela obtiveram-se resultados equivalentes ao melhor com as três primeiras ora¸cões finitas para o corpus Folha2 e as dez primeiras ora¸cões finitas para o corpus Publico9510 (micro-precisão, cobertura e micro-f1).

Sobre este conjunto de experiências é poss´ıvel concluir que a informa¸cão sintáctica pode ser utilizada na classifica¸cão de documentos, mas a representa¸cão árvore-sintáctica não é a mais adequada. A representa¸cão sequência-de-palavras embora ordenada, é mais simples conseguindo discriminar as classes com menos informa¸cão. Na mesma linha, se utilizarmos a informa¸cão sintáctica numa representa¸cão saco-de-palavras são necessárias menos frases para poder discriminar de forma equivalente as classes.

Informa¸c˜ao semˆantica

Para ambos os corpora obtiveram-se resultados equivalentes nas representa¸cões saco- de-palavras (saco) e estrutura-do-discurso (disc) com a substitui¸cão corpus+frase (ver Tabelas 7.19 e 7.20). Mais ainda, no corpus Publico9510, obtiveram-se valores de macro-cobertura e macro-f1 superiores na representa¸cão estruturada, e no corpus

Folha2 obtiveram-se resultados equivalentes utilizando a informa¸c˜ao das 10 primeiras frases (disc10).

Por outro lado, a substitui¸cão apenas dos nomes próprios (n´ıvel corpus) não pareceu produzir bons resultados; apenas na representa¸cão saco-de-palavras para o corpus Folha2 se obtiveram desempenhos equivalentes aos melhores.

Sobre este conjunto de experiências é poss´ıvel concluir que a representa¸cão estrutura- do-discurso com a substitui¸cão corpus+frase constitui uma representa¸cão válida para problemas de classifica¸cão de texto.

No documento Utilização de Informação Linguística na classificação de documentos em Língua Portuguesa (páginas 150-152)