• Nenhum resultado encontrado

Corpora Utilizados no Trabalho Experimental

Como corpora de teste para os nossos algoritmos, para a língua inglesa foram esco- lhidos o corpus de Brown [F.W. Nelson, 1979] e o corpus do WSJ do Penn Treebank [M.P. Marcus, 1994]. Para a língua Portuguesa o corpus escolhido foi o corpus Mac-

Morpho [Aluísio et al., 2003].

O corpus Brown University Standard Corpus of Present-Day American English, ou simplesmente corpus de Brown, foi compilado em 1960 por Henry Kucera e W. Nelson Francis da Universidade de Brown, em Rhode Island. Foi o primeiro corpus de língua Inglesa a ser desenvolvido para análise computacional. Contém 500 exemplos de textos em prosa, compilados de trabalhos publicados nos Estados Unidos da América em 1961. Cada amostra contém 2000 ou mais palavras, terminando na frase que perfaz, ou ultrapassa, as 2000 palavras. Garante, assim, que as amostras apenas contêm frases completas. Este corpus incluí cerca de um milhão de palavras.

Inicialmente o corpus era constituído apenas pelas palavras, tendo as PdD sido in- troduzidas mais tarde. De facto o corpus tem sido alvo de numerosas tentativas de marcação, tendo sido a primeira tentativa realizada pelo programa Greene and Rubin. Este programa conseguiu na altura uma exactidão (dada pela percentagem de palavras marcadas correctamente) de cerca de 70%. Os resultados conseguidos pelo programa foram repetidamente corrigidos e revistos manualmente. No final da década de 70, a marcação foi considerada quase perfeita.

O corpus tem sido usado em vários trabalhos que estudam a frequência de palavras e a marcação das PdD, e inspirou o desenvolvimento de corpora semelhantes em várias outras línguas. Os dados estatísticos recolhidos da sua análise estiveram na base de vários dos sistemas de marcação das PdD que surgiram mais tarde.

A versão anotada do corpus de Brown usa uma selecção de cerca de 80 etiquetas, assim como indicadores especiais para formas compostas, contracções, palavras estrangeiras, e outros fenómenos.

O corpus continha, originalmente, 1014312 palavras reunidas a partir de 15 categorias de textos:

• Imprensa - Reportagem: categoria constituída por 44 textos de áreas tão diversas como política, desporto, sociedade, notícias locais, finança e cultura;

• Imprensa - Editorial: categoria constituída por 27 textos de secções várias como institucional, classificados e cartas ao editor;

• Imprensa - Crítica: categoria constituída por 17 textos de criticas em diversas áreas como teatro, livros, música e dança;

• Religião: categoria constituída por 17 textos retirados de livros, periódicos e brochuras;

• Passatempos e habilidades: categoria constituída por 36 textos retirados de livros e periódicos;

• Sabedoria popular: categoria constituída por 48 textos retirados de livros e pe- riódicos;

• Literatura - Biografia e Memórias : categoria constituído por 75 textos;

• Miscelâneas: categoria constituída por 30 textos, retirados de documentos do governo, relatórios de fundações, relatórios da indústria, catálogos de colégios e periódicos da indústria;

• Aprendizagem: categoria constituída por 80 textos, retirados de áreas como ciên- cias naturais, medicina, matemática, ciências sociais, ciências políticas, direito, educação, humanidades, tecnologia e engenharia.

• Ficção genérica: categoria constituída por 6 textos retirados de novelas e histórias curtas (contos).

• Ficção mistério e detectives: categoria constituída por 24 textos retirados de novelas e histórias curtas (contos).

• Ficção aventura e western: categoria constituída por 29 textos retirados de no- velas e histórias curtas (contos).

• Ficção romance: categoria constituída por 29 textos retirados de novelas e histó- rias curtas (contos).

• Humor: categoria constituída po 9 textos retirados de novelas, ensaios, etc. O segundo corpus que utilizámos, o corpus do Penn Treebank, reúne cerca de 4.5 milhões de palavras em língua Inglesa. Durante os primeiros três anos do projecto (1989-1992), o corpus foi anotado com as PdD respectivas. Embora baseada no corpus de Brown, a marcação do corpus do Penn treebank adoptou um conjunto de etiquetas consideravelmente reduzido. O conjunto adoptado é constituído por 36 etiquetas relaci- onadas com as PdD, e 12 etiquetas adicionais para marcação da pontuação e símbolos monetários. A versão anotada do corpus foi produzida em duas fases, usando uma combinação de marcação automática e de correcções manuais.

O corpus do Penn Treebank reúne um conjunto vasto de textos de várias fontes, tais como:

• O corpus de Brown, com uma nova marcação. O corpus foi novamente marcado pelo projecto Penn Treebank, usando como ponto de partida a versão original (1964), não anotada do corpus;

• Resumos do Departamento de Energia, os quais reúnem resumos científicos de várias disciplinas do conhecimento;

• Boletins do Departamento da Agricultura, incluindo boletins curtos sobre vários tópicos que vão, desde quando plantar determinadas plantas, até como enlatar determinados frutos e vegetais;

• Textos da Biblioteca da América, constituído por passagens de 5000-10000 pala- vras, predominantemente, capítulos de livros de uma variedade de autores ame- ricanos, incluindo Mark Twain, Henry Adams, Willa Cather, Herman Melville, W. E. B. Dubois, e Ralph Waldo Emerson;

• Textos da MUC-3, constituído por textos de notícias do Serviço Nacional de Notícias acerca de actividades terroristas na América do Sul. Alguns destes textos são traduções de noticias em Espanhol, ou transcrições de transmissões de rádio. Foram retirados do material de treino disponível para a Third Message Understanding Conference (MUC-3);

• Frases retiradas dos manuais de computador da IBM. Estes textos foram escolhi- dos de forma a conterem um vocabulário de cerca de 3000 palavras;

• Frases da ATIS, consistem em versões transcritas de frases espontâneas reunidas como material de treino para o projecto DARPA Air Travel Information System (ATIS).

Finalmente, o corpus Mac-Morpho é um corpus em Português do Brasil que reúne cerca de 1.1 milhões de palavras do jornal Folha de São Paulo. Este corpus resulta de um projecto de dois anos, com o nome Lacio-Web, que teve início em 2002. O conjunto de etiquetas adoptado pelo projecto Lacio-Web tem sofrido várias revisões. No entanto, a versão usada nas experiências realizadas no âmbito deste trabalho, diz respeito à nona revisão. Nesta versão, o conjunto de etiquetas regulares é composto por 22 etiquetas (ver Tabela 7.1), em conjunto com 9 etiquetas complementares. Estas últimas complementam a informação das etiquetas regulares, sendo concatenadas a estas usando como separador o símbolo ’|’.