• Nenhum resultado encontrado

A linguística de corpus revolucionou o pensamento e atuação linguísticos da atualidade. Hoje, com as ferramentas, cada vez mais completas, diversificadas e de fácil acesso, que a linguística computacional e de corpus coloca ao dispor de quantos se interessam pelo estudo da língua, as possibilidades em aberto são a cada dia maiores e mais abrangentes, ao nível da pesquisa, investigação, ensino, tratamento e análise. É toda uma nova e cada vez mais completa forma de atuar: uma revolução atuante, ao nível da linguística.

O computador, motor tecnológico de que dependem as ferramentas da linguística computacional, com uma memória cada vez mais potente, desempenha um dos papéis principais nesta atuação tecnológica. O seu papel é fundamental em todo o processo evolutivo a que temos assistido nesta área.

Com efeito, já ninguém nega que o contributo da informática para a elaboração, a edição e o estudo de textos é hoje indiscutível, e que esse contributo tem acompanhado o desenvolvimento técnico do computador e do software. “O estudo de textos literários através de ferramentas informáticas remonta ao início da própria informática, que se situa nos anos 40 e evoluiu nas décadas seguintes, atingindo um importante desenvolvimento nos anos 90. Uma das ideias iniciais era a junção da estatística, da lexicografia e da informática, criando ferramentas rápidas que pudessem tratar grandes quantidades de informação com o mínimo de erros” (Machado 2002: 2).

Na verdade, “desde há muito que certas áreas da linguística (Linguística Comparativa e Histórica, Fonética, Lexicologia e Lexicografia, Sociolinguística entre outras) se basearam no tratamento científico dos fenómenos linguísticos nos métodos estatísticos”. O uso das tecnologias, nomeadamente dos programas de análise automática de textos, constitui um valioso recurso a utilizar no estudo de corpora, “a análise estatístico-lexical aplicada a textos de autores medievais, clássicos, modernos, contemporâneos é uma mais-valia” (Santana 2000: 6 e 7), cuja utilização permite trabalhar áreas a que, de outra forma, seria muito difícil aceder. O uso das novas tecnologias permite obter resultados mais fiáveis e sistemáticos, num período de tempo muito reduzido, quando comparado com os corpora recolhidos e tratados manualmente.

62

Mas o que é, afinal, a linguística de corpus e que possibilidades oferece? Do que falamos, exatamente, quando utilizamos esta expressão?

Para ficarmos com uma ideia o mais precisa possível, nada melhor do que atentar no que vários especialistas na área dizem sobre o assunto.

Kennedy descreve as enormes potencialidades da linguística computacional e da importância do computador neste procedimento quando refere que “corpus linguistics is thus now inextricably linked to the computer, wich has introduced incredible speed, total accountability, accurate replicability, statistical reliability and the ability to handle huge amounts of data. With modern software, computer-based corpora are easily accessible, greatly reducing the drudgery and sheer bureaucracy of dealing with the increasingly large amounts of data used for compiling dictionaries and other information sources” (Kennedy 1998: 5). Coloca ainda um enfoque na vantagem evidente da linguística computacional ao conseguir trabalhar com quantidades enormes de textos em simultâneo, evitando as falhas próprias de interpretações individuais, quando diz que “computers have permitted linguists to work with a large variety of texts and thus to seek generalizations about language and language use wich can go beyond particular texts of the intuitions of particular linguísts” (Idem, 5).

Também Sardinha, logo no prefácio à sua obra Lingüistica de Corpus, é claro ao assumir a linguística de corpus como uma área de fundamental importância que abriu as portas a uma nova forma de ver a linguística, abrindo também caminho a explorações em áreas diversas. Revela que a linguística de corpus é “uma área que trata do uso de corpora computorizados (coletâneas de textos, escritos ou de transcrições de fala, mantidas em arquivo de computador). Ao revelar uma quantidade surpreendente de evidências lingüisticas provindas de corpora eletrônicos, a Lingüistica de Corpus questiona os paradigmas estabelecidos dos estudos lingüisticos e mostra novos caminhos para o lingüista, o professor, o tradutor, o lexicógrafo e muitos outros profissionais”. Concretiza um pouco mais a sua definição inicial, especificando alguns aspetos e resumindo-a em simultâneo, quando refere que “a Lingüistica de Corpus ocupa-se da coleta e da exploração de corpora, ou conjuntos de dados lingüisticos textuais coletados criteriosamente, com o propósito de servirem para a pesquisa de uma língua ou variedade linguística. Como tal, dedica-se à exploração da linguagem por meio de evidências empíricas, extraídas por computador (Sardinha 2004: 3).

Similarmente, Hunston realça as vantagens desta nova forma de trabalhar em linguística e acrescenta um dado novo, estabelecendo que “the difference between

63

linguistics and applied linguistics is not simply that one deals with theory and the other with applications of those theories. Rather, applied linguistics has tended to develop language theories of its own, ones that are more relevant to the questions applied linguistics seeks to answer than those developed by theoretical linguistics. Increasingly, corpora are adding to the development of those applied views of language” (2002: 2).

Por seu lado, também evidenciando as principais características da linguística de corpus, Douglas Biber (2006: 4) resume-as em quatro pontos principais: “it is empirical, analyzing the actual patterns of use in natural texts; it utilizes a large and principled collection of natural texts known as a «corpus», as the basis for analysis; it makes extensive use of computers for analysis, using both automatic and interactive techniques; it depends on both quantitative and qualitative analytical techniques”, sendo que, em conjunto, as características de que nos fala resultam “in a scope and reliability of analysis not otherwise possible”. Não deixa também de salientar o papel do computador em todo o processo, afirmando que “Several of the advantages of the corpus-based approach come from the use of computer”. Resume a ideia que subjaz a toda a importância que é dada à abordagem linguística através de análises baseadas em corpus afirmando que “the corpus- -based approach has made it possible to conduct new kinds of investigations into language use and to expand the scope of earlier investigations” (Idem, 233).

Uma visão diferente, e mais abrangente, temos quando “Corpus linguistics is perhaps best descrived for the moment in simple terms as the study of language based on examples of «real life» language and use” (McEnery 2008: 1). No mesmo sentido, e alargando um pouco a definição, “corpus linguistics sees language as a social phenomenon” (Teubert 2008: 37). Este autor afirma mesmo que “Corpus linguistics can tell us more about meaning than either Chomskyan linguistics or standard linguistics (Idem, 39).

Embora haja registos de que a associação linguística/corpus é muito anterior ao século XX33, o início da linguística de corpus e das pesquisas associadas a corpora fica inquestionavelmente associado ao aparecimento do primeiro corpus linguístico eletrónico: lançado em 1964, o Brown University Standard Corpus of Present-day American English,

33

Exemplos disso são as referências a um corpus helenístico constituído por Alexandre, o Grande, na Grécia Antiga, e os corpora de citações da Bíblia produzidos na Antiguidade e na Idade Média (Sardinha 2004: 3); outros exemplos são os que Kennedy (1998: 13-23) indica quando refere corpora pré-eletrónicos, que se ocupavam de 5 campos fundamentais: estudos literários e bíblicos, estudos de lexicografia, estudos da variação linguística em dialetos regionais, ensino da língua e estudos gramaticais, com datas que remontam aos séculos 17, 18, 19 e inicios de século 20. McEnery e Wilson (2008: 1-4) também referem a existência de corpora anteriores aos eletrónicos.

64

composto por 1 milhão de palavras. Com efeito, foi nesta altura que a linguística de corpus começou a ocupar-se de corpora eletrónicos, sendo esta, exatamente, a diferença entre os anteriores corpora e os que se constituíram a partir desta altura. Isto é, os corpora existentes até então eram constituídos e analisados manualmente e esta altura marca o nascimento dos corpora constituídos e analisados eletronicamente. Desde então, o tratamento de corpora através do computador conheceu um desenvolvimento notável (mais acentuado a partir da década de 80 com o aparecimento dos microcomputadores e da década de 90 com a Internet), que se fica a dever, por um lado, ao desenvolvimento da própria informática e das ferramentas criadas especificamente para estes fins e, por outro, ao crescimento do interesse que esta área tem despertado cada vez mais (estando, por isso, agora já menos limitada a instituições e centros de pesquisa da área da linguística, cujo interesse na pesquisa linguística baseada em corpus tem contribuído para importantes desenvolvimentos na disciplina e na forma como é encarada, e conhecendo cada vez mais investigadores com vontade de explorar esta área).

A constante evolução das tecnologias de informação e comunicação, que se reflete no desenvolvimento, aperfeiçoamento e simplificação dos sistemas operativos, resulta no aparecimento de novas ferramentas e na cada vez maior facilidade na sua utilização. O desenvolvimento da linguística de corpus acontece a um ritmo tal que em pouco tempo os recursos disponíveis multiplicam-se, bem como as suas potencialidades. Novos programas são desenvolvidos permanentemente, bem como atualizadas e melhoradas as funcionalidades dos já existentes. Um outro aspeto de fundamental importância é que a informação acerca dos mesmos está, na maioria dos casos, apenas à distância de um clique. Também apenas à distância de um clique está grande parte do próprio software, já que muito dele é livre, bastando apenas fazer download do mesmo a partir da internet. Há também software utilizável em plataformas ou portais online34, sem necessidade de fazer download e instalar, e outros estão apenas acessíveis a quem os comprar.

Para se ter uma ideia da diversidade de recursos, que vão desde o mais simples, como por exemplo o Wordle35, ao mais complexo, como por exemplo o Tropes36, que

34

Como, por exemplo, o Corpógrafo (criado pelo Pólo do Porto da Linguateca), a primeira ferramenta do género, que permite que todos os tipos de utilizadores pesquisem corpora e realizem estudos terminológicos, usando um ambiente simples que não requer qualquer tipo de instalação, bastando para tal ter acesso à Internet, ou o TAPOR, um portal para análise textual que funciona, também, diretamente na Internet. Ambos têm, ainda, a possibilidade de fazer download e instalar o programa no computador. O primeiro está disponível em http://www.linguateca.pt/corpografo/ e o segundo em: http://taporware.mcmaster.ca/.

35

Programa simples e muito intuitivo que cria nuvens de palavras dando mais relevo às mais frequentes. Com um interface muito criativo, oferece várias possibilidades visuais.

65

foram estando disponíveis, e das suas potencialidades, veja-se, e a lista está longe de ser exaustiva37, a tabela que se segue:

Recurso Informação38

Lexico Programa informático concebido para o tratamento lexicométrico de textos com milhares de ocorrências, foi desenvolvido por André Salem – ILPGA – Paris (1995) e deu posteriormente, em trabalho de equipa, origem ao Lexico 2 e 3

Disponível para download, versões 1 e 2, em:

http://www.tal.univ-paris3.fr/lexico/lexico1.htm http://www.tal.univ-paris3.fr/lexico/lexico2.htm

Lexico3 Sob a supervisão de André Salem, corresponde a uma atualização do Lexico (1 e 2) e permite, entre outras coisas, formatar o texto que se quer analisar, determinando como dividir o texto, fazer contagens, indicar a distribuição das palavras dentro do texto e elaborar gráficos.

Disponível para download em:

http://www.tal.univ-paris3.fr/lexico/lexico3.htm

Stablex Desenvolvido por André Camlong e Thierry Beltran no Laboratório de Inteligência Artificial do Centre de Recherches Ibériques Contemporaines – CRIC – da Universidade de Toulouse, o stablex, que faz uma análise qualitativa e quantitativa dos textos, faz o processamento automático de textos, o tratamento estatístico de vocabulários, a extração de frequências e cria dicionários. Apresenta várias ferramentas para análise lexical:

36

Nas versões standard, zoom e index, é um dos mais completos. Faz, entre outras coisas, a classificação automática das palavras significativas e geração de palavras-chave.

37

Esta listagem funcionará, esperamos, como uma base de dados para todos os que desejem fazer uma incursão no mundo da linguística computacional. Poderão escolher um ou mais programas, desde o mais simples ao mais complexo, e partir para pesquisas de vários géneros. De igual modo será possível pesquisar novos programas partindo da atualização que entretanto será feita nas bases de dados aqui colocadas.

38

Muita da informação que colocamos está disponível na página de internet onde, na maioria dos casos, se encontra também a possibilidade de fazer o download do próprio programa e de conhecer mais aprofundadamente cada um deles, quer através dos manuais disponíveis, quer através de descrições de procedimentos e experiências. Outra informação importante é o facto de em muitas destas páginas, onde são disponibilizados os programas, serem também disponibilizados corpora em quantidades significativas. Colocada ipsis verbis a informação retirada dos sites oficiais ou de sites da especialidade que a eles se referem (em: http://www.content-analysis.de/software)

66

dentro do próprio programa e outras dentro de uma macro a ser executada no programa EXCEL.

Informações disponíveis, descrição detalhada de André Camlong sobre o programa, em:

http://www.revistaeutomia.com.br/volumes/Ano3- Volume1/especial-destaques/destaques-

linguistica/destaque_A_analise_em_componentes_principais.pdf

Tropes Tropes est un logiciel d'analyse sémantique de textes utilisé par de nombreux professionnels.

Sur ce site vous pouvez consulter la documentation de Tropes et télécharger gratuitement le logiciel.

Tropes est un logiciel développé par Pierre Molette et Agnès Landré sur la base des travaux de Rodolphe Ghiglione.

Informações disponíveis em:

http://www.tropes.fr

Disponível para download em:

http://www.tropes.fr/download.htm

Informações, compra, e uma versão de demonstração, também para português, disponíveis em:

http://www.cyberlex.pt/tropes_standard.html http://www.cyberlex.pt/zoom.html

Wordsmith WordSmith Tools is an integrated suite of programs for looking at how words behave in texts. You will be able to use the tools to find out how words are used in your own texts, or those of others. The WordList tool lets you see a list of all the words or word- -clusters in a text, set out in alphabetical or frequency order. The concordancer, Concord, gives you a chance to see any word or phrase in context - so that you can see what sort of company it keeps. With KeyWords you can find the key words in a text. The tools have been used by Oxford University Press for their own lexicographic work in preparing dictionaries, by language teachers and students, and by researchers investigating language patterns in lots of different languages in many countries world-

67 wide.

Informações disponíveis em:

http://www.lexically.net/wordsmith/index.html

Disponível para download, nas várias versões, das quais a mais recente é a 6.0, em:

http://www.lexically.net/wordsmith/version6/index.html

Mike Scott's tools (includes MicroConcord)

Microconcord MicroConcord (Scott & Johns) was published in 1993 by OUP. It is a concordancer, operating on IBM PCs running DOS. DOS is faster than Windows but the number of concordance lines is limited to around 1,500, and you can't save a concordance except as a text file. It is very useful for a quick analysis, and may be easier for students to use than WordSmith Tools.

Informações disponíveis em:

http://www.lexically.net/software/index.htm

Disponível para download em:

http://www.lexically.net/software/index.htm e em:

http://www.lexically.net/wordsmith/version6/index.html

TACT TACT (Text Analysis Computing Tools) is a text-analysis and retrieval system for MS-DOS that permits inquiries on text databases in European languages. It has been developed by a team of programmers, designers, and textual scholars. It was begun under the IBM-University of Toronto Cooperative in the Humanities during 1986-89.

Informações e download disponíveis, nas várias versões, sendo a final a versão 2.1, em:

http://projects.chass.utoronto.ca/tact/

Wordcruncher WordCruncher is a text retrieval and analysis program that allows users to index or use a text, including very large multilingual Unicode documents. It supports the addition of tags (such as part of speech, definitions, lemma, etc), graphics, and hyperlinks to text or multimedia files. In addition to supporting contextual and

68

tag searching, WordCruncher also includes many analytical reports, including collocation, vocabulary dispersion, frequency distribution, vocabulary usage, and various other reports.

The WordCruncher Viewer (Version 7.1) is available for download. Included with this download is a copy of the works of Shakespeare for demonstration purposes. The academic version of the WordCruncher Publishing Toolkit, which includes the indexing program, is also available for non-commercial use. Informações disponíveis em:

http://wordcruncher.byu.edu/wordcruncher/ Disponível para download em:

http://wordcruncher.byu.edu/wordcruncher/Download.htm

Corpus Presenter Corpus Presenter is a suite of programs which pursues two main goals.

(1) the presentation of corpora in tree form. The program will show the internal arrangment of files of a corpus as a tree with branches similar to the folders on your hard disk as seen with Windows Explorer. Just how the files are presented depends on the tree which a user chooses for display. A tree can be designed very quickly using the supplied utility Corpus Presenter Make Tree (updated for Version 12) or you can generate a tree directly from files on your computer from within Corpus Presenter. (2) the retrieval of information from the files of a corpus. The manner in which information is found in files and returned to the user depends on the way in which the files of a corpus are presented. There are a number of options here. Assuming that you have a tree display for your files you can search the entire tree or just a branch of it. You can also search through individual files, whether they are continguous in the tree or not. By having more than one tree for a single set of files you can carry out selective searches which return highly accurate information. Remember that it is not necessary to have a corpus to start with: you can search through any texts you might load into Corpus Presenter

69

for linguistically interesting structures.

Corpus Presenter also has all the other options of standard corpus software, i.e. it can generate concordances, word lists, generate reverse dictionaries of words in texts, etc. It does not require that texts are prepared in any way, e.g. by indexing them in advance. Informações disponíveis em:

http://www.uni-due.de/CP/

Disponível para download em:

http://www.uni-due.de/CP/downloads.htm

Intex Professor Max Silberztein constructed his first package of "Finite State tools for Natural Language Processing", along with the French DELAC-DELACF dictionaries of compound words as part of his Ph.D. research from 1986 to 1989 at the LADL (University of Paris 7-CNRS) under the supervision of Prof. Maurice Gross. From 1993 to 2002, he developed a software application called INTEX, which was used at the LADL and at various affiliated laboratories to build DELA dictionaries and perform automatic lexical analysis on texts.

Since 2002, he has been working on NooJ. Informações disponíveis em:

http://intex.univ-fcomte.fr/

Download disponível em:

http://intex.univ-fcomte.fr/

Lexicon39 O Lexicon é um programa que serve para listar todas as palavras de um texto e verificar o número de ocorrências de cada uma delas.

É um programa útil para quem pretenda fazer um estudo estatístico-lexical ou morfológico de determinada obra ou conjunto de textos.

O programa constrói uma base de dados, que poderá ser lida

39

O programa foi, entretanto, descontinuado. Contudo, quem o tiver em sua posse pode, e deve, continuar a utilizar as suas muitas potencialidades. Acreditamos que, embora com algumas limitações ao nível do

Documentos relacionados