• Nenhum resultado encontrado

Corpora Comparáveis

N/A
N/A
Protected

Academic year: 2021

Share "Corpora Comparáveis"

Copied!
5
0
0

Texto

(1)

Corpora Compar

Corpora Compar

á

á

veis

veis

Belinda Maia

Belinda Maia

FLUP

FLUP

Citações

Citações

de:

de:



 EAGLES EAGLES --Expert Advisory Group Expert Advisory Group

on Language Engineering

on Language Engineering

Standards

Standards



 Guidelines Guidelines ––1996 1996 ––at:at:



 http://www.ilc.pi.cnr.it/EAGLES96/brhttp://www.ilc.pi.cnr.it/EAGLES96/br

owse.html

owse.html

Comparable corpora

Comparable corpora

-

-

definition

definition



 ““A comparable corpus is one which A comparable corpus is one which

selects similar texts in more than

selects similar texts in more than

one language or variety. There is as

one language or variety. There is as

yet no agreement on the nature of

yet no agreement on the nature of

the similarity, because there are very

the similarity, because there are very

few examples of comparable

few examples of comparable

corpora”.

corpora”.

Comparable corpora

Comparable corpora

-

-

uses

uses



 ““The possibilities of a comparable The possibilities of a comparable

corpus are to compare different

corpus are to compare different

languages or varieties in similar

languages or varieties in similar

circumstances of communication, but

circumstances of communication, but

avoiding the inevitable distortion

avoiding the inevitable distortion

introduced by the translations of a

introduced by the translations of a

parallel corpus”.

parallel corpus”.

Corpora

Corpora

Comparáveis

Comparáveis

(CC)

(CC)



 TextosTextosquequereflectemreflectemas as convençõesconvenções

da

da culturaculturasubjacentesubjacente



 TextosTextoslegaislegaisdo do sistemasistemalegal local legal local



 TextosTextossocialmentesocialmenteconvencionadosconvencionados: :

participações

participaçõesde de falecimentosfalecimentos, ,

anúncios

anúnciosde de casascasasououempregosempregos 

 TextosTextosacadémicosacadémicos/ / científicoscientíficos––

convenções

convençõesdiferentesdiferentesememculturasculturase e domínios

domíniosdiferentesdiferentes

CC

CC

Vantagens

Vantagens



 DisponibilidadeDisponibilidadede de maismaistextostextos––e e

mais

maisvariedadevariedade



 VersatilidadeVersatilidadeparaparainvestigaçãoinvestigaçãoemem::

•AnáliseAnálisedo do discursodiscurso •

•PragmáticaPragmática •

•PesquisaPesquisade de informaçãoinformação •

(2)

O que torna

textos/corpora

COMPARÁVEIS?

EAGLES

EAGLES

-

-

quote

quote

s

s



 ““A comparable corpus is one which A comparable corpus is one which

selects similar texts in more than

selects similar texts in more than

one language or variety”.

one language or variety”.



Similar Similar ––ememmaismaisdo do quequeumaumalíngualíngua

E/OU

E/OU



Similar Similar ––ememvariedadevariedade

“... circunstâncias

“... circunstâncias similaressimilaresde de

communicação

communicação..”..”

Similares

Similares

em

em

Forma/

Forma/

conteúdo

conteúdo

?

?



 FormaForma

•TamanhoTamanho> num. de > num. de palavraspalavras, , frasesfrases, , parágrafos

parágrafos •

•TamanhoTamanhodos textosdos textos •

•FormatoFormato--.txt, .doc, .html, .xml.txt, .doc, .html, .xml 

 ConteúdoConteúdo

•LinguagemLinguagemgeralgeral •

•DomíniosDomíniosespecializadosespecializados

Similares

Similares

em

em

Estrutura

Estrutura

/

/

Função

Função

?

?



 EstruturaEstrutura

•TextosTextosformaisformaise beme bemconstruídosconstruídos––ex. ex. Textos

Textoslegaislegais •

•DiscursoDiscursoinformal informal ––ex. ex. TranscriçõesTranscriçõesde de conversas conversas   FunçãoFunção • •SocialSocial • •CulturalCultural

Similares

Similares

--

Registo

Registo

?

?

  RegistoRegisto •

•‘Field’ ‘Field’ ––situaçãosituação, , assuntoassunto, etc, etc •

•‘Tenor’ ‘Tenor’ ––relaçõesrelaçõesinterpessoaisinterpessoais



ex. formal/informal, cortesiaex. formal/informal, cortesia, etc, etc

• •ModoModo



Falado: ex. Falado: ex. diálogodiálogoformal / informalformal / informal 

Escrito: ex. Escrito: ex. livrolivro, , artigoartigo, manual de , manual de

instruções instruções



Multimedia: ex. Encarta, cinema, internetMultimedia: ex. Encarta, cinema, internet

Similar

Similar

-

-

Dialecto

Dialecto

?

?



 DialectoDialecto

•GeográficoGeográfico> ex. > ex. ÁreasÁreasurbanas/ruraisurbanas/rurais, , países

paísesdesenvolvidosdesenvolvidos/ em/ em desenvolvimento

desenvolvimento •

•Temporal > ex. Temporal > ex. PeríodoPeríodohistórico, histórico, grupos

gruposetáriosetáriosdiferentesdiferentes •

•Social > ex. Classes Social > ex. Classes sociaissociais, , níveisníveisde de educação

(3)

Comparabilidade

Comparabilidade

de Corpora

de Corpora

Muito

Muito

Grandes

Grandes



 Corpora Corpora MuitoMuitoGrandesGrandessãosão

comparáveis

comparáveisse:se:

•SimilaresSimilaresememtamanhotamanho •

•ConstruídosConstruídossegundosegundoososmesmosmesmos critérios

critérios> ex. quantidade> ex. quantidadee e qualidadequalidade de

de tipostiposde de textotexto 

 PorPorexemploexemplo? ?

•British National CorpusBritish National Corpus •

•MannheimerMannheimerCorpusCorpus

Comparabilidade

Comparabilidade

de corpora

de corpora

jornalísticos

jornalísticos



 Corpora Corpora jornalísticosjornalísticosvariamvariamemem::

•TipoTipo: : qualidadequalidade/popular, /popular, conteúdoconteúdo geral/especializado

geral/especializado •

•Data de Data de publicaçãopublicação: o : o mesmomesmo dia/mês/ano

dia/mês/ano

•PorPorexemploexemplo? ?

•CETEMPúblicoCETEMPúblico––PortuguêsPortuguês •

•Corpus Corpus dadaReuter –Reuter –InglêsInglês

Comparabilidade

Comparabilidade

em

em

Corpora

Corpora

Literários

Literários



 PeríodoPeríodo::

•Medieval, Medieval, SéculoSéculoXVIII, PósXVIII, Pós--guerraguerra 

 EscolaEscola::

•RomantismoRomantismo, , RealismoRealismo, , PósPós- -modernismo

modernismo 

 GéneroGénero(Genre):(Genre):

•Romance, Romance, ficçãoficçãocientíficacientífica, , teatroteatro, , poesia

poesia

Comparabilidade

Comparabilidade

em

em

corpora

corpora

técnicos

técnicos

e

e

científicos

científicos

-

-

forma

forma



 PanfletosPanfletos



 ManuaisManuais



 LivrosLivrosde de ensinoensino



 ArtigosArtigose e comunicaçõescomunicações



 DissertaçõesDissertações, , tesesteses

Comparabilidade

Comparabilidade

em

em

corpora

corpora

técnicos

técnicos

e

e

científicos

científicos

-

-

conteúdo

conteúdo



 InformaçãoInformaçãogeralgeral



 InformaçãoInformaçãoenciclopédicaenciclopédica



 InstruçõesInstruções



 EducaçãoEducação



 ComunicaçãoComunicaçãoentreentreperitosperitos

Construir CC

Construir CC

linguagem geral

linguagem geral



 Começar?Começar?



 Corpora Corpora MuitoMuitoGrandesGrandescomparáveiscomparáveis

em 2 ou mais línguas >só a página

em 2 ou mais línguas >só a página

da Comissão Europeia!

da Comissão Europeia!



 Corpora gerais, cuidadosamente Corpora gerais, cuidadosamente

seleccionados

seleccionados ––ex. ICAME corpora ex. ICAME corpora

(

(BrownBrown, LOB , LOB etcetc) = possível mas ) = possível mas

limitado

(4)

Utilizar CC

Utilizar CC

de linguagem geral

de linguagem geral

  Vantagens:Vantagens: •

•Investigação comparativa a todos os Investigação comparativa a todos os níveis

níveis •

•Úteis para investigação do léxico e das Úteis para investigação do léxico e das estruturas sintácticas

estruturas sintácticas 

 Desvantagens:Desvantagens:

•Dificuldades para análise mais Dificuldades para análise mais cuidadosa

cuidadosa •

•Desnecessários para certos tipos de Desnecessários para certos tipos de análise

análise

Construir CC

Construir CC

Textos de jornais

Textos de jornais



 Fáceis de adquirirFáceis de adquirir



 Grande variedade de temasGrande variedade de temas



 Comparáveis a vários níveisComparáveis a vários níveis



 Possível arranjar versões diferentes Possível arranjar versões diferentes

da ‘mesma’ notícia

da ‘mesma’ notícia ––‘‘concurrentconcurrent

corpora’

corpora’

Utilizar CC

Utilizar CC

Textos de jornais

Textos de jornais



 Comparação de tratamento de Comparação de tratamento de

notícias:

notícias:



 ex.ex.

•Política Política ––campanhas campanhas eleitoriaiseleitoriais •

•Futebol durante a Taça MundialFutebol durante a Taça Mundial 

 OU > estilos de jornalistas OU > estilos de jornalistas

individuais

individuais

Construir CC

Construir CC

linguagem geral +

linguagem geral +

textos semelhantes

textos semelhantes



 Tipos de texto semelhante: ex. Tipos de texto semelhante: ex.

Entradas em enciclopédias,

Entradas em enciclopédias,

publicidade turística

publicidade turística



 Textos literários do mesmo autor, Textos literários do mesmo autor,

período, escola ou ‘

período, escola ou ‘genregenre’ ’



 Textos técnicos e científicos com Textos técnicos e científicos com

uma forma ou função semelhante

uma forma ou função semelhante ––

ex. Livros de ensino

ex. Livros de ensino

Utilizar CC

Utilizar CC

linguagem geral +

linguagem geral +

textos semelhantes

textos semelhantes



 PragmáticaPragmática



 Análise do discursoAnálise do discurso



 Análise de ‘Análise de ‘genregenre’’



 Análise sociolinguísticoAnálise sociolinguístico



 Análise culturalAnálise cultural

Construir CC

Construir CC

domínios

domínios

especializados

especializados



 Domínios especializados a níveis Domínios especializados a níveis

diferentes

diferentes ––ex.ex.

•Geografia > demografia da população Geografia > demografia da população > minorias étnicas ...

> minorias étnicas ... •

•Engenharia > Engenharia > engenhariaengenhariamecânica > mecânica > tribologia

tribologia... •

•Medicina > oncologia > cancro da Medicina > oncologia > cancro da mama

(5)

Utilizar CC

Utilizar CC

domínios

domínios

especializados

especializados



 Análise de ‘Análise de ‘genregenre’’



 Extracção de terminologiaExtracção de terminologia



 Pesquisa de informaçãoPesquisa de informação



 Tecnologia de ‘browsers’Tecnologia de ‘browsers’



 Engenharia do conhecimentoEngenharia do conhecimento

A

A

construcção

construcção

de CC

de CC

-

-

deve

deve



 Estabelecer uma política geral em Estabelecer uma política geral em

relação:

relação:

•À forma À forma ––estrutura computacionalestrutura computacional •

•Ao conteúdo dos Ao conteúdo dos subsub--corporacorpora •

•À possibilidade de partilhar os recursos À possibilidade de partilhar os recursos com um público geral ou restrito com um público geral ou restrito 

 Especificar os objectivos para a Especificar os objectivos para a

construção dos

construção dos subsub--corporacorpora

A construção de CC

A construção de CC

-

-

deve

deve



 Respeitar os direitos de autor (‘copyright’)Respeitar os direitos de autor (‘copyright’)



 Lembrar factores contextuais e/ou Lembrar factores contextuais e/ou exteriores ao texto

exteriores ao texto •

•O estilo e particularidades do autor individualO estilo e particularidades do autor individual •

•As convenções da escrita numa situação As convenções da escrita numa situação específica cultural/social

específica cultural/social •

•Efeito Efeito homogenizantehomogenizanteda internacionalizaçãoda internacionalização 

‘‘EurospeakEurospeak’’ 

Anglicismos em terminologia científica e técnicaAnglicismos em terminologia científica e técnica

CC

CC

-

-

limitações

limitações



 QualquerQualquercorpus corpus pequenopequenoé é

construído

construídoparaparaum um fimfimespecíficoespecífico–– ex.

ex. extracçãoextracçãode de terminologiaterminologia, , análise

análise de ‘genre’, de ‘genre’, estudoestudocontrastivocontrastivo

de

de línguaslínguas 

 Estes corpora Estes corpora têmtêmum um usousoespecíficoespecífico

e um ‘

e um ‘prazoprazode de validadevalidade’’

Corpógrafo

Corpógrafo

-

-

permite

permite



 Construir CC em várias línguasConstruir CC em várias línguas



 Analisar a linguagem dos textos com Analisar a linguagem dos textos com concordâncias,

concordâncias, nn--gramasgramas, , etcetc



 Extrair terminologia semiExtrair terminologia semi- -automaticamente

automaticamente



 Criar bases de dados Criar bases de dados terminológicasterminológicas



 Extrair definições e relações semânticas Extrair definições e relações semânticas semi

Referências

Documentos relacionados

[r]

- DESPACHO JURÍDICO PGE/PA-CD-4944/2017 - Trata-se de matéria de competência da Subu- nidade Previdenciária – PROCURADORIA ADMINISTRATIVA, com funciona- mento no âmbito do

Em outras palavras, o desenvolvimento das tecnologias de informação e comunicação deve ser pensado dentro do contexto do sistema econômico capitalista que lhe

Pesquisa cujo objetivo foi investigar a existência de políticas públicas para museus no Brasil, no Estado Novo (1937-1945), quando foram criados importantes órgãos nacionais

António Edgar Martins Freitas (Clube Desp. Santanense) Pedro Eduardo Camilo Rebelo (Grupo Desportivo da Lagoa) Seniores Masculinos: Diogo Trindade Marreiros (Roller Lagos

Cabe ressaltar que a maior parte da demanda por informações se refere à serviços públicos, especialmente nas demandas do Grupo 2, mais do que informações referentes aos

Fragmentos músicas que se misturam em vários tons de forma confusa, é impossivel de escutar o

Dado o cenário apresentado, a Federação Catarinense de Municípios – FECAM, objetivando contribuir para o equilíbrio orçamentário e financeiro dos Municípios, especialmente