• Nenhum resultado encontrado

Tradução Automática Baseada em Exemplos

N/A
N/A
Protected

Academic year: 2021

Share "Tradução Automática Baseada em Exemplos"

Copied!
14
0
0

Texto

(1)

Tradu¸c˜

ao Autom´

atica Baseada em Exemplos

Alberto Manuel Brand˜ao Sim˜oes ambs@di.uminho.pt

Orienta¸c˜ao Jos´e Jo˜ao Almeida

Diana Santos

Casa da Torre — Vila Verde 6 de Janeiro de 2005

(2)

Defini¸c˜

ao de EBMT

N˜ao consensual!!

Sistema de tradu¸c˜ao que:

se baseia em tradu¸c˜oes j´a realizadas (exemplos); utiliza/pesquisa os exemplos em tempo-real;

Na verdade, tamb´em:

usa regras de concilia¸c˜ao de tradu¸c˜oes;

matematicamente...

translate : sentence × tmdb −→ sentence translate(s, db)def=

let l 1 = split(s)

l 2 = <match(db, x ) | x ∈ l 1>

(3)

Base de Exemplos

Armazena:

pares de segmentos (unidades de tradu¸c˜ao); pares de padr˜oes (segmentos com place-holders); dicion´ario probabilistico de tradu¸c˜ao;

matematicamente... tmdb ∼= transMemory : tm × transPattern : tp × dictionary : dic tm ∼= alignUnit ↔ alignUnitm tp ∼= pattern ↔ patternm

dic ∼= word * wordInfo

wordInfo ∼= trans : word * real ×

(4)

Generaliza¸c˜

ao/Abstrac¸c˜

ao de Exemplos

Como ´e...

pouco prov´avel que a frase j´a esteja traduzida; prov´avel que por¸c˜oes da frase j´a estejam traduzidas; tenta-se generalizar...

cria¸c˜ao de classes de palavras

(palavras usadas em contextos semelhantes) reconhecimento de entidades mencionadas (substitui¸c˜ao de nomes pr´oprios por placeholders) etiqueta¸c˜ao de PoS

(classifica¸c˜ao de categorias morfol´ogicas) detec¸c˜ao de partes semelhantes em frases (cria¸c˜ao de “gram´aticas” de exemplos)

(5)

Divis˜

ao em Segmentos

Mais uma vez, como ´e...

pouco prov´avel que a frase j´a esteja traduzida; prov´avel que por¸c˜oes da frase j´a estejam traduzidas; temos de fazer pesquisas por segmentos “pequenos”...

detec¸c˜ao de segmentos usando:

chunkers;

informa¸c˜ao sint´actica;

detec¸c˜ao de termos e tempos verbais compostos;

matematicamente...

split : sentence −→ segment? split(s)def=

(6)

Matching de Segmentos

dado um segmento:

procurar exemplo semelhante; procurar padr˜ao;

traduzir palavra a palavra;

calcular “fiabilidade” da tradu¸c˜ao obtida:

se baixa, retornar ao m´odulo de segmenta¸c˜ao

matematicamente

match : tmdb × segment −→ segment match(db, s)def=

(7)

Recombina¸c˜

ao de Segmentos

baseado em:

conjunto de regras; analizador morfol´ogico;

regras inferidas usando:

corpora etiquetado; florestas sint´acticas;

matematicamente

recombine : segment?−→ sentence

recombine(s)def= ...

(8)

Objectivos

Constru¸c˜ao de:

um prot´otipo de sistema de EBMT;

prototipagem dos v´arios componentes; v´arias aproxima¸c˜oes/t´ecnicas;

prot´otipos de ferramentas de generaliza¸c˜ao:

avalia¸c˜ao/compara¸c˜ao das v´arias t´ecnicas; avalia¸c˜ao/compara¸c˜ao de t´ecnica vs l´ıngua;

Propostas de metodologias de avalia¸c˜ao:

para sistemas de EBMT; para os v´arios componentes;

(9)

Dicion´

arios Probabil´ısticos de Tradu¸c˜

ao

align : corporaparalelos −→ dic

enorme => { count => 45, trans => { large => 0.417, huge => 0.227, enormous => 0.132, (null) => 0.107, deep => 0.034, flinging => 0.030, fasten => 0.021, pheasants => 0.011, }, }, coruja => { count => 36, trans => { owl => 0.968, vacuum => 0.020, forward => 0.010, }, },

(10)

Extrac¸c˜

ao de terminologia multi-palavra

Usando

detector de unidades multi-palavra; alinhador `a palavra;

Obter

please wait -> favor aguarde

bug report -> relat´orio

to create -> para criar

recent files -> ficheiros recentes

fishing boat -> barco de pesca

(11)

Fiabilidade de Tradu¸c˜

ao

Associar uma “probabilidade” de tradu¸c˜ao a um par de frases.

Q English Portuguese

0.261751 vocˆes os dois - eu

mando-vos uma coruja .

Thanks , said Harry , I ’ ll need something to look forward to .

0.673549 ”Have you got your own

broom ?

- Tens a tua vassoura ?

0.659810 ”Harry glanced down at his

broom .

Harry deitou um olhar `a sua vassoura .

0.599914 ”Stick out your right hand

over your broom , ”called Madam Hooch at the front , ”and say ’ Up !

- Estendam a vossa m˜ao di-reita ao longo da vassoura –, gritou Madame Hooch ,-e digam D,-e p´e .

(12)

Matching de Exemplos

==> difficult situation

Using 6 occurrences (0.732864 seconds)

situation difficile - 0.8025

situation tr`es difficile - 0.8025

situation aussi difficile - 0.8025 ==> sentenced to death

Using 1 occurrences (0.214145 seconds)

condamn´e `a mort - 0.443333333333333

==> final version

Using 7 occurrences (0.843922 seconds)

version d´efinitive - 0.5075

d´efinitive - 0.09

(13)

Mini-prot´

otipo de EBMT

no parlamento europeu existe uma grande crise de identidade no parlamento europeu...

european parliament - 62% existe uma grande...

there was a great - 37% existe uma...

there exists a - 51% grande crise de...

crisis here - 34% grande crise...

crisis - 60% de identidade...

(14)

Alinhamento de Corpora “Estruturado”

alinhamento de corpora etiquetado:

EMS (para PT); TnT (para EN);

alinhamento de corpora com entidades mencionadas anotadas;

Referências

Documentos relacionados

O Climate Policy Initiative/ Núcleo de Avaliação de Políticas Climáticas da PUC-Rio trabalha para aprimorar políticas públicas de energia e uso da terra gerando evidências para

The Climate Policy Initiative/ Núcleo de Avaliação de Políticas Climáticas da PUC-Rio works to improve public energy and land use policies by generating evidence for decision makers

Segundo os meus informantes que participaram na luta de libertação, por vezes estas regras tradicionais, bem como os tabus religiosos (no caso da alimentação) eram

Itens estruturais (estáticos): representam a estrutura do modelo, elementos conceituais e físicos (classes, colaborações, caso de uso, etc.). Itens comportamentais

2. Determine a fun¸c˜ ao de distribui¸c˜ ao da vari´ avel aleat´ oria do Exerc´ıcio 2.a). Se cada valor for igualmente prov´ avel e a m´ edia de X for igual a 6, de- termine

Devido ao reduzido número de estudos sobre fatores de risco para PI, optou-se por utilizar como categorias de referência as de menor risco para o BPN, conforme apontado pela

v) Tratando-se de unidades de participação de fundos de investimento, utilizar-se-á o último valor disponível e divulgado à data de referência da valorização. Para

Nas Se¸c˜oes 3, 4 e 5 apresentamos exemplos importantes de fun¸c˜oes complexas de uma vari´avel complexa, a saber: as fun¸c˜oes racionais, as fun¸c˜oes polinomiais, a