Conteúdo. Exemplo Texto extraído da saída de um reconhecedor de fala. Situação actual

(1)

L2 F - Spoken Language Systems Laboratory

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology from seed Enriquecimento automático de transcrições de fala Fernando Batista Friday, 4 December 2009

technology

from seed

Conteúdo

• Introdução

• Corpus de fala

• Tarefa de pontuação/segmentação

• Tarefa de maiusculização

–

Impacto das variações da língua

• Trabalho mais recente

• Comentários finais e questões em aberto

2

Friday, 4 December 2009

technology

from seed

L2 F - Spoken Language Systems Laboratory 3

Situação actual

• Disseminação de grande quantidade de informação: áudio e video

–

Leva à aplicação de sistemas de reconhecimento de fala, com vista a

enriquecer esses dados com informação adicional

• Existência de um sistema de reconhecimento para o Português

–

Legendagem de notícias televisivas online

–

Produção de conteúdos multimédia a partir de programas televisivos

• Mas... a saída do reconhecedor é difícil de ler e de processar

–

Segmentação incorrecta / sem pontuação

–

Sem informação sobre as maiúsculas

–

Presença de disfluências

–

Erros de reconhecimento

–

Estrutura linguística flexível na fala espontânea

boa tarde a ministra da educação pronunciou sobre a polémica do professor suspenso maria de lurdes rodrigues disse que vai aguardar pelos resultados do processo que está a decorrer

e garantiu que não tem motivos para duvidar do funcionamento da direcção regional de educação do norte

que suspendeu passou por ter feito um comentário pose do primeiro-ministro a ministra disse lamentar que este tipo de pesados marquem

à agenda mediática até este momento do muito que o li e ouvi não tenho nenhum sinal

não tenho nenhum motivo para duvidar do funcionamento das instituições ou para de a considerar que pode estar em causa o funcionamento da direcção regional ...

technology

from seed

Exemplo

Texto extraído da saída de um

reconhecedor de fala

4

boa tarde.

a ministra da educação pronunciou sobre a polémica do professor suspenso. maria de lurdes rodrigues disse que vai aguardar pelos resultados do processo que está a decorrer e garantiu que não tem motivos para duvidar do funcionamento da direcção regional de educação do norte, que suspendeu passou por ter feito um comentário pose do primeiro-ministro.

a ministra disse lamentar que este tipo de pesados marquem à agenda mediática. até este momento do muito que o li e ouvi não tenho nenhum sinal.

não tenho nenhum motivo para duvidar do funcionamento das instituições ou para de a considerar que pode estar em causa o funcionamento da direcção regional de educação, dos seus de serviços.

aquilo que é a minha preocupação é que no âmbito deste processo estejam garantidos a existência dos mecanismos de defesa.

technology

from seed

Exemplo

Introdução de marcas de pontuação e

correspondente segmentação

Boa tarde.

A ministra da Educação pronunciou sobre a polémica do professor suspenso. Maria de Lurdes Rodrigues disse que vai aguardar pelos resultados do processo que está a decorrer e garantiu que não tem motivos para duvidar do funcionamento da Direcção Regional de Educação do Norte, que suspendeu passou por ter feito um comentário pose do primeiro-ministro.

A ministra disse lamentar que este tipo de pesados marquem à agenda mediática. Até este momento do muito que o li e ouvi não tenho nenhum sinal.

Não tenho nenhum motivo para duvidar do funcionamento das instituições ou para de a considerar que pode estar em causa o funcionamento da Direcção Regional de Educação, dos seus de serviços.

Aquilo que é a minha preocupação é que no âmbito deste processo estejam garantidos a existência dos mecanismos de defesa.

technology

from seed

Exemplo

Introdução da informação sobre

maiúsculas

(2)

Boa tarde.

A ministra da Educação pronunciou sobre a polémica do professor suspenso. Maria de Lurdes Rodrigues disse que vai aguardar pelos resultados do processo que está a decorrer e garantiu que não tem motivos para duvidar do funcionamento da Direcção Regional de Educação do Norte, que suspendeu passou por ter feito um comentário pose do primeiro-ministro.

A ministra disse lamentar que este tipo de pesados marquem à agenda mediática. Até este momento do muito que o li e ouvi não tenho nenhum sinal.

Não tenho nenhum motivo para duvidar do funcionamento das instituições ou para de a

considerar que pode estar em causa o funcionamento da Direcção Regional de Educação,dos seus de serviços.

Aquilo que é a minha preocupação é que no âmbito deste processo estejam garantidos a existência dos mecanismos de defesa.

technology

from seed

Exemplo

Presença de erros de reconhecimento

15

Boa tarde.

A ministra da Educação pronunciou-se sobre a polémica do professor suspenso. Maria de Lurdes Rodrigues disse que vai aguardar pelos resultados do processo que está a decorrer e garantiu que não tem motivos para duvidar do funcionamento da Direcção Regional de Educação do Norte, que suspendeu o professor por ter feito um comentário a propósito do primeiro-ministro.

A ministra disse lamentar que este tipo de episódios marquem a agenda mediática. Até este momento do muito que li e ouvi não tenho nenhum sinal.

Não tenho nenhum motivo para duvidar do funcionamento das instituições ou para considerar que pode estar em causa o funcionamento da Direcção Regional de Educação, ou dos seus serviços.

Aquilo que é a minha preocupação é que no âmbito deste processo estejam garantidos a existência dos mecanismos de de defesa.

technology

from seed

Exemplo

Texto que seria desejável

16

Presença de disfluências

technology

from seed

Enriquecimento de transcrições

• Combina diferentes tecnologias de extracção de meta-informação

para fornecer informação adicional aos dados originais

–

Melhoria da legibilidade/inteligibilidade dos textos

–

Informação mais adequada para posterior processamento

computacional

–

É cada vez mais objecto de estudo pela comunidade científica

Speech Transcription ... ... ... Speech Recognition Rich Transcription Punctuation Capitalization Disfluency Detection and filtering

... Speech signal Close-captioning Multimedia content Further automatic processing ... Machine translation Summarization Named Entity Recognition .... Indexing Retrieval ... Audio Pre-Processor Friday, 4 December 2009

• Speaker diarization

(quem fala quando, quem disse o quê)

• Sentence segmentation

(detecção da fronteira da frase)

–

Identificação de SUs (Sentence-like Units)

• Punctuation recovery

• Capitalization

(truecasing)

• Disfluency detection and filtering

–

As disfluências ocorrem especialmente na fala espontânea

(os humanos fazem frases enquanto pensam no que querem dizer)

–

Duas categorias mais abrangentes

• fillers - ex. “um”, “uh”, “portanto”

• repairs - oradores tentam corrigir, modificar ou cancelar informação dita

anteriormente

technology

from seed

Enriquecimento de transcrições

Tarefas mais relevantes

18

technology

from seed

Sistema de reconhecimento de fala

Arquitectura

19 Offline System Online System TV broadcasted signal Control System & GUI Audio Subtitling Generation Teletex Server Web Topic Segmentation and Indexing Summarization Punctuation Capitalization JD APP ASR XML file

technology

from seed

Objectivos

20

• Inserir pontuação e maiusculização automática em transcrições de fala

–

Avaliar esta tarefa em corpora falado da língua Portuguesa

–

Comparar transcrições manuais/automáticas, planeada/espontânea

• Relativamente às marcas de pontuação

–

Fazer uso de toda a informação produzida pelo módulo de

pré-processamento do áudio (APP) e pelo módulo de reconhecimento

automático de fala (ASR)

• Comparar diferentes abordagens para a maiusculização

–

Fazer uso de corpora escrito (corpus de fala insuficiente para treino)

• Integração on-the-fly

(3)

technology

from seed

Conteúdo

• Introdução

• Corpus de fala

• Tarefa de pontuação/segmentação

• Tarefa de maiusculização

–

Impacto das variações da língua

• Trabalho mais recente

• Comentários finais e questões em aberto

21

technology

from seed

Descrição e preparação do corpus

Descrição do corpus

• Corpus Speech Recognition (SR)

–

Subconjunto do Broadcast News European Portuguese corpus

–

Recolhido no âmbito do projecto internacional ALERT

–

Transcrição manual segue as convenções do LDC Hub4

Uso Nome Periodo de Gravação Duração (h) Palavras (milhares)

Treino

Treino Out. e Nov. 2000 51 449

Desenvolvimento

Desenvolvimento Dezembro 2000 6 64

Teste

Eval Janeiro 2001 5 45

Teste JEval Outubro 2001 13 128

Teste

RTP07 Maio, Junho, Set., Out. 2007 6 45

Teste

RTP08 Junho e Julho 2008 4 40

technology

from seed

Descrição e preparação do corpus

Condições de foco

23

35% fala espontânea

Foco Descrição F0 planeada, limpa F1 espontânea, limpa F2 fala telefónica F3 fala e música

F40 planeada, com ruído

F41 espontânea, com ruído

F5 falante não nativo

FX outro tipo de fala

technology

from seed

Descrição e preparação do corpus

Transcrição automática

• Produzida pelos módulos APP e ASR

• Cada segmento contém informação acerca das condições de fundo

(ruído/limpo), identificação do orador e do seu género, etc.

–

A esta informação foram recentemente adicionados graus de confiança

• Cada palavra tem informação sobre a sua janela temporal e grau de

confiança

• Word Error Rate (WER) do módulo de reconhecimento:

22% a 24%

–

~12% fala planeada

• Os dados de referência para as transcrições automáticas são obtidos

através de um alinhamento entre as transcrições manuais e as

automáticas

technology

from seed

Descrição e preparação do corpus

Alinhamento

XML to CTM ASR Output (XML) Alignment update punctuation capitalization update regions MAN XML format manually annotated excluded regions focus conditions punctuation and capitalization

morphology update morphology STM to XML Morpho disambiguation XML to Text Manually annotated speech transcriptions (TRS) TRS to STM Morpho disambiguation XML to Text update morphology AUT XML format ASR output excluded regions focus conditions punctuation and capitalization

morphology

<AudioType start="970" end="1472">Clean</AudioType> <Time start="970" end="1472" reasons=""/> <Speaker id="1000" name="Homem" gender="M" known="F"/> <SpeakerLanguage native="T">PT</SpeakerLanguage> <TranscriptWList>

<W start="970" end="981" conf="0.765016">em</W> <W start="982" end="997" conf="0.525857">boa</W> <W start="998" end="1049" conf="0.98280">noite</W> <W start="1050" end="1064" conf="0.904695">os</W> <W start="1065" end="1113" conf="0.974994">centros</W> <W start="1114" end="1121" conf="0.938673">de</W <W start="1122" end="1173" conf="0.993847">emprego</W> <W start="1174" end="1182" conf="0.951339">em</W> <W start="1183" end="1229" conf="0.999291">portugal</W> <W start="1230" end="1283" conf="0.979457">continuou</W> <W start="1284" end="1285" conf="0.967095">a</W> <W start="1286" end="1345" conf="0.996321">registar</W> <W start="1346" end="1399" conf="0.946317">menos</W> <W start="1400" end="1503" conf=”0.995667”>inscritos</W> </TranscriptWList>

</TranscriptSegment>

technology

from seed

Descrição e preparação do corpus

(4)

<W start="970" end="981" conf="0.765016">em</W> <W start="982" end="997" conf="0.525857">boa</W> <W start="998" end="1049" conf="0.98280">noite</W> <W start="1050" end="1064" conf="0.904695">os</W> <W start="1065" end="1113" conf="0.974994">centros</W> <W start="1114" end="1121" conf="0.938673">de</W <W start="1122" end="1173" conf="0.993847">emprego</W> <W start="1174" end="1182" conf="0.951339">em</W> <W start="1183" end="1229" conf="0.999291">portugal</W> <W start="1230" end="1283" conf="0.979457">continuou</W> <W start="1284" end="1285" conf="0.967095">a</W> <W start="1286" end="1345" conf="0.996321">registar</W> <W start="1346" end="1399" conf="0.946317">menos</W> <W start="1400" end="1503" conf=”0.995667”>inscritos</W> </TranscriptWList>

</TranscriptSegment> <TranscriptSegment>

<W start="970" end="981" conf="0.765016" focus="F0" pos="S.">em</W> <W start="982" end="997" conf="0.525857" focus="F0" pos="Nc">boa</W> <W start="998" end="1049" conf="0.98280" focus="F0" punct=".” pos="Nc">noite</W> <W start="1050" end="1064" conf=... focus="F0" pos="Td" cap=”Os”>os</W> <W start="1065" end="1113" conf=... focus="F0" pos="Nc" cap=”Centros”>centros</W> <W start="1114" end="1121" conf=... focus="F0" pos="S.">de</W

<W start="1122" end="1173" conf=... focus="F0" pos="Nc" cap=”Emprego”>emprego</W> <W start="1174" end="1182" conf=... focus="F0" pos="S.">em</W>

<W start="1183" end="1229" conf=... focus="F0" pos="Np" cap=”Portugal”>portugal</W> <W start="1230" end="1283" conf=... focus="F0" pos="V.">continuou</W> <W start="1284" end="1285" conf=... focus="F0" pos="Td">a</W> <W start="1286" end="1345" conf=... focus="F0" pos="V.">registar</W> <W start="1346" end="1399" conf=... focus="F0" pos="R.">menos</W> <W start="1400" end="1503" conf=... focus="F0" punct=".” pos="V.">inscritos</W> </TranscriptWList>

</TranscriptSegment>

technology

from seed

Descrição e preparação do corpus

Exemplo de uma transcrição AUT

technology

from seed

Conteúdo

• Introdução

• Corpus de fala

• Tarefa de pontuação/segmentação

• Tarefa de maiusculização

–

Impacto das variações da língua

• Trabalho mais recente

• Comentários finais e questões em aberto

27

technology

from seed

Pontuação

Frequência das marcas de pontuação

28

Corpus

tokens

“.”

“,”

“?”

“!”

WSJ (Inglês)

42M

4.17%

4.66% 0.04% 0.01%

PUBnews (Português)

150M 3.23%

6.33%

0.11% 0.03%

Broadcast News Transcript tokens

“.”

“,”

“?”

“!”

LDC98T28 (Hub4 Inglês)

854k 5.08% 3.52% 0.29% 0.00%

LDC98T29 (Hub4 Espanhol)

350k 4.03% 5.07% 0.14% 0.00%

SR (Português)

928k 4.80%

7.43%

0.21% 0.04%

technology

from seed

Pontuação

Trabalho relacionado

• Algumas das abordagens mais utilizadas:

–

Baseadas em modelos de Markov (HMM)

–

Baseadas em máquinas de estados finitos (FSM)

–

Baseadas em modelos máxima entropia (ME)

–

Baseadas em Conditional Random Fields (CRFs)

• Informação utilizada

–

Lexical

–

Acústica

–

Prosódica

• Marcas de pontuação consideradas

–

Ponto final

–

Vírgula

–

Ponto de interrogação

29

technology

from seed

Descrição da tarefa de pontuação

Abordagem baseada em modelos de

Máxima Entropia

• Baseada em features

–

Cada observação é representada

por um vector de features

–

Permite combinar diferentes

características da informação

• A classificação é uma soma

pesada dos valores de cada uma

das features

• Baixa latência

–

Adequado para uso on-the-fly

30

Training process

Punctuation

Corpus ME train Punctuation model Features Punctuated sentence ME classifier unpunctuated sentence Features

technology

from seed

Descrição da tarefa de pontuação

Conjunto de features

• Features lexicais

–

Palavra

(combinada em unigramas, bigramas)

–

Etiqueta morfossintáctica

(unigramas e bigramas)

• Features acústicas

–

Mudanças de falante

–

Mudanças no género do falante

(M/F)

–

Segmentos acústicos

(produzidos pelo módulo APP)

–

Pausas entre palavras

(5)

technology

from seed

Pontuação

Exemplo de features

!0W:boa 0.7 W1:tarde 1.0 2GRW:boa_tarde 0.7 2GRW1:tarde_a 0.9 C:A. 0.7 C1:Nc 1.0 2GRC:A._Nc 0.7 2GRC-2: 0.0 2GRC-1:A.

0.0 2GRC1:Nc_S. 0.9

!1 W:tarde 1.0 W1:a 0.9 2GRW:tarde_a 0.9 2GRW-1:boa_tarde 0.7 2GRW1:a_ministra 0.9 C:Nc 1.0 C1:S. 0.9 2GRC:Nc_S. 0.9

2GRC-2:A. 0.0 2GRC-1:A._Nc 0.7 2GRC1:S._Nc 0.9

!0 W:a 0.9 W1:ministra 1.0 2GRW:a_ministra 0.9 2GRW-2:boa_tarde 0.7 2GRW-1:tarde_a 0.9 2GRW1:ministra_da 0.9 C:S. 0.9

C1:Nc 1.0 2GRC:S._Nc 0.9 2GRC-2:A._Nc 0.7 2GRC-1:Nc_S. 0.9 2GRC1:Nc_S. 0.9

!0 W:ministra 1.0 W1:da 1.0 2GRW:ministra_da 0.9 2GRW-2:tarde_a 0.9 2GRW-1:a_ministra 0.9 2GRW1:da_educação 1.0

C:Nc 1.0 C1:S. 1.0 2GRC:Nc_S. 0.9 2GRC-2:Nc_S. 0.9 2GRC-1:S._Nc 0.9 2GRC1:S._Nc 1.0

!0W:da 1.0 W1:educação 1.0 2GRW:da_educação 1.0 2GRW-2:a_ministra 0.9 2GRW-1:ministra_da 0.9

2GRW1:educação_pronunciou 1.0 C:S. 1.0 C1:Nc 1.0 2GRC:S._Nc 1.0 2GRC-2:S._Nc 0.9 2GRC-1:Nc_S. 0.9 2GRC1:Nc_V. 1.0

32 Boa tarde.

A ministra da Educação pronunciou ...

technology

from seed

Resultados relativos ao ponto final

Baseline

• A baseline corresponde à segmentação proposta pelo módulo APP

33 SER = total number of punctuation errors

number of punctuation marks in the reference

= NIST Error Rate for Sentence Boundary detection

Focus Ref. Slots Prec Rec SER

All 2470 45.4% 79.1% 116.2% F0 planned, clean 391 56.5% 82.6% 81.1% F1 spontaneous, clean 111 29.1% 64.0% 191.9% F40 planned, noise 930 55.9% 82.6% 82.6% F41 spontaneous, noise 791 33.3% 73.6% 173.8% F0+F40 all planned 1321 56.1% 82.6% 82.1% F1+F41 all spontaneous 902 32.8% 72.4% 176.1% Friday, 4 December 2009

technology

from seed

Resultados relativos ao ponto final

Saída do reconhecedor

34 Focus All F0 F1 F40 F41 F0+F40 F1+F41

Treino usando MAN Treino usando MAN Treino usando MAN

Prec Rec SER

66.5% 55.8% 72.3% 76.9% 66.5% 53.5% 61.6% 40.5% 84.7% 72.2% 57.2% 64.8% 53.2% 47.3% 94.3% 73.7% 60.0% 61.5% 54.0% 46.5% 93.1% Baseline SER 116.2% 81.1% 191.9% 82.6% 173.8% 82.1% 176.1% Friday, 4 December 2009

technology

from seed

Resultados relativos ao ponto final

Saída do reconhecedor

• Trabalho relacionado para o Inglês

–

Yang Lui et al. (2006), avalia tarefa de segmentação em BN ASR

• ME consegue 59% SER

• 57% SER combinando ME e HMM

34 Focus All F0 F1 F40 F41 F0+F40 F1+F41

Treino usando MAN Treino usando MAN Treino usando MAN

66.5% 55.8% 72.3% 76.9% 66.5% 53.5% 61.6% 40.5% 84.7% 72.2% 57.2% 64.8% 53.2% 47.3% 94.3% 73.7% 60.0% 61.5% 54.0% 46.5% 93.1%

Treino usando AUT Treino usando AUT Treino usando AUT

70.1% 53.0% 69.6% 83.3% 61.4% 50.9% 55.1% 34.2% 93.7% 76.9% 55.2% 61.4% 56.2% 44.8% 90.1% 78.8% 57.0% 58.3% 56.1% 43.5% 90.6% Friday, 4 December 2009 !"#!$% !&#'$% ()#&$% )*$% '*$% +*$% &*$% ,*$% "*$% !**$% -..% /*0/)*% /!0/)!% !"#$ 1-2% -34%

technology

from seed

Resultados relativos ao ponto final

Comparação MAN e AUT

• Diferença de cerca de 19% SER

–

Fala espontânea

–

Erros de reconhecimento

• Yang Lui et al. (2006)

–

9% de diferença entre as transcrições manuais e as automáticas

• Trabalha com ~11.7% WER

!"#$ %"#$ &"#$ '"#$ ("#$ )"#$ *""#$ **"#$ +,,$ -,.//01$ 234/5$

!"#$

**%&'()$'&+,-&$**

./0$+121$)&(3'4$

6/,7$,089:.,$ 6/,7$+::4;<=:$ +,,$>0.5;?0<$ +,,$ -,.//01$ 234/5$

/56$+121$)&(3'4$

technology

from seed

Resultados relativos ao ponto final

(6)

technology

from seed

Resultados para a vírgula

• Uma das marcas de pontuação mais frequentes

• Utilização bastante dependente do tipo de corpus

• Pouca consistência em termos de anotação

• Resultados consistentes com o trabalho descrito em Christensen

(2001) para a recuperação da vírgula no corpus Hub4 BN

–

SER acima de 80% e para alguns casos cerca de 100% (saída do ASR)

Focus

Slots

Prec

Rec

SER

All

3727

45.1%

16.2%

103.5%

F0+F40

1382

41.2%

16.9%

107.2%

F1+F41

2054

48.4%

15.7%

101.1%

technology

from seed

Conteúdo

• Introdução

• Corpus de fala

• Tarefa de pontuação/segmentação

• Tarefa de maiusculização

–

Impacto das variações da língua

• Trabalho mais recente

• Comentários finais e questões em aberto

38

technology

from seed

O problema ...

• O corpus de fala é insuficiente para treino

–

51h (~470K palavras)

• Solução:

–

Usar corpora escrito, que contém informação sobre maiúsculas e

informação sobre co-ocorrência de palavras

39

technology

from seed

Fontes de informação

Corpora escrito

• Corpus “Notícias do Público” (PUBnews)

–

Cerca de 148M palavras, dividido em 59 subconjuntos

• 2,5 milhões de palavras (5 semanas) por subconjunto

–

Normalizado, com todas as marcas de pontuação removidas

• próximo das transcrições de fala

• sem erros de reconhecimento, pausas preenchidas ou outras disfluências

40

technology

from seed

Abordagens

• Generativas

–

Etiquetador baseado em HMMs (SRILM toolkit) (Stolcke 2002)

• Usado frequentemente para esta tarefa

–IWSLT2006 workshop competition

–

Transdutores de estados finitos (WFST) (FSM tools)

• Criados a partir de um modelo de língua

• Discriminativa

–

Baseada em modelos máxima entropia (ME)

• Combinação de diferentes tipos de informação

–As experiências aqui descritas usam apenas a palavra

• Também usado na tarefa de recuperação de marcas de pontuação

41

Training process Capitalization process

Corpus Count ngrams Language Model Lower-case sentence HMM tagger Capitalized sentence ana ana Ana ANA

canto canto Canto CANTO luís luís Luís LUÍS faria faria Faria FARIA ...

Map

technology

from seed

Abordagens

Etiquetador baseado em HMMs

• Fácil utilização

• Permite manipular grandes quantidades de informação

• Produz resultados num curto período de tempo

(7)

Capitalization process Training process Capitalization wfst (T) FSA Change input to lowercase LM to FSA Convertion FSA (S) Lower-case sentence Text to FSA bestpath(SoT) Capitalized sentence Wfst to text Language Model

technology

from seed

Abordagens

WFSTs

43 Rtp/0.6 rtp/0.9 RTP/0.1 rtp:RTP/0.1 rtp:Rtp/0.6 rtp:rtp/0.9 Weighted FSA Capitalization WFST (T) Friday, 4 December 2009

technology

from seed

Abordagens

Máxima entropia

• Baseada em features

–

Cada observação é representada por um vector de features

–

Difícil a utilização de grandes quantidades de informação

44 Capitalization process Training process Features Corpus Text2features ME train Trained models Capitalized sentence On-the-fly classifier Lower-case sentence Text2features Features Friday, 4 December 2009

• A primeira palavra de cada frase é ignorada

–

A sua forma gráfica depende da sua posição na frase

–

Excluída do treino e da avaliação

• Consideram-se apenas três formas de escrever uma palavra

–

Minúscula, primeira letra maiúscula, todas maiúsculas

–

Palavras não consideradas: McDonald’s, LaTeX, ...

• É usado um vocabulário limitado de 57K (léxico do reconhecedor)

–

Necessário para os métodos generativos

–

As palavras fora do vocabulário foram marcadas como “desconhecidas”

• Experiências realizadas em corpora escrito e em transcrições de fala

–

Os resultados apresentados dizem respeito às transcrições manuais

technology

from seed

Resultados comparativos

Condições iniciais

45

• Resultados sobre o corpus escrito

–

Apenas foram usadas palavras que ocorreram pelo menos 4 vezes

–

Tal com se esperava, os resultados melhoram com o aumento da

ordem do modelo de língua (LM)

technology

from seed

Resultados comparativos

Abordagens generativas sobre corpora

escrito

46 LM options

HMM-based tagger

WFST

LM options

Prec Recall SER Prec Recall SER

unigrams 89.6% 61.5% 45.2% 85.0% 64.4% 46.3%

bigrams 92.0% 72.0% 33.8% 89.5% 73.1% 34.8%

trigrams 93.3% 74.5% 30.4% 91.7% 75.3% 30.9%

• Resultados sobre transcrições de fala

–

O modelo de língua usado resulta de uma interpolação linear de

• LM1 - Criado a partir dos dados de treino PUBnews (corpus escrito)

• LM2 - Criado a partir dos dados de treino SR (speech corpus)

technology

from seed

Resultados comparativos

Abordagens generativas sobre

transcrições de fala

LM options

HMM-based tagger

WFST

LM options

unigrams 85.9% 72.5% 39.3% 85.9% 72.7% 39.2% bigrams 82.5% 81.9% 35.1% 82.6% 82.0% 34.8% trigrams 81.8% 83.4% 34.8% 81.9% 83.3% 34.7% LM options HMM-based tagger HMM-based tagger HMM-based tagger WFSTWFSTWFST LM

options Prec Recall SER Prec Recall SER

unigrams 89.6% 61.5% 45.2% 85.0% 64.4% 46.3%

bigrams 92.0% 72.0% 33.8% 89.5% 73.1% 34.8%

trigrams 93.3% 74.5% 30.4% 91.7% 75.3% 30.9%

technology

from seed

Resultados comparativos

Abordagens generativas sobre

transcrições de fala

LM options

HMM-based tagger

WFST

LM options

unigrams 85.9% 72.5% 39.3% 85.9% 72.7% 39.2%

bigrams 82.5% 81.9% 35.1% 82.6% 82.0% 34.8%

trigrams 81.8% 83.4% 34.8% 81.9% 83.3% 34.7%

Corpora escrito

(8)

• Apenas features baseadas em unigramas e bigramas de palavras (w)

–

w

i

, <w

i-1

,w

i

> e <w

i

, w

i+1

>

• Limitações de memória

–

Estratégia de treino modificada, usando contagens de n-gramas

–

Treinos sucessivos sobre cada um dos subconjuntos de corpora

technology

from seed

Resultados comparativos

Abordagem discriminativa (ME)

48

Strategy Prec Recall SER

n-gram counts 92.0% 73.8% 32.4%

successive retraining 93.2% 72.5% 32.6%

Corpora escrito

technology

from seed

Resultados comparativos

Abordagem discriminativa (ME)

48

n-gram counts 92.0% 73.8% 32.4%

successive retraining 93.2% 72.5% 32.6%

n-gram counts 87.4% 80.5% 31.0% successive retraining 87.2% 80.5% 31.2% LM options HMM-based tagger HMM-based tagger HMM-based tagger WFSTWFSTWFST LM

unigrams 89.6% 61.5% 45.2% 85.0% 64.4% 46.3% bigrams 92.0% 72.0% 33.8% 89.5% 73.1% 34.8% trigrams 93.3% 74.5% 30.4% 91.7% 75.3% 30.9% LM options HMM-based tagger HMM-based tagger HMM-based tagger WFSTWFSTWFST LM

unigrams 85.9% 72.5% 39.3% 85.9% 72.7% 39.2%

bigrams 82.5% 81.9% 35.1% 82.6% 82.0% 34.8% trigrams 81.8% 83.4% 34.8% 81.9% 83.3% 34.7%

Corpora escrito Transcrições de fala

Abordagens generativas

technology

from seed

Conteúdo

• Introdução

• Corpus de fala

• Tarefa de pontuação/segmentação

• Tarefa de maiusculização

–

Impacto das variações da língua

• Trabalho mais recente

• Comentários finais e questões em aberto

49

technology

from seed

Impacto das variações da língua

Motivação

• Em linha com os seguintes trabalhos:

–

[Mota and Grishman, 2008, Mota, 2008] - analisa a relação entre a

variação do corpus e o desempenho de um sistema de reconhecimento

de entidades mencionadas (NER)

–

[Martins et al., 2007, Martins, 2008] - é proposta uma adaptação diária

do vocabulário e do modelo de língua ao tópico das notícias actuais,

baseado em textos recolhidos diariamente da Web

• Como é que as variações da língua no tempo afectam o desempenho

da tarefa de maiusculização?

• Como actualizar o modelo de maiusculização?

50

technology

from seed

Impacto das variações da língua

Uso de palavras vs período de tempo

51 !"#$% !"&$% '"#$% '"&$% &"#$% &"&$% ()))*#(% ()))*#&% ()))*(#% +###*#+% +###*#&% +###*#)% +###*(+% +##(*#!% +##(*#,% +##(*(#% +##+*#(% +##+*#'% +##+*#-% +##+*(+% +##!*#'% +##!*#-% +##!*(+% +##'*#!% +##'*#.% +##'*(#% !! "# "$%&'()&*+#,-*.$/# +##'*(+%

• Cada subconjunto do corpus PUBnews contém:

–

2,5 milhões de palavras, 86K únicas, apenas 50K ocorrem mais do que uma vez

• Por cada subconjunto, foi criado um vocabulário com as 30K palavras mais

frequentes

technology

from seed

Impacto das variações da língua

Uso de palavras vs período de tempo

51 Quanto menor o intervalo de

tempo entre o período do vocabulário e o período do corpus, maior é a cobertura

!"#$% !"&$% '"#$% '"&$% &"#$% &"&$% ()))*#(% ()))*#&% ()))*(#% +###*#+% +###*#&% +###*#)% +###*(+% +##(*#!% +##(*#,% +##(*(#% +##+*#(% +##+*#'% +##+*#-% +##+*(+% +##!*#'% +##!*#-% +##!*(+% +##'*#!% +##'*#.% +##'*(#% !! "# "$%&'()&*+#,-*.$/# +##'*(+% !"#$% !"&$% '"#$% '"&$% &"#$% &"&$% ()))*#(% ()))*#&% ()))*(#% +###*#+% +###*#&% +###*#)% +###*(+% +##(*#!% +##(*#,% +##(*(#% +##+*#(% +##+*#'% +##+*#-% +##+*(+% +##!*#'% +##!*#-% +##!*(+% +##'*#!% +##'*#.% +##'*(#% !! "# "$%&'()&*+#,-*.$/# +##'*(+% ()))*#(%

• Cada subconjunto do corpus PUBnews contém:

–

2,5 milhões de palavras, 86K únicas, apenas 50K ocorrem mais do que uma vez

• Por cada subconjunto, foi criado um vocabulário com as 30K palavras mais

(9)

Evaluation set Prec Rec SER PUBnews test set 93.3% 82.2% 23.3%

technology

from seed

Impacto das variações da língua

Resultados sobre corpora escrito

52

• Abordagem baseada em modelos de máxima entropia

• Vocabulário ilimitado

• Foram consideradas apenas as palavras que ocorreram pelo menos 4 vezes

• Resultados obtidos quando o treino é feito com todo o corpus:

PUBnews test set PUBnews test set PUBnews test set

92.0% 73.8% 32.4%

Usando vocabulário limitado

Friday, 4 December 2009 !"#$ !%#$ &"#$ &%#$ '"#$ '%#$

()))*"($ ()))*"%$ ()))*("$ !"""*"!$ !"""*"%$ !"""*")$ !"""*(!$ !""(*"&$ !""(*"+$ !""(*("$ !""!*"($ !""!*"'$ !""!*",$ !""!*(!$ !""&*"'$ !""&*",$ !""&*(!$ !""'*"&$ !""'*"-$ !"#$

%&'()*+,-.$/0.0$ ./01203$40256567$

technology

from seed

Impacto das variações da língua

Resultados sobre corpora escrito

Treino iterativo

53 • É proposta a seguinte abordagem

–Treinar com novos dados, mas usando os valores do modelo anterior para iniciar o novo modelo

–O treino é realizado com os novos dados, sendo os modelos anteriores ajustados a esses novos dados iterativamente

Friday, 4 December 2009 !"#$ !%#$ &"#$ &%#$ '"#$ '%#$

()))*"($ ()))*"%$ ()))*("$ !"""*"!$ !"""*"%$ !"""*")$ !"""*(!$ !""(*"&$ !""(*"+$ !""(*("$ !""!*"($ !""!*"'$ !""!*",$ !""!*(!$ !""&*"'$ !""&*",$ !""&*(!$ !""'*"&$ !""'*"-$ !"#$

%&'()*+,-.$/0.0$ ./01203$40256567$

Checkpoint LM #lines Prec Rec SER

1999-12 1.27 Million 92.4% 77.0% 29.0% 2000-12 1.86 Million 92.5% 79.3% 26.6% 2001-12 2.36 Million 93.0% 79.9% 25.7% 2002-12 2.78 Million 93.2% 80.8% 24.7% 2003-12 3.10 Million 92.9% 82.2% 23.6% 2004-08 3.36 Million 93.2% 83.2% 22.5%

technology

from seed

Impacto das variações da língua

Resultados sobre corpora escrito

Treino iterativo

–O treino é realizado com os novos dados, sendo os modelos anteriores ajustados a esses novos dados iterativamente

Friday, 4 December 2009 !"#$ !%#$ &"#$ &%#$ '"#$ '%#$

()))*"($ ()))*"%$ ()))*("$ !"""*"!$ !"""*"%$ !"""*")$ !"""*(!$ !""(*"&$ !""(*"+$ !""(*("$ !""!*"($ !""!*"'$ !""!*",$ !""!*(!$ !""&*"'$ !""&*",$ !""&*(!$ !""'*"&$ !""'*"-$ !"#$

%&'()*+,-.$/0.0$ ./01203$40256567$

technology

from seed

Impacto das variações da língua

Resultados sobre corpora escrito

Treino iterativo

–O treino é realizado com os novos dados, sendo os modelos anteriores ajustados a esses novos dados iterativamente _{Evaluation Set} _Prec _Rec _SER

2004-12 test set 93.3% 82.2% 23.3% Friday, 4 December 2009 !"#$ !%#$ &"#$ &%#$ '"#$ '%#$

()))*"($ ()))*"%$ ()))*("$ !"""*"!$ !"""*"%$ !"""*")$ !"""*(!$ !""(*"&$ !""(*"+$ !""(*("$ !""!*"($ !""!*"'$ !""!*",$ !""!*(!$ !""&*"'$ !""&*",$ !""&*(!$ !""'*"&$ !""'*"-$ !"#$ %&'()*+,-.$/0.0$ ./01203$40256567$ !"#$ !%#$ &"#$ &%#$ '"#$ '%#$

()))*"($ ()))*"%$ ()))*("$ !"""*"!$ !"""*"%$ !"""*")$ !"""*(!$ !""(*"&$ !""(*"+$ !""(*("$ !""!*"($ !""!*"'$ !""!*",$ !""!*(!$ !""&*"'$ !""&*",$ !""&*(!$ !""'*"&$ !""'*"-$ !"#$

%&'()*+,-.$/0.0$ ./01203$40256567$ 829:1203$40256567$

technology

from seed

Impacto das variações da língua

Resultados sobre corpora escrito

Treino iterativo

• É proposta a seguinte abordagem

–O treino é realizado com os novos dados, sendo os modelos anteriores ajustados a esses novos dados iterativamente _{Evaluation Set} _Prec _Rec _SER