L2 F - Spoken Language Systems Laboratory
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology from seed Enriquecimento automático de transcrições de fala Fernando Batista Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Conteúdo
•
Introdução
•
Corpus de fala
•
Tarefa de pontuação/segmentação
•
Tarefa de maiusculização
–
Impacto das variações da língua
•
Trabalho mais recente
•
Comentários finais e questões em aberto
2
Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory 3
Situação actual
•
Disseminação de grande quantidade de informação: áudio e video
–
Leva à aplicação de sistemas de reconhecimento de fala, com vista a
enriquecer esses dados com informação adicional
•
Existência de um sistema de reconhecimento para o Português
–
Legendagem de notícias televisivas online
–
Produção de conteúdos multimédia a partir de programas televisivos
•
Mas... a saída do reconhecedor é difícil de ler e de processar
–
Segmentação incorrecta / sem pontuação
–
Sem informação sobre as maiúsculas
–
Presença de disfluências
–
Erros de reconhecimento
–
Estrutura linguística flexível na fala espontânea
Friday, 4 December 2009
boa tarde a ministra da educação pronunciou sobre a polémica do professor suspenso maria de lurdes rodrigues disse que vai aguardar pelos resultados do processo que está a decorrer
e garantiu que não tem motivos para duvidar do funcionamento da direcção regional de educação do norte
que suspendeu passou por ter feito um comentário pose do primeiro-ministro a ministra disse lamentar que este tipo de pesados marquem
à agenda mediática até este momento do muito que o li e ouvi não tenho nenhum sinal
não tenho nenhum motivo para duvidar do funcionamento das instituições ou para de a considerar que pode estar em causa o funcionamento da direcção regional ...
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Exemplo
Texto extraído da saída de um
reconhecedor de fala
4
Friday, 4 December 2009
boa tarde.
a ministra da educação pronunciou sobre a polémica do professor suspenso. maria de lurdes rodrigues disse que vai aguardar pelos resultados do processo que está a decorrer e garantiu que não tem motivos para duvidar do funcionamento da direcção regional de educação do norte, que suspendeu passou por ter feito um comentário pose do primeiro-ministro.
a ministra disse lamentar que este tipo de pesados marquem à agenda mediática. até este momento do muito que o li e ouvi não tenho nenhum sinal.
não tenho nenhum motivo para duvidar do funcionamento das instituições ou para de a considerar que pode estar em causa o funcionamento da direcção regional de educação, dos seus de serviços.
aquilo que é a minha preocupação é que no âmbito deste processo estejam garantidos a existência dos mecanismos de defesa.
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
Exemplo
Introdução de marcas de pontuação e
correspondente segmentação
Boa tarde.
A ministra da Educação pronunciou sobre a polémica do professor suspenso. Maria de Lurdes Rodrigues disse que vai aguardar pelos resultados do processo que está a decorrer e garantiu que não tem motivos para duvidar do funcionamento da Direcção Regional de Educação do Norte, que suspendeu passou por ter feito um comentário pose do primeiro-ministro.
A ministra disse lamentar que este tipo de pesados marquem à agenda mediática. Até este momento do muito que o li e ouvi não tenho nenhum sinal.
Não tenho nenhum motivo para duvidar do funcionamento das instituições ou para de a considerar que pode estar em causa o funcionamento da Direcção Regional de Educação, dos seus de serviços.
Aquilo que é a minha preocupação é que no âmbito deste processo estejam garantidos a existência dos mecanismos de defesa.
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
Exemplo
Introdução da informação sobre
maiúsculas
Boa tarde.
A ministra da Educação pronunciou sobre a polémica do professor suspenso. Maria de Lurdes Rodrigues disse que vai aguardar pelos resultados do processo que está a decorrer e garantiu que não tem motivos para duvidar do funcionamento da Direcção Regional de Educação do Norte, que suspendeu passou por ter feito um comentário pose do primeiro-ministro.
A ministra disse lamentar que este tipo de pesados marquem à agenda mediática. Até este momento do muito que o li e ouvi não tenho nenhum sinal.
Não tenho nenhum motivo para duvidar do funcionamento das instituições ou para de a
considerar que pode estar em causa o funcionamento da Direcção Regional de Educação,dos seus de serviços.
Aquilo que é a minha preocupação é que no âmbito deste processo estejam garantidos a existência dos mecanismos de defesa.
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Exemplo
Presença de erros de reconhecimento
15
Friday, 4 December 2009
Boa tarde.
A ministra da Educação pronunciou-se sobre a polémica do professor suspenso. Maria de Lurdes Rodrigues disse que vai aguardar pelos resultados do processo que está a decorrer e garantiu que não tem motivos para duvidar do funcionamento da Direcção Regional de Educação do Norte, que suspendeu o professor por ter feito um comentário a propósito do primeiro-ministro.
A ministra disse lamentar que este tipo de episódios marquem a agenda mediática. Até este momento do muito que li e ouvi não tenho nenhum sinal.
Não tenho nenhum motivo para duvidar do funcionamento das instituições ou para considerar que pode estar em causa o funcionamento da Direcção Regional de Educação, ou dos seus serviços.
Aquilo que é a minha preocupação é que no âmbito deste processo estejam garantidos a existência dos mecanismos de de defesa.
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Exemplo
Texto que seria desejável
16
Presença de disfluências
Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory 17
Enriquecimento de transcrições
•
Combina diferentes tecnologias de extracção de meta-informação
para fornecer informação adicional aos dados originais
–
Melhoria da legibilidade/inteligibilidade dos textos
–
Informação mais adequada para posterior processamento
computacional
–
É cada vez mais objecto de estudo pela comunidade científica
Speech Transcription ... ... ... Speech Recognition Rich Transcription Punctuation Capitalization Disfluency Detection and filtering
... Speech signal Close-captioning Multimedia content Further automatic processing ... Machine translation Summarization Named Entity Recognition .... Indexing Retrieval ... Audio Pre-Processor Friday, 4 December 2009
•
Speaker diarization
(quem fala quando, quem disse o quê)
•
Sentence segmentation
(detecção da fronteira da frase)
–
Identificação de SUs (Sentence-like Units)
•
Punctuation recovery
•
Capitalization
(truecasing)
•
Disfluency detection and filtering
–
As disfluências ocorrem especialmente na fala espontânea
(os humanos fazem frases enquanto pensam no que querem dizer)
–
Duas categorias mais abrangentes
•
fillers - ex. “um”, “uh”, “portanto”
•
repairs - oradores tentam corrigir, modificar ou cancelar informação dita
anteriormente
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Enriquecimento de transcrições
Tarefas mais relevantes
18
Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Sistema de reconhecimento de fala
Arquitectura
19 Offline System Online System TV broadcasted signal Control System & GUI Audio Subtitling Generation Teletex Server Web Topic Segmentation and Indexing Summarization Punctuation Capitalization JD APP ASR XML fileInstituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Objectivos
20
•
Inserir pontuação e maiusculização automática em transcrições de fala
–
Avaliar esta tarefa em corpora falado da língua Portuguesa
–
Comparar transcrições manuais/automáticas, planeada/espontânea
•
Relativamente às marcas de pontuação
–
Fazer uso de toda a informação produzida pelo módulo de
pré-processamento do áudio (APP) e pelo módulo de reconhecimento
automático de fala (ASR)
•
Comparar diferentes abordagens para a maiusculização
–
Fazer uso de corpora escrito (corpus de fala insuficiente para treino)
•
Integração on-the-fly
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Conteúdo
•
Introdução
•
Corpus de fala
•
Tarefa de pontuação/segmentação
•
Tarefa de maiusculização
–
Impacto das variações da língua
•
Trabalho mais recente
•
Comentários finais e questões em aberto
21
Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory 22
Descrição e preparação do corpus
Descrição do corpus
•
Corpus Speech Recognition (SR)
–
Subconjunto do Broadcast News European Portuguese corpus
–
Recolhido no âmbito do projecto internacional ALERT
–
Transcrição manual segue as convenções do LDC Hub4
Uso Nome Periodo de Gravação Duração (h) Palavras (milhares)
Treino
Treino Out. e Nov. 2000 51 449
Desenvolvimento
Desenvolvimento Dezembro 2000 6 64
Teste
Eval Janeiro 2001 5 45
Teste JEval Outubro 2001 13 128
Teste
RTP07 Maio, Junho, Set., Out. 2007 6 45
Teste
RTP08 Junho e Julho 2008 4 40
Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Descrição e preparação do corpus
Condições de foco
2335% fala espontânea
Foco Descrição F0 planeada, limpa F1 espontânea, limpa F2 fala telefónica F3 fala e músicaF40 planeada, com ruído
F41 espontânea, com ruído
F5 falante não nativo
FX outro tipo de fala
Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory 24
Descrição e preparação do corpus
Transcrição automática
•
Produzida pelos módulos APP e ASR
•
Cada segmento contém informação acerca das condições de fundo
(ruído/limpo), identificação do orador e do seu género, etc.
–
A esta informação foram recentemente adicionados graus de confiança
•
Cada palavra tem informação sobre a sua janela temporal e grau de
confiança
•
Word Error Rate (WER) do módulo de reconhecimento:
22% a 24%
–
~12% fala planeada
•
Os dados de referência para as transcrições automáticas são obtidos
através de um alinhamento entre as transcrições manuais e as
automáticas
Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
Descrição e preparação do corpus
Alinhamento
XML to CTM ASR Output (XML) Alignment update punctuation capitalization update regions MAN XML format manually annotated excluded regions focus conditions punctuation and capitalizationmorphology update morphology STM to XML Morpho disambiguation XML to Text Manually annotated speech transcriptions (TRS) TRS to STM Morpho disambiguation XML to Text update morphology AUT XML format ASR output excluded regions focus conditions punctuation and capitalization
morphology
<TranscriptSegment>
<TranscriptGUID>2</TranscriptGUID>
<AudioType start="970" end="1472">Clean</AudioType> <Time start="970" end="1472" reasons=""/> <Speaker id="1000" name="Homem" gender="M" known="F"/> <SpeakerLanguage native="T">PT</SpeakerLanguage> <TranscriptWList>
<W start="970" end="981" conf="0.765016">em</W> <W start="982" end="997" conf="0.525857">boa</W> <W start="998" end="1049" conf="0.98280">noite</W> <W start="1050" end="1064" conf="0.904695">os</W> <W start="1065" end="1113" conf="0.974994">centros</W> <W start="1114" end="1121" conf="0.938673">de</W <W start="1122" end="1173" conf="0.993847">emprego</W> <W start="1174" end="1182" conf="0.951339">em</W> <W start="1183" end="1229" conf="0.999291">portugal</W> <W start="1230" end="1283" conf="0.979457">continuou</W> <W start="1284" end="1285" conf="0.967095">a</W> <W start="1286" end="1345" conf="0.996321">registar</W> <W start="1346" end="1399" conf="0.946317">menos</W> <W start="1400" end="1503" conf=”0.995667”>inscritos</W> </TranscriptWList>
</TranscriptSegment>
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
Descrição e preparação do corpus
<TranscriptSegment>
<TranscriptGUID>2</TranscriptGUID>
<AudioType start="970" end="1472">Clean</AudioType> <Time start="970" end="1472" reasons=""/> <Speaker id="1000" name="Homem" gender="M" known="F"/> <SpeakerLanguage native="T">PT</SpeakerLanguage> <TranscriptWList>
<W start="970" end="981" conf="0.765016">em</W> <W start="982" end="997" conf="0.525857">boa</W> <W start="998" end="1049" conf="0.98280">noite</W> <W start="1050" end="1064" conf="0.904695">os</W> <W start="1065" end="1113" conf="0.974994">centros</W> <W start="1114" end="1121" conf="0.938673">de</W <W start="1122" end="1173" conf="0.993847">emprego</W> <W start="1174" end="1182" conf="0.951339">em</W> <W start="1183" end="1229" conf="0.999291">portugal</W> <W start="1230" end="1283" conf="0.979457">continuou</W> <W start="1284" end="1285" conf="0.967095">a</W> <W start="1286" end="1345" conf="0.996321">registar</W> <W start="1346" end="1399" conf="0.946317">menos</W> <W start="1400" end="1503" conf=”0.995667”>inscritos</W> </TranscriptWList>
</TranscriptSegment> <TranscriptSegment>
<TranscriptGUID>2</TranscriptGUID>
<AudioType start="970" end="1472">Clean</AudioType> <Time start="970" end="1472" reasons=""/> <Speaker id="1000" name="Homem" gender="M" known="F"/> <SpeakerLanguage native="T">PT</SpeakerLanguage> <TranscriptWList>
<W start="970" end="981" conf="0.765016" focus="F0" pos="S.">em</W> <W start="982" end="997" conf="0.525857" focus="F0" pos="Nc">boa</W> <W start="998" end="1049" conf="0.98280" focus="F0" punct=".” pos="Nc">noite</W> <W start="1050" end="1064" conf=... focus="F0" pos="Td" cap=”Os”>os</W> <W start="1065" end="1113" conf=... focus="F0" pos="Nc" cap=”Centros”>centros</W> <W start="1114" end="1121" conf=... focus="F0" pos="S.">de</W
<W start="1122" end="1173" conf=... focus="F0" pos="Nc" cap=”Emprego”>emprego</W> <W start="1174" end="1182" conf=... focus="F0" pos="S.">em</W>
<W start="1183" end="1229" conf=... focus="F0" pos="Np" cap=”Portugal”>portugal</W> <W start="1230" end="1283" conf=... focus="F0" pos="V.">continuou</W> <W start="1284" end="1285" conf=... focus="F0" pos="Td">a</W> <W start="1286" end="1345" conf=... focus="F0" pos="V.">registar</W> <W start="1346" end="1399" conf=... focus="F0" pos="R.">menos</W> <W start="1400" end="1503" conf=... focus="F0" punct=".” pos="V.">inscritos</W> </TranscriptWList>
</TranscriptSegment>
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory 26
Descrição e preparação do corpus
Exemplo de uma transcrição AUT
Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Conteúdo
•
Introdução
•
Corpus de fala
•
Tarefa de pontuação/segmentação
•
Tarefa de maiusculização
–
Impacto das variações da língua
•
Trabalho mais recente
•
Comentários finais e questões em aberto
27
Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Pontuação
Frequência das marcas de pontuação
28
Corpus
tokens
“.”
“,”
“?”
“!”
WSJ (Inglês)
42M
4.17%
4.66% 0.04% 0.01%
PUBnews (Português)
150M 3.23%
6.33%
0.11% 0.03%
Broadcast News Transcript tokens
“.”
“,”
“?”
“!”
LDC98T28 (Hub4 Inglês)
854k 5.08% 3.52% 0.29% 0.00%
LDC98T29 (Hub4 Espanhol)
350k 4.03% 5.07% 0.14% 0.00%
SR (Português)
928k 4.80%
7.43%
0.21% 0.04%
Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Pontuação
Trabalho relacionado
•
Algumas das abordagens mais utilizadas:
–
Baseadas em modelos de Markov (HMM)
–
Baseadas em máquinas de estados finitos (FSM)
–
Baseadas em modelos máxima entropia (ME)
–
Baseadas em Conditional Random Fields (CRFs)
•
Informação utilizada
–
Lexical
–
Acústica
–
Prosódica
•
Marcas de pontuação consideradas
–
Ponto final
–
Vírgula
–
Ponto de interrogação
29
Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Descrição da tarefa de pontuação
Abordagem baseada em modelos de
Máxima Entropia
•
Baseada em features
–
Cada observação é representada
por um vector de features
–
Permite combinar diferentes
características da informação
•
A classificação é uma soma
pesada dos valores de cada uma
das features
•
Baixa latência
–
Adequado para uso on-the-fly
30
Training process
Punctuation
Corpus ME train Punctuation model Features Punctuated sentence ME classifier unpunctuated sentence Features
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory 31
Descrição da tarefa de pontuação
Conjunto de features
•
Features lexicais
–
Palavra
(combinada em unigramas, bigramas)
–
Etiqueta morfossintáctica
(unigramas e bigramas)
•
Features acústicas
–
Mudanças de falante
–
Mudanças no género do falante
(M/F)
–
Segmentos acústicos
(produzidos pelo módulo APP)
–
Pausas entre palavras
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Pontuação
Exemplo de features
!0W:boa 0.7 W1:tarde 1.0 2GRW:boa_tarde 0.7 2GRW1:tarde_a 0.9 C:A. 0.7 C1:Nc 1.0 2GRC:A._Nc 0.7 2GRC-2: 0.0 2GRC-1:A.
0.0 2GRC1:Nc_S. 0.9
!1 W:tarde 1.0 W1:a 0.9 2GRW:tarde_a 0.9 2GRW-1:boa_tarde 0.7 2GRW1:a_ministra 0.9 C:Nc 1.0 C1:S. 0.9 2GRC:Nc_S. 0.9
2GRC-2:A. 0.0 2GRC-1:A._Nc 0.7 2GRC1:S._Nc 0.9
!0 W:a 0.9 W1:ministra 1.0 2GRW:a_ministra 0.9 2GRW-2:boa_tarde 0.7 2GRW-1:tarde_a 0.9 2GRW1:ministra_da 0.9 C:S. 0.9
C1:Nc 1.0 2GRC:S._Nc 0.9 2GRC-2:A._Nc 0.7 2GRC-1:Nc_S. 0.9 2GRC1:Nc_S. 0.9
!0 W:ministra 1.0 W1:da 1.0 2GRW:ministra_da 0.9 2GRW-2:tarde_a 0.9 2GRW-1:a_ministra 0.9 2GRW1:da_educação 1.0
C:Nc 1.0 C1:S. 1.0 2GRC:Nc_S. 0.9 2GRC-2:Nc_S. 0.9 2GRC-1:S._Nc 0.9 2GRC1:S._Nc 1.0
!0W:da 1.0 W1:educação 1.0 2GRW:da_educação 1.0 2GRW-2:a_ministra 0.9 2GRW-1:ministra_da 0.9
2GRW1:educação_pronunciou 1.0 C:S. 1.0 C1:Nc 1.0 2GRC:S._Nc 1.0 2GRC-2:S._Nc 0.9 2GRC-1:Nc_S. 0.9 2GRC1:Nc_V. 1.0
32 Boa tarde.
A ministra da Educação pronunciou ...
Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Resultados relativos ao ponto final
Baseline
•
A baseline corresponde à segmentação proposta pelo módulo APP
33 SER = total number of punctuation errors
number of punctuation marks in the reference
= NIST Error Rate for Sentence Boundary detection
Focus Ref. Slots Prec Rec SER
All 2470 45.4% 79.1% 116.2% F0 planned, clean 391 56.5% 82.6% 81.1% F1 spontaneous, clean 111 29.1% 64.0% 191.9% F40 planned, noise 930 55.9% 82.6% 82.6% F41 spontaneous, noise 791 33.3% 73.6% 173.8% F0+F40 all planned 1321 56.1% 82.6% 82.1% F1+F41 all spontaneous 902 32.8% 72.4% 176.1% Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Resultados relativos ao ponto final
Saída do reconhecedor
34 Focus All F0 F1 F40 F41 F0+F40 F1+F41Treino usando MAN Treino usando MAN Treino usando MAN
Prec Rec SER
66.5% 55.8% 72.3% 76.9% 66.5% 53.5% 61.6% 40.5% 84.7% 72.2% 57.2% 64.8% 53.2% 47.3% 94.3% 73.7% 60.0% 61.5% 54.0% 46.5% 93.1% Baseline SER 116.2% 81.1% 191.9% 82.6% 173.8% 82.1% 176.1% Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Resultados relativos ao ponto final
Saída do reconhecedor
•
Trabalho relacionado para o Inglês
–
Yang Lui et al. (2006), avalia tarefa de segmentação em BN ASR
•
ME consegue 59% SER
•
57% SER combinando ME e HMM
34 Focus All F0 F1 F40 F41 F0+F40 F1+F41Treino usando MAN Treino usando MAN Treino usando MAN
Prec Rec SER
66.5% 55.8% 72.3% 76.9% 66.5% 53.5% 61.6% 40.5% 84.7% 72.2% 57.2% 64.8% 53.2% 47.3% 94.3% 73.7% 60.0% 61.5% 54.0% 46.5% 93.1%
Treino usando AUT Treino usando AUT Treino usando AUT
Prec Rec SER
70.1% 53.0% 69.6% 83.3% 61.4% 50.9% 55.1% 34.2% 93.7% 76.9% 55.2% 61.4% 56.2% 44.8% 90.1% 78.8% 57.0% 58.3% 56.1% 43.5% 90.6% Friday, 4 December 2009 !"#!$% !&#'$% ()#&$% )*$% '*$% +*$% &*$% ,*$% "*$% !**$% -..% /*0/)*% /!0/)!% !"#$ 1-2% -34%
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
Resultados relativos ao ponto final
Comparação MAN e AUT
•
Diferença de cerca de 19% SER
–
Fala espontânea
–
Erros de reconhecimento
•
Yang Lui et al. (2006)
–
9% de diferença entre as transcrições manuais e as automáticas
•
Trabalha com ~11.7% WER
!"#$ %"#$ &"#$ '"#$ ("#$ )"#$ *""#$ **"#$ +,,$ -,.//01$ 234/5$
!"#$
%&'()$'&*+,-&*$
./0$+121$)&(3'4$
6/,7$,089:.,$ 6/,7$+::4;<=:$ +,,$>0.5;?0<$ +,,$ -,.//01$ 234/5$/56$+121$)&(3'4$
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
Resultados relativos ao ponto final
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory 37
Resultados para a vírgula
•
Uma das marcas de pontuação mais frequentes
•
Utilização bastante dependente do tipo de corpus
•
Pouca consistência em termos de anotação
•
Resultados consistentes com o trabalho descrito em Christensen
(2001) para a recuperação da vírgula no corpus Hub4 BN
–
SER acima de 80% e para alguns casos cerca de 100% (saída do ASR)
Focus
Slots
Prec
Rec
SER
All
3727
45.1%
16.2%
103.5%
F0+F40
1382
41.2%
16.9%
107.2%
F1+F41
2054
48.4%
15.7%
101.1%
Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Conteúdo
•
Introdução
•
Corpus de fala
•
Tarefa de pontuação/segmentação
•
Tarefa de maiusculização
–
Impacto das variações da língua
•
Trabalho mais recente
•
Comentários finais e questões em aberto
38
Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
O problema ...
•
O corpus de fala é insuficiente para treino
–
51h (~470K palavras)
•
Solução:
–
Usar corpora escrito, que contém informação sobre maiúsculas e
informação sobre co-ocorrência de palavras
39
Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Fontes de informação
Corpora escrito
•
Corpus “Notícias do Público” (PUBnews)
–
Cerca de 148M palavras, dividido em 59 subconjuntos
•
2,5 milhões de palavras (5 semanas) por subconjunto
–
Normalizado, com todas as marcas de pontuação removidas
•
próximo das transcrições de fala
•
sem erros de reconhecimento, pausas preenchidas ou outras disfluências
40
Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Abordagens
•
Generativas
–
Etiquetador baseado em HMMs (SRILM toolkit) (Stolcke 2002)
•
Usado frequentemente para esta tarefa
–IWSLT2006 workshop competition
–
Transdutores de estados finitos (WFST) (FSM tools)
•
Criados a partir de um modelo de língua
•
Discriminativa
–
Baseada em modelos máxima entropia (ME)
•
Combinação de diferentes tipos de informação
–As experiências aqui descritas usam apenas a palavra
•
Também usado na tarefa de recuperação de marcas de pontuação
41
Training process Capitalization process
Corpus Count ngrams Language Model Lower-case sentence HMM tagger Capitalized sentence ana ana Ana ANA
canto canto Canto CANTO luís luís Luís LUÍS faria faria Faria FARIA ...
Map
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Abordagens
Etiquetador baseado em HMMs
•
Fácil utilização
•
Permite manipular grandes quantidades de informação
•
Produz resultados num curto período de tempo
Capitalization process Training process Capitalization wfst (T) FSA Change input to lowercase LM to FSA Convertion FSA (S) Lower-case sentence Text to FSA bestpath(SoT) Capitalized sentence Wfst to text Language Model
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Abordagens
WFSTs
43 Rtp/0.6 rtp/0.9 RTP/0.1 rtp:RTP/0.1 rtp:Rtp/0.6 rtp:rtp/0.9 Weighted FSA Capitalization WFST (T) Friday, 4 December 2009Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Abordagens
Máxima entropia
•
Baseada em features
–
Cada observação é representada por um vector de features
–
Difícil a utilização de grandes quantidades de informação
44 Capitalization process Training process Features Corpus Text2features ME train Trained models Capitalized sentence On-the-fly classifier Lower-case sentence Text2features Features Friday, 4 December 2009
•
A primeira palavra de cada frase é ignorada
–
A sua forma gráfica depende da sua posição na frase
–
Excluída do treino e da avaliação
•
Consideram-se apenas três formas de escrever uma palavra
–
Minúscula, primeira letra maiúscula, todas maiúsculas
–
Palavras não consideradas: McDonald’s, LaTeX, ...
•
É usado um vocabulário limitado de 57K (léxico do reconhecedor)
–
Necessário para os métodos generativos
–
As palavras fora do vocabulário foram marcadas como “desconhecidas”
•
Experiências realizadas em corpora escrito e em transcrições de fala
–
Os resultados apresentados dizem respeito às transcrições manuais
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Resultados comparativos
Condições iniciais
45
Friday, 4 December 2009
•
Resultados sobre o corpus escrito
–
Apenas foram usadas palavras que ocorreram pelo menos 4 vezes
–
Tal com se esperava, os resultados melhoram com o aumento da
ordem do modelo de língua (LM)
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Resultados comparativos
Abordagens generativas sobre corpora
escrito
46 LM options
HMM-based tagger
HMM-based tagger
HMM-based tagger
WFST
WFST
WFST
LM options
Prec Recall SER Prec Recall SER
unigrams 89.6% 61.5% 45.2% 85.0% 64.4% 46.3%
bigrams 92.0% 72.0% 33.8% 89.5% 73.1% 34.8%
trigrams 93.3% 74.5% 30.4% 91.7% 75.3% 30.9%
Friday, 4 December 2009
•
Resultados sobre transcrições de fala
–
O modelo de língua usado resulta de uma interpolação linear de
•
LM1 - Criado a partir dos dados de treino PUBnews (corpus escrito)
•
LM2 - Criado a partir dos dados de treino SR (speech corpus)
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
Resultados comparativos
Abordagens generativas sobre
transcrições de fala
LM optionsHMM-based tagger
HMM-based tagger
HMM-based tagger
WFST
WFST
WFST
LM optionsPrec Recall SER Prec Recall SER
unigrams 85.9% 72.5% 39.3% 85.9% 72.7% 39.2% bigrams 82.5% 81.9% 35.1% 82.6% 82.0% 34.8% trigrams 81.8% 83.4% 34.8% 81.9% 83.3% 34.7% LM options HMM-based tagger HMM-based tagger HMM-based tagger WFSTWFSTWFST LM
options Prec Recall SER Prec Recall SER
unigrams 89.6% 61.5% 45.2% 85.0% 64.4% 46.3%
bigrams 92.0% 72.0% 33.8% 89.5% 73.1% 34.8%
trigrams 93.3% 74.5% 30.4% 91.7% 75.3% 30.9%
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
Resultados comparativos
Abordagens generativas sobre
transcrições de fala
LM optionsHMM-based tagger
HMM-based tagger
HMM-based tagger
WFST
WFST
WFST
LM optionsPrec Recall SER Prec Recall SER
unigrams 85.9% 72.5% 39.3% 85.9% 72.7% 39.2%
bigrams 82.5% 81.9% 35.1% 82.6% 82.0% 34.8%
trigrams 81.8% 83.4% 34.8% 81.9% 83.3% 34.7%
Corpora escrito
•
Apenas features baseadas em unigramas e bigramas de palavras (w)
–
w
i, <w
i-1,w
i> e <w
i, w
i+1>
•
Limitações de memória
–
Estratégia de treino modificada, usando contagens de n-gramas
–
Treinos sucessivos sobre cada um dos subconjuntos de corpora
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Resultados comparativos
Abordagem discriminativa (ME)
48
Strategy Prec Recall SER
n-gram counts 92.0% 73.8% 32.4%
successive retraining 93.2% 72.5% 32.6%
Corpora escrito
Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Resultados comparativos
Abordagem discriminativa (ME)
48
Strategy Prec Recall SER
n-gram counts 92.0% 73.8% 32.4%
successive retraining 93.2% 72.5% 32.6%
Strategy Prec Recall SER
n-gram counts 87.4% 80.5% 31.0% successive retraining 87.2% 80.5% 31.2% LM options HMM-based tagger HMM-based tagger HMM-based tagger WFSTWFSTWFST LM
options Prec Recall SER Prec Recall SER
unigrams 89.6% 61.5% 45.2% 85.0% 64.4% 46.3% bigrams 92.0% 72.0% 33.8% 89.5% 73.1% 34.8% trigrams 93.3% 74.5% 30.4% 91.7% 75.3% 30.9% LM options HMM-based tagger HMM-based tagger HMM-based tagger WFSTWFSTWFST LM
options Prec Recall SER Prec Recall SER
unigrams 85.9% 72.5% 39.3% 85.9% 72.7% 39.2%
bigrams 82.5% 81.9% 35.1% 82.6% 82.0% 34.8% trigrams 81.8% 83.4% 34.8% 81.9% 83.3% 34.7%
Corpora escrito Transcrições de fala
Abordagens generativas
Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Conteúdo
•
Introdução
•
Corpus de fala
•
Tarefa de pontuação/segmentação
•
Tarefa de maiusculização
–
Impacto das variações da língua
•
Trabalho mais recente
•
Comentários finais e questões em aberto
49
Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Impacto das variações da língua
Motivação
•
Em linha com os seguintes trabalhos:
–
[Mota and Grishman, 2008, Mota, 2008] - analisa a relação entre a
variação do corpus e o desempenho de um sistema de reconhecimento
de entidades mencionadas (NER)
–
[Martins et al., 2007, Martins, 2008] - é proposta uma adaptação diária
do vocabulário e do modelo de língua ao tópico das notícias actuais,
baseado em textos recolhidos diariamente da Web
•
Como é que as variações da língua no tempo afectam o desempenho
da tarefa de maiusculização?
•
Como actualizar o modelo de maiusculização?
50
Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Impacto das variações da língua
Uso de palavras vs período de tempo
51 !"#$% !"&$% '"#$% '"&$% &"#$% &"&$% ()))*#(% ()))*#&% ()))*(#% +###*#+% +###*#&% +###*#)% +###*(+% +##(*#!% +##(*#,% +##(*(#% +##+*#(% +##+*#'% +##+*#-% +##+*(+% +##!*#'% +##!*#-% +##!*(+% +##'*#!% +##'*#.% +##'*(#% !! "# "$%&'()&*+#,-*.$/# +##'*(+%
•
Cada subconjunto do corpus PUBnews contém:
–
2,5 milhões de palavras, 86K únicas, apenas 50K ocorrem mais do que uma vez
•
Por cada subconjunto, foi criado um vocabulário com as 30K palavras mais
frequentes
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Impacto das variações da língua
Uso de palavras vs período de tempo
51 Quanto menor o intervalo de
tempo entre o período do vocabulário e o período do corpus, maior é a cobertura
!"#$% !"&$% '"#$% '"&$% &"#$% &"&$% ()))*#(% ()))*#&% ()))*(#% +###*#+% +###*#&% +###*#)% +###*(+% +##(*#!% +##(*#,% +##(*(#% +##+*#(% +##+*#'% +##+*#-% +##+*(+% +##!*#'% +##!*#-% +##!*(+% +##'*#!% +##'*#.% +##'*(#% !! "# "$%&'()&*+#,-*.$/# +##'*(+% !"#$% !"&$% '"#$% '"&$% &"#$% &"&$% ()))*#(% ()))*#&% ()))*(#% +###*#+% +###*#&% +###*#)% +###*(+% +##(*#!% +##(*#,% +##(*(#% +##+*#(% +##+*#'% +##+*#-% +##+*(+% +##!*#'% +##!*#-% +##!*(+% +##'*#!% +##'*#.% +##'*(#% !! "# "$%&'()&*+#,-*.$/# +##'*(+% ()))*#(%
•
Cada subconjunto do corpus PUBnews contém:
–
2,5 milhões de palavras, 86K únicas, apenas 50K ocorrem mais do que uma vez
•
Por cada subconjunto, foi criado um vocabulário com as 30K palavras mais
Evaluation set Prec Rec SER PUBnews test set 93.3% 82.2% 23.3%
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Impacto das variações da língua
Resultados sobre corpora escrito
52
•
Abordagem baseada em modelos de máxima entropia
•
Vocabulário ilimitado
•
Foram consideradas apenas as palavras que ocorreram pelo menos 4 vezes
•
Resultados obtidos quando o treino é feito com todo o corpus:
PUBnews test set PUBnews test set PUBnews test set
Prec Rec SER
92.0% 73.8% 32.4%
Usando vocabulário limitado
Friday, 4 December 2009 !"#$ !%#$ &"#$ &%#$ '"#$ '%#$
()))*"($ ()))*"%$ ()))*("$ !"""*"!$ !"""*"%$ !"""*")$ !"""*(!$ !""(*"&$ !""(*"+$ !""(*("$ !""!*"($ !""!*"'$ !""!*",$ !""!*(!$ !""&*"'$ !""&*",$ !""&*(!$ !""'*"&$ !""'*"-$ !"#$
%&'()*+,-.$/0.0$ ./01203$40256567$
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Impacto das variações da língua
Resultados sobre corpora escrito
Treino iterativo
53 • É proposta a seguinte abordagem
–Treinar com novos dados, mas usando os valores do modelo anterior para iniciar o novo modelo
–O treino é realizado com os novos dados, sendo os modelos anteriores ajustados a esses novos dados iterativamente
Friday, 4 December 2009 !"#$ !%#$ &"#$ &%#$ '"#$ '%#$
()))*"($ ()))*"%$ ()))*("$ !"""*"!$ !"""*"%$ !"""*")$ !"""*(!$ !""(*"&$ !""(*"+$ !""(*("$ !""!*"($ !""!*"'$ !""!*",$ !""!*(!$ !""&*"'$ !""&*",$ !""&*(!$ !""'*"&$ !""'*"-$ !"#$
%&'()*+,-.$/0.0$ ./01203$40256567$
Checkpoint LM #lines Prec Rec SER
1999-12 1.27 Million 92.4% 77.0% 29.0% 2000-12 1.86 Million 92.5% 79.3% 26.6% 2001-12 2.36 Million 93.0% 79.9% 25.7% 2002-12 2.78 Million 93.2% 80.8% 24.7% 2003-12 3.10 Million 92.9% 82.2% 23.6% 2004-08 3.36 Million 93.2% 83.2% 22.5%
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Impacto das variações da língua
Resultados sobre corpora escrito
Treino iterativo
53 • É proposta a seguinte abordagem
–Treinar com novos dados, mas usando os valores do modelo anterior para iniciar o novo modelo
–O treino é realizado com os novos dados, sendo os modelos anteriores ajustados a esses novos dados iterativamente
Friday, 4 December 2009 !"#$ !%#$ &"#$ &%#$ '"#$ '%#$
()))*"($ ()))*"%$ ()))*("$ !"""*"!$ !"""*"%$ !"""*")$ !"""*(!$ !""(*"&$ !""(*"+$ !""(*("$ !""!*"($ !""!*"'$ !""!*",$ !""!*(!$ !""&*"'$ !""&*",$ !""&*(!$ !""'*"&$ !""'*"-$ !"#$
%&'()*+,-.$/0.0$ ./01203$40256567$
Checkpoint LM #lines Prec Rec SER
1999-12 1.27 Million 92.4% 77.0% 29.0% 2000-12 1.86 Million 92.5% 79.3% 26.6% 2001-12 2.36 Million 93.0% 79.9% 25.7% 2002-12 2.78 Million 93.2% 80.8% 24.7% 2003-12 3.10 Million 92.9% 82.2% 23.6% 2004-08 3.36 Million 93.2% 83.2% 22.5%
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Impacto das variações da língua
Resultados sobre corpora escrito
Treino iterativo
53 • É proposta a seguinte abordagem
–Treinar com novos dados, mas usando os valores do modelo anterior para iniciar o novo modelo
–O treino é realizado com os novos dados, sendo os modelos anteriores ajustados a esses novos dados iterativamente Evaluation Set Prec Rec SER
2004-12 test set 93.3% 82.2% 23.3% Friday, 4 December 2009 !"#$ !%#$ &"#$ &%#$ '"#$ '%#$
()))*"($ ()))*"%$ ()))*("$ !"""*"!$ !"""*"%$ !"""*")$ !"""*(!$ !""(*"&$ !""(*"+$ !""(*("$ !""!*"($ !""!*"'$ !""!*",$ !""!*(!$ !""&*"'$ !""&*",$ !""&*(!$ !""'*"&$ !""'*"-$ !"#$ %&'()*+,-.$/0.0$ ./01203$40256567$ !"#$ !%#$ &"#$ &%#$ '"#$ '%#$
()))*"($ ()))*"%$ ()))*("$ !"""*"!$ !"""*"%$ !"""*")$ !"""*(!$ !""(*"&$ !""(*"+$ !""(*("$ !""!*"($ !""!*"'$ !""!*",$ !""!*(!$ !""&*"'$ !""&*",$ !""&*(!$ !""'*"&$ !""'*"-$ !"#$
%&'()*+,-.$/0.0$ ./01203$40256567$ 829:1203$40256567$
Checkpoint LM #lines Prec Rec SER
1999-12 1.27 Million 92.4% 77.0% 29.0% 2000-12 1.86 Million 92.5% 79.3% 26.6% 2001-12 2.36 Million 93.0% 79.9% 25.7% 2002-12 2.78 Million 93.2% 80.8% 24.7% 2003-12 3.10 Million 92.9% 82.2% 23.6% 2004-08 3.36 Million 93.2% 83.2% 22.5%
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
Impacto das variações da língua
Resultados sobre corpora escrito
Treino iterativo
• É proposta a seguinte abordagem
–Treinar com novos dados, mas usando os valores do modelo anterior para iniciar o novo modelo
–O treino é realizado com os novos dados, sendo os modelos anteriores ajustados a esses novos dados iterativamente Evaluation Set Prec Rec SER
2004-12 test set 93.3% 82.2% 23.3%
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology from seed
Conteúdo
•
Introdução
•
Corpus de fala
•
Tarefa de pontuação/segmentação
•
Tarefa de maiusculização
–
Impacto das variações da língua
•
Trabalho mais recente
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Trabalho mais recente
em termos de pontuação
•
Actualmente, as experiências recuperam o ponto final e a vírgula em
simultâneo, usam features baseadas em trigramas e tiram partido de
part-of-speech.
•
Tem-se utilizado corpora escrito para melhorar o desempenho dos
modelos
–
cria-se um modelo inicial, com base em corpora escrito, que é depois
usado para fornecer os pesos iniciais no treino de novos modelos, com
base em transcrições
•
Primeiros passos na utilização de features prosódicas
–
Ajuste automático da fronteira de palavras (com Helena Moniz)
•
O modulo actualmente já funciona com Inglês e com Espanhol
55
Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory
Trabalho mais recente
em termos de maiusculização
•
Adoptou-se a abordagem baseada em ME
–
features baseadas em trigramas: w
i, 2w
i!1, 2w
i, 3w
i!2, 3w
i!1•
Introdução de conhecimento linguístico
–
Utilização de um conjunto de pistas linguísticas que, dando conta de
sequências impossíveis no Português, permitem detectar
estrangeirismos, os quais aparecem usualmente grafados a maiúscula.
•
O modulo actualmente já funciona com Inglês e com Espanhol
56
Friday, 4 December 2009
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technology
from seed
L2 F - Spoken Language Systems Laboratory 57