• Nenhum resultado encontrado

Conteúdo. Exemplo Texto extraído da saída de um reconhecedor de fala. Situação actual

N/A
N/A
Protected

Academic year: 2021

Share "Conteúdo. Exemplo Texto extraído da saída de um reconhecedor de fala. Situação actual"

Copied!
10
0
0

Texto

(1)

L2 F - Spoken Language Systems Laboratory

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology from seed Enriquecimento automático de transcrições de fala Fernando Batista Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Conteúdo

Introdução

Corpus de fala

Tarefa de pontuação/segmentação

Tarefa de maiusculização

Impacto das variações da língua

Trabalho mais recente

Comentários finais e questões em aberto

2

Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory 3

Situação actual

Disseminação de grande quantidade de informação: áudio e video

Leva à aplicação de sistemas de reconhecimento de fala, com vista a

enriquecer esses dados com informação adicional

Existência de um sistema de reconhecimento para o Português

Legendagem de notícias televisivas online

Produção de conteúdos multimédia a partir de programas televisivos

Mas... a saída do reconhecedor é difícil de ler e de processar

Segmentação incorrecta / sem pontuação

Sem informação sobre as maiúsculas

Presença de disfluências

Erros de reconhecimento

Estrutura linguística flexível na fala espontânea

Friday, 4 December 2009

boa tarde a ministra da educação pronunciou sobre a polémica do professor suspenso maria de lurdes rodrigues disse que vai aguardar pelos resultados do processo que está a decorrer

e garantiu que não tem motivos para duvidar do funcionamento da direcção regional de educação do norte

que suspendeu passou por ter feito um comentário pose do primeiro-ministro a ministra disse lamentar que este tipo de pesados marquem

à agenda mediática até este momento do muito que o li e ouvi não tenho nenhum sinal

não tenho nenhum motivo para duvidar do funcionamento das instituições ou para de a considerar que pode estar em causa o funcionamento da direcção regional ...

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Exemplo

Texto extraído da saída de um

reconhecedor de fala

4

Friday, 4 December 2009

boa tarde.

a ministra da educação pronunciou sobre a polémica do professor suspenso. maria de lurdes rodrigues disse que vai aguardar pelos resultados do processo que está a decorrer e garantiu que não tem motivos para duvidar do funcionamento da direcção regional de educação do norte, que suspendeu passou por ter feito um comentário pose do primeiro-ministro.

a ministra disse lamentar que este tipo de pesados marquem à agenda mediática. até este momento do muito que o li e ouvi não tenho nenhum sinal.

não tenho nenhum motivo para duvidar do funcionamento das instituições ou para de a considerar que pode estar em causa o funcionamento da direcção regional de educação, dos seus de serviços.

aquilo que é a minha preocupação é que no âmbito deste processo estejam garantidos a existência dos mecanismos de defesa.

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

Exemplo

Introdução de marcas de pontuação e

correspondente segmentação

Boa tarde.

A ministra da Educação pronunciou sobre a polémica do professor suspenso. Maria de Lurdes Rodrigues disse que vai aguardar pelos resultados do processo que está a decorrer e garantiu que não tem motivos para duvidar do funcionamento da Direcção Regional de Educação do Norte, que suspendeu passou por ter feito um comentário pose do primeiro-ministro.

A ministra disse lamentar que este tipo de pesados marquem à agenda mediática. Até este momento do muito que o li e ouvi não tenho nenhum sinal.

Não tenho nenhum motivo para duvidar do funcionamento das instituições ou para de a considerar que pode estar em causa o funcionamento da Direcção Regional de Educação, dos seus de serviços.

Aquilo que é a minha preocupação é que no âmbito deste processo estejam garantidos a existência dos mecanismos de defesa.

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

Exemplo

Introdução da informação sobre

maiúsculas

(2)

Boa tarde.

A ministra da Educação pronunciou sobre a polémica do professor suspenso. Maria de Lurdes Rodrigues disse que vai aguardar pelos resultados do processo que está a decorrer e garantiu que não tem motivos para duvidar do funcionamento da Direcção Regional de Educação do Norte, que suspendeu passou por ter feito um comentário pose do primeiro-ministro.

A ministra disse lamentar que este tipo de pesados marquem à agenda mediática. Até este momento do muito que o li e ouvi não tenho nenhum sinal.

Não tenho nenhum motivo para duvidar do funcionamento das instituições ou para de a

considerar que pode estar em causa o funcionamento da Direcção Regional de Educação,dos seus de serviços.

Aquilo que é a minha preocupação é que no âmbito deste processo estejam garantidos a existência dos mecanismos de defesa.

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Exemplo

Presença de erros de reconhecimento

15

Friday, 4 December 2009

Boa tarde.

A ministra da Educação pronunciou-se sobre a polémica do professor suspenso. Maria de Lurdes Rodrigues disse que vai aguardar pelos resultados do processo que está a decorrer e garantiu que não tem motivos para duvidar do funcionamento da Direcção Regional de Educação do Norte, que suspendeu o professor por ter feito um comentário a propósito do primeiro-ministro.

A ministra disse lamentar que este tipo de episódios marquem a agenda mediática. Até este momento do muito que li e ouvi não tenho nenhum sinal.

Não tenho nenhum motivo para duvidar do funcionamento das instituições ou para considerar que pode estar em causa o funcionamento da Direcção Regional de Educação, ou dos seus serviços.

Aquilo que é a minha preocupação é que no âmbito deste processo estejam garantidos a existência dos mecanismos de de defesa.

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Exemplo

Texto que seria desejável

16

Presença de disfluências

Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory 17

Enriquecimento de transcrições

Combina diferentes tecnologias de extracção de meta-informação

para fornecer informação adicional aos dados originais

Melhoria da legibilidade/inteligibilidade dos textos

Informação mais adequada para posterior processamento

computacional

É cada vez mais objecto de estudo pela comunidade científica

Speech Transcription ... ... ... Speech Recognition Rich Transcription Punctuation Capitalization Disfluency Detection and filtering

... Speech signal Close-captioning Multimedia content Further automatic processing ... Machine translation Summarization Named Entity Recognition .... Indexing Retrieval ... Audio Pre-Processor Friday, 4 December 2009

Speaker diarization

(quem fala quando, quem disse o quê)

Sentence segmentation

(detecção da fronteira da frase)

Identificação de SUs (Sentence-like Units)

Punctuation recovery

Capitalization

(truecasing)

Disfluency detection and filtering

As disfluências ocorrem especialmente na fala espontânea

(os humanos fazem frases enquanto pensam no que querem dizer)

Duas categorias mais abrangentes

fillers - ex. “um”, “uh”, “portanto”

repairs - oradores tentam corrigir, modificar ou cancelar informação dita

anteriormente

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Enriquecimento de transcrições

Tarefas mais relevantes

18

Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Sistema de reconhecimento de fala

Arquitectura

19 Offline System Online System TV broadcasted signal Control System & GUI Audio Subtitling Generation Teletex Server Web Topic Segmentation and Indexing Summarization Punctuation Capitalization JD APP ASR XML file

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Objectivos

20

Inserir pontuação e maiusculização automática em transcrições de fala

Avaliar esta tarefa em corpora falado da língua Portuguesa

Comparar transcrições manuais/automáticas, planeada/espontânea

Relativamente às marcas de pontuação

Fazer uso de toda a informação produzida pelo módulo de

pré-processamento do áudio (APP) e pelo módulo de reconhecimento

automático de fala (ASR)

Comparar diferentes abordagens para a maiusculização

Fazer uso de corpora escrito (corpus de fala insuficiente para treino)

Integração on-the-fly

(3)

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Conteúdo

Introdução

Corpus de fala

Tarefa de pontuação/segmentação

Tarefa de maiusculização

Impacto das variações da língua

Trabalho mais recente

Comentários finais e questões em aberto

21

Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory 22

Descrição e preparação do corpus

Descrição do corpus

Corpus Speech Recognition (SR)

Subconjunto do Broadcast News European Portuguese corpus

Recolhido no âmbito do projecto internacional ALERT

Transcrição manual segue as convenções do LDC Hub4

Uso Nome Periodo de Gravação Duração (h) Palavras (milhares)

Treino

Treino Out. e Nov. 2000 51 449

Desenvolvimento

Desenvolvimento Dezembro 2000 6 64

Teste

Eval Janeiro 2001 5 45

Teste JEval Outubro 2001 13 128

Teste

RTP07 Maio, Junho, Set., Out. 2007 6 45

Teste

RTP08 Junho e Julho 2008 4 40

Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Descrição e preparação do corpus

Condições de foco

23

35% fala espontânea

Foco Descrição F0 planeada, limpa F1 espontânea, limpa F2 fala telefónica F3 fala e música

F40 planeada, com ruído

F41 espontânea, com ruído

F5 falante não nativo

FX outro tipo de fala

Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory 24

Descrição e preparação do corpus

Transcrição automática

Produzida pelos módulos APP e ASR

Cada segmento contém informação acerca das condições de fundo

(ruído/limpo), identificação do orador e do seu género, etc.

A esta informação foram recentemente adicionados graus de confiança

Cada palavra tem informação sobre a sua janela temporal e grau de

confiança

Word Error Rate (WER) do módulo de reconhecimento:

22% a 24%

~12% fala planeada

Os dados de referência para as transcrições automáticas são obtidos

através de um alinhamento entre as transcrições manuais e as

automáticas

Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

Descrição e preparação do corpus

Alinhamento

XML to CTM ASR Output (XML) Alignment update punctuation capitalization update regions MAN XML format manually annotated excluded regions focus conditions punctuation and capitalization

morphology update morphology STM to XML Morpho disambiguation XML to Text Manually annotated speech transcriptions (TRS) TRS to STM Morpho disambiguation XML to Text update morphology AUT XML format ASR output excluded regions focus conditions punctuation and capitalization

morphology

<TranscriptSegment>

<TranscriptGUID>2</TranscriptGUID>

<AudioType start="970" end="1472">Clean</AudioType> <Time start="970" end="1472" reasons=""/> <Speaker id="1000" name="Homem" gender="M" known="F"/> <SpeakerLanguage native="T">PT</SpeakerLanguage> <TranscriptWList>

<W start="970" end="981" conf="0.765016">em</W> <W start="982" end="997" conf="0.525857">boa</W> <W start="998" end="1049" conf="0.98280">noite</W> <W start="1050" end="1064" conf="0.904695">os</W> <W start="1065" end="1113" conf="0.974994">centros</W> <W start="1114" end="1121" conf="0.938673">de</W <W start="1122" end="1173" conf="0.993847">emprego</W> <W start="1174" end="1182" conf="0.951339">em</W> <W start="1183" end="1229" conf="0.999291">portugal</W> <W start="1230" end="1283" conf="0.979457">continuou</W> <W start="1284" end="1285" conf="0.967095">a</W> <W start="1286" end="1345" conf="0.996321">registar</W> <W start="1346" end="1399" conf="0.946317">menos</W> <W start="1400" end="1503" conf=”0.995667”>inscritos</W> </TranscriptWList>

</TranscriptSegment>

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

Descrição e preparação do corpus

(4)

<TranscriptSegment>

<TranscriptGUID>2</TranscriptGUID>

<AudioType start="970" end="1472">Clean</AudioType> <Time start="970" end="1472" reasons=""/> <Speaker id="1000" name="Homem" gender="M" known="F"/> <SpeakerLanguage native="T">PT</SpeakerLanguage> <TranscriptWList>

<W start="970" end="981" conf="0.765016">em</W> <W start="982" end="997" conf="0.525857">boa</W> <W start="998" end="1049" conf="0.98280">noite</W> <W start="1050" end="1064" conf="0.904695">os</W> <W start="1065" end="1113" conf="0.974994">centros</W> <W start="1114" end="1121" conf="0.938673">de</W <W start="1122" end="1173" conf="0.993847">emprego</W> <W start="1174" end="1182" conf="0.951339">em</W> <W start="1183" end="1229" conf="0.999291">portugal</W> <W start="1230" end="1283" conf="0.979457">continuou</W> <W start="1284" end="1285" conf="0.967095">a</W> <W start="1286" end="1345" conf="0.996321">registar</W> <W start="1346" end="1399" conf="0.946317">menos</W> <W start="1400" end="1503" conf=”0.995667”>inscritos</W> </TranscriptWList>

</TranscriptSegment> <TranscriptSegment>

<TranscriptGUID>2</TranscriptGUID>

<AudioType start="970" end="1472">Clean</AudioType> <Time start="970" end="1472" reasons=""/> <Speaker id="1000" name="Homem" gender="M" known="F"/> <SpeakerLanguage native="T">PT</SpeakerLanguage> <TranscriptWList>

<W start="970" end="981" conf="0.765016" focus="F0" pos="S.">em</W> <W start="982" end="997" conf="0.525857" focus="F0" pos="Nc">boa</W> <W start="998" end="1049" conf="0.98280" focus="F0" punct=".” pos="Nc">noite</W> <W start="1050" end="1064" conf=... focus="F0" pos="Td" cap=”Os”>os</W> <W start="1065" end="1113" conf=... focus="F0" pos="Nc" cap=”Centros”>centros</W> <W start="1114" end="1121" conf=... focus="F0" pos="S.">de</W

<W start="1122" end="1173" conf=... focus="F0" pos="Nc" cap=”Emprego”>emprego</W> <W start="1174" end="1182" conf=... focus="F0" pos="S.">em</W>

<W start="1183" end="1229" conf=... focus="F0" pos="Np" cap=”Portugal”>portugal</W> <W start="1230" end="1283" conf=... focus="F0" pos="V.">continuou</W> <W start="1284" end="1285" conf=... focus="F0" pos="Td">a</W> <W start="1286" end="1345" conf=... focus="F0" pos="V.">registar</W> <W start="1346" end="1399" conf=... focus="F0" pos="R.">menos</W> <W start="1400" end="1503" conf=... focus="F0" punct=".” pos="V.">inscritos</W> </TranscriptWList>

</TranscriptSegment>

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory 26

Descrição e preparação do corpus

Exemplo de uma transcrição AUT

Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Conteúdo

Introdução

Corpus de fala

Tarefa de pontuação/segmentação

Tarefa de maiusculização

Impacto das variações da língua

Trabalho mais recente

Comentários finais e questões em aberto

27

Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Pontuação

Frequência das marcas de pontuação

28

Corpus

tokens

“.”

“,”

“?”

“!”

WSJ (Inglês)

42M

4.17%

4.66% 0.04% 0.01%

PUBnews (Português)

150M 3.23%

6.33%

0.11% 0.03%

Broadcast News Transcript tokens

“.”

“,”

“?”

“!”

LDC98T28 (Hub4 Inglês)

854k 5.08% 3.52% 0.29% 0.00%

LDC98T29 (Hub4 Espanhol)

350k 4.03% 5.07% 0.14% 0.00%

SR (Português)

928k 4.80%

7.43%

0.21% 0.04%

Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Pontuação

Trabalho relacionado

Algumas das abordagens mais utilizadas:

Baseadas em modelos de Markov (HMM)

Baseadas em máquinas de estados finitos (FSM)

Baseadas em modelos máxima entropia (ME)

Baseadas em Conditional Random Fields (CRFs)

Informação utilizada

Lexical

Acústica

Prosódica

Marcas de pontuação consideradas

Ponto final

Vírgula

Ponto de interrogação

29

Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Descrição da tarefa de pontuação

Abordagem baseada em modelos de

Máxima Entropia

Baseada em features

Cada observação é representada

por um vector de features

Permite combinar diferentes

características da informação

A classificação é uma soma

pesada dos valores de cada uma

das features

Baixa latência

Adequado para uso on-the-fly

30

Training process

Punctuation

Corpus ME train Punctuation model Features Punctuated sentence ME classifier unpunctuated sentence Features

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory 31

Descrição da tarefa de pontuação

Conjunto de features

Features lexicais

Palavra

(combinada em unigramas, bigramas)

Etiqueta morfossintáctica

(unigramas e bigramas)

Features acústicas

Mudanças de falante

Mudanças no género do falante

(M/F)

Segmentos acústicos

(produzidos pelo módulo APP)

Pausas entre palavras

(5)

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Pontuação

Exemplo de features

!0W:boa 0.7 W1:tarde 1.0 2GRW:boa_tarde 0.7 2GRW1:tarde_a 0.9 C:A. 0.7 C1:Nc 1.0 2GRC:A._Nc 0.7 2GRC-2: 0.0 2GRC-1:A.

0.0 2GRC1:Nc_S. 0.9

!1 W:tarde 1.0 W1:a 0.9 2GRW:tarde_a 0.9 2GRW-1:boa_tarde 0.7 2GRW1:a_ministra 0.9 C:Nc 1.0 C1:S. 0.9 2GRC:Nc_S. 0.9

2GRC-2:A. 0.0 2GRC-1:A._Nc 0.7 2GRC1:S._Nc 0.9

!0 W:a 0.9 W1:ministra 1.0 2GRW:a_ministra 0.9 2GRW-2:boa_tarde 0.7 2GRW-1:tarde_a 0.9 2GRW1:ministra_da 0.9 C:S. 0.9

C1:Nc 1.0 2GRC:S._Nc 0.9 2GRC-2:A._Nc 0.7 2GRC-1:Nc_S. 0.9 2GRC1:Nc_S. 0.9

!0 W:ministra 1.0 W1:da 1.0 2GRW:ministra_da 0.9 2GRW-2:tarde_a 0.9 2GRW-1:a_ministra 0.9 2GRW1:da_educação 1.0

C:Nc 1.0 C1:S. 1.0 2GRC:Nc_S. 0.9 2GRC-2:Nc_S. 0.9 2GRC-1:S._Nc 0.9 2GRC1:S._Nc 1.0

!0W:da 1.0 W1:educação 1.0 2GRW:da_educação 1.0 2GRW-2:a_ministra 0.9 2GRW-1:ministra_da 0.9

2GRW1:educação_pronunciou 1.0 C:S. 1.0 C1:Nc 1.0 2GRC:S._Nc 1.0 2GRC-2:S._Nc 0.9 2GRC-1:Nc_S. 0.9 2GRC1:Nc_V. 1.0

32 Boa tarde.

A ministra da Educação pronunciou ...

Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Resultados relativos ao ponto final

Baseline

A baseline corresponde à segmentação proposta pelo módulo APP

33 SER = total number of punctuation errors

number of punctuation marks in the reference

= NIST Error Rate for Sentence Boundary detection

Focus Ref. Slots Prec Rec SER

All 2470 45.4% 79.1% 116.2% F0 planned, clean 391 56.5% 82.6% 81.1% F1 spontaneous, clean 111 29.1% 64.0% 191.9% F40 planned, noise 930 55.9% 82.6% 82.6% F41 spontaneous, noise 791 33.3% 73.6% 173.8% F0+F40 all planned 1321 56.1% 82.6% 82.1% F1+F41 all spontaneous 902 32.8% 72.4% 176.1% Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Resultados relativos ao ponto final

Saída do reconhecedor

34 Focus All F0 F1 F40 F41 F0+F40 F1+F41

Treino usando MAN Treino usando MAN Treino usando MAN

Prec Rec SER

66.5% 55.8% 72.3% 76.9% 66.5% 53.5% 61.6% 40.5% 84.7% 72.2% 57.2% 64.8% 53.2% 47.3% 94.3% 73.7% 60.0% 61.5% 54.0% 46.5% 93.1% Baseline SER 116.2% 81.1% 191.9% 82.6% 173.8% 82.1% 176.1% Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Resultados relativos ao ponto final

Saída do reconhecedor

Trabalho relacionado para o Inglês

Yang Lui et al. (2006), avalia tarefa de segmentação em BN ASR

ME consegue 59% SER

57% SER combinando ME e HMM

34 Focus All F0 F1 F40 F41 F0+F40 F1+F41

Treino usando MAN Treino usando MAN Treino usando MAN

Prec Rec SER

66.5% 55.8% 72.3% 76.9% 66.5% 53.5% 61.6% 40.5% 84.7% 72.2% 57.2% 64.8% 53.2% 47.3% 94.3% 73.7% 60.0% 61.5% 54.0% 46.5% 93.1%

Treino usando AUT Treino usando AUT Treino usando AUT

Prec Rec SER

70.1% 53.0% 69.6% 83.3% 61.4% 50.9% 55.1% 34.2% 93.7% 76.9% 55.2% 61.4% 56.2% 44.8% 90.1% 78.8% 57.0% 58.3% 56.1% 43.5% 90.6% Friday, 4 December 2009 !"#!$% !&#'$% ()#&$% )*$% '*$% +*$% &*$% ,*$% "*$% !**$% -..% /*0/)*% /!0/)!% !"#$ 1-2% -34%

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

Resultados relativos ao ponto final

Comparação MAN e AUT

Diferença de cerca de 19% SER

Fala espontânea

Erros de reconhecimento

Yang Lui et al. (2006)

9% de diferença entre as transcrições manuais e as automáticas

Trabalha com ~11.7% WER

!"#$ %"#$ &"#$ '"#$ ("#$ )"#$ *""#$ **"#$ +,,$ -,.//01$ 234/5$

!"#$

%&'()$'&*+,-&*$

./0$+121$)&(3'4$

6/,7$,089:.,$ 6/,7$+::4;<=:$ +,,$>0.5;?0<$ +,,$ -,.//01$ 234/5$

/56$+121$)&(3'4$

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

Resultados relativos ao ponto final

(6)

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory 37

Resultados para a vírgula

Uma das marcas de pontuação mais frequentes

Utilização bastante dependente do tipo de corpus

Pouca consistência em termos de anotação

Resultados consistentes com o trabalho descrito em Christensen

(2001) para a recuperação da vírgula no corpus Hub4 BN

SER acima de 80% e para alguns casos cerca de 100% (saída do ASR)

Focus

Slots

Prec

Rec

SER

All

3727

45.1%

16.2%

103.5%

F0+F40

1382

41.2%

16.9%

107.2%

F1+F41

2054

48.4%

15.7%

101.1%

Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Conteúdo

Introdução

Corpus de fala

Tarefa de pontuação/segmentação

Tarefa de maiusculização

Impacto das variações da língua

Trabalho mais recente

Comentários finais e questões em aberto

38

Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

O problema ...

O corpus de fala é insuficiente para treino

51h (~470K palavras)

Solução:

Usar corpora escrito, que contém informação sobre maiúsculas e

informação sobre co-ocorrência de palavras

39

Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Fontes de informação

Corpora escrito

Corpus “Notícias do Público” (PUBnews)

Cerca de 148M palavras, dividido em 59 subconjuntos

2,5 milhões de palavras (5 semanas) por subconjunto

Normalizado, com todas as marcas de pontuação removidas

próximo das transcrições de fala

sem erros de reconhecimento, pausas preenchidas ou outras disfluências

40

Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Abordagens

Generativas

Etiquetador baseado em HMMs (SRILM toolkit) (Stolcke 2002)

Usado frequentemente para esta tarefa

–IWSLT2006 workshop competition

Transdutores de estados finitos (WFST) (FSM tools)

Criados a partir de um modelo de língua

Discriminativa

Baseada em modelos máxima entropia (ME)

Combinação de diferentes tipos de informação

–As experiências aqui descritas usam apenas a palavra

Também usado na tarefa de recuperação de marcas de pontuação

41

Training process Capitalization process

Corpus Count ngrams Language Model Lower-case sentence HMM tagger Capitalized sentence ana ana Ana ANA

canto canto Canto CANTO luís luís Luís LUÍS faria faria Faria FARIA ...

Map

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Abordagens

Etiquetador baseado em HMMs

Fácil utilização

Permite manipular grandes quantidades de informação

Produz resultados num curto período de tempo

(7)

Capitalization process Training process Capitalization wfst (T) FSA Change input to lowercase LM to FSA Convertion FSA (S) Lower-case sentence Text to FSA bestpath(SoT) Capitalized sentence Wfst to text Language Model

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Abordagens

WFSTs

43 Rtp/0.6 rtp/0.9 RTP/0.1 rtp:RTP/0.1 rtp:Rtp/0.6 rtp:rtp/0.9 Weighted FSA Capitalization WFST (T) Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Abordagens

Máxima entropia

Baseada em features

Cada observação é representada por um vector de features

Difícil a utilização de grandes quantidades de informação

44 Capitalization process Training process Features Corpus Text2features ME train Trained models Capitalized sentence On-the-fly classifier Lower-case sentence Text2features Features Friday, 4 December 2009

A primeira palavra de cada frase é ignorada

A sua forma gráfica depende da sua posição na frase

Excluída do treino e da avaliação

Consideram-se apenas três formas de escrever uma palavra

Minúscula, primeira letra maiúscula, todas maiúsculas

Palavras não consideradas: McDonald’s, LaTeX, ...

É usado um vocabulário limitado de 57K (léxico do reconhecedor)

Necessário para os métodos generativos

As palavras fora do vocabulário foram marcadas como “desconhecidas”

Experiências realizadas em corpora escrito e em transcrições de fala

Os resultados apresentados dizem respeito às transcrições manuais

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Resultados comparativos

Condições iniciais

45

Friday, 4 December 2009

Resultados sobre o corpus escrito

Apenas foram usadas palavras que ocorreram pelo menos 4 vezes

Tal com se esperava, os resultados melhoram com o aumento da

ordem do modelo de língua (LM)

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Resultados comparativos

Abordagens generativas sobre corpora

escrito

46 LM options

HMM-based tagger

HMM-based tagger

HMM-based tagger

WFST

WFST

WFST

LM options

Prec Recall SER Prec Recall SER

unigrams 89.6% 61.5% 45.2% 85.0% 64.4% 46.3%

bigrams 92.0% 72.0% 33.8% 89.5% 73.1% 34.8%

trigrams 93.3% 74.5% 30.4% 91.7% 75.3% 30.9%

Friday, 4 December 2009

Resultados sobre transcrições de fala

O modelo de língua usado resulta de uma interpolação linear de

LM1 - Criado a partir dos dados de treino PUBnews (corpus escrito)

LM2 - Criado a partir dos dados de treino SR (speech corpus)

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

Resultados comparativos

Abordagens generativas sobre

transcrições de fala

LM options

HMM-based tagger

HMM-based tagger

HMM-based tagger

WFST

WFST

WFST

LM options

Prec Recall SER Prec Recall SER

unigrams 85.9% 72.5% 39.3% 85.9% 72.7% 39.2% bigrams 82.5% 81.9% 35.1% 82.6% 82.0% 34.8% trigrams 81.8% 83.4% 34.8% 81.9% 83.3% 34.7% LM options HMM-based tagger HMM-based tagger HMM-based tagger WFSTWFSTWFST LM

options Prec Recall SER Prec Recall SER

unigrams 89.6% 61.5% 45.2% 85.0% 64.4% 46.3%

bigrams 92.0% 72.0% 33.8% 89.5% 73.1% 34.8%

trigrams 93.3% 74.5% 30.4% 91.7% 75.3% 30.9%

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

Resultados comparativos

Abordagens generativas sobre

transcrições de fala

LM options

HMM-based tagger

HMM-based tagger

HMM-based tagger

WFST

WFST

WFST

LM options

Prec Recall SER Prec Recall SER

unigrams 85.9% 72.5% 39.3% 85.9% 72.7% 39.2%

bigrams 82.5% 81.9% 35.1% 82.6% 82.0% 34.8%

trigrams 81.8% 83.4% 34.8% 81.9% 83.3% 34.7%

Corpora escrito

(8)

Apenas features baseadas em unigramas e bigramas de palavras (w)

w

i

, <w

i-1

,w

i

> e <w

i

, w

i+1

>

Limitações de memória

Estratégia de treino modificada, usando contagens de n-gramas

Treinos sucessivos sobre cada um dos subconjuntos de corpora

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Resultados comparativos

Abordagem discriminativa (ME)

48

Strategy Prec Recall SER

n-gram counts 92.0% 73.8% 32.4%

successive retraining 93.2% 72.5% 32.6%

Corpora escrito

Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Resultados comparativos

Abordagem discriminativa (ME)

48

Strategy Prec Recall SER

n-gram counts 92.0% 73.8% 32.4%

successive retraining 93.2% 72.5% 32.6%

Strategy Prec Recall SER

n-gram counts 87.4% 80.5% 31.0% successive retraining 87.2% 80.5% 31.2% LM options HMM-based tagger HMM-based tagger HMM-based tagger WFSTWFSTWFST LM

options Prec Recall SER Prec Recall SER

unigrams 89.6% 61.5% 45.2% 85.0% 64.4% 46.3% bigrams 92.0% 72.0% 33.8% 89.5% 73.1% 34.8% trigrams 93.3% 74.5% 30.4% 91.7% 75.3% 30.9% LM options HMM-based tagger HMM-based tagger HMM-based tagger WFSTWFSTWFST LM

options Prec Recall SER Prec Recall SER

unigrams 85.9% 72.5% 39.3% 85.9% 72.7% 39.2%

bigrams 82.5% 81.9% 35.1% 82.6% 82.0% 34.8% trigrams 81.8% 83.4% 34.8% 81.9% 83.3% 34.7%

Corpora escrito Transcrições de fala

Abordagens generativas

Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Conteúdo

Introdução

Corpus de fala

Tarefa de pontuação/segmentação

Tarefa de maiusculização

Impacto das variações da língua

Trabalho mais recente

Comentários finais e questões em aberto

49

Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Impacto das variações da língua

Motivação

Em linha com os seguintes trabalhos:

[Mota and Grishman, 2008, Mota, 2008] - analisa a relação entre a

variação do corpus e o desempenho de um sistema de reconhecimento

de entidades mencionadas (NER)

[Martins et al., 2007, Martins, 2008] - é proposta uma adaptação diária

do vocabulário e do modelo de língua ao tópico das notícias actuais,

baseado em textos recolhidos diariamente da Web

Como é que as variações da língua no tempo afectam o desempenho

da tarefa de maiusculização?

Como actualizar o modelo de maiusculização?

50

Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Impacto das variações da língua

Uso de palavras vs período de tempo

51 !"#$% !"&$% '"#$% '"&$% &"#$% &"&$% ()))*#(% ()))*#&% ()))*(#% +###*#+% +###*#&% +###*#)% +###*(+% +##(*#!% +##(*#,% +##(*(#% +##+*#(% +##+*#'% +##+*#-% +##+*(+% +##!*#'% +##!*#-% +##!*(+% +##'*#!% +##'*#.% +##'*(#% !! "# "$%&'()&*+#,-*.$/# +##'*(+%

Cada subconjunto do corpus PUBnews contém:

2,5 milhões de palavras, 86K únicas, apenas 50K ocorrem mais do que uma vez

Por cada subconjunto, foi criado um vocabulário com as 30K palavras mais

frequentes

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Impacto das variações da língua

Uso de palavras vs período de tempo

51 Quanto menor o intervalo de

tempo entre o período do vocabulário e o período do corpus, maior é a cobertura

!"#$% !"&$% '"#$% '"&$% &"#$% &"&$% ()))*#(% ()))*#&% ()))*(#% +###*#+% +###*#&% +###*#)% +###*(+% +##(*#!% +##(*#,% +##(*(#% +##+*#(% +##+*#'% +##+*#-% +##+*(+% +##!*#'% +##!*#-% +##!*(+% +##'*#!% +##'*#.% +##'*(#% !! "# "$%&'()&*+#,-*.$/# +##'*(+% !"#$% !"&$% '"#$% '"&$% &"#$% &"&$% ()))*#(% ()))*#&% ()))*(#% +###*#+% +###*#&% +###*#)% +###*(+% +##(*#!% +##(*#,% +##(*(#% +##+*#(% +##+*#'% +##+*#-% +##+*(+% +##!*#'% +##!*#-% +##!*(+% +##'*#!% +##'*#.% +##'*(#% !! "# "$%&'()&*+#,-*.$/# +##'*(+% ()))*#(%

Cada subconjunto do corpus PUBnews contém:

2,5 milhões de palavras, 86K únicas, apenas 50K ocorrem mais do que uma vez

Por cada subconjunto, foi criado um vocabulário com as 30K palavras mais

(9)

Evaluation set Prec Rec SER PUBnews test set 93.3% 82.2% 23.3%

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Impacto das variações da língua

Resultados sobre corpora escrito

52

Abordagem baseada em modelos de máxima entropia

Vocabulário ilimitado

Foram consideradas apenas as palavras que ocorreram pelo menos 4 vezes

Resultados obtidos quando o treino é feito com todo o corpus:

PUBnews test set PUBnews test set PUBnews test set

Prec Rec SER

92.0% 73.8% 32.4%

Usando vocabulário limitado

Friday, 4 December 2009 !"#$ !%#$ &"#$ &%#$ '"#$ '%#$

()))*"($ ()))*"%$ ()))*("$ !"""*"!$ !"""*"%$ !"""*")$ !"""*(!$ !""(*"&$ !""(*"+$ !""(*("$ !""!*"($ !""!*"'$ !""!*",$ !""!*(!$ !""&*"'$ !""&*",$ !""&*(!$ !""'*"&$ !""'*"-$ !"#$

%&'()*+,-.$/0.0$ ./01203$40256567$

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Impacto das variações da língua

Resultados sobre corpora escrito

Treino iterativo

53 • É proposta a seguinte abordagem

–Treinar com novos dados, mas usando os valores do modelo anterior para iniciar o novo modelo

–O treino é realizado com os novos dados, sendo os modelos anteriores ajustados a esses novos dados iterativamente

Friday, 4 December 2009 !"#$ !%#$ &"#$ &%#$ '"#$ '%#$

()))*"($ ()))*"%$ ()))*("$ !"""*"!$ !"""*"%$ !"""*")$ !"""*(!$ !""(*"&$ !""(*"+$ !""(*("$ !""!*"($ !""!*"'$ !""!*",$ !""!*(!$ !""&*"'$ !""&*",$ !""&*(!$ !""'*"&$ !""'*"-$ !"#$

%&'()*+,-.$/0.0$ ./01203$40256567$

Checkpoint LM #lines Prec Rec SER

1999-12 1.27 Million 92.4% 77.0% 29.0% 2000-12 1.86 Million 92.5% 79.3% 26.6% 2001-12 2.36 Million 93.0% 79.9% 25.7% 2002-12 2.78 Million 93.2% 80.8% 24.7% 2003-12 3.10 Million 92.9% 82.2% 23.6% 2004-08 3.36 Million 93.2% 83.2% 22.5%

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Impacto das variações da língua

Resultados sobre corpora escrito

Treino iterativo

53 • É proposta a seguinte abordagem

–Treinar com novos dados, mas usando os valores do modelo anterior para iniciar o novo modelo

–O treino é realizado com os novos dados, sendo os modelos anteriores ajustados a esses novos dados iterativamente

Friday, 4 December 2009 !"#$ !%#$ &"#$ &%#$ '"#$ '%#$

()))*"($ ()))*"%$ ()))*("$ !"""*"!$ !"""*"%$ !"""*")$ !"""*(!$ !""(*"&$ !""(*"+$ !""(*("$ !""!*"($ !""!*"'$ !""!*",$ !""!*(!$ !""&*"'$ !""&*",$ !""&*(!$ !""'*"&$ !""'*"-$ !"#$

%&'()*+,-.$/0.0$ ./01203$40256567$

Checkpoint LM #lines Prec Rec SER

1999-12 1.27 Million 92.4% 77.0% 29.0% 2000-12 1.86 Million 92.5% 79.3% 26.6% 2001-12 2.36 Million 93.0% 79.9% 25.7% 2002-12 2.78 Million 93.2% 80.8% 24.7% 2003-12 3.10 Million 92.9% 82.2% 23.6% 2004-08 3.36 Million 93.2% 83.2% 22.5%

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Impacto das variações da língua

Resultados sobre corpora escrito

Treino iterativo

53 • É proposta a seguinte abordagem

–Treinar com novos dados, mas usando os valores do modelo anterior para iniciar o novo modelo

–O treino é realizado com os novos dados, sendo os modelos anteriores ajustados a esses novos dados iterativamente Evaluation Set Prec Rec SER

2004-12 test set 93.3% 82.2% 23.3% Friday, 4 December 2009 !"#$ !%#$ &"#$ &%#$ '"#$ '%#$

()))*"($ ()))*"%$ ()))*("$ !"""*"!$ !"""*"%$ !"""*")$ !"""*(!$ !""(*"&$ !""(*"+$ !""(*("$ !""!*"($ !""!*"'$ !""!*",$ !""!*(!$ !""&*"'$ !""&*",$ !""&*(!$ !""'*"&$ !""'*"-$ !"#$ %&'()*+,-.$/0.0$ ./01203$40256567$ !"#$ !%#$ &"#$ &%#$ '"#$ '%#$

()))*"($ ()))*"%$ ()))*("$ !"""*"!$ !"""*"%$ !"""*")$ !"""*(!$ !""(*"&$ !""(*"+$ !""(*("$ !""!*"($ !""!*"'$ !""!*",$ !""!*(!$ !""&*"'$ !""&*",$ !""&*(!$ !""'*"&$ !""'*"-$ !"#$

%&'()*+,-.$/0.0$ ./01203$40256567$ 829:1203$40256567$

Checkpoint LM #lines Prec Rec SER

1999-12 1.27 Million 92.4% 77.0% 29.0% 2000-12 1.86 Million 92.5% 79.3% 26.6% 2001-12 2.36 Million 93.0% 79.9% 25.7% 2002-12 2.78 Million 93.2% 80.8% 24.7% 2003-12 3.10 Million 92.9% 82.2% 23.6% 2004-08 3.36 Million 93.2% 83.2% 22.5%

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

Impacto das variações da língua

Resultados sobre corpora escrito

Treino iterativo

• É proposta a seguinte abordagem

–Treinar com novos dados, mas usando os valores do modelo anterior para iniciar o novo modelo

–O treino é realizado com os novos dados, sendo os modelos anteriores ajustados a esses novos dados iterativamente Evaluation Set Prec Rec SER

2004-12 test set 93.3% 82.2% 23.3%

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology from seed

Conteúdo

Introdução

Corpus de fala

Tarefa de pontuação/segmentação

Tarefa de maiusculização

Impacto das variações da língua

Trabalho mais recente

(10)

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Trabalho mais recente

em termos de pontuação

Actualmente, as experiências recuperam o ponto final e a vírgula em

simultâneo, usam features baseadas em trigramas e tiram partido de

part-of-speech.

Tem-se utilizado corpora escrito para melhorar o desempenho dos

modelos

cria-se um modelo inicial, com base em corpora escrito, que é depois

usado para fornecer os pesos iniciais no treino de novos modelos, com

base em transcrições

Primeiros passos na utilização de features prosódicas

Ajuste automático da fronteira de palavras (com Helena Moniz)

O modulo actualmente já funciona com Inglês e com Espanhol

55

Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory

Trabalho mais recente

em termos de maiusculização

Adoptou-se a abordagem baseada em ME

features baseadas em trigramas: w

i

, 2w

i!1

, 2w

i

, 3w

i!2

, 3w

i!1

Introdução de conhecimento linguístico

Utilização de um conjunto de pistas linguísticas que, dando conta de

sequências impossíveis no Português, permitem detectar

estrangeirismos, os quais aparecem usualmente grafados a maiúscula.

O modulo actualmente já funciona com Inglês e com Espanhol

56

Friday, 4 December 2009

Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa

technology

from seed

L2 F - Spoken Language Systems Laboratory 57

Questões em aberto

Utilizar features prosódicas

contorno do pitch, velocidade da fala, energia e duração dos fones

Apenas foram tratados o ponto final e a vírgula. Falta a detecção de

outras marcas de pontuação, em particular o ponto de interrogação.

Avaliar manualmente a qualidade da transcrição

A anotação da pontuação em fala espontânea parece divergir entre

anotadores. Este assunto irá ser aprofundado através de uma avaliação

humana da aceitabilidade da colocação da vírgula, manual e

automaticamente.

Treino semi-supervisionado/co-treino

Dados de notícias televisivas disponíveis a partir de 2003

Comparar com outros métodos de classificação, ex: CRF

Referências

Documentos relacionados

Esta dissertação pretende explicar o processo de implementação da Diretoria de Pessoal (DIPE) na Superintendência Regional de Ensino de Ubá (SRE/Ubá) que

[r]

Além desta verificação, via SIAPE, o servidor assina Termo de Responsabilidade e Compromisso (anexo do formulário de requerimento) constando que não é custeado

De acordo com o Consed (2011), o cursista deve ter em mente os pressupostos básicos que sustentam a formulação do Progestão, tanto do ponto de vista do gerenciamento

Este questionário tem o objetivo de conhecer sua opinião sobre o processo de codificação no preenchimento do RP1. Nossa intenção é conhecer a sua visão sobre as dificuldades e

Nessa situação temos claramente a relação de tecnovívio apresentado por Dubatti (2012) operando, visto que nessa experiência ambos os atores tra- çam um diálogo que não se dá

Não fez Com duas soluções uma sofrendo redução e a outra oxidação, em um circuito fechado com fio condutor metálico e uma ponte salina é possível produzir uma pilha química

em efeitos superiores, contudo, considerando-se a realização do experimento apenas no Rio Grande do Sul e as particularidades de cada região produtiva, a extrapolação dos