• Nenhum resultado encontrado

Capítulo 1. Introdução

1.4. Motivação e desafios

Os primórdios desta tese situam-se nos desafios encontrados durante e depois do desenvolvimento de um sistema de comandos independente do locutor para reconhecer cerca de duas centenas de comandos (Lopes et al., 2008a). Para desenvolver este sistema foi criada uma base de dados de fala com transcrição ortográfica, que foi verificada manualmente. O treino dos modelos de fonemas com contexto à direita e à esquerda

(modelos de trifones) com esta base de dados resultou em aproximadamente 900 modelos de trifones, correspondendo a cerca de 2000 estados de HMM, o que é insuficiente para desenvolver um sistema de grande vocabulário. Um estudo preliminar identificou mais de 30 mil trifones diferentes num dicionário de pronunciação para o português europeu com cerca de 40 mil palavras. Um sistema de reconhecimento de fala contínua de grande vocabulário independente de locutor precisa, normalmente, de centenas de horas de fala para treinar modelos acústicos, tem um vocabulário com 20 mil a 65 mil palavras e apresenta entre 4 mil a 12 mil unidades acústicas ou estados dos HMMs (Zweig and Picheny, 2004). Por exemplo, em (Dahl et al., 2012) é apresentado um sistema com um vocabulário de 65 mil palavras e com 2 mil trifones físicos (53 mil trifones lógicos) que correspondem a cerca de 6 mil estados (por norma, os trifones têm 3 estados) e é indicado que existem 761 estados partilhados pelos trifones.

Todos os trabalhos desenvolvidos nesta tese têm como principal objetivo proporcionar amostras de fala que possam ser usadas para incrementar o número de trifones e o número de amostras de trifones, sem auxílio de um sistema de reconhecimento de fala contínua de grande vocabulário. Com um limitado número de modelos iniciais e não tendo disponível um sistema de reconhecimento de grande vocabulário, é necessário explorar outras técnicas para segmentar, classificar e transcrever os segmentos de áudio que apresentam uma boa qualidade em termos de ruído de fundo e dicção do locutor. A seleção de segmentos de fala é feita com base em restrições definidas a priori de forma a garantir que os segmentos selecionados tenham alguma qualidade (por exemplo, aceitar apenas segmentos sem muito ruído de fundo e que evidenciam fala preparada). Estas restrições são necessárias uma vez que a grande quantidade do material de áudio utilizado nesta tese provém de gravações de noticiários da rádio ou de televisão, onde é possível encontrar segmentos áudio que não correspondem a fala (como por exemplo

jingles, músicas, palmas, ou spots publicitários). Num segmento de fala, é possível

encontrar uma grande variabilidade em termos linguísticos e de locutores bem como uma grande variedade de ambientes acústicos. Exemplos desta variabilidade são as gravações de fala em diversos ambientes (estúdio, rua ou salas com reverberação), com diferentes

canais (microfones, telefones, telemóveis), com vários estilos de fala (lida, formal ou espontânea) e com vários tipos de locutores (profissionais do audiovisual, falantes comuns, dirigentes políticos, intervenientes em debates, etc., além da divisão em género masculino e feminino). É possível restringir a seleção de material de fala para apenas segmentos que tenham indícios de conter fala preparada ou fala proferida por um determinado locutor ou um conjunto predefinido de locutores, como, por exemplo, os

pivôs de noticiários. Por norma, os pivôs têm uma boa dicção, estão em estúdios durante

a emissão de noticiários e seguem um guião, podendo as suas falas serem consideradas falas lidas. As locuções produzidas durante a leitura de textos em estúdios apresentam poucos problemas, ao contrário do que acontece, por exemplo, com as locuções de fala espontânea, que são propícias à presença de eventos de hesitações ou disfluências, como pausas preenchidas, prolongamentos vocálicos, repetições e correções. Se for possível detetar e rejeitar os segmentos problemáticos, os restantes podem integrar uma base de dados de treino de modelos acústicos.

Para aplicar as restrições de escolha de segmentos de fala, foi necessário implementar vários algoritmos que lidam com os seguintes problemas:

 deteção de mudança de locutores;

 identificação de determinadas classes acústicas;

 identificação de segmentos produzidos pelo mesmo locutor (diarização de locutores);

deteção de músicas e jingles;

 deteção de estilos de fala;

 transcrição fonética dos segmentos.

Após a seleção dos segmentos de áudio que cumprem os requisitos predefinidos, é preciso gerar as suas transcrições fonéticas. Nesta tese, propõe-se o uso da técnica de

word-spotting para colmatar a indisponibilidade de um sistema de reconhecimento de

fala de grande vocabulário. O word-spotting é uma técnica para detetar a presença e a localização de uma palavra ou uma sequência de palavras numa locução (Amir et al.,

grafemas para fonemas. O conversor de grafemas para fonemas possibilita pesquisas sem restrições de vocabulário e auxilia no incremento de número de trifones ou seleção de palavras com um determinado padrão de fonemas. Foi implementado um sistema de conversão de grafemas para fonemas, foi gerado um dicionário de pronunciação com cerca de 40 mil palavras e foi também implementado um sistema preliminar de word-

spotting.

Outro assunto investigado prende-se com o problema da coarticulação, mais propriamente, com a geração da transcrição fonética com a possibilidade de existência de coarticulação interpalavras e intrapalavra, diretamente a partir da transcrição ortográfica. A Figura 1 ilustra o esquema que resume o encadeamento dos vários trabalhos desenvolvidos com o objetivo de criar uma base de dados de fala com transcrição fonética. Os segmentos de fala com a transcrição fonética podem ser utilizados para treinar os modelos acústicos, aumentando progressivamente o número de amostras de trifones e o seu número. Todo este processo pode ser executado sem intervenção humana e sem o auxílio de um sistema de reconhecimento de fala de grande vocabulário para obter transcrições fonéticas, como é comum nos sistemas de treino não supervisionados descritos na literatura (Gales et al., 2006; Huijbregts, 2008; Matsoukas et al., 2006; Wang et al., 2007).

Figura 1 – Geração de transcrição fonética de segmentos de fala. noticiários fala + transcrição ortográfica word-spotting dicionário + modelos acústicos regras de co-articulação + alinhamento segmentação e seleção de segmentos fala + transcrição fonética

Capítulo 2.

Sistemas de reconhecimento automático de

Documentos relacionados