• Nenhum resultado encontrado

1.2 Publicações

2.1.2 Pré-processamento do texto

2.1.5.3 Sintetizadores articulatórios

Os modelos baseados em síntese articulatória procuram simular, de forma realista, os mecanismos fisiológicos de produção de fala. Neste sentido, a síntese de base articulatória é considerada o modo mais “natural” de produzir fala (Taylor, no prelo, p.422).

Este método é definido por Teixeira et alii (2005) nos seguintes termos:

Articulatory synthesis generates the speech signal through modeling of physical, anato- mical, and physiological characteristics of the organs involved in human voice produc- tion. (...) In the articulatory approach, the system is modeled instead of the signal or

its acoustics characteristics. Approaches based on the signal try to reproduce the sig- nal of a natural voice as faithfully as possible with few or no concern about how it is produced. In contrast, a model based on the production system uses physical laws to des- cribe the sound propagation in the vocal tract and models mechanical and aeroacoustic phenomena to describe the oscillation of the vocal folds. (Teixeira et alii, 2005, p.1436)

Este tipo de sintetizadores incluem, regra geral, dois componentes (Teixeira, 2000): 1) um modelo anatómico-fisiológico das estruturas implicadas na produção de fala, que transforma a posição dos vários articuladores (maxilar, língua, velo, etc.) em áreas transversais do tracto vocal; 2) e um modelo de propagação dos sons nessas mesmas estruturas, que descreve as propriedades acústicas do sistema vocal através de um conjunto de equações. Este segundo modelo engloba, por sua vez, diversas subtarefas que vão desde a criação de uma fonte excitação glotal e fontes de ruído até à simulação da radiação da energia acústica nos lábios e/ ou narinas, passando pela propagação do som nas cavidades sub e supra-glotais16.

A posição dos articuladores (e respectivas áreas) pode ser estimada a partir de métodos directos - como a radiografia simples, actualmente substituída pela ressonância magnética, ou outras técnicas (e.g. tomografia computorizada, X-Ray Microbeam 17 ou articulografia electromagnética) (Teixeira, 2000; Shadle & Damper, 2001) - ou pode ser obtida com base no sinal acústico.

Não obstante o enorme potencial desta abordagem, enfatizado no conjunto de citações adi- ante transcritas, e os recentes avanços na área, há ainda um longo caminho a percorrer até que a síntese articulatória se constitua como uma verdadeira alternativa aos métodos actualmente utilizados nos sistemas de conversão de texto para fala. Mais do que uma tecnologia comercialmente viável, a síntese articulatória é considerada, antes de mais, uma das mais importantes e poderosas ferramentas ao serviço da investigação em áreas como a produção de fala ou a síntese audio-visual (ou síntese multi-modal) (Taylor, no prelo, p.417)18.

By giving us a better understanding of the speech production mechanisms, articulatory synthesis has the long term potential to solve problems affecting the current approaches 16

Para uma descrição pormenorizada dos vários modelos (articulatórios e acústicos) disponíveis, consultar Teixeira (2000).

17

O X-ray Microbeam é uma técnica imagiológica, inventada e testada por Osamu Fujimura (Universidade de Tóquio), entre 1973 e 1975, que permite produzir representações parametrizadas de vários pontos anatómicos estáticos e dinâmicos. Foi desenvolvida com o intuito de reduzir as doses de radiação, emitidas pelos sistemas de radiografia simples e cine- radiografia, e simplificar a análise da informação. Um sistema de segunda geração foi desenvolvido na Universidade de Wisconsin (Westbury et alii, 1994).

18O objectivo geral da síntese audio-visual é a construção de talking-heads i.e. sistemas em que a síntese de fala se

combina com modelos paramétricos da face humana. A componente visual do discurso (visible speech) pode aumentar, em muito, a inteligibilidade da mensagem, nomeadamente em ambientes comunicativos ruidosos - como foi, aliás, demonstrado pelos estudos perceptuais conduzidos por Siciliano et alii (2003) ou Massaro (2002) - mas, acima de tudo, o visible speech é um excelente canal de comunicação para os indivíduos com perdas auditivas. O Baldi é um dos mais conhecidos sistemas de síntese audio-visual, com reconhecido potencial, não só no apoio a crianças com necessidades educativas especiais (Barker, 2003; Bosseler & Massaro, 2003; Massaro & Light, 2004), mas também como suporte ao ensino de uma língua estrangeira (Massaro & Light, 2003).

in speech synthesis. (Gabioud, 1994, p.215)

Ultimately, concatenative synthesis is not the answer. In the long term, articulatory synthesis has more potential, not only for extending our knowledge of speech science, but for high-quality speech synthesis. (Shadle & Damper, 2001)

It has long been conjectured that synthesis based on articulatory models is the most ver- satile synthesis method and will ultimately produce the most natural-sounding speech. There are several reasons for the belief in this conjecture: such models control the same slowly varying parameters that are controlled in human speech production; the inte- raction between the vocal cords and the vocal tract is natural and should lead to more natural excitation; the parameters of the model are well suited for interpolation and also well suited for modification in order to produce various voices. (Sondhi & Sinder, 2005,

p.75-76)

Entre os principais factores que dificultam o desenvolvimento de tais modelos estão ainda a falta de dados articulatórios sobre o processo de produção de fala - a maior parte dos dados disponíveis dizem respeito a configurações estáticas, enquanto a informação sobre a dinâmica dos articuladores é ainda muito escassa - e de estratégias de controlo apropriadas (Carlson, 1994). Outras dificuldades estão relacionadas com a ausência de um processo de inversão completo, para obtenção dos parâme- tros articulatórios a partir de fala natural, e a complexidade e morosidade dos cálculos necessários à simulação (Teixeira, 2000).

As origens da síntese articulatória remontam às “máquinas falantes” do século XVIII. De entre estas, a mais conhecida é, porventura, a “Acoustical Mechanical Speech Machine”, arquitectada pelo multifacetado Wolfgang Ritter von Kempelen (Lemmetty, 1999; Schröeder, 1993; Flanagan, 1972; Liénard, 1991) e capaz de produzir sons isolados e até “several hundreds of words, clearly and distinctly. For instance Papa, Mama, Marianna, Roma, Maladie, Santé, Astronomie ... as well as long and difficult words such as Constantinopolis, Monomotapa, Mississipi, Astrakan, Anastasius, etc...” (Kempelen, 1791, apud Liénard, 1991, p.21), para além de um número limitado de frases.

Motivado por questões relacionadas com a educação dos surdos-mudos, Kempelen iniciou a construção da sua máquina em 1769, mas só a terminou 20 anos depois, em 179119.

De um modo geral, a máquina era constituída por um fole, que funcionava como fonte de ar para uma caixa de ressonância; uma palheta vibratória de metal para simular as cordas vocais; e um tubo de couro flexível para o tracto vocal 20. Através da manipulação da forma do tubo, era

19Kempelen terá apresentado versões parciais da sua “máquina falante” numa tournée efectuada pela Europa entre 1783

e 1785 (Barbosa, 2005; Pompino-Marschall, 2005).

20

Kempelen descreve pormenorizadamente a sua “máquina falante” no livro “Mechanismus der menschlichen Sprache nebst Beschreibung einer sprechenden Maschine”, publicado, numa edição paralela alemão-francês, em 1791. Este inclui ainda várias reflexões sobre o mecanismo de produção de fala, de modo que é considerado “a milestone in the history of phonetics, incorporating many insightful observations on articulatory mechanisms, whereas the speaking machine clearly a milestone in audio engineering.” (Pompino-Marschall, 2005, p.155).

possível simular o som das várias vogais, que, contudo, apresentavam problemas de inteligibilidade. Para produzir as diferentes consoantes, incluindo as nasais, existiam quatro constrições ao longo do tubo, controladas manualmente, através das mãos do operador21.

Se até então, a laringe era considerada o elemento central na produção de voz, as experi- ências de Kempelen vieram salientar o papel fulcral do tracto vocal no processo de articulação dos sons.

O fascínio do engenho de Kempelen faz-se sentir ao longo de quase dois séculos e várias foram as suas reproduções, destacando-se a do físico britânico Charles Wheatstone (Lemmetty, 1999; Flanagan, 1972) 22, a do inventor do telefone Alexander Graham Bell (Schröeder, 1993; Flanagan, 1972)23e do imigrante alemão Joseph Faber24.

Já na era dos sintetizadores eléctricos, mais precisamente em 1922, Stewart apresenta o primeiro análogo eléctrico do tracto vocal capaz de gerar sons sintéticos (Lemmetty, 1999; Klatt, 1987).

Contudo, o grande marco na história da síntese articulatória (e da síntese de fala em geral) aconteceu, sem dúvida, em 1939 (Schröeder, 1993; Lemmetty, 1999; Klatt, 1987; Liénard, 1991), quando o engenheiro dos Laboratórios Bell, Homer Dudley, deu a conhecer à comunidade científica o sistema de síntese por ele desenvolvido, denominado VODER. O dispositivo, exibido na Exposição Universal (1939) de Nova Iorque, apresentava-se como o primeiro capaz de gerar uma frase completa e dispunha de um interruptor para seleccionar o sinal de entrada, um pedal que permitia controlar a frequência fundamental, um teclado, a partir do qual o operador controlava a amplitude dos dez filtros passa-banda, e um amplificador. O correcto manuseio do sintetizador exigia bastante treino e habilidade, de modo que as operadoras responsáveis pela demonstração do equipamento na referida exposição precisaram de um ano de preparação. Embora a inteligibilidade do sinal gerado fosse bastante reduzida, ficaram demonstradas as potencialidades do sistema para produzir fala artificial. O sistema VODER tinha como inspiração um mecanismo de análise do sinal de voz, também desenhado por Dudley poucos anos antes, o Voice Coder (VOCODER).

21Uma das muitas versões da “máquina falante” construída por Kempelen está patente no departamento dedicado aos

instrumentos musicais, no Deutsches Museum, em Munique (http://www.ling.su.se/staff/hartmut/kemplne.htm). Destacam- se, ainda, as reconstituições de Liénard (1967) e Broecke (1983), bem como as réplicas recentes de Nikléczy & Olaszy (2003) e Brackhane & Trouvain (2008).

22Em 1835, Charles Wheatstone apresenta, em Dublin, uma nova versão da “máquina falante” de Von Kempelen (Lem-

metty, 1999; Flanagan, 1972). De arquitectura complexa, o engenho mecânico era, de um modo geral, dotado de todos os componentes presentes no modelo original (fole, palheta e tubo de couro).

23

O sintetizador mecânico de Bell incluia uma réplica de todos os orgãos envolvidos no mecanismo de produção de voz: lábios de arame cobertos de borracha, língua de madeira, palato, dentes, faringe e velo (Schröeder, 1993; Flanagan, 1972). Segundo Bell, o dispositivo era capaz de produzir vogais, consoantes nasais e pequenos enunciados simples. São também conhecidas as suas inusitadas experiências com o seu cão Skye, na tentativa de induzir o animal a produzir voz humana.

24

O sofisticado aparelho de Faber, conhecido como “Amazing Talking Machine”, incluia uma cabeça e um busto de homem vestido à maneira turca e, no interior, foles, uma glote, uma língua de marfim, uma câmara de ressonância e uma cavidade vocal com palato de borracha, maxilar inferior e bochechas (Riskin, 2003). O artefacto de grandes dimensões, capaz de produzir voz normal e murmurada e até de cantar, era controlado através de pedais e de um teclado de 17 teclas.

A partir do modelo eléctrico para simulação do tracto vocal 25, desenvolvido por Dunn (1950) e aperfeiçoado por Stevens et alii (1953), Rosen (1958) contrói, no MIT, o primeiro circuito para a realização de síntese articulatória de forma automática (Klatt, 1987). Contrariamente aos dis- positivos eléctricos iniciais, o DAVO era capaz de produzir sons contínuos e incluia um modelo do tracto nasal.

Já na década de 60, são apresentados os primeiros modelos que representam a cavidade oral no plano sagital. O modelo desenvolvido por Coker (1967), bem como os propostos por Mermelstein (1973) e Flanagan et alii (1975), estão entre os mais usados, ainda hoje, pelos investigadores da área da síntese articulatória (Carlson, 1994).

O modelo articulatório de Mermelstein (1973) esteve na base do primeiro sistema TTS completo para a língua inglesa, desenvolvido por Teranishi & Umeda (1968), no Electrotechnical

Laboratory, no Japão. Apresentado no 6th Internacional Congress on Acoustics, em Tóquio, o dispo-

sitivo incluia um módulo de análise sintáctica bastante sofisticado, mas a qualidade do som não era a melhor (Lemmetty, 1999; Klatt, 1987).

É também neste modelo computacional do tracto vocal que se baseia o sintetizador articula- tório de Rubin et alii (1981), desenhado nos Laboratórios Haskins, com vista à realização de estudos de produção e percepção.

A síntese articulatória continuará a desenvolver-se ininterruptamente, tendo-se assistido, nos últimos anos, ao aperfeiçoamento de modelos já existentes, como o Configurable Articulatory

Synthesizer (CASY) (Rubin et alii, 1996; Iskarous et alii, 2003) ou o High Level Parameter Speech Synthesis System (HLsyn) (Stevens & Hanson, 2003); ao aparecimento de modelos tridimensionais

do tracto (e.g. Engwall, 1999; Birkholz et alii, 2006; Bailly et alii, 2002), com versões adaptadas para a síntese de canto (Birkholz, 2007a); à criação de modelos flexíveis para a simulação de estruturas complexas como a língua (Engwall, 2004); ao desenvolvimento de sintetizadores com capacidade de simular o crescimento do tracto vocal, desde a infância até à idade adulta (Birkholz & Kröger, 2007), e ao aparecimento de novos modelos acústicos.

A grande maioria destes desenvolvimentos só foi possível graças ao advento de novas téc- nicas para medição da geometria do tracto vocal - e.g. a articulografia electromagnética 3D, a ultra- sonografia e a ressonância magnética tridimensional - que possibilitam não só um conhecimento mais detalhado da relação acústico-articulatória, como também uma medição mais precisa dos articulado- res.

25

O “Electrical Vocal Tract” criado por Dunn (1950) era alimentado por uma fonte sonora e composto por um conjunto de circuitos, para modelar as ressonâncias do tracto vocal, e uma “tongue component” (Cook et alii, 2006), capaz de se mover ao longo dos filtros ressoadores. Apesar da incapacidade de produzir consoantes, a qualidade das vogais sintetizadas era reconhecidamente elevada (Cook et alii, 2006; Rubin & Vatikiotis-Bateson, 2006).