• Nenhum resultado encontrado

2.1 PROCESSAMENTO DE VOZ

2.1.2 Reconhecimento Automático de Voz

Um sistema ASR típico adota uma estratégia estatística baseada em modelos ocultos de Markov (HMM), detalhadamente estudados por Huang et al. (1991), e é composto por cinco blocos: front-end, dicionário fonético, modelo acústico, modelo de linguagem e decodificador, como indicado na Figura 2.2. As duas principais aplicações de ASR são comando e controle e ditado (HUANG et al., 2001). A

4 http://www.ivona.com/us/reader. Acesso em: 15 nov. 2013. 5 http://freetts.sourceforge.net. Acesso em: 15 nov. 2013. 6 http://espeak.sourceforge.net. Acesso em: 15 nov. 2013.

primeira é relativamente simples, pois o modelo de linguagem é composto por uma gramática que restringe as sequências de palavras aceitas. A última, tipicamente, suporta um vocabulário com mais de 60 mil palavras e exige mais processamento.

Segundo Huang et al. (2001), o processo de front-end convencional extrai segmentos curtos (janelas ou frames) de um sinal de voz e converte, a uma taxa de frames constante, cada segmento para um vetor de dimensão . Assume-se aqui que frames são organizados em uma matriz de dimensão × , que representa uma sentença completa. Existem várias alternativas no que diz respeito à parametrização do sinal de voz. Apesar da análise dos coeficientes cepstrais de frequência da escala Mel (MFCC) ser relativamente antiga (DAVIS; MERMELSTEIN, 1980), essa provou ser efetiva e é geralmente usada como entrada para os blocos de back-end do sistema ASR (HUANG et al., 2001).

Figura 2.2 – Principais blocos de um típico sistema ASR.

O modelo de linguagem de um sistema de ditado, fornece a probabilidade (τ) de observar a sentença = [ , … , ] de palavras. Segundo Rabiner e Juang (1993), conceitualmente, o decodificador tem como objetivo achar as sentenças ∗ que maximizam a probabilidade a posterior dada por:

= ! max

%

( | ) = ! max

%

'( |%)'(%)

onde ( | ) é dada pelo anterior é equivalente a:

Na prática, uma co modelo de linguagem ( dos modelos acústicos

Dado o grande volu não pode ser calculada sistemas ASR usam estru separar as sentenças e chamadas de fones (HUA e, na maioria dos caso outras palavras, para t candidatas são descar (DESHMUKH et al., 1999

Um dicionário fon mapeamento das palavr melhor desempenho, HM cada estado é modelada 2.3. A topologia típica de permitidas são de um est

Figura 2.3 – Representação estados e uma mistu

lo modelo acústico. Como ( ) não depen

= ! max

%

( | ) ( )

constante empírica é usada para ponderar ( ) antes de a mesma ser combinada c

( | ).

olume de sentenças concorrentes (hipótes ada independentemente para cada hipó struturas de dados como árvores léxicas, u em palavras, e as palavras em unida UANG et al., 2001). A busca por ∗ é cham sos, hipóteses são descartadas ou poda

tornar viável a busca pela “melhor” artadas e a Equação 2.2 não é ca 99) (JEVTIC et al., 2001).

fonético (conhecido também como mod avras em unidades básicas (fones) e vi

MM contínuas são adotadas, onde a distr da por uma mistura de Gaussianas, como de uma HMM é a esquerda-direita, onde a estado para ele mesmo ou para o estado se

ão gráfica de uma HMM contínua de topologia esqu stura de três Gaussianas por estado. Adaptada de B

ende de , a equação (2.2) rar a probabilidade do com a probabilidade teses), a Equação 2.2 ipótese. Portanto, os , usando o artifício de idades básicas, aqui hamada decodificação dadas (pruning). Em ” sentença, algumas calculada para elas

odelo léxico) faz o vice-versa. Para um stribuição de saída de o mostrado na Figura e as únicas transições seguinte. squerda-direita com três e Batista (2013).

De acordo com Huang et al. (2001), dois problemas clássicos com relação à modelagem acústica são: a inconstância dos fones devido à coarticulação e a insuficiência de dados para estimar os modelos. O método de compartilhamento de parâmetros (sharing) visa combater esse último problema, melhorando a robustez dos modelos. Em muitos sistemas, o compartilhamento é implementado no nível de estado, ou seja, o mesmo estado pode ser compartilhado por HMM diferentes.

O modelo acústico pode conter uma HMM por fone. O que seria uma boa suposição caso um fone pudesse ser seguido por qualquer outro, o que não é verdade, já que os articuladores do trato vocal não se movem de uma posição para outra imediatamente na maioria das transições de fones. Nesse sentido, durante o processo de criação de sistemas que modelam a fala fluente, busca-se um meio de modelar os efeitos contextuais causados pelas diferentes maneiras que alguns fones podem ser pronunciados em sequência (LADEFOGED, 2001). A solução encontrada é o uso de HMM dependentes de contexto, que modelam o fato de um fone sofrer influência dos fones vizinhos. Por exemplo, supondo a notação do trifone − ) + +, tem-se que ) representa o fone central ocorrendo após o fone e antes do fone +.

Segundo Huang et al. (2001), existem basicamente dois tipos de modelos trifones: internal-word e cross-word. As diferenças entre os mesmos é que no caso do internal-word as coarticulações que extrapolam as durações das palavras não são consideradas, o que implica que menos modelos são necessários. Já no caso do cross-word, que considera a coarticulação entre o final de uma palavra e o início da seguinte, a modelagem é mais precisa, porém o número de modelos trifones gerados cresce muito, o que dificulta o trabalho do decodificador e gera uma necessidade de mais dados para treino. Alguns exemplos de transcrição podem ser conferidos na Tabela 2.1.

Tabela 2.1 – Exemplos de transcrições com modelos independentes e dependentes de contexto.

Sentença arroz com bife

Monofones sil a R o s k o~ b i f i sil Internal-

Word sil a+R a-R+o R-o+s o-s k+o~ k-o~ b+i b-i+f i-f+i f-i sil Cross-

Segundo Rabiner e Juang (1993), a escassez de dados de treino também afeta a modelagem da língua, pois:

( ) = (

,

,

, … ,

) ⇒ (2.3)

( ) = (

) (

,

|

) … (

|

,

,

, …

.

) (2.4)

É impraticável estimar a probabilidade condicional ( /| , ,, … /. ), mesmo para valores moderados de 0. Assim, o modelo de linguagem para sistemas ASR consiste de um modelo 1-gram, que assume que a probabilidade ( /| , ,, … /. ) depende somente das 1 − 1 palavras anteriores. Por exemplo, a probabilidade ( /| /.,, /. ) expressa um modelo de linguagem trigrama.

Resumindo, após o treinamento de todos os modelos estatísticos, um sistema ASR na etapa de teste usa o front-end para converter o sinal de entrada em parâmetros e o decodificador para encontrar a melhor sentença .

Os modelos acústicos e de linguagem podem ser fixos durante a fase de teste, porém adaptá-los pode gerar um melhor desempenho. Por exemplo, o domínio de aplicação pode ser estimado e um modelo de linguagem específico usado. Isso é crucial para aplicações com vocabulário técnico, como relatórios médicos de raios X (ANTONIOL et al., 1993). A adaptação do modelo acústico possui igual importância (LEE; GAUVAIN, 1993), sendo que o modelo pode ser adaptado, por exemplo, a um locutor, ou ao sotaque de uma determinada região.

Sistemas ASR que usam modelos independentes de locutor são convenientes, porém devem ser robustos o suficiente para reconhecer, com bom desempenho, áudio de qualquer locutor. Com o custo de exigir que o usuário leia algumas sentenças, técnicas de adaptação ao locutor podem melhorar os modelos HMM para um locutor específico. Técnicas de adaptação podem também ser usadas para compensar variações no ambiente acústico, reduzindo o descasamento causado pelo canal ou efeitos de ruído aditivo.

O conjunto de um decodificador e todos os recursos necessários para sua execução (modelos de linguagem e acústico, etc.) é comumente referido como engine ASR. Existem diversas engines ASR disponibilizadas comercialmente por empresas como Microsoft®, através do Microsoft Language Development Center

Portugal7, e Nuance8. O Grupo FalaBrasil9 do Laboratório de Processamento de Sinais da Universidade Federal do Pará (UFPA) desenvolveu uma engine ASR, de código aberto, específica para o Português Brasileiro, denominada Coruja (SILVA et al., 2010).

Documentos relacionados