• Nenhum resultado encontrado

Interface com reconhecimento de fala para apoio a pessoas com limitações funcionais

N/A
N/A
Protected

Academic year: 2021

Share "Interface com reconhecimento de fala para apoio a pessoas com limitações funcionais"

Copied!
157
0
0

Texto

(1)

Universidade de AveiroDepartamento deElectr ´onica, Telecomunicac¸ ˜oes e Inform ´atica. 2007

CARLOS JORGE ENES

CAPIT ˜

AO DE ABREU

INTERFACE COM RECONHECIMENTO DE FALA PARA

(2)

Universidade de AveiroDepartamento deElectr ´onica, Telecomunicac¸ ˜oes e Inform ´atica. 2007

CARLOS JORGE ENES

CAPIT ˜

AO DE ABREU

INTERFACE COM RECONHECIMENTO DE FALA PARA

APOIO A PESSOAS COM LIMITAC

¸ ˜

OES FUNCIONAIS

Dissertac¸ ˜ao apresentada `a Universidade de Aveiro para cumprimento dos requisitos necess ´arios `a obtenc¸ ˜ao do grau de Mestre em Engenharia Biom ´edica - Ramo Instrumentac¸ ˜ao, Sinal e Imagem M ´edica, realizada sob a orientac¸ ˜ao cient´ıfica do Doutor Jos ´e Alberto Gouveia Fonseca, Professor Associado e do Doutor Ant ´onio Joaquim da Silva Teixeira, Professor Auxiliar, ambos do Departamento de Electr ´onica, Telecomunicac¸ ˜oes e Inform ´atica da Universidade de Aveiro.

(3)
(4)

O fruto de cada palavra retorna a quem a pronunciou. Abu Shakur

(5)

O j ´uri

Presidente Doutora Beatriz Sousa Santos

Professora Associada com Agregac¸ ˜ao da Universidade de Aveiro.

Vogais Doutor Jos ´e Alberto Gouveia Fonseca

Professor Associado da Universidade de Aveiro (Orientador).

Doutor Ant ´onio Joaquim da Silva Teixeira

Professor Auxiliar da Universidade de Aveiro (Co-Orientador).

Doutor Francisco Godinho

(6)

Agradecimentos Aproveito esta oportunidade para agradecer a todos os Professores que, ao longo dos ´ultimos anos, partilharam comigo os seus conhecimentos e, dessa forma, permitiram que atingisse esta fase da minha formac¸ ˜ao acad ´emica. Aos Professores Ant ´onio Joaquim da Silva Teixeira e Jos ´e Alberto Gou-veia Fonseca, um agradecimento especial pela sua orientac¸ ˜ao durante a elaborac¸ ˜ao deste trabalho.

`A Micro I/O pelos meios disponibilizados, sem os quais, n˜ao teria sido poss´ıvel realizar este trabalho.

Ao Centro de Medicina de Reabilitac¸ ˜ao da Regi ˜ao Centro - Rovisco Pais, pela cooperac¸ ˜ao disponibilizac¸ ˜ao dos meios necess ´arios `a realizac¸ ˜ao dos ensaios com utilizadores em recuperac¸ ˜ao.

`A Dr.ª Arminda Lopes, pela disponibilidade e acompanhamento aos doentes durante os ensaios.

`A Manuela, ao M´arcio e ao jo˜ao Eduardo, pela disponibilidade e cooperac¸˜ao durante a realizac¸ ˜ao dos ensaios.

Ao Dr. Em´ılio Enes pela revis ˜ao atenta que fez a estas p ´aginas.

Ao Microsoft Language Development Center, por disponibilizar o reco-nhecedor de fala multi-utilizador, sem o qual n ˜ao teria sido poss´ıvel obter resultados t ˜ao animadores.

(7)

Palavras-chave Interfaces Humano-m ´aquina (HMI), dom ´otica, limitac¸ ˜oes funcionais, reconhe-cimento de fala.

Resumo A utilizac¸ ˜ao de tecnologia nas habitac¸ ˜oes dom ´esticas ´e uma realidade cres-cente. Os sistemas dom ´oticos apoiam-nos na realizac¸ ˜ao de um sem n ´umero de tarefas quotidianas. Al ´em do conforto que proporcionam, estes sistemas permitem que as pessoas com limitac¸ ˜oes funcionais tenham maior autono-mia e mobilidade dentro das suas habitac¸ ˜oes. Existem, contudo, alguns ca-sos em que as interfaces entre os sistemas dom ´oticos e as pessoas com limitac¸ ˜oes funcionais n ˜ao s ˜ao as mais adequadas. O objectivo deste trabalho ´e desenvolver uma interface de f ´acil utilizac¸ ˜ao entre pessoas com limitac¸ ˜oes funcionais e o sistema dom ´otico B-LIVE. Tendo em conta as limitac¸ ˜oes f´ısicas destas pessoas, a fala, como interface humano-m ´aquina, foi o ponto de par-tida para o trabalho desenvolvido. Esta dissertac¸ ˜ao apresenta uma inter-face humano-m ´aquina com reconhecimento de fala, tendo em vista a sua utilizac¸ ˜ao por pessoas com limitac¸ ˜oes funcionais para que estas possam in-teragir com o B-LIVE. Foram desenvolvidas duas vers ˜oes da interface, uma com um reconhecedor dependente do orador e outra com um reconhecedor independente do orador. Em ambos os casos os resultados obtidos (quer em ambiente laboratorial, quer em utilizac¸ ˜ao real), permitem concluir que a fala

(8)

Keywords Human-machine interfaces (HMI), home automation, disabled people, speech recognition.

Abstract The utilization of technology in our homes is a growing reality. Home auto-mation can support us in many of our daily tasks. Apart from the comfort that these systems provide, they allow disabled people to achieve more autonomy and mobility within their homes. There are, however, some cases where the interfaces between home automation systems and disabled people are not the most appropriate. The purpose of this work is to develop a user friendly interface between disabled people and the home automation system B-LIVE. Given the physical limitations of these people, speech as human-machine interface was the starting point for this work. This dissertation presents a human-machine interface with speech recognition, that can be used by disa-bled people so that they can interact with the B-LIVE system. We have de-veloped two versions of the interface: one with a speaker dependent speech recogniser and another with a speaker independent speech recogniser. In both cases the results (both in laboratory environment and in real utilization), suggest that speech is a viable interface to be used in these applications.

(9)

Conte ´udo

1 Introduc¸ ˜ao 1

1.1 Necessidades Especiais . . . 2

1.2 Enquadramento . . . 2

1.3 A fala como interface humano-m ´aquina . . . 3

1.4 Objectivos . . . 4

1.5 Organizac¸ ˜ao da presente dissertac¸ ˜ao . . . 4

1.6 Resultados j ´a publicados . . . 6

2 A fala como meio de comunicac¸ ˜ao entre Humanos 7 2.1 Produc¸ ˜ao de sinais ac ´usticos de fala . . . 8

2.1.1 Constituic¸ ˜ao do aparelho produtor humano . . . 10

2.1.2 Princ´ıpios de funcionamento do aparelho produtor humano . . . 12

2.1.3 Classificac¸ ˜ao dos sons da fala . . . 13

2.2 Percepc¸ ˜ao de fala . . . 16

2.2.1 Constituic¸ ˜ao do aparelho auditivo humano . . . 18

2.2.2 Princ´ıpio de funcionamento do aparelho auditivo humano . . . 19

2.3 Coordenac¸ ˜ao e controlo dos aparelhos produtor e auditivo . . . 20

2.3.1 Enervac¸ ˜ao do aparelho produtor humano . . . 23

2.3.2 Enervac¸ ˜ao do aparelho auditivo humano . . . 23

2.4 Coment ´arios finais . . . 23

3 Reconhecimento de fala 25 3.1 Definic¸ ˜ao do problema . . . 26

3.2 Componentes de um reconhecedor t´ıpico . . . 29

3.3 Extracc¸ ˜ao de par ˆametros . . . 31

3.3.1 Pr ´e- ˆenfase . . . 31

3.3.2 Aplicac¸ ˜ao da janela de an ´alise . . . 31

3.3.3 Coeficientes Mel Frequency Cepstral Coefficients . . . . 32

3.3.4 Energia e coeficientes delta . . . 33

3.4 Modelo da linguagem . . . 34

3.4.1 Modelos N-grams . . . 34

3.4.2 Modelos Finite State Model . . . . 35

3.4.3 Perplexidade . . . 35

3.5 Modelos Ac ´usticos . . . 36

(10)

3.5.2 Sistemas de reconhecimento da fala baseados em modelos de Markov n ˜ao

observ ´aveis . . . 40

3.5.3 Treino de reconhecedores de fala . . . 41

3.6 Descodificador . . . 42

3.7 Avaliac¸ ˜ao . . . 43

3.8 Coment ´arios finais . . . 44

4 Desenvolvimento de uma interface Speech Enabled para pessoas com limitac¸ ˜oes fun-cionais 45 4.1 Princ´ıpio de funcionamento . . . 46

4.1.1 Reconhecimento de fala . . . 46

4.1.2 An ´alise e validac¸ ˜ao . . . 47

4.1.3 Actuac¸ ˜ao . . . 48

4.2 Arquitectura da aplicac¸ ˜ao de interface . . . 49

4.2.1 Interface Layer . . . . 49

4.2.2 Business Layer . . . . 50

4.2.3 Hardware Layer . . . . 52

4.2.4 Database Layer . . . 55

4.2.5 External Connection Layer . . . . 57

4.2.6 Recognizer Layer . . . 58

4.3 Base de Dados . . . 59

4.4 Sistema dom ´otico para pessoas com limitac¸ ˜oes funcionais: B-LIVE . . . 61

4.4.1 Arquitectura do sistema B-LIVE . . . 62

4.4.2 Protocolo de comunicac¸ ˜oes utilizado pelo B-LIVE . . . 63

4.4.3 Firmware B-LIVE . . . . 64

4.4.4 Arquitectura do Firmware B-LIVE . . . . 65

4.4.5 Operac¸ ˜ao do sistema B-LIVE . . . 66

4.4.6 Conclus ˜ao . . . 67

4.5 Selecc¸ ˜ao da ferramenta de reconhecimento de fala, para construir o reconhecedor dependente do orador . . . 67

4.5.1 Hidden Markov Model Toolkit . . . . 69

4.5.2 Projecto Sphinx . . . 72

4.5.3 Conclus ˜ao . . . 75

4.6 Reconhecedor de fala dependente do orador, baseado em HTK . . . 76

4.6.1 Configurac¸ ˜oes e preparac¸ ˜ao dos dados . . . 77

4.6.2 Criac¸ ˜ao dos modelos monofones . . . 82

4.6.3 Criac¸ ˜ao dos modelos trifones . . . 84

4.6.4 Avaliac¸ ˜ao do reconhecedor . . . 84

4.6.5 Reconhecimento em tempo real . . . 85

4.7 Reconhecedor de fala independente do orador . . . 85

4.8 Coment ´arios finais . . . 89

5 Resultados 91 5.1 Avaliac¸ ˜ao dos resultados obtidos com o reconhecedor dependente do orador . . . . 91

5.1.1 Reconhecimento com modelos monofones . . . 92

5.1.2 Reconhecimento com modelos trifones . . . 92

(11)

5.2 Avaliac¸ ˜ao dos resultados obtidos com o reconhecedor independente do orador . . . 94

5.3 Avaliac¸ ˜ao dos resultados obtidos em utilizac¸ ˜ao real no CMRRC-Rovisco Pais . . . . 95

5.4 Coment ´arios finais . . . 98

6 Conclus ˜oes 99 6.1 Resumo do Trabalho . . . 99

6.1.1 Tecnologias dispon´ıveis no mercado . . . 100

6.1.2 Escolha da ferramenta de reconhecimento a utilizar . . . 100

6.1.3 Bases te ´oricas sobre reconhecimento de fala . . . 101

6.1.4 Limitac¸ ˜oes das pessoas com tetra e paraplegia em produzir sons de fala . . . 101

6.1.5 Desenvolvimento da aplicac¸ ˜ao de interface . . . 101

6.1.6 Desenvolvimento dos reconhecedores de fala . . . 102

6.1.7 Avaliac¸ ˜ao da interface . . . 102

6.2 Principais Resultados . . . 103

6.3 Sugest ˜oes para Continuac¸ ˜ao . . . 104

A Alfabetos fon ´eticos 105 B Reconhecedor de fala dependente do orador, baseado em HTK 109 B.1 Configurac¸ ˜oes e preparac¸ ˜ao dos dados . . . 109

B.1.1 Gram ´atica . . . 110

B.1.2 Criac¸ ˜ao dos conjuntos de frases para treino e teste . . . 113

B.1.3 Dicion ´ario . . . 113

B.1.4 Gravac¸ ˜ao das frases para treino e teste . . . 114

B.1.5 Criac¸ ˜ao dos ficheiros com a transcric¸ ˜ao fon ´etica . . . 116

B.1.6 Extracc¸ ˜ao dos feature vectors . . . . 117

B.2 Criac¸ ˜ao dos modelos monofones . . . 119

B.2.1 Inicializac¸ ˜ao dos modelos monofones . . . 119

B.2.2 Ajuste do modelo de sil ˆencio e introduc¸ ˜ao de pausas curtas . . . 121

B.2.3 Realinhamento dos dados . . . 122

B.3 Criac¸ ˜ao dos modelos trifones . . . 123

B.3.1 Criac¸ ˜ao dos modelos trifones a partir dos monofones . . . 123

B.4 Avaliac¸ ˜ao do reconhecedor . . . 125

B.4.1 Avaliac¸ ˜ao dos monofones . . . 126

B.4.2 Avaliac¸ ˜ao dos trifones . . . 126

B.5 Reconhecimento em tempo real . . . 126

C Avaliac¸ ˜ao e question ´ario 127 C.1 Cen ´ario 1: O utilizador encontra-se na sala e pretende ir `a casa de banho. . . 127

C.2 Cen ´ario 2: O utilizador est ´a no quarto e quer sair para a rua. . . 128

C.3 Question ´ario . . . 129

C.4 Respostas ao question ´ario . . . 131

C.4.1 Utilizador M . . . 131

C.4.2 Utilizador F . . . 132

(12)

Lista de Figuras

1.1 Populac¸ ˜ao sem e com defici ˆencia em Portugal, Censos 2001 [7]. . . 2

2.1 Cadeia da fala: produc¸ ˜ao, transmiss ˜ao e recepc¸ ˜ao de sinais de fala(adaptado de v ´arias fontes). 8 2.2 Produc¸ ˜ao da fala. Depois de formular uma mensagem o c ´erebro envia os sinais nervosos adequados para que os org ˜aos da fala produzam os respectivos sons(adaptado de v ´arias fontes). 9 2.3 Aparelho produtor humano(adaptado de MIT OCW). . . 10

2.4 Percepc¸ ˜ao da fala. Os sons s ˜ao captados e transformados em impulsos nervosos pelo ou-vido. De seguida, os impulsos nervosos s ˜ao analisados e interpretados pelo c ´erebro com o objectivo de descodificar a mensagem recebida(adaptado de v ´arias fontes). . . 17

2.5 Constituic¸ ˜ao do ouvido humano: ouvido externo (pavilh ˜ao auricular, canal auditivo e t´ımpano); ouvido m ´edio (bigorna, estribo, martelo e a trompa de Eust ´aquio); ouvido interno (c ´oclea, vest´ıbulo, canais semicirculares e nervo auditivo) [21]. . . 17

2.6 Neur ´onio: c ´elula principal, dendrites, ax ´onio e sinapses. . . 20

2.7 Nervos cranianos. I-Nervo Olfactivo, II-Nervo ´Optico, III-Nervo Oculomotor, IV-Nervo Troclear, V-Nervo Trig ´emio, VI-Nervo Abducente, VII-Nervo Facial, VIII-Nervo Auditivo, IX-Nervo Glos-sofar´ıngeo, X-Nervo Vago, XI-Nervo Acess ´orio, XII-Nervo Hipoglosso [18] [21] [24]. . . 22

3.1 Diagrama t´ıpico de um sistema de reconhecimento de fala [30] . . . 30

3.2 Processamento do sinal de ´audio. . . 31

3.3 Extracc¸ ˜ao dos vectores de par ˆametros do sinal de fala. . . 32

3.4 Extracc¸ ˜ao dos coeficientes MFCC. . . 33

3.5 Gram ´atica do tipo FSM. . . 35

3.6 HMM erg ´odico. . . 39

3.7 HMM do tipo left-to-rigt. . . . 39

3.8 HMM de um fonema.. . . 40

3.9 C ´alculo da minimum edit distance entre duas frases. . . . 44

4.1 Princ´ıpio de funcionamento da interface com reconhecimento de fala. . . 46

4.2 Estrutura das frases.. . . 47

4.3 Correspond ˆencia entre os conjuntos de frases reconhecidas e de instruc¸ ˜oes. . . 47

4.4 An ´alise da informac¸ ˜ao contida nas frases. . . 48

4.5 Arquitectura da interface Speech Enabled. . . . 49

4.6 Interface com o utilizador. Disponibiliza bot ˜oes para ligar e desligar o reconhecedor e para sair da aplicac¸ ˜ao. Apresenta a informac¸ ˜ao sobre o reconhecimento, vinda do reconhecedor, e o comando correspondente. . . 50

(13)

4.7 Diagrama de classes da Business Layer. A Business Layer utiliza a classe mioBLiveComm para aceder `as comunicac¸ ˜oes, a classe mioJHVite para aceder ao reconhecedor de fala, as classes mioRecognitionAnalyser e mioCommandInfo para analisar as sequ ˆencias de palavras vindas do reconhecedor e as classes Log e Comandos para aceder `as respectivas tabelas na

base de dados. . . 51

4.8 Diagrama de classes da Hardware Layer. O acesso `a porta s ´erie ´e feito pela classe mioSeri-alPort, a classe mioSerialFrame ´e utilizada para detectar e enviar tramas pela porta s ´erie, por fim, a classe mioBLiveComm ´e utilizada para enviar comandos. . . . 53

4.9 Diagrama de classes da Database Layer. A classe mioAccess herda a classe mioEngineBase. As restantes classes utilizam a mioEngineBase para acederem `a base de dados. . . . 56

4.10 Diagrama de classes da External Connection Layer. . . . 57

4.11 Diagrama de classes da Recognizer Layer. . . . 58

4.12 Relac¸ ˜oes entre as tabelas da base de dados.. . . 61

4.13 Arquitectura do sistema B-LIVE. . . 62

4.14 Interacc¸ ˜ao do sistema B-LIVE com o exterior.. . . 62

4.15 Arquitectura dos m ´odulos B-LIVE. . . 63

4.16 Arquitectura interna dos m ´odulos B-LIVE. . . 63

4.17 Estrutura das frames trocadas pela linha s ´erie. . . . 64

4.18 Arquitectura do firmware B-LIVE [8]. . . . 65

4.19 Interface interruptor e rato de boca. . . 67

4.20 Arquitectura da Hidden Markov Model Toolkit [40]. . . . 70

4.21 Arquitectura do Sphinx-4 [41]. . . . 73

4.22 Construc¸ ˜ao do reconhecedor. . . 77

4.23 Cen ´ario de utilizac¸ ˜ao do reconhecedor.. . . 78

4.24 Gram ´atica. . . 80

4.25 Frases iniciadas por “Ligar”e “Desligar”. . . 80

4.26 Prot ´otipo para os HMMs.. . . 83

4.27 Arquitectura da Microsoft Speech API 5.3. M ´ultiplas aplicac¸ ˜oes podem partilhar os speech engines dispon´ıveis atrav ´es da SAPI Runtime. . . . 85

4.28 Estrutura da gram ´atica utilizada pela SAPI 5.3. . . 88

4.29 Gram ´atica utilizada pelo reconhecedor independente do orador. . . 88

5.1 Relat ´orio da avaliac¸ ˜ao feita aos modelos monofones. . . 92

5.2 Relat ´orio da avaliac¸ ˜ao feita aos modelos trifones. . . 93

5.3 Resultados obtidos com o reconhecedor dependente do orador no reconhecimento em tempo real. . . 94

5.4 Dados sobre a naturalidade, sexo e idade dos utilizadores que avaliaram o desempenho do reconhecedor independente do orador. . . 95

5.5 Resultados obtidos no reconhecimento em tempo real, com o reconhecedor independente do orador. . . 96

A.1 Alfabeto fon ´etico internacional [50].. . . 106

A.2 Alfabeto fon ´etico SAMPA [23]. . . 107

B.1 Construc¸ ˜ao do reconhecedor. . . 109

B.2 Cen ´ario de utilizac¸ ˜ao do reconhecedor.. . . 110

(14)

B.4 Frases iniciadas por “Ligar”e “Desligar”. . . 112

B.5 Conjunto de treino.. . . 113

B.6 Dicion ´ario.. . . 115

B.7 Lista de fonemas utilizados. . . 115

B.8 Aplicac¸ ˜ao para gravac¸ ˜ao das frases de treino e teste. . . 116

B.9 Transcric¸ ˜oes ao n´ıvel da palavra. . . 117

B.10Configurac¸ ˜oes para gerar a transcric¸ ˜ao fon ´etica. . . 117

B.11Transcric¸ ˜oes com monofones. . . 118

B.12Ficheiro de configurac¸ ˜ao. . . 119

B.13Correspond ˆencia entre os ficheiros de dados e de feature vectors. . . . 119

B.14Prot ´otipo para os HMMs.. . . 120

B.15Comandos para ajustar o modelo de sil ˆencio.. . . 121

B.16Modelo para as pausas curtas. . . 122

B.17Introduc¸ ˜ao das pausas curtas. . . 123

B.18Transcric¸ ˜oes com trifones. . . 124

B.19Lista de trifones. . . 125

(15)

Lista de Tabelas

2.1 Partes do aparelho produtor Humano: Produtores, Vibrador, Ressoadores, Articuladores e

Sensor/Coordenador. . . 11

2.2 Consoantes da l´ıngua portuguesa e sua classificac¸ ˜ao, quanto ao modo de articulac¸ ˜ao. Re-presentadas segundo a nomenclatura SAMPA [23]. . . 14

2.3 Vogais orais da l´ıngua portuguesa e sua classificac¸ ˜ao [20]. Representadas segundo a no-menclatura SAMPA [23]. . . 16

2.4 Vogais nasais da l´ıngua portuguesa e sua classificac¸ ˜ao [20]. Representadas segundo a no-menclatura SAMPA [23]. . . 16

2.5 Classificac¸ ˜ao dos nervos cranianos e respectivas func¸ ˜oes [21]. . . 21

3.1 Perplexidades t´ıpicas para diferentes dom´ınios.. . . 36

(16)
(17)

Lista de abreviaturas

ANS I

American National Standards Institute

AS CII

American Standard Code for Information Interchange

AT IS

Air Travel Information System

CAN

Controller Area Network

CFG

Context-Free Grammar

CMRRC

Centro de Medicina de Reabilitac¸ ˜ao da Regi ˜ao Centro

CMU

Carnegie Mellon University

CU

Cambridge University

CUED

Speech Vision and Robotics Group of the Cambridge University Engineering De-partment

DARPA

Defense Advanced Research Projects Agency

FFT

Fast Fourier Transform

FS M

Finite State Model

HMI

Human-Machine Interface

HMM

Hidden Markov Model

HP

Hewlett Packard

HS H

Health Smart Homes

HT K

Hidden Markov Model Toolkit

IBM

International Business Machines Corporation

IDFT

Inverse Discrete Fourier Transform

I2C

Inter-Intergrated Circuit

INE

Instituto Nacional de Estat´ıstica

(18)

JDBC

Java Database Connectivity

LCOMDRV

Local Communication Driver

MERL

Mitsubishi Electric Research Laboratories

MFCC

Mel Frequency Cepstral Coefficients

MIT

Massachusetts Institute of Technology

ML

Maximum Likelihood

MLDC

Microsoft Language Development Center

MLF

Master Label File

MMF

Master Macro File

MS

Microsoft

PC

Personal Computer

RS 232

Recommended Standard 232

RCOMDRV

Remote Communication Driver

S AMPA

Speech Assessment Methods Phonetic Alphabet

S API

Microsoft Speech API

S LF

HTK Standard Lattice Format

S ML

Sun Microsystems Laboratories

S NC

Sistema Nervoso Central

S NP

Sistema Nervoso Perif ´erico

S PI

Serial Peripheral Interface

S QL

Structured Query Language

T I

Texas Instruments

UCS C

University of California at Santa Cruz

WER

Word Error Rate

(19)

Cap´ıtulo 1

Introduc¸ ˜ao

O desenvolvimento tecnol ´ogico das ´ultimas d ´ecadas n ˜ao tem precedentes na hist ´oria da humani-dade. Como consequ ˆencia, o n´ıvel de vida da maioria das pessoas dos pa´ıses mais desenvolvidos tem aumentado consideravelmente. Este aumento do n´ıvel de vida faz com que as pessoas pro-curem produtos que aumentem o grau de conforto dos locais onde passam a maior parte do seu tempo. Os sistemas autom ´aticos para controlo de habitac¸ ˜oes s ˜ao disso um bom exemplo.

O conceito de Smart Houses [1] [2], surgiu da investigac¸ ˜ao em Home Automation e Home Networking Areas [3]. Este conceito aliado `a automac¸ ˜ao dom ´estica ´e bastante ´util em aplicac¸ ˜oes de Assistive Technologies. A utilizac¸ ˜ao de Assistive Technologies, em conjunto com Smart Hou-ses, deu origem ao conceito de Health Smart Homes (HSH) [4] [5]. Estas tecnologias n ˜ao repre-sentam apenas uma melhoria de conforto e qualidade de vida, mas tamb ´em uma nova oportunidade para as pessoas com graves limitac¸ ˜oes funcionais.

No caso particular de pessoas com limitac¸ ˜oes funcionais, estas tecnologias podem ser utiliza-das de diversas formas, por exemplo: na monitorizac¸ ˜ao da evoluc¸ ˜ao dos tratamentos de pessoas em recuperac¸ ˜ao de acidentes graves, proporcionando mais independ ˆencia e integrac¸ ˜ao `as pessoas tetra ou parapl ´egicas e tamb ´em no aux´ılio a pessoas idosas na realizac¸ ˜ao de tarefas quotidianas.

(20)

1.1 Necessidades Especiais

Segundo os dados obtidos atrav ´es do Instituto Nacional de Estat´ıstica (INE), tendo em conta os Censos de 2001, existem em Portugal continental cerca de1.693.493habitantes com idade igual ou superior a65anos e 634.408com algum tipo de defici ˆencia [6] [7]. A partir destes dados facilmente se verifica que s ˜ao muitos os potenciais utilizadores de sistemas de HSH.

Figura 1.1:Populac¸ ˜ao sem e com defici ˆencia em Portugal, Censos 2001 [7].

Os dados do INE na figura 1.1, mostram que uma grande fatia das pessoas com defici ˆencia t ˆem defici ˆencia motora, mais exactamente1, 5%o que corresponde a 155.476 pessoas. Estes n ´umeros evidenciam a necessidade de criar sistemas de HSH para apoiar estas pessoas, nas mais diversas tarefas quotidianas e de integrac¸ ˜ao social e laboral.

1.2 Enquadramento

Com o objectivo de facilitar o dia a dia destas pessoas idosas, ou com graves limitac¸ ˜oes funci-onais, mais concretamente tetra e parapl ´egicas, a Universidade de Aveiro, o Centro de Medicina de Reabilitac¸ ˜ao da Regi ˜ao Centro - Rovisco Pais (CMRRC - Rovisco Pais) e a Micro I/O, criaram uma parceria para desenvolver um sistema dom ´otico para apoio `a reabilitac¸ ˜ao de pessoas com limitac¸ ˜oes funcionais graves, o B-LIVE [8]. O sistema dom ´otico B-LIVE permite que uma pessoa com limitac¸ ˜oes funcionais graves possa interagir, de uma forma f ´acil e c ´omoda, com diversos

(21)

dispo-sitivos de uso dom ´estico, presentes na casa onde habita. Existem diferentes interfaces poss´ıveis entre estas pessoas e o B-LIVE. Contudo, em alguns casos, o grau de limitac¸ ˜ao destas pessoas ´e tal que torna imposs´ıvel a sua interacc¸ ˜ao com o sistema.

O B-LIVE, venceu a edic¸ ˜ao de 2007 do Pr ´emio Eng. Jaime Filipe, um galard ˜ao atribu´ıdo pelo Instituto da Seguranc¸a Social para a melhor concepc¸ ˜ao inovadora e promotora de autonomia. Este pr ´emio ´e uma homenagem ao Eng. Jaime Filipe, figura de grande dedicac¸ ˜ao e actuac¸ ˜ao na defesa do exerc´ıcio de cidadania e integrac¸ ˜ao social das pessoas em situac¸ ˜ao de depend ˆencia.

1.3 A fala como interface humano-m ´aquina

A fala ´e vista como um meio de comunicac¸ ˜ao natural, eficiente e flex´ıvel entre pessoas [9]. Permite-nos trocar ideias, expressar opini ˜oes, revelar o nosso pensamento. Por outro lado, de-vido ao desenvolvimento tecnol ´ogico dos ´ultimos anos em sistemas de reconhecimento de fala, ´e agora poss´ıvel controlar dispositivos electr ´onicos a partir de um computador atrav ´es de comandos de fala [10] [11].

A fala como Human-Machine Interface (HMI) ´e uma alternativa bastante atraente `as interfaces actuais (teclado e rato), em particular para pessoas com limitac¸ ˜oes funcionais [10]. A utilizac¸ ˜ao da fala como HMI apresenta v ´arias vantagens, n ˜ao necessita de aprendizagem, permite m ˜aos livres, operac¸ ˜ao `a dist ˆancia e sem contacto visual. No entanto, ´e bastante improv ´avel que nos pr ´oximos anos a fala possa substituir definitivamente estes dispositivos. Estudos ergon ´omicos mos-tram que interfaces baseados unicamente em reconhecimento de fala n ˜ao s ˜ao eficientes devido aos erros cometidos pelo reconhecedor [9]. Assim sendo, as interfaces de fala devem complementar as existentes e permitir que o utilizador possa definir qual a interface que melhor se adequa a cada uma das tarefas que pretende realizar. O uso apropriado de fala nos computadores de uso pessoal ir ´a provavelmente requerer o desenvolvimento de um novo conceito de interacc¸ ˜ao humano-m ´aquina e n ˜ao apenas modificar as interfaces existentes.

Para as pessoas com limitac¸ ˜oes funcionais a fala, ´e nos casos mais problem ´aticos, a ´unica forma de interacc¸ ˜ao com as m ´aquinas ao seu redor. A fala est ´a a ser utilizada como HMI nas mais diversas aplicac¸ ˜oes, por exemplo: para controlar cadeiras de rodas el ´ectricas [12] [13], para

(22)

interacc¸ ˜ao com computadores pessoais [11] e em HSH [14]. Estes projectos s ˜ao apenas alguns exemplos de como a tecnologia de reconhecimento de fala pode introduzir benef´ıcios reais na qualidade de vida e independ ˆencia das pessoas com limitac¸ ˜oes funcionais. Existem ainda outros benef´ıcios em utilizar a fala como HMI. Um deles ´e a poss´ıvel integrac¸ ˜ao no mundo do trabalho de pessoas com limitac¸ ˜oes funcionais graves. Pessoas que n ˜ao t ˆem acesso aos compu-tadores, devido `as suas limitac¸ ˜oes, v ˆeem agora uma oportunidade de poderem realizar as suas tarefas di ´arias, ou mesmo profissionais, recorrendo a esta tecnologia. Contudo, tendo em conta os destinat ´arios deste trabalho, existem dificuldades acrescidas em utilizar a fala como HMI. As pessoas com limitac¸ ˜oes funcionais, devido a les ˜oes ao n´ıvel das v ´ertebras C1, C2 ou C3, t ˆem difi-culdades ou mesmo incapacidade em respirar sem auxilio externo. Esta inibic¸ ˜ao na capacidade de ventilar pode afectar de forma significativa o seu desempenho ao n´ıvel da express ˜ao oral, o que pode inviabilizar o uso desta tecnologia.

1.4 Objectivos

O objectivo deste trabalho, ´e dotar o sistema dom ´otico B-LIVE com uma interface simples, de f ´acil utilizac¸ ˜ao e manipulac¸ ˜ao para pessoas com limitac¸ ˜oes funcionais, mais propriamente tetra e parapl ´egicos. A fala apresenta-se como uma alternativa bastante interessante `as HMI tradicionais, uma vez que, na maior parte dos casos, as limitac¸ ˜oes destas pessoas n ˜ao as impedem de se exprimir oralmente. Tendo em conta estes factores, e tamb ´em com base na experi ˆencia dos profissionais de sa ´ude envolvidos, pretendemos dotar o B-LIVE com uma interface baseada em reconhecimento de fala.

1.5 Organizac¸ ˜ao da presente dissertac¸ ˜ao

Esta dissertac¸ ˜ao encontra-se organizada por cap´ıtulos de acordo com a seguinte descric¸ ˜ao:

Nesta introduc¸ ˜ao s ˜ao apresentados os motivos que levaram `a realizac¸ ˜ao deste trabalho, o contexto em que se insere, assim como os objectivos a atingir aquando da sua conclus ˜ao. O tema da fala como interface humano-m ´aquina ´e abordado de uma forma introdut ´oria e muito superficial,

(23)

apenas com o objectivo de sensibilizar o leitor para as potencialidades desta nova realidade. No final ´e apresentada uma breve descric¸ ˜ao da organizac¸ ˜ao da presente dissertac¸ ˜ao.

No segundo cap´ıtulo, (”A fala como meio de comunicac¸ ˜ao entre Humanos”), ´e feita uma breve introduc¸ ˜ao aos aparelhos produtor e auditivo dos humanos. Em relac¸ ˜ao ao aparelho pro-dutor, pretende-se: identificar os org ˜aos envolvidos na produc¸ ˜ao dos sinais ac ´usticos de fala e perceber como ´e que estes sinais s ˜ao formados; identificar a origem das suas especificidades e classific ´a-los em func¸ ˜ao destas. Quanto ao aparelho auditivo, pretende-se: identificar quais os org ˜aos envolvidos na recepc¸ ˜ao do sinal de fala; perceber o processo de recepc¸ ˜ao dos sinais ac ´usticos e posterior percepc¸ ˜ao pelo c ´erebro. Por ´ultimo, tendo em conta que o p ´ublico alvo deste trabalho s ˜ao pessoas com limitac¸ ˜oes funcionais, ´e necess ´ario perceber se estas les ˜oes afec-tam a capacidade destas pessoas se exprimirem oralmente e, em caso afirmativo, de que forma.

No terceiro cap´ıtulo, (”Reconhecimento de fala”), faz-se uma breve introduc¸ ˜ao aos fun-damentos te ´oricos que est ˜ao na base dos sistemas de reconhecimento de fala. Abordamos os conceitos de depend ˆencia e independ ˆencia dos reconhecedores em relac¸ ˜ao ao orador. Os fac-tores que influenciam o desenvolvimento de projectos com reconhecimento de fala s ˜ao analisados com algum cuidado. Por fim, apresenta-se a arquitectura t´ıpica de um reconhecedor de fala, ex-plicando o funcionamento de cada um dos blocos que o constituem. Uma vez que os sistemas de reconhecimento em estudo s ˜ao baseados em modelos de Markov n ˜ao observ ´aveis, ser ´a feita uma breve introduc¸ ˜ao ao tema.

No quarto cap´ıtulo, (”Desenvolvimento de uma interface Speech Enabled para pessoas com limitac¸ ˜oes funcionais”), apresentamos a interface desenvolvida. Descrevemos em porme-nor o seu princ´ıpio de funcionamento, arquitectura, a base de dados e o reconhecedor de fala que utiliza. Para percebermos a forma como a interface desenvolvida comunica com o sistema dom ´otico B-LIVE, faz-se uma breve introduc¸ ˜ao ao B-LIVE na qual se apresentam as suas principais caracter´ısticas e tamb ´em a forma como comunica com o exterior. Ainda neste cap´ıtulo, expomos as raz ˜oes que levaram `a escolha da ferramenta Hidden Markov Model Toolkit (HTK) para construc¸ ˜ao do reconhecedor dependente do orador. O reconhecedor independente do orador ser ´a constru´ıdo com as ferramentas disponibilizadas pelo Microsoft Language Development Center (MLDC) [15]. Por fim, apresentamos os passos que foi necess ´ario percorrer para construir os reconhecedores utilizados pela interface.

(24)

No quinto cap´ıtulo, (”Resultados”), ser ˜ao apresentados os resultados da avaliac¸ ˜ao feita `a interface desenvolvida, quer em ambiente laboratorial, quer em utilizac¸ ˜ao real no CMRRC -Rovisco Pais.

Finalmente, no sexto cap´ıtulo, (”Conclus ˜oes”), faz-se um resumo do trabalho desenvol-vido, abordando as principais tarefas realizadas, apresenta-se uma avaliac¸ ˜ao dos resultados obtidos e algumas sugest ˜oes para futuros desenvolvimentos do trabalho efectuado.

1.6 Resultados j ´a publicados

Depois de conclu´ıda, a interface foi testada em ambiente laboratorial. Os resultados obtidos foram submetidos `a confer ˆencia internacional DSAI 2007 (Software Development for Enhancing Accessi-bility and Fighting Info-exclusion), sob a forma de artigo (com o nome Speech Enabled Interface to Home Automation for Disabled or Elderly People) e aceites para publicac¸ ˜ao nos proceedings da con-fer ˆencia. A DSAI 2007 foi organizada pela Universidade Tr ´as-os-Montes e Alto Douro (UTAD), e realizou-se nos dias 8-9 de Novembro de 2007.

(25)

Cap´ıtulo 2

A fala como meio de comunicac¸ ˜ao entre

Humanos

A comunicac¸ ˜ao ´e essencial no dia-a-dia dos seres Humanos, em especial a comunicac¸ ˜ao atrav ´es da fala. Mais do que qualquer outra caracter´ıstica, ´e a fala que nos distingue dos animais. Permite-nos trocar ideias, expressar opini ˜oes, revelar o Permite-nosso pensamento [16] [17].

Para que possa haver comunicac¸ ˜ao t ˆem que existir pelo menos tr ˆes entidades, o emissor, o receptor e a mensagem. A comunicac¸ ˜ao tem in´ıcio quando o emissor desenvolve uma mensagem (ideia, conceito ou pensamento) que pretende transmitir e termina quando o receptor a descodifica; ´e no c ´erebro que a comunicac¸ ˜ao tem in´ıcio e termina. `A sequ ˆencia de eventos que ocorrem numa comunicac¸ ˜ao entre duas pessoas, utilizando a fala, d ´a-se o nome de cadeia da fala, figura 2.1 [16] [18].

A comunicac¸ ˜ao tem in´ıcio quando o emissor desenvolve uma mensagem que pretende trans-mitir. De seguida, a mensagem ´e codificada e enviada atrav ´es do sistema nervoso para os m ´usculos que controlam os org ˜aos do aparelho produtor, os quais produzem os sons que s ˜ao transmitidos sob a forma de ondas sonoras para o receptor da mensagem. Do lado do receptor, as ondas so-noras s ˜ao captadas pelo aparelho auditivo e transformadas em sinais electroqu´ımicos que s ˜ao transmitidos para o c ´erebro. No c ´erebro, estes sinais s ˜ao descodificados e analisados no sentido de reconhecer a mensagem enviada pelo emissor [16] [18].

(26)

Figura 2.1:Cadeia da fala: produc¸ ˜ao, transmiss ˜ao e recepc¸ ˜ao de sinais de fala(adaptado de v ´arias fontes).

Ao estudarmos a cadeia da fala pretendemos compreender os mecanismos de produc¸ ˜ao e recepc¸ ˜ao dos sinais ac ´usticos de fala. O objectivo final ´e perceber de que forma ´e que as les ˜oes que as pessoas tetra ou parapl ´egicas apresentam afectam a sua capacidade de produzir e\ou receber estes sinais. Com base no conhecimento obtido sobre o funcionamento dos aparelhos produtor e auditivo e a forma como estes s ˜ao afectados pela tetra ou paraplegia, ser ´a poss´ıvel compreender melhor os poss´ıveis desvios no desempenho dos reconhecedores de fala quando utilizados por pessoas com estas limitac¸ ˜oes funcionais.

2.1 Produc¸ ˜ao de sinais ac ´usticos de fala

A disciplina respons ´avel por estudar a produc¸ ˜ao dos sons da fala ´e a Fon ´etica. O processo de produc¸ ˜ao da fala, figura 2.2, tem in´ıcio quando o emissor formula uma mensagem que pre-tende transmitir. ´E no c ´erebro que tudo tem in´ıcio, mais propriamente na ´area de Broca [19]. O pr ´oximo passo ´e codificar a mensagem de acordo com as regras lingu´ısticas da l´ıngua utilizada na comunicac¸ ˜ao. Esta codificac¸ ˜ao corresponde em transformar o pensamento numa sequ ˆencia de

(27)

sinais electroqu´ımicos que s ˜ao transmitidos pelo sistema nervoso ao aparelho produtor. No apa-relho produtor, os sinais nervosos s ˜ao utilizados para estimular os diferentes org ˜aos e m ´usculos, como a l´ıngua, e os quais ao movimentarem-se, produzem diferentes configurac¸ ˜oes dos org ˜aos e, em consequ ˆencia, diferenc¸as nas ondas sonoras produzidas, de forma a produzir os sons que traduzem a mensagem inicialmente formulada. Por fim, os sons s ˜ao transmitidos sob a forma de ondas sonoras para o receptor da mensagem [16] [17] [18] [19].

Figura 2.2: Produc¸ ˜ao da fala. Depois de formular uma mensagem o c ´erebro envia os sinais nervosos adequados para que os org ˜aos da fala produzam os respectivos sons(adaptado de v ´arias fontes).

Os org ˜aos respons ´aveis pela produc¸ ˜ao dos sons da fala denominam-se, no seu conjunto, apa-relho produtor. O apaapa-relho produtor ´e o respons ´avel pela produc¸ ˜ao da sequ ˆencia de segmentos fon ´eticos que constituem os sons da fala [20].

(28)

2.1.1 Constituic¸ ˜ao do aparelho produtor humano

A figura 2.3 representa de uma forma simplificada o aparelho produtor humano1. Os seus compo-nentes s ˜ao: diafragma, pulm ˜oes, laringe, faringe, cavidade bucal, l´ıngua, dentes, v ´eu palatino ou palato mole, l ´abios, narinas e cavidade nasal. Normalmente ao conjunto: v ´eu palatino, cavidade oral, l´ıngua, l ´abios e dentes d ´a-se o nome de tracto vocal. `A cavidade nasal e parte superior da faringe d ´a-se o nome de tracto nasal. Na an ´alise que se segue ser ˜ao mencionados apenas os org ˜aos do aparelho produtor presentes na figura 2.3.

Figura 2.3:Aparelho produtor humano(adaptado de MIT OCW).

Os org ˜aos que constituem o aparelho produtor podem ser classificados de acordo com a func¸ ˜ao que desempenham no processo de produc¸ ˜ao dos sons da fala. Esta classificac¸ ˜ao

permite-1Apenas foram representados na figura os org˜aos considerados relevantes para a an´alise em quest ˜ao a qual

(29)

nos dividi-lo em partes. A tabela 2.1 apresenta de uma forma sucinta estas partes, os ´org ˜aos que as constituem e as suas func¸ ˜oes [19] [21].

Tabela 2.1:Partes do aparelho produtor Humano: Produtores, Vibrador, Ressoadores, Articuladores e Sen-sor/Coordenador.

Os pulm ˜oes, juntamente com os m ´usculos respirat ´orios (diafragma, m ´usculos intercostais e escalenos e pequeno peitoral), proporcionam a fonte de energia necess ´aria `a produc¸ ˜ao de fala, isto ´e, a corrente de ar ascendente produzida durante a expirac¸ ˜ao [19] [21]. A intensidade e durac¸ ˜ao dos sons produzidos dependem da intensidade e volume desta corrente de ar. Quanto maior for a intensidade da corrente de ar ascendente, maior ´e a intensidade do sinal de fala produzido. Por sua vez, o volume de ar limita a produc¸ ˜ao de som a um determinado per´ıodo de tempo. Quanto menor for o volume de ar, menor ´e o tempo de produc¸ ˜ao de sons.

A laringe ´e composta por tr ˆes an ´eis de cartilagem dentro dos quais est ˜ao situadas duas pregas musculares, conhecidas pelo nome de cordas vocais. As cordas vocais s ˜ao pequenos ligamentos com grande poder de contracc¸ ˜ao e extens ˜ao. S ˜ao as cordas vocais que, ao vibrarem, produzem os sons da fala. Se as cordas vocais estiverem juntas (fechadas), a press ˜ao de ar vindo dos pulm ˜oes faz com que estas vibrem e d ´a-se a produc¸ ˜ao de som ou seja a fonac¸ ˜ao [19].

Os sons produzidos pelas cordas vocais s ˜ao modulados nas cavidades oral e nasal. A ca-vidade oral, al ´em de amplificar os sons vindos da faringe, possui estruturas anat ´omicas utilizadas na produc¸ ˜ao dos sons designadas por articuladores (l ´abios, dentes, alv ´eolos dent ´arios superiores, maxilar inferior, l´ıngua, palato duro, palato mole e v ´eu palatino). Os articuladores podem-se

(30)

classi-ficar em activos e passivos. Os activos s ˜ao aqueles que, regra geral, apresentam mobilidade: os l ´abios, a l´ıngua, o palato mole, o v ´eu palatino e o maxilar inferior. Os passivos n ˜ao apresen-tam mobilidade. s ˜ao os dentes, os alv ´eolos dent ´arios superiores e o palato duro. A classificac¸ ˜ao dos sons, do ponto de vista articulat ´orio, ´e feita tendo em conta os articuladores envolvidos na sua produc¸ ˜ao [19].

2.1.2 Princ´ıpios de funcionamento do aparelho produtor humano

De uma forma simples o mecanismo de produc¸ ˜ao dos sons da fala pode-se descrever do seguinte modo:

O ar vindo dos pulm ˜oes (a produc¸ ˜ao de sons durante a fase de inalac¸ ˜ao ´e extremamente rara), atrav ´es dos br ˆonquios, percorre a traqueia e o es ´ofago at ´e chegar `a laringe. Uma vez na laringe, a corrente de ar encontra o seu primeiro obst ´aculo — a glote, que ´e uma abertura entre as cor-das vocais. O fluxo de ar pode encontr ´a-la fechada ou aberta, dependendo da posic¸ ˜ao cor-das corcor-das vocais. Tendo em conta o estado da glote (aberta ou fechada), os sons gerados pelo aparelho pro-dutor podem ser classificados em duas classes distintas: vozeados ou n ˜ao vozeados. Os que s ˜ao produzidos sem vibrac¸ ˜ao das cordas vocais, com a glote aberta, s ˜ao designados de n ˜ao vozeados. Quando a glote se encontra fechada, existe vibrac¸ ˜ao das cordas vocais e os sons assim produzidos s ˜ao vozeados [19] [20]. A produc¸ ˜ao de sons resulta da actividade vibrat ´oria das cordas vocais. Ao vibrarem, as cordas vocais, aproximam-se e afastam-se alternadamente, gerando uma sucess ˜ao r ´apida de pequenos sopros de ar que, ao passarem por elas produzem os diversos sons, ou seja, d ´a-se a fonac¸ ˜ao. Para que as cordas vocais vibrem ´e necess ´ario que estas estejam suficientemente juntas (fechadas) e que exista uma diferenc¸a significativa entre as press ˜oes subglotal e supra-glotal. A press ˜ao subglotal deve ser suficientemente mais elevada do que a press ˜ao supraglotal, para que se estabelec¸a uma forc¸a capaz de vencer a resist ˆencia das cordas vocais, fazendo-as afastarem-se uma da outra. Com a abertura das cordas vocais, o ar escapa-se atrav ´es da glote, o que causa uma diminuic¸ ˜ao tempor ´aria da press ˜ao atrav ´es deste org ˜ao (efeito de Bernouilli), o que faz com que as cordas vocais se voltem a aproximar. A glote volta `a posic¸ ˜ao inicial (fechada) e o processo repete-se [22].

(31)

encruzilhada que lhe oferece duas vias de acesso ao exterior atrav ´es dos canais oral e nasal. Entre estes dois canais est ´a o v ´eu palatino, org ˜ao dotado de mobilidade capaz de obstruir ou n ˜ao a passagem do ar pela cavidade nasal e, consequentemente, de determinar a natureza oral ou nasal de um som. Quando levantado, o v ´eu palatino adere `a parede posterior da faringe, deixando livre apenas o canal oral. Os sons assim obtidos denominam-se orais. Quando baixado, o v ´eu palatino deixa ambos os canais livres e a corrente de ar divide-se, escoando-se uma parte pelas fossas nasais. Os sons assim produzidos adquirem o nome de nasais. Por fim, ´e a posic¸ ˜ao dos org ˜aos articuladores presentes na cavidade oral que determina o tipo de sons que s ˜ao gerados [19] [20].

2.1.3 Classificac¸ ˜ao dos sons da fala

Para que se possa estudar de uma forma sistem ´atica os sons da fala, ´e necess ´ario represent ´a-los. A escrita n ˜ao consegue representar de uma forma biun´ıvoca os sons da fala, pelo que ´e necess ´ario utilizar um conjunto de s´ımbolos adequado para o efeito. Os s´ımbolos utilizados para representar graficamente os sons da fala est ˜ao definidos nos alfabetos fon ´eticos. Os mais utilizados s ˜ao o IPA e o SAMPA, este ´ultimo est ´a adaptado ao uso em computador [22]. Pelo que, foi o escolhido para a realizac¸ ˜ao deste trabalho. No anexo A apresentamos mais informac¸ ˜ao acerca destes alfabetos.

A classificac¸ ˜ao dos sons da fala consiste na sua categorizac¸ ˜ao tendo em conta a observac¸ ˜ao dos articuladores. Os sons lingu´ısticos classificam-se em consoantes, vogais e semi-vogais [19] [20].

Consoantes

As consoantes s ˜ao produzidas com constric¸ ˜ao ou obstruc¸ ˜ao significativa `a passagem do fluxo de ar no tracto vocal. Tradicionalmente, estas s ˜ao classificadas segundo dois par ˆametros: o modo de passagem do ar pelo tracto vocal — o modo de articulac¸ ˜ao e a regi ˜ao do tracto vocal onde se situa a maior constric¸ ˜ao imposta pelos articuladores presentes na cavidade oral — o ponto de articulac¸ ˜ao [19] [20] [22].

O modo de articulac¸ ˜ao descreve a configurac¸ ˜ao do tracto vocal devido ´a posic¸ ˜ao relativa dos articuladores. Tendo em conta este par ˆametro as consoantes podem ser: oclusivas, fricativas,

(32)

laterais, vibrantes e africadas. As oclusivas s ˜ao produzidas com uma obstruc¸ ˜ao total `a passa-gem do fluxo de ar pela cavidade oral. As fricativas s ˜ao produzidas com uma obstruc¸ ˜ao parcial `a passagem do fluxo de ar, o que origina turbul ˆencia e ru´ıdo. Nas laterais, a obstruc¸ ˜ao ao fluxo de ar ´e provocada pela l´ıngua em contacto com o palato ou com os alv ´eolos, o ar passa pelos lados da l´ıngua. Durante a produc¸ ˜ao das vibrantes, existe vibrac¸ ˜ao do ´org ˜ao articulador - a l´ıngua. As africadas s ˜ao produzidas com uma pronuncia mista. No in´ıcio a obstruc¸ ˜ao `a passagem do fluxo de ar ´e completa e no final ´e id ˆentica `a das fricativas. Aplicando estas regras ao Portugu ˆes Europeu, obtemos a classificac¸ ˜ao apresentada na tabela 2.2 [20] [22] [19].

Tabela 2.2: Consoantes da l´ıngua portuguesa e sua classificac¸ ˜ao, quanto ao modo de articulac¸ ˜ao. Repre-sentadas segundo a nomenclatura SAMPA [23].

O ponto de articulac¸ ˜ao refere-se `a localizac¸ ˜ao do ponto de maior constric¸ ˜ao `a passagem do ar, imposta pelos articuladores presentes na cavidade oral. Quanto ao ponto de articulac¸ ˜ao, as consoantes podem ser: bilabiais (onde os articuladores s ˜ao os l ´abios), labiodentais (cujos articuladores s ˜ao o l ´abio inferior e os incisivos), dentais (os articuladores s ˜ao a ponta da l´ıngua e os incisivos), alveolares (onde os articuladores s ˜ao a ponta da l´ıngua e os incisivos superiores), ´apico-alveolares (cujos articuladores s ˜ao a ponta ou ´apice da l´ıngua e os alv ´eolos), pr ´e-palatais (os articuladores s ˜ao a l ˆamina da l´ıngua e o pr ´e-palato), palatais (onde os articuladores s ˜ao a l ˆamina da l´ıngua e o palato) e velares (cujos articuladores s ˜ao a parte de tr ´as da l´ıngua e o v ´eu palatino) [19] [20] [22].

As consoantes podem ainda ser classificadas de acordo com a posic¸ ˜ao do v ´eu palatino e das cordas vocais. Se o v ´eu palatino estiver afastado da parede da faringe as consoantes s ˜ao nasais, caso contr ´ario s ˜ao orais. Quanto `as cordas vocais, estas podem estar abertas (afastadas) ou fechadas (aproximadas), produzindo sons n ˜ao vozeados ou vozeados, respectivamente [19] [20] [22].

(33)

Vogais e semivogais

As vogais e as semi-vogais s ˜ao sons produzidos sem constric¸ ˜ao `a passagem do ar e com vibrac¸ ˜ao das cordas vocais, pelo que s ˜ao consideradas sons vozeados [19].

As vogais e as semi-vogais s ˜ao produzidas sem constric¸ ˜oes no tracto vocal, pelo que o fluxo de ar n ˜ao encontra obst ´aculos `a sua passagem. Desta forma, a classificac¸ ˜ao das vogais n ˜ao pode ser feita a partir de pontos de articulac¸ ˜ao, uma vez que estes n ˜ao existem. A classificac¸ ˜ao das vogais ´e feita segundo os seguintes par ˆametros: posic¸ ˜ao da l´ıngua (segundo o eixo antero-posterior), grau de abertura e posic¸ ˜ao dos l ´abios [19] [22].

No que diz respeito `a posic¸ ˜ao dos l ´abios as vogais podem ser arredondadas ou n ˜ao arre-dondadas. As arredondadas s ˜ao produzidas com arredondamento dos l ´abios, o qual n ˜ao existe nas n ˜ao arredondadas [19] [20] [22].

O grau de abertura depende da altura do dorso da l´ıngua e da abertura do maxilar inferior no momento de realizac¸ ˜ao da vogal. Tendo em conta o grau de abertura as vogais podem-se classificar da seguinte forma: abertas, semi-abertas, semi-fechadas e fechadas [19] [20] [22].

Embora as vogais sejam produzidas com os articuladores abertos, as suas posic¸ ˜oes s ˜ao im-portantes na classificac¸ ˜ao das mesmas tendo em conta a regi ˜ao de articulac¸ ˜ao. Quanto `a posic¸ ˜ao da l´ıngua, esta pode mover-se no sentido antero-posterior (avanc¸o-recuo). As vogais podem ser classificadas como: anteriores ou palatais, m ´edias ou centrais e posteriores ou velares. Em relac¸ ˜ao `a altura da l´ıngua as vogais podem ser altas, m ´edias ou baixas [19] [20].

Tendo em conta o papel das cavidades oral e nasal, as vogais podem ser orais ou nasais, respectivamente [20].

Aplicando este processo de classificac¸ ˜ao `as vogais do Portugu ˆes Europeu, obtemos a classificac¸ ˜ao apresentada nas tabelas 2.3 e 2.4.

Entre as vogais e as consoantes situam-se as semi-vogais ou glides, tendo estas as carac-ter´ısticas articulat ´orias das vogais, mas de durac¸ ˜ao muito menor. As semi-vogais nunca ocorrem sozinhas. Aparecem sempre junto de uma vogal e juntas constituem uma s´ılaba. Na l´ıngua portu-guesa apenas existem duas semi-vogais, o [j] e o [w] [19] [20] [22].

(34)

Tabela 2.3: Vogais orais da l´ıngua portuguesa e sua classificac¸ ˜ao [20]. Representadas segundo a nomen-clatura SAMPA [23].

Tabela 2.4:Vogais nasais da l´ıngua portuguesa e sua classificac¸ ˜ao [20]. Representadas segundo a nomen-clatura SAMPA [23].

2.2 Percepc¸ ˜ao de fala

O aparelho auditivo ´e respons ´avel pela transformac¸ ˜ao do som em impulsos nervosos que o c ´erebro descodifica, tornando poss´ıvel a compreens ˜ao da mensagem ouvida. A ´area do c ´erebro respons ´avel pela recepc¸ ˜ao de sinais de fala e compreens ˜ao da linguagem ´e conhecida como ´area de Wernicke [19]. A capacidade de identificar e interpretar a sequ ˆencia de sons da fala que chega ao ouvido designa-se por percepc¸ ˜ao de fala [19] [21].

O aparelho auditivo desempenha um papel fundamental tanto na fase de produc¸ ˜ao como na de percepc¸ ˜ao dos sons da fala. De uma forma bastante simplificada a figura 2.1 ilustra a cadeia de produc¸ ˜ao e percepc¸ ˜ao da fala quando existe uma conversac¸ ˜ao entre dois humanos. A partir desta representac¸ ˜ao pode-se verificar que os sons da fala captados pelo aparelho auditivo podem ser utilizados para desempenhar func¸ ˜oes diferentes, dependendo de quem os recebe [16].

Antes de abordar o funcionamento do aparelho auditivo conv ´em fazer uma pequena aborda-gem `a sua constituic¸ ˜ao. O ouvido humano pode ser separado em tr ˆes grandes partes, de acordo com a func¸ ˜ao desempenhada e a sua localizac¸ ˜ao. S ˜ao elas: o ouvido externo (E), o ouvido m ´edio (M) e o ouvido interno (I), como ilustra a figura 2.5 [18] [21].

(35)

Figura 2.4: Percepc¸ ˜ao da fala. Os sons s ˜ao captados e transformados em impulsos nervosos pelo ouvido. De seguida, os impulsos nervosos s ˜ao analisados e interpretados pelo c ´erebro com o objectivo de descodifi-car a mensagem recebida(adaptado de v ´arias fontes).

Figura 2.5: Constituic¸ ˜ao do ouvido humano: ouvido externo (pavilh ˜ao auricular, canal auditivo e t´ımpano); ouvido m ´edio (bigorna, estribo, martelo e a trompa de Eust ´aquio); ouvido interno (c ´oclea, vest´ıbulo, canais semicirculares e nervo auditivo) [21].

(36)

zonas constituintes s ˜ao discriminadas.

2.2.1 Constituic¸ ˜ao do aparelho auditivo humano

N ˜ao ´e objectivo deste trabalho fazer uma an ´alise exaustiva e muito pormenorizada `acerca do apa-relho auditivo e sua constituic¸ ˜ao. O objectivo ´e fornecer os elementos necess ´arios `a compreens ˜ao dos fen ´omenos associados `a recepc¸ ˜ao e percepc¸ ˜ao dos sons da fala.

Ouvido Externo

O ouvido externo ´e constitu´ıdo pelo pavilh ˜ao auricular (orelha), pelo canal auditivo e pelo t´ımpano. As suas func¸ ˜oes s ˜ao: captar, localizar e encaminhar as ondas sonoras at ´e ao t´ımpano. O t´ımpano serve tamb ´em de c ˆamara de resson ˆancia, amplificando algumas frequ ˆencias. A import ˆancia do pavilh ˜ao auricular ´e bem evidente em muitas esp ´ecies de mam´ıferos terrestres. ´E fundamental na localizac¸ ˜ao de presas e predadores, pelo que ´e dotado de movimento. Nos humanos esta capaci-dade foi-se perdendo ao longo da evoluc¸ ˜ao [18] [21].

Ouvido M ´edio

Fazem parte do ouvido m ´edio os oss´ıculos e a trompa de Eust ´aquio. ´E atrav ´es dele que a energia das ondas sonoras ´e transmitida do ouvido externo para o ouvido interno. A energia ´e recolhida pelo t´ımpano e transmitida para o ouvido interno atrav ´es de tr ˆes ossos min ´usculos, os mais pequenos existentes no corpo humano — o martelo, a bigorna e o estribo. Estes oss´ıculos vibram solid ´arios com o t´ımpano e transmitem a vibrac¸ ˜ao a uma membrana situada no ouvido interno, a janela oval. A trompa de Eust ´aquio ´e um canal em parte ´osseo, em parte fibrocartilag´ıneo, existente no ouvido m ´edio. Est ´a em contacto com a rinofaringe e tem a func¸ ˜ao de manter uma press ˜ao constante no ouvido m ´edio [18] [21].

(37)

Ouvido Interno

´E no ouvido interno que se encontra a parte mais importante do aparelho auditivo, sendo cons-titu´ıdo pela c ´oclea, pelo vest´ıbulo, pelos canais semicirculares e pelo nervo auditivo. A c ´oclea, em forma de espiral, ´e em grande parte respons ´avel pela nossa capacidade de diferenciar e inter-pretar os sons. ´E na c ´oclea que se desenrola a convers ˜ao das ondas sonoras em impulsos el ´ectricos. De seguida, estes sinais el ´ectricos s ˜ao encaminhados para o c ´erebro pelo nervo audi-tivo, onde s ˜ao descodificados e interpretados [18] [21].

2.2.2 Princ´ıpio de funcionamento do aparelho auditivo humano

O som pode ser entendido como sendo uma perturbac¸ ˜ao criada por uma fonte sonora no ambiente que a rodeia. Esta perturbac¸ ˜ao propaga-se desde a fonte sonora at ´e ao ouvinte, onde ´e captada pelo seu aparelho auditivo. O pavilh ˜ao auricular capta as ondas sonoras e encaminha-as atrav ´es do canal auditivo para o ouvido m ´edio. O t´ımpano vai ent ˜ao vibrar solid ´ario com as mol ´eculas de ar presentes no canal auditivo. As vibrac¸ ˜oes captadas pelo t´ımpano s ˜ao transmitidas para o interior da c ´oclea (situada no ouvido interno) atrav ´es dos oss´ıculos ligados em cadeia entre o t´ımpano e a janela oval (tamb ´em situada no ouvido interno). Os oss´ıculos podem ser vistos como um amplificador. Actuam como uma alavanca, aumentando a press ˜ao das ondas sonoras. ´E assim que os sinais sonoros s ˜ao transmitidos para o interior da c ´oclea. No seu interior, as vibrac¸ ˜oes s ˜ao captadas pelas c ´elulas ciliadas que identificam as frequ ˆencias presentes nos sinais sonoros e transmitem a informac¸ ˜ao correspondente para o c ´erebro. A transmiss ˜ao ´e feita atrav ´es do nervo auditivo sob a forma de sinais el ´ectricos. Depois de chegar ao c ´erebro a informac¸ ˜ao ´e descodificada e interpretada, podendo ser utilizada de duas formas diferentes [16] [18] [21]:

Emissor — No emissor o c ´erebro utiliza os sinais que recebe do aparelho auditivo para controlar

o aparelho produtor. Funciona como um mecanismo de feedback para que o emissor tenha percepc¸ ˜ao da mensagem que est ´a a produzir [16] [19].

Receptor — Do lado do receptor, os sinais relativos aos sons da fala, captados e transformados

em sinais nervosos pelo aparelho auditivo, s ˜ao descodificados e utilizados pelo c ´erebro para construir uma ”imagem” alusiva `a mensagem que foi recebida [16] [19].

(38)

2.3 Coordenac¸ ˜ao e controlo dos aparelhos produtor e auditivo

Os organismos vivos s ˜ao sens´ıveis a alterac¸ ˜oes ambientais e a est´ımulos provenientes de diversas fontes internas e externas. O sistema nervoso ´e respons ´avel por receber, transmitir, armazenar informac¸ ˜oes e elaborar respostas adequadas a estes est´ımulos [18].

A comunicac¸ ˜ao entre o sistema nervoso e os demais ´org ˜aos ´e feita atrav ´es de c ´elulas nervosas chamadas neur ´onios, figura 2.6. Os neur ´onios s ˜ao c ´elulas altamente especializadas, que t ˆem como func¸ ˜ao transmitir impulsos nervosos. As c ´elulas nervosas estabelecem conex ˜oes entre si. Assim, um neur ´onio pode transmitir a outros os est´ımulos recebidos, gerando uma reacc¸ ˜ao em cadeia. Desta forma ´e assegurada a integrac¸ ˜ao, controlo e coordenac¸ ˜ao dos diversos sistemas do organismo humano [18].

Figura 2.6:Neur ´onio: c ´elula principal, dendrites, ax ´onio e sinapses

O sistema nervoso tem duas divis ˜oes anat ´omicas: o sistema nervoso central (SNC) e o sistema nervoso perif ´erico (SNP). Fazem parte do SNC o enc ´efalo e a medula espinal. Por sua vez o SNP ´e constitu´ıdo pelos nervos e g ˆanglios. Estas divis ˜oes anat ´omicas desempenham diferentes func¸ ˜oes. O SNC processa, integra, armazena e responde ao SNP. O SNP ´e respons ´avel por captar est´ımulos, transmitir e receber informac¸ ˜ao para e do SNC [18].

Embora o SNC receba informac¸ ˜ao sensorial, avalie essa informac¸ ˜ao e inicie acc¸ ˜oes sem o contributo do SNP, sozinho ele permaneceria isolado do resto do corpo e do mundo em redor. O SNP recolhe informac¸ ˜ao de numerosas fontes dentro e fora do corpo e transmite-as ao SNC

(39)

atrav ´es das fibras aferentes. As fibras eferentes do SNP transmitem a informac¸ ˜ao do SNC para as v ´arias partes do corpo, primariamente para os m ´usculos e gl ˆandulas, regulando a actividade destas estruturas. Sem o SNP, o SNC n ˜ao receberia informac¸ ˜ao e seria incapaz de produzir respostas observ ´aveis. Nem mesmo os pensamentos e emoc¸ ˜oes poderiam ser expressos por causa do isolamento do SNC [18].

O SNP pode ser dividido em duas partes: uma parte craniana, que consiste em doze pares de nervos, e uma parte espinal, constitu´ıda por trinta e um pares de nervos. No caso particular deste trabalho interessa estudar a parte craniana pois ´e ela que vai enervar os aparelhos produtor e auditivo [18].

Por convenc¸ ˜ao os nervos cranianos s ˜ao numerados em numerac¸ ˜ao romana, de I a XII, do mais anterior para o mais posterior. A figura 2.7 ´e uma representac¸ ˜ao dos nervos cranianos, parte aferente e eferente.

Os nervos cranianos podem ser de tr ˆes tipos sensoriais, motores e mistos. A tabela 2.5, apresenta a sua classificac¸ ˜ao e apresenta uma breve descric¸ ˜ao das func¸ ˜oes de cada um deles [21].

(40)

Figura 2.7:Nervos cranianos. I-Nervo Olfactivo, II-Nervo ´Optico, III-Nervo Oculomotor, INervo Troclear, V-Nervo Trig ´emio, VI-V-Nervo Abducente, VII-V-Nervo Facial, VIII-V-Nervo Auditivo, IX-V-Nervo Glossofar´ıngeo, X-V-Nervo Vago, XI-Nervo Acess ´orio, XII-Nervo Hipoglosso [18] [21] [24].

(41)

2.3.1 Enervac¸ ˜ao do aparelho produtor humano

N ˜ao se pode dizer que existe um nervo respons ´avel pela enervac¸ ˜ao dos v ´arios org ˜aos e m ´usculos envolvidos no processo de gerac¸ ˜ao dos sons da fala. Praticamente todos os nervos cranianos t ˆem um papel mais ou menos importante neste processo. S ˜ao importantes os nervos respons ´aveis pela enervac¸ ˜ao dos m ´usculos faciais (nervo facial), pelo movimento da l´ıngua (nervo hipoglosso) e dos maxilares (nervo trig ´emio). Os org ˜aos mais directamente envolvidos na produc¸ ˜ao de sons (palato mole, faringe, m ´usculos intr´ınsecos da laringe) s ˜ao enervados pelo nervo vago [21].

Os sinais nervosos transportados pelos nervos cranianos n ˜ao passam pela medula es-pinal, pelo que uma les ˜ao a este n´ıvel n ˜ao afecta a capacidade das pessoas tetrapl ´egicas produzi-rem sons.

2.3.2 Enervac¸ ˜ao do aparelho auditivo humano

A func¸ ˜ao sensorial relativa `a audic¸ ˜ao ´e assegurada pelo nervo auditivo. O nervo auditivo divide-se em duas partes, uma vestibular e outra coclear. O termo vestibular refere-divide-se ao vest´ıbulo do ouvido interno, envolvido no equil´ıbrio. O termo coclear refere-se `a c ´oclea, a porc¸ ˜ao do ouvido interno envolvida na audic¸ ˜ao [21].

A informac¸ ˜ao sensorial relativa ao sentido da audic¸ ˜ao ´e transportada at ´e ao c ´ortex auditivo sem percorrer a espinal medula. Uma les ˜ao no SNC ao n´ıvel da medula espinal n ˜ao tem, ou tem pouco impacto na audic¸ ˜ao.

2.4 Coment ´arios finais

A qualidade de muitos sons da fala pode ser bastante modificada por alterac¸ ˜oes na configurac¸ ˜ao e, consequentemente, nas propriedades ac ´usticas do trato vocal. Essas mudanc¸as s ˜ao provocadas principalmente por alterac¸ ˜oes na forma da cavidade oral, por exemplo devido `a falta de dentes ou `a colocac¸ ˜ao de aparelhos dent ´arios.

(42)

di-recta no funcionamento dos aparelhos produtor e auditivo. Isto acontece porque estes apare-lhos s ˜ao enervados pelos nervos cranianos que n ˜ao s ˜ao afectados por les ˜oes ao n´ıvel da medula espinal. No entanto pode acontecer que a capacidade de produzir sons seja afectada por les ˜oes do aparelho respirat ´orio ou por intervenc¸ ˜oes m ´edicas, por exemplo uma toracotomia2.

Assim, uma pessoa com tetra ou paraplegia pode apresentar alguma dificuldade em produzir sons, sendo as mais not ´orias: o cansac¸o, a rouquid ˜ao, a baixa amplitude dos sons produzidos e a dificuldade em colocar a voz.

(43)

Cap´ıtulo 3

Reconhecimento de fala

O processamento de fala tem vindo a ganhar grande import ˆancia nos ´ultimos anos, em parte de-vido aos resultados da investigac¸ ˜ao que tem vindo a ser realizada na ´area, mas tamb ´em dede-vido aos avanc¸os tecnol ´ogicos que permitem uma cada vez maior capacidade de processamento e armazenamento de dados. O reconhecimento de fala, um dos ramos do processamento, n ˜ao ´e excepc¸ ˜ao e apresenta tamb ´em um enorme crescimento n ˜ao s ´o ao n´ıvel de conhecimento adquirido, mas tamb ´em da quantidade e qualidade dos sistemas de reconhecimento dispon´ıveis.

Os sistemas de reconhecimento de fala sofreram um enorme desenvolvimento nas ´ultimas d ´ecadas. A reduc¸ ˜ao da taxa de erro de palavra e diminuic¸ ˜ao do tempo de processamento necess ´ario para fazer o reconhecimento, resultaram em sistemas mais fi ´aveis e possibilitaram que estes sa´ıssem dos laborat ´orios onde foram desenvolvidos para serem utilizados em aplicac¸ ˜oes re-ais.

O n´ıvel de desenvolvimento existente n ˜ao teria sido poss´ıvel sem a introduc¸ ˜ao de modelos matem ´aticos e estat´ısticos nos sistemas de reconhecimento de fala, nomeadamente, a utilizac¸ ˜ao de Hidden Markov Models (HMM’s) para modelar o sinal de fala. Os HMM’s s ˜ao a base te ´orica que est ´a por tr ´as dos mais avanc¸ados sistemas de reconhecimento de fala existentes na ac-tualidade. Estes permitem modelar as variac¸ ˜oes temporais e espectrais em simult ˆaneo [25]. Os par ˆametros para construc¸ ˜ao destes modelos podem ser obtidos automaticamente a partir de proce-dimentos e dados de treino. O processo de treino ´e fundamental para obter modelos que permitam

(44)

realizar reconhecimento com uma taxa de sucesso elevada. A qualidade dos dados dispon´ıveis para treino dos sistemas ´e tamb ´em um factor bastante importante, pelo que foi feito um esforc¸o no sentido de desenvolver grandes bases de dados de fala para investigac¸ ˜ao, desenvolvimento, treino e avaliac¸ ˜ao dos sistemas de reconhecimento de fala.

Um outro factor importante foi o estabelecimento de normas para a avaliac¸ ˜ao do desempe-nho. Quando os investigadores comec¸aram a desenvolver os seus reconhecedores, utilizavam da-dos de fala recolhida-dos nos seus pr ´oprios laborat ´orios, n ˜ao obedecendo a crit ´erios de selecc¸ ˜ao bem definidos. Em consequ ˆencia, n ˜ao era poss´ıvel comparar o desempenho dos reconhecedores dos diferentes laborat ´orios. A recente disponibilidade de grandes bases de dados de dom´ınio p ´ublico, associada `a especificac¸ ˜ao de rigorosos crit ´erios de avaliac¸ ˜ao, resultou num rigor e aceitac¸ ˜ao dos resultados obtidos em diferentes laborat ´orios.

3.1 Definic¸ ˜ao do problema

Um sistema de reconhecimento autom ´atico de fala ´e um sistema capaz de, pelo menos, iden-tificar v ´arias palavras ou frases quando proferidas oralmente por um determinado indiv´ıduo na aus ˆencia de qualquer outro sinal ac ´ustico. Idealmente, seria tamb ´em capaz de transcrever qualquer discurso oral, pelo menos nas circunst ˆancias de audic¸ ˜ao consider ´aveis aceit ´aveis por um ouvinte humano. Neste contexto, considera-se como dados para o reconhecimento, apenas o sinal ac ´ustico resultante do processo da fala [26].

Na avaliac¸ ˜ao dos projectos de sistemas de reconhecimento de fala ´e necess ´ario, antes de mais, determinar o fim a que se destinam. Um sistema que pretende transformar comandos vocais em instruc¸ ˜oes a que uma m ´aquina deve obedecer, ´e menos exigente do que um sistema que pre-tende transformar em texto sequ ˆencias reais de fala. Por exemplo, um sistema de comandos vocais ´e bastante limitado em termos de vocabul ´ario, exigindo apenas, em m ´edia, algumas dezenas de pa-lavras, correspondentes aos comandos a executar. Pelo contr ´ario, num sistema em que o objectivo ´e o reconhecimento de sequ ˆencias reais de fala, s ˜ao exigidas em m ´edia, dezenas ou centenas de milhar de palavras [27].

(45)

fala, ´e a forma como v ˜ao ser utilizados. Isto ´e, o reconhecedor vai ser utilizado apenas por uma ´unica pessoa, ou por v ´arias? Se um sistema de reconhecimento de fala se destina ao uso exclusivo de um ´unico orador, poder ´a ser dependente do orador. Se pelo contr ´ario, se destinar ao uso de um grupo mais ou menos vasto de oradores, em que n ˜ao ´e poss´ıvel identificar cada um de modo a atribuir-lhe um reconhecedor espec´ıfico, ent ˜ao este dever ´a ser independente do orador. Numa situac¸ ˜ao interm ´edia consideram-se reconhecedores multi-orador, destinados a um grupo especi-fico de oradores. Em geral, obt ˆem-se melhores resultados no reconhecimento quando se treina um reconhecedor para ser utilizado apenas por um ´unico orador, contudo o esforc¸o requerido ao orador para o treino do ”seu reconhecedor” ´e, em muitos casos, excessivo, sobretudo se este n ˜ao estiver devidamente motivado para o efeito. Al ´em disso, um reconhecedor dependente do ora-dor apresenta um desempenho med´ıocre, quando confrontado com qualquer outro oraora-dor diferente daquele para o qual foi treinado. A soluc¸ ˜ao utilizada nos reconhecedores independen-tes do orador consiste no treino dos modelos com um corpus de fala com um n ´umero elevado de oradores, considerados representativos de uma determinada populac¸ ˜ao. Desta forma, obt ˆem-se resultados de reconhecimento aceit ´aveis com oradores n ˜ao utilizados no treino do reconhecedor. Ainda assim, apresentam obviamente um desempenho inferior ao dos reconhecedores concebidos exclusivamente para um grupo ou orador espec´ıfico.

O desenvolvimento de sistemas para reconhecimento de fala ´e extremamente dificul-tado pela variabilidade do respectivo sinal ac ´ustico. Esta variabilidade ´e devida a factores muito diversos, tais como: entoac¸ ˜ao, tom de voz, o estilo do discurso e sotaque, entre outros. Em adic¸ ˜ao a estes factores devidos a quem produz o sinal de fala, existem outros que variam com o ambiente em redor do orador, ru´ıdo ambiente inerente ao espac¸o onde o orador se encontra, mas tamb ´em, de conversas paralelas que possam existir entre outros oradores presentes no mesmo espac¸o. Perante esta panor ˆamica pode-se esperar a exist ˆencia de uma infinidade de sinais de fala, pelo que, ´e f ´acil compreender a necessidade de restringir, tanto quanto poss´ıvel, a influ ˆencia de alguns destes factores no sinal, por forma a obterem-se modelos de complexidade e dimens ˜oes aceit ´aveis.

No reconhecimento, os aspectos da variabilidade do sinal de fala exclusivamente devidos `as caracter´ısticas do orador s ˜ao considerados separadamente em duas classes: a variabilidade intra-orador e a variabilidade inter-intra-orador. Nos reconhecedores dependentes do intra-orador, interessa,

Referências

Documentos relacionados

Na apresentação dos dados estatísticos, ficou demonstrada à todos os participantes a dimensão da pesquisa, abrangendo o setor produtivo como um todo, enfocando a produção

Como eles não são caracteres que possam ser impressos normalmente com a função print(), então utilizamos alguns comandos simples para utilizá-los em modo texto 2.. Outros

Este projeto permitirá ao bolsista acompanhar procedimentos pertencentes e não pertencentes ao conteúdo das disciplinas, ademais técnicas não rotineiras encaminhadas ao

Título Gestão e saúde mental: percepções a partir de um centro de atenção psicossocial Atenção psicossocial e gestão de populações: sobre os discursos e as práticas em torno

Este trabalho é resultado de uma pesquisa quantitativa sobre a audiência realizada em 1999 envolvendo professores e alunos do Núcleo de Pesquisa de Comunicação da Universidade

• Quando o navegador não tem suporte ao Javascript, para que conteúdo não seja exibido na forma textual, o script deve vir entre as tags de comentário do HTML. <script Language

Nos tempos atuais, ao nos referirmos à profissão docente, ao ser professor, o que pensamos Uma profissão indesejada por muitos, social e economicamente desvalorizada Podemos dizer que

Analisando dados de Praça (2001, 2002), propus que a periferia esquerda da sentença, organizada pelo sistema CP, merece ser melhor investigada em tapirapé, pois há evidências de que