C E N T R O DE E N G E N H A R I A E L É T R I C A E I N F O R M Á T I C A
Coordenação d e Pós-Graduação e m Ciência d a Computação
A P L I C A Ç Ã O D O P P M
A O R E C O N H E C I M E N T O D E P A D R Õ E S V O C A I S
P A T O L Ó G I C O S
H I L D E G A R D P A U L I N O B A R B O S A
Dissertação de Mestrado submetida à
Coordenação do Curso de Pós-Graduação
em Ciência da Computação da Universidade
Federal de Campina Grande, como parte
dos requisitos necessários para obtenção do
grau de Mestre em Ciência da Computação.
Á R E A DE CONCENTRAÇÃO: C I Ê N C I A DA COMPUTAÇÃO
L I N H A DE PESQUISA: PROCESSAMENTO D I G I T A L DE S I N A I S
JOSEANA MACEDO F E C H I N E R É G I S DE ARAÚJO
JOSÉ EUSTÁQUIO RANGEL DE Q U E I R O Z
CAMPINA GRANDE
AGOSTO - 2 0 1 3
M O D E L A G E M D E S I N A I S D E V O Z , V I A P P M ,
A P L I C A D A A O R E C O N H E C I M E N T O D E P A D R Õ E S
V O C A I S P A T O L Ó G I C O S
H I L D E G A R D P A U L I N O B A R B O S A
JOSEANA MACEDO F E C H I N E R É G I S DE ARAÚJO - DRA
ORIENTADORA
JOSÉ EUSTÁQUIO RANGEL DE Q U E I R O Z - D R
ORIENTADOR
SILVANA LUCIENE DO NASCIMENTO CUNHA COSTA - DRA
COMPONENTE DA BANCA
HERMAN MARTINS GOMES - DR
COMPONENTE DA BANCA
ELMAR MERCHER - D R
COMPONENTE DA BANCA
CAMPINA GRANDE
AGOSTO - 2 0 1 3
SISTEMOTECA - UFCG
F I C H A C A I 'A L O G R A I K A E L A B O R A D A P E L A B I B L I O T E C A C E N T R A L DA L I C G B238m Barbosa, Hildegard Paulino.
Modelagem de sinais de voz via PPM, aplicada ao reconhecimento de padrões vocais patológicos / Hildegard Paulino Barbosa. - Campina Grande, 2013.
156 f.
Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática.
"Orientação: Prof. Dr1. Joseana Macedo Fechine Régis de Araújo, Prof. Dr. José Eustáquio Rangel de Queiroz".
Referências.
1. Detecção e Discriminação de Patologias da Fala. 2. Predição por Casamento Parcial (PPM). 3. Características Acústicas. 4. Características Temporais. 5. Características Estatísticas I . Araújo, Joseana Macedo Fechine Régis. I I . Queiroz, José Eustáquio Rangel de. I I I . Título.
R e s u m o
A v o z é o m e i o de comunicação m a i s utilizado pelo ser h u m a n o . Porém, o s i s t e m a f o n a d o r h u m a n o é suscetível a d i v e r s o s t i p o s de p a t o l o g i a s q u e p o d e m p r e j u d i c a r a produção da v o z e, c o n s e q u e n t e m e n t e , a comunicação.
Alguns t i p o s de e x a m e s têm sido utilizados para d e t e c t a r estas p a t o l o g i a s . Porém, eles a p r e s e n t a m d e s v a n t a g e n s r e f e r e n t e s à acurácia e ao c o n f o r t o do paciente d u r a n t e a aplicação, q u e p o d e m d e s e s t i m u l a r a busca p o r t r a t a m e n t o . Por essa razão, técnicas c o m p u t a c i o n a i s têm sido e m p r e g a d a s c o m o i n t u i t o de d e t e c t a r de m o d o confortável e preciso a presença e o t i p o de patologia a p r e s e n t a d a pelo s i s t e m a f o n a d o r . No e n t a n t o , os r e s u l t a d o s o b t i d o s ainda não p o s s i b i l i t a m sua aplicação nas clínicas, p r i n c i p a l m e n t e pelo f a t o de ainda ser c o n s i d e r a d o u m número reduzido de p a t o l o g i a s .
Visando a c o n t o r n a r esse p r o b l e m a , esta pesquisa propõe u m a a b o r d a g e m f u n d a m e n t a d a e m u m método ainda não utilizado neste c o n t e x t o : a Predição p o r C a s a m e n t o Parcial (Prediction by Partial Matching - PPM), concebida o r i g i n a l m e n t e c o m fins à compressão de d a d o s . O m o d e l o criado e m a n t i d o a p a r t i r deste método é a l i m e n t a d o c o m características acústicas, t e m p o r a i s e estatísticas extraídas d o s sinais de voz e p e r m i t e sua classificação no q u e se refere à identificação da presença e do t i p o de patologia a u m baixo custo c o m p u t a c i o n a l ( v e l o c i d a d e e recursos de a r m a z e n a m e n t o ) . F o r a m o b t i d o s r e s u l t a d o s satisfatórios no t o c a n t e à presença de p a t o l o g i a s . Q u a n t o à discriminação de p a t o l o g i a s , os r e s u l t a d o s s u g e r e m u m potencial do método, e m b o r a a sua aplicação ainda necessite de investigações m a i s a p r o f u n d a d a s .
Palavras-chave: Detecção e Discriminação de Patologias da Fala; Predição por C a s a m e n t o Parcial (PPM); Características Acústicas; Características T e m p o r a i s ; Características Estatísticas.
A b s t r a c t
Voice is t h e m o s t w i d e l y used m e a n s of c o m m u n i c a t i o n of m a n k i n d . H o w e v e r , s p e e c h o r g a n s are susceptible to several s o r t of p a t h o l o g i e s , w h i c h m a y h a r m voice p r o d u c t i o n a n d , t h e r e f o r e , c o m m u n i c a t i o n . Several t e c h n i q u e s have been used to d e t e c t t h e s e p a t h o l o g i e s . H o w e v e r , t h e y p r e s e n t d r a w b a c k s r e l a t e d t o accuracy and c o m f o r t of p a t i e n t s d u r i n g t h e a p p l i c a t i o n , w h i c h m a y d i s c o u r a g e search f o r t r e a t m e n t . Thence, c o m p u t a t i o n a l t e c h n i q u e s have been used in o r d e r to d e t e c t t h e presence and t y p e of speech p a t h o l o g y c o m f o r t a b l y and a c c u r a t e l y . But, results are still n o t g o o d e n o u g h f o r its a p p l i c a t i o n in clinics, due to t h e f a c t it is considered a small n u m b e r of d i s t i n c t p a t h o l o g i e s .
A i m i n g to solve this p r o b l e m , t h i s research proposes using a m e t h o d n o t p r e v i o u s l y e m p l o y e d in classification of vocal t r a c t diseases: Prediction by Partial M a t c h i n g (PPM), o r i g i n a l l y conceived f o r data c o m p r e s s i o n p u r p o s e s . The PPM m o d e l is fed w i t h acoustical, t e m p o r a l , and statistical f e a t u r e s , ali of t h e m e x t r a c t e d f r o m voice signals. This m e t h o d a l l o w e d a s a t i s f a c t o r y classification, c o n c e r n i n g presence and t y p e of p a t h o l o g y while r e q u i r i n g a low c o m p u t a t i o n a l cost ( s p e e d and s t o r a g e r e s o u r c e s ) . I t w e r e o b t a i n e d s a t i s f a c t o r y results r e g a r d i n g presence of s p e e c h p a t h o l o g i e s . W i t h r e g a r d to p a t h o l o g i e s d i s c r i m i n a t i o n , t h e results s u g g e s t t h a t this is a h i g h l y p r o m i s i n g t e c h n i q u e , a l t h o u g h its a p p l i c a t i o n still needs d e e p e r i n v e s t i g a t i o n s .
K e y w o r d s : D e t e c t i o n and D i s c r i m i n a t i o n of S p e e c h Pathologies; Prediction by Partial M a t c h i n g ; T e m p o r a l Features; Acoustical Features; Statistical Features
Lista d e F i g u r a s
F i g u r a 1 - E s q u e m a s i m p l i f i c a d o d e produção d a f a l a 2 0 F i g u r a 2 - D o b r a s v o c a i s e m : abdução ( a ) e adução ( b ) 2 2 F i g u r a 3 - S i n a l d e v o z e o s c i c l o s 2 3 F i g u r a 4 - F o r m a d e o n d a d e u m s i n a l d e v o z p r o n u n c i a n d o a p a l a v r a aplausos 3 1 F i g u r a 5 - C o n t r a s t e d o s v a l o r e s d e E n e r g i a e n t r e v o z e s N o r m a i s e c o m P a r a l i s i a 3 2 F i g u r a 6 - C o n t r a s t e d o s v a l o r e s d e E n e r g i a e n t r e v o z e s N o r m a i s e c o m E d e m a 3 2 F i g u r a 7 - C o n t r a s t e d o s v a l o r e s d e E n e r g i a e n t r e v o z e s c o m E d e m a e P a r a l i s i a 3 3 F i g u r a 8 - C o n t r a s t e d o s v a l o r e s d e T a x a d e C r u z a m e n t o p o r Z e r o e n t r e v o z e s n o r m a i s e c o m E d e m a 3 4 F i g u r a 9 - C o n t r a s t e d o s v a l o r e s d e T a x a d e C r u z a m e n t o p o r Z e r o e n t r e v o z e s n o r m a i s e c o m P a r a l i s i a 3 5 F i g u r a 1 0 - C o n t r a s t e d o s v a l o r e s d e T a x a d e C r u z a m e n t o p o r Z e r o e n t r e v o z e s c o m E d e m a e c o m P a r a l i s i a 3 5 F i g u r a 1 1 - C o n t r a s t e d o s v a l o r e s d e Número T o t a l d e P i c o s e n t r e v o z e s n o r m a i s e c o m E d e m a 3 6 F i g u r a 1 2 - C o n t r a s t e d o s v a l o r e s d e Número T o t a l d e P i c o s e n t r e v o z e s n o r m a i s e c o m P a r a l i s i a 3 7 F i g u r a 1 3 - C o n t r a s t e d o s v a l o r e s d e Número T o t a l d e P i c o s e n t r e v o z e s n o r m a i s e c o m E d e m a 3 7 F i g u r a 1 4 - C o n t r a s t e d o s v a l o r e s d e Diferença n o Número d e P i c o s e n t r e v o z e s n o r m a i s e c o m E d e m a 3 8 F i g u r a 1 5 - C o n t r a s t e d o s v a l o r e s d e Diferença n o Número d e P i c o s e n t r e v o z e s n o r m a i s e c o m P a r a l i s i a 3 9 F i g u r a 1 6 - C o n t r a s t e d o s v a l o r e s d e Diferença n o Número d e P i c o s e n t r e v o z e s c o m E d e m a e c o m P a r a l i s i a 3 9F i g u r a 1 7 - C o n t r a s t e d o s v a l o r e s d e Frequência F u n d a m e n t a l e n t r e v o z e s m a s c u l i n a s N o r m a i s e c o m E d e m a 4 2 F i g u r a 1 8 - C o n t r a s t e d o s v a l o r e s d e Frequência F u n d a m e n t a l e n t r e v o z e s f e m i n i n a s N o r m a i s e c o m E d e m a 4 2 F i g u r a 1 9 - C o n t r a s t e d o s v a l o r e s d e Frequência F u n d a m e n t a l e n t r e v o z e s m a s c u l i n a s N o r m a i s e c o m P a r a l i s i a 4 3 F i g u r a 2 0 - C o n t r a s t e d o s v a l o r e s d e Frequência F u n d a m e n t a l e n t r e v o z e s f e m i n i n a s N o r m a i s e c o m P a r a l i s i a 4 3 F i g u r a 2 1 - C o n t r a s t e d o s v a l o r e s d e Frequência F u n d a m e n t a l e n t r e v o z e s m a s c u l i n a s c o m E d e m a e c o m P a r a l i s i a . 4 4 F i g u r a 2 2 - C o n t r a s t e d o s v a l o r e s d e Frequência F u n d a m e n t a l e n t r e v o z e s f e m i n i n a s c o m E d e m a e c o m P a r a l i s i a . . . . 4 4 F i g u r a 2 3 - C o n t r a s t e d o s v a l o r e s d e Jitt e n t r e v o z e s N o r m a i s e c o m P a r a l i s i a 4 6 F i g u r a 2 4 - C o n t r a s t e d o s v a l o r e s d e Jitt e n t r e v o z e s N o r m a i s e c o m E d e m a 4 7 F i g u r a 2 5 - C o n t r a s t e d o s v a l o r e s d e Jitt e n t r e v o z e s c o m E d e m a e c o m P a r a l i s i a 4 7 F i g u r a 2 6 - C o n t r a s t e d o s v a l o r e s d e ShdB e n t r e v o z e s N o r m a i s e c o m P a r a l i s i a 4 9 F i g u r a 2 7 - C o n t r a s t e d o s v a l o r e s d e ShdB e n t r e v o z e s N o r m a i s e c o m E d e m a 4 9 F i g u r a 2 8 - C o n t r a s t e d o s v a l o r e s d e ShdB e n t r e v o z e s c o m E d e m a e c o m P a r a l i s i a 5 0 F i g u r a 2 9 - C o n t r a s t e d o s v a l o r e s d e HNR e n t r e v o z e s N o r m a i s e c o m P a r a l i s i a 5 1 F i g u r a 3 0 - C o n t r a s t e d o s v a l o r e s d e HNR e n t r e v o z e s N o r m a i s e c o m E d e m a 5 2 F i g u r a 3 1 - C o n t r a s t e d o s v a l o r e s d e HNR e n t r e v o z e s c o m E d e m a e c o m P a r a l i s i a 5 2 F i g u r a 3 2 - M o d e l o L i n e a r d e produção d a f a l a 5 4
F i g u r a 3 3 - Alimentação d e u m m o d e l o P P M c a r a c t e r e p o r c a r a c t e r e 5 8 F i g u r a 3 4 - D i a g r a m a d e b l o c o s d a a b o r d a g e m d e alimentação c o m b y t e s e manutenção e m memória 8 7 F i g u r a 3 5 - D i a g r a m a d e b l o c o s d a a b o r d a g e m d e alimentação c o m b y t e s e manutenção e m b a n c o d e d a d o s 8 8 F i g u r a 3 6 - D i a g r a m a d e b l o c o s d a a b o r d a g e m d e alimentação c o m b y t e s e manutenção e m d i s c o 8 9 F i g u r a 3 7 - M o d o unário d e classificação 9 3 F i g u r a 3 8 - D i a g r a m a d e b l o c o s d a a b o r d a g e m d e alimentação p o r v e t o r e s d e características 9 3 F i g u r a 3 9 - Construção d o s m o d e l o s u t i l i z a d o s e m u m a classificação 9 4 F i g u r a 4 0 - Seleção d e u m a r q u i v o p a r a t r e i n a m e n t o 9 5 F i g u r a 4 1 - Segmentação c o m sobreposição d e 5 0 % 9 6 F i g u r a 4 2 - F o r m a d e o n d a d a j a n e l a d e Hamming 9 7 F i g u r a 4 3 - F o r m a d e o n d a d a j a n e l a d e Hann 9 7 F i g u r a 4 4 - P r o c e s s o d e t e s t e 9 8 F i g u r a 4 5 - Validação C r u z a d a c o m 4 p a r c e l a s 1 0 2 F i g u r a 4 6 - D i a g r a m a d e V e n n q u e c o n t e x t u a l i z a o e s c o p o d a p e s q u i s a 1 1 4
Lista d e Q u a d r o s
Q u a d r o 1 - E x e m p l o d e u m m o d e l o P P M após a l e i t u r a d a p a l a v r a a s s a s s i n a r 5 9 Q u a d r o 2 - R e s u m o d a s p e s q u i s a s r e l a c i o n a d a s à detecção d e p a t o l o g i a s d a f a l a r e v i s a d a s n e s t a dissertação 7 5 Q u a d r o 3 - R e s u m o d a s p e s q u i s a s r e l a c i o n a d a s à compressão d e d a d o s r e v i s a d a s n e s t a dissertação . . . . 7 9 Q u a d r o 4 - R e s u m o d a s p e s q u i s a s r e l a c i o n a d a s à detecção d e p a t o l o g i a s d a f a l a r e v i s a d a s n e s t a dissertação 8 4 Q u a d r o 5 - E x e m p l o d e u m m o d e l o P P A M após a l e i t u r a d a p a l a v r a 5 6 8 5 7 5 6 8 9 1 Q u a d r o 6 - P e r c e n t u a i s o b t i d o s e t i p o s d e e n t r a d a u t i l i z a d o s . . . . 1 0 7 Q u a d r o 7 - P e r c e n t u a i s d e c a d a classificação 1 1 0 Q u a d r o 8 - T e m p o s d e execução d a classificação N o r m a l x Patológico 1 1 1 Q u a d r o 9 - B e n c h m a r k e n t r e d i f e r e n t e s c o m p r e s s o r e s e d i f e r e n t e s t i p o s d e a r q u i v o 1 2 8 Q u a d r o 1 0 - L i s t a d o s a r q u i v o s d a b a s e u t i l i z a d o s n e s t a p e s q u i s a 1 2 9 Q u a d r o 1 1 - Q u a n t i d a d e s d a s c l a s s e s d e a r q u i v o s u t i l i z a d a s n a s classificações 1 3 4 Q u a d r o 1 2 - Relação d e a r q u i t e t u r a s hipotéticas e números d eD B L P DataBase systems and Logic Programming
F P G A Field-Programmable Gate Array
GMM Gaussian Mixture Models
HMM Hidden Markov Models
J D B C Java DataBase Connectivity
L D A Linear Discriminant Analysis
L P C Linear Predictive Coding
L S I Latent Semantic Indexing
M Q R M e d i d a s d e Quantificação d e Recorrência
N L D Non-Linear Dynamics
P P A M Prediction by Partial Approximate Matching
P P M Prediction by Partial Matching
R C Razão d e Compressão
S G B D S i s t e m a s d e G e r e n c i a m e n t o d e B a n c o s d e D a d o s
S V M Support Vector Machines
T E O Teager Energy Operator
Sumário
1 Considerações I n i c i a i s 1 2 1.1 Contextualização 1 2 1.2 Motivação 1 3 1.3 Questões de P e s q u i s a e Hipóteses 1 7 1.4 Objetivos 1 8 1 . 4 . 1 O b j e t i v o G e r a l 1 8 1 . 4 . 2 O b j e t i v o s Específicos 1 8 1.5 E s t r u t u r a d a Dissertação 1 8 2 Fundamentação Teórica 2 0 2.1 Produção da Fala 2 0 2.2 Patologias d a Fala 2 4 2 . 2 . 1 P a r a l i s i a 2 4 2 . 2 . 2 E d e m a d e R e i n k e 2 6 2 . 2 . 3 O u t r a s 2 7 2.3 Análise de S i n a i s de V o z 2 9 2 . 3 . 1 Análise T e m p o r a l 3 0 2 . 3 . 2 Análise Acústica d e S i n a i s d e V o z 4 0 2 . 3 . 2 . 1 Frequência F u n d a m e n t a l ( F0) 4 0 2 . 3 . 2 . 2 Jitter 4 4 2 . 3 . 2 . 3 Shimmer 4 7 2 . 3 . 2 . 4 Relação H a r m ô n i c o - R u í d o 5 0 2 . 3 . 2 . 5 Análise p o r Predição L i n e a r L P C 5 3 2.3.3 Análise Estatística d e S i n a i s de V o z 5 4 2.4 O método de Predição por C a s a m e n t o Parcial 5 62.5 Discussão 6 3 3 T r a b a l h o s R e l a c i o n a d o s 6 5
3.1 Detecção de Patologias da Fala 6 5 3.2 Aplicações do PPM e m Compressão d e Dados 7 6
3.3 U s o s do PPM e m P r o c e s s o s de Classificação de Padrões 7 8
3.4 Discussão 8 3 4 Descrição d a M o d e l a g e m A p l i c a d a 8 5
4.1 Histórico d a s A b o r d a g e n s E x p e r i m e n t a d a s 8 5 4 . 1 . 1 Organização d a B a s e d e D a d o s 8 5 4 . 1 . 2 A b o r d a g e n s d e Utilização e M a n u t e n ç ã o d o M o d e l o 8 6 4 . 1 . 3 A b o r d a g e m S e l e c i o n a d a 9 3 4 . 2 Execução do E x p e r i m e n t o 9 4 4 . 2 . 1 Execução d e u m a classificação 9 5 4 . 2 . 2 Identificação d o m e l h o r t i p o d e e n t r a d a p a r a c a d a classificação 9 8 4 . 2 . 3 Investigação d o s I m p a c t o s d o s P r o c e s s a m e n t o s e C o n t e x t o s 9 9 4 . 2 . 4 O b t e n ç ã o d o s P e r c e n t u a i s v i a Validação C r u z a d a 1 0 1 4.3 F e r r a m e n t a s Utilizadas 1 0 2 4.4 Discussão 1 0 2 5 Apresentação e Discussão d o s R e s u l t a d o s 1 0 4 5.1 B a s e de Dados 1 0 4 5.2 Identificação do m e l h o r tipo de e n t r a d a 1 0 6
5.3 Investigação do impacto de a t i v i d a d e s d e pré-processamento e
variação do t a m a n h o do contexto 1 0 7 5.4 Caracterização do C l a s s i f i c a d o r por Validação C r u z a d a 1 0 9
5.5 Caracterização d a Eficiência do PPM 1 1 1 5.6 Discussão 1 1 2 6 Considerações F i n a i s 1 1 4 6.1 R e s u m o da P e s q u i s a 1 1 4 6.2 Contribuições da P e s q u i s a 1 1 6 6.3 Sugestões para P e s q u i s a s F u t u r a s 1 1 7 Referências Bibliográficas 1 1 9 Apêndice A 1 2 7 Apêndice B 1 2 9 A n e x o A 1 3 6 A n e x o B 1 3 9 A n e x o C 1 4 2
Capítulo 1
Considerações I n i c i a i s
Nas subseções s e g u i n t e s , será d e l i n e a d o ao leitor o escopo do t r a b a l h o , a p a r t i r dos s e g u i n t e s e l e m e n t o s : ( i ) problemática e n v o l v i d a ; ( i i ) motivação para a execução da pesquisa; e ( i i i ) a b o r d a g e m utilizada para a resolução do p r o b l e m a .
1 . 1 Contextualização
A v o z é o m e i o de comunicação m a i s i m p o r t a n t e e m a i s n a t u r a l do s e r h u m a n o , a p a r t i r da qual são e x p r e s s o s v o n t a d e s , p e n s a m e n t o s , o r d e n s e informações. E n t r e t a n t o , para q u e a comunicação seja e f e t i v a , é necessário o e n t e n d i m e n t o c o r r e t o da voz e n u n c i a d a p o r p a r t e do i n t e r l o c u t o r do processo, p r i n c i p a l m e n t e q u a n d o este é u m d i s p o s i t i v o de r e c o n h e c i m e n t o o u de interpretação vocal q u e não dispõe das capacidades h u m a n a s para sua compreensão. Se isso não o c o r r e r , haverá m a i o r propensão a equívocos, o q u e desestimulará a comunicação p o r a m b a s as p a r t e s c a u s a n d o , até m e s m o , o c o n s t r a n g i m e n t o do locutor.
Esse t i p o de p r o b l e m a , d e n o m i n a d o disfonia, é causado m u i t a s vezes p o r patologias da fala, às quais a v o z h u m a n a é m u i t o suscetível. Há a e s t i m a t i v a de q u e e n t r e 3 e 1 0 % da população m u n d i a l t e n h a o s i s t e m a de produção da fala c o m p r o m e t i d o p o r a l g u m a p a t o l o g i a (STEMPLE; GLASE; KLABEN, 2 0 1 0 a p u d COSTA e t a l . , 2 0 1 2 ) . É c o m u m u m m e s m o indivíduo ser a c o m e t i d o p o r até 8 p a t o l o g i a s (KAY ELEMETRICS, 1 9 9 4 ) , as quais p o d e m ser causadas p o r alterações p s i c o e m o c i o n a i s (FUKUDA, 2 0 0 3 ) , doenças n e u r o d e g e n e r a t i v a s ( D A V I S , 1 9 7 9 ; QUEK e t a l . , 2 0 0 2 ) , m a u uso da v o z o u hábitos sociais não saudáveis, tais c o m o o t a b a g i s m o e a ingestão de álcool (BEHLAU, 2 0 0 1 ; STEMPLE; GLASE; KLABEN, 2 0 1 0 a p u d COSTA e t a l . , 2 0 1 2 ) . A l g u m a s
destas causas e x p l i c a m a ocorrência m a i s f r e q u e n t e de p a t o l o g i a s da fala e m f u m a n t e s e e m c a t e g o r i a s de profissionais q u e u t i l i z a m a v o z c o m o seu principal i n s t r u m e n t o de t r a b a l h o , e.g., p r o f e s s o r e s , c a n t o r e s , radialistas, j o r n a l i s t a s (HAMMARBERG, 1 9 9 8 a p u d MARINUS, 2 0 1 0 ) . Em u m e s t u d o c o m professores, 3 2 % se a u t o - i d e n t i f i c a r a m c o m o p o r t a d o r e s de a l g u m a p a t o l o g i a da fala, c o n t r a 1 % das d e m a i s ocupações i n v e s t i g a d a s (STEMPLE; GLASE; KLABEN, 2 0 1 0 a p u d COSTA e t a l . , 2 0 1 2 ) . D e n t r e as p a t o l o g i a s da fala m a i s conhecidas estão o Nódulo, o Edema, a
Paralisia e o Pólipo.
1 . 2 Motivação
Na detecção de p a t o l o g i a s da fala, são usados, t r a d i c i o n a l m e n t e , dois t i p o s de m e c a n i s m o s . O p r i m e i r o , consiste na escuta da elocução vocal do paciente p o r u m profissional ( n o r m a l m e n t e , u m fonoaudiólogo o u u m o t o r r i n o l a r i n g o l o g i s t a ) , v i s a n d o a d i a g n o s t i c a r a presença o u ausência de u m a p a t o l o g i a . Até há poucos anos, este era o método m a i s usado ( H U ; L O I Z O U , 2 0 0 8 ; SÁENZ-LECHÓN et a l . 2 0 0 6 a p u d LONDONO, 2 0 1 0 ) . E n t r e t a n t o , não é difícil p e r c e b e r seu caráter s u b j e t i v o e p r o p e n s o à indução de e r r o s , p r i n c i p a l m e n t e nos casos e m q u e a p a t o l o g i a se e n c o n t r a e m estágios iniciais, d e v i d o à f o r t e dependência da experiência, da acurácia, do nível de fadiga e da sensibilidade d o s i s t e m a a u d i t i v o do p r o f i s s i o n a l1 (LOPES e t a l . , 2 0 0 8 ; OATES, 2 0 0 9 a p u d LONDONO, 2 0 1 0 ) . Diante do e x p o s t o , este t i p o de e x a m e d e v e r i a s e r realizado a p e n a s na inexistência de o u t r a s a l t e r n a t i v a s .
O s e g u n d o m e c a n i s m o consiste e m p r o c e d i m e n t o s clínicos a p a r t i r dos quais a v o z do paciente é a v a l i a d a p o r m e i o de recursos visuais. D e n t r e os e x a m e s m a i s c o m u n s desta n a t u r e z a estão ( i ) a
videolaringoscopia, q u e consiste na visualização e no e s t u d o da laringe e
das d o b r a s vocais do paciente, p o r m e i o de u m a fibra óptica ( l u z contínua); e ( i i ) a videoestroboscopia, a qual lança mão de luz
1 Diferentes diagnósticos podem ser dados por diferentes profissionais ou, até mesmo, pelo mesmo profissional, em ocasiões diferentes.
estroboscópica2 (descontínua) para t a l visualização e e s t u d o (MARTINEZ; RUFINER, 2 0 0 0 ) . Estes e x a m e s , e m b o r a precisos, são c o n s i d e r a d o s i n v a s i v o s e desconfortáveis para o p a c i e n t e , c a u s a n d o , e m a l g u n s casos, a ação de reflexo d u r a n t e a aplicação, e m função de sua sensibilidade laríngea, o q u e pode causar distorções nos dados o b t i d o s e, c o m isso, a c a r r e t a r falsos diagnósticos (ADNENE; LAMIA, 2 0 0 3 ; ALONSO e t a l . , 2 0 0 1 ) . Além disto, c o m p r o m e t e m f i n a n c e i r a m e n t e a m b a s as p a r t e s , já q u e os e q u i p a m e n t o s r e q u e r i d o s para executá-los são caros e sofisticados, o b r i g a n d o o repasse d o s custos ao p a c i e n t e3 e r e s t r i n g i n d o o seu acesso a g r a n d e p a r t e da população.
L i e b e r m a n ( 1 9 6 3 ) foi o p r i m e i r o a e s t u d a r as perturbações causadas por patologias na v o z u s a n d o m e d i d a s acústicas e, desde então, d e v i d o às d e s v a n t a g e n s d o s métodos t r a d i c i o n a i s a p r e s e n t a d o s a n t e r i o r m e n t e , inúmeras pesquisas sobre a detecção de p a t o l o g i a s p o r c o m p u t a d o r têm sido d e s e n v o l v i d a s . A ideia é processar o sinal de v o z d i g i t a l i z a d o a p a r t i r de u m a técnica c o m p u t a c i o n a l q u e a p r e s e n t e o máximo de precisão possível na detecção de p a t o l o g i a s , c o m o i n t u i t o de a u x i l i a r o clínico, d a n d o a ele m a i s u m a f o n t e de informação confiável para a t o m a d a de decisão, e r e d u z i r s i g n i f i c a t i v a m e n t e a necessidade e a frequência de e x a m e s visuais. Pode-se p e r c e b e r q u e t a l a b o r d a g e m c o m b i n a as v a n t a g e n s dos dois t i p o s de e x a m e s s u p r a d e s c r i t o s e e l i m i n a m u i t a s de suas d e s v a n t a g e n s , de m o d o q u e não se afigura irreal c r e r q u e poderá v i r a ser a a b o r d a g e m a m p l a m e n t e a d o t a d a e m u m f u t u r o não m u i t o d i s t a n t e .
D a n d o c o n t i n u i d a d e à pesquisa de L i e b e r m a n ( 1 9 6 3 ) , o u t r o s a u t o r e s i n v e s t i g a r a m d i v e r s a s técnicas c o m p u t a c i o n a i s no c o n t e x t o de classificação de p a t o l o g i a s da fala, tais c o m o Redes Neurais, Máquinas de S u p o r t e V e t o r i a l , Análise C e p s t r a l , d e n t r e o u t r a s , quase s e m p r e u t i l i z a n d o
2 A argumentação de muitos profissionais é que se trata do único tipo de iluminação que permite visualizar a vibração das dobras vocais e emitir u m diagnóstico acurado da patologia vocal investigada.
3 Em entrevista, a Dra. Lavínia Brandão, fonoaudióloga na cidade de Campina Grande, afirmou que os preços desses exames giram e m torno de R$ 140,00 (BRANDÃO, 2012).
sinais de vozes na elocução da v o g a l /ah/ s u s t e n t a d a4. Porém, na l i t e r a t u r a revisada não foi e n c o n t r a d a n e n h u m a investigação associada à discriminação de p a t o l o g i a s da fala, p o r m e i o da q u a l , d a d o u m sinal de voz, seja d i a g n o s t i c a d a a patologia a p r e s e n t a d a p o r seu s i s t e m a f o n a d o r . Na m a i o r p a r t e da documentação e x i s t e n t e , m e s m o e m r e g i s t r o s recentes, obtém-se c o m o principal r e s u l t a d o a detecção precisa ( c h e g a n d o ao p e r c e n t u a l 1 0 0 % ) da presença o u ausência de p a t o l o g i a s . Q u a n d o se t r a t a de p a t o l o g i a s específicas, no máximo três p a t o l o g i a s são consideradas, e m b o r a a t u a l m e n t e se t e n h a c o n h e c i m e n t o de m a i s de 1 2 0 (BRANDT, 2 0 1 2 ; A R I A S - L O N D O N O et a l . , 2 0 1 1 ; TAVARES e t a l . , 2 0 1 1 ; LIMA e t al. 2 0 1 2 ; PATIL; BALJEKAR, 2 0 1 2 ; COSTA e t a l . , 2 0 1 2 ; OROZCO et al. 2 0 1 2 ; KAY ELEMETRICS, 1 9 9 4 ) .
Por tal razão, a busca de técnicas c o m p u t a c i o n a i s q u e d i s c r i m i n e m c o m precisão o máximo possível de p a t o l o g i a s d i s t i n t a s se afigura u m t e m a de pesquisa r e l e v a n t e , u m a v e z q u e a classificação r o b u s t a e a c u r a d a da patologia pode a u x i l i a r o t e r a p e u t a a d i r e c i o n a r c o r r e t a m e n t e o t r a t a m e n t o do p a c i e n t e . Vale r e s s a l t a r q u e cada patologia e x i g e u m t r a t a m e n t o d i f e r e n t e , d e n t r e os quais se i n c l u e m a t e r a p i a v o c a l , a cirurgia e, até m e s m o , a r a d i o t e r a p i a (MARTINEZ; RUFINER, 2 0 0 0 ) , além de ser insuficiente, para fins de t r a t a m e n t o , o s i m p l e s diagnóstico "o paciente a p r e s e n t a u m a p a t o l o g i a " .
U m t i p o de a b o r d a g e m sobre a qual não se e n c o n t r o u r e g i s t r o na revisão de l i t e r a t u r a foi o uso de métodos estatísticos de compressão de dados v i s a n d o ao diagnóstico de sinais de v o z . E m b o r a esses métodos t e n h a m sido p r o j e t a d o s i n i c i a l m e n t e para c o m p r i m i r dados, i.e., g e r a r u m f l u x o de dados m e n o r a p a r t i r de o u t r o de m o d o reversível, percebeu-se que o rico m o d e l o estatístico g e r a d o p o r a l g u n s destes a l g o r i t m o s a p a r t i r do f l u x o original ( c o n t e n d o p r o b a b i l i d a d e s de símbolos e sequências de
4 O interesse nesta elocução advém do fato de que as dobras vocais vibram durante a toda a emissão vocal correspondente a esta vogal (permanecem sempre em movimento), facilitando a análise do comportamento do sistema fonador durante esse processo e a verificação da existência de patologias (MONTEIRO et al., 2 0 1 1 ; GODINO-LLORENTE; GÓMEZ-VILDA; BLANCO-VELASCO, 2006).
símbolos r e f e r e n t e s a este f l u x o ) pode ser e m p r e g a d o também e m a t i v i d a d e s de classificação, ao s e r e m feitas c o n s u l t a s às p r o b a b i l i d a d e s a r m a z e n a d a s nestes m o d e l o s d u r a n t e a leitura e u t i l i z a n d o - a s c o m o base para a t o m a d a de decisão. Por esta razão, isto é, pela crença na hipótese de q u e o e m p r e g o de u m método estatístico de compressão c o m fins de classificação seria capaz de d i s c r i m i n a r patologias, e também pelo f a t o de as investigações c o m o u t r a s técnicas não t e r e m e m p r e g a d o esforços e m d i s c r i m i n a r o máximo de patologias d i s t i n t a s , se a f i g u r a i m p o r t a n t e o e s t u d o da eficácia e eficiência de métodos estatísticos de compressão de dados na discriminação de patologias.
S e g u n d o Medeiros e t a l . ( 2 0 1 1 ) , u m dos métodos m a i s eficazes de compressão de dados a t u a l m e n t e d e n o m i n a - s e Predição p o r C a s a m e n t o Parcial (Prediction by Partial Matching - PPM). S e u princípio de f u n c i o n a m e n t o será descrito e m d e t a l h e s na Seção 2.4. Porém, deve-se c o n s i d e r a r q u e bons r e s u l t a d o s têm sido o b t i d o s a p a r t i r do seu uso e m a t i v i d a d e s de compressão e classificação de a r q u i v o s binários, t e x t o s , sinais de e l e t r o c a r d i o g r a m a e i m a g e n s , d e n t r e o u t r o s t i p o s de sinais. E x e m p l o s deste uso poderão s e r e n c o n t r a d o s nas Seções 3.2 e 3.3 e no Apêndice A. Em t o d o s eles, f l u x o s de d a d o s de t e s t e f o r a m c o m p r i m i d o s utilizando m o d e l o s PPM construídos d u r a n t e a fase de t r e i n a m e n t o . Se c o n s i d e r a v a q u e o m o d e l o a p a r t i r do qual foi o b t i d o o m e n o r f l u x o de dados c o m p r i m i d o e m u m d e t e r m i n a d o m o m e n t o t i n h a sido construído c o m a r q u i v o s do m e s m o t i p o q u e o do f l u x o de dados t e s t a d o ( o r i g i n a l ) . Na v e r d a d e , a t o m a d a de decisão era feita pelo uso do conceito de Razão
de Compressão (RC), c o m u m no c a m p o da Compressão de Dados, q u e
consiste na razão e n t r e os t a m a n h o s dos f l u x o s de d a d o s original e c o m p r i m i d o . S e n d o a s s i m , o m o d e l o a p a r t i r do qual foi g e r a d o o m e n o r f l u x o de dados c o m p r i m i d o e m u m d e t e r m i n a d o m o m e n t o e r a , na v e r d a d e , o m o d e l o a p a r t i r do qual foi o b t i d a a m a i o r Razão de
Compressão da compressão e x e c u t a d a .
P o r t a n t o , a investigação da eficácia e eficiência do PPM na discriminação de patologias da fala a p a r t i r de sinais de v o z se m o s t r a
válida, s o b r e t u d o na e x p e c t a t i v a de q u e se possa c o n t r i b u i r s o b as s e g u i n t e s p e r s p e c t i v a s :
• A u x i l i a r no c a m p o da Medicina Diagnostica assistida p o r c o m p u t a d o r , no q u e se refere a p a t o l o g i a s da v o z ;
• Evidenciar o uso do método PPM na discriminação de patologias da fala; e
• Oferecer u m a a l t e r n a t i v a não invasiva de auxílio ao diagnóstico de p a t o l o g i a s da v o z q u e t e n h a altos índices de a c e r t o ( q u e seja confiável ao clínico q u e utilizá-la), além de rápida execução e baixo c o n s u m o de recursos de memória c o m relação às técnicas usuais.
1.3 Questões d e P e s q u i s a e Hipóteses
A p a r t i r do d e l i n e a m e n t o do q u a d r o a t u a l do c a m p o de diagnóstico de p a t o l o g i a s da fala e da verificação da importância do e s t u d o da eficácia e eficiência de u m método estatístico de compressão de d a d o s neste c a m p o ( s e n d o o PPM o método escolhido para a condução dos e s t u d o s ) , f o r a m f o r m u l a d a s as s e g u i n t e s questões de pesquisa, a p a r t i r das quais s u r g i u a motivação para a pesquisa ora d o c u m e n t a d a :
• Pi: O método PPM é capaz de d e t e c t a r a presença de p a t o l o g i a s da fala c o m eficácia ( b a i x o índice de e r r o s ) ?
• P2: O método PPM é capaz de d i s c r i m i n a r e n t r e patologias da fala
c o m eficácia?
• P3: O método PPM é capaz de realizar estas t a r e f a s de m o d o
eficiente ( b a i x o s t e m p o de execução e c o n s u m o de memória)? A p a r t i r destas questões, f o r a m f o r m u l a d a s hipóteses, as quais n o r t e a r a m a pesquisa:
• H i : É possível, u t i l i z a n d o o método PPM, o b t e r altos p e r c e n t u a i s de a c e r t o na classificação de u m sinal de v o z c o m o N o r m a l o u Patológico;
• H2: É possível d i s c r i m i n a r d i v e r s a s patologias u t i l i z a n d o métodos c o m p u t a c i o n a i s ;
• H3: É possível, u t i l i z a n d o o método PPM, o b t e r altos p e r c e n t u a i s de a c e r t o na discriminação e n t r e p a t o l o g i a s referida na hipótese H2;
• H4: O PPM é capaz de realizar estas t a r e f a s de m o d o e f i c i e n t e , isto
é, de m o d o rápido e c o m baixa utilização dos recursos de memória disponíveis.
1 . 4 O b j e t i v o s 1.4.1 O b j e t i v o G e r a l
Esta pesquisa o b j e t i v o u , p r i n c i p a l m e n t e , analisar a aplicação de métodos estatísticos de compressão de d a d o s ( m a i s e s p e c i f i c a m e n t e , o PPM) na detecção e discriminação de d i f e r e n t e s p a t o l o g i a s da f a l a , c o n s i d e r a n d o aspectos de eficácia ( p e r c e n t u a i s de a c e r t o e l e v a d o s ) e eficiência ( t e m p o de resposta rápido e pouca utilização de recursos de h a r d w a r e , a e x e m p l o de memória).
1 . 4 . 2 0 b j e t i v o s Específicos
C o n s i d e r a n d o o o b j e t i v o geral e x p o s t o na Seção 1 . 4 . 1 , esta pesquisa foi c o n d u z i d a v i s a n d o a alcançar os s e g u i n t e s o b j e t i v o s específicos:
• Seleção da m e l h o r configuração do método PPM c o m base no p r o c e s s a m e n t o estatístico ( p r o j e t o e x p e r i m e n t a l e t e s t e s de hipóteses) de seus r e s u l t a d o s ; • Obtenção de p e r c e n t u a i s de a c e r t o e l e v a d o s na classificação e n t r e voz n o r m a l e v o z patológica; • Obtenção de p e r c e n t u a i s de a c e r t o e l e v a d o s na classificação de p a t o l o g i a s d i s t i n t a s ;
• M o d e l a g e m do s i s t e m a de m o d o q u e sua execução seja rápida e c o m uso de poucos recursos de memória.
1 . 5 E s t r u t u r a d a D i s s e r t a ç ã o
O r e s t a n t e d e s t e d o c u m e n t o está e s t r u t u r a d o c o m o s e g u e : ( i ) no Capítulo 2 (Fundamentação Teórica) são e x p l o r a d o s os d i v e r s o s
conceitos relacionados à pesquisa; ( i i ) o Capítulo 3 ( T r a b a l h o s R e l a c i o n a d o s ) contém u m a revisão da l i t e r a t u r a da área c u j o foco é a aplicação de técnicas d i v e r s a s d e s t i n a d a s à detecção de p a t o l o g i a s e à aplicação do PPM e m processos de classificação e compressão; ( i i i ) no Capítulo 4 (Descrição d a M o d e l a g e m A p l i c a d a ) é d e t a l h a d o o p r o c e d i m e n t o metodológico a d o t a d o nos e x p e r i m e n t o s c o n d u z i d o s , c o m ou s e m êxito, v i s a n d o a alcançar r e s u l t a d o s satisfatórios; ( i v ) o Capítulo 5 (Apresentação e Discussão d e R e s u l t a d o s ) contém a apresentação e discussão dos r e s u l t a d o s d o s d i v e r s o s e x p e r i m e n t o s de classificação c o n d u z i d o s e do p r o c e s s a m e n t o estatístico associado, v i s a n d o a e n c o n t r a r
a m e l h o r configuração do classificador5; ( v i ) no Capítulo 6
(Considerações F i n a i s ) são i n t e g r a d a s conclusões a d v i n d a s dos r e s u l t a d o s o b t i d o s , contribuições associadas à pesquisa e sugestões de pesquisas q u e poderão ser c o n d u z i d a s de m o d o a se o b t e r e m r e s u l t a d o s m a i s a b r a n g e n t e s e satisfatórios para a a b o r d a g e m ora d o c u m e n t a d a ; (vii) no Apêndice A são m o s t r a d o s r e s u l t a d o s o b t i d o s ao s e r e m c o m p r i m i d o s ( e x p e r i m e n t a l m e n t e ) d i f e r e n t e s tipos de a r q u i v o s c o m o PPM, e n t r e eles letras de músicas, livros e sinais de v o z ; (viii) no Apêndice B são listados os a r q u i v o s utilizados nos e x p e r i m e n t o s c o n d u z i d o s para esta pesquisa; ( i x ) no A n e x o A é a p r e s e n t a d a u m a explicação d e t a l h a d a do conceito de Projeto E x p e r i m e n t a l (técnica de apuração de r e s u l t a d o s utilizada neste t r a b a l h o , c o n f o r m e m e n c i o n a d o no Capítulo 4; ( x ) no A n e x o B é explicado e m d e t a l h e s o conceito de I n t e r v a l o s de Confiança, b a s t a n t e utilizado e m análises estatísticas e também na q u e foi e m p r e e n d i d a nesta pesquisa; ( x i ) no A n e x o C está c o n t i d o o a r t i g o aceito para publicação no I A D I S 2 0 1 3 , realizado no T e x a s , EUA; ( x i i ) e no A n e x o D está c o n t i d o o a r t i g o aceito para publicação no BRICS-CBIC 2 0 1 3 , realizado e m Porto de Galinhas, no município de I p o j u c a - PE.
Capítulo 2
Fundamentação Teórica
Neste capítulo, são d e s c r i t o s tópicos r e l a t i v o s à produção da fala, às p a t o l o g i a s q u e lhe a f e t a m , às m e d i d a s q u e são c o m u m e n t e extraídas para caracterizá-la e ao classificador a d o t a d o para os e x p e r i m e n t o s .
2.1 Produção d a F a l a
Para se e n t e n d e r a importância do e s t u d o das p a t o l o g i a s da fala e seu i m p a c t o na comunicação vocal h u m a n a , é necessário c o m p r e e n d e r o f u n c i o n a m e n t o do s i s t e m a f o n a d o r h u m a n o . A Figura 1 contém u m d i a g r a m a esquemático deste m e c a n i s m o vocal.
F i g u r a 1 - E s q u e m a s i m p l i f i c a d o d e produção d a f a l a dobras vocais u I cavidade nasal úvula faringe cavidade oral
lannae trem de pulsos traqueia góticos saída de s o m nasal
>»)))
saída de s o m oral pulmões força muscularFONTE: Deller, Proakis & Hansen ( 1 9 9 3 )
A área da região vocal c o m p r e e n d e a região q u e se e s t e n d e da a b e r t u r a das d o b r a s vocais ( q u e pode t e r e n t r e 0 - c o m p l e t a m e n t e
f e c h a d a s - e 2 0 c m2 - c o m p l e t a m e n t e a b e r t a s - d u r a n t e a produção da fala) aos lábios, s e n d o c o m p o s t a pela f a r i n g e e pela c a v i d a d e oral e d e t e r m i n a d a pelas posições da língua, lábios e m a x i l a r . A área nasal se inicia na úvula e t e r m i n a nas fossas nasais ( c a v i d a d e n a s a l ) .
O processo de produção da fala se inicia c o m a expansão dos pulmões, p e r m i t i n d o a e n t r a d a de a r pelas n a r i n a s e pela boca p o r m e i o da inspiração. Esta e t a p a c o m p r e e n d e o f o r n e c i m e n t o de e n e r g i a do processo de produção da v o z e consiste na contração d o d i a f r a g m a , c o m p o s t e r i o r compressão da víscera e c o n s e q u e n t e expansão do v o l u m e de a r dos pulmões. Em s e g u i d a , o a r é processado pelos pulmões e o d i a f r a g m a relaxa, v o l t a n d o para sua posição de r e p o u s o , o q u e p e r m i t e a liberação do ar p o r intermédio da t r a q u e i a . Neste estágio, dá-se início de f a t o à produção da v o z , p o r m e i o da interferência d o s d i v e r s o s órgãos do s i s t e m a f o n a d o r .
O p r i m e i r o e também o principal órgão a causar interferência no a r liberado pelos pulmões é a l a r i n g e , q u e consiste e m u m t u b o c a r t i l a g i n o s o que conecta o s i s t e m a respiratório ( t r a q u e i a e pulmões) e o t r a t o vocal e c a v i d a d e o r a l . Nela se localizam as d o b r a s vocais, duas fibras elásticas ligadas às c a r t i l a g e n s aritenóides, q u e v i b r a m d u r a n t e a produção da fala. Essa vibração, na v e r d a d e , consiste e m i n t e r v a l o s de c o m p l e t a a b e r t u r a e c o m p l e t o f e c h a m e n t o do espaço e n t r e as d o b r a s , d e n o m i n a d o g l o t e . Esse m o v i m e n t o , porém, não o c o r r e ao acaso. I n i c i a l m e n t e e m r e p o u s o ( g l o t e f e c h a d a ) , há o a u m e n t o da c h a m a d a pressão subglótica, f a z e n d o c o m q u e as d o b r a s vocais a b r a m - s e r e p e n t i n a m e n t e , l i b e r a n d o o a r e d i m i n u i n d o a pressão glótica. Essa diminuição relaxa as d o b r a s vocais, o c a s i o n a n d o n o v o f e c h a m e n t o da g l o t e . Esse ciclo d u r a e n q u a n t o d u r a r a emissão vocal (COSTA, 2 0 0 8 ; ANDRADE SOBRINHO, 2 0 1 1 ; GODINO-LLORENTE, 2 0 0 2 a p u d LONDONO, 2 0 1 0 ; RABINER; SCHAFER, 1 9 7 8 ; RUSSO; BEHLAU, 1993 a p u d FECHINE, 2 0 0 0 ) .
Em g e r a l , para a p a s s a g e m do ar, as d o b r a s vocais estão e m
da v o z , é preciso q u e as d o b r a s vocais e s t e j a m e m adução, i.e, f e c h a d a s na linha média. A m b o s os e s t a d o s são m o s t r a d o s na Figura 2.
F i g u r a 2 - D o b r a s v o c a i s e m : a b d u ç ã o ( a ) e adução ( b ) Glote Cartilagem Aritenóide
FONTE: Adaptada de Tortora e Grabowski ( 2 0 0 2 )
Sendo p r o d u z i d a c o m o u m a sequência de sons, a fala r e f l e t e o estado d a s d o b r a s vocais, a s s i m c o m o as posições, a f o r m a e o t a m a n h o das várias articulações e as alterações q u e se p r o c e s s a m ao longo do t e m p o da emissão v o c a l . Q u a n d o as d o b r a s vocais f o r m a m u m a a b e r t u r a e s t r e i t a , o f l u x o de a r p r o v e n i e n t e d o s pulmões as faz v i b r a r , g e r a n d o pulsos aerodinâmicos periódicos, d e n o m i n a d o s pulsos glotais, responsáveis pela produção d o s c h a m a d o s sons vozeados. Por o u t r o lado, q u a n d o a g l o t e mantém-se l e v e m e n t e a b e r t a , o f l u x o de a r p r o v e n i e n t e dos pulmões não é m a i s periódico, a d q u i r i n d o características ruidosas e p r o d u z i n d o os sons d e n o m i n a d o s não-vozeados.
Na Figura 3, é i l u s t r a d a u m a p e q u e n a p a r t e de u m sinal de v o z saudável, na qual é possível p e r c e b e r o m o v i m e n t o de vibração d a s d o b r a s vocais o u ciclos. Elas v i b r a m c e n t e n a s de vezes p o r s e g u n d o e este m o v i m e n t o d e t e r m i n a a Frequência F u n d a m e n t a l da v o z , q u e i n t e r f e r e d i r e t a m e n t e e m sua t o n a l i d a d e e varia b r u s c a m e n t e e n t r e os géneros
( d e t a l h e s desta m e d i d a são a p r e s e n t a d o s na Seção 2 . 3 . 2 . 1 ) . Por e x e m p l o , na Figura 3 são e x i b i d o s 2 0 m s da f o r m a de o n d a de u m s i n a l , no qual as d o b r a s vocais v i b r a m ( a b r e m - s e e f e c h a m - s e c o m p l e t a m e n t e ) 5 vezes. Várias características das d o b r a s vocais i n t e r f e r e m na v e l o c i d a d e deste m o v i m e n t o e, c o n s e q u e n t e m e n t e , a l t e r a m a Frequência F u n d a m e n t a l , tais c o m o o c o m p r i m e n t o , a m a s s a , a elasticidade e a rigidez, d e n t r e o u t r o s .
F i g u r a 3 - S i n a l d e v o z e o s c i c l o s
Em s e g u i d a , o a r passa pelo t r a t o vocal e, d e p e n d e n d o d o s o m , também pelo t r a t o nasal. O t r a t o vocal é u m a e s t r u t u r a t u b u l a r q u e f u n c i o n a c o m o u m r e s s o n a d o r , d e v i d o à excitação das moléculas de a r ao p a s s a r e m p o r e s t r u t u r a s c o m o f a r i n g e , c a v i d a d e s oral e nasal, palato d u r o , língua e d e n t e s , m o d u l a n d o os pulsos p r o v e n i e n t e s da g l o t e . A ressonância é u m fenómeno físico q u e o c o r r e q u a n d o u m a e s t r u t u r a é e x c i t a d a por o u t r a e passa a v i b r a r de m o d o s i m i l a r . Neste caso, o pulso glótico passa a v i b r a r na m e s m a frequência do t r a t o v o c a l , q u a n d o chega ali, c o n f e r i n d o à v o z as características c o n h e c i d a s , tais c o m o a a l t u r a ( o u i n t e n s i d a d e ) e o t i m b r e . Tal frequência é d e n o m i n a d a formante e d e p e n d e das dimensões e da f o r m a do t r a t o v o c a l .
P o s t e r i o r m e n t e , o ar é c o n d u z i d o à c a v i d a d e o r a l , na qual pode ser obstruído pela língua e/ou pelos lábios ( q u e f i n a l i z a m o t r a t o v o c a l ) , ao
s e r e m p r o n u n c i a d a s c o n s o a n t e s . Caso seja p r o d u z i d o u m s o m nasal ( e . g . , p a l a v r a s c o m t i l o u q u e t e r m i n a m e m m ou n ) , u m a e s t r u t u r a d e n o m i n a d a
véu palatino é a b a i x a d a , a c o p l a n d o - s e ao t r a t o vocal via f a r i n g e e
r e c e b e n d o p a r t e do ar p o r este e x p i r a d o (COSTA, 2 0 0 8 ; G O D I N O -LLORENTE, 2 0 0 2 a p u d LONDONO, 2 0 1 0 ; RABINER; SCHAFER, 1 9 7 8 a p u d FECHINE, 2 0 0 0 ; STEMPLE; GLASE; KLABEN, 2 0 1 0 ) .
T e n d o sido d e s c r i t o o m e c a n i s m o c o m p l e t o de produção da fala, é possível p e r c e b e r q u e a l g u n s dos c o m p o n e n t e s i n f l u e n c i a m d i r e t a m e n t e na q u a l i d a d e v o c a l , a d e s t a c a r : saúde laríngea ( q u a l i d a d e das d o b r a s v o c a i s ) , s u p o r t e respiratório e ressonância supraglótica ( d o t r a t o v o c a l ) . Por e x e m p l o , a baixa capacidade p u l m o n a r pode l i m i t a r a vibração d a s d o b r a s vocais, ao g e r a r pressão subglótica i n s u f i c i e n t e para a produção da fala c o m a l t u r a e q u a l i d a d e suficientes.
2 . 2 P a t o l o g i a s d a F a l a
Na seção a n t e r i o r , foi descrito o f u n c i o n a m e n t o de u m s i s t e m a f o n a d o r saudável. Porém, c o n f o r m e a n t e r i o r m e n t e e x p l i c i t a d o , esse s i s t e m a é suscetível a p a t o l o g i a s de d i f e r e n t e s n a t u r e z a s , q u e p o d e m afetá-lo s e r i a m e n t e , as quais p o d e m ser de o r d e m neurológica, m o t o r a o u p s i c o e m o c i o n a l , d e n t r e o u t r a s . Nas seções s e g u i n t e s , serão descritas as p a t o l o g i a s c o n s i d e r a d a s nesta pesquisa e c o m o cada u m a delas afeta o s i s t e m a de produção da fala.
2 . 2 . 1 P a r a l i s i a
A Paralisia é u m a p a t o l o g i a p e r t e n c e n t e à c a t e g o r i a das p a t o l o g i a s neurológicas, as quais são c a r a c t e r i z a d a s p o r interrupções na inervação da laringe. T r a t a - s e da p a t o l o g i a neurológica m a i s c o m u m . O c o r r e d e v i d o a lesões e m ramificações do nervo vago da l a r i n g e , d e n o m i n a d a s nervo
laríngeo superior e nervo laríngeo recorrente. Este último recebe este
n o m e pelo f a t o de passar pela laringe duas vezes: p a r t i n d o do cérebro, passa pelo pescoço, chega ao peito e v o l t a à l a r i n g e . Q u a n t o m a i o r seu t a m a n h o , m a i o r sua suscetibilidade a lesões, razão pela qual lesões neste
n e r v o são m u i t o m a i s f r e q u e n t e s (STEMPLE; GLASE; KLABEN, 2 0 1 0 ; KOHLER, 2 0 1 1 ; PARRAGA, 2 0 0 2 ; BRANDT, 2 0 1 2 ) .
A lesão nestes n e r v o s ocasiona a paralisia de u m a o u a m b a s as d o b r a s vocais. Se a Paralisia o c o r r e r e m a p e n a s u m a d o b r a , dá-se o n o m e de Paralisia Unilateral. Se o c o r r e r e m a m b a s , d e n o m i n a - s e Bilateral. Várias são as causas da Paralisia U n i l a t e r a l , d e n t r e as quais p o d e m s e r citadas t r a u m a de p a r t o , c i r u r g i a s intratorácicas, pós-intubação e n d o t r a q u e a l , vírus (paralisia v i r a i ) , pressão sobre o n e r v o d e v i d o a u m t u m o r , neoplasia m a l i g n a do pescoço ou t r a u m a c e r v i c a l . Q u a n t o à Paralisia B i l a t e r a l , a principal causa t e m sido a t i r e o i d e c t o m i a , m a s a l g u m a s das causas a n t e r i o r m e n t e citadas também são f r e q u e n t e s , tais c o m o a pós-intubação e n d o t r a q u e a l , o t r a u m a cervical e doenças m a l i g n a s do pescoço (STEMPLE; GLASE; KLABEN, 2 0 1 0 ; COSTA, 2 0 0 8 ) .
O prejuízo causado d e p e n d e das d o b r a s vocais q u e f o r a m a f e t a d a s e de sua posição na laringe - m e d i a n a , p a r a m e d i a n a o u l a t e r a l . No caso de u m a Paralisia U n i l a t e r a l e m adução, c o m a d o b r a vocal e m posição m e d i a n a ( n a linha do m e i o da g l o t e ) , a q u a l i d a d e vocal pode ser pouco a f e t a d a , pelo f a t o de a g l o t e ainda ser f e c h a d a na vibração, o q u e cria a pressão subglótica e, p o r isso, não p r e j u d i c a a produção da v o z . Caso a d o b r a vocal a f e t a d a a p r e s e n t e frouxidão, a criação da pressão subglótica fica p r e j u d i c a d a . A i n d a , e m b o r a a produção da v o z não seja s i g n i f i c a t i v a m e n t e p r e j u d i c a d a pela paralisia nesta posição, há p e r m a n e n t e obstrução da p a s s a g e m de ar, pelo f a t o de a a b e r t u r a da p a s s a g e m do ar s e r m e t a d e do t a m a n h o n o r m a l , o q u e dificulta a respiração. I s t o é n o t a d o m a i s p e r c e p t i v e l m e n t e ao s e r e m p r a t i c a d a s a t i v i d a d e s tais c o m o e s p o r t e s e t r a b a l h o pesado. Se a d o b r a vocal e s t i v e r e m posição p a r a m e d i a n a - de 1 a 2 m m da linha do m e i o da g l o t e , já é possível p e r c e b e r a l g u n s s i n t o m a s e a alteração na q u a l i d a d e v o c a l , e m b o r a também seja possível a o u t r a d o b r a vocal se e s t e n d e r u m pouco além do n o r m a l , p r o d u z i n d o f e c h a m e n t o suficiente para u m a boa fonação. Esta é a situação m a i s c o m u m de Paralisia. Se a Paralisia o c o r r e r e m abdução, a d o b r a vocal permanecerá e m posição lateral ( 3 a 4 m m da
linha m e d i a n a ) e o f e c h a m e n t o não ocorrerá, o q u e acarretará m u i t a dificuldade na produção da v o z e e m d i v e r s a s o u t r a s a t i v i d a d e s , tais c o m o a deglutição, sendo necessária a cirurgia ou a alimentação via sonda (STEMPLE; GLASE; KLABEN, 2 0 1 0 ; BRANDT, 2 0 1 2 ) .
A Paralisia Bilateral é b e m m a i s p r e j u d i c i a l , p r i n c i p a l m e n t e e m posição m e d i a n a , pois p r e j u d i c a s e r i a m e n t e a p a s s a g e m de ar, vital ao ser h u m a n o . M e s m o e m posição p a r a m e d i a n a o u l a t e r a l , o prejuízo à produção da fala é m u i t o m a i o r do q u e aquele associado à Paralisia U n i l a t e r a l .
Q u a n t o aos s i n t o m a s , é c o m u m os pacientes a p r e s e n t a r e m elocução vocal c o m ruído de f u n d o6, f a d i g a v o c a l , d i p l o f o n i a ( q u a n d o as d o b r a s vocais v i b r a m i n d e p e n d e n t e m e n t e , e m frequências d i f e r e n t e s ) , respiração ruidosa e falta de ar, d e n t r e o u t r o s . É m u i t o difícil para o paciente f a l a r e m a m b i e n t e s c o m m u i t o ruído, p r i n c i p a l m e n t e d e v i d o à baixa i n t e n s i d a d e da fala (DANIEL; BOONE; McFARLANE, 1 9 9 4 ; COLTON; CÁSPER, 1 9 9 6 a p u d PARRAGA, 2 0 0 2 ; STEMPLE; GLASE; KLABEN, 2 0 1 0 ; KOHLER, 2 0 1 1 ; PATIL; BALJEKAR, 2 0 1 2 ) .
2 . 2 . 2 E d e m a d e R e i n k e
O E d e m a de Reinke é u m a p a t o l o g i a e s t r u t u r a l . Patologias desta c a t e g o r i a são c a r a c t e r i z a d a s p o r mudanças na e s t r u t u r a histológica das d o b r a s vocais, a f e t a n d o sua m a s s a , tensão, f l e x i b i l i d a d e e, c o n s e q u e n t e m e n t e , seu padrão vibratório. No caso d o E d e m a de Reinke, a mudança consiste no a u m e n t o de t a m a n h o de u m a ( e m estágios iniciais) o u a m b a s as d o b r a s d e v i d o ao s u r g i m e n t o de u m fluido viscoso e m seu i n t e r i o r , m a i s e s p e c i f i c a m e n t e no espaço de Reinke ( p r i m e i r o a n a t o m i s t a a r e g i s t r a r as d o b r a s v o c a i s ) , o q u e m o d i f i c a r a d i c a l m e n t e o espaço da g l o t e (STEMPLE; GLASE; KLABEN, 2 0 1 0 ; HIRANO, 1 9 8 1 ) .
A principal causa desta patologia é o f u m o , i n d e p e n d e n t e m e n t e da idade, associado a o u t r a s causas, tais c o m o uso excessivo da fala, ingestão d e m a s i a d a de cafeína e/ou ingestão reduzida de água e r e f l u x o
gastresofágico. Há r e g i s t r o s desta p a t o l o g i a e m crianças c o m o hábito do f u m o , e m b o r a seja m u i t o m a i s c o m u m e m a d u l t o s e n t r e 4 5 e 7 0 a n o s (KLEINSASSER, 1 9 9 7 ; HOCEVAR-BOLTEZAR; RADSEL; Z A R G I , 1 9 9 7 ; PAPARELLA; SHUMRICK, 1 9 8 2 ; BENJAMIN, 2 0 0 0 ) .
Devido ao s u r g i m e n t o do f l u i d o viscoso e m s e u i n t e r i o r , as d o b r a s vocais a d q u i r e m dimensões s u p e r i o r e s àquelas n o r m a l m e n t e e x i b i d a s , o que c o m p r o m e t e o padrão vibratório e, c o n s e q u e n t e m e n t e , a q u a l i d a d e vocal. O paciente s e n t e d i f i c u l d a d e de falar, u m a vez q u e o c o r r e u m a redução drástica e m sua q u a l i d a d e v o c a l , t a n t o e m t e r m o s de frequência q u a n t o de i n t e n s i d a d e , de m o d o q u e sua v o z t o r n a - s e b a s t a n t e g r a v e e rouca. Em m u l h e r e s , a emissão vocal pode até m e s m o ser c o n f u n d i d a c o m aquela de u m indivíduo do sexo m a s c u l i n o (COSTA, 2 0 0 8 ) .
2 . 2 . 3 O u t r a s
O u t r a s p a t o l o g i a s f o r a m c o n s i d e r a d a s nesta pesquisa, a e x e m p l o de Nódulo, Pólipo e Cisto. Entre elas, há e m c o m u m o f a t o de s e r e m classificadas c o m o lesões de m a s s a nas d o b r a s vocais, c a u s a n d o disfonias o r g a n o f u n c i o n a i s . Suas especificidades serão descritas b r e v e m e n t e , a seguir.
Os Nódulos nas d o b r a s vocais também p e r t e n c e à c a t e g o r i a das p a t o l o g i a s e s t r u t u r a i s . É u m a das lesões b e n i g n a s m a i s c o m u n s e se
caracteriza c o m o protuberâncias b i l a t e r a i s7 simétricas de t a m a n h o
variável8 nas d o b r a s vocais, s u r g i d a s d e v i d o ao a b u s o v o c a l . Por esta razão, é a patologia m a i s f r e q u e n t e e n t r e profissionais q u e f a z e m uso d e m a s i a d o da v o z , tais c o m o p r o f e s s o r e s , l o c u t o r e s , c a n t o r e s (não t r e i n a d o s ) e o p e r a d o r e s de t e l e f o n i a o u telemarketing, p r i n c i p a l m e n t e do sexo f e m i n i n o . É também a m a i s f r e q u e n t e e n t r e crianças e m idade escolar, e s p e c i a l m e n t e aquelas a g i t a d a s , q u e c o s t u m a m f a z e r uso c o n s t a n t e de g r i t o s , fala excessiva, vocalizações e x p l o s i v a s , choro
7 Há discordância quanto à existência da forma unilateral desta patologia. A maioria dos autores afirmou não existir, porém há autores que afirmaram existir esta forma, tais como Case (1996), Gonzales (1990) e Wilson ( 1 9 9 3 ) .
p r o l o n g a d o , p i g a r r o e falta de hidratação. Há dois t i p o s de Nódulos: A g u d o e Crónico. Os Nódulos A g u d o s são m a i s g e l a t i n o s o s , e n q u a n t o os Crónicos são m a i s rígidos. U m dos locais no qual p o d e m s u r g i r é no p o n t o de m a i o r a m p l i t u d e da vibração das d o b r a s vocais. Seus s i n t o m a s i n c l u e m rouquidão e elocução vocal c o m ruído de f u n d o , d e v i d o p r i n c i p a l m e n t e ao f e c h a m e n t o falho da g l o t e e à vibração i r r e g u l a r das d o b r a s vocais (COSTA, 2 0 0 8 ; GREEN, 1 9 8 9 ; HERSAN, 1 9 9 1 ; CASE, 1 9 9 6 ; W I L S O N , 1 9 9 3 ; STEMPLE; GLASE; KLABEN, 2 0 1 0 ) .
O Pólipo também p e r t e n c e à c a t e g o r i a de patologias e s t r u t u r a i s e, m u i t a s vezes, é c o n f u n d i d o c o m o E d e m a , d i f e r e n c i a n d o - s e pelo f a t o de ser m a i s localizado e m a i s f r e q u e n t e m e n t e u n i l a t e r a l ( 8 0 % dos casos), e n q u a n t o o E d e m a é m a i s g e n e r a l i z a d o , i.e., a t i n g e a t o t a l i d a d e das d o b r a s vocais (BENJAMIN, 2 0 0 0 ) . Fisicamente, pode se p a r e c e r c o m u m nódulo, sendo u m a lesão c o m p o s t a por m a t e r i a l g e l a t i n o s o q u e se d e s e n v o l v e na c a m a d a superficial da lâmina própria, d e v i d o ao a u m e n t o da p e r m e a b i l i d a d e dos vasos. S i m i l a r m e n t e ao nódulo, o uso excessivo da voz é a principal causa de s u r g i m e n t o desta p a t o l o g i a , sendo usual e m indivíduos q u e c o s t u m a m f a z e r uso da fala p o r longos períodos e m a m b i e n t e s r u i d o s o s . A f o r m a hemorrágica desta p a t o l o g i a se o r i g i n a a p a r t i r de u m a r u p t u r a e m u m capilar da d o b r a vocal, c o m p o s t e r i o r s a n g r a m e n t o e formação do Pólipo. O principal s i n t o m a é a disfonia s e v e r a , m a s rouquidão e elocução vocal c o m ruído de f u n d o também p o d e m s u r g i r (DANIEL; BOONE; McFARLANE, 1 9 9 4 ) . É a patologia q u e m a i s c o m u m e n t e exige remoção cirúrgica, p r i n c i p a l m e n t e se não se c o n s t a t a m e l h o r a rápida após conservação rigorosa da v o z . Entre os pacientes, a incidência é d u a s vezes m a i o r e m h o m e n s do q u e e m m u l h e r e s e a m a i o r i a a p r e s e n t a e n t r e 2 0 e 6 0 a n o s de idade ( r a r a m e n t e aparece e m crianças) (COSTA, 2 0 0 8 ; DANIEL; BOONE; McFARLANE, 1 9 9 4 ; STEMPLE; GLASE; KLABEN, 2 0 1 0 ) .
Por f i m , o Cisto é u m a patologia q u e pode a p a r e c e r p r i n c i p a l m e n t e
d e v i d o à má formação congénita9, m a s também pode ser a d q u i r i d a
d u r a n t e a v i d a , d e v i d o a u m a obstrução na glândula m u c o s a ou abuso v o c a l . Pode ser e n c o n t r a d a a f o r m a epidermóide, de retenção (também conhecido c o m o i n t r a c o r d a l ) o u pseudocisto da d o b r a v o c a l . C a r a c t e r i z a -se pelo a p a r e c i m e n t o de u m fluido viscoso localizado, f a z e n d o s u r g i r u m a p e q u e n a protuberância, e p o r ser séssil (preso à d o b r a vocal d i r e t a m e n t e pela b a s e ) . D e n t r e os s i n t o m a s perceptíveis, l i s t a m - s e disfonia, dificuldade ao falar, elocução vocal c o m ruído de f u n d o e i n s t a b i l i d a d e da fala. É m a i s c o m u m e m m u l h e r e s e n t r e 2 0 e 50 anos (BOUCHAYER e t a l . , 1 9 8 5 ; MONDAY e t a l . , 1 9 8 3 ; PASSEROTI, e m h t t p : / / w w w . o t o r r i n o u s p . o r g . b r ; STEMPLE; GLASE; KLABEN, 2 0 1 0 ) .
2 . 3 A n á l i s e d e S i n a i s d e V o z
T e n d o sido a p r e s e n t a d a s as principais p a t o l o g i a s pesquisadas, nas próximas seções serão a p r e s e n t a d o s alguns dos indicadores m a i s c o m u m e n t e usados na sua identificação, a e x e m p l o da Energia, T a x a de C r u z a m e n t o p o r Z e r o , Frequência F u n d a m e n t a l , Jitter, Shimmer, Entropia e n t r e o u t r o s . Eles p o d e m ser classificados e m 3 c a t e g o r i a s : t e m p o r a i s , acústicos e estatísticos.
Porém, p r i m e i r a m e n t e é válido m e n c i o n a r q u e , e m b o r a os sinais de voz s e j a m estacionários e m s e g m e n t o s q u e d u r a m e n t r e 16 e 32 m s (suas p r o p r i e d a d e s estatísticas não v a r i a m c o m o t e m p o caso s e j a m c o n s i d e r a d a s s e g m e n t o s d e n t r o deste i n t e r v a l o ) (RABINER; SCHAFER,
1 9 7 8 ; SOTOMAYOR, 2 0 0 3 ) , o t r a t o vocal a p r e s e n t a n a t u r e z a dinâmica1 0, o que afeta os parâmetros q u e r e p r e s e n t a m a v o z e, c o n s e q u e n t e m e n t e , sua produção. Sendo a s s i m , para não e n v i e s a r o processo de extração das m e d i d a s , i.e., para q u e os v a l o r e s extraídos r e p r e s e n t e m a realidade do sinal de v o z m a n i p u l a d o , as m e d i d a s d e v e m ser extraídas e m s e g m e n t o s d e n t r o d a q u e l e i n t e r v a l o , tais c o m o as m e d i d a s a p r e s e n t a d a s nas
9 Durante a vida intra-uterina, na formação da laringe.
subseções a seguir, de m o d o q u e u m a r q u i v o seja r e p r e s e n t a d o p o r u m c o n j u n t o de v a l o r e s de d e t e r m i n a d a m e d i d a .
Essas m e d i d a s são c h a m a d a s de m e d i d a s de c u r t o i n t e r v a l o de t e m p o . A l g u m a s m e d i d a s também são a p r e s e n t a d a s c o m o u m v a l o r único (média o u m e d i a n a ) , r e f e r e n t e a t o d o o sinal, o b t i d a a p a r t i r d o s v a l o r e s associados a cada s e g m e n t o (COSTA, 2 0 0 8 ; FECHINE, 2 0 0 0 ) . Elas são d e n o m i n a d a s m e d i d a s de longo i n t e r v a l o de t e m p o . U m e x e m p l o de m e d i d a c o m u m e n t e a p r e s e n t a d a e m longo i n t e r v a l o de t e m p o é a Frequência F u n d a m e n t a l .
2.3.1 Análise T e m p o r a l
Na categoria de análise t e m p o r a l , são c o m u m e n t e utilizadas 4 m e d i d a s : Energia, Taxa de C r u z a m e n t o p o r Z e r o , Número Total de Picos e Diferença no Número de Picos.
2.3.1.1 Energia
A E n e r g i a de u m s e g m e n t o é obtida a p a r t i r da Equação 1 (FECHINE, 2 0 0 0 ) .
Eseg = NA* E { [ s ( n ) - /*<„,]2 } , ( 1 )
e m q u e NA é o t a m a n h o do s e g m e n t o , s(n) r e p r e s e n t a a a m p l i t u d e da
n-ésima a m o s t r a de u m s e g m e n t o de u m sinal de v o z e ps ( n ) d e n o t a o v a l o r
médio de t o d a s as a m o s t r a s do s e g m e n t o . Porém, para sinais de v o z , q u e são considerados ergódicos e estacionários ( c o n f o r m e m e n c i o n a d o no início da Seção 2 . 3 ) no s e n t i d o a m p l o , c o m média nula, a Equação 1 pode ser s i m p l i f i c a d a . O r e s u l t a d o é m o s t r a d o na Equação 2.
E sí g = NA-E{[S(n)2]} = AJT[s(n)]2,
( 2 )
A Energia é u m a m e d i d a utilizada p r i n c i p a l m e n t e na distinção e n t r e sons v o z e a d o s e sons não v o z e a d o s , o u de m o d o m a i s g e r a l , sons s o n o r o s e sons s u r d o s , haja vista q u e sons s o n o r o s a p r e s e n t a m e n e r g i a s i g n i f i c a t i v a m e n t e m a i o r q u e sons s u r d o s (RABINER; SCHAFER, 1 9 7 8 ) . É possível até m e s m o d i s t i n g u i r e n t r e t r e c h o s v o z e a d o s , c o m o no caso da pronúncia de sílabas tónicas. Por e x e m p l o , na Figura 4, destaca-se a diferença e n t r e a m p l i t u d e s e m regiões d i f e r e n t e s da pronúncia da palavra
aplausos. Pode-se v e r i f i c a r q u e a região r e f e r e n t e à sílaba tónica (pia) se
faz c o r r e s p o n d e r aos m a i o r e s v a l o r e s de a m p l i t u d e , f a t o d e c o r r e n t e da força necessária para pronunciá-la. Sendo a s s i m , os q u a d r o s próximos a essa região contêm os v a l o r e s de e n e r g i a m a i s e l e v a d o s .
F i g u r a 4 - F o r m a d e o n d a d e u m s i n a l d e v o z p r o n u n c i a n d o a p a l a v r a aplausos 0.6 | 1 1 , r 0.6 --0 8 1 1 1 1 1 1 0 2 5 0 5 0 0 1 0 0 0 1 3 6 0 T e m p o ( m s )
Os gráficos e x i b i d o s nas Figuras 5 a 7 f o r a m construídos a p a r t i r da
extração da Energia de t o d o s os q u a d r o s de 2 0 m s1 1 ( c o m sobreposição
1 1 Equivale a 1.000 amostras em sinais de vozes normais, pelo fato de estes terem sido amostrados a 50 kHz. Os sinais de vozes patológicas, por sua vez, foram amostrados, em sua maioria, a 25 kHz, de modo que este intervalo de tempo equivale a 500 amostras. Mais detalhes da base de dados utilizada estão disponíveis na Seção 6 . 1 .
de 5 0 % ) de t o d o s os a r q u i v o s q u e contêm sinais de vozes n o r m a i s , c o m E d e m a e c o m Paralisia utilizados nesta pesquisa ( n a elocução da v o g a l /ah/ s u s t e n t a d a ) . É possível p e r c e b e r q u e não há u m a distinção clara e n t r e as e n e r g i a s de sinais de vozes p e r t e n c e n t e s a estas classes, e m b o r a os m e n o r e s valores s e j a m s e m p r e associados a vozes c o m a l g u m a p a t o l o g i a e os m a i o r e s , a vozes n o r m a i s . F i g u r a 5 - C o n t r a s t e d o s v a l o r e s d e E n e r g i a e n t r e v o z e s N o r m a i s e c o m P a r a l i s i a 105 | , , . . 1 , j 1 _ j i i i i i i 1 500 1000 1500 2000 2500 3000 3500 4000 4500 Quadros F i g u r a 6 - C o n t r a s t e d o s v a l o r e s d e E n e r g i a e n t r e v o z e s N o r m a i s e c o m E d e m a 105, , . 1 1 . — — | 7 5 1 1 1 1 1 1 1 1 0 500 1000 1500 2000 2500 3000 3500 Quadros
Pela Figura 7, é possível p e r c e b e r q u e os efeitos de a m b a s as p a t o l o g i a s relacionadas no i n d i c a d o r Energia são m u i t o s e m e l h a n t e s , o
q u e p o d e d i f i c u l t a r a discriminação ( n a s f i g u r a s a n t e r i o r e s , há faixas p e r t e n c e n t e s a a p e n a s u m a d a s classes). F i g u r a 7 - C o n t r a s t e d o s v a l o r e s d e E n e r g i a e n t r e v o z e s c o m E d e m a e P a r a l i s i a 1500 2000 Quadros 3500 2 . 3 . 1 . 2 T a x a d e C r u z a m e n t o p o r Z e r o
T r a t a - s e de u m a m e d i d a associada ao número de vezes e m q u e a f o r m a de o n d a cruza o eixo d a s abscissas ( t e m p o ) . No sinal de v o z i l u s t r a d o na Figura 3, este eixo não é e x i b i d o e x p l i c i t a m e n t e , m a s é possível o b s e r v a r que as transições sobre o v a l o r d e a m p l i t u d e 0 ( r e p r e s e n t a d o d o lado e s q u e r d o da f i g u r a ) o c o r r e m 2 8 vezes.
Esta também é u m a m e d i d a utilizada p r i n c i p a l m e n t e na distinção e n t r e sons v o z e a d o s e sons não v o z e a d o s , pelo f a t o de sons v o z e a d o s a p r e s e n t a r e m m e n o r Taxa de C r u z a m e n t o p o r Z e r o (RABINER; SCHAFER,
1 9 7 8 ) . Ela é o b t i d a a p a r t i r das Equações 3 e 4 (FECHINE, 2 0 0 0 ) .
NA-\ TCZ = NAE{s&i[s(n)]-s&i[s(n-l)]}= ^ | s g n [ í ( « ) ] - s g n [ j ( w - l ) ] | , ( 3 ) e m q u e n 1 sgn [>(«)] = 1, se s(n) > 0 1, s e s ( n ) < 0 . ( 4 ) Na Equação 3, NA é o t a m a n h o do q u a d r o analisado e sgn[s(n)],