RECONHECIMENTO DE PADRÕES RECONHECIMENTO DE VOZ

(1)

RECONHECIMENTO DE PADRÕES

RECONHECIMENTO DE VOZ

(2)

O ESQUEMA DE CLASSIFICAÇÃO É GERALMENTE BASEADO NA DISPONIBILIDADE DE UM CONJUNTO DE PADRÕES QUE FORAM ANTERIORMENTE CLASSIFICADOS,

O "CONJUNTO DE TREINAMENTO";

O RESULTADO DO APRENDIZADO É CARACTERIZADO COMO UM

APRENDIZADO SUPERVISIONADO. O APRENDIZADO PODE TAMBÉM SER NÃO SUPERVISIONADO, DE FORMA QUE O SISTEMA NÃO RECEBE

INFORMAÇÕES DOS PADRÕES, ESTABELECENDO ENTÃO AS CLASSES DOS PADRÕES ATRAVÉS DE ANÁLISE DE PADRÕES ESTATÍSTICOS.

(3)

O OBJETIVO É CLASSIFICAR INFORMAÇÕES (PADRÕES) BASEADO OU EM CONHECIMENTO OU EM INFORMAÇÕES ESTATÍSTICAS EXTRAÍDAS DOS PADRÕES. ESSA ÁREA DE ATUAÇÃO É ESTUDADA POR VÁRIOS CAMPOS E UM DELES É A CIÊNCIA DA COMPUTAÇÃO.

UM SISTEMA COMPLETO DE RECONHECIMENTO DE PADRÕES CONSISTE EM:

• UM SENSOR DE QUE OBTÉM INFORMAÇÕES A SEREM CLASSIFICADAS OU DESCRITAS;

• UM MECANISMO DE EXTRAÇÃO DE CARACTERÍSTICAS QUE COMPUTA INFORMAÇÕES NÚMERICAS OU SIMBÓLICAS DAS OBSERVAÇÕES;

• UM ESQUEMA DE CLASSIFICAÇÃO DAS OBSERVAÇÕES, QUE DEPENDE DAS CARACTERÍSTICAS EXTRAÍDAS.

(4)

É UMA REDE NEURAL ARTIFICIAL PUBLICADA PELA PRIMEIRA VEZ EM 1997 COM O PROPÓSITO DE SER APLICADA NO RECONHECIMENTO DE PADRÕES.

FAN É UM ALGORITMO QUE INTEGRA CARACTERÍSTICAS DE UMA REDE NEURAL COM TÉCNICAS DE RECONHECIMENTO DE PADRÕES DIFUSOS (FUZZY) E DA LÓGICA DIFUSA.

FAN É UM MÉTODO DE REDE NEURAL DO TIPO NEURI-FUZZY

DESENVOLVIDO PARA A APLICAÇÃO NO RECONHECIMENTO DE PADRÕES.

(5)

(6)

(7)

ATUALMENTE QUANDO LIGAMOS PARA A MAIOR PARTE DAS GRANDES EMPRESAS, NÃO SOMOS ATENDIDOS POR UMA PESSOA E SIM POR GRAVAÇÕES AUTOMÁTICAS QUE NOS INSTRUEM À APERTAR BOTÕES PARA PASSAR POR DIFERENTES MENUS.

PORÉM MUITAS EMPRESAS JÁ PASSARAM DESTE ESTÁGIO DE APERTAR BOTÕES , PEDINDO QUE VOCÊ FALE ALGUMAS PALAVRAS (NOVAMENTE COMO FOI INSTRUÍDO POR UMA GRAVAÇÃO) PARA CONSEGUIR O QUE QUER.

O SISTEMA QUE TORNA ISSO POSSÍVEL É UM TIPO DE PROGRAMA DE RECONHECIMENTO DE VOZ, UM SISTEMA DE TELEFONE AUTOMATIZADO. OS PROGRAMAS ATUAIS SE DIVIDEM EM DUAS CATEGORIAS:

(8)

OS USUÁRIOS PODEM FALAR COM UMA GRANDE VARIAÇÃO DE

SOTAQUES E PADRÕES DE FALA QUE O SISTEMA AINDA OS ENTENDERÁ NA MAIOR PARTE DAS VEZES.

NO ENTANTO, O USO SE LIMITA A UM PEQUENO NÚMERO

PRÉ-DETERMINADO DE COMANDOS E ENTRADAS, COMO OPÇÕES DE MENU BÁSICAS OU NÚMEROS;

(9)

FUNCIONA MELHOR EM PEQUENOS NEGÓCIOS, NOS QUAIS UM PEQUENO NÚMERO DE USUÁRIOS IRÁ TRABALHAR COM O PROGRAMA.

EMBORA ESSES SISTEMAS FUNCIONEM COM UM BOM GRAU DE

PRECISÃO (85% OU MAIS PARA USUÁRIOS EXPERIENTES) E TENHAM LISTAS DE VOCABULÁRIO COM MAIS DE 10 MIL PALAVRAS, É

NECESSÁRIO TREINÁ-LOS PARA QUE FUNCIONEM MELHOR COM UM NÚMERO PEQUENO DE USUÁRIOS PRINCIPAIS.

ESTA TAXA DE PRECISÃO IRÁ CAIR DRASTICAMENTE COM QUALQUER OUTRO USUÁRIO.

(10)

PARA CONVERTER A FALA EM TEXTO EXIBIDO NA TELA OU EM UM

COMANDO PARA O COMPUTADOR, O COMPUTADOR TEM DE REALIZAR VÁRIOS PASSOS COMPLEXOS.

AO FALAR VOCÊ CRIA VIBRAÇÕES NO AR. O CONVERSOR ANALÓGICO-DIGITAL (ADC) TRADUZ ESSA ONDA ANALÓGICA EM DADOS DIGIAIS QUE O COMPUTADOR PODE ENTENDER AO DIGITALIZAR O SOM, TIRANDO

MEDIDAS PRECISAS DA ONDA A INTERVALOS FREQUENTES.

O SISTEMA FILTRA O SOM DIGITALIZADO PARA REMOVER RUÍDOS INDESEJADOS E PODE ATÉ SEPARÁ-LO EM DIFERENTES FAIXAS DE FREQUÊNCIA. ALÉM DISSO, O ADC TAMBÉM PADRONIZA O SOM, AJUSTANDO-O À UM NÍVEL DE VOLUME CONSTANTE.

(11)

E PARA TER UMA IDEIA DE COMO PODE SER COMPLEXO ESSE PROCESSO TODO, O SOM TAMBÉM PODE TER DE SER ALINHADO TEMPORARIAMENTE. COMO AS PESSOAS NEM SEMPRE FALAM NA MESMA VELOCIDADE, O SOM DEVE SER AJUSTADO PARA CORRESPONDER À VELOCIDADE DOS

MODELOS DE SOM JÁ ARMAZENADOS NA MEMÓRIA DO SISTEMA

UM ADC CONVERTE AS ONDAS ANALÓGICAS DA SUA VOZ EM DADOS DIGITAIS AO CAPTAR O SOM. QUANTO MAIORES AS TAXAS DE

(12)

A SEGUIR, O SINAL É DIVIDIDO EM SEGMENTOS MENORES, EM TORNO DE CENTÉSIMOS DE SEGUNDO OU ATÉ MILÉSIMOS, NO CASO DE SONS

CONSOANTES PLOSIVOS, PARADAS DE CONSOANTES PRODUZIDAS PELA OBSTRUÇÃO DO FLUXO DE AR NO TRATO VOCAL (COMO O "P" OU O "T").

O PROGRAMA, ENTÃO, CONTRAPÕE ESSES SEGMENTOS AOS FONEMAS CONHECIDOS DO IDIOMA DESEJADO.

UM FONEMA É O MENOR ELEMENTO DE UM IDIOMA, UMA

REPRESENTAÇÃO DOS SONS QUE CRIAMOS E JUNTAMOS PARA FORMAR EXPRESSÕES COM SENTIDO. HÁ 34 FONEMAS NA LÍNGUA PORTUGUESA. OUTRAS LÍNGUAS, POR SUA VEZ, PODEM TER UM NÚMERO MAIOR OU MENOR.

(13)

(14)

O PRÓXIMO PASSO PARECE SIMPLES, MAS NA VERDADE É O MAIS DIFÍCIL DE SER FEITO E É O PRINCIPAL FOCO DA MAIORIA DAS PESQUISAS FEITAS SOBRE O RECONHECIMENTO DE VOZ:

• O PROGRAMA EXAMINA OS FONEMAS DENTRO DO CONTEXTO DE OUTROS FONEMAS AO REDOR DELES;

• ELE ANALISA O RESULTADO POR UM MODELO ESTATÍSTICO COMPLEXO E OS COMPARA COM UMA GRANDE COLEÇÃO DE PALAVRAS, FRASES E SENTENÇAS CONHECIDAS;

• POR FIM, O PROGRAMA DETERMINA O QUE O USUÁRIO

PROVAVELMENTE ESTAVA DIZENDO E O TRANSFORMA EM TEXTO OU COMANDOS PARA O COMPUTADOR.

(15)

OS PRIMEIROS SISTEMAS DE RECONHECIMENTO DE FALAS ERAM

BASEADOS EM UM CONJUNTO DE REGRAS GRAMATICAIS E SINTÁTICAS A FALA, PORÉM NÃO TIVERAM SUCESSO E TAMBÉM NÃO CONSEGUIRAM LIDAR COM O DISCURSO CONTÍNUO. ERA PRECISO FALAR CADA PALAVRA SEPARADAMENTE E COM UMA PEQUENA PAUSA ENTRE ELAS.

SOTAQUES, DIALETOS E REGIONALISMO PODEM ALTERAR BASTANTE COMO CERTAS PALAVRAS OU FRASES SÃO DITAS. IMAGINE UMA PESSOA DE MINAS DIZENDO “MENININHO”. ELA NÃO PRONUNCIA O “INHO” E A PALAVRA ACABA SAINDO “MENINIM”

RECONHECIMENTO DE FALA E MODELOS

ESTATÍTICOS

(16)

COMO O MODELO OCULTO DE MARKOV É O MAIS COMUM, VAMOS OLHÁ-LO MAIS DE PERTO.

(17)

NESTE MODELO, CADA FONEMA É COMO UM ELO DE UMA CORRENTE, E A CORRENTE COMPLETA SERIA A PALAVRA.

CONTUDO, A CORRENTE SE DIVIDE EM VÁRIAS DIREÇÕES ENQUANTO O PROGRAMA TENTA ASSOCIAR O SOM DIGITAL AO FONEMA QUE TEM A MAIOR PROBABILIDADE DE VIR A SEGUIR.

DURANTE ESTE PROCESSO, O PROGRAMA ATRIBUI UMA PONTUAÇÃO DE PROBABILIDADE PARA CADA FONEMA, BASEANDO-SE NO SEU DICIONÁRIO INTERNO E NO TREINAMENTO DO USUÁRIO.

(18)

ESTE PROCESSO É AINDA MAIS COMPLICADO QUANDO TRATAMOS DE FRASES E SENTENÇAS, JÁ QUE O SISTEMA TEM DE ADIVINHAR EM QUE PONTO CADA PALAVRA TERMINA E COMEÇA.

O EXEMPLO CLÁSSICO É A FRASE, EM INGLÊS, "RECOGNIZE SPEECH", MAS TEM UM SOM MUITO SEMELHANTE A "WRECK A NICE BEACH" QUANDO DITA MUITO RAPIDAMENTE.

DA MESMA MANEIRA COMO NA PIADA DO FEIRANTE QUE GRITAVA BEM

RÁPIDO, "OVO E UVA BOA", E UMA VIÚVA LHE DEU UMA BOLSADA NA CARA.

O PROGRAMA DEVE ANALISAR OS FONEMAS USANDO A FRASE ANTERIOR PARA QUE TUDO POSSA SER FEITO DA MANEIRA CORRETA. AQUI ESTÁ A DECOMPOSIÇÃO DAS DUAS FRASES:

r eh k ao g n ay z s p iy ch"recognize speech"

r eh k ay n ay s b iy ch

(19)

EM ALGUM PONTO DO FUTURO, É POSSÍVEL QUE O RECONHECIMENTO DE VOZ SE TORNE COMPREENSÃO DE VOZ.

OS MODELOS ESTATÍSTICOS QUE PERMITEM QUE COMPUTADORES

TRADUZAM O QUE UMA PESSOA ACABOU DE DIZER TAMBÉM PODEM VIR A PERMITIR QUE ELES ENTENDAM O SIGNIFICADO POR TRÁS DAS

PALAVRAS.

EMBORA ISSO SEJA UM GIGANTESCO PASSO EM TERMOS DE POTÊNCIA DE COMPUTAÇÃO E SOFISTICAÇÃO DOS PROGRAMAS, ALGUNS

PESQUISADORES DEFENDEM QUE O DESENVOLVIMENTO DO

RECONHECIMENTO DE VOZ OFERECE O CAMINHO MAIS DIRETO ENTRE OS COMPUTADORES ATUAIS E A INTELIGÊNCIA ARTIFICIAL. ATUALMENTE,

PODEMOS FALAR COM NOSSOS COMPUTADORES, MAS, EM 25 ANOS, PODE SER QUE ELES É QUE FALEM CONOSCO.

(20)

O PROGRAMA PRECISA "ESCUTAR" AS PALAVRAS FALADAS DE MODO QUE AS DIFERENCIE BEM, MAS QUALQUER RUÍDO EXTRA QUE SEJA

INTRODUZIDO JUNTO AO SOM IRÁ INTERFERIR NISSO.

O RUÍDO PODE VIR DE VÁRIAS FONTES DIFERENTES, INCLUINDO O ALTO RUÍDO DE FUNDO DE UM ESCRITÓRIO. RECOMENDA-SE QUE OS

USUÁRIOS TRABALHEM EM UMA SALA SILENCIOSA E COM UM MICROFONE DE QUALIDADE POSICIONADO BEM PRÓXIMO DE SUAS BOCAS.

PLACAS DE SOM, QUE FORNECEM A ENTRADA PELA QUAL O MICROFONE ENVIA O SINAL PARA O COMPUTADOR, DE BAIXA QUALIDADE GERALMENTE NÃO TÊM PROTEÇÃO O BASTANTE CONTRA OS SINAIS ELÉTRICOS

PRODUZIDOS POR OUTROS COMPONENTES DO COMPUTADOR, E ISSO PODE INTRODUZIR ZUMBIDOS OU ASSOVIOS NO SINAL.

(21)

UM MICROFONE DE ALTA QUALIDADE QUE CANCELA RUÍDOS PODE AJUDAR NA PRECISÃO DO SEU SISTEMA DE RECONHECIMENTO DE VOZ. OUTROS EXEMPLOS QUE DIFICULTAM O ENTENDIMENTO DO

COMPUTADOR SÃO FALAS SOBREPOSTAS (REUNIÕES) E HOMÔNIMOS QUE SÃO PALAVRAS SOLETRADAS DE MANEIRAS DIFERENTES E TÊM

SIGNIFICADOS DIFERENTES, MAS TÊM O MESMO SOM. “SESSÃO” E “CESSÃO”.

(22)

CURSO DE ENGENHARIA DA INFORMAÇÃO

PROFESSOR DR. PAULO SCHROEDER

ALUNOS AUDREY RA: 085181 ULYSSES RA: 110666

FONTE

http://informatica.hsw.uol.com.br http://www.bibliotecadigital.unicamp.br/document/?code=vtls000182357 http://www.aoandrade.eletrica.ufu.br/Documents/ProjFinal.pdf