• Nenhum resultado encontrado

2.2 Recuperação da informação

2.2.3 Transcrição automática de fala

As tecnologias de processamento de áudio, dentre elas o reconhecimento de voz, tornaram possível o ditado e a transcrição automáticas, a identificação pela voz pessoal, a síntese de voz,

45http://www.sapir.eu/ 46http://cordis.europa.eu/ist/

o acionamento de máquinas por comandos orais, a tradução simultânea não supervisionada e muitas outras aplicações.

O funcionamento básico do reconhecimento de voz realiza a captura eletromecânica do som e o tratamento do áudio falado com um algoritmo especializado, capaz de segmentar o áudio em pequenos trechos, que isolam os fonemas e os interpretam diante de vetores de probabilidade. A transcrição é específica para cada língua, e cada som individual pode ser identificado e compa- rado a uma lista previamente construída de palavras ou frases. Existem basicamente 2 tipos de transcrição digital da voz humana: no primeiro, usado em programas de “Comando de voz", o dispositivo responde a instruções pré-definidas, como “Negrito", “Faróis"ou “Abrir programa". Os do segundo tipo são os chamados “Programas de ditado”, que permitem transcrever textos, aviar receitas, relatar diagnósticos e a legendagem automática. Estes pode ser “Dependentes de locutor”, do qual se exige um treino prévio e que são comuns hoje em dia, ou “Independen- tes de locutor”, sistemas ainda em desenvolvimento e que apresentam grandes desafios na sua implementação.

O fonema é a representação lingüística dos sons de uma língua, sendo os fones as unida- des acústicas individuais. Vetores de probabilidades de palavras são modelos estatísticos que dão a probabilidade de uma determinada seqüência de palavras existir. Como nos modelos de linguagem “n-gram”, em que n representa a ordem do modelo. Por exemplo, 3-gram significa a probabilidade de ocorrer uma palavra, dadas as 2 palavras anteriores. Com estes modelos consegue-se passar de uma gramática com 100 mil palavras para 150 palavras. Aspectos como a freqüência principal também variam de acordo com o emissor, podendo ser generalizados como sendo: de 80 a 150 Hz para homens; de 150 a 250 Hz para mulheres; e as infantis, em torno de 250 Hz. A conversão analógico-digital é feita por amostragem, e as freqüências principais, no intervalo onde se situa a voz humana, são filtradas para facilitar o processamento. As variáveis deste processamento, segundo Damasceno, Pereira e Brega (2006), são:

• Fonema: sendo a menor unidade de som de que as palavras são compostas;

• Modelo acústico: que é um modelo de como os sons das palavras deveriam ser represen- tados;

• Expressão: qualquer seqüência de voz entre 2 períodos de silêncio;

mesmas);

• Gramática: são as regras de reconhecimento, ou seja, o conjunto de palavras e conjunções válidas para a ativação de uma ação no sistema;

• Treinamento: é o processo pelo qual o mecanismo de reconhecimento passa para identificar o sotaque e a pronuncia dos vocábulos do usuário;

• Precisão: É uma variável que estabelece se o que foi pronunciado pode ser representado em sua equivalência pela gramática, ou seja, é a variável que representa a acurácia do sistema. É cada vez mais comum a utilização desta tecnologia nos portais telefônicos de voz, onde aplicações que acessam dados na Internet permitem várias operações sofisticadas, como ouvir e-mailsno telefone, e um uso mais inteligente das árvores de atendimento das operadoras, elimi- nando limitações típicas das soluções que usam apenas discagem. Basta a pessoa falar o comando necessário, sem a necessidade de menus com opções de discagem. Nesse caso são usados 3 algo- ritmos. A primeira etapa é o reconhecimento da fala, ASR (Automatic Speech Recognition), que pode ser ou não dependente do usuário. Um segundo algoritmo faz a autenticação de voz, que possibilita identificar quem é o usuário, e se baseia na análise de padrões harmônicos. A seguir, o TTS (text-to-speech) é o processo que permite a verbalização dos textos, sintetizando os sons correspondentes aos fonemas, ou definindo uma seqüência de fonemas pré-gravados.

As maiores dificuldades no reconhecimento de voz são: as diferenças entre os interlocutores; a interpretação é sensível ao contexto; a entonação e o timbre da fala podem mudar completa- mente a interpretação; a linguagem escrita precisa de pontuação de acordo com regras estritas que não estão presentes na fala. Estas dificuldades ensejam maneiras curiosas de contornar o pro- blema. A transcrição da fala dos noticiários portugueses está sendo realizada por um processo, também usado pela BBC, em que um locutor cuja voz foi treinada no sistema ouve as notícias e imediatamente as repete, obtendo a transcrição quase simultânea em duas etapas. Em Portugal, o INESC-ID47, o L2F - Laboratório de sistemas de Língua Falada, e a empresa TECNOVOZ48 pretendem criar um corpo de conhecimento sobre as tecnologias da fala, particularmente com incidência na utilização da língua portuguesa, que seja de imediato consubstanciado numa série de aplicações e produtos para o mercado.

Durante a pesquisa se encontrou grande dificuldade para implementar a transcrição automá-

47http://www.l2f.inesc-id.pt/ 48http://www.tecnovoz.pt/

tica da fala em vídeos, pois:

[...] existe uma quantidade razoável de textos para estudos de modelagem de lin- guagem para a língua inglesa, português europeu e outras. Todavia, há poucos recursos acessíveis quando se trata do Português brasileiro. Essa lacuna é ainda maior quando se trata de voz digitalizada para treinamento do modelo acústico e desenvolvimento de TTS. A inexistência de uma grande base de dados não só atrasa as pesquisas em ASR, TTS e áreas correlatas, mas também impede que os resultados obtidos por diferentes grupos de pesquisa sejam comparados diretamente (NETO; SILVA; SOUSA, 2005, p. 331).

Na seção 4.1.3 ser faz um relato de experiências prévias com sistemas de reconhecimento de fala e uma avaliação das possíveis soluções para a transcrição de diálogos em filmes que podem vir a ser adotadas neste trabalho. A seguir se encontra uma apresentação sobre os problemas e soluções que se referem ao processo de obtenção da sumarização de textos.