• Nenhum resultado encontrado

Lista de abreviaturas e siglas

Capítulo 3 – Planeamento e estruturação da base de dados

3.6 Base de dados das gravações

Nesta secção, enunciar-se-ão os processos pelos quais passaram as amostras para se adequarem aos diferentes estudos que se pretendia realizar usando os software que estarão em discussão no Capítulo 4. Como referido, todas as recolhas de voz foram feitas recorrendo a uma versão de alta qualidade (HQ) e a uma versão de qualidade telefónica (TL), em ambas as modalidades de comunicação GSM e VoIP, com frequência de amostragem de 22.05 kHz e 16 bits de resolução por amostra (versão telefónica) e de 48 kHz e 32 bits de resolução por amostra (versão de alta qualidade).

3.6.1 Base de dados inicial

Cada uma das gravações dos 37 oradores permitiu que se produzissem quatro gravações de áudio, nomeadamente, versões concomitantes de qualidade telefónica e de alta qualidade, em GSM e VoIP, o que perfaz 148 ficheiros (GSM_HQ – modalidade GSM e canal de alta qualidade; GSM_TL – modalidade GSM e canal de qualidade telefónica; VOI_HQ – modalidade VoIP e canal de alta qualidade; VOI_TL modalidade VoIP e canal de qualidade telefónica). Para ser expedita a caracterização da amostra e identificação de orador, organizou-se uma tabela com o número atribuído a cada orador, a idade no momento da recolha e os graus de parentesco. “FEM” corresponde ao género feminino e “MAL” diz respeito ao masculino. A partir dessa tabela, criou-se um ficheiro com os nomes, para o falante ser de fácil identificação, mas, por questões de anonimato, não fará parte da dissertação. Na Tabela 1, detalham-se a designação de cada orador, a idade e a relação de parentesco.

Uma vez que partilhamos a nossa base de dados com uma estudante de mestrado da Faculdade de Engenharia da Universidade do Porto [52], retirámos do seu estudo o quadro relativo à duração, em minutos e segundos, dos quatro registos de cada orador. Esta informação encontra-se detalhada na Tabela 2.

Tabela 1 - Dados relativos à idade e ao grau de parentesco dos oradores.

Orador Idade Grau de parentesco

FEM01/FEM02/FEM03 22/22/45 Gémea-gémea-mãe FEM04/FEM05/FEM06 27/27/32 Gémea-gémea-prima FEM07/FEM08/FEM09 38/34/34 Irmã-gémea-gémea FEM10/FEM11/FEM12 21/55/21 Gémea-mãe-gémea FEM13/FEM14/FEM15 22/49/22 Gémea-mãe-gémea FEM16/FEM17/FEM18 49/15/49 Gémea-filha-gémea FEM19/FEM20 36/36 Gémea-gémea MAL01/MAL02/MAL03 71/71/71 Gémeo-primo-gémeo MAL04/MAL05 21/21 Gémeo-gémeo MAL06/MAL07/MAL08 77/52/52 Pai-gémeo-gémeo MAL09/MAL10/MAL11 24/24/24 Gémeo-gémeo-primo MAL12/MAL13 16/16 Gémeo-gémeo MAL14/MAL15 16/16 Gémeo-gémeo MAL16/MAL17 19/19 Gémeo-gémeo

Através do editor de áudio Adobe Audition, a versão de alta qualidade foi modificada para a frequência de amostragem de 22.05 kHz e 16 bits de resolução por amostra, de modo a se obter o mesmo formato de representação para ambas as versões (alta qualidade e qualidade telefónica).

Tabela 2 - Duração, em minutos e segundos, dos quatro registos de cada orador [52].

Oradores Duração dos registos

GSM_HQ GSM_TL VOI_HQ VOI_TL FEM01/FEM02/FEM03 03:07/03:01/03:02 03:07/03:01/03:02 03:10/02:37/04:06 03:10/02:37/04:07 FEM04/FEM05/FEM06 03:33/03:14/02:36 03:32/03:12/02:30 04:16/04:28/03:08 04:16/04:28/03:06 FEM07/FEM08/FEM09 02:43/04:05/03:33 03:58/04:04/03:35 03:07/04:52/03:07 03:07/04:50/03:06 FEM10/FEM11/FEM12 02:38/02:30/02:56 02:38/02:32/02:56 02:36/02:50/03:34 02:37/02:53/03:33 FEM13/FEM14/FEM15 02:30/02:43/02:38 02:30/02:45/02:40 02:32/02:58/02:36 02:32/03:00/02:34

FEM19/FEM20 05:25/04:23 05:28/04:23 04:06/03:12 04:05/03:11 MAL01/MAL02/MAL03 04:07/02:59/03:35 04:07/03:03/03:38 07:03/04:10/09:31 07:05/04:10/09:31 MAL04/MAL05 04:25/03:53 04:25/03:51 03:18/03:41 03:17/03:58 MAL06/MAL07/MAL08 03:57/03:48/03:02 03:57/03:48/03:01 03:19/03:14/02:44 03:18/03:16/02:42 MAL09/MAL10/MAL11 03:10/02:51/02:35 03:10/02:51/02:34 03:36/03:51/02:49 03:37/03:50/02:49 MAL12/MAL13 03:15/03:15 03:15/03:10 02:30/02:40 02:30/02:39 MAL14/MAL15 02:16/02:15 02:16/02:16 02:11/02:08 02:11/02:08 MAL16/MAL17 03:03/02:56 03:02/02:54 03:25/03:18 03:23/03:17

3.6.2 Isolamento de regiões de vogais sustentadas

Todas as regiões das várias gravações contendo vogais sustentadas foram segmentadas manual e individualmente, recorrendo ao editor de áudio Adobe Audition. Posteriormente, identificaram-se as que teriam qualidade para se extraírem parâmetros que pudessem ser analisados estatisticamente. Assim, verificou-se que algumas vogais apresentavam ruído excessivo ou perturbações do sinal que podiam conduzir a resultados errados ou valores estatísticos descabidos, mormente em consequência de anomalia no funcionamento dos algoritmos de processamento de sinal.

Seguidamente, definimos que a duração mínima de cada vogal sustentada seria de um segundo para ser exequível extraírem-se os parâmetros na região mais estável do respetivo espectrograma. Para isso, e durante a segmentação, eliminaram-se as zonas mais instáveis, especificamente, o início e o fim da vogal. Identificaram-se, portanto, os segmentos de vogais considerados problemáticos por não cumprirem os requisitos da duração mínima de um segundo – eram mais curtos – ou cuja frequência fundamental não era estável, subindo ou descendo abruptamente. Por conseguinte, de modo a dispor- se de uma base de dados equilibrada de vogais sustentadas para os quatro tipos de gravações e para todas as cinco vogais, aquela ficou circunscrita a 19 oradores, concretamente, 10 do género feminino e 9 do género masculino (ver na Tabela 1 os oradores destacados a negrito).

3.6.3 Remoção do segundo orador e conversão da frequência de amostragem

Em resultado de exigências decorrentes dos estudos discutidos na Secção 6.3, procedeu-se a uma operação de pré-processamento manual, através do editor áudio

Adobe Audition, das gravações de voz de cada orador. O propósito era o de remover a

presença residual da voz do interlocutor – isto é, do entrevistador, sem afetar o registo de voz do orador – de modo a se conseguir uma modelização de orador o mais fidedigna possível. É essencial relembrar que as amostras de fala a nível forense possuem, por vezes, não só os registos da voz do orador que se quer examinar, mas também as de um segundo interlocutor, o que perturba os objetivos de análise e modelização.

As ondas osciloscópicas (Figura 15) e os respetivos espectrogramas (Figura 16) ilustram as diferenças acústicas entre a presença do interlocutor e a sua remoção.

Figura 15 - O painel superior, nesta figura, representa a onda osciloscópica original, na

emissão, e o painel inferior representa a onda osciloscópica na receção e denotando a presença da voz do interlocutor.

Figura 16 - O painel superior, nesta figura, representa registo espectrográfico original,

na emissão, e o painel inferior representa o registo espectrográfico na receção e denotando a presença da voz do interlocutor.

Como será detalhado no Capítulo 6, a frequência de amostragem mais adequada dos registos de voz para o propósito de reconhecimento automático de orador através do

software utilizado, o iVocalise, é 8 kHz. Neste sentido, foi necessário proceder-se à

conversão da frequência de amostragem de todos os ficheiros das diversas gravações, de 22.05 kHz para 8 kHz. Esta conversão foi executada recorrendo, também, ao Adobe

Audition. Garante-se, assim, que se torna possível beneficiar do mesmo formato de

representação para as duas versões das gravações contemporâneas, designadamente, a de alta qualidade e a de qualidade telefónica e que, em consequência, os correspondentes modelos de orador são construídos com base nos mesmos pressupostos.

As condições de gravação para cada orador, contemplando dois tipos de canal (HQ e TL) e duas modalidades de comunicação (GSM e VoIP), não permitem comparações de modelos de orador construídos com base em registos não concomitantes, tal como se ilustra na Figura 17.