• Nenhum resultado encontrado

Lista de abreviaturas e siglas

FEM &

6.8 Testes com assimetria na influência de canal

Na secção anterior, estudámos o desempenho na identificação de orador quando os registos de voz são enriquecidos com duas condições de canal. Os resultados, quando confrontados com os anteriormente obtidos para registos de voz com uma só condição de canal, foram surpreendentes e muito positivos. Suscitaram também mais um conjunto de testes, não inicialmente previsto, para responder à seguinte questão: se a modelização de orador parece resultar mais informada e eficaz quando os registos de voz contêm mais do que uma condição de canal, será que essa eficácia se manifesta também quando, em vez dos dois, só um dos dois registos que intervêm numa comparação for composto por duas condições de canal? Por outras palavras, os mesmos bons resultados na identificação de orador mantêm-se quando as condições de canal (e duração) nos dois registos de voz que intervêm numa comparação forem assimétricas?

Para responder a esta pergunta, utilizámos três das novas bases de dados com duas condições de canal (BD 1, BD 3 e BD 5) e estudamos, para cada caso de género de orador (FEM, MAL e FEM & MAL) o desempenho na identificação de orador quando são comparadas com bases de dados de registos telefónicos de uma só condição de canal e mutuamente exclusivos, isto é, em que não haja qualquer parte comum da fala gravada.

Em primeiro lugar, compararam-se os registos da BD 1

(GSM_HQ_1h_VOI_TL_2h) com os registos de meia duração e correspondentes à base de dados GSM_TL_2h. Repetiu-se o teste em relação à base de dados VOI_TL_1h. Os correspondentes resultados de desempenho na identificação de orador (aferido pelo parâmetro EER), para os três casos de género de orador, apresentam-se na Tabela 23. Esta tabela apresenta também, para referência, resultados anteriormente obtidos na comparação entre bases de dados com registos de voz afetados por uma só condição de canal. A relevância destes resultados de referência advém da circunstância de

exprimirem as mesmas comparações realizadas com uma parte só dos registos contidos nas duas condições de canal. Deste modo, é possível apreciar se a informação adicional proporcionada pelas duas condições de canal é benéfica, ou não, do ponto de vista do desempenho na identificação de orador.

Tabela 23 - Resultados de desempenho EER (em %) obtidos com base na comparação da

base de dados 1 (GSM_HQ_1h_VOI_TL_2h), em que os registos de voz incluem duas condições de canal, com a base de dados GSM_TL_2h e também VOI_TL_1h, cujo conteúdo de fala é mutuamente exclusivo. Apresentam-se os resultados obtidos para os oradores do género FEM, MAL e FEM & MAL. Para facilitar a discussão, a tabela à direita, sombreada a cor verde, explicita valores relevantes previamente obtidos na comparação de bases de dados com uma só condição de canal.

Os resultados patentes na Tabela 23 permitem concluir que para os oradores FEM há melhoria no desempenho. Por outro lado, para os oradores MAL e FEM&MAL, há um agravamento do desempenho, muito especialmente na comparação com os registos VOI_TL_1h. De facto, é particularmente significativo que o desempenho nas comparações entre VOI_TL_2h e VOI_TL_1h, sendo de EER=0.55% para oradores do tipo MAL e EER=0.49% para oradores to tipo FEM&MAL, venha

FEM GSM_TL_2h VOI_TL_1h GSM_TL_2h VOI_TL_1h BD 1 15,00 0,26 GSM_HQ_1h 20,13 VOI_TL_2h 0,39 MAL GSM_TL_2h VOI_TL_1h GSM_TL_2h VOI_TL_1h BD 1 11,58 5,15 GSM_HQ_1h 6,45 VOI_TL_2h 0,55 FEM & MAL GSM_TL_2h VOI_TL_1h GSM_TL_2h VOI_TL_1h BD 1 10,85 5,41 GSM_HQ_1h 10,46 VOI_TL_2h 0,49

agravado para EER=5.15% e EER=5.41%, respetivamente, quando a BD 1, que contém a condição de canal VOI_TL_2h, é comparada com as aquelas bases de dados (VOI_TL_2h e VOI_TL_1h). Isto denota que o facto da BD1 ser mais informada porque contém duas condições de canal para cada orador (HQ e VOI_TL), não constitui vantagem nesta tarefa de identificação de orador usando o iVocalise. Em consequência, esta constatação aponta para a conclusão de que a assimetria que existe na construção do modelo de orador, nos dois casos, tem um impacto negativo na discriminação.

A Tabela 24 apresenta resultados do mesmo tipo dos da tabela anterior mas em que a base de base contendo registos com duas condições de canal é BD 3 (VOI_HQ_1h_GSM_TL_2h) e as bases de dados com as quais esta é comparada e que contêm registos telefónicos com uma só condição de canal, são as VOI_TL_2h e também GSM_TL_1h. Como anteriormente, apresentam-se também, para referência, resultados da comparação entre bases de dados com registos de voz afetados por uma só condição de canal.

Os resultados desta tabela denotam que, para qualquer caso de género do orador, o desempenho na identificação de orador quando a comparação é feita com a base de dados VOI_TL_2h não é significativamente alterado, quer ser use a base de dados VOI_HQ_1h, ou quer se use a base de dados BD 3. Porém, quando a comparação é feita com a base de dados GSM_TL_1h, há um agravamento muito significativo no desempenho quando se usa a BD 3 que, supostamente, é mais informada porque reflete duas condições de canal.

A tendência que já havia sido identificada através dos resultados da Tabela 23, também aqui, para os resultados da Tabela 24, parece confirmar-se: a assimetria nas condições de canal que afetam os registos que são usados na comparação parece representar o maior desafio para o iVocalise realizar uma modelização de orador eficaz e uma discriminação eficiente. A hipótese da assimetria na duração dos registos comparados poder também afetar negativamente o desempenho não é aqui confirmada porque, como já assinalámos, os testes com a base de dados VOI_TL_2h não denotam diferenças significativas. Assim, decorre como plausível a conclusão de que os bons resultados alcançados na comparação da base de dados GSM_TL_2h com a

GSM_TL_1h se compreende porque estas bases de dados refletem exatamente as mesmas condições de canal de comunicação.

Tabela 24 - Resultados de desempenho EER (em %) obtidos com base na comparação da

base de dados 3 (VOI_HQ_1h_GSM_TL_2h), em que os registos de voz incluem duas condições de canal, com a base de dados VOI_TL_2h e também GSM_TL_1h, cujo conteúdo de fala é mutuamente exclusivo. Apresentam-se os resultados obtidos para os oradores do género FEM, MAL e FEM & MAL. Para facilitar a discussão, a tabela à direita, sombreada a cor verde, explicita valores relevantes previamente obtidos na comparação de bases de dados com uma só condição de canal.

Por último, a Tabela 25 apresenta resultados do mesmo tipo dos das duas tabelas anteriores mas em que a base de base contendo registos com duas condições de canal é BD 5 (GSM_TL_1h_VOI_TL_2h) e as bases de dados com as quais esta é comparada e que contêm registos telefónicos com uma só condição de canal, são as GSM_TL_2h e também GSM_TL_1h. Este cenário, contrariamente aos das duas tabelas anteriores, é de interesse acrescido porquanto todos os registos de voz envolvidos encontram-se afetados por um canal do tipo telefónico (i.e. não é HQ) ou GSM_TL, ou VOI_TL.

FEM VOI_TL_2h GSM_TL_1h VOI_TL_2h GSM_TL_1h BD 3 9,47 10,00 VOI_HQ_1h 9,34 GSM_TL_2h 0,13 MAL VOI_TL_2h GSM_TL_1h VOI_TL_2h GSM_TL_1h BD 3 6,07 5,15 VOI_HQ_1h 5,33 GSM_TL_2h 0,00 FEM & MAL VOI_TL_2h GSM_TL_1h VOI_TL_2h GSM_TL_1h BD 3 8,41 9,61 VOI_HQ_1h 8,07 GSM_TL_2h 0,04

Tal como anteriormente também, apresentam-se na Tabela 25 e para referência, resultados da comparação entre bases de dados com registos de voz afetados por uma só condição de canal.

Tabela 25 - Resultados de desempenho EER (em %) obtidos com base na comparação da

base de dados 5 (GSM_TL_1h_VOI_TL_2h), em que os registos de voz incluem duas condições de canal, com a base de dados GSM_TL_2h e também VOI_TL_1h, cujo conteúdo de fala é mutuamente exclusivo. Apresentam-se os resultados obtidos para os oradores do género FEM, MAL e FEM & MAL. Para facilitar a discussão, a tabela à direita, sombreada a cor verde, explicita valores relevantes previamente obtidos na comparação de bases de dados com uma só condição de canal.

Os resultados nesta tabela denotam que, em todos os casos, a utilização de registos de voz com duas condições de canal é sempre prejudicial em relação à utilização de registos com uma só condição de sinal. Este resultado é surpreendente pela negativa. Confirma, porém, a hipótese de que, no software iVocalise, a modelização de orador só é eficaz e a discriminação eficiente quando os registos de voz refletem exatamente as mesmas condições de canal.

FEM GSM_TL_2h VOI_TL_1h GSM_TL_2h VOI_TL_1h BD 5 14,87 5,00 GSM_TL_1h 0,13 VOI_TL_2h 0,39 MAL GSM_TL_2h VOI_TL_1h GSM_TL_2h VOI_TL_1h BD 5 5,70 11,76 GSM_TL_1h 0,00 VOI_TL_2h 0,55 FEM & MAL GSM_TL_2h VOI_TL_1h GSM_TL_2h VOI_TL_1h BD 5 7,88 5,44 GSM_TL_1h 0,04 VOI_TL_2h 0,49

6.9 Conclusão

Este capítulo apresentou um conjunto de estudos que realizámos com base no

software de reconhecimento automático de orador, o iVocalise. Dada a atualidade e

importância prática desta abordagem de reconhecimento de orador em trabalhos de peritagem e investigação, tipicamente conduzida por laboratórios de polícia científica, fornecemos, na 6.1, um breve enquadramento histórico do desenvolvimento na área do reconhecimento de orador até apresentarmos um diagrama de blocos funcional do software iVocalise. Seguidamente, na Secção 6.2, destacámos a importância do módulo de VAD no pré-condicionamento dos dados. Na Secção 6.3, caracterizamos resultados consolidados de investigação anteriormente obtidos no reconhecimento automático de orador, através do software iVocalise, com a nossa base de dados, e que representam o ponto de partida para a nova investigação reportada nesta dissertação nas secções seguintes. Em especial, estes resultados evidenciam que o melhor desempenho consegue-se usando registos de voz amostrados a 8 kHz, usando VAD e removendo manualmente as regiões de sinal contendo voz do segundo orador. Na Secção 6.4 detalhámos a segmentação que foi realização sobre os registos da base de dados original, de modo a construirmos novas bases de dados que permitam estudar o efeito no desempenho da duração dos registos, da mútua exclusividade entre os registos comparados quanto ao seu conteúdo de fala, e da assimetria nas condições de canal entre estes registos. Na Secção 6.5, realizámos testes que permitissem concluir sobre o impacto no desempenho que decorre da utilização de registos com metade da duração dos inicialmente usados (e que produziu os valores de referência de desempenho). Exceto para alguns casos pontuais, confirmou-se que o impacto não era expressivo, o que permitiu validar as condições de investigação nas secções seguintes e que fazem uso dos registos com metade da duração dos iniciais. Na Secção 6.6, foram repetidos os testes descritos na Secção 6.5, mas em que os registos implicados nas comparações foram usados de modo a forçar a condição de mútua exclusividade quanto ao conteúdo da fala. Concluiu-se que o seu impacto no desempenho na identificação de orador é no sentido de alguma degradação mas que, apesar de exibir alguma flutuação, não é muito expressiva. Na Secção 6.7, realizámos estudos de comparação de registos de voz

contendo duas condições de canal e concluímos que que os resultados de desempenho alcançados (na identificação de orador) eram iguais ou melhores do que os alcançados com registos contendo uma só condição de canal. Estes resultados apontaram para a conclusão de que a modelização de orador é mais eficaz e o reconhecimento de orador é mais eficiente se os registos de voz encerrarem mais do que uma condição de canal de comunicação. Na Secção 6.8, investigámos o impacto no desempenho da identificação de orador quando existe assimetria nos registos de voz que são comparados, designadamente quanto às condições de canal neles refletidas. Concluímos em particular que, exceto em certos casos pontuais, a assimetria é prejudicial para o desempenho, o que coloca mais uma vez em evidência o que parece ser um facto agora confirmado: o software iVocalise realiza uma eficaz modelização de orador e uma eficiente identificação desde as condições de canal dos registos de voz comparados sejam exatamente as mesmas, ou seja, simétricas, sendo que uma diversidade destas condições de canal é benéfica para o desempenho em relação às comparações de registos com base numa só condição de canal.