• Nenhum resultado encontrado

Lista de abreviaturas e siglas

FEM &

6.7 Testes usando diversidade de canal

Os testes descritos nas Secções 6.5 e 6.6 permitem esclarecer, em especial, sobre o impacto que dois fatores importantes exercem no desempenho da identificação de orador através do software iVocalise: a duração dos registos de voz e a condição de mútua exclusividade entre quaisquer dois registos de voz que sejam comparados. Permitem também caracterizar o impacto que o tipo de canal de comunicação exerce naquele desempenho. Porém, todos os cenários de comparação até agora considerados presumiram que o modelo de orador que é construído com base em cada registo de voz decorre de uma única condição de canal de comunicação. Isto é, cada registo exprime a voz de um dado orador que é captada numa única condição de canal: ou alta qualidade (HQ) ou telefónica de canal GSM (GSM_TL) ou telefónica de canal VoIP (VOI_TL).

Nesta secção, pretende-se estudar a consequência de haver, num dos registos de voz que são comparados, ou em ambos, o sinal de um dado orador mas captado em duas condições de canal. A segmentação de sinal que realizámos em todos os ficheiros originais, tal como descrevemos na Secção 3.6.4 e na Secção 6.4, permite um tal estudo observando também o requisito de mútua exclusividade entre quaisquer dois registos comparados.

Neste sentido, criámos uma nova versão da base de dados em que, para cada orador, concatenamos duas metades dos registos segmentados, mas exprimindo duas condições de canal diferentes. As várias possibilidades que respeitam este requisito, além do objetivo de mútua exclusividade dos registos (quanto ao conteúdo da fala) encontram-se assinaladas na Figura 63. Em concreto, são excluídas combinações que associam dois registos ‘GSM’ ou dois registos ‘VOI’. São também excluídas combinações que associam dois registos ‘HQ’. Estas exclusões conduzem às seis possibilidades que se assinalam na Figura 63, através do símbolo ‘X’, e correspondem às seis novas bases de dados que foram já identificadas na Secção 3.6.4, na Figura 20.

Figura 63 - Alternativas de combinação de duas metades dos registos de voz que

representam tipos de canal diferentes e respeitam o objetivo de mútua exclusividade dos registos voz nos estudos de comparação. Quaisquer duas combinações assinaladas com ‘X’ são viáveis, exceto as seis associações assinaladas através de grafismo oval.

O número total de comparações suscitadas para estas seis possibilidades de combinação é !! =!!!!!! = 15. Porém, quaisquer comparações de duas combinações adjacentes na vertical, ou na horizontal, ou na diagonal, violariam o requisito de mútua

exclusividade dos registos comparados pelo que são também excluídas. Estas comparações excluídas, no total de 6, identificam-se na Figura G através de grafismo oval. Restam, assim, 9 possibilidades de comparação. Dado que pretendemos efetuar estudos separadamente para oradores FEM, MAL e de ambos os géneros, isto implicaria a realização de 27 conjuntos testes, o que é um número excessivo.

Para tornar o nosso trabalho de investigação mais gerível, optámos por selecionar cenários de comparação que representam simetria nas combinações que são comparadas através do software iVocalise. Estes cenários, no total de 3, correspondem às combinações de ‘X’ que se situam em posições simétricas em relação à diagonal principal da matriz ilustrada na Figura 63. Usando a numeração das seis bases de dados identificadas na Secção 3.6.4, na Figura 20, isto significa comparar os registos da base de dados 1 com os da base de dados 2, os da base de dados 3 com os da base de dados 4, e os da base de dados 5 com os da base de dados 6. De seguida, apresentamos esses resultados.

A Tabela 20 apresenta os resultados do desempenho na identificação de orador quando são confrontadas as bases de dados 1 e 2. Consideram-se os três casos de género de orador (FEM, MAL e FEM & MAL). Em cada caso e para facilitar a discussão, é ainda apresentada uma matriz, com os resultados anteriormente obtidos com as bases de dados com uma só condição de canal. Deve salientar-se que a base de dados 1 (BD 1) concatena os registos indicados na vertical (i.e. segundo as linhas) da matriz de resultados, enquanto que a BD 2 concatena os registos indicados na horizontal (i.e. segundo as colunas) da matriz de resultados.

Estes resultados constituíram uma verdadeira surpresa no sentido em que, para os três casos, o resultado é o melhor possível: EER=0%. Por outras palavras, para estas condições de teste, não há erros na identificação de orador. Há, pelo menos, duas hipóteses plausíveis que podem ajudar a explicar os valores nulos de EER obtidos. Por um lado, como todos os registos incluem uma parte em que o canal é HQ, então a modelização de orador é mais eficaz e alavanca os melhores resultados parciais em que os registos comparados têm este mesmo tipo de canal, concretamente, EER=0.63%, EER=0.00% e EER=0.19%. Uma outra hipótese é que como ambas as bases de dados 1

e 2 contêm duas condições de canal para cada orador, então o processo de modelização de orador é mais informado e consegue efetuar uma discriminação mais eficiente entre oradores porque a eliminação das influências de canal é mais eficaz. Por outras palavras, a diversidade de condições de canal poderá ser uma condição necessária para uma correta modelização e eficiente identificação de orador.

Tabela 20 - Resultados de desempenho EER (em %) obtidos com base na comparação

das bases de dados 1 e 2 em que os registos de voz incluem duas condições de canal e são mutuamente exclusivos quanto ao conteúdo da fala. Apresentam-se os resultados obtidos para os oradores do género MAL, FEM e junção dos dois. Para facilitar a discussão, a tabela à direita, sombreada a cor verde, explicita os valores previamente obtidos na comparação das bases de dados com uma só condição de canal.

FEM BD 2 GSM_HQ_2h VOI_TL_1h BD 1 0,00 GSM_HQ_1h 0,63 4,34 VOI_TL_2h 4,74 0,39 MAL BD 2 GSM_HQ_2h VOI_TL_1h BD 1 0,00 GSM_HQ_1h 0,00 6,25 VOI_TL_2h 4,96 0,55 FEM & MAL BD 2 GSM_HQ_2h VOI_TL_1h BD 1 0,00 GSM_HQ_1h 0,19 8,91 VOI_TL_2h 7,66 0,49

A Tabela 21 repete as mesmas circunstâncias de teste anteriormente consideradas mas, desta vez, para as bases de dados 3 e 4.

Também neste caso se conclui que ou a diversidade de canal ajudou a uma mais eficaz remoção da influência do canal na modelização de orador e, por conseguinte, a uma mais eficiente identificação de orador ou, então, a circunstância de haver registos

com condição de canal HQ em cada um dos novos registos das duas bases de dados, permite alavancar os melhores resultados obtidos nas comparações de registos com uma só condição de canal.

Tabela 21 - Resultados de desempenho EER (em %) obtidos com base na comparação

das bases de dados 3 e 4 em que os registos de voz incluem duas condições de canal e são mutuamente exclusivos quanto ao conteúdo da fala. Apresentam-se os resultados obtidos para os oradores do género MAL, FEM e junção dos dois. Para facilitar a discussão, a tabela à direita, sombreada a cor verde, explicita os valores previamente obtidos na comparação das bases de dados com uma só condição de canal.

FEM BD 4 VOI_HQ_2h GSM_TL_1h BD 3 0,13 VOI_HQ_1h 0,26 15,00 GSM_TL_2h 20,13 0,13 MAL BD 4 VOI_HQ_2h GSM_TL_1h BD 3 0,00 VOI_HQ_1h 0,00 5,88 GSM_TL_2h 11,58 0,00 FEM & MAL BD 4 VOI_HQ_2h GSM_TL_1h BD 3 0,08 VOI_HQ_1h 0,08 8,07 GSM_TL_2h 11,41 0,04

A Tabela 22 repete igualmente as mesmas circunstâncias de teste anteriormente consideradas mas, desta vez, para as bases de dados 5 e 6. Deve realçar-se que, neste caso, estão só envolvidos registos que são influenciados por canais do tipo TL, isto é, não há registos limpos do tipo HQ.

Os resultados que constam desta última tabela são ainda mais surpreendentes do que os resultados apresentados anteriormente. Com efeito, em ambas as bases de dados (5 e 6), estão somente envolvidos registos que são perturbados por canais telefónicos, não havendo qualquer componente de sinal gravado de alta qualidade (HQ). Ainda

assim, constata-se, uma vez mais, que os resultados obtidos para qualquer género de orador (FEM, MAL e FEM & MAL) são idênticos ou melhores do que os resultados obtidos nas comparações entre registos com uma só condição de canal.

Tabela 22 - Resultados de desempenho EER (em %) obtidos com base na comparação

das bases de dados 5 e 6 em que os registos de voz incluem duas condições de canal telefónico e são mutuamente exclusivos quanto ao conteúdo da fala. Apresentam-se os resultados obtidos para os oradores do género MAL, FEM e junção dos dois. Para facilitar a discussão, a tabela à direita, sombreada a cor verde, explicita os valores previamente obtidos na comparação das bases de dados com uma só condição de canal telefónico.

FEM BD 6 GSM_TL_2h VOI_TL_1h BD 5 0,13 GSM_TL_1h 0,13 13,82 VOI_TL_2h 20,00 0,39 MAL BD 6 GSM_TL_2h VOI_TL_1h BD 5 0,00 GSM_TL_1h 0,00 16,91 VOI_TL_2h 17,65 0,55 FEM & MAL BD 6 GSM_TL_2h VOI_TL_1h BD 5 0,04 GSM_TL_1h 0,04 10,81 VOI_TL_2h 16,22 0,49

Estes resultados contrariam, assim, a hipótese anterior de que os registos de alta qualidade poderiam estar a condicionar a modelização de orador, dessensibilizando-a em relação aos registos contaminados pela influência dos canais de tipo GSM_TL ou VOI_TL. Sobra assim a hipótese de que será a diversidade das condições de canal nos registos telefónicos que alimentam a modelização de orador, que realmente contribui para uma rejeição eficaz das influências de canal telefónico e, em consequência, para

uma identificação eficiente de orador. Acreditamos que esta é uma conclusão inovadora no contexto do reconhecimento automático de orador.