• Nenhum resultado encontrado

4.6 AVALIAÇÃO DOS MÉTODOS PROPOSTOS

4.6.4 Visualização das representações

Com o objetivo de analisar o impacto das abordagens propostas sobre o espaço gerado pelas DNNs, uma inspeção visual sobre uma amostra dos dados foi realizada. Através da técnica t-SNE (MAATEN; HINTON, 2008), as representações correspondentes a um con-

junto de locuções foram projetadas no plano para possibilitar a visualização. Essa técnica é amplamente utilizada para fins de visualização de dados de alta dimensionalidade, in- clusive aqueles gerados por DNNs (DONAHUE et al., 2014;AYTAR; VONDRICK; TORRALBA, 2016). A técnica, em si, otimiza as relações de vizinhança entre os dados observados de maneira não-supervisionada. Dessa maneira, mesmo estando no plano, consegue-se anali- sar aspectos como separação entre as classes dos locutores ou dispersão das amostras de um mesmo locutor.

Para realização da análise, escolhemos aleatoriamente 20 locutores (10 de cada gênero) do conjunto de teste. Isto é, escolhemos amostras de dados que não foram utilizadas para o treinamento das redes. Além disso, todas as amostras de teste foram utilizadas, resul- tando em aproximadamente 90 amostras para cada locutor e 1883 amostras no total. Além da representação convencional dos x-vectors, levamos em consideração as representações geradas pelas duas abordagens propostas (G-Class-Pool e G-MMD) e a combinação entre elas (G-MMD-Class-Pool). Cada conjunto de vetores, correspondente a cada uma das téc- nicas, foi mapeado para o espaço bidimensional. A Figura 27 apresenta as representações bidimensionais geradas por cada uma das técnicas. Uma cor diferente foi atribuída a cada um dos locutores, onde os homens estão descritos através de círculos e as mulheres através de cruzes.

x-vectors

G-Class-Pool

G-MMD

G-MMD-Class-Pool

Figura 27 – Visualização das projeções bidimensionais das representações geradas pela abordagem convencional com x-vectors e pelas abordagens propostas neste trabalho. Foram consideradas representações extraídas das locuções geradas por 20 locutores do conjunto de teste, distribuídos igualmente entre os gê- neros masculino (círculos) e feminino (cruzes), e categorizados por diferentes cores. A projeção entre o espaço original e a representação bidimensional foi realizada através da técnica t-SNE (MAATEN; HINTON, 2008), e 𝑥 e 𝑦 são as duas dimensões resultantes da projeção.

mais próximos entre si. Além disso, constata-se que, de fato, os x-vectors carregam in- formações discriminativas com respeito aos locutores, mesmo sem a aplicação de técnicas de pós-processamento. É possível atribuir a uma determinada partição do espaço uma categoria correspondente a um único locutor predominante, mesmo que ocorram erros em alguns pontos. Uma determinada partição do espaço na qual pode-se atribuir uma única

classe é geralmente referenciada como agrupamento ou cluster. No nosso caso, as repre- sentações podem ser analisadas através da forma como os clusters dos locutores ficam dispostos no espaço. Um alto poder discriminativo gera representações onde os clusters de diferentes locutores permanecem distantes uns dos outros. Porém, como apresentado no Capítulo 3, a qualidade do espaço gerado pelas abordagens vai além do poder discri- minativo e considera também a maneira como os vetores se distribuem. Sob esse aspecto, além de analisar quão separadas estão as diferentes classes de locutores, podemos verificar quão dispersas estão as representações geradas para um mesmo locutor.

Nesse sentido, podemos verificar que a representação convencional dos x-vectors gera, para alguns locutores, amostras que se dispersam de maneira assimétrica, diferentemente do desejado, que seria descrito por uma distribuição normal ou, da maneira como os da- dos estão descritos na imagem, concentradas nas vizinhanças de um determinado centro. Podemos encontrar vetores que se aproximam mais de clusters associados a outros locu- tores, o que, muito provavelmente, resultam em erros de decisão na modelagem G-PLDA. Comparando as abordagens G-Class-Pool e G-MMD com o espaço original, conseguimos perceber melhoras significativas em alguns locutores. As representações tendem a se con- centrar mais, melhorando a qualidade dos clusters e delimitando melhor a separação entre diferentes locutores. Para a modelagem G-MMD, podemos observar uma melhora consi- derável, por exemplo, nos clusters de três locutoras, descritas por cores azuis em cruzes. A separação dessas locutoras se torna bem mais evidente quando comparamos com o es- paço original. Em um determinado locutor masculino (laranja mais escuro), vemos que as representações geradas por ele estão dispostas em dois clusters, separados pelo cluster de um outro locutor. Essa disposição continua presente na abordagem G-Class-Pool, mas na abordagem G-MMD esses clusters ficam mais próximos entre si e distantes do outro locutor. Já na abordagem conjunta, G-MMD-Class-Pool, temos a melhor disposição de

clusters do experimento. A quantidade de erros (vetores mais próximos de clusters de

outros locutores) é mais reduzida e a distribuição dos vetores nos clusters aparenta ser mais bem comportada, isto é, parecem estar dispostas na vizinhança do centro do cluster, com menos amostras dispersas. Além disso, ele foi capaz de aumentar a discrepância entre os diferentes locutores, o que sugere um aumento de poder de discriminação. Enquanto nas outras abordagens os espaços entre os grupos (em branco) é reduzido, nessa nova representação esses espaços são maiores. Tais espaços podem estar ocupados por outros tipos de informações, talvez associadas a outros locutores que não foram vistos nesse experimento, por exemplo.

Apesar de a análise visual ter sido realizada em uma escala bem reduzida (20 locutores de um total de 1000), os locutores foram escolhidos aleatoriamente e apenas locuções de teste foram consideradas, isto é, apenas amostras que não foram observadas durante os treinamentos dos modelos. Isso possibilitou uma análise da qualidade das representações que foram geradas pelas abordagens. O mais interessante é que, de fato, as melhorias nos

espaços, constatadas pela análise visual, são confirmadas pelos desempenhos observados nos experimentos anteriores. Isto é, percebe-se que os melhores desempenhos foram alcan- çados pela técnica que apresentou as melhores visualizações (G-MMD-Class-Pool), com as amostras dos locutores dispostas nas vizinhanças dos clusters correspondentes e com melhor separação entre os clusters correspondentes a diferentes locutores.