• Nenhum resultado encontrado

Nesta etapa dos experimentos, são definidos a quantidade de coeficientes de cada car- acterística acústica, os valores de penalidade λ e do menor índice imin utilizados para cada

característica no algoritmo de detecção de uma mudança de locutor. Também é realizada a configuração da rede MLP. Os experimentos descritos nesta seção são realizados na base sintética que contém no máximo uma mudança, descrita na Seção 4.1.1.

A Seção 4.2.1 descreve os experimentos feitos para definir a quantidade de coeficientes e os parâmetros (λ , imin) para cada característica. A Seção 4.2.2 descreve as configurações da rede

MLP (número de camadas, quantidade de neurônios em cada camada) que foram testadas. Os resultados dos testes definem qual a melhor configuração da rede será utilizada pela abordagem.

58 CAPÍTULO 4. EXPERIMENTOS E RESULTADOS

4.2.1

Definição de parâmetros

Na extração de características é usada uma janela de Hamming de 32 ms deslocada com sobreposição a cada 10 ms. A definição da quantidade de coeficientes das características foi feita de forma empírica para cada característica, executando primeiramente os experimentos na base com múltiplas mudanças com o sistema de transcrição de locutores utilizando a abordagem Window-Growing. A quantidade de coeficientes que apresentar os melhores resultados para a etapa de segmentação é selecionanda para a abordagem de combinação de características. Após os experimentos com a abordagem Window-Growing com os ajustes empíricos na quantidade de coeficientes, as quantidades que apresentaram os melhores resultados de segmentação foram: 12 MFCCs, F0 com os coeficientes ∆ e ∆2 (primeira e segunda derivadas), 15 LPCs e 12 LPCCs

extraídos dos 15 LPCs, sem o coeficiente c0.

Após a definição da quantidade de coeficientes, o algorimo de detecção de uma mudança foi excutado para cada característica sobre a base sintética com amostras que possuem no máximo uma mudança, utilizando os valores de imin: 20, 30, 50, 60, 120 e 150 vetores de características,

e os valores da penalidade λ em um intervalo de 0,3 até 1,5 incrementado por 0,1. A Tabela 4.3 mostra o par de parâmetros que apresentou melhores resultados com o algoritmo.

Table 4.3: Melhores parâmetros para cada característica acústica. Características Acústicas imin λ

MFCC 100 1,5

F0 150 1,5

LPC 60 1

LPCC 150 1

4.2.2

Configuração da MLP

São avaliadas duas configurações de camada da rede MLP: Uma camada intermediária e 2 camadas intermediárias. Em relação ao número de neurônios, foram experimentados para cada camada vários números, e os que mostraram melhores resultados são: MLP com uma camada contendo 10 neurônios e MLP com duas camadas contendo 4 neurônios na primeira camada e 2 neurônios na segunda camada. O algoritmo de treinamento utilizado é a resilient backpropagation. Outras funções de treinamento como a gradiente descendente e a Levenberg- Marquardt foram testadas também, mas a resilient backpropagation mostrou uma convergência mais rápida e o menor erro médio quadrático.

Para avaliar qual das configurações de rede apresenta o melhor desempenho é utilizado o método k-fold cross-validation com k = 10. A configuração escolhida é aquela que possui a menor média de erro das k partições. A Tabela 4.4 mostra que, na média, a configuração com uma camada e 10 neurônios apresenta o melhor resultado.

59 4.3. AVALIAÇÃO DO SISTEMA DE TRANSCRIÇÃO DE LOCUTORES

Table 4.4: Desempenho das configurações da MLP. Calcula-se a média dos erros médios quadráticos obtidos por cada partição no k-fold.

Camadas Neurônios Erro médio quadrádico (Média do k-fold) (%)

1 10 6,49

2 [4, 2] 6,64

4.3

Avaliação do sistema de transcrição de locutores

Após o ajuste de parâmetros e configurações feitas na abordagem de combinação de caracterírsticas, são realizados os experimentos no sistema de transcrição de locutores proposto para comparar seus resultados com os do sistema de transcrição que utiliza a abordagem de segmentação clássica Window-Growing. A comparação é feita utilizando a abordagem clássica em três tipos de características acústicas: MFCC, F0e LPCC, com a configuração apresentada

na Seção 4.2, e com os parâmetros imine λ ajustados de acordo com a tabela 4.3. A comparação

dos resultados é feita em duas etapas: Comparação dos resultados da segmentação e avaliação da pureza obtida nos clusters.

A Seção 4.3.1 explica como são avaliados os resultados da segmentação de locutores, detalhando a configuração dos parâmetros do algoritmo de detecção de múltiplas mudanças, descrevendo as métricas de avaliação para a segmentação e ilustrando a comparação de resultados. A Seção 4.3.2 explica como são avaliados os resultados da etapa de agrupamento, detalhando a configuração do algoritmo de agrupamento e explicando a métrica de avaliação para a etapa. Na última Seção é feita uma discussão sobre os resultados obtidos para segmentação e agrupamento.

4.3.1

Avaliando a segmentação

Para avaliar os resultados da abordagem proposta e comparar com os resultados da abordagem clássica Window-Growing são usadas duas taxas de erro: a taxa de perda de detecção (MDR - miss detection rate) e a taxa de falso alarme (FAR - false alarm rate). É usada uma janela de tempo como tolerância para calcular as taxas de erro, definida neste experimento com o valor 2ε = 1seg. O número de perdas de detecção NP é o número de pontos de mudança reais

onde, após centralizar a janela de tolerância em cada ponto real [t − ε,t + ε], nenhum ponto estimado seja encontrado. O número de falsos alarmes NFAé o número de pontos de mudança

estimados onde, após centralizar a janela de tolerância em cada ponto estimado [t0− ε,t0+ ε], nenhum ponto de mudança real seja encontrado. Seja Nreaiso número total de mudanças reais e

Nestimadaso número total de mudanças estimadas, as taxas são calculadas como: MDR= 100% NP Nreais.  4.1 FAR= 100% NFA Nestimadas.  4.2

60 CAPÍTULO 4. EXPERIMENTOS E RESULTADOS

Figure 4.1: Curva de erro obtida pelas abordagens na base artificial com múltiplas mudanças.

A avaliação e comparação de resultados é feita com a curva (MDR, FAR), gerando várias taxas MDR e FAR através da variação do parâmetro Nini= 2, ..., 7 segundos, com incremento

de 1 segundo, do algoritmo de detecção de múltiplas mudanças. O restante dos parâmetros do algoritmo de detecção de múltiplas mudanças foram configurados empiricamente da seguinte forma: Ng, Nmax e Ns ajustados com os valores 1 segundo, Nmax4 e 20 segundos. A Figura 4.1

ilustra a avaliação das duas abordagens. A Tabela 4.5 mostra os valores de cada taxa ilustrados na curva de erro da Figura 4.1.

Table 4.5: Taxas de erro para cada abordagem. As taxas foram geradas para cada valor testado do parâmetro Nini= 2, ..., 7 segundos. Os resultados da segmentação que possuem

as taxas em destaque são utilizados na etapa de agrupamento.

Resultados da etapa de segmentação de locutores

Window-Growing - MFCC Window-Growing - F0 Window-Growing - LPCC Combinação de Características MDR (%) FAR (%) MDR (%) FAR (%) MDR (%) FAR (%) MDR (%) FAR (%)

2,62 62,25 17,32 60,37 12,36 59,87 1,31 54,21 2,62 62,25 17,32 60,37 12,36 59,87 2,06 53,88 27,53 63,58 17,32 60,37 12,36 59,87 1,78 53,88 37,92 63,04 33,61 61,46 36,05 63,51 2,53 53,69 42,23 61,64 42,88 61,51 43,45 62,57 7,49 54,84 48,78 61,96 48,03 60,62 49,44 62,09 14,42 55,77

61 4.3. AVALIAÇÃO DO SISTEMA DE TRANSCRIÇÃO DE LOCUTORES

Table 4.6: Pureza média e número de grupos obtidos pela etapa de agrupamento, através da segmentação feita por cada abordagem. Esses valores foram calculados para cada

amostra da base artificial com múltiplas mudanças.

Resultados da etapa de agrupamento de locutores

Window-Growing (MFCC) Window-Growing (F0) Window-Growing (LPCC) Combinação de Características Pureza (%) Nº de grupos Pureza (%) Nº de grupos Pureza (%) Nº de grupos Pureza (%) Nº de grupos

71,03 10 76,95 12 73,70 12 98,92 220 73,98 12 92,34 12 73,12 8 99,58 289 81,39 14 77,17 9 86,05 16 97,50 95 84,33 12 82,23 13 82,51 8 94,19 97 74,48 13 73,49 12 58,49 7 97,22 135 68,13 10 76,21 13 65,76 10 99,40 232 83,60 11 78,62 8 75,59 10 99,16 239

4.3.2

Avaliando o agrupamento

Para a avaliação completa do sistema de transcrição de locutores, a etapa de agrupamento foi implementada, como descrito na Seção 3.3. A etapa de agrupamento utiliza as respostas da segmentação de cada abordagem que obtiveram as melhores taxas de perda e falsos alarmes, correspondentes aos pontos do gráfico da Figura 4.1 mais próximos da origem (0,0), destacados na Tabela 4.5. Nessa etapa são extraídos vetores com 12 MFCC para representar os grupos. Utiliza-se a penalidade λ = 2 para o algoritmo HAC-BIC. Esse valor foi ajustado empiricamente para encontrar os melhores resultados.

Para avaliar os grupos formados, calcula-se a média da pureza de cada grupo. A pureza de cada grupo é a maior quantidade de amostras de um único locutor dividido pelo total de amostras do grupo. Esse cálculo ocorre porque além do algoritmo de agrupamento poder selecionar segmentos de locutores distintos para o mesmo grupo, o próprio segmento pode conter amostras de locutores distintos, por isso, calcula-se o total de amostras de cada locutor e o identificador atribuído ao grupo corresponde ao locutor que possui o maior número de amostras. A Figura 4.2 mostra a pureza média das 7 amostras da base artificial após a utilização das respostas da segmentação, obtidas pela abordagem de combinação de características e pela abordagem clássica Window-Growing, enquanto a Figura 4.3 ilustra a quantidade de grupos gerados através de cada abordagem. A Tabela 4.6 mostra os valores de pureza média e número de grupos ilustrados nos gráficos das Figuras 4.2 e 4.3.

4.3.3

Discussão

A Figura 4.1 mostra uma melhora nas taxas de falsos alarmes obtidas pela abordagem de combinação de características em todos os casos, e melhores taxas de perda na maioria dos casos. As taxas também mostram que a abordagem de combinação de características tem pouca sensibilidade aos valores de Nini. A melhora substancial nas taxas de falsos alarmes mostra que é

possível utilizar diferentes características acústicas e o BIC de forma combinada para aumentar a discriminação entre os segmentos sem acrescentar perdas de mudanças reais.

62 CAPÍTULO 4. EXPERIMENTOS E RESULTADOS

Figure 4.2: Pureza média dos grupos obtidos através da segmentação feita por cada abordagem.

63 4.3. AVALIAÇÃO DO SISTEMA DE TRANSCRIÇÃO DE LOCUTORES

do que a clássica, com mais características acústicas para extrair e executando o algoritmo de detecção de uma mudança para cada tipo de característica, nesse caso, quatro vezes. Entretanto, pela Figura 3.3, observa-se que a arquitetura possui uma baixa dependência dos dados, tanto na extração de características quanto na execução do algoritmo de detecção de uma mudança. Essas execuções podem ser paralelizadas utilizando os conceitos de computação paralela.

A avaliação da pureza mostrada na Figura 4.2 comprova a tese de que a abordagem proposta conseguiu de fato combinar a capacidade de discriminação para segmentar de forma mais precisa as amostras. O fato de termos uma pureza maior para a abordagem proposta utilizando a mesma estratégia de agrupamento implica que as respostas da segmentação já possuem um nível elevado de pureza, ou seja, indica que a segmentação com combinação de características foi mais precisa ao indicar a mudança de locutor. O elevado nível de pureza justifica-se também pelo elevado número de grupos, indicando que até mesmo alguns trechos homogêneos das amostras foram segmentados pela abordagem de combinação de características. Os trechos homogêneos segmentados não puderam ser agrupados pelo algoritmo devido ao seu pequeno número de amostras, como foi constatado em uma análise feita no tamanho dos grupos formados, distorcendo a modelagem por uma simples matriz de covariância, criando assim mais grupos.

O elevado número de grupos vindos da abordagem de combinação de características não é um problema, já que este trabalho foca na pureza dos mesmos. O número de grupos pode ser posteriormente reduzido com técnicas de modelagem mais rosbustas no algoritmo de agrupamento, utilizando uma etapa de refinamento após a segmentação, ou utilizando um sistema de identificação de locutores com modelos treinados com as pessoas presentes na amostra.

65 65 65

5

Conclusão

Este trabalho apresenta uma revisão dos principais trabalhos do estado da arte para a tarefa de transcrição de locutores. São descritas a tarefa, as áreas de aplicação e as principais etapas de um sistema que realiza esta tarefa. São revisadas as principais técnicas utilizadas no desenvolvimento das etapas de segmentação e agurpamento, bem como são revisados trabalhos feitos com características acústipas.

Neste trabalho foi proposta uma abordagem de combinação de características para a etapa de segmentação de locutores em um sistema de transcrição de locutores. A abordagem utiliza as respostas BIC do algoritmo que detecta uma mudança de locutor para cada característica acústica adotada e realiza a combinação das respostas através de uma rede MLP. O objetivo da abordagem é combinar a capacidade de discriminação de pessoas presentes no sinal de voz que cada característica acústica possui, e assim, obter melhora nos resultados da segmentação. A abordagem clássica Window-Growing é modificada, substituindo-se o algoritmo de detecção de uma mudança de locutor pela abordagem de combinação de características, possibilitando a detecção de múltiplas mudanças de locutor no sinal de voz.

A etapa de agrupamento de locutores é desenvolvida para constituir um sistema de transcrição de locutores, incluindo a abordagem proposta e também a abordagem clássica Window-Growing. Os resultados obtidos pelos sistemas com cada uma das abordagens de segmentação de locutores são avaliados e comparados. As avaliações são realizadas em uma base artificial de transcrição de locutores, contendo amostras com múltiplas mudanças de locutor e com cada locutor devidamente categorizado, construída a partir de uma base de voz pública de reconhecimento de locutor e de fala. Os resultados dos experimentos mostram que houve uma melhora significativa na taxa de falsos alarmes em todos os casos analisados, e uma pequena melhora nas taxas de perda de mudanças em alguns casos, em comparação com o sistema que utiliza a abordagem clássica. A avaliação também mostra que a pureza dos grupos de locutores, gerados pela etapa de agrupamento através das respostas obtidas pela abordagem de combinação de características, tem um nível superior aos grupos gerados através da abordagem clássica, demonstrando que a combinação de características realizada através do BIC aplicado às características acústicas adotadas e da MLP alcançou o objetivo de combinar a capacidade

66 CAPÍTULO 5. CONCLUSÃO

discriminativa de pessoas para melhorar a resposta da segmentação, garantindo uma maior homogeneidade nos grupos.

5.1

Contribuições e trabalhos futuros

Como contribuições, temos a introdução de um nova maneira de abordar o problema de segmentação de locutores como a principal das contribuições, criando uma abordagem que combina as respostas da detecção de mudança de locutor geradas por diferentes características acústicas através de um aproximador universal de funções, a rede MLP. Essa nova maneira de enxergar a segmentação de locutores permite imaginar diversas formas de combinação de respostas, como a literatura de aprendizagem de máquina tem a mostrar. Outras contribuições deste trabalho são o desenvolvimento de um sistema de transcrição de locutores que contém a abordagem de combinação e a avaliação desse sistema em comparação com o sistema de transcrição que utiliza a abordagem clássica de segmentação.

Como trabalhos futuros, pode-se desenvolver uma base real de voz para sistemas de transcrição de locutores, com disponibilidade gratuita para pesquisa. Podem-se desenvolver abordagens similares de combinação, seguindo o mesmo princípio proposto neste trabalho, utilizando mais características e características acústicas mais recentes, algoritmos mais recentes de detecção de mudança de locutor, específico para cada característica, e utilizar outras técnicas para aproximação de funções, ao invés de MLP. Além disso, realizar avaliações para comparação com abordagens mais recentes de segmentação de locutores e também utilizar algoritmos de agrupamento de locutores mais recentes.

Ainda como trabalhos futuros, pode-se adaptar o conceito de combinação para a etapa de agrupamento de locutores, usando mais de uma característica acústica no critério de aglomeração dos segmentos e decidir se deve haver aglomeração através de classificadores, como RNA, SVM, etc. Para essa combinação, leva-se em consideração que podemos utilizar diferentes caracterís- ticas acústicas para um determinado algoritimo de agrupamento, ou diferentes algoritmos de agrupamento utilizando apenas um tipo de característica, ou também os dois casos, escolher o algoritmo de agrupamento para cada característica acústica adotada que apresente o melhor resultado de agrupamento e aplicar as respostas como entrada para um classificador.

67 67 67

Referências

AJMERA, J.; BOURLARD, H.; LAPIDOT, I. Unknown-multiple speaker clustering using HMM. In: INTERNATIONAL CONFERENCE SPOKEN LANGUAGE PROCESSING, Denver. Anais. . . , p.573–576, 2002.

AJMERA, J.; LATHOUD, G.; MCCOWAN, I. Clustering and segmenting speakers and their locations in meetings. In: IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, Montreal. Anais. . . , v.1, p.605–608, 2004.

AJMERA, J.; WOOTERS, C. A robust speaker clustering algorithm. In: IEEE WORKSHOP ON AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING, St Thomas. Anais. . . , p.411 – 416, 2003.

AMI. URL: http://www.amiproject.org. 2013.

ANGUERA, X.; HERNANDO, J. Xbic: real-time cross probabilities measure for speaker segmentation. ICSI - Berkeley Technical Report, v.1, n.1, p.05–08, 2005.

ANGUERA, X.; HERNANDO, J.; ANGUITA, J. Xbic: nueva medida para segmentacion de locutor hacia el indexado automatico de la senal de voz. In: III JORNADAS EN

TECNOLOGIAS DEL HABLA, Valencia. Anais. . . , p.237–243, 2004.

ANGUERA, X.; WOOTERS, C.; PARDO, J. M. Robust Speaker Diarization for Meetings: icsi rt06s meetings evaluation system. In: THIRD INTERNATIONAL CONFERENCE ON

MACHINE LEARNING FOR MULTIMODAL INTERACTION, Berlim. Proceedings. . . , p.346–358, 2006.

APPEL, U.; BRANDT, A. V. Adaptive sequential segmentation of piecewise stationary time series. Information Sciences, v.29, n.1, p.27–56, 1983.

BAKIS, R.; CHEN, S.; GOPALAKRISHNAN, P. Transcription of broadcast news shows with the IBM large vocabulary speech recognition system. In: SPEECH RECOGNITION

WORKSHOP, Chantilly. Proceedings. . . , v.87, p.4–9, 1997.

BARRAS, C. et al. Improving Speaker Diarization. In: FALL 2004 RICH TRANSCRIPTION WORKSHOP, Palisades. Proceedings. . . , p.1–7, 2004.

BONASTRE, J.-F. et al. A speaker tracking system based on speaker turn detection for NIST evaluation. In: IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, Istambul. Anais. . . , v.2, p.1177–1180, 2000.

BRAGA, A. P.; LUDERMIR, T. B.; CARVALHO, A. P. L. F. Redes Neurais Artificiais: teoria e aplicações. 2.ed. Rio de Janeiro: LTC - LIVROS TÉCNICOS E CIENTÍFICOS EDITORA S.A., 2007.

CAMPBELL, J. P. Speaker recognition: a tutorial. Proceedings of the IEEE, v.85, n.9, p.1437–1462, 1997.

CETTOLO, M.; VESCOVI, M. Efficient audio segmentation algorithms based on the BIC. In: IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, Hong-Kong. Anais. . . , v.6, p.537–540, 2003.

68 REFERÊNCIAS

CHEN, S.; GOPALAKRISHNAN, P. Speaker, environment and channel change detection and clustering via the Bayesian Information Criterion. In: DARPA BROADCAST NEWS

TRANSCRIPTION AND UNDERSTANDING WORKSHOP, Lansdowne. Proceedings. . . , n.6, p.67–72, 1998.

CHEN, S. S. et al. Automatic transcription of Broadcast News. Speech Communication, v.37, n.1-2, p.69–87, 2002.

CHEN, S. S.; GOPALAKRISHNAN, P. S. Clustering via the Bayesian information criterion with applications in speech recognition. In: IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, Seattle. Anais. . . , v.2, p.645–648, 1998.

CHENG, S. S.; WANG, H. M. A sequential metric-based audio segmentation method via the Bayesian information criterion. In: INTERNATIONAL CONFERENCE SPOKEN

LANGUAGE PROCESSING, Geneva. Anais. . . ISCA, p.945–948, 2003.

CHENG, S. S.; WANG, H. M.; FU, H. C. BIC-Based Speaker Segmentation Using

Divide-and-Conquer Strategies With Application to Speaker Diarization. IEEE Transactions On Audio, Speech, and Language Processing, v.18, n.1, p.141–157, 2010.

CHIL. URL: http://chil.server.de. 2013.

COLLET, M.; CHARLET, D.; BIMBOT, F. A Correlation Metric for Speaker Tracking Using Anchor Models. In: IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, Filadélfia. Anais. . . , v.1, p.713–716, 2005.

DARPA. URL: http://www.darpa.mil/ipto/programs/ears. 2013.

DAVIS, S.; MERMELSTEIN, P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. IEEE Transactions on Acoustics, Speech, and Signal Processing, v.28, n.4, p.357–366, 1980.

DELACOURT, P.; KRYZE, D.; WELLEKENS, C. Detection of speaker changes in an audio document. In: EUROPEAN CONFERENCE SPOKEN LANGUAGE PROCESSING, Budapeste. Anais. . . ISCA, p.1195–1198, 1999.

DELACOURT, P.; WELLEKENS, C. DISTBIC: a speaker-based segmentation for audio data indexing. Speech Communication, v.32, n.1-2, p.111–126, 2000.

EVANS, N. et al. A Comparative Study of Bottom-Up and Top-Down Approaches to Speaker Diarization. IEEE Transactions on Acoustics, Speech, and Signal Processing, v.20, n.2, p.382–392, 2012.

FREDOUILLE, C. et al. The NIST 2004 spring rich transcription evaluation: two-axis merging strategy in the context of multiple distant microphone based meeting speaker segmentation. In: NIST 2004 RICH TRANSCRIPTION EVALUATION WORKSHOP, Montreal. Anais. . . , p.15–20, 2004.

FRIEDLAND, G. et al. Prosodic and other Long-Term Features for Speaker Diarization. IEEE Transactions On Audio, Speech, and Language Processing, v.17, n.5, p.985–993, 2009.

69 REFERÊNCIAS

GAUVAIN, J.-L.; LAMEL, L.; ADDA, G. Partitioning and transcription of broadcast news data. In: INTERNATIONAL CONFERENCE SPOKEN LANGUAGE PROCESSING, Sidney. Anais. . . , v.98, n.5, p.1335–1338, 1998.

GISH, H.; SIU, M.-H.; ROHLICEK, R. Segregation of speakers for speech recognition and speaker identification. In: IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, Toronto. Anais. . . , p.873–876, 1991.

HAIN, T. et al. Segment Generation and Clustering in the HTK Broadcast News Transcription System. In: DARPA BROADCAST NEWS TRANSCRIPTION AND UNDERSTANDING WORKSHOP, Lansdowne. Proceedings. . . , p.133–137, 1998.

HARRINGTON, J.; CASSIDY, S. Techniques in Speech Acoustics. 26.ed. : Springer, v.26, n.2, p.294–295, 2000.

HERMANSKY, H. Perceptual linear predictive (PLP) analysis of speech. The Journal of the Acoustical Society of America, v.87, n.4, p.1738–1752, 1990.

HORNIK, K.; STINCHCOMBE, M.; WHITE, H. Multilayer Feedforward Networks Are Universal Approximators. Neural Networks, , v.2, n.5, p.359–366, 1989.

HUBERT, J.; FRANCIS, K.; SCHWARTZ, R. Automatic Speaker Clustering. In: DARPA SPEECH RECOGNITION WORKSHOP, Chantilly. Proceedings. . . , v.2, p.1–9, 1997.

HUNG, J.-W.; WANG, H.-M.; LEE, L.-S. Automatic metric-based speech segmentation for broadcast news via principal component analysis. In: INTERNATIONAL CONFERENCE SPOKEN LANGUAGE PROCESSING, Pequim. Anais. . . ISCA, p.121–124, 2000.

JOHNSON, S. E. Who spoke when?-Automatic segmentation and clustering for determining speaker turns. In: EUROPEAN CONFERENCE SPOKEN LANGUAGE PROCESSING, Budapeste. Anais. . . , p.2211–2214, 1999.

JUANG, B. H.; RABINER, L. R. A probabilistic distance measure for hidden Markov models. AT&T Technical Journal, v.64, n.2, p.391–408, 1985.

KEMP, T. et al. Strategies for automatic segmentation of audio data. In: IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, Istambul. Anais. . . , v.3, p.1423–1426, 2000.

KIM, H.-G.; ERTELT, D.; SIKORA, T. Hybrid Speaker-Based Segmentation System Using Model-Level Clustering. In: IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS,

Documentos relacionados