• Nenhum resultado encontrado

AGGLOMERATIVE CLUSTERING OF SOUND RECORD SPEECH SEGMENTS BASED ON BAYESIAN INFORMATION CRITERION

N/A
N/A
Protected

Academic year: 2017

Share "AGGLOMERATIVE CLUSTERING OF SOUND RECORD SPEECH SEGMENTS BASED ON BAYESIAN INFORMATION CRITERION"

Copied!
4
0
0

Texto

(1)

О К О О О ...

Н - , ,

2013, № 1 (83)

90

004.93+57.087.1

Л

Л

З

. . а е

Д

-.

, . Д

« » DER 6,4%.

юче е а: , , .

е ение

В

-. , ,

-, . В

(National Institute of Standards and Technology, NIST), (Rich Transcription Evaluation Project, RTE) [1].

RTE (MDE (Metadata Extraction) Speaker Diarization),

( ) ,

-.

-. ,

[2, 3]. И .

-, .

(Bayesian Information Criterion, BIC).

-, ,

(2)

О.Ю. Ку аш в

Н - , ,

2013, № 1 (83)

91

Ц

BIC. К ,

, , « ».

ри енение BIC а ери а иирече е ен

BIC ,

-. В M,

X={x1, …, xN}, xi Rd,

1

( ) log ( ,..., | ) ( ) log 2

N  

BIC M L x x M M N, (1)

1

( ,..., N| )

L x x M – ; (M) – M (

-);  – , 1.

X1, X2. X1, X2

. :

1. M1X1 X2 ,

X X1, 2

~N( , )  .

2. M2X1 X2 ,

 

X1 ~N( , 1 1),

 

X2 ~N( 2, 2).

, (1),

1 1 2 1 1 2

( ) log ( , | , ) ( ) log( ) 2

     

BIC M L X X M N N ,

2 1 1 1 2 2 2 2 1 2

( ) log ( | , ) log ( | , ) ( ) log( ) 2

        

BIC M L X L X M N N ,

N1, N2X1 X2 .

BIC:

1 2

1 2 2 1

1 1 1 2 2 2 ( , | , )

( ) ( ) log ( ) ( ) log

( | , ) ( | , ) 2

  

       

   

L X X

BIC BIC M BIC M M M N

L X L X . (2)

BIC , M1

, , X1 X2 .

(2) :

1 1 2 2 1 2 1,2

1 2

1

log log ( ) log log( )

2 2

BICN  N   NN    NN , (3)

1

 ,2X1 X2 ; 1,2

{X1, X2};  – ,

 d, ( 1)

2

  d d .

ри а ера и н а ери а иирече е ен

А

( ) ( ),

-. ,

-. К ,

BIC.

4 .

1. В .

2. .

3. .

1. А , ,

. В

.

2. 2w

-h. ,

X1, – X2 ( (3)). Д h i w, ,

-BICi   CPD.

3.

1 1

{ :  , 0}

  m   m   mm

(3)

О К О О О ...

Н - , ,

2013, № 1 (83)

92

4. M

arg min( ) 

   m

m M

m BIC . M ,

, w, : MM\ { :m mm w}.

5. 4 , M .

6. {h m w} .

4. А .

1. C{ }ck ,

-, .

2. { ,},1

C k l k l

BIC (3)

  AC.

3. * * , *, *

,

, :{ *, *}arg max( ), 0

k l k l k l

k l

c c k l BIC BIC ,

ck*ck*cl*, cl* : CC\ {cl*}.

4. 2–3 , .

5. C .

В

-BIC (CPD)

(AC). ,

-. В

.

е а чи енн ери ен

В 20 60- « » [6]. В

16000 . Д

.

4 : 1. (71,86%);

2. (8,66%);

3. (11,20%);

4. (8,28%).

25.

Д

-- .

В :

 - (MBF);

 - (MFCC).

Д :

 ( ) – 16 ;

 – 10 ;

 – 0 8000 .

Д (E),

() (2

) .

Д

(Diarization Error Rate, DER), NIST RTE 2006 [1]:

( ) max ( ), ( ) ( )

100% ( ) ( )

 

 

ref sys correct S

ref S

dur S N S N S N S

DER

dur S N S ,

S – ; dur (S) – ; Nref (S) –

-, S, ; Nsys (S) –

, S, ; Ncorrect (S) –

S.

w 3 , h 0,2 .

, DER

(4)

О.Ю. Ку аш в

Н - , ,

2013, № 1 (83)

93

Д

А

CPD AC DER (%) CPD AC DER (%)

MBF 20 1,2 3,2 8,0 5 30 21,1 MFCC 20 1,0 3,5 7,7 4,8 27 8,5 MFCC + E 20 1,0 3,3 7,8 4,8 27 8,3

MFCC + E +40 0,6 1,3 7,3 3 18 6,4

MFCC + E ++2 60 0,55 1,1 7,2 2,3 14 6,6

Т 1. З DER

,

,

. 2,

-. В

Intel Core i5 760 2.8 GHz.

Д

20 210 3600

40 56 1900

60 23,5 1280

Т 2. З

За ючение

. К

-, DER 6,4%

, . К

. 2,

-. И ,

-

.

-,

-.

Д « »,

«Ц ».

.

Ли ера ра

1. Rich Transcription Evaluation Project [ ]. – URL: http://www.itl.nist.gov/iad/mig/tests/rt/, . . . ( 20.09.2012).

2. Kenny P. Bayesian Analysis of Speaker Diarization with Eigenvoice Priors // Technical report, Centre de recherche informatique de Montreal (CRIM). – Montreal, Canada. – May 2008. – 17 p.

3. К . ., . .

// - ,

. – 2012. – № 3 (79). – . 83–87.

4. Reynolds D., Kenny P., Castaldo F. A Study of New Approaches to Speaker Diarization // Proc. Interspeech – 2009. – P. 1047–1050.

5. Jin Q., Laskowski K., Schultz T., Alex Waibel A. Speaker segmentation and Clustering in Meetings // Proc. ICASSP-2004 Meeting Recognition Workshop. – Montreal, Canada. – May 2004. – P. 112–117.

6. [ ]. – URL: http://www.svobodanews.ru/, . . . ( 20.09.2012).

Ку а Ол Юрь и – «Ц - », , -

-,

Referências

Documentos relacionados

Foi notada, por exemplo, a valorização da utilização de elementos diegéticos na interface, bem como a percepção dos jogadores de que um design pouco apropriado pode

Nóvoa (coord.), As Organizações Escolares em Análise (pp. face ao trabalho escolar, enfim, de um ethos de escola. Ao recorrer ao termo ethos Rutter procura pôr em

We observed that even in short-term cultures or low cell density cultures the number of isolated TH-positive axons were insufficient to perform studies and thus

Assim, com o intuito de se estudar a capacidade do ozônio em remover compostos orgânicos, seja por meio da oxidação e/ou do processo de arraste de gases, é que se propõe

O grupo parlamentar do Bloco de Esquerda apresentou na Assembleia da República o projeto de resolução nº 7/X 60 , considerando que a continuação dos

O objectivo deste trabalho foi estabelecer a relação entre o tipo de enzima e a extensão da reacção de hidrólise e as características dos hidrolisados proteicos obtidos a partir de

Esse, talvez, seja o grande desafio a ser vencido em relação ao trabalho com a Modelagem nos anos iniciais, reforçando assim a necessidade de trabalhos de pesquisa envolvendo

A principal contribuição científica desta pesquisa é a proposição dos FCS para implantação do BIM por organizações públicas, o mapa de correlação entre os FCS, assim