О К О О О ...
Н - , ,
2013, № 1 (83)
90
004.93+57.087.1
Л
Л
З
. . а е
Д
-.
, . Д
« » DER 6,4%.
юче е а: , , .
е ение
В
-. , ,
-, . В
(National Institute of Standards and Technology, NIST), (Rich Transcription Evaluation Project, RTE) [1].
RTE (MDE (Metadata Extraction) Speaker Diarization),
( ) ,
-.
-. ,
[2, 3]. И .
-, .
(Bayesian Information Criterion, BIC).
-, ,
О.Ю. Ку аш в
Н - , ,
2013, № 1 (83)
91
Ц
BIC. К ,
, , « ».
ри енение BIC а ери а иирече е ен
BIC ,
-. В M,
X={x1, …, xN}, xi Rd,
1
( ) log ( ,..., | ) ( ) log 2
N
BIC M L x x M M N, (1)
1
( ,..., N| )
L x x M – ; (M) – M (
-); – , 1.
X1, X2. X1, X2
. :
1. M1 – X1 X2 ,
X X1, 2
~N( , ) .2. M2 – X1 X2 ,
X1 ~N( , 1 1),
X2 ~N( 2, 2)., (1),
1 1 2 1 1 2
( ) log ( , | , ) ( ) log( ) 2
BIC M L X X M N N ,
2 1 1 1 2 2 2 2 1 2
( ) log ( | , ) log ( | , ) ( ) log( ) 2
BIC M L X L X M N N ,
N1, N2 – X1 X2 .
BIC:
1 2
1 2 2 1
1 1 1 2 2 2 ( , | , )
( ) ( ) log ( ) ( ) log
( | , ) ( | , ) 2
L X X
BIC BIC M BIC M M M N
L X L X . (2)
∆BIC , M1
, , X1 X2 .
(2) :
1 1 2 2 1 2 1,2
1 21
log log ( ) log log( )
2 2
BIC N N N N N N , (3)
1
,2 – X1 X2 ; 1,2 –
{X1, X2}; – ,
d, ( 1)
2
d d .
ри а ера и н а ери а иирече е ен
А
( ) ( ),
-. ,
-. К ,
BIC.
4 .
1. В .
2. .
3. .
1. А , ,
. В
.
2. 2w
-h. ,
X1, – X2 ( (3)). Д h i w, ,
-BICi CPD.
3.
1 1
{ : , 0}
m m m m
О К О О О ...
Н - , ,
2013, № 1 (83)
92
4. M
arg min( )
m
m M
m BIC . M ,
, w, : M M\ { :m mm w}.
5. 4 , M .
6. {h m w} .
4. А .
1. C{ }ck ,
-, .
2. { ,},1
C k l k l
BIC (3)
AC.
3. * * , *, *
,
, :{ *, *}arg max( ), 0
k l k l k l
k l
c c k l BIC BIC ,
ck*ck*cl*, cl* : CC\ {cl*}.
4. 2–3 , .
5. C .
В
-BIC (CPD)
(AC). ,
-. В
.
е а чи енн ери ен
В 20 60- « » [6]. В
16000 . Д
.
4 : 1. (71,86%);
2. (8,66%);
3. (11,20%);
4. (8,28%).
25.
Д
-- .
В :
- (MBF);
- (MFCC).
Д :
( ) – 16 ;
– 10 ;
– 0 8000 .
Д (E),
() (2
) .
Д
(Diarization Error Rate, DER), NIST RTE 2006 [1]:
( ) max ( ), ( ) ( )
100% ( ) ( )
ref sys correct S
ref S
dur S N S N S N S
DER
dur S N S ,
S – ; dur (S) – ; Nref (S) –
-, S, ; Nsys (S) –
, S, ; Ncorrect (S) –
S.
w 3 , h 0,2 .
, DER
О.Ю. Ку аш в
Н - , ,
2013, № 1 (83)
93
Д
А
CPD AC DER (%) CPD AC DER (%)
MBF 20 1,2 3,2 8,0 5 30 21,1 MFCC 20 1,0 3,5 7,7 4,8 27 8,5 MFCC + E 20 1,0 3,3 7,8 4,8 27 8,3
MFCC + E + 40 0,6 1,3 7,3 3 18 6,4
MFCC + E ++2 60 0,55 1,1 7,2 2,3 14 6,6
Т 1. З DER
,
,
. 2,
-. В
Intel Core i5 760 2.8 GHz.
Д
20 210 3600
40 56 1900
60 23,5 1280
Т 2. З
За ючение
. К
-, DER 6,4%
, . К
. 2,
-. И ,
-
.
-,
-.
Д « »,
«Ц ».
.
Ли ера ра
1. Rich Transcription Evaluation Project [ ]. – URL: http://www.itl.nist.gov/iad/mig/tests/rt/, . . . ( 20.09.2012).
2. Kenny P. Bayesian Analysis of Speaker Diarization with Eigenvoice Priors // Technical report, Centre de recherche informatique de Montreal (CRIM). – Montreal, Canada. – May 2008. – 17 p.
3. К . ., . .
// - ,
. – 2012. – № 3 (79). – . 83–87.
4. Reynolds D., Kenny P., Castaldo F. A Study of New Approaches to Speaker Diarization // Proc. Interspeech – 2009. – P. 1047–1050.
5. Jin Q., Laskowski K., Schultz T., Alex Waibel A. Speaker segmentation and Clustering in Meetings // Proc. ICASSP-2004 Meeting Recognition Workshop. – Montreal, Canada. – May 2004. – P. 112–117.
6. [ ]. – URL: http://www.svobodanews.ru/, . . . ( 20.09.2012).
Ку а Ол Юрь и – «Ц - », , -
-,