573
UDC 519.67
INFORMATION CRITERION FOR THE CATEGORIZATION QUALITY EVALUATION
1 Yulia E. Balykina 2 Michail V. Svirkin
1 Saint-Petersburg State University
7/9, Universitetskaya nab., St.Petersburg, 199034 assistant
2 Saint-Petersburg State University
7/9, Universitetskaya nab., St.Petersburg, 199034 PhD, associated professor
E-mail: julia.balykina@gmail.com
The paper considers the possibility of using the variation of information function as a quality criterion for categorizing a collection of documents. The performance of the variation of information function is being examined subject to the number of categories and the sample volume of the test document collection.
Keywords: texts categorization, quality criterion, variation of information function, sample size.
й зЫ Ы Ы Ы Ы Ы Ы
зЫ Ы Ы Ы Ы Ы Ы Ы Ы Ы [мзЫ 2].
зЫ Ы Ы Ы Ы Ы Ы
Ы Ы зЫ Ы Ы Ы Ы Ы Ы Ы Ы
Ы Ы Ы йЫ Ы Ы Ы Ы Ы
Ы Ы Ы Ы Ы Ы Ы Ы
« »Ы зЫ Ы Ы Ы « »Ы Ы
Ы Ы й
Ы Ы Ы Ы Ы Ымфрл- Ы Ы Ы
йЫ Ы Ы Ы Ы Ы Ы Ы
Ы Ы Ы Ы Ы Ы Ы Ы
йЫ Ы Ы Ы Ы Ы Ы Ы Ы
Ы Ы Ы Ы Ы йЫ Ы Ы Ы
Ы Ы Ы Ы Ы Ы
Ы Ы Ы Ы Ы Ы Ы Ы Ы
Ы Ы Ы й
Ы Ы Ы Ы Ы Ы Ы Ы
Ы Ы хЫRandЫindexзЫJaccardЫindexзЫFolwkesЫandЫMallowsЫindex, MirkinЫmetricзЫVanЫяongenЫmetricЫ Ы й йЫ зЫ Ы Ы Ы Ы Ы
Ы Ы Ы зЫ Ы Ы Ы Ы
йЫ зЫ Ы Ы Ы Ы Ы Ы
Ы зЫ Ы Ы Ы Ы Ы Ы Ы Ы Ы CзЫ Ы Ы Ы
Ы– Ы ЫC .
Ы Ы й Ы Ы[о]Ы Ы Ы зЫ
Ы Ы Ы гvariationЫ ofЫ informationз VIдйЫ Ы Ы
Ы Ы Ы Ы Ы Ы Ы Ы
574
Ы Ы Ы Ы Ы Ы Ы Ы
ЫC Ы ЫC .
Ы Ы Ы D Ы Ы Ы Ы Ы K
Ы зЫ Ы х
K
C C C
C 1, 2,, зЫ Ы ЫCk Cl 0 Ы
K k k D C 1 .
Ы Ы C C1,C2,,CK - Ы Ы Ы DйЫ зЫ
Ы Ы Ы Ы Ы Ы Ы й
Ы Ы Ы Ы Ы Ы Ы зЫ Ы
Ы Ы Ы зЫ Ы Ы Ы Ы Ы Ы
Ы Ы йЫ Ы Ы Ы Ы Ы Ы Ы ЫC Ы
C Ы Ы Ы
C C I C H C H C C
VI , 2 , ,
Ы H C , H C - Ы Ы Ы ЫC ЫC зЫ
C C
I , - Ы Ы Ы ЫC ЫC .
Ы Ы зЫ Ы Ы Ы Ы
Ы Ы Ы Ы Ы Ы Ы Ы
Ы Ы Ы Ы Ы Ы Ы Ы Ы
йЫ Ы Ы Ы Ы Ы Ы Ы
Ы - й
Ы йЫ Ы Ы Ы Ы Ы
Ы Ы Ы Ы Ы Ы Ы Ы
Ы Ы Ы Ы Ы Ы зЫ Ы Ы Ы Ы
Ы йЫ Ы Ы Ы Ы Ы Ы Ы
Ы Ы ЫнлσewsGroupsЫ[п]й
Ы Ы Ы Ы Ы Ы Ы нлЫ
Newsgroups:
1 - altйatheismЫг дц
2 - compйgraphicsЫг Ы дц …
8 - recйautosЫг дц 9 - recйmotorcyclesЫг дц 10 - recйsportйbaseballЫг дц 11 - recйsportйhockeyЫг дц 12 - sciйcryptЫг дй
зЫ Ы Ы di (i 1,N)зЫ Ы Ы
Ы хЫ Ы Ы di i 1,N Ы Ы
i j d
w
n , , j 1,M зЫ Ыn wj,di - Ы Ы Ыwj Ы ЫdiйЫ Ы
Ы Ы Ы Ы зЫ Ы Ы Ы Ы Ы
хЫ Ы Ы Ы Ы Ы Ы Ы Ы Ы
Ы йЫ зЫ Ы Ы Ы Ы Ы Ы Ы
-зЫ Ы Ы Ы зЫ зЫ зЫ Ы Ы й йЫ Ы
Ы Ы Ы Ы Ы ЫммнфссЫ й
Ы Ы Ы Ы Ы Ы
Ы Ы Ы ЮЫ Ы Ы Ы ЫMSЫSQLЫServerЫнллуйЫ Ы Ы Ы
Ы Ы Ы Ы Ы Ы - зЫ Ы
575
зЫ Ы Ы Ы йЫ Ы Ы Ы
зЫ Ы Ы Ы Ы Ы Ы зЫ Ы Ы Ы Ы
Ы Ы Ы зЫ Ы Ы Ы
-зЫ Ы Ы Ы Ы Ы Ы зЫ Ы Ы
Ы Ы Ы й
Ы Ы Ы Ы Ы Ы Ы Ы Ы
Ы Ы Ы Ы Ы« »Ы Ы Ы Ы
Ы Ы VI C,C йЫ Ы Ы Ы Ы Ы
ЫгрлзЫмллзЫнллзЫнрлзЫоллзЫпллзЫрллзЫсллЫ ЫтллЫ Ы Ы Ы дЫ
Ы Ы Ы Ы ЫгнзЫозЫрзЫтзЫмлдйЫ Ы Ы Ы Ы Ы
зЫ Ы Ы Ы Ы Ы Ы Ы Ы
й
Ы Ы Ы Ы Ы Ы Ы Ы зЫ
Ы Ы Ы maxmin
k l
l , l 1,,kйЫ Ы max - Ы
Ы Ы n wj,di , j 1,MзЫ Ы min - Ы Ы Ы
i j d
w
n , , j 1,M, i 1,N.
Ы Ы Ы Ы Ы Ы
ЫVIC,C Ы Ы Ы Ы Ы Ы Ы зЫ Ы
Ы зЫ Ы Ы Ы Ы Ы й 1-3.
576
йЫнйЫ Ыу-12
йЫойЫ Ы Ы Ы Ы Ы Ы Ы Ы Ы
Ы Ы
Ы Ы Ы Ы Ы Ы Ы
Ы Ы Ы Ы Ы Ы Ы Ы
Ы VI C,C зЫ Ы Ы Ы Ы Ы Ы
Ы Ы Ы Ы Ы Ы йЫ Ы
зЫ Ы Ы Ы Ы Ы Ы Ы Ы Ы
Ы Ы йЫ Ы Ы Ы ЫVI C,C
Ы Ы Ы Ы Ы зЫ Ы зЫ Ы Ы
577
Ы Ы Ы Ы зЫ Ы Ы Ы Ы Ы
Ы зЫ Ы Ы Ы йЫ
х
1. Ы й йЫ Ы Ы Ы Ы Ы кЫ
й й зЫ й йЫ йЫ йЫхЫ - зЫнллмйЫнтлЫ й
2. Thomas M. Cover. Elements of Information Theory. / Thomas M. Cover, Joy A. Thomas. Willey, 2006. 776 p.
3. MarinaЫMeilăйЫюomparingЫclusteringsЫ— an information based distance. / Journal of Multivariate Analysis, Vol. 98, Issue 5, May 2007, P. 873-895.
4. Homepage for 20 Newsgroups Data Set. URL: http://people. csail.mit. edu /jrennie/20Newsgroups/.
Ырмфйст
Ы Ы Ы Ы
Ы Ы Ы
1 Ы Ы
2 Ы Ы
1 - Ы Ы
мффлопзЫ й - зЫ Ы йзЫткф
2 - Ы Ы
мффлопзЫ й - зЫ Ы йзЫткф
Ы - Ы зЫ
E-mail: julia.balykina@gmail.com
Ы Ы Ы Ы Ы Ы Ы
Ы Ы Ы Ы Ы Ы Ы йЫ
Ы Ы Ы Ы Ы Ы Ы Ы
Ы Ы Ы Ы Ы йЫ
Ы х Ы зЫ Ы зЫ Ы