• Nenhum resultado encontrado

A NOVEL TERM WEIGHTING SCHEME MIDF FOR TEXT CATEGORIZATION

N/A
N/A
Protected

Academic year: 2017

Share "A NOVEL TERM WEIGHTING SCHEME MIDF FOR TEXT CATEGORIZATION "

Copied!
14
0
0

Texto

(1)

!

" #$ % & $ ' (

( ) * + , -./0* 12 3204 , 2 3252*202 * 6 02,02

! " " # $ % "

& '" ( ) * "%

+ % ' , * % - "

. / % %* " %% % %

% #% " $ $ % %

0 % % % % 0 0 %

$ % ! 1 " 2 !3 $

. / % ! % %

% $ % %% 0 4 % % *

. % 5 %6 78 % %

* . / ! 9 % % % %

0 % % 4 . % 0 % %

( "0 %: . / $ $ %

1 " . %% 0

. / 2 3 % * 0 % . %% %

%* " % % % % 2 %% %

%3 % : ; ' . / % %

% $ % %* % %* % % <

0 $ 4 % " 4" *

%" " % . " 4 % % 0

(2)

b %

C = % %%

DF2i3 % 1 " i

DFR2i3 1 " 2 4 6/ $ %

"3

fn ! % $

fp ! % % $

K2x y3 (

m 4 %

N % %

n 4 %

p > %

TF2i j3 1 " 2 4 % 0 3

r 5

tn $

tp % $

w = %

xi $ 4 %

Y %% 4 %

Greek symbols

ξi > 6% 4 2 %3

Φ % 2 3 %

! $ % ! 1 "

! $ % ! 1 "

5<! 5 < % % !

= = %

. /

! ! 1 "

? ! ? $ % ! 1 "

% % % % % $

%% % %

% 0 4 % % %

% 4 % $ " $ %% " : ;

% % " %"%

. %% %% $ . %

% %% % 0 % %

0 % ! % 4 6 60 % : ; %

% 0 " % . . % $ %

% % " % " 1 " 0 %

@ % %" " % . 0 %

" % %% " " 4 %

(3)

8

! 1 " 2 !3 % % % % 0 .

04 * ! % " % % : ; ' % !

% * 0 $ 4 % $ % ? ! %

0 . $ % ! 1 " 2 !3 %

%% . % $ ! % %

0 " . % $ 4 0 $ %

% 4 ! ! $ % % % $ "

$ % 4 ' % % % " !

! ' 04 * ! % . %

1 " ! % % % 4 0 .

" : ; 04 * ! ! % 0 0 %

0 % % % % %

4 % ? $ % ! 1 " 2? !3 : ;

$ % % 4" 0 % % $ . %

? ! % $ % 4 % ' 04 * ? ! %

0 4 % 4 % % $ %

1 " $ % 1 0 0 * % %*

@ / A ) % 0 % : ;

. / " . % 4

% 5 6 78 % . %

% $ " $ % 0 %

" % 1 " % % t

4 % % 4 % t % %

% ! % " . 4 % BBB

" % 8 C B % % % $ "

! " " % % "

0 4 % % : ;

$ % 0 $ % ! 1 "

2 !3 % % % % % % 1 "

1 " 4 4 %

% 0 % % / 1 " $

0 $ % %

%% % D E$ < " %

:C; 5 F% ' :7; & 8 % G :8 H; > %

: B; D % D 4 : B ; = % 2 = 3 : ;

4 $ % ! ! % % .

5 " = % . / $

% " % . %% % % %

= % % % % 4% . % = " %

$ % % 4 %%

% $ = 4 % $

0 % ! $ 4 % %% $ %

$ 4" ! 6 % / % ! / 5 %6

78 : ; % 4 %

% / % 0% % % .

/ % 4 % = * %

(4)

!

% % % % %% $ 0 4" % %

% C

4 . / 4 % 4 % %%

% % ' % n % IC C J CnK

0 m % ID D J DmK %% ! % 0%

/ 4 : ;

n % 0 % * "0 % "

" C $ " " Cj %% " %

* "0 % % . % % 4 $ %* 0 . %

2 3 %% " Di " Cj

% % % 4 $ . #% 6

1 % 4 $ % %% % . % % 0

%% % " $

" % % % 4 " %% 4 0 . %% %

% 4 %% "

!! " # $ % "#&

4 % = : ; % "

% 0 %% % 0 % 6 %% : C;

% . 6 " % $ 4" = *

$ * % " : ; 0 $ % 4 4 % % 4

% / 0 % . / : ;

% " = % % $

0 % % / = % % 6

= ! 6 = $ $ % / $

0 1

∑ +

=

N

i i T

C w

w ξ 2 3

D

D

C

C

Cn

.

! %

%%

(5)

9

4 % % $ 1 2 3

( )

(

w Φx b

)

i N

yi T i + ≥ −ξi ξi≥B = 2 3

0 C % " % " w

% $ % b % % ξi % 6

% 4 2 %3 .i % 4 % N % % % D

y∈L % %% 4 % xi % $ 4 % * Φ %

% % 2 3 % : ;

= * %,

• • "

• 5 < % % ! 25<!3

• %

" * % * % 5<!

% % 4 % 4 % * . % % " 4

% $ % " % 4 5<! : 7; %

% % 5<! " " $ %

% % ' % " 5<! * %

* % $ 4"

k2x y3 M 2x y3 2 3

" * 0 % % $ 4"

k2x y3 M 2x y3d 2 3

% * 0 % Θ % $ 4"

k2x y3 M 2K2x y3 Nθ3 2 3

! 5<! * % 1 2C3

k2x y3 M . 26 OOx 9y||G2 σ33 2C3

' %% . % % 0 ! % . %%

% % % 4 % % $ % 2 1 %

% 3 0

(6)

< % %% %*% % 0 % % !

! ( )

% % % $ % " %

%1 4 % % ! % 0% 4 % 4 = * %

4 % % %

% * 0 % * % %% 4 % % * 0 %

2 % 3 : ; ' % " 4 6

% % % % % % * %F

% 4 % % " % 4 % %

% . $

D># >' ! ' #5 >'

* + # !!

" . % = 4 " % % 4 0 : 8; ) < = : C 8;

) < = % % 0 % $ %% 2 6 =

6 = 3 %% 2 % 6 =5 6 =53 : H; = %

. % % 0 * ' 0 : B;

* , #

= % 4 4" & % :C; % 4% 1 "

% 0 *% : 67; P $ = % %

% " % % " % = % 4 " 4 %

$ % % 4 % % %

% 4 = : ; . % %

(7)

% % 4 0 0 % * 0 0 0 0

0 % 4 / 4 6 60 % : ; % 4 0 1 %

4 % % $ % 0

% "6 60 % % 4 % ' % ! ! %

" % 0 % 0 0 0 %

% 0 % % %

4 % $ % ! % %

% . / % % 0 !

4 % % % 0 * % % % %

% 4 / / %

% 4 % 0 %

- $ . ! # $

* . ! !$

%% % % 0 ! %

0 * % $ % 0 % : ; % " % %%

%% % : ; $ $ % 0 % 0 %

" > : ; % %

% % % % % % % 2% . %3

0 % % % % 0 % C

% % % ' % % % 4 $ % %

%

>

%%

%

> %% < 6 60 %

" " %

"6 60 %

! 1 "

? %

%% ) %

(8)

0 % % 2 % % 3

? % % . % % 4" % .

% % % * 4 6 60 % : ; 1 0 %

. % 0 % % %

%" " % 4 6 60 % : ; % ? D : ; !

" 0 % % % %" " % . 0 % 0

% % "6 60 % ! % "6 6

0 % 0 % %% " " 4 %

%" " .

* ! !$

% % % $ % 0

% % % 0 % 1 B ! %

% ! 1 " 2 !3 ! % "6 60 %

$ " " % 1 " "

% . %" " 0 % " % %

% ! C % 0 6 % $ %

[

]

( )

( )

( )

( )

( )

( )

( )

m TF

( )

m TF

(

m n

)

TF D n TF TF TF D n TF TF TF D C C C m n

/ 0 !

' % % $ % !2 3 0 % 0

% % % ! ! : ; ? ! : ; . % % 0 * % 0

1 " % %% % % ! ! %

% 0 % 4" < * " H88 : ; $ 1 273

( )

( )

( )

       = i DFR m j i TF j i

! ! 273

@ TF2i j3 % 1 " 2 4 % 0

3 i j " DFR2i3 %

1 " 2 4 6/ $ % "3 i

% 4 %

" ? $ % ! 1 " 2? !3 : ; % 1 283

( )

( )

( )

i DF j i TF j i

(9)

0 1 "DF2i3 % % 1 "

i

0 % $ % ! 1 " 2 !3 %

1 2H3

( )

[

{

( )

}

]

( )

( )

i DF

i DFR j i TF j

i

! = + 2H3

0 1 "DF2i3 % % 1 "

DFR2i j3 % 4 6/ $ % i

! % 4 ! ! ? ! 0 % $ "

2TF2i,j33 % * 4 % = % 4 " %% 0 *% 0 0 % " 1 " TF2i j3 % !2i j3 4 % /

$ % % 2TF2i j33

DFR2i3/DF2i3 % * % / % $ 4 0 B

" / $ $ m %

' % ! ! % 4 % 0 *% $ " 0

0 . % 4 % % % .

% : ; 0 4 % % % $ 0

0 % ! ! % 4 %

0 * % 4 0 % @ ! !

% % 4 $

4 0 0 % ! % %

* !$

' % % % % % 4

% * ! 0 6 %

% % % 6 % % % %

% $ % 2 = 3 : C; % 4 " %% .

/ % 6 %% 4 ! " 4 " =

%% % % ' " 4 %% "

. / = %% % 4

%

% % $ = = %

% D % % % I2x y3 J 2xmn yn3K

xij % ! 0 $ i "j yi %

N 24 % "3 6 $ $ % $

$ 0 " 5<! * %

% 4 = % %

$ % 4 % "

* * !$

% % 0 0 % 0 %

(10)

4

% 0 % ! ' %

% / 4 % 0 % %% %

@ = % % . % N 6

% $ xi % % ! 0 % %

% % % * Φ2 "

5<! % 3 % $ %x x Jxn % % " %

x 0 % $ % % 0 % vis2αiyi3

4" " Q> % %

4 % % %% " % % % $

4 / " % %

% 0 %% %% %

" % % 4 ! 7

1 2

- 3 ! 0

- !

5 %6 78 : ; HB % 8 %

% 0%6% % 4" $ ) 0 % H87 % % %

%% "6 60 % % %

"

. "

!! "

(11)

! 0 % ! 0 6 % %

6 % *

-! 8CB % *

BB % * % @ 8 4 " %% %

4 % 8 % 4 " %% %

) % 4 % $ ? % 0 %

/ $ % $ % 5<! % ! %

' 0 : B; = % % 4 % % "

. 4 " $ $ % $ 4 % =

% 4 % % : ; $ % % 0 % %

% " * 0 % %F 0 %

- .

= 0 5<! * 4 % % $ %

0 % % 4 % ! 6 % % % ! 6 %

: 7 ; % " / .

$ % $ 8 %

$ % % % % %% % : ;

% % . 0 %

- 4#

! 6 % % $ 1 2 B3

p r

rp

+ =

! 2 B3

0 r % 0 % $ 4" 1 2 3

% 4

% %%

" 4

=

r

fn tp

tp r

+

= 2 3

p % % 0 % $ 4" 1 2 3

%% % 4

% %%

" 4

=

p

fp tp

tp p

+

(12)

- #

/ % : ; % % 0 % $ 4" 1 2 3

Cost = Miss + False_Alarm 2 3

0 %% % $ 4"

% 4

%% %

" 4

=

Miss

fn tp

fn Miss

+

= 2 3

False_ Alarm % $ 4" 1 2 3

% 4

% %% %

4 RAlarm=

False

fp tn

fp t Alarm False

+ =

R 2 3

. # "# 5 $ 0, +

) 4# #

6 # 6 #

1 H B HH 78H 77 17- 7 B 8 *87

CH B 8 87 8B 79 *9 7 7 7 7 / /

8 8 H C 77 9 7 B C H 187

8 CB H H 8 77 -79 B B H CBB 8 988

78 7 H H 79 //8 B B C /*/

% CH H 8H CBB 79 78 7 B 8 8 1*

"6 . H 7 H8 77 9/* B 7 8 1

% 7C B7 H BBB 77 -97 8 C 8 8 9 8

HB H 8 HH 7 77 9- 7CH B H H 8 7

0 7 HC 87 79 - 7 7HC C 8 7 8

#

: C B B 7 HC 99 - 7 B B H * 1 8

! 4 % = 0 5<! * 4 % ! %

4 ! ! ? ! ' % % 0 "

* % 0 5<! * 4 % ! 0 *% 4

! ! 8 ! 6 % = 0 5<! * 4 % !

% 0 0 ! ! ? ! 6 $

% 6 $ 8 % $

$ ! % 4 0 ! ! ? !

' % 0 0 * 5<! % 0

! ! H % % = 0 5<! * 4 % !

% 0 0 ! ! ? ! % 8

(13)

8

! ! ? ! ' % 0 0 * 5<!

% 0

9 4# "# 5 $ 0, +

7 # "# 5 $ 0, +

/

% $ = 4 % . / 2 3

0 0 % $ % ! 1 "

2 !3 % % . % 5 % 78

HB % 8 % ! ! ? !

! 4 % = 6 2 5<! * 3 % % 0 ! !

? ! ! 4 % . / % % %

0 % $ ! 6 % 6 $ ! 6

% / % % % % % 0

$ ! 4 % = 6 0 5<! * %

4 % ! ! ? ! 4 % %

* '% ! % " %% !

4 % % 4 % 0 %

(14)

!

0

4 % ! 2 BB 3 . /

ACM Computing Survey% 2 3 6 7

( " 2 BBC3 Text mining application programming. % % )

S T S & 2 H8 3 Introduction to modern information retrieval. S 06@ D 0 U *

* 2 HH 3 . / 4 % 0 $ %

1 " Tech. Rep.TR0001 *"

% " *" &

A @ T ) 2 BB73 ' D $ 0 %

. / Proceedings of Seventh International Conference on Intelligent Systems Design and Applications 5 &

C & % 2 HH73 ' 4 % "% % 5 0

. / Proceedings of International Conference on Machine Learning (ICML3 D % $ D # '

7 5 & 2 H7 3 Relevance feedback in information retrieval S

'5 5 $ "% , . % '

> %% # ' > 6@ 0 %

8 ? T 4 ! * 2 BB 3 Data mining: practical machine learning tools and techniques ! % , (

H Q & 5 2 HH 3 C4.5: Programs for machine learning (

B 2 BBC3 Machine learning S 06@

U U 2 HH73 ' $ % % % .

/ Tech. Rep. CMUCS, Carnegie, # $ % " H76 7

= , ,GG 0 * G0 * G R$ R

= % 2 = 3, ,GG000 % % G . 4 *G% %$

5 % 78 %, ,GG* % G 4 % %G % 78G % 78 /

? ? 0% , ,GG0 G G? D 6 .

C ? *, ,GG 8 8 7 BG / G /

7 ) < = !'Q, ,GG000 % 0GV G 4%$ G 1

8 * / * T @ % 0 2 BB73 . / 4 %

0 1 " % Proceedings of International Joint Conference on Neural Networks P ! # ' 6 7

H ) 4 = % , ,GG000 % 0GV G 4%$ G

B ' 0 = , ,GG % GV G% 0

0 %, ,GG $ "%1 G G G BG G . % 0 %

> ! 2 H8B3 ' % . % Program Automated

Library and Information Systems 2 3 B6 7

4, ,GG000 0 *% G

/ 6 T 2 BB83 #% >)

Referências

Documentos relacionados

Esta dissertação propõe uma nova técnica que opera no nível de sis- tema (ESL: Electronic System Level) (BAILEY; MARTIN; PIZIALI, 2007). Ela explora a observabilidade estendida de

O presente estudo consistiu numa tarefa de reconhecimento onde estavam presentes diferentes estímulos (neutros, cobras e aranhas), sendo a tarefa do participante reconhecer se

State Research Center of Russian Federation, Institute for High Energy Physics, Protvino,

La ciudadanía europea proporciona a los ciudadanos europeos importantes derechos y la posibilidad de una participación democrática y activa en el proceso de toma de decisiones de

About the difference between text clustering and text categorization, considering the best results for correctness, they observed 8 percentage points difference

relacionados localizados ou Não Localizados, anote os Bens não relacionados e localizados que estão fisicamente na unidade, mas não constam no

In this study a novel fast dictionary based text compression technique MBRH (Multidictionary with burrows wheeler transforms, Run length coding and Huffman coding) is proposed for

brasiliensis, que possivelmente codifica uma permease de acetato, quando o fungo foi cultivado, in vitro, em presença de glicose ou acetato como única fonte de carbono