• Nenhum resultado encontrado

Uso de sintagmas nominais na classificação automática de documentos eletrônicos.

N/A
N/A
Protected

Academic year: 2017

Share "Uso de sintagmas nominais na classificação automática de documentos eletrônicos."

Copied!
19
0
0

Texto

(1)

1

!

" # ! $ !

% % & $

" ' (

!

"#$% & '% " "#$%

% & '%

"#$%

( '$

) * + ,

"

-.

) & * % / %

/ 0 /

(

1

(2)

! " # $ !%&'$ %&$ %&'()&*+$ , %- . % +/&/

1- - . 2

-- ,

- . - 2 +. 1.

"#$% & 2 .

-"#$% . ,+ -

--

-- - . - -

--

-- 1- & '% . + - "#$%

-

-3( 2 3 3) * + 3 +

1-- .

+ . + 1- ,

- . - . - - .

-. -

-+ ,- * 1 + / 4 / %

/ ) - / )

. &/%/3%+//4 0 /'%

5 ! ) !

$ ! 2

6 % 0 7 2 $

$ !

%

# ! 2 6 7

8! $ $ ! 9:0;<0)=0>;

#:;# ?)1;>?$ &444 @ 01>< A0 # ? 5?# B 1 B##$ &44*

;0C?D :?= ; B 0@>$ +/// ?@>$ +///E%

! 6

, %

? .7 ! ! !

% 0 7

(3)

; 6

9 0#0$ +//FE 2 ! !

2

" 2 " $

G8 9 ? <0$ +//' #? ; #$ +//& ; #1#$ &443E% ;

? )

2 6

6 6 %

!

2

H ! $

7 2 . ,

. 7! % ;

6 !

H I %

? 6 ! H

J % ? , $

., ! 6 I $

) J % $

! $

! 6 8

$ 2 %

C 9&4*(E$ K

L 7

% M 8! 6

7 $

6 $

% 8 ) 8

% ! 8 $ )

H

$ , $ 6 % N;

! . 2

I . $

2 O 9 0 C;1$ &4*($ % PE%

;6 6 2

6 Q $ .

$ % 2

! . 6 %

? 6 ! H J

$ % ? , $

., ! 6 I $

) J % 0 $

! $ 6 8! $

$ .,

6 G8 2 I . ., %

(4)

! " # $ !%&'$ %&$ %&'()&*+$ , %- . % +/&/ "

! $

I %

? ! .

6 2G 6

2 R %

0 !

$ B 9+//+E$ 7 $ !

! . G8 %

;6 $ Q

• Q ! ! % ;6 Q

! 9 . .

.7 E

• 8 Q !

% ;6 Q .S. ,

• ! . )

7 ! %

;6 Q $ , ! $ !8 9!8 , !

!8 , ! E%

0 " $ B 9+//+E 2

. !

. # 6 8 % 1 "

8 $ 6 " % 0 6 8

6 " 6

6 ! , %

#

$

0 6 9 + E 2

! ! . $ 6 $ 6 9

E 1$ . "

G8 2 .

8 %

0 6 6

I . " I !

6 $ 2 ! I

, ! 6 . 6

% 9 ? 01 ? @ 01T?# $ +///E

0 G8 7 8 ! .

% 0 ! 7 G8 .

1 UV G $ - 0

1 - + 9$01E &43/ &43'% ? !

! G8 %

? ! $

$ J G8 9

. G $ 8 $ %E% 1 ! $

2

, 9. $ E

(5)

UV 9&434E I

! $

7 %

0 ! ,

S 2

! $ ! G8 %

1 ! ) " Q

9 A? B=$ &434 ? ; $ &444EQ

&%

+% W

P% W 9 >E%

? . )

! . ! . % UV$

.

7 6 %

1 $ > U 9+//($ % F*E$

7%%%

X%%%Y ! $ 2

% 1 $

2 2 9 E

$ 2

. $ 2

$ ! $ .

$ ! %

0 $ 6 $ $ , 7

% 1 7

9 E 2

% 0 2

% 9&443E$

. 6 $ 7 8! !

I % J 9 S E

9 $ ! $ $ !

! E% ? .7 8

- $ 2

J $ 2

9 #? ; #$ +//&E%

0 !

G8 . 2 I R

% ! B 9+//*$ % &F)&4E 2

%%%

X%%%Y , 2

! 2 " I

(6)

! " # $ !%&'$ %&$ %&'()&*+$ , %- . % +/&/ &

$ J $ 2 $

S$ %

> .7 B 9&443E$ N7

O%

6 $ Q

N? O%

" 1 . Q

&% +% P%

? 1 N O N O

1 N O%

0 6

2

! ! % B 9+//+E

$ ! 6 Q

? $ 6 6

$ 7 ! !

! $ ,

$ 6 6

9B 0 ?>?$ +//+E%

? 2 2 N0 6 "

! ! !

! O 9B 0 ?>?$ +//+E%

; +//+ , 6 2

. 6

% . 7

R 2 I

(7)

Z 0C ? & 0 8

FERRAMENTA REFERÊNCIA DIFICULDADES

VISL - Automatic Analysis of Portuguese

Bick, 19962 (-) O envio do texto é feito pela web.

(-) anotação manual: arquivo por arquivo.

(-) Para anotações em um corpus maior é necessário adquirir licença.

(-) Português europeu Curupira - Parser para o

português brasileiro

Martins, Hasegawa e Nunes, 20023

(-) não está disponível ao público.

Grammar Play Othero, 2004. (-) léxico limitado.

(-) apenas pequenas frases.

PoSiTagger Aires, 2000.4 (-) dependente da ferramenta

MXPost. LX-Tagger / LX Suite Natural Language and Speak

group (NLX)5

(-) O envio do texto é feito pela web.

(-) anotação manual: arquivo por arquivo.

(-) Português europeu

@ Q 0 >#1 A0 ; 0D0 1 1; $ +//+%

? . 9+//&$ % &E ., ! N

7 6 1

" $

1 9 1E # I O%

; $ ! 7 ;C) ; $

$ 2 $ 6 1$ 7

%

0 I

2 2 2 . % ;

? 7 2

6 . %

'

(

C 2 2 B 9&444 +//+E !

! .

$ $

. 2 2 !

! J % 0 2

9+//'E . . . $

I Q

6 6

6 8

%

2 I Q [ Q--! % % % U-! - \% /& !% +//F%

3 I Q [ Q--]]]% % % %. - - - % \% /& !% +//F% 4

I Q [ Q--]]]% % % %. - - , - % \% /& !% +//F%

5

(8)

! " # $ !%&'$ %&$ %&'()&*+$ , %- . % +/&/

9+//'E . 3/ Q P/

S C < P/ 8

" %

> 9+//'E

? 0 6

2 % ? ? 0 $

.

%

)

0 H . .

! $ $

I $ 2 6 2

. , ! . $

$ I 8

% 0

% ? .7 $

$ 6 $ 2

I %

0 . $ , $

! $ ., ! 2 $ )

! 6

! %

1 2 )

% ! $

7 ) $ .

S6 .

7 7 " %

9 H 7 2

. ! , ., % ? ., ! 7

2 9 E , " 8! $

! 2 .,

2 ., ,

9^01 ;1 $ +//*E%

#

5($ $ ) R

! ) ) % 1 5($ 2

R $ S6 & $

(9)

1 2 Q ]$, 7 ,

: )= . )1 9&444E

. ! I . Q

&% , 7 $

H

+% 2 "

P% 2 .

. 2 2 "

(% !

'% %

? #

! ! R

% ;6 7 ) $

2 7 .7 % 0 R

& + 7 Q

1 2 Q ]$, 7 ,%

0 R 2 2 I $ ! 6$

V $ , ! Q

1. d(x, y) 0

2. d(x, x) = 0

3. d(x, y) = d(y, x)

4. d(x, z) d(x, y) + d(y, z)

! $ "

2 R %

1 ! : V 7 7 .

" . V % > . 8 %

! . . !7

% 8 $

2 ! . $ $

. . 7 !

%

? B) 9 B) 7 E ., !

., S % ;

7 . I !

7 % C $

!

(10)

! " # $ !%&'$ %&$ %&'()&*+$ , %- . % +/&/

8 $ ' 7

! %

? R $

7$ ! 9 E ! 2

% ? 2

2 , 9UE% ; J 2 !

7 2 !

Q ' %

1 2 $ ) ! !

S ! H I 8! 6

% ? ? 0 . 6

$ .

! H %

? ? ? 9

" E% ;

! %

? ! ! ! ) 1

_% 6

) ! ! 6 $ 2 2

, ! ! %

?

. 76 8

2G 2 6 %

0

2 ! ! . : -# ; 6% ;

! ! ! ,

S . % 0 !7 2 ! 8!

2 ! 9 ) E

. (&4*F , ! %

? ! . %

, 7 . '/// ! .

) . . +4+%*+/

! . % C !

2 .7 ! . 8

! . . K5 L

K5:L%

@ $ !7 $

. > 9&44/E$ )

(*' ! ! % ; !

2 . %

6

Para mais informações: <http://www.ime.usp.br/~ueda/br.ispell>. 01 nov. 2008.

7

(11)

? D U ) & 2 2 . +

&44P$ ^ ! $ ! D U

1 ! < R %

0 D U 7 # , W $

D U , I

! 7 6 %

? D U ! !

. - . "

2 % ; $

%

1 2 $ Q

? $ 8 '/ ;

1 2 " # ) ;101 #: +//'% 1

$ . !

. 9 >E %

C $ ) &/ '

. W >%

@ Q

> &Q ; S S

> +Q ?

> PQ $

> (Q

> 'Q 8 $ 7

? ! C@ 2 !

6 % , % , % ? 2 ! 9

6 E +& U.V $ P&'3 9 6 4 > 'E +&P

U.V $ +4F'* 9 6 &/ > +E%

0 ) N;101 #:/'O%

C &//(4+ $ ++P+/ 33(+ 9*`E

J %

> .7 $

6 J , 8 % ? ., ! !

J .

%

6 ) , A , C 8

+//(% ; ) . $

2 ! 2 6

% 0 S $ ) S (/

8 Q # $ > 5 8 %

$ ) % )

2 8 $ $ .

> 8%

8

(12)

! " # $ !%&'$ %&$ %&'()&*+$ , %- . % +/&/

C > 6 ^ : $

# 9# +/ 6 $ &+%/4F 7

3/(E @ $ 9+/ 6 $ &P%*P4

7 3F3E ! %

? ! N^? 10 /(O$

6 $ &3/ 6 ! 2 Q

# $ > $ 5 8 %

" '$

? 6 )

Q

! "#$$

% & "#$$

' &

( &) *

+ ) *,

&

@# 0 & W ; 6

@ Q C 2 %

E 6 6

.E . Q

$ . $

% 1 ^? 10# /(

(13)

E 8 . 2 !

E 2 ! 7 $

% 0

J J

J

E ! . 0 .

D U

E ) * + ( 2 /

E %

6 $ ) $ 7

;101 #:/'$ ^? 10# /(%

. 6 ! $ ! )

%

> .7 S 6 ! $ ! )

$

$ ) . D;B0$ )

J 2 ! %

% !

C $ )

7 9Z 0C ? +EQ

Z 0C ? + ) 7 6

SIGLA MÉTODO DESCRIÇÃO

TT Termo As tabelas de descritores contêm todas as palavras do

documento e seus respectivos pesos.

TTS Termo sem stopwords A tabela de descritores é construída com base em todas

as palavras do documento, com exceção das presnetes

na lista de stopwords.

TC Sintagmas Nominais

(máximos)

A tabela de descritores é construída com base nos

sintagmas nominais extraídos de cada documento.

TR Sintagmas Nominais

(máximos) Pontuados

A tabela de descritores é construída de acordo com o

cálculo realizado da pontuação como descritor de cada

sintagma nominal.

TCA Sintagmas Nominais

(incluindo os aninhados)

A tabela de descritores é construída com base nos

sintagmas nominais máximos e aninhados extraídos de

cada documento.

TRA Sintagmas Nominais

(incluindo os aninhados)

Pontuados

A tabela de descritores é construída de acordo com o

cálculo realizado da pontuação como descritor de cada

sintagma nominal máximo e aninhado.

(14)

! " # $ !%&'$ %&$ %&'()&*+$ , %- . % +/&/ "

? ;101 #:/' ^? 10# /(

$ 7 %

0 ) * + 2 !7

D;B0$ $

>0:% & ;101 #:/'Q

>0:; 0 &) D U ;101 #:/'

Método Naive Bayes SimpleKMeans

Classificados

corretamente %

Agrupados

corretamente %

TTS - Termos sem stopwords 26/50 52% 22/50 44%

TT – Termos 25/50 50% 21/50 42%

TR - Sintagmas Nominais

Pontuados 23/50 46% 20/50 40%

TC - Sintagmas Nominais 12/50 24% 15/50 30%

@ Q C 2 %

? >0:% & @# % +$ . 6 Q

@# 0 + W D U ;101 #:/'

@ Q C 2 %

) D;B0

;101 #:/'$ 8! . I . 2

7 $ ! 2 J

7

2 % 0 7

7 %

? .

6 ! % ; $ 7

, D;B0 2

(15)

9'+`E 2 9`'/E$ >0:% +%

1 6 ! $ 6 $

' >%

>0:; 0 + ) 6 ! 6 6

Experimento prospectivo

Experimento consolidado (Naive Bayes) Método Doc. corretos % Doc. corretos %

TT – Termos 14/25 56% 25/50 50%

TS - Termos sem stopwords 12/25 48% 26/50 52%

TR - Sintagmas Nominais

Pontuados

11/25 44% 23/50 46%

TC - Sintagmas Nominais 6/25 24% 12/50 24%

@ Q C 2 %

^? 10# /($ $ 7 2

7 9 ) >>$ ] )

> $ W > ) > E$

Q 9> 0E

9> 0E%

$ ) .

6

! % ; . "

%

1 >0:% P 7 J 7 .

^? 10# /(%

>0:; 0 P )1J 7 7 $

^? 10# /(

Método

Número médio de descritores por documento

TT – Termos 331

TTS – Termos sem stopwords 296

TC – Sintagmas Nominais 160

TR – Sintagmas Nominais

pontuados 160

TCA – SN Aninhados 245

TRA – SN Aninhados e pontuados 245

(16)

! " # $ !%&'$ %&$ %&'()&*+$ , %- . % +/&/ &

? 6 $ D;B0 )

* + ^? 10# /(

>0:% (%

>0:; 0 ( ) D U -) * + $ ^? 10# /(

Corpus: JORNAIS04

Método Naive Bayes

Classificados

corretamente %

TS - Termos sem stopwords 147/160 91%

TC - Sintagmas Nominais 147/160 91%

TRA - SN Aninhados Pontuados 137/160 85%

TCA - SN Aninhados 136/160 85%

TR - Sintagmas Nominais

Pontuados 132/160 82%

TT - Termos 106/160 66%

@ Q C 2 %

? 2 ! 2 ! 7 .7

. ( '$ D;B0% ?

) >0:% 'Q

>0:; 0 ') D U -( '$ $ ^? 10# /(

Corpus: JORNAIS04

Método SimpleKMeans

Agrupados

corretamente %

TRA - SN Aninhados Pontuados 129/160 81%

TS - Termos sem stopwords 126/160 79%

TCA - SN Aninhados 109/160 68%

TC - Sintagmas Nominais 89/160 56%

TT - Termos 80/160 50%

TR - Sintagmas Nominais

Pontuados 66/160 43%

@ @ Q C 2 %

?. ! ) 2 . )

.

. 9>> E .

9> 0E$ ) ) * + %

0 . &(* $ 4&`

%

? 2 $

(17)

? 6 2 7 2 ! !

8

. % 6 $ ^? 10# /($

. )

* + $ . 4&` 9&(* E % 1

2

2 . /

&+4 9F&`E &+3 9*4`E

. %

0 $

! ! 2

. % ! $ 6

2

9 E $ 2

2 7 . .

% C $ . 8

%

; $

! 9 E 2

I % # R .

7! . .

$ 2 , . %

& *

+

? .

!7 % ; $ $

.8 .

! . 6 % ? 7 .

$ $ ) 6

7 7) 6 2 ! H

) $ . ! .

J .

2 %

0 2 , $ .

2 7

J $ !

8 .

$ %

; .

" $ G8 ! . $

2 $ . ! 6 % 0

? 0$ 8 6

" $ 8! ]

(18)

! " # $ !%&'$ %&$ %&'()&*+$ , %- . % +/&/ "

!

,

0# ; $ % 5% a 0 ,

6 * % +///% C 9

" E W #

" $ ! $ $ +///%

:0;<0)=0>; $ % #:;# ?)1;>?$ :% ! % 1 ]

= UQ 0 $ &444%

:# B% 0 % # Q ;1 ?1> ? 0 0 ?

? ; 0 ;1>? ? >0 #?10 C; ? > b ; #>? ; @0 0C?$

+%$ ! $ &443% % 7 ! Q ;@; ) $ &443%

A? B=$ 1% 8 $ 9 Q 6$ &434%

?@>$ D% :% % Q 0

. $ +///%

@ 01><$ 5% A0 # ?$ ^% 5?# B 1 B##$ 5% %

: V % C $ 0Q 0 $ &44*% P3'

%

^01 ;1 $ @% 4 ,+ $

, , % X % %YQ B U ! ! @

# ] $ +//*%

B 0 ?>?$ A% . !

6 Q % 4 6

0 $ : 8 $ !% +'$ % +$ - $ % &F+)&4+$ &443%

cccccc% 1 Q !

# % 8 # ; $ !% P$ % &$ !% +//+% C 8! Q

[ Q--]]]% % %. - !/+-0 c/P% \% 0 Q /& !% +//F%

? ; $ ;% < => ? Q 6$

&444%

0#0$ % !

+//F% > 9C "

# E W ! @ W @ % :

A $ +//F%

0 >#1 $ % >% A0 ; 0D0$ % 1 1; $ % % 5% 4 Q

" % X % %Q % %Y$ +//+% S %

;0C?D$ %>% :?= ;$ :% % B 0@>$ C% A% 1 0 9

(+ C Q 0 $ +///% P3( %

#? ; #$ % >% 8 4 9Q 6

" % +//&% C 9 " E W

@ # $ 8 ! S

(19)

?>A; ?$ % 0% # +Q

% +//(% C 9 E W

! S $ 0 $ +//(%

; #1# $ 0% ? " Q $

$ ! ; $ % %$ &443% C 8! Q

[ Q-- % % %. - ! - - c1; c&443% \%

0 Q /& !% +//F%

? 01 ?$ a% @ 01T?# $ % C

! 6 % # Q #1>; 10>#?10 # B?

?1@; ;1 ;$ 3%$ +///$ > % @ 7> Q ; 5 Q

DG . $ +///% % P'4)P3'%

0 C;1$ % ^% %

% Q % : V$ &4*(%

# 50$ % % % % B? A$ #% 5% A => 6 Q 6 %

&( % Q $ +//*%

? <0$ % % !

-+//'% > 9C

" # E W ; " # $ !

@ $ : A $ +//'%

> 0 B$ % % 8 => Q 6 $

+//(%

> @01?$ C% > Q % + % Q

Referências

Documentos relacionados

O destaque é dado às palavras que abrem signi- ficados e assim são chaves para conceitos que fluem entre prática poética na obra de arte e sua reflexão em texto científico..

Atualmente os currículos em ensino de ciências sinalizam que os conteúdos difundidos em sala de aula devem proporcionar ao educando o desenvolvimento de competências e habilidades

Segundo Éric Laurent, a psicose ordinária se caracteriza pela não resposta aos significantes-mestres tradicionais, manifestando o fim do poder do Nome-do-Pai como

O objetivo do curso foi oportunizar aos participantes, um contato direto com as plantas nativas do Cerrado para identificação de espécies com potencial

- Se o estagiário, ou alguém com contacto direto, tiver sintomas sugestivos de infeção respiratória (febre, tosse, expetoração e/ou falta de ar) NÃO DEVE frequentar

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

Discussion The present results show that, like other conditions that change brain excitability, early environmental heat exposure also enhanced CSD propagation in adult rats.. The

Os doentes paliativos idosos que permanecem nas instituições privadas são encaminhados pelos hospitais em que estavam ou internados pelos próprios familiares