1
!
" # ! $ !
% % & $
" ' (
!
"#$% & '% " "#$%
% & '%
"#$%
( '$
) * + ,
"
-.
) & * % / %
/ 0 /
(
1
! " # $ !%&'$ %&$ %&'()&*+$ , %- . % +/&/
1- - . 2
-- ,
- . - 2 +. 1.
"#$% & 2 .
-"#$% . ,+ -
--
-- - . - -
--
-- 1- & '% . + - "#$%
-
-3( 2 3 3) * + 3 +
1-- .
+ . + 1- ,
- . - . - - .
-. -
-+ ,- * 1 + / 4 / %
/ ) - / )
. &/%/3%+//4 0 /'%
5 ! ) !
$ ! 2
6 % 0 7 2 $
$ !
%
# ! 2 6 7
8! $ $ ! 9:0;<0)=0>;
#:;# ?)1;>?$ &444 @ 01>< A0 # ? 5?# B 1 B##$ &44*
;0C?D :?= ; B 0@>$ +/// ?@>$ +///E%
! 6
, %
? .7 ! ! !
% 0 7
; 6
9 0#0$ +//FE 2 ! !
2
" 2 " $
G8 9 ? <0$ +//' #? ; #$ +//& ; #1#$ &443E% ;
? )
2 6
6 6 %
!
2
H ! $
7 2 . ,
. 7! % ;
6 !
H I %
? 6 ! H
J % ? , $
., ! 6 I $
) J % $
! $
! 6 8
$ 2 %
C 9&4*(E$ K
L 7
% M 8! 6
7 $
6 $
% 8 ) 8
% ! 8 $ )
H
$ , $ 6 % N;
! . 2
I . $
2 O 9 0 C;1$ &4*($ % PE%
;6 6 2
6 Q $ .
$ % 2
! . 6 %
? 6 ! H J
$ % ? , $
., ! 6 I $
) J % 0 $
! $ 6 8! $
$ .,
6 G8 2 I . ., %
! " # $ !%&'$ %&$ %&'()&*+$ , %- . % +/&/ "
! $
I %
? ! .
6 2G 6
2 R %
0 !
$ B 9+//+E$ 7 $ !
! . G8 %
;6 $ Q
• Q ! ! % ;6 Q
! 9 . .
.7 E
• 8 Q !
% ;6 Q .S. ,
• ! . )
7 ! %
;6 Q $ , ! $ !8 9!8 , !
!8 , ! E%
0 " $ B 9+//+E 2
. !
. # 6 8 % 1 "
8 $ 6 " % 0 6 8
6 " 6
6 ! , %
#
$
0 6 9 + E 2
! ! . $ 6 $ 6 9
E 1$ . "
G8 2 .
8 %
0 6 6
I . " I !
6 $ 2 ! I
, ! 6 . 6
% 9 ? 01 ? @ 01T?# $ +///E
0 G8 7 8 ! .
% 0 ! 7 G8 .
1 UV G $ - 0
1 - + 9$01E &43/ &43'% ? !
! G8 %
? ! $
$ J G8 9
. G $ 8 $ %E% 1 ! $
2
, 9. $ E
UV 9&434E I
! $
7 %
0 ! ,
S 2
! $ ! G8 %
1 ! ) " Q
9 A? B=$ &434 ? ; $ &444EQ
&%
+% W
P% W 9 >E%
? . )
! . ! . % UV$
.
7 6 %
1 $ > U 9+//($ % F*E$
7%%%
X%%%Y ! $ 2
% 1 $
2 2 9 E
$ 2
. $ 2
$ ! $ .
$ ! %
0 $ 6 $ $ , 7
% 1 7
9 E 2
% 0 2
% 9&443E$
. 6 $ 7 8! !
I % J 9 S E
9 $ ! $ $ !
! E% ? .7 8
- $ 2
J $ 2
9 #? ; #$ +//&E%
0 !
G8 . 2 I R
% ! B 9+//*$ % &F)&4E 2
%%%
X%%%Y , 2
! 2 " I
! " # $ !%&'$ %&$ %&'()&*+$ , %- . % +/&/ &
$ J $ 2 $
S$ %
> .7 B 9&443E$ N7
O%
6 $ Q
N? O%
" 1 . Q
&% +% P%
? 1 N O N O
1 N O%
0 6
2
! ! % B 9+//+E
$ ! 6 Q
? $ 6 6
$ 7 ! !
! $ ,
$ 6 6
9B 0 ?>?$ +//+E%
? 2 2 N0 6 "
! ! !
! O 9B 0 ?>?$ +//+E%
; +//+ , 6 2
. 6
% . 7
R 2 I
Z 0C ? & 0 8
FERRAMENTA REFERÊNCIA DIFICULDADES
VISL - Automatic Analysis of Portuguese
Bick, 19962 (-) O envio do texto é feito pela web.
(-) anotação manual: arquivo por arquivo.
(-) Para anotações em um corpus maior é necessário adquirir licença.
(-) Português europeu Curupira - Parser para o
português brasileiro
Martins, Hasegawa e Nunes, 20023
(-) não está disponível ao público.
Grammar Play Othero, 2004. (-) léxico limitado.
(-) apenas pequenas frases.
PoSiTagger Aires, 2000.4 (-) dependente da ferramenta
MXPost. LX-Tagger / LX Suite Natural Language and Speak
group (NLX)5
(-) O envio do texto é feito pela web.
(-) anotação manual: arquivo por arquivo.
(-) Português europeu
@ Q 0 >#1 A0 ; 0D0 1 1; $ +//+%
? . 9+//&$ % &E ., ! N
7 6 1
" $
1 9 1E # I O%
; $ ! 7 ;C) ; $
$ 2 $ 6 1$ 7
%
0 I
2 2 2 . % ;
? 7 2
6 . %
'
(
C 2 2 B 9&444 +//+E !
! .
$ $
. 2 2 !
! J % 0 2
9+//'E . . . $
I Q
6 6
6 8
%
2 I Q [ Q--! % % % U-! - \% /& !% +//F%
3 I Q [ Q--]]]% % % %. - - - % \% /& !% +//F% 4
I Q [ Q--]]]% % % %. - - , - % \% /& !% +//F%
5
! " # $ !%&'$ %&$ %&'()&*+$ , %- . % +/&/
9+//'E . 3/ Q P/
S C < P/ 8
" %
> 9+//'E
? 0 6
2 % ? ? 0 $
.
%
)
0 H . .
! $ $
I $ 2 6 2
. , ! . $
$ I 8
% 0
% ? .7 $
$ 6 $ 2
I %
0 . $ , $
! $ ., ! 2 $ )
! 6
! %
1 2 )
% ! $
7 ) $ .
S6 .
7 7 " %
9 H 7 2
. ! , ., % ? ., ! 7
2 9 E , " 8! $
! 2 .,
2 ., ,
9^01 ;1 $ +//*E%
#
5($ $ ) R
! ) ) % 1 5($ 2
R $ S6 & $
1 2 Q ]$, 7 ,
: )= . )1 9&444E
. ! I . Q
&% , 7 $
H
+% 2 "
P% 2 .
. 2 2 "
(% !
'% %
? #
! ! R
% ;6 7 ) $
2 7 .7 % 0 R
& + 7 Q
1 2 Q ]$, 7 ,%
0 R 2 2 I $ ! 6$
V $ , ! Q
1. d(x, y) 0
2. d(x, x) = 0
3. d(x, y) = d(y, x)
4. d(x, z) d(x, y) + d(y, z)
! $ "
2 R %
1 ! : V 7 7 .
" . V % > . 8 %
! . . !7
% 8 $
2 ! . $ $
. . 7 !
%
? B) 9 B) 7 E ., !
., S % ;
7 . I !
7 % C $
!
! " # $ !%&'$ %&$ %&'()&*+$ , %- . % +/&/
8 $ ' 7
! %
? R $
7$ ! 9 E ! 2
% ? 2
2 , 9UE% ; J 2 !
7 2 !
Q ' %
1 2 $ ) ! !
S ! H I 8! 6
% ? ? 0 . 6
$ .
! H %
? ? ? 9
" E% ;
! %
? ! ! ! ) 1
_% 6
) ! ! 6 $ 2 2
, ! ! %
?
. 76 8
2G 2 6 %
0
2 ! ! . : -# ; 6% ;
! ! ! ,
S . % 0 !7 2 ! 8!
2 ! 9 ) E
. (&4*F , ! %
? ! . %
, 7 . '/// ! .
) . . +4+%*+/
! . % C !
2 .7 ! . 8
! . . K5 L
K5:L%
@ $ !7 $
. > 9&44/E$ )
(*' ! ! % ; !
2 . %
6
Para mais informações: <http://www.ime.usp.br/~ueda/br.ispell>. 01 nov. 2008.
7
? D U ) & 2 2 . +
&44P$ ^ ! $ ! D U
1 ! < R %
0 D U 7 # , W $
D U , I
! 7 6 %
? D U ! !
. - . "
2 % ; $
%
1 2 $ Q
? $ 8 '/ ;
1 2 " # ) ;101 #: +//'% 1
$ . !
. 9 >E %
C $ ) &/ '
. W >%
@ Q
> &Q ; S S
> +Q ?
> PQ $
> (Q
> 'Q 8 $ 7
? ! C@ 2 !
6 % , % , % ? 2 ! 9
6 E +& U.V $ P&'3 9 6 4 > 'E +&P
U.V $ +4F'* 9 6 &/ > +E%
0 ) N;101 #:/'O%
C &//(4+ $ ++P+/ 33(+ 9*`E
J %
> .7 $
6 J , 8 % ? ., ! !
J .
%
6 ) , A , C 8
+//(% ; ) . $
2 ! 2 6
% 0 S $ ) S (/
8 Q # $ > 5 8 %
$ ) % )
2 8 $ $ .
> 8%
8
! " # $ !%&'$ %&$ %&'()&*+$ , %- . % +/&/
C > 6 ^ : $
# 9# +/ 6 $ &+%/4F 7
3/(E @ $ 9+/ 6 $ &P%*P4
7 3F3E ! %
? ! N^? 10 /(O$
6 $ &3/ 6 ! 2 Q
# $ > $ 5 8 %
" '$
? 6 )
Q
! "#$$
% & "#$$
' &
( &) *
+ ) *,
&
@# 0 & W ; 6
@ Q C 2 %
E 6 6
.E . Q
$ . $
% 1 ^? 10# /(
E 8 . 2 !
E 2 ! 7 $
% 0
J J
J
E ! . 0 .
D U
E ) * + ( 2 /
E %
6 $ ) $ 7
;101 #:/'$ ^? 10# /(%
. 6 ! $ ! )
%
> .7 S 6 ! $ ! )
$
$ ) . D;B0$ )
J 2 ! %
% !
C $ )
7 9Z 0C ? +EQ
Z 0C ? + ) 7 6
SIGLA MÉTODO DESCRIÇÃO
TT Termo As tabelas de descritores contêm todas as palavras do
documento e seus respectivos pesos.
TTS Termo sem stopwords A tabela de descritores é construída com base em todas
as palavras do documento, com exceção das presnetes
na lista de stopwords.
TC Sintagmas Nominais
(máximos)
A tabela de descritores é construída com base nos
sintagmas nominais extraídos de cada documento.
TR Sintagmas Nominais
(máximos) Pontuados
A tabela de descritores é construída de acordo com o
cálculo realizado da pontuação como descritor de cada
sintagma nominal.
TCA Sintagmas Nominais
(incluindo os aninhados)
A tabela de descritores é construída com base nos
sintagmas nominais máximos e aninhados extraídos de
cada documento.
TRA Sintagmas Nominais
(incluindo os aninhados)
Pontuados
A tabela de descritores é construída de acordo com o
cálculo realizado da pontuação como descritor de cada
sintagma nominal máximo e aninhado.
! " # $ !%&'$ %&$ %&'()&*+$ , %- . % +/&/ "
? ;101 #:/' ^? 10# /(
$ 7 %
0 ) * + 2 !7
D;B0$ $
>0:% & ;101 #:/'Q
>0:; 0 &) D U ;101 #:/'
Método Naive Bayes SimpleKMeans
Classificados
corretamente %
Agrupados
corretamente %
TTS - Termos sem stopwords 26/50 52% 22/50 44%
TT – Termos 25/50 50% 21/50 42%
TR - Sintagmas Nominais
Pontuados 23/50 46% 20/50 40%
TC - Sintagmas Nominais 12/50 24% 15/50 30%
@ Q C 2 %
? >0:% & @# % +$ . 6 Q
@# 0 + W D U ;101 #:/'
@ Q C 2 %
) D;B0
;101 #:/'$ 8! . I . 2
7 $ ! 2 J
7
2 % 0 7
7 %
? .
6 ! % ; $ 7
, D;B0 2
9'+`E 2 9`'/E$ >0:% +%
1 6 ! $ 6 $
' >%
>0:; 0 + ) 6 ! 6 6
Experimento prospectivo
Experimento consolidado (Naive Bayes) Método Doc. corretos % Doc. corretos %
TT – Termos 14/25 56% 25/50 50%
TS - Termos sem stopwords 12/25 48% 26/50 52%
TR - Sintagmas Nominais
Pontuados
11/25 44% 23/50 46%
TC - Sintagmas Nominais 6/25 24% 12/50 24%
@ Q C 2 %
^? 10# /($ $ 7 2
7 9 ) >>$ ] )
> $ W > ) > E$
Q 9> 0E
9> 0E%
$ ) .
6
! % ; . "
%
1 >0:% P 7 J 7 .
^? 10# /(%
>0:; 0 P )1J 7 7 $
^? 10# /(
Método
Número médio de descritores por documento
TT – Termos 331
TTS – Termos sem stopwords 296
TC – Sintagmas Nominais 160
TR – Sintagmas Nominais
pontuados 160
TCA – SN Aninhados 245
TRA – SN Aninhados e pontuados 245
! " # $ !%&'$ %&$ %&'()&*+$ , %- . % +/&/ &
? 6 $ D;B0 )
* + ^? 10# /(
>0:% (%
>0:; 0 ( ) D U -) * + $ ^? 10# /(
Corpus: JORNAIS04
Método Naive Bayes
Classificados
corretamente %
TS - Termos sem stopwords 147/160 91%
TC - Sintagmas Nominais 147/160 91%
TRA - SN Aninhados Pontuados 137/160 85%
TCA - SN Aninhados 136/160 85%
TR - Sintagmas Nominais
Pontuados 132/160 82%
TT - Termos 106/160 66%
@ Q C 2 %
? 2 ! 2 ! 7 .7
. ( '$ D;B0% ?
) >0:% 'Q
>0:; 0 ') D U -( '$ $ ^? 10# /(
Corpus: JORNAIS04
Método SimpleKMeans
Agrupados
corretamente %
TRA - SN Aninhados Pontuados 129/160 81%
TS - Termos sem stopwords 126/160 79%
TCA - SN Aninhados 109/160 68%
TC - Sintagmas Nominais 89/160 56%
TT - Termos 80/160 50%
TR - Sintagmas Nominais
Pontuados 66/160 43%
@ @ Q C 2 %
?. ! ) 2 . )
.
. 9>> E .
9> 0E$ ) ) * + %
0 . &(* $ 4&`
%
? 2 $
? 6 2 7 2 ! !
8
. % 6 $ ^? 10# /($
. )
* + $ . 4&` 9&(* E % 1
2
2 . /
&+4 9F&`E &+3 9*4`E
. %
0 $
! ! 2
. % ! $ 6
2
9 E $ 2
2 7 . .
% C $ . 8
%
; $
! 9 E 2
I % # R .
7! . .
$ 2 , . %
& *
+
? .
!7 % ; $ $
.8 .
! . 6 % ? 7 .
$ $ ) 6
7 7) 6 2 ! H
) $ . ! .
J .
2 %
0 2 , $ .
2 7
J $ !
8 .
$ %
; .
" $ G8 ! . $
2 $ . ! 6 % 0
? 0$ 8 6
" $ 8! ]
! " # $ !%&'$ %&$ %&'()&*+$ , %- . % +/&/ "
!
,
0# ; $ % 5% a 0 ,
6 * % +///% C 9
" E W #
" $ ! $ $ +///%
:0;<0)=0>; $ % #:;# ?)1;>?$ :% ! % 1 ]
= UQ 0 $ &444%
:# B% 0 % # Q ;1 ?1> ? 0 0 ?
? ; 0 ;1>? ? >0 #?10 C; ? > b ; #>? ; @0 0C?$
+%$ ! $ &443% % 7 ! Q ;@; ) $ &443%
A? B=$ 1% 8 $ 9 Q 6$ &434%
?@>$ D% :% % Q 0
. $ +///%
@ 01><$ 5% A0 # ?$ ^% 5?# B 1 B##$ 5% %
: V % C $ 0Q 0 $ &44*% P3'
%
^01 ;1 $ @% 4 ,+ $
, , % X % %YQ B U ! ! @
# ] $ +//*%
B 0 ?>?$ A% . !
6 Q % 4 6
0 $ : 8 $ !% +'$ % +$ - $ % &F+)&4+$ &443%
cccccc% 1 Q !
# % 8 # ; $ !% P$ % &$ !% +//+% C 8! Q
[ Q--]]]% % %. - !/+-0 c/P% \% 0 Q /& !% +//F%
? ; $ ;% < => ? Q 6$
&444%
0#0$ % !
+//F% > 9C "
# E W ! @ W @ % :
A $ +//F%
0 >#1 $ % >% A0 ; 0D0$ % 1 1; $ % % 5% 4 Q
" % X % %Q % %Y$ +//+% S %
;0C?D$ %>% :?= ;$ :% % B 0@>$ C% A% 1 0 9
(+ C Q 0 $ +///% P3( %
#? ; #$ % >% 8 4 9Q 6
" % +//&% C 9 " E W
@ # $ 8 ! S
?>A; ?$ % 0% # +Q
% +//(% C 9 E W
! S $ 0 $ +//(%
; #1# $ 0% ? " Q $
$ ! ; $ % %$ &443% C 8! Q
[ Q-- % % %. - ! - - c1; c&443% \%
0 Q /& !% +//F%
? 01 ?$ a% @ 01T?# $ % C
! 6 % # Q #1>; 10>#?10 # B?
?1@; ;1 ;$ 3%$ +///$ > % @ 7> Q ; 5 Q
DG . $ +///% % P'4)P3'%
0 C;1$ % ^% %
% Q % : V$ &4*(%
# 50$ % % % % B? A$ #% 5% A => 6 Q 6 %
&( % Q $ +//*%
? <0$ % % !
-+//'% > 9C
" # E W ; " # $ !
@ $ : A $ +//'%
> 0 B$ % % 8 => Q 6 $
+//(%
> @01?$ C% > Q % + % Q