#
)
!
"
!
%
* +
%
,
-.)/0
!
$ % !
& ' (
%
-))1
-3
4
%
, 5
*
4 6
7
5
3
4 &
8
5
*
% 5
:
0
*
7
! ;
:
4
7
!
;
5
5
3
9
7
!<
5
*
% !
(
%
,
4
4
*
>
?
;
!
"
5
;
'
4
!
"
4
@
$
4
?
4
4
04 =
>
4
5
'
?
A
'
5
!
4
% !
&
7
B
4
?
;
!
4 ,"
5 *
!
$
5
+
7
!
!
;
4
4
!
+
!
!
$ 9?
4
5 B
!
7
"
!
4
4
?
!
5
+
4
7
!
;
?-2=C.4
?
7
'
'
4
7
4 A
5
;
!
@
'
<
4
8
.
D E !
!
!
!
5
7
! !
D
4 D
!
!
$ D
F
?D
F
F
!
!
04 =
>
G
G5
*
7
! !
5
G
G % !
&
7
B
G !
!
G
G D
E
D 4 D
G
5
D
5
! !
!
!
D
!!
!
D
$ 9?
4
5
!
D
!
!
!
!
!
D
!!
! !
5
8
?-2=C. D
+
D
!
G
7
7
G
!
5
!!
!
!
D
*
H
2)
Dedicatória ... 2
Agradecimentos ... 4
Resumo ... 6
Abstract ... 8
Índice ... 10
Índice de Figuras ... 14
Índice de Tabelas ... 16
Glossário de Termos ... 18
Introdução ... 20
1.1. Motivação ... 24
1.2. Solução apresentada ... 28
1.3. Principais contribuições ... 34
Trabalho relacionado ... 36
2.1. Representação computacional dos documentos ... 36
2.2. Redução da Dimensionalidade do
Corpus
... 40
2.2.1.
Term Frequency
... 44
2.2.2.
Relative Frequency
... 45
2.2.3.
Inverse Document Frequency
... 45
2.2.4.
Term Frequency Inverse Document Frequency
... 46
2.2.5.
Chi-square
... 46
2.2.6.
Odds ratio
... 47
2.2.7.
Information Gain
... 48
2.2.8.
Gain Ratio
... 49
2.2.9.
Mutual Information
... 49
H
22
2.2.11.
GSS coeficiente
... 51
2.2.12. Terceiro Momento em relação à média ... 52
2.3. Agrupamento vs Classificação ... 54
2.4. Algoritmos de Agrupamento ... 55
2.4.1. Agrupamento hierárquico ... 56
2.4.3. K-
means
... 57
2.4.4. K-
medoids
... 57
2.5. Algoritmos de Classificação ... 58
2.5.1. Classificadores Probabilísticos ... 58
2.5.2. Árvores de decisão ... 59
2.5.3. Regras de decisão ... 60
2.5.4. Redes neuronais ... 60
2.5.5. Método de Rocchio ... 61
2.5.6. Classificadores baseados em exemplos ... 62
2.5.7. Método dos vizinhos mais próximos ... 62
2.5.8. Máquinas de Vectores de Suporte... 63
2.5.9. RIPPER ... 64
2.5.10. Classificador Proposto por Joaquim F. Silva... 66
2.6. Ferramenta WEKA ... 68
2.7. Conclusões obtidas em trabalho realizado por outros autores ... 70
2.8. Medidas para avaliar classificadores ... 74
2.8.1.
Precision
e
Recall
... 74
2.8.2. F-Measure ... 75
2.8.3. Matriz de confusão ... 76
2.8.4. Exactidão ... 77
2.8.5. Estatística Kappa ... 78
2.8.6. Relative Operating Characteristic (ROC) ... 80
2.8.7.
Micro-Averaging
... 82
Resultados ... 86
3.1 Documentos de Treino e Teste ... 86
3.2. Resultados Experimentais ... 92
H
2-3.4. Resultados obtidos com a colecção R1... 104
3.4.1. Resultados com o classificador SVM ... 104
3.4.2. Resultados obtidos com o classificador KNN... 106
3.5. Resultados obtidos com a colecção R2, R3 e R4 ... 108
3.6. Resultados obtidos com o classificador RIPPER ... 112
3.7. Resultados com SVM, K-NN e RIPPER ... 114
3.8. Desempenho por Classe ... 118
3.9. Análise dos resultados obtidos em relação a outros autores ... 122
Conclusão ... 126
Trabalho Futuro ... 130
Apêndice ... 132
Apêndice A ... 134
SVM: Resultados por classe com a colecção R11 ... 134
A.1 Performance obtida com o classificador SVM utilizando a técnica do Terceiro Momento ... 136
A.2 Performance obtida com o classificador SVM utilizando a técnica
Chi-Square
... 142
A.3 Performance obtida com o classificador SVM utilizando a técnica
Information Gain
... 148
Apêndice B ... 154
K-NN: Resultados por classe com colecção R11 ... 154
B.1 Performance obtida com o classificador K-NN utilizando a técnica do Terceiro Momento ... 156
B.2 Performance obtida com o classificador K-NN utilizando a técnica
Chi-Square
... 162
B.3 Performance obtida com o classificador K-NN utilizando a técnica
Information Gain
... 168
Apêndice C ... 174
RIPPER: Resultados por classe com a colecção R11 ... 174
Apêndice D... 180
SVM: Resultados por classe com a colecção R12 ... 180
D.1 Performance obtida utilizando a técnica Terceiro Momento ... 182
D.2 Performance obtida utilizando a técnica
Chi Square
... 186
D.3 Performance utilizando a técnica
Information
Gain
... 190
Apêndice E ... 194
K-NN: Resultados por classe com a colecção R12 ... 194
E.1 Performance obtida utilizando a técnica Terceiro Momento ... 196
H
2/
E.3 Performance obtida utilizando a técnica
Information
Gain
... 204
Apêndice F ... 208
RIPPER: Resultados por classe para a colecção R12 ... 208
Apêndice G ... 214
SVM: Resultados por classe com a colecção R4 ... 214
Apêndice H ... 220
K-NN: Resultados por classe com a colecção R4 ... 220
20
25-5 2$ +
2 5555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555 /2
25-5 -$ +
- 5555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555 /2
-505 2$ *
55555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555 ==
-5.5>5 2$ +
8# 5555555555555555555555555555555555555555555555555555555555555555555555555555555 .2
/50525 2$ %
!
BI
@
!
'
822 555555555555555555 2)0
/50525 -$ %
!
BI
@
!
'
82- 555555555555555555 2)0
/5=5 2$ %
!
BI
@
8-4 8/
80
'
/
555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555 2).
/5=5 -$ %
!
9?
@
8-4 8/
80
'
/
555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555 2).
/5=5 /$ %
!
BI
9
4
804
'
/
>5)))
555555555555555555555555555555555555555555555 22)
/5>5 2$ %
!
8 %% 8
@
8225555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555
22-/5>5 -$ %
!
8 %% 8
@
22-H
2>
-5.5/5 2$
;
!
5555555555555555555555555555555555555555555555555555555555555555555555 C>
-5.5=5 2$ I
9
<
9
5555555555555555555555555555555555555555555555555555 .)
-5.5C5 2$
!
"
A
5555555555555555555555555555555555555555555555555555 ./
/525 2$ !
J
822 5555555555555555555555 ..
/5-5 2$ +
J
55555555555555555555555555555555555555555555555 1/
/5-5 -$
J
!
8225555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555 10
/5/5 2$ %
4
6
(
;
%
5555555555555 1.
/5/5 -$ %
4
6
(
;
?
555 11
/5/5 /$ %
4
6
(
;
0
555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555 11
/5/5 0$ %
4
6
(
;
=
5555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555 2))
/5/5 =$ %
4
6
(
;
>
5555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555 2))
/5/5 >$ %
4
6
(
;
04 =4
>
5555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555 2)2
/5/5 C$ %
4
6
(
;
%
55555 2)2
/5C5 2$ +
<
9
!
,
H
2C
/5C5 -$ +
<
9
!
,
8
?-2=C.
82-55555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555522=
/5C5 /$
+
<
9
!
BI
'
/
@
8-4 8/
80555555555555555555555555555555555555555555555555555555555555555522>
/5C5 0$
+
<
9
!
9?
'
/
@
8-4 8/
80555555555555555555555555555555555555555555555555555555555555555522C
/5.5 2$ % !
%
555555555555522.
2.
/
*8
*B
! !
!
6
!
" # $
!
%
%
(8
(
9?
%
&
$
*
'
(
8
'
%
'
;
!
8#
'
)
BI
I% I
%
(
"
21
822 B
,
-2=C. K 12
82- B
,
-2=C. K 2)
8- B
,
-2=C. K
8/ B
,
-2=C. K
?
-)
!
<?
4
4
'?
!
5
!
"
"
J
4
!
;
4
7
5
!
,
'
;
!
7
5
#
"
4
J
"
7
!
4
"
4
27
4
;
5
L
!
" # $M4
-L
!
N
M4
L
!
M5
A
4
4
'
;
<
5 #
?
LI
5 5M5
%
A
+
/J
;
5
'
<
5
1 Documentos neste contexto poderão ser: livros, cartas, revistas, artigos, entre outros. 2 LCC também conhecido por
Library of Congress Classification.
3 Neste contexto “extracção” significa organizar o conteúdo do (s) documento (s) pelas dimensões que o
-2
9O
4
21.C4
E 4
21-24
7
;
+
@
0!
!
! 7
4
LB
5 5M5
,
;
4
"
4
<
5
+
7
;
5
4
;
!
<
4
4
$
+
:
'
5
P
!
,
?
,
!
A
!
5
%
4
"
"
J
5 B:
!
"
Q
5
,
;
!
'
!
5
+<
"7
"
J
5
!
"7
"
L M
L M
!
5
#
"
4
!
5
4
'
!
"7
4
, 4
!
'
;
=5
%
?
!
*
"
B
5 #
!
!
"
4
;
5 *
!
'
7
!
4
7
4
'
;
!
5 %
4
!
B
4
4Käding - Extracção de cerca de 100 milhões de palavras da língua alemã (Käding s.d.).
Thorndike - Extracção de cerca de 625,000 palavras em literatura para crianças; 3,000 palavras da Bíblia, e livros de clássicos Ingleses; 300,000 palavras de livros da escola primária; 50,000 palavras de livros sobre: cozinha, costura, agricultura, entre outros; 90,000 palavras de jornais diários; e 500,000 palavras de cartas (Internet Archive s.d.).
5 Automatizada no sentido de ter a capacidade de iniciar um processo, desenvolver e finalizar
-->
4
+
5 *
'
4
, 4
<
'
5 *
7
7
4
?
4
5
!
;
C5
+
,
7
;
!
4
*F
4
7
!
5
@
+
<
5 %
"
4
?
4
4
5
'
"
! 7
4
4
4
5
!
+
!
7
'?
5
!
;
J
F
7
;
L
4
?
?
M5
4
?
4
4
;
?
!
:
F !
4
"
"
;
7
5
*
7
4
4
!
5
?
7
!
7
!
5
<
2525
-5-
" +
!
5
*
'
"
!
5
+
!
4
8 %% 8 L
B
5 5M4 7
;
<
16
Do termo inglês, clustering.
7 Do Inglês,
feature.
8 C
orpus de treino trata-se deum conjunto de documentos utilizados para treinar o classificador. 9 Representação íntegral - todos os termos são utilizados por o classificador, ou seja, não existe uma
-/
5
4
!
;
4
!
!
4
9
LR E
5 5M4
?
+ 7 <
5
*
;
!
? ?
;
'
4
5
'
"?
!
S
L M
L M
!
5
? ?
+
:
<
2)5
'
,
!
5
;
!
!
!
'
5 #
,
$
25 #
7
'
4
!
4
L M '
L M5
-5 #
5
/5 *
7
!
!
5
%
!
:
; 4
!
"
7
5 *
'
;
"7
4
4
4
? ?"
"7
" T
U A
!
'
4
;
7
!
5
4
4
7
5
-0
! ! "
#
,
!
"
?
"
5
'
4
4
+
7
!
5
<
7
;
'
!
5 B
"
J
!
!
;
"7
4
4
7
!
A
5
* 7
!
'
5
!
"
7
7
?
<
"
4
+
4
!
"
5 #
!
"
!
+
;
!
7
,
5
*
!
4
+
4
!
5
+
'
"
$ *
N
L
G 5 5MF N
N
LN
N
5 5MF
5 #
!
"
?
A
@ 5
,
!
$
!
?
!
5
*
4
!
4
!
F
@ F
@ 5
?
"
7
4 4
4 +
4
!
<
4
'
+
5
?
4 4 !
! "?
5
%
!
'
"
!
!
5 *
'
+
4
7
!
5
'
-=
!
S
M5 *
7
,
;
!
<
7
"
4
+
<
4
7
! 7
LB
4
5 5 5M5 %
?
;
4
;
?
7
5 B:
"
<
!
$
Q
;
"
!
5
<
;
4
'
<
;
!
<
4
+
4
!
8 %% 8 L
B
5 5M5
4
?
7
4
4
4
!
5
<
'
5
#
;
!
4
L
7
;
M4
4
4
4
<;
7
!
5
A '
5 *
4
4
4
'
'
&
22LN
G 5 5M5
#
7
L M
L M
!
! 7
L M
L M5
+
<
!
5 *
'
!
7
7
+
<
!
5
*
'4
4
!
5
4
; 4
7
! 7
5
4
4
5 V
;
J
4
4
4
7
J
"
5
11
2525
->
7
!
"
7
'
+
L
!
M5 *
! 7
4
A
4 '
7
!
5
+
$
25 T
'
7
4
4
5 LR E
5 5MU
-5 T6"
7
J
'
'?
:
5 LR E
5 5MU
#
T U4
T7
U4
,
T U4
!
T'U
T
U
?
!
5
'
<
J
5 B "
7
!
,
!
5
%
? 4
4
7
;
$
25
!
7
7
5
-5
!
,
S
/5
4
!
5
05
!
L
M5
=5 *
!
5
?
!
4
'
4
@
5 #
!
@
L
Q '
Q
!
M
,
"
4
4 7
7
4 7
A
5
V
7
7
!
'
7
-C
!
F
!
5 V
7
"
'
;
!
@ 4
!
'
4
!
!
5
!
<
;
"
?
'
!
,"
+
4
"
;
"
5
<
25-
"
7
!
; 5
"
'
+
+
7
5
"
7
LB
4
*
+
;
5 5M5
%
?
'
$
A
'
5 * '
!
;
'
4
;
5
'
7
:+
<
$
!
4
7
;
5
?
7
4
4
'
5
?
!
;
+
'
7
4
"
"
'
7
'
," +
5
<
/
!
4
'
@
;
5 #
?
7
'
7
'
5 B
4
; 4
'
7
25-5 B
-.
!$! %
;
!
+
Q
@
4
'
4
!
4
!
5 %
?
!
!
'
4
!
@ 5 *
@
$
4
7
4
4
4
F
2-F
F
?
2/
5 #
!
=
4
7
=
4
4
5 %
4
!
4
"
7
5 %
+
T
U4
4
=
"
J
$ T
U4
? ?
$ T
U
T
U5
," !
!
4
!
4
4
+
;
,"
+
4
+
5
4
;
?
+
!
,
4
;
!
4
, 4
!
5
"
5
*
L
B
5 5M LW
&
5 5M
L
B
5 5M LW
&
5 5M L
5 5M L9 E E 4 % E
B
5 5M L6
6
5 5M !
5
," !
;
"
!
+
5
:+
<
+
? ?"
!
+
!
5 %
?
12 Entende-se por pentagramas como combinações de cinco caracteres por palavra. No caso da
palavra classificar os pentagramas seriam: class; lassi; assif; ssifi; sific; ifica; e ficar.
13 Multi-palavra corresponde a combinações de palavras. Por exemplo: câmara municipal; câmara
-1
!
8 %% 8
7
'
;
7
7
5
!
"
7
!
; 5
"
!
!
!
5 B
!
4
!
A
5
7
!
"
!
"
7
;
'
4
"
'
"
4
4
@
5
!
4
5 %
!
!
4
4 7
!
4
! "
!
@ 5
!
!
L
M4 9?
L%
M
5
#
!
LB
4
*
+
;
5 5M
L
5 5M4 9?
LB
4
*
+
;
5 5M
L
5 5M
LB
4
*
+
;
5 5M
L
B
5 5M
<
!
+ %
L6
6
5 5M5
+ %
!
!
+
7
,
5
* '
4
4
!
!
4
!
5
'
<
+<
'
<
A
'
5
20
LR E
5 5M4
, 4
7
!
2=4
7
'
5
4
'
<
!
@
J
5
14
? 7 ! , 5
15
+ ? ' ! 7 7
25-5 B
/)
+
252
?
;
$
!" " #
$!"% % # # &# # ' ! " " "!! ! (
$!"% % # # &# # ' ! " " "!! ! "# #" )*+,-. # ! /" 6 &# #" ! " (
L252
<
-5-5>5
"
+
+
2525
5
V
7
7
4
!
5 B
!X
4
!
7
<
?
!
2C
F
!
!
"
!
5 *
"
7
'
+
5
%
4
'
"
$
25 *
'
!
4 7
"
+
!
4 7
'
F
-5 *
'
4
4
5
16
5 17
/2
+
$
B
+
L*
4
M
G5
* ! 7
"
$
25-5 2$ +
2
#
525-524
G4
4
'
*
Q
Q
4
?
@
5 %
?
4
!
5
B
7
;
@ $
-25-5 B
/-#
?
7
; '4
4
<
*
," 7
4
4
'
;
'
4
'
7
5 #
;
Y!
Z A
*
<
5
7
4
;
,
'
L
;
M4
4
4
@ ?
+
;
5
%
!
!
7
5 25-5-5 ;
'
<
/0
!&! '
(
;
'
L/[
A
'
M
'
'
," +
L
M5
?
,"
4
'
7
5
?
!
7
7
7
!
@
5
+
!
+
'
L
4
!
# !
;
M5 I
! 7
7
!
;
0
+
7
'
7
;
<
7
-5-5 8
/>
$
)
<
"
5
$! !
S
4
4
!
4
"
;
;
$
5 %
?
"
5
5 B 7
L ?
M ?
"
7
4
-4/4
5
"
4
4
7
4
5
;
7
!
7
7
/C
;
7
7
!
4
+
$
Câmara Escura
Câmara Municipal
Câmara Alta
Câmara de Filmar
V
7
+
,
"
LB
4
5 5 5M5
5
?
2.?
"
5
?
;
!
"
5
<
#
+
<
4
;
4
+
<
7
;
5
5
?%
K
?
7
?
214
4
?
'
,
7
, 7
!
5
+
<
!
!
"
4
+
<
L21M4
+
<
<
L-)M
L*
4
B
5 5M4
+
<
5 %
+
4
+ $
T*
S
;
!
5U
B
7
-?
$
*
S
F
S
F
F
; F
;
F
F
F
F
F
F
! F
!
5
18 Do termo N-grams da língua inglesa.
19 N-gramas corresponde a uma sequência de N letras ou N palavras. Para a representação computacional
-525 8
/.
B
?
$
S
F
S
F
! F
!
F
!
5
;
;
?
4
4
!
4
?
+
<
;
0)
$!$!
+
!
Q
@
7
!
4
!
@
5
?
S
Q
@
7
!
A
! 7
Q
@
? !
5 %
+
4
4
@ 4
,
@
4 +
7
7
<
4
<
4
! 7
5
4
!
4
7
'
4
!
"
5
7
# !
-)5
L%
?%
4 N
?
8 ;?B
5 5M4 L9
*
5 5M4 L(
5 5M4 LR
5 5M4 L
5 5M4
L
4 N
5 5M
;
L
# !
M
!
5
*
'
7
;
@ 4
!
?
!
4
?
'
"
7
!
# !
4 ," 7
5 * '
4 '
<
4
# !
L
4
@ 4
,
@ 4
5
*
<
<
5
+
'
7
J
4
@ 5
;
;
-2LR E
5 5M
;
--LR E
5 5M4 7
,
!
<
J
4
! 7
!
!
5
-)
V < A 7 4 Y J S Z4 !
+ 4 " ! 5 ! 7 5
-2
4 5
02
L
M
L
M4
, 4
5 #
'
7
'
7
A
!
<
L +5
4
4
4
4
4
MF
;
!
!
:
L
M5
'4
!
!
4
!
,
!
4
!
4
5
+
4
;
;
4
$
L%
?%
4
N
?
8 ;?B
5 5M
7
!
"
-/LR E
5 5M4
L
5 5M LN E 4 B
D
;
R
5 5M L\ 4 N
!
5 5M
!
!
-04
L9
*
5 5M4 LN
4
!
5 5M
%
-
$5
* '
7
!
"
+
;
;
5 *
A
!
"
4 ,
7
!
:
5
%
+
4
+
$
25
T6 ,
5U
-5 T
:
5U
/5 T#
5U
05 T
5U
'
4
:
L
M4 !
5 V
<
7
7
'
!
!
+
7
"
5
4
<
4
7
!
"
=)
2=)
7
LR E
5 5M5
'
4
S
4
'
.)4 ' 7
23
4 5
-0
7 ! ! 4 4 L 7 ! 4
-5-5 8
0-'
!
"
"
;
S
-=5 %
<
!
;
L
7
5 5M
7
"
4
7
!
;
0)
7
4
4
"
4
!
5
#
!
!
?
7
!
4
!
L%
4 #
;
4
?
M4
7
$
F
F
F
"
F
F
5
'
'
7
LN E 4 B
D
;
R
5 5M5 *
!
$
4
4
4
4
"?
,
5
4
<
5 %
+
4
;
B
LB
4 *
*
+
;
5 5M
T
!
U5
P
G '
.
/
7
;
"
'
+
$
25
+
F
-5
+
F
/5
+
<
L
4
4
4
M5
P
G
;
@
+ F
# !
4
!
7
!
"
F
!
<
F
5
LN
4
!
5 5M
?
!
!
5
'
!
7
'
L
7
!
"
4
!
4
-
$M
<
7
, 7
,
<
4
!
'
<
7
4
<
7
7
<
5
0/
,
!
'
'
;
7
4
7
,
<
5
*
'
;
!
L6 D
G
5 5M$
25
;
$
,
L
M '
!
!
?
5
4
'
,
J
5
-5 (
$
'
'
:
7
5
+
'
4 7
7
7
4
, 4
7
:+
"
'
!
5 #
:
"
7
L !
M5
?
7
!
!
5
7
,
4
4
"
->5 *
'
<
7
!
5
'
'
"
'
;
+
5 B !
"
,
,
5 B
!
+
4
+
<
,
,
4
@
!
@
26 Valor absoluto no sentido de não se considerar se é positivo ou negativo. Pretende-se saber o quão
-5-5 8
00
LB
4 *
*
+
;
5 5M5
'
'
<
;
'
LB
4
5 5 5M4
+
5
*
'
S
:+
@ 5
$!$! !
* '
L
$M
J
;
7
5
*
4
7
! 7
7
! 7
5
4
! 7
4
:
,
4
<
5 *
7
4
,
4
; 7
'
<
5
'
4
'
4
;
4
?
S
+
4
S
5
7
!
4
7
4
A
+ ! 7
4
!
!
!
7
"
!
5 *
4
;
!
+
4
:+
5
4
;
,
!
!
LW
&
5 5M5 #
! 7
7
!
5 *
4
+
? ?"
!
!
!
5
7
+
7
!
,
7
4
+
4 0)]
5
! 7
4
0=
$!$!$!
'
8
L
'
$M
'
;
! 7
J
5 *
4 '
<
; 4
, 4
;
!
"
4
!
7
!
8
L
;
M5
4 7
4
S
7
7
5
$!$!&!
L
'
!
$M '
7
'
;
7
!
5
7
<
5 *
4
! 7
4
"
,
5 #
Y +
Z
;
5
;
'
5
4
$
123
4*5
6
7
L-52M
J
4
J
7
5
7
'
'
<
A
!
5
-5-5 8
0>
$!$!+!
L(
$
'
!
$M '
7
J
;
7
L
M
;
7
L
M5
B
<
!
4
; L8 M5
83123 83 9 123
L-5-M
$!$!,!
4
:
;4 '
7
'
<
7
,
4
!
<
4
L
B
5 5M L6
W E D
5 5M5 *
4
!
$
<
;= )
6 >2 7?
;> @ 7 ? @ 2 > @ ? 7 @ 2
L-5/M
*
J
;
7
?
F
N
J
;
7
F
J
;
7
F
J
;
7
4
F
0C
"
;
? 7
7
5 *
! 7
5
'
+
<!
!
7
!
L
:
M
L
B
5 5M5
$!$!-!
)!!
'
<
7
;
S
,
4
,
$
!
?
4
+
?
5
B !X
4
7
!X
4
7
"
5 B !
7
7
!
7
5
?
'
<
!
L
5 5M5
4
,
+
L9 E E 4
% E
B
5 5M$
AB = )
, =C) D
D
, =C) F , =C)E
, =C)E F
L-50M
, =C)
G !"% % # # # ' ! " " "!! ! # #" H' " #" ' ( " ! ( I, =C)E
G !"% % # # # ' ! " " "!! ! # #" H' " #" ' ( " (/" ! ( I?
!
7
4
!
4
7
-5-5 8
0.
$!$!.!
( L
M '
7
LW
&
5 5M5
7
4
+
@
-C
4
L6
6
5 5M$
J )
K , ) "L
;, )
MNOL-5=M
J )C=
K , =
PNQ
K , )C= "L
;, )C=
MNOL-5>M
, =
G !"% % # # # ' ! " " "!! !, )
G !"% % # # # ' " "!! !, )C=
G !"% % # # # ' " "!! ! # #" H' " "!! " ! "B
4
7
"
5 B
'
7
'
<
5
( '
!
5 %
'?
<
$
1R
SJ 7
J 7C8
SJ 8
SJ 8
SC7
J 8
S@ J 7
J 8
S7
L-5CM
*
?
!
7
(
7
!
7
'
5 B !
01
)4
L
B
5 5M5
$!$!/!
'
;
(5
!
L-5CM
(
4
5 *
; ? ?
5 #
+
7
! 7
4
7
7
5
*
,
;
(4
4
,
+
5
4
!
+
(8
( ' 7
(8
+
?
;
!
L
B
5 5M5
$!$!0!
* '
4
4 '
;
5
;
@
4
7
LW
&
5 5M5
'
$
1 = )
"L
T
T
U= V )
U
= T
U)
-5-5 8
=)
B
5 * +
L-5.M
"
;
+
;
+
!
$
1 = ) W "L
> @ 7 > @ ?
> 6
L-51M
*
J
;
7
?
F
N
J
;
7
F
J
;
7
F
J
5
(
+
:+
LW
&
5 5M5
*
?
!
!
5
A
<
$
1 = )
"L T
U=C)
"L T
U=
L-52)M
#
4
T
U=C)
4
7
5
"
4
4
7
! 7
"
LW
&
5 5M5
$!$! 1!
B '
!
'
4 ,"
4 (4
4
6
5 *
B
-.J
4
7
7
!
J
5
28 Do Inglês,
=2
%
"
B '
"
!
014
"
J
<
L
M
5 *
"
7
:+
5 #
B ' 7
"
J
; 5
B
2 -4
4
B '
!
LW
&
5 5M$
8X =
T = N Y C= N Y
;L-522M
$!$!
!
(BB
?
!
'
6
(
L^
4 B
B
4 *
B
D E !
+
5 5M5
(BB
7
A
4
7
5 B
4 (BB '
+
$
RXX = )
ST = )
ST =E )
[
ZT = )
[ T =E )
Z SL-52-M
7
4
=E
?
F
4
)E
?
5
29
-5-5 8
=-$!$! $!
"
2
3
!
!
<
2
'
7
!
4
4
4
"?
"?
4
;
!
@
5
L-52/M
!" " #
$!"% % # # &# # ' ! " " "!! ! (
$!"% % # # &# # ' ! " " "!! ! "# #" )*+,-. # ! /"30 &# #" ! " (
7
-52/
; ?
5 *
'
4
'
!
$
^#" #
K
_ #"
`^
a! #"
` ` ^bc d efddg`
L-520M
_D #"
`F
G _! H'h( # ' ! " (" #" ' ( " i^
K
jj ^ efddgd
j
L-52=M
^ !" " #
30
=/
*
"
;
7
! '
A
5
B
+
@ $
#
^#" #
9
K
Ck D #"
`F
l C
` ^bc d efddg j
`
L-52>M
jD
#"
iF $!"% % # # # ' ! " " "!! ! (" #" ' ( " i # j $!"% % # # # ' ! " " "!! ! "#" " #" ' ( " #^
K #
jj ^ efddgd
j
=0
$!&!
#
4
* !
!
4
!
!
L
;
M
@
!
4
4
?
5
#
'
A !
!
5
4
"
B
;
!
*
4
4
"
'
!
'
@ 5 B
7
4
?
J
5
4
;
7
!
L :
M
'?
!
4
7
==
$!+!
;
4 +
"
'
4 A
7
!
5
<!
4
;
' !
!
5 %
?
7
<
5 *
?
5
!
@ 4
4 :
4 <
4
5
+
4
:
5
-505 *
*
=>
$!+! !
)
5
'
;
7
L
M
+<
;
4
'
?
" 7
5
'
?
" 7
+
7
;
'?
!
J
K
K5
4
'
?
" 7
5
#
'
" 7
?
$
5 #
'
" 7
L
M
;
4
, 4
' 7
!
5 #
'
;
!
5
,
:
4
4
?
!
' 7
:
5
#
'
'
'
5 *7
'
'
4
!
"
"
Q
?
,
L
M5
'
'
," '
,
@ 4
5
#
'
!
'
4
24
24
'
24
5 # 7
'
'
"
+
L
5 5M$
25
2
K *
S
<
'
S
<
7
7
5
-5
2
K *
S
'
S
"+
5
/5
'
?
2
K *
S
'
'
S
=C
$!+!&! 67
?
'
7
J
!
5
B
E
:
:
4
E
J
4
7
,
'
:
:+
?
S
?5
; 7
'
'
"
:
5
?
'
LB
5 5M5
'
@ 4
S
5
4 +
7
;
7
J
L
M4
7
7
'
J
+
5
4
; 7
'
;
S
!
!
4
'
7
!
?
"
@
? !'
5
:
4
7
'
5
$!+!+! 67
B
9?
4
;
:
'
4
5
'
<
'
=.
$!,!
4
(
!
,
5
4
,
'
4
;
7
?
7
5
N
4
!
"
!
:
5
$!,! !
4
'
?
!
<
!
7
;
,
5
*
4
!
<
"
,
4
7
7 N m7 n 7
COopqrstsruuvuCw
5
,
?
<
J
5
S
,
"
4
:
5
!
<
'
'
,
"
$ )
7
2
7
'
LB
E
8
5 5M5
3'
N G
'
!
,"
"
L
&
5 5M4 L8
4 6
5 5M4 L%
5 5M
5
!
5 *
:
:
7
!
!
4 '
;
!
5
#
!
<
4
3'
N G
+
4
=1
!
5 #
7
"
4 7
4 ,"
!
<
5
$!,!$! 8 #
!
"
4
" 7
4 '
4 7
4
5 #
<
7
!
:
!
5
<
!
!
5
"
'
:
5 * !
:
4
<
7
,
L
M
5
#
<
4
L : M4
"
5 *7
A !
L :
M
+
$ '?
<
!
L*
5 5M5
-5=5-5 2$ +
"
5
*
!
'
5 *
7
,
,
'
5 V
7
,
4
-5=5 *
!
>)
"
<
4
,
!
@
,
!
!
4 '
5
$!,!&!
"
"
;
5
A "
7
7
!
5
L* '4
R
5 5M
5$!,!+!
;@
7
!
!
!
'
5
<!
<
4
'
:
4
5
?
"
!
:
4
!
,
L : M
5
,
: 7
4
+
4
,
4
<
5 *
:
S
L
M
:
4
S
7
,
5
!
4
+
4
'
,
!
@ 5
,
;
!
<
!
<
7
; 5
;
4
;
!
+
>2
!
4
<
@
,
4 7
'
:
5 %
,
;
!
5
!
?
@
4
7
+
<
5
<
' +
"
7
?
;
J
A
7
!
5
$!,!,! "3
)
#
,
'
8
"
! Q
L :
M
'
:
,
LB
4
*
+
;
5 5M5
4
4
'
+
4 7
:
L
<
M
5 *
' !
<
5
#
:
)
xxxy z{
Z Sn {
C|CS}
4
'
$
{
~S• 9 K
CTAX
{
~€S
C • 9 K
{
~€C6‚R
SC
ƒ„…† ‡ˆ‰Š‹ƒ„…† Œ•ŽŠ‹
L-52.M
B
$
•
•j?
•:
5
•
•`K
•,5
%#B K
J
5
( K
J
5
‘ ’
?
S
7
S
+
-5=5 *
!
>-*
!
"
!
:
5
!
4
:
!
5
$!,!-!
4
9
!
7
,
+
'
!
7
!
5
<
5
'
'
,$
LR E
5 5M5
$!,!.! "3
# : )
9
#
E? ;
:+
'
;
S
?
'
!
+
5
%
!
!
2
:+
A
5 %
;
7
7
4
4
!
>/
$!,!/! " 5
;
%
#
"7
I
B
/2'
+
!
@
,
5
'
L
M
!
5
,
_ _?
@ 4
7
?
J
@
?
"
!
J
5
-5=5.5 2$ +
5
#
,
"
L
<
M
'
!<
/-4
7
7
:+
!<
F
I
B
!
-5=5.525 B
7
7
!
:
5 LN
E
5 5M5
31
4 5
32
-5=5 *
!
>0
$!,!0!
''<
8 %% 8
?
!
7
;
L
<
-5=5/M5
B
L
B
5 5M
7
!
$ !
444
, 4
7
7
7
S
!
5 %
4
:+
5
8 %% 8
2
454
"
+
,
Q
@
5
'
;
2
'
!
5
8 %% 8
!
!
4
, 4
'
5
!
+
"
!
5
!
+
,
;
!
$
{ N Y*)-“”•= –•Y {
;N Y*)-“”•= n –•Y {
~N Y*)-“”•=
L-521M
*
4
?
!
7
8 %% 8
+
{
,
{
;n {
~7
?
{
5 %
7
7
7
7
;
5
33
Noisy Data neste contexto entende-se como um conjunto de dados que contêm muita informação não-relevante para os objectivos presentes. Este tipo de dados poderá dificultar a captação de informação relevante, e consequentemente a performance do algoritmo.
34
Token em computação é um segmento de texto ou símbolo que pode ser manipulado por um parser,
>=
—+4–•Y– ˜ —+4–•Y– N Y*)-“”•=*
—+4–•Y– ˜ —+– N Y*)-“”•=* “*+=* N Y*)-“”•=*
—+4–•Y– ˜ —+– N Y*)-“”•=* “*+=”. N Y*)-“”•=*
—+4–•Y– ˜ —+– N Y*)-“”•=* ™”4š–.= N Y*)-“”•=*
—+4–•Y– ˜ —+4–•Yh. N Y*)-“”•=* –™*+=* N Y*)-“”•=*
—+4–•Y– ˜ —+– N Y*)-“”•=* =—+* N Y*)-“”•=*
”4.” •*=›—+4–•Y–
5 -5=5152$
,
`
a
8 %% 8
?
!
,
4
," !
!
5
!
-5=5152
?
+
!
-5=5 *
!
>>
$!,! 1!
4
'
=
5
! % #
% !
&
7
5 B
'
'
A
'
4
!
<
5
!
4
:
"
IL M LB
-5-52-M
'
;
$
!
;
5 *
;
4
'4
5
œ• œž > œŸ • œŸ
ϥ
œž
> >
œŸ •
œŸ
-5=52)5 2$
;
?
S
( !" " # #" ' ( " # ! ("
*
4
4
"
5 %
+
4
,
"
!
$
X—“DY
SY
€F
)*¡ Y
SY
€¢)*¡ Y
SY
S9 ¢)*¡ Y
€Y
€-5=5 *
!
>C
7
$
)*¡DY
SY
€F
C8C K £D,
9= Y
S
,
9Y
SF 9 ¤,
9D= Y
€F ,
9D Y
€F¥¦
P N QL-5-2M
B
$
,
9= Y
S, = Y
S9 § =
L-5--M
,D
„ŠF C8CK, = Y
SPNQ
L-5-/M
¨ ! "© ( "
"! # ! ( ( # H'h( ! "
$ #j ª(# !"% % # # # ' ! " " "!! ! (" #" ' ( "
9 #j %
7 ! 5
#j % ' 5
;
?
! 7
L
M
'
! 7
4
!
7
!
S
5
;
?2
24
7
$
5 #
)
7
F
5 #
2 :
"
7
F
5 I
/=F
5 I
7
5
?
;
:+
2
!
5
35