• Nenhum resultado encontrado

Universidade Nova de Lisboa Faculdade de Ciências e Tecnologia Departamento de Informática Classificação de Documentos

N/A
N/A
Protected

Academic year: 2019

Share "Universidade Nova de Lisboa Faculdade de Ciências e Tecnologia Departamento de Informática Classificação de Documentos"

Copied!
231
0
0

Texto

(1)

#

)

!

"

!

%

* +

%

,

-.)/0

!

$ % !

& ' (

%

-))1

(2)
(3)

-3

4

%

, 5

*

4 6

7

5

3

4 &

8

5

*

% 5

(4)

:

(5)

0

*

7

! ;

:

4

7

!

;

5

5

3

9

7

!<

5

*

% !

(

%

,

4

4

(6)

*

(7)

>

?

;

!

"

5

;

'

4

!

"

4

@

$

4

?

4

4

04 =

>

4

5

'

?

A

'

5

!

4

% !

&

7

B

4

?

;

!

4 ,"

5 *

!

$

5

+

7

!

!

;

4

4

!

+

!

!

$ 9?

4

5 B

!

7

"

!

4

4

?

!

5

+

4

7

!

;

?-2=C.4

?

7

'

'

4

7

4 A

5

;

!

@

'

<

4

(8)

8

(9)

.

D E !

!

!

!

5

7

! !

D

4 D

!

!

$ D

F

?D

F

F

!

!

04 =

>

G

G5

*

7

! !

5

G

G % !

&

7

B

G !

!

G

G D

E

D 4 D

G

5

D

5

! !

!

!

D

!!

!

D

$ 9?

4

5

!

D

!

!

!

!

!

D

!!

! !

5

8

?-2=C. D

+

D

!

G

7

7

G

!

5

!!

!

!

D

(10)

*

(11)

H

2)

Dedicatória ... 2

Agradecimentos ... 4

Resumo ... 6

Abstract ... 8

Índice ... 10

Índice de Figuras ... 14

Índice de Tabelas ... 16

Glossário de Termos ... 18

Introdução ... 20

1.1. Motivação ... 24

1.2. Solução apresentada ... 28

1.3. Principais contribuições ... 34

Trabalho relacionado ... 36

2.1. Representação computacional dos documentos ... 36

2.2. Redução da Dimensionalidade do

Corpus

... 40

2.2.1.

Term Frequency

... 44

2.2.2.

Relative Frequency

... 45

2.2.3.

Inverse Document Frequency

... 45

2.2.4.

Term Frequency Inverse Document Frequency

... 46

2.2.5.

Chi-square

... 46

2.2.6.

Odds ratio

... 47

2.2.7.

Information Gain

... 48

2.2.8.

Gain Ratio

... 49

2.2.9.

Mutual Information

... 49

(12)

H

22

2.2.11.

GSS coeficiente

... 51

2.2.12. Terceiro Momento em relação à média ... 52

2.3. Agrupamento vs Classificação ... 54

2.4. Algoritmos de Agrupamento ... 55

2.4.1. Agrupamento hierárquico ... 56

2.4.3. K-

means

... 57

2.4.4. K-

medoids

... 57

2.5. Algoritmos de Classificação ... 58

2.5.1. Classificadores Probabilísticos ... 58

2.5.2. Árvores de decisão ... 59

2.5.3. Regras de decisão ... 60

2.5.4. Redes neuronais ... 60

2.5.5. Método de Rocchio ... 61

2.5.6. Classificadores baseados em exemplos ... 62

2.5.7. Método dos vizinhos mais próximos ... 62

2.5.8. Máquinas de Vectores de Suporte... 63

2.5.9. RIPPER ... 64

2.5.10. Classificador Proposto por Joaquim F. Silva... 66

2.6. Ferramenta WEKA ... 68

2.7. Conclusões obtidas em trabalho realizado por outros autores ... 70

2.8. Medidas para avaliar classificadores ... 74

2.8.1.

Precision

e

Recall

... 74

2.8.2. F-Measure ... 75

2.8.3. Matriz de confusão ... 76

2.8.4. Exactidão ... 77

2.8.5. Estatística Kappa ... 78

2.8.6. Relative Operating Characteristic (ROC) ... 80

2.8.7.

Micro-Averaging

... 82

Resultados ... 86

3.1 Documentos de Treino e Teste ... 86

3.2. Resultados Experimentais ... 92

(13)

H

2-3.4. Resultados obtidos com a colecção R1... 104

3.4.1. Resultados com o classificador SVM ... 104

3.4.2. Resultados obtidos com o classificador KNN... 106

3.5. Resultados obtidos com a colecção R2, R3 e R4 ... 108

3.6. Resultados obtidos com o classificador RIPPER ... 112

3.7. Resultados com SVM, K-NN e RIPPER ... 114

3.8. Desempenho por Classe ... 118

3.9. Análise dos resultados obtidos em relação a outros autores ... 122

Conclusão ... 126

Trabalho Futuro ... 130

Apêndice ... 132

Apêndice A ... 134

SVM: Resultados por classe com a colecção R11 ... 134

A.1 Performance obtida com o classificador SVM utilizando a técnica do Terceiro Momento ... 136

A.2 Performance obtida com o classificador SVM utilizando a técnica

Chi-Square

... 142

A.3 Performance obtida com o classificador SVM utilizando a técnica

Information Gain

... 148

Apêndice B ... 154

K-NN: Resultados por classe com colecção R11 ... 154

B.1 Performance obtida com o classificador K-NN utilizando a técnica do Terceiro Momento ... 156

B.2 Performance obtida com o classificador K-NN utilizando a técnica

Chi-Square

... 162

B.3 Performance obtida com o classificador K-NN utilizando a técnica

Information Gain

... 168

Apêndice C ... 174

RIPPER: Resultados por classe com a colecção R11 ... 174

Apêndice D... 180

SVM: Resultados por classe com a colecção R12 ... 180

D.1 Performance obtida utilizando a técnica Terceiro Momento ... 182

D.2 Performance obtida utilizando a técnica

Chi Square

... 186

D.3 Performance utilizando a técnica

Information

Gain

... 190

Apêndice E ... 194

K-NN: Resultados por classe com a colecção R12 ... 194

E.1 Performance obtida utilizando a técnica Terceiro Momento ... 196

(14)

H

2/

E.3 Performance obtida utilizando a técnica

Information

Gain

... 204

Apêndice F ... 208

RIPPER: Resultados por classe para a colecção R12 ... 208

Apêndice G ... 214

SVM: Resultados por classe com a colecção R4 ... 214

Apêndice H ... 220

K-NN: Resultados por classe com a colecção R4 ... 220

(15)

20

25-5 2$ +

2 5555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555 /2

25-5 -$ +

- 5555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555 /2

-505 2$ *

55555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555 ==

-5.5>5 2$ +

8# 5555555555555555555555555555555555555555555555555555555555555555555555555555555 .2

/50525 2$ %

!

BI

@

!

'

822 555555555555555555 2)0

/50525 -$ %

!

BI

@

!

'

82- 555555555555555555 2)0

/5=5 2$ %

!

BI

@

8-4 8/

80

'

/

555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555 2).

/5=5 -$ %

!

9?

@

8-4 8/

80

'

/

555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555 2).

/5=5 /$ %

!

BI

9

4

804

'

/

>5)))

555555555555555555555555555555555555555555555 22)

/5>5 2$ %

!

8 %% 8

@

8225555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555

22-/5>5 -$ %

!

8 %% 8

@

(16)

22-H

(17)

2>

-5.5/5 2$

;

!

5555555555555555555555555555555555555555555555555555555555555555555555 C>

-5.5=5 2$ I

9

<

9

5555555555555555555555555555555555555555555555555555 .)

-5.5C5 2$

!

"

A

5555555555555555555555555555555555555555555555555555 ./

/525 2$ !

J

822 5555555555555555555555 ..

/5-5 2$ +

J

55555555555555555555555555555555555555555555555 1/

/5-5 -$

J

!

8225555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555 10

/5/5 2$ %

4

6

(

;

%

5555555555555 1.

/5/5 -$ %

4

6

(

;

?

555 11

/5/5 /$ %

4

6

(

;

0

555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555 11

/5/5 0$ %

4

6

(

;

=

5555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555 2))

/5/5 =$ %

4

6

(

;

>

5555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555 2))

/5/5 >$ %

4

6

(

;

04 =4

>

5555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555 2)2

/5/5 C$ %

4

6

(

;

%

55555 2)2

/5C5 2$ +

<

9

!

,

(18)

H

2C

/5C5 -$ +

<

9

!

,

8

?-2=C.

82-55555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555555522=

/5C5 /$

+

<

9

!

BI

'

/

@

8-4 8/

80555555555555555555555555555555555555555555555555555555555555555522>

/5C5 0$

+

<

9

!

9?

'

/

@

8-4 8/

80555555555555555555555555555555555555555555555555555555555555555522C

/5.5 2$ % !

%

555555555555522.

(19)

2.

/

*8

*B

! !

!

6

!

" # $

!

%

%

(8

(

9?

%

&

$

*

'

(

8

'

%

'

;

!

8#

'

)

BI

I% I

%

(20)

(

"

21

822 B

,

-2=C. K 12

82- B

,

-2=C. K 2)

8- B

,

-2=C. K

8/ B

,

-2=C. K

?

(21)

-)

!

<?

4

4

'?

!

5

!

"

"

J

4

!

;

4

7

5

!

,

'

;

!

7

5

#

"

4

J

"

7

!

4

"

4

2

7

4

;

5

L

!

" # $M4

-

L

!

N

M4

L

!

M5

A

4

4

'

;

<

5 #

?

LI

5 5M5

%

A

+

/

J

;

5

'

<

5

1 Documentos neste contexto poderão ser: livros, cartas, revistas, artigos, entre outros. 2 LCC também conhecido por

Library of Congress Classification.

3 Neste contexto “extracção” significa organizar o conteúdo do (s) documento (s) pelas dimensões que o

(22)

-2

9O

4

21.C4

E 4

21-24

7

;

+

@

0

!

!

! 7

4

LB

5 5M5

,

;

4

"

4

<

5

+

7

;

5

4

;

!

<

4

4

$

+

:

'

5

P

!

,

?

,

!

A

!

5

%

4

"

"

J

5 B:

!

"

Q

5

,

;

!

'

!

5

+<

"7

"

J

5

!

"7

"

L M

L M

!

5

#

"

4

!

5

4

'

!

"7

4

, 4

!

'

;

=

5

%

?

!

*

"

B

5 #

!

!

"

4

;

5 *

!

'

7

!

4

7

4

'

;

!

5 %

4

!

B

4

4Käding - Extracção de cerca de 100 milhões de palavras da língua alemã (Käding s.d.).

Thorndike - Extracção de cerca de 625,000 palavras em literatura para crianças; 3,000 palavras da Bíblia, e livros de clássicos Ingleses; 300,000 palavras de livros da escola primária; 50,000 palavras de livros sobre: cozinha, costura, agricultura, entre outros; 90,000 palavras de jornais diários; e 500,000 palavras de cartas (Internet Archive s.d.).

5 Automatizada no sentido de ter a capacidade de iniciar um processo, desenvolver e finalizar

(23)

-->

4

+

5 *

'

4

, 4

<

'

5 *

7

7

4

?

4

5

!

;

C

5

+

,

7

;

!

4

*

F

4

7

!

5

@

+

<

5 %

"

4

?

4

4

5

'

"

! 7

4

4

4

5

!

+

!

7

'?

5

!

;

J

F

7

;

L

4

?

?

M5

4

?

4

4

;

?

!

:

F !

4

"

"

;

7

5

*

7

4

4

!

5

?

7

!

7

!

5

<

2525

-5-

" +

!

5

*

'

"

!

5

+

!

4

8 %% 8 L

B

5 5M4 7

;

<

1

6

Do termo inglês, clustering.

7 Do Inglês,

feature.

8 C

orpus de treino trata-se deum conjunto de documentos utilizados para treinar o classificador. 9 Representação íntegral - todos os termos são utilizados por o classificador, ou seja, não existe uma

(24)

-/

5

4

!

;

4

!

!

4

9

LR E

5 5M4

?

+ 7 <

5

*

;

!

? ?

;

'

4

5

'

"?

!

S

L M

L M

!

5

? ?

+

:

<

2)

5

'

,

!

5

;

!

!

!

'

5 #

,

$

25 #

7

'

4

!

4

L M '

L M5

-5 #

5

/5 *

7

!

!

5

%

!

:

; 4

!

"

7

5 *

'

;

"7

4

4

4

? ?"

"7

" T

U A

!

'

4

;

7

!

5

4

4

7

5

(25)

-0

! ! "

#

,

!

"

?

"

5

'

4

4

+

7

!

5

<

7

;

'

!

5 B

"

J

!

!

;

"7

4

4

7

!

A

5

* 7

!

'

5

!

"

7

7

?

<

"

4

+

4

!

"

5 #

!

"

!

+

;

!

7

,

5

*

!

4

+

4

!

5

+

'

"

$ *

N

L

G 5 5MF N

N

LN

N

5 5MF

5 #

!

"

?

A

@ 5

,

!

$

!

?

!

5

*

4

!

4

!

F

@ F

@ 5

?

"

7

4 4

4 +

4

!

<

4

'

+

5

?

4 4 !

! "?

5

%

!

'

"

!

!

5 *

'

+

4

7

!

5

'

(26)

-=

!

S

M5 *

7

,

;

!

<

7

"

4

+

<

4

7

! 7

LB

4

5 5 5M5 %

?

;

4

;

?

7

5 B:

"

<

!

$

Q

;

"

!

5

<

;

4

'

<

;

!

<

4

+

4

!

8 %% 8 L

B

5 5M5

4

?

7

4

4

4

!

5

<

'

5

#

;

!

4

L

7

;

M4

4

4

4

<;

7

!

5

A '

5 *

4

4

4

'

'

&

22

LN

G 5 5M5

#

7

L M

L M

!

! 7

L M

L M5

+

<

!

5 *

'

!

7

7

+

<

!

5

*

'4

4

!

5

4

; 4

7

! 7

5

4

4

5 V

;

J

4

4

4

7

J

"

5

11

(27)

2525

->

7

!

"

7

'

+

L

!

M5 *

! 7

4

A

4 '

7

!

5

+

$

25 T

'

7

4

4

5 LR E

5 5MU

-5 T6"

7

J

'

'?

:

5 LR E

5 5MU

#

T U4

T7

U4

,

T U4

!

T'U

T

U

?

!

5

'

<

J

5 B "

7

!

,

!

5

%

? 4

4

7

;

$

25

!

7

7

5

-5

!

,

S

/5

4

!

5

05

!

L

M5

=5 *

!

5

?

!

4

'

4

@

5 #

!

@

L

Q '

Q

!

M

,

"

4

4 7

7

4 7

A

5

V

7

7

!

'

7

(28)

-C

!

F

!

5 V

7

"

'

;

!

@ 4

!

'

4

!

!

5

!

<

;

"

?

'

!

,"

+

4

"

;

"

5

<

25-

"

7

!

; 5

"

'

+

+

7

5

"

7

LB

4

*

+

;

5 5M5

%

?

'

$

A

'

5 * '

!

;

'

4

;

5

'

7

:+

<

$

!

4

7

;

5

?

7

4

4

'

5

?

!

;

+

'

7

4

"

"

'

7

'

," +

5

<

/

!

4

'

@

;

5 #

?

7

'

7

'

5 B

4

; 4

'

7

(29)

25-5 B

-.

!$! %

;

!

+

Q

@

4

'

4

!

4

!

5 %

?

!

!

'

4

!

@ 5 *

@

$

4

7

4

4

4

F

2-

F

F

?

2/

5 #

!

=

4

7

=

4

4

5 %

4

!

4

"

7

5 %

+

T

U4

4

=

"

J

$ T

U4

? ?

$ T

U

T

U5

," !

!

4

!

4

4

+

;

,"

+

4

+

5

4

;

?

+

!

,

4

;

!

4

, 4

!

5

"

5

*

L

B

5 5M LW

&

5 5M

L

B

5 5M LW

&

5 5M L

5 5M L9 E E 4 % E

B

5 5M L6

6

5 5M !

5

," !

;

"

!

+

5

:+

<

+

? ?"

!

+

!

5 %

?

12 Entende-se por pentagramas como combinações de cinco caracteres por palavra. No caso da

palavra classificar os pentagramas seriam: class; lassi; assif; ssifi; sific; ifica; e ficar.

13 Multi-palavra corresponde a combinações de palavras. Por exemplo: câmara municipal; câmara

(30)

-1

!

8 %% 8

7

'

;

7

7

5

!

"

7

!

; 5

"

!

!

!

5 B

!

4

!

A

5

7

!

"

!

"

7

;

'

4

"

'

"

4

4

@

5

!

4

5 %

!

!

4

4 7

!

4

! "

!

@ 5

!

!

L

M4 9?

L%

M

5

#

!

LB

4

*

+

;

5 5M

L

5 5M4 9?

LB

4

*

+

;

5 5M

L

5 5M

LB

4

*

+

;

5 5M

L

B

5 5M

<

!

+ %

L6

6

5 5M5

+ %

!

!

+

7

,

5

* '

4

4

!

!

4

!

5

'

<

+<

'

<

A

'

5

20

LR E

5 5M4

, 4

7

!

2=

4

7

'

5

4

'

<

!

@

J

5

14

? 7 ! , 5

15

+ ? ' ! 7 7

(31)

25-5 B

/)

+

252

?

;

$

!" " #

$!"% % # # &# # ' ! " " "!! ! (

$!"% % # # &# # ' ! " " "!! ! "# #" )*+,-. # ! /" 6 &# #" ! " (

L252

<

-5-5>5

"

+

+

2525

5

V

7

7

4

!

5 B

!X

4

!

7

<

?

!

2C

F

!

!

"

!

5 *

"

7

'

+

5

%

4

'

"

$

25 *

'

!

4 7

"

+

!

4 7

'

F

-5 *

'

4

4

5

16

5 17

(32)

/2

+

$

B

+

L*

4

M

G5

* ! 7

"

$

25-5 2$ +

2

#

525-524

G4

4

'

*

Q

Q

4

?

@

5 %

?

4

!

5

B

7

;

@ $

(33)

-25-5 B

/-#

?

7

; '4

4

<

*

," 7

4

4

'

;

'

4

'

7

5 #

;

Y!

Z A

*

<

5

7

4

;

,

'

L

;

M4

4

4

@ ?

+

;

5

%

!

!

7

5 25-5-5 ;

'

<

(34)
(35)

/0

!&! '

(

;

'

L/[

A

'

M

'

'

," +

L

M5

?

,"

4

'

7

5

?

!

7

7

7

!

@

5

+

!

+

'

L

4

!

# !

;

M5 I

! 7

7

!

;

0

+

7

'

7

;

<

7

(36)
(37)

-5-5 8

/>

$

)

<

"

5

$! !

S

4

4

!

4

"

;

;

$

5 %

?

"

5

5 B 7

L ?

M ?

"

7

4

-4/4

5

"

4

4

7

4

5

;

7

!

7

7

(38)

/C

;

7

7

!

4

+

$

Câmara Escura

Câmara Municipal

Câmara Alta

Câmara de Filmar

V

7

+

,

"

LB

4

5 5 5M5

5

?

2.

?

"

5

?

;

!

"

5

<

#

+

<

4

;

4

+

<

7

;

5

5

?%

K

?

7

?

21

4

4

?

'

,

7

, 7

!

5

+

<

!

!

"

4

+

<

L21M4

+

<

<

L-)M

L*

4

B

5 5M4

+

<

5 %

+

4

+ $

T*

S

;

!

5U

B

7

-?

$

*

S

F

S

F

F

; F

;

F

F

F

F

F

F

! F

!

5

18 Do termo N-grams da língua inglesa.

19 N-gramas corresponde a uma sequência de N letras ou N palavras. Para a representação computacional

(39)

-525 8

/.

B

?

$

S

F

S

F

! F

!

F

!

5

;

;

?

4

4

!

4

?

+

<

;

(40)
(41)

0)

$!$!

+

!

Q

@

7

!

4

!

@

5

?

S

Q

@

7

!

A

! 7

Q

@

? !

5 %

+

4

4

@ 4

,

@

4 +

7

7

<

4

<

4

! 7

5

4

!

4

7

'

4

!

"

5

7

# !

-)

5

L%

?%

4 N

?

8 ;?B

5 5M4 L9

*

5 5M4 L(

5 5M4 LR

5 5M4 L

5 5M4

L

4 N

5 5M

;

L

# !

M

!

5

*

'

7

;

@ 4

!

?

!

4

?

'

"

7

!

# !

4 ," 7

5 * '

4 '

<

4

# !

L

4

@ 4

,

@ 4

5

*

<

<

5

+

'

7

J

4

@ 5

;

;

-2

LR E

5 5M

;

--

LR E

5 5M4 7

,

!

<

J

4

! 7

!

!

5

-)

V < A 7 4 Y J S Z4 !

+ 4 " ! 5 ! 7 5

-2

4 5

(42)

02

L

M

L

M4

, 4

5 #

'

7

'

7

A

!

<

L +5

4

4

4

4

4

MF

;

!

!

:

L

M5

'4

!

!

4

!

,

!

4

!

4

5

+

4

;

;

4

$

L%

?%

4

N

?

8 ;?B

5 5M

7

!

"

-/

LR E

5 5M4

L

5 5M LN E 4 B

D

;

R

5 5M L\ 4 N

!

5 5M

!

!

-0

4

L9

*

5 5M4 LN

4

!

5 5M

%

-

$5

* '

7

!

"

+

;

;

5 *

A

!

"

4 ,

7

!

:

5

%

+

4

+

$

25

T6 ,

5U

-5 T

:

5U

/5 T#

5U

05 T

5U

'

4

:

L

M4 !

5 V

<

7

7

'

!

!

+

7

"

5

4

<

4

7

!

"

=)

2=)

7

LR E

5 5M5

'

4

S

4

'

.)4 ' 7

23

4 5

-0

7 ! ! 4 4 L 7 ! 4

(43)

-5-5 8

0-'

!

"

"

;

S

-=

5 %

<

!

;

L

7

5 5M

7

"

4

7

!

;

0)

7

4

4

"

4

!

5

#

!

!

?

7

!

4

!

L%

4 #

;

4

?

M4

7

$

F

F

F

"

F

F

5

'

'

7

LN E 4 B

D

;

R

5 5M5 *

!

$

4

4

4

4

"?

,

5

4

<

5 %

+

4

;

B

LB

4 *

*

+

;

5 5M

T

!

U5

P

G '

.

/

7

;

"

'

+

$

25

+

F

-5

+

F

/5

+

<

L

4

4

4

M5

P

G

;

@

+ F

# !

4

!

7

!

"

F

!

<

F

5

LN

4

!

5 5M

?

!

!

5

'

!

7

'

L

7

!

"

4

!

4

-

$M

<

7

, 7

,

<

4

!

'

<

7

4

<

7

7

<

5

(44)

0/

,

!

'

'

;

7

4

7

,

<

5

*

'

;

!

L6 D

G

5 5M$

25

;

$

,

L

M '

!

!

?

5

4

'

,

J

5

-5 (

$

'

'

:

7

5

+

'

4 7

7

7

4

, 4

7

:+

"

'

!

5 #

:

"

7

L !

M5

?

7

!

!

5

7

,

4

4

"

->

5 *

'

<

7

!

5

'

'

"

'

;

+

5 B !

"

,

,

5 B

!

+

4

+

<

,

,

4

@

!

@

26 Valor absoluto no sentido de não se considerar se é positivo ou negativo. Pretende-se saber o quão

(45)

-5-5 8

00

LB

4 *

*

+

;

5 5M5

'

'

<

;

'

LB

4

5 5 5M4

+

5

*

'

S

:+

@ 5

$!$! !

* '

L

$M

J

;

7

5

*

4

7

! 7

7

! 7

5

4

! 7

4

:

,

4

<

5 *

7

4

,

4

; 7

'

<

5

'

4

'

4

;

4

?

S

+

4

S

5

7

!

4

7

4

A

+ ! 7

4

!

!

!

7

"

!

5 *

4

;

!

+

4

:+

5

4

;

,

!

!

LW

&

5 5M5 #

! 7

7

!

5 *

4

+

? ?"

!

!

!

5

7

+

7

!

,

7

4

+

4 0)]

5

! 7

4

(46)

0=

$!$!$!

'

8

L

'

$M

'

;

! 7

J

5 *

4 '

<

; 4

, 4

;

!

"

4

!

7

!

8

L

;

M5

4 7

4

S

7

7

5

$!$!&!

L

'

!

$M '

7

'

;

7

!

5

7

<

5 *

4

! 7

4

"

,

5 #

Y +

Z

;

5

;

'

5

4

$

123

4*5

6

7

L-52M

J

4

J

7

5

7

'

'

<

A

!

5

(47)

-5-5 8

0>

$!$!+!

L(

$

'

!

$M '

7

J

;

7

L

M

;

7

L

M5

B

<

!

4

; L8 M5

83123 83 9 123

L-5-M

$!$!,!

4

:

;

4 '

7

'

<

7

,

4

!

<

4

L

B

5 5M L6

W E D

5 5M5 *

4

!

$

<

;

= )

6 >2 7?

;

> @ 7 ? @ 2 > @ ? 7 @ 2

L-5/M

*

J

;

7

?

F

N

J

;

7

F

J

;

7

F

J

;

7

4

F

(48)

0C

"

;

? 7

7

5 *

! 7

5

'

+

<!

!

7

!

L

:

M

L

B

5 5M5

$!$!-!

)!!

'

<

7

;

S

,

4

,

$

!

?

4

+

?

5

B !X

4

7

!X

4

7

"

5 B !

7

7

!

7

5

?

'

<

!

L

5 5M5

4

,

+

L9 E E 4

% E

B

5 5M$

AB = )

, =C) D

D

, =C) F , =C)E

, =C)E F

L-50M

, =C)

G !"% % # # # ' ! " " "!! ! # #" H' " #" ' ( " ! ( I

, =C)E

G !"% % # # # ' ! " " "!! ! # #" H' " #" ' ( " (/" ! ( I

?

!

7

4

!

4

7

(49)

-5-5 8

0.

$!$!.!

( L

M '

7

LW

&

5 5M5

7

4

+

@

-C

4

L6

6

5 5M$

J )

K , ) "L

;

, )

MNO

L-5=M

J )C=

K , =

PNQ

K , )C= "L

;

, )C=

MNO

L-5>M

, =

G !"% % # # # ' ! " " "!! !

, )

G !"% % # # # ' " "!! !

, )C=

G !"% % # # # ' " "!! ! # #" H' " "!! " ! "

B

4

7

"

5 B

'

7

'

<

5

( '

!

5 %

'?

<

$

1R

S

J 7

J 7C8

S

J 8

S

J 8

S

C7

J 8

S

@ J 7

J 8

S

7

L-5CM

*

?

!

7

(

7

!

7

'

5 B !

(50)

01

)4

L

B

5 5M5

$!$!/!

'

;

(5

!

L-5CM

(

4

5 *

; ? ?

5 #

+

7

! 7

4

7

7

5

*

,

;

(4

4

,

+

5

4

!

+

(8

( ' 7

(8

+

?

;

!

L

B

5 5M5

$!$!0!

* '

4

4 '

;

5

;

@

4

7

LW

&

5 5M5

'

$

1 = )

"L

T

T

U

= V )

U

= T

U

)

(51)

-5-5 8

=)

B

5 * +

L-5.M

"

;

+

;

+

!

$

1 = ) W "L

> @ 7 > @ ?

> 6

L-51M

*

J

;

7

?

F

N

J

;

7

F

J

;

7

F

J

5

(

+

:+

LW

&

5 5M5

*

?

!

!

5

A

<

$

1 = )

"L T

U

=C)

"L T

U

=

L-52)M

#

4

T

U

=C)

4

7

5

"

4

4

7

! 7

"

LW

&

5 5M5

$!$! 1!

B '

!

'

4 ,"

4 (4

4

6

5 *

B

-.

J

4

7

7

!

J

5

28 Do Inglês,

(52)

=2

%

"

B '

"

!

01

4

"

J

<

L

M

5 *

"

7

:+

5 #

B ' 7

"

J

; 5

B

2 -

4

4

B '

!

LW

&

5 5M$

8X =

T = N Y C= N Y

;

L-522M

$!$!

!

(BB

?

!

'

6

(

L^

4 B

B

4 *

B

D E !

+

5 5M5

(BB

7

A

4

7

5 B

4 (BB '

+

$

RXX = )

S

T = )

S

T =E )

[

Z

T = )

[ T =E )

Z S

L-52-M

7

4

=E

?

F

4

)E

?

5

29

(53)

-5-5 8

=-$!$! $!

"

2

3

!

!

<

2

'

7

!

4

4

4

"?

"?

4

;

!

@

5

L-52/M

!" " #

$!"% % # # &# # ' ! " " "!! ! (

$!"% % # # &# # ' ! " " "!! ! "# #" )*+,-. # ! /"30 &# #" ! " (

7

-52/

; ?

5 *

'

4

'

!

$

^#" #

K

_ #"

`

^

a! #"

` ` ^bc d efddg

`

L-520M

_D #"

`

F

G _! H'h( # ' ! " (" #" ' ( " i

^

K

j

j ^ efddgd

j

L-52=M

^ !" " #

30

(54)

=/

*

"

;

7

! '

A

5

B

+

@ $

#

^#" #

9

K

Ck D #"

`

F

l C

` ^bc d efddg j

`

L-52>M

jD

#"

iF $!"% % # # # ' ! " " "!! ! (" #" ' ( " i # j $!"% % # # # ' ! " " "!! ! "#" " #" ' ( " #

^

K #

j

j ^ efddgd

j

(55)

=0

$!&!

#

4

* !

!

4

!

!

L

;

M

@

!

4

4

?

5

#

'

A !

!

5

4

"

B

;

!

*

4

4

"

'

!

'

@ 5 B

7

4

?

J

5

4

;

7

!

L :

M

'?

!

4

7

(56)

==

$!+!

;

4 +

"

'

4 A

7

!

5

<!

4

;

' !

!

5 %

?

7

<

5 *

?

5

!

@ 4

4 :

4 <

4

5

+

4

:

5

(57)

-505 *

*

=>

$!+! !

)

5

'

;

7

L

M

+<

;

4

'

?

" 7

5

'

?

" 7

+

7

;

'?

!

J

K

K5

4

'

?

" 7

5

#

'

" 7

?

$

5 #

'

" 7

L

M

;

4

, 4

' 7

!

5 #

'

;

!

5

,

:

4

4

?

!

' 7

:

5

#

'

'

'

5 *7

'

'

4

!

"

"

Q

?

,

L

M5

'

'

," '

,

@ 4

5

#

'

!

'

4

24

24

'

24

5 # 7

'

'

"

+

L

5 5M$

25

2

K *

S

<

'

S

<

7

7

5

-5

2

K *

S

'

S

"+

5

/5

'

?

2

K *

S

'

'

S

(58)

=C

$!+!&! 67

?

'

7

J

!

5

B

E

:

:

4

E

J

4

7

,

'

:

:+

?

S

?5

; 7

'

'

"

:

5

?

'

LB

5 5M5

'

@ 4

S

5

4 +

7

;

7

J

L

M4

7

7

'

J

+

5

4

; 7

'

;

S

!

!

4

'

7

!

?

"

@

? !'

5

:

4

7

'

5

$!+!+! 67

B

9?

4

;

:

'

4

5

'

<

'

(59)

=.

$!,!

4

(

!

,

5

4

,

'

4

;

7

?

7

5

N

4

!

"

!

:

5

$!,! !

4

'

?

!

<

!

7

;

,

5

*

4

!

<

"

,

4

7

7 N m7 n 7

COopqrstsruuvuC

w

5

,

?

<

J

5

S

,

"

4

:

5

!

<

'

'

,

"

$ )

7

2

7

'

LB

E

8

5 5M5

3'

N G

'

!

,"

"

L

&

5 5M4 L8

4 6

5 5M4 L%

5 5M

5

!

5 *

:

:

7

!

!

4 '

;

!

5

#

!

<

4

3'

N G

+

4

(60)

=1

!

5 #

7

"

4 7

4 ,"

!

<

5

$!,!$! 8 #

!

"

4

" 7

4 '

4 7

4

5 #

<

7

!

:

!

5

<

!

!

5

"

'

:

5 * !

:

4

<

7

,

L

M

5

#

<

4

L : M4

"

5 *7

A !

L :

M

+

$ '?

<

!

L*

5 5M5

-5=5-5 2$ +

"

5

*

!

'

5 *

7

,

,

'

5 V

7

,

4

(61)

-5=5 *

!

>)

"

<

4

,

!

@

,

!

!

4 '

5

$!,!&!

"

"

;

5

A "

7

7

!

5

L* '4

R

5 5M

5

$!,!+!

;@

7

!

!

!

'

5

<!

<

4

'

:

4

5

?

"

!

:

4

!

,

L : M

5

,

: 7

4

+

4

,

4

<

5 *

:

S

L

M

:

4

S

7

,

5

!

4

+

4

'

,

!

@ 5

,

;

!

<

!

<

7

; 5

;

4

;

!

+

(62)

>2

!

4

<

@

,

4 7

'

:

5 %

,

;

!

5

!

?

@

4

7

+

<

5

<

' +

"

7

?

;

J

A

7

!

5

$!,!,! "3

)

#

,

'

8

"

! Q

L :

M

'

:

,

LB

4

*

+

;

5 5M5

4

4

'

+

4 7

:

L

<

M

5 *

' !

<

5

#

:

)

xxxy z{

Z S

n {

C|CS

}

4

'

$

{

~S

• 9 K

CTAX

{

~€

S

C • 9 K

{

~€

C6‚R

S

C

ƒ„…† ‡ˆ‰Š‹

ƒ„…† Œ•ŽŠ‹

L-52.M

B

$

•j

?

:

5

•`

K

,5

%#B K

J

5

( K

J

5

‘ ’

?

S

7

S

+

(63)

-5=5 *

!

>-*

!

"

!

:

5

!

4

:

!

5

$!,!-!

4

9

!

7

,

+

'

!

7

!

5

<

5

'

'

,$

LR E

5 5M5

$!,!.! "3

# : )

9

#

E? ;

:+

'

;

S

?

'

!

+

5

%

!

!

2

:+

A

5 %

;

7

7

4

4

!

(64)

>/

$!,!/! " 5

;

%

#

"7

I

B

/2

'

+

!

@

,

5

'

L

M

!

5

,

_ _?

@ 4

7

?

J

@

?

"

!

J

5

-5=5.5 2$ +

5

#

,

"

L

<

M

'

!<

/-

4

7

7

:+

!<

F

I

B

!

-5=5.525 B

7

7

!

:

5 LN

E

5 5M5

31

4 5

32

(65)

-5=5 *

!

>0

$!,!0!

''<

8 %% 8

?

!

7

;

L

<

-5=5/M5

B

L

B

5 5M

7

!

$ !

44

4

, 4

7

7

7

S

!

5 %

4

:+

5

8 %% 8

2

45

4

"

+

,

Q

@

5

'

;

2

'

!

5

8 %% 8

!

!

4

, 4

'

5

!

+

"

!

5

!

+

,

;

!

$

{ N Y*)-“”•= –•Y {

;

N Y*)-“”•= n –•Y {

~

N Y*)-“”•=

L-521M

*

4

?

!

7

8 %% 8

+

{

,

{

;

n {

~

7

?

{

5 %

7

7

7

7

;

5

33

Noisy Data neste contexto entende-se como um conjunto de dados que contêm muita informação não-relevante para os objectivos presentes. Este tipo de dados poderá dificultar a captação de informação relevante, e consequentemente a performance do algoritmo.

34

Token em computação é um segmento de texto ou símbolo que pode ser manipulado por um parser,

(66)

>=

—+4–•Y– ˜ —+4–•Y– N Y*)-“”•=*

—+4–•Y– ˜ —+– N Y*)-“”•=* “*+=* N Y*)-“”•=*

—+4–•Y– ˜ —+– N Y*)-“”•=* “*+=”. N Y*)-“”•=*

—+4–•Y– ˜ —+– N Y*)-“”•=* ™”4š–.= N Y*)-“”•=*

—+4–•Y– ˜ —+4–•Yh. N Y*)-“”•=* –™*+=* N Y*)-“”•=*

—+4–•Y– ˜ —+– N Y*)-“”•=* =—+* N Y*)-“”•=*

”4.” •*=›—+4–•Y–

5 -5=5152$

,

`

a

8 %% 8

?

!

,

4

," !

!

5

!

-5=5152

?

+

!

(67)

-5=5 *

!

>>

$!,! 1!

4

'

=

5

! % #

% !

&

7

5 B

'

'

A

'

4

!

<

5

!

4

:

"

IL M LB

-5-52-M

'

;

$

!

;

5 *

;

4

'4

5

œ• œž > œŸ • œŸ

ϥ

œž

> >

œŸ •

œŸ

-5=52)5 2$

;

?

S

( !" " # #" ' ( " # ! ("

*

4

4

"

5 %

+

4

,

"

!

$

X—“DY

S

Y

F

)*¡ Y

S

Y

¢)*¡ Y

S

Y

S

9 ¢)*¡ Y

Y

(68)

-5=5 *

!

>C

7

$

)*¡DY

S

Y

F

C8C K £D,

9

= Y

S

,

9

Y

S

F 9 ¤,

9

D= Y

F ,

9

D Y

F¥¦

P N Q

L-5-2M

B

$

,

9

= Y

S

, = Y

S

9 § =

L-5--M

,D

„Š

F C8CK, = Y

S

PNQ

L-5-/M

¨ ! "© ( "

"! # ! ( ( # H'h( ! "

$ #j ª(# !"% % # # # ' ! " " "!! ! (" #" ' ( "

9 #j %

7 ! 5

#j % ' 5

;

?

! 7

L

M

'

! 7

4

!

7

!

S

5

;

?2

24

7

$

5 #

)

7

F

5 #

2 :

"

7

F

5 I

/=

F

5 I

7

5

?

;

:+

2

!

5

35

Referências

Documentos relacionados

Já o par de línguas Inglês-Francês no corpus do Vaticano para uma semelhança de 60% entre palavras, uma tolerância de 80% de semelhança entre os vectores de frequências e

Constraints are used to model restrictions over the allowed set of relationships in which an instance can participate and to identify restrictions on setting values of

Os raios de pesquisa foram seleccionados com base nas pesquisas efectuadas, onde se verificou experimentalmente, para a base de dados, sobre os espaços métricos da

O Tritom foi integrado com o OpenDX, que como referido anteriormente permite a visualização de dados de forma tridimensional e ainda uma fácil interacção para um não especialista

Ao longo do capítulo três (Extensão ao SOLAP+) são apresentadas as propostas para estender o modelo genérico SOLAP, que incluem dar suporte a casos com dois atributos

as respectivas validações das traduções e inserção no léxico dos pares novos. Numa segunda fase ocorre a extracção de novos termos por pivotagem incluindo as

200 Figura 8.6 - Valores de Precisão, Cobertura e F-Measure para Least Bubbled Median Rvar 201 Figura 8.7 - Precisão total para todos os documentos, para a medida Phi-Square ....

-Seleccionar a superfície &#34; tal que esta tenha o maior valor de radiosidade não emitida por área. -Somar esse valor à radiosidade não emitida da superfície $. -Colocar o