• Nenhum resultado encontrado

Uso de Aprendizado de Máquinas para

N/A
N/A
Protected

Academic year: 2021

Share "Uso de Aprendizado de Máquinas para"

Copied!
71
0
0

Texto

(1)

Uso de Aprendizado de M´

aquinas para

classifica¸

ao de textos.

Niter´oi - RJ, Brasil

(2)

Isabelly da Silva Almeida

Uso de Aprendizado de M´

aquinas

para classifica¸

ao de textos.

Trabalho de Conclus˜ao de Curso

Monografia apresentada para obten¸c˜ao do grau de Bacharel em

Estat´ıstica pela Universidade Federal Fluminense.

Orientador(a): Prof. Dr. Valentin Sisko

Co-Orientador(a): Prof. Dr. Hugo Henrique Kegler dos Santos

Niter´oi - RJ, Brasil

(3)

Isabelly da Silva Almeida

Uso de Aprendizado de M´

aquinas para

classifica¸

ao de textos.

Monografia de Projeto Final de Gradua¸c˜ao sob o t´ıtulo “Uso

de Aprendizado de M´aquinas para classifica¸c˜ao de textos.”,

de-fendida por Isabelly da Silva Almeida e aprovada em 04 de

dezembro de 2020, na cidade de Niter´oi, no Estado do Rio de

Janeiro, pela banca examinadora constitu´ıda pelos professores:

Prof. Dr. Valentin Sisko Departamento de Estat´ıstica – UFF

Prof. Dr. Hugo Henrique Kegler dos Santos Departamento de Estat´ıstica – UFF

Prof. Dr. Karina Yuriko Yaginuma Departamento de Estat´ıstica – UFF

Prof. Dr. Mois´es Lima de Menezes

Departamento de Estat´ıstica – UFF

(4)

Bibliotecário responsável: Sandra Lopes Coelho - CRB7/3389

A447u Almeida, Isabelly da Silva

Uso de Aprendizado de Máquinas para classificação de textos. / Isabelly da Silva Almeida ; Valentin Sisko, orientador ; Hugo Henrique Kegler dos Santos, coorientador. Niterói, 2020.

69 f. : il.

Trabalho de Conclusão de Curso (Graduação em

Estatística)-Universidade Federal Fluminense, Instituto de Matemática e Estatística, Niterói, 2020.

1. Aprendizado de Máquinas. 2. Classificação de Textos. 3. Análise de Discriminante. 4. Máquinas de Vetor de Suporte. 5. Produção intelectual. I. Sisko, Valentin, orientador. II. Kegler dos Santos, Hugo Henrique,

coorientador. III. Universidade Federal Fluminense. Instituto de Matemática e Estatística. IV. Título.

(5)

-Com o crescimento do acesso a internet, um grande volume de dados textuais

migra-ram do papel impresso para o meio eletrˆonico. E-mails, not´ıcias, livros, artigos cient´ıficos

e outros tipos de texto s˜ao produzidos diariamente. Por vezes surge a necessidade de

cla-sificar essas informa¸c˜oes. A t´ecnica de classifica¸c˜ao de texto pode ser aplicada em v´arias

´

areas da minera¸c˜ao de texto. O uso de Aprendizado de M´aquinas para resolver problemas

desse tipo torna-se uma ferramenta bastante ´util por dispˆor de v´arios algoritmos capazes

de reconhecer padr˜oes e criar regras de associa¸c˜ao de forma autom´atica. Este trabalho

tem como objetivo verificar a eficiˆencia de dois algoritmos de Aprendizado de M´aquinas

Supervisionado: An´alise de Discriminante e M´aquinas de Vetor de Suporte, na resolu¸c˜ao

do problema de classifica¸c˜ao de texto. Para isso, foram usados livros que passaram por

um processo de etiquetagem morfol´ogica. As etiquetas de cada palavra do livro serviram

para criar as vari´aveis usadas nas an´alises. Desta maneira, pretendemos verificar se os

algortimos s˜ao capazes de classificar, a partir de uma base de treinamento com livros de

dois autores distintos, se um novo livro pertence a um determinado autor.

Palavras-chave: Aprendizado de M´aquinas. Classifica¸c˜ao de Texto. An´alise de

Discrimi-nante. M´aquinas de Vetor de Suporte. Etiquetagem Morfol´ogica. TreeTagger. Colonia

(6)

Dedico este trabalho a todos aqueles que nunca desistiram de praticar o bem. O

(7)

`

A fam´ılia e aos amigos pelo incentivo, apoio constantes e pela ajuda mesmo fora do

ambiente acadˆemico.

Ao professor Valentin, pela paciˆencia na orienta¸c˜ao e incentivo, e que tornou poss´ıvel

a conclus˜ao deste trabalho.

Agrade¸co tamb´em a todos os professores deste curso que me acompanharam durante

a gradua¸c˜ao.

Agrade¸co ao Andre por ter me dado todo amor e apoio nesta jornada, fazendo a vida valer cada vez mais a pena.

(8)

Lista de Figuras Lista de Tabelas 1 Introdu¸c˜ao p. 11 1.1 Aprendizado de M´aquinas . . . p. 11 1.1.1 Aprendizado Supervisionado . . . p. 12 1.2 Motiva¸c˜ao . . . p. 13 1.3 Objetivos . . . p. 13 1.4 Organiza¸c˜ao . . . p. 14 2 Materiais e M´etodos p. 15

2.1 An´alise de Discriminante . . . p. 15

2.1.1 Separa¸c˜ao e Classifica¸c˜ao para Duas Popula¸c˜oes . . . p. 16

2.1.2 Classifica¸c˜ao para Duas Popula¸c˜oes Normais Multivariadas . . . p. 19

2.1.2.1 Classifica¸c˜ao para Popula¸c˜oes Normais Σ1 = Σ2 = Σ . p. 19

2.1.2.2 Classifica¸c˜ao para Popula¸c˜oes Normais Σ1 6= Σ2 . . . . p. 20

2.2 M´aquinas de Vetor de Suporte . . . p. 22

2.2.1 Hiperplano ´Otimo para Padr˜oes Linearmente Separ´aveis . . . . p. 22

2.2.2 Erros de Classifica¸c˜ao . . . p. 27

2.3 Etiquetagem Morfol´ogica . . . p. 29

2.4 O Colˆonia Corpus . . . p. 30

(9)

3.1 Resultados a partir da An´alise de Discriminante . . . p. 34

3.2 Resultados a partir do Algoritmo de M´aquinas de Vetor de Suporte . . p. 38

4 Conclus˜oes p. 41

Referˆencias p. 43

Apˆendice 1 -- Distribui¸c˜ao e QQ-Plot dos demais cen´arios poss´ıveis p. 44

Apˆendice 2 -- Regi˜oes de classifica¸c˜ao para os demais cen´arios p. 49

Apˆendice 3 -- Hiperplano de separa¸c˜ao para os demais cen´arios p. 54

Apˆendice 4 -- Tabela 4 para demais cen´arios. p. 63

Apˆendice 5 -- Tabela 5 para demais cen´arios. p. 65

Apˆendice 6 -- Tabela 6 para demais cen´arios. p. 67

(10)

1 Ilustra¸c˜ao das Regi˜oes de classifica¸c˜ao para duas popula¸c˜oes. . . p. 17

2 Erro de classifica¸c˜ao para o caso univariado com variˆancias iguais. . . . p. 20

3 Regra de classifica¸c˜ao para duas popula¸c˜oes normais univariadas com

variˆancias distintas. . . p. 22

4 Hiperplano e Margem de Separa¸c˜ao. . . p. 23

5 Interpreta¸c˜ao geom´etrica das distˆancias alg´ebricas de pontos at´e o

hiper-plano ´otimo para o caso bidimensional. . . p. 25

6 Vetores de Suporte e Hiperplano de Separa¸c˜ao. . . p. 26

7 Viola¸c˜ao `a Margem de separa¸c˜ao suave. . . p. 28

8 Distribui¸c˜ao e QQ-Plot. . . p. 36

9 Resultado da classifica¸c˜ao usando An´alise de Discriminante. . . p. 37

(11)

1 Tabela de Custos . . . p. 18

2 Sa´ıdas do TreeTagger para uma senten¸ca em portuguˆes. . . p. 31

3 Autores e livros escolhidos. . . p. 32

4 Estimativas amostrais para cada cen´ario. . . p. 34

5 Teste de Shapiro-Wilk multivariado e Teste Box’s M. . . p. 35

6 Eficiˆencia do algoritmo de An´alise de Discriminante. . . p. 38

7 Eficiˆencia do algoritmo de M´aquinas de Vetor de Suporte. . . p. 40

8 Estimativas amostrais para os demais cen´arios poss´ıveis . . . p. 64

9 Teste de Shapiro-Wilk Multivariado e Teste Box’s M para demais cen´arios p. 66

10 Eficiˆencia do algoritmo de An´alise de Discriminante para os demais cen´arios p. 68

11 Eficiˆencia do algoritmo de M´aquina de Vetor de Suporte para os demais

(12)

1

Introdu¸

ao

1.1

Aprendizado de M´

aquinas

Para resolver um problema em um computador, precisamos de um algoritmo, uma

sequˆencia de instru¸c˜oes que devem ser executadas para transformar uma determinada

entrada de dados em uma sa´ıda desejada. Por´em h´a certas tarefas para as quais n˜ao exite

um algoritmo j´a definido.

Por exemplo, imagine que se queira classificar um e-mail como uma mensagem

im-portante ou como um spam. Neste caso, sabemos que o dado de entrada ´e um documento

de e-mail que, no caso mais simples, ´e um arquivo de caracteres, e sabemos que a sa´ıda

deve ser uma vari´avel bin´aria do tipo “sim/n˜ao” indicando se a mensagem ´e um spam [1].

Pode-se, ent˜ao, compilar v´arios e-mails de exemplo, previamente classificados como

spam ou n˜ao, com o objetivo de criar algoritmos capazes de identificar padr˜oes e, a partir

desses padr˜oes, aprender quais caracter´ısticas fazem de uma mensagem um spam.

O Aprendizado de M´aquinas ´e definido como um processo automatizado que extrai

padr˜oes de dados [2]. Tais padr˜oes podem ajudar a entender processos, classificar objetos

ou fazer previs˜oes, usando teoria estat´ıstica na constru¸c˜ao de modelos matem´aticos, uma

vez que a tarefa principal ´e inferˆencia sobre uma amostra [1].

Os algoritmos de Aprendizado de M´aquinas s˜ao organizados de acordo com o resultado

desejado. Os tipos mais comuns, segundo [3] e [4], incluem as t´ecnicas a seguir.

ˆ Aprendizado supervisionado: onde o algoritmo aprende uma fun¸c˜ao a partir dos

dados da base de treinamento. Esses dados cont´em pares que consistem em objetos

de entrada (que tipicamente s˜ao vetores) e sa´ıdas desejadas. A sa´ıda da fun¸c˜ao pode

ser um valor cont´ınuo, se for usado um algoritmo de regress˜ao, ou pode prever um

r´otulo de classe do objeto de entrada, no caso de problemas de classifica¸c˜ao (como

(13)

ˆ Aprendizado n˜ao supervisionado: s´o existem os dados de entrada, isto ´e, sem

r´otulos de classifica¸c˜ao ou valores previamente conhecidos. Um modelo ´e ajustado

aos dados observados com o objetivo de encontrar padr˜oes nessas observa¸c˜oes. Por

exemplo, um algoritmo de clustering seria uma forma de aprendizado n˜ao

supervi-sionado. [1].

ˆ Aprendizado semi-supervisionado: combina exemplos rotulados e n˜ao rotula-dos para gerar um regressor ou classificador apropriado.

ˆ Aprendizado por refor¸co: o algoritmo aprende uma regra de como agir, dadas

algumas observa¸c˜oes dos dados. Toda a¸c˜ao tem algum impacto no ambiente e o

ambiente fornece um feedback que orienta o algoritmo de aprendizado.

ˆ Transdu¸c˜ao: semelhante `a aprendizado supervisionado, por´em n˜ao constr´oi

expli-citamente uma fun¸c˜ao, em vez disso, tenta prever novos resultados com base em

dados de entrada usados para treinamento, sa´ıdas de treinamento e novas entradas.

Neste trabalho, o foco ser´a a aplica¸c˜ao de alguns agoritmos do tipo Supervisionado.

Por isso n˜ao ser´a feito um aprofundamento te´orico para os demais tipos.

1.1.1

Aprendizado Supervisionado

Como visto anteriormente, o Aprendizado de M´aquinas Supervisionado ´e uma t´ecnica

na qual algoritmo aprende uma fun¸c˜ao a partir dos dados da base de treinamento. Esta

base possui objetos de entrada e sa´ıdas desejadas; permitindo assim que o algoritmo

aprenda uma fun¸c˜ao [4]. Essa tecnica ´e altamente dependente das informa¸c˜oes fornecidas

pelas classifica¸c˜oes pr´e-determinadas dos dados de treinamento [3].

Ainda segundo [3], para os problemas de classifica¸c˜ao, h´a certos tipos de algoritmos

de Aprendizado Supervisionado mais comuns, que s˜ao os seguintes:

ˆ Classifica¸c˜ao linear:

– Regress˜ao log´ıstica;

– Discrimina¸c˜ao e classifica¸c˜ao;

– Classificador Na¨ıve Bayes; – Perceptron;

(14)

ˆ Classificadores quadr´aticos; ˆ Refor¸co; ˆ ´Arvore de decis˜ao; ˆ Redes neurais; ˆ Redes bayesianas.

1.2

Motiva¸

ao

Como argumenta [5], a t´ecnica de classifica¸c˜ao de texto pode ser aplicada em uma

ampla variedade de problemas da ´area de minera¸c˜ao de texto. Por exemplo, na filtragem

e organiza¸c˜ao de not´ıcias, uma vez que a maior parte dos ve´ıculos de informa¸c˜ao como

jornais e revistas migraram para o meio eletrˆonico e produzem um n´umero consider´avel

de informa¸c˜ao textual todos os dias. Portanto, m´etodos automatizados podem ser muito

´

uteis para a categoriza¸c˜ao de not´ıcias em uma variedade de portais da web. Aplica-se

tamb´em na organiza¸c˜ao e recupera¸c˜ao de documentos de grandes bibliotecas digitais,

cole¸c˜oes da web, literatura cient´ıfica ou at´e feeds de redes sociais. E, como j´a mencionado,

na classifica¸c˜ao de e-mail e filtragem de spam.

Sob esse cen´ario, o uso do Aprendizado de M´aquinas para problemas de classifica¸c˜ao

de texto torna-se uma ferramenta bastante ´util, capaz de reconhecer padr˜oes, criar regras

de associa¸c˜ao e realizar an´alises qualitativas e quantitativas de forma autom´atica.

1.3

Objetivos

O objetivo geral deste trabalho ´e explorar e comparar duas t´ecnicas de Aprendizado

de M´aquinas e aplic´a-las na classifica¸c˜ao de textos.

As t´ecnicas de Aprendizado de M´aquinas que foram aplicadas `as vari´aveis escolhidas

s˜ao: An´alise de Discriminante e M´aquinas de Vetor de Suporte.

Os objetivos espec´ıficos s˜ao listados a seguir:

ˆ Estudar sobre An´alise de Discriminante;

(15)

ˆ Entender como Corpus de textos s˜ao criados e como podemos utilizar as informa¸c˜oes presentes em sua estrutura;

ˆ Manipular dados de texto com etiquetagem morfol´ogicas e criar vari´aveis a partir das palavras de uma senten¸ca.

1.4

Organiza¸

ao

No Cap´ıtulo 2 deste trabalho ´e apresentado um estudo te´orico dos algoritmos de

Aprendizado de M´aquinas Supervisionado que se pretende aplicar a um banco de dados

formado a partir de alguns livros. A Se¸c˜ao 2.1 se dedica a dar embasamento te´orico `a

An´alise de Discriminante, enquanto a Se¸c˜ao 2.2 `as M´aquinas de Vetor de Suporte. Na

Se¸c˜ao 2.3 apresentamos os conceitos de etiquetagem morfol´ogica e o Colonia Corpus[11].

No Cap´ıtulo 3 ser´a descrito quais dados foram usados para criar a base que ser´a

anali-sada e quais vari´aveis foram consideradas para exemplificar um problema de classifica¸c˜ao.

Na Se¸c˜ao 3.1 apresentamos as an´alises dos dados e os resultados obtidos com An´alise de

Discriminante, enquanto que na Se¸c˜ao 3.2 temos os resultados da aplica¸c˜ao do algoritmo

de M´aquinas de Vetor e Suporte.

Por fim, no Cap´ıtulo 4 temos as considera¸c˜oes finais a cerca dos resultados obtidos

(16)

2

Materiais e M´

etodos

O uso de Aprendizado Supervisionado ´e bastante comum em problemas de

classi-fica¸c˜ao, porque geralmente tˆem-se como objetivo fazer com que o computador aprenda

um sistema de classifica¸c˜ao que ´e criado pelo programador.

Neste cap´ıtulo ser˜ao apresentadas as duas t´ecnicas de Aprendizado de M´aquinas

Su-pervisionado aplicadas neste trabalho.

2.1

An´

alise de Discriminante

A An´alise de Discriminante lida com um tipo especial de algoritmo de aprendizado

supervisionado. Concentra-se em separar conjuntos distintos de unidades em duas ou

mais popula¸c˜oes e, em seguida, alocar novas unidades, cuja a popula¸c˜ao de origem ´e

desconhecida, em uma dessas popula¸c˜oes [7].

Segundo [8], os objetivos da discrimina¸c˜ao e da classifica¸c˜ao s˜ao, respectivamente, os

seguintes:

ˆ Descrever graficamente ou algebricamente as caracter´ısticas diferenciais dos objetos

de v´arias popula¸c˜oes conhecidas. Tentar encontrar “discriminantes” cujos valores

num´ericos s˜ao tais que as popula¸c˜oes estejam separadas tanto quanto poss´ıvel.

ˆ Alocar objetos em uma das classes rotuladas. O n´umero de classes deve ser pelo

menos dois. A ˆenfase est´a na deriva¸c˜ao de uma regra que pode ser usada para

atribuir de maneira otimizada novos objetos a essas classes.

A fun¸c˜ao utilizada para discriminar objetos tamb´em pode ser usada para alocar, assim

como as regras de aloca¸c˜ao de objetos podem ser usadas para discriminar. Na pr´atica,

os objetivos de discrimina¸c˜ao e classifica¸c˜ao se sobrep˜oem, fazendo com que a distin¸c˜ao

(17)

2.1.1

Separa¸

ao e Classifica¸

ao para Duas Popula¸

oes

Suponha que se queira realizar um dos seguintes processos.

1. Separar duas classes de objetos.

2. Classificar um novo objeto em uma das duas classes previamente estipuladas.

Os objetos s˜ao separados ou classificados com base nas medi¸c˜oes de p vari´aveis

aleat´orias associadas XT = [X1, X2, ..., Xp].

Os valores observados de X diferem at´e certo ponto de uma classe para outra.

Pode-se pensar que os valores de X da primeira clasPode-se s˜ao provenientes da popula¸c˜ao π1 e os

da segunda classe da popula¸c˜ao π2. Essas duas popula¸c˜oes podem ser descritas por suas

fun¸c˜oes de densidade de probabilidade f1(x) e f2(x), e consequentemente, pode-se pensar

em atribuir observa¸c˜oes `a popula¸c˜oes ou objetos `a classes.

As regras de aloca¸c˜ao ou classifica¸c˜ao s˜ao desenvolvidas a partir dos dados de uma

base treinamento. As p caracter´ısticas medidas dos objetos selecionados aleatoriamente,

conhecidos por vir de cada uma das duas popula¸c˜oes, s˜ao examinadas quanto as suas

diferen¸cas.

O conjunto de poss´ıveis resultados da amostragem ser´a dividido nas regi˜oes R1 e R2,

de modo que, se uma nova observa¸c˜ao cair em R1, esta ser´a classificada como proveniente

da popula¸c˜ao π1 e, se cair em R2, ser´a classificada como sendo da popula¸c˜ao π2.

Se a probabilidade de uma classifica¸c˜ao incorreta for pequena, ent˜ao o procedimento de

classifica¸c˜ao ´e considerado adequado. Existem caracter´ısticas adicionais que uma regra de

classifica¸c˜ao “ideal” deve possuir. Pode ser que uma classe ou popula¸c˜ao tenha uma maior

probabilidade de ocorrˆencia que outra porque uma das duas popula¸c˜oes ´e relativamente

muito maior que a outra. Uma regra de classifica¸c˜ao ideal deve levar em conta essas

“probabilidades a priori ”.

Por conta disso, ´e importante estabalecer um custo de classifica¸c˜ao. Suponha que

a classifica¸c˜ao de um objeto π1 como pertencente a classe π2 representa um erro mais

grave que a classifica¸c˜ao de um objeto π2 como pertencente a π1. Um procedimento de

classifica¸c˜ao ideal deve considerar os custos associados `a classifica¸c˜ao incorreta.

Sejam f1(x) e f2(x) as fun¸c˜oes de densidade de probabilidade associadas ao vetor

aleat´orio XT = [X1, X2, ..., Xp] para as popula¸c˜oes π1 e π2 respectivamente e seja Ω = Rp

(18)

x1 x2 População π1 População π2 R1 R2

Figura 1: Ilustra¸c˜ao das Regi˜oes de classifica¸c˜ao para duas popula¸c˜oes.

Suponha que um objeto com medidas associadas a X deve ser atribu´ıdo a π1 ou π2.

Pode-se tomar uma parti¸c˜ao do espa¸co amostral tal que R1 seja o conjunto de valores de

X para os quais classificamos objetos como π1 e R2 = Ω − R1 ´e o conjuntos dos valores

de X restantes para os quais classificamos objetos como π2.

Pode-se calcular a probabilidade condicional P (2|1) = “classificar uma observa¸c˜ao

como π2 quando esta na verdade vem de π1” como sendo:

P (2|1) = P (X ∈ R2|π1) =

Z

R2=Ω−R1

f1(x) dx. (2.1)

Similarmente, a probabilidade P (1|2) = “classificar uma observa¸c˜ao como π1 quando

esta na verdade vem de π2” como sendo:

P (1|2) = P (X ∈ R1|π2) =

Z

R1

f2(x) dx. (2.2)

Sejam p1 e p2 as probabilidades a priori, tais que p1 = P (X ∈ π1) e p2 = P (X ∈ π2),

onde tˆem-se p1 + p2 = 1. A partir da´ı, tˆem-se que as probabilidades de classifica¸c˜ao,

(19)

1. Probabilidade da observa¸c˜ao ser da popula¸c˜ao π1 e ser classificada como π1 ´e

P (X ∈ R1|π1)P (π1) = P (1|1)p1.

2. Probabilidade da observa¸c˜ao ser da popula¸c˜ao π2 e ser classificada como π1 ´e

P (X ∈ R1|π2)P (π2) = P (1|2)p2.

3. Probabilidade da observa¸c˜ao ser da popula¸c˜ao π2 e ser classificada como π2 ´e

P (X ∈ R2|π2)P (π2) = P (2|2)p2.

4. Probabilidade da observa¸c˜ao ser da popula¸c˜ao π1 e ser classificada como π2 ´e

P (X ∈ R2|π1)P (π1) = P (2|1)p1.

Os custos da classifica¸c˜ao incorreta podem ser definidos por uma tabela da seguinte

forma:

Tabela 1: Tabela de Custos

Popula¸c˜ao Verdadeira Classifica¸c˜ao

π1 π2

π1 0 c(2|1)

π2 c(1|2) 0

Os custos s˜ao zero quando a classifica¸c˜ao ´e correta, c(1|2) ´e o custo da observa¸c˜ao ser

de π2 e ser classificada como π1 e, finalmente, c(2|1) ´e o custo da observa¸c˜ao ser de π1 e

ser classificada como π2.

Defini¸c˜ao 2.1 O Custo M´edio de Classifica¸c˜ao Incorreta, isto ´e, Expected Cost of

Mis-classification (ECM), como sendo:

ECM = c(2|1)P (2|1)p1+ c(1|2)P (1|2)p2. (2.3)

Uma regra de classifica¸c˜ao razo´avel deve ter um ECM menor poss´ıvel.

(20)

X para as quais as seguintes desigualdades s˜ao v´alidas: R1 = n x : f1(x) f2(x) ≥ c(1|2) c(2|1) p2 p1 o , R2 = n x : f1(x) f2(x) < c(1|2) c(2|1) p2 p1 o . (2.4)

2.1.2

Classifica¸

ao para Duas Popula¸

oes Normais

Multivaria-das

Os procedimentos de classifica¸c˜ao baseados em popula¸c˜oes normais predominam na

pr´atica devido `a sua simplicidade e alta eficiˆencia em uma ampla variedade de modelos

populacionais. Assumindo que f1 e f2 s˜ao fun¸c˜oes de densidade de uma popula¸c˜ao normal

multivariada, a primeira com vetor de m´edia de µ1 e matriz de variˆancia e covariˆancia

Σ1, e a segunda com vetor de m´edia de µ2 e matriz de variˆancia e covariˆancia Σ2. Para

realizar as classifica¸c˜oes, ´e necess´ario verificar os casos para Σ1 = Σ2 e Σ1 6= Σ2.

2.1.2.1 Classifica¸c˜ao para Popula¸c˜oes Normais Σ1 = Σ2 = Σ

Suponha que a densidade conjunta de XT = [X1, X2, ..., Xp] das popula¸c˜oes π1 e π2

seja dada por:

fi(X) = 1 (2π)p/2|Σ|1/2exp h −1 2(X − µi) TΣ−1 (X − µi) i , ∀i = 1, 2, (2.5)

onde os parˆametros µ1, µ2 e Σ s˜ao conhecidos.

Resultado 2.2 As regi˜oes que produzem menor ECM s˜ao tais que:

     R1 : exp h −1 2(X − µ1) TΣ−1(X − µ 1) + 12(X − µ2)TΣ−1(X − µ2) i ≥c(1|2)c(2|1)p1 p2  , R2 : exp h −1 2(X − µ1) TΣ−1(X − µ 1) + 12(X − µ2)TΣ−1(X − µ2) i <c(1|2)c(2|1)p1 p2  . (2.6)

(21)

seguir.

Resultado 2.3 Sejam as popula¸c˜oes π1 e π2 descritas pela fun¸c˜ao de densidade normal

multivariada da forma (2.5). Ent˜ao, a regra de aloca¸c˜ao que minimiza o ECM ´e a da

forma: 1. alocar X0 em π1 se: (µ1− µ2)TΣ−1X0− 1 2(µ1− µ2) TΣ−1 (µ1− µ2) < ln hc(1|2) c(2|1) p1 p2 i . (2.7)

2. alocar X0 em π2 caso contr´ario.

<−−−−−−−−−− Classificar em π1 −−−−−−−−−><−−−−−−−−− Classificar em π2 −−−−−−−−>

P(X∈R1|X∈ π2) P(X∈R2|X∈ π1)

f1(x) f2(x)

Figura 2: Erro de classifica¸c˜ao para o caso univariado com variˆancias iguais.

2.1.2.2 Classifica¸c˜ao para Popula¸c˜oes Normais Σ1 6= Σ2

As regras de classifica¸c˜ao s˜ao mais complicadas quando as matrizes de covariˆancia

populacional s˜ao desiguais. Considerando as densidades normais multivariadas em (2.5)

com Σi, i = 1, 2, no lugar de Σ de forma que as matrizes de covariˆancia e os vetores de

(22)

Resultado 2.4 As regi˜oes R1 e R2 que minimizam o ECM, para este caso, s˜ao definidas

pelos valores e X para as quais as seguintes desigualdades s˜ao v´alidas:

     R1 : −12XT(Σ−11 − Σ −1 2 )X + (µT1Σ −1 1 − µT2Σ −1 2 )X − k ≥ ln h c(1|2) c(2|1)  p1 p2 i , R2 : −12XT(Σ−11 − Σ −1 2 )X + (µT1Σ −1 1 − µT2Σ −1 2 )X − k < ln h c(1|2) c(2|1)  p1 p2 i , (2.8) onde, k = −1 2ln h|Σ1| |Σ2| i +1 2(µ T 1Σ −1 1 − µ T 2Σ −1 2 ). (2.9)

A regra de classifica¸c˜ao para popula¸c˜oes normais multivariadas seguem de 2.8.

Resultado 2.5 Sejam as popula¸c˜oes π1 e π2 descritas pela fun¸c˜ao de densidade normal

multivariada com vetor de m´edias e matrizes de covariˆancias µ1, Σ1 e µ2, Σ2,

respecti-vamente. A regra de aloca¸c˜ao que minimiza o custo esperado da classifica¸c˜ao incorreta ´e

dada por: 1. alocar X0 em π1 se: −1 2X0 T (Σ−11 − Σ−12 )X0+ (µT1Σ −1 1 − µ T 2Σ −1 2 )X0− k ≥ ln hc(1|2) c(2|1) p1 p2 i , (2.10)

onde k est´a definido na equa¸c˜ao (2.9),

2. alocar X0 em π2 caso contr´ario.

Na pr´atica, tanto para o caso Σ1 = Σ2 quanto para o caso Σ1 6= Σ2, para estimar

µ1 e µ2 usa-se as fun¸c˜oes amostrais X1 e X2, tais que [8]:

Xi= 1nXT1,

com i = 1, 2 e 1 matriz n × p onde todas as entradas s˜ao o n´umero 1.

Para estimar as matrizes de covariˆancias tamb´em se usam as fun¸c˜oes amostrais S1 e

S2 tais que [8]:

Si = n−11 XT(In−n111T)X,

(23)

R1 R1

R2

f1(x)

f2(x)

Figura 3: Regra de classifica¸c˜ao para duas popula¸c˜oes normais univariadas com variˆancias

distintas.

2.2

aquinas de Vetor de Suporte

As m´aquinas de vetor de suporte s˜ao m´aquinas de aprendizado bin´ario cujo objetivo

´e classificar padr˜oes que possam ser separ´aveis [9] minimizando a probabilidade de erro

de classifica¸c˜ao.

A id´eia principal por tr´as das m´aquinas pode ser explicada da seguinte forma: dada

uma amostra de treinamento, as m´aquinas de vetor de suporte constr´oem um hiperplano

como superf´ıcie de decis˜ao, de modo que a margem de separa¸c˜ao entre exemplos positivos

e negativos seja maximizada.

2.2.1

Hiperplano ´

Otimo para Padr˜

oes Linearmente Separ´

aveis

As m´aquinas de vetor de suporte s˜ao usadas para resolver problemas de classifica¸c˜ao

de padr˜oes separ´aveis. Os vetores de suporte consistem em um pequeno subconjunto

de pontos de dados, extra´ıdos pelo algoritmo de aprendizado, da pr´opria amostra de

treinamento.

Considere a amostra de treinamento {(Xi, di)}

N

i=1, onde Xi´e o padr˜ao de entrada para

o i-´esimo indiv´ıduo da amostra de tamanho N , e di ´e a resposta desejada correspondente.

(24)

representado pelo subconjunto di = −1 s˜ao linearmente separ´aveis. A equa¸c˜ao de uma

superf´ıcie de decis˜ao na forma de um hiperplano que faz a separa¸c˜ao ´e dada por:

wTX + b = 0, (2.11)

onde X ´e um vetor de entrada, w ´e um vetor de peso ajust´avel e b ´e um vi´es.

Desta maneira, podemos escrever (2.11) da seguinte forma:

wTXi+ b ≥ 0, para di = +1,

wTXi+ b < 0, para di = −1.

(2.12)

Para um dado w ajust´avel e b, a separa¸c˜ao entre o hiperplano definido em (2.11) e

o ponto de dado mais pr´oximo ´e chamado de Margem de Separa¸c˜ao ρ. As m´aquinas de

vetor de suporte tem por objetivo encontrar um hiperplano particular de forma que ρ seja o maior poss´ıvel.

Sendo atendida essa condi¸c˜ao, a superf´ıcie de decis˜ao ´e chamada de hiperplano ´otimo.

ρ ρ

Figura 4: Hiperplano e Margem de Separa¸c˜ao.

(25)

´

otimo, representando uma superf´ıcie de decis˜ao linear multidimensional no espa¸co de

entrada, ´e definido por:

wT0X + b0 = 0, (2.13)

A fun¸c˜ao discriminante g(x) = wT0X + b0 fornece uma medida alg´ebrica da distˆancia

de X ao hiperplano ´otimo, sendo poss´ıvel expressar X de outra maneira:

X = Xp+ r

w0

||w0||

, (2.14)

onde Xp ´e a proje¸c˜ao normal de X no hiperplano ´otimo, r ´e a distˆancia alg´ebrica

desejada. Tem-se que r ´e positivo se X estiver no lado positivo do hiperplano ´otimo, e

negativo se X estiver no lado negativo. Por defini¸c˜ao, g(Xp) = 0, segue-se que:

g(X) = wT0X + b0 = r||w0||, (2.15)

ou, equivalentemente:

r = g(X)

||w0||

. (2.16)

A distˆancia da origem (quando X = 0) at´e a hiperplano ´otimo ´e dado por b0

||w0||.

Se b0 > 0, a origem est´a do lado positivo do hiperplano ´otimo. Se b0 < 0, est´a do lado

negativo. J´a para o caso b0 = 0, o hiperplano ´otimo passa pela origem. Uma interpreta¸c˜ao

(26)

X1 X2 b0 ||w0|| r X Hiperplano

Figura 5: Interpreta¸c˜ao geom´etrica das distˆancias alg´ebricas de pontos at´e o hiperplano

´

otimo para o caso bidimensional.

Ent˜ao a principal quest˜ao ser´a encontrar os parˆametros w0 e b0 do hiperplano ´otimo,

dada a amostra de treinamento definida por = = {(Xi, di)}. Pelos resultados

representa-dos na Figura 5 pode-se notar que o par (w0, b0) deve atender a regra:

w0TXi+ b0 ≥ +1, para di = +1,

wT0Xi+ b0 ≤ −1, para di = −1.

(2.17)

Se (2.11) ´e v´alido, ou seja, se os padr˜oes forem linearmente separ´aveis, pode-se escalar

w0 e b0 de modo que (2.17) ´e v´alido. Essa opera¸c˜ao de escalonamento n˜ao afeta (2.13).

Os pontos de dados espec´ıficos (Xi, di) para os quais a primeira ou a segunda equa¸c˜ao

de (2.17) ´e satisfeita com o sinal de igualdade s˜ao chamados de vetores de suporte, da´ı o

nome m´aquinas de vetor de suporte. Os vetores de suporte s˜ao os pontos de dados mais

pr´oximos do hiperplano ´otimo e, portanto, os mais dif´ıceis de classificar. Eles possuem

uma rela¸c˜ao direta com a localiza¸c˜ao ideal da superf´ıcie de decis˜ao.

Considere o vetor de suporte X(s) para cada d(s) = +1. Ent˜ao, pela defini¸c˜ao, tem-se

que:

(27)

Vetores de suporte

Hiperplano Margem de separação

Figura 6: Vetores de Suporte e Hiperplano de Separa¸c˜ao.

De (2.16), a distˆancia alg´ebrica do vetor de suporte X(s) ao hiperplano ´otimo ´e:

r = g(X(s)) ||w0|| =    1 ||w0||, se d(s)= +1 −1 ||w0||, se d(s)= −1, (2.19)

onde o sinal de positivo indica que X(s) est´a no lado positivo do hiperplano ´otimo e o

sinal de negativo indica que X(s) est´a no lado negativo.

Seja ρ o valor ideal da margem de separa¸c˜ao entre as duas classes que constituem a

amostra de treinamento. Ent˜ao, de (2.19), segue-se que:

ρ = r = 1

||w0||

(2.20)

Maximizar a margem de separa¸c˜ao entre classes bin´arias ´e equivalente a minimizar a

norma euclidiana do vetor de peso w.

Em resumo, o hiperplano ´otimo definido por (2.13) ´e ´unico de maneira que o vetor

de peso ´otimo w0 fornece a m´axima separa¸c˜ao entre exemplos positivos e negativos. Essa

condi¸c˜ao ideal ´e atingida minimizando a norma euclidiana do vetor de peso w.

(28)

a amostra de treinamento = = {(Xi, di)}, encontre o hiperplano ´otimo sujeito `a restri¸c˜ao

di(wTXi+ b) ≥ +1 ∀i = 1, ..., N. (2.21)

Esta restri¸c˜ao combina as linhas contidas em (2.17) usando w no lugar de w0. Logo,

o problema de otimiza¸c˜ao restrito que deve ser resolvido ´e formulado a seguir.

Problema 2.1 Dada a amostra de treinamento {(Xi, di)}Ni=1, encontre os valores ´otimos

do vetor de peso w e o vi´es b que satisfa¸cam as restri¸c˜oes:

di(wTXi+ b) ≥ +1 ∀i = 1, ..., N. (2.22)

e o vetor de peso w que minimize a fun¸c˜ao de custo:

φ(w) = 1

2||w||

2

. (2.23)

2.2.2

Erros de Classifica¸

ao

Nesta Se¸c˜ao ser´a discutido o caso onde n˜ao ´e poss´ıvel construir um hiperplano de

separa¸c˜ao sem que ocorram erros de classifica¸c˜ao.

Defini¸c˜ao 2.2 A margem de separa¸c˜ao entre as classes ´e dita suave se, existe um ponto

(Xi, di), que viola a restri¸c˜ao definida em (2.22).

As viola¸c˜oes que podem ocorrer s˜ao as seguintes.

1. O ponto dado (Xi, di) se encontra dentro da regi˜ao de separa¸c˜ao, por´em do lado

correto do hiperplano de decis˜ao, indicando que este foi corretamente classificado.

2. O ponto dado (Xi, di) se encontra do lado errado do hiperplano, indicando que este

foi classificado incorretamente.

Para os casos dados linearmente n˜ao-separ´aveis, quando h´a ocorrˆencia de erros de

classifica¸c˜ao como vistos na Defini¸c˜ao 2.2, ´e necess´ario a introdu¸c˜ao de um novo conjunto

(29)

Hiperplano Margem de separação Violação do Tipo 1 Violação do Tipo 2

Figura 7: Viola¸c˜ao `a Margem de separa¸c˜ao suave.

Defini¸c˜ao 2.3 Seja {ξi}Ni=1 um conjunto de vari´aveis escalares n˜ao negativas, tais que se

possa reescrever (2.22) como sendo:

di(wTXi+ b) ≥ 1 − ξi ∀i = 1, ..., N. (2.24)

As ξi s˜ao chamadas de vari´aveis soltas e tem como fun¸c˜ao medir o desvio de um ponto

dado da condi¸c˜ao ideal de separa¸c˜ao, de forma que:

ˆ se 0 ≤ ξi ≤ 1, ent˜ao o ponto dado executa a primeira viola¸c˜ao descrita na Defini¸c˜ao

2.2.

ˆ se ξi > 1, ent˜ao o ponto dado executa a segunda viola¸c˜ao descrita na Defini¸c˜ao 2.2.

A soma dos ξi representa um limite no n´umero de erros de treinamento que o algoritmo

deve tolerar.

Podemos generalizar o Problema 2.1, de forma a incluir o caso de padr˜oes n˜ao

linear-mente separ´aveis, da seguinte maneira.

Problema 2.2 Dada a amostra de treinamento {(Xi, di)}

N

i=1, encontre os valores ´otimos

do vetor de peso w e o vi´es b que satisfa¸cam as restri¸c˜oes:

(30)

de maneira que o vetor de peso w e as vari´aveis soltas ξi minimizem a fun¸c˜ao de custo: φ(w)(w, ξ) = 1 2w Tw + C N X i=1 ξi, (2.25)

onde C ´e um parˆametro positivo escolhido pelo usu´ario.

Se tomarmos ξi = 0 para todo i nas Equa¸c˜oes (2.24) e (2.25) teremos uma redu¸c˜ao `as

Equa¸c˜oes (2.21) e (2.23) respectivamente.

O parˆametro C ´e um n´umero n˜ao negativo que controla o qu˜ao tolerante deve ser a

m´aquina de vetor de suporte com rela¸c˜ao aos erros de classifica¸c˜ao. Este parˆametro ´e

determinado pelo usu´ario experimentalmente atrav´es do uso de uma amostra de

treina-mento.

Quando ´e atribu´ıdo ao parˆametro C um valor alto, a implica¸c˜ao ´e que o usu´ario da

m´aquina de vetor de suporte tem alta confian¸ca na qualidade da amostra de treinamento.

De outra forma, quando ´e atribu´ıdo um valor pequeno ao parˆamentro C, a amostra de

treinamento ´e considerada ruidosa e, portanto, menos ˆenfase deve ser colocada nela.

2.3

Etiquetagem Morfol´

ogica

O avan¸co da capacidade de armazenamento e processamento dos computadores nas ´

ultimas d´ecadas beneficiou muitas ´areas de estudo, como por exemplo a lingu´ıstica. A

computa¸c˜ao possibilitou o surgimento de novas abordagens a problemas que antes n˜ao

poderiam ser tratados de forma mais eficiente [10]. Por exemplo, hoje ´e poss´ıvel montar

um conjunto de textos (tamb´em chamado de corpus) que pode ser guardado, processado

e analisado de diferentes formas.

O reconhecimento das classes gramaticais de palavras, isto ´e, de acordo com sua

morfologia, ´e um problema cl´assico da lingu´ıstica computacional. Para analisar a estrutura

de senten¸cas, por exemplo, ´e necess´ario realizar num primeiro momento a categoriza¸c˜ao

das palavras contidas num conjunto de textos [10].

Os sistemas capazes de realizar a tarefa classificar palavras de acordo com sua posi¸c˜ao

em uma senten¸ca s˜ao denominados etiquetadores (taggers) de categorias gramaticais (ou

(31)

categoria correta, de acordo com a posi¸c˜ao que a palavra ocupa na frase. Logo, ao usarmos

o etiquetador em um texto, este ser´a reescrito pela ferramenta com o acr´escimo, a cada

palavra, de uma etiqueta com a informa¸c˜ao sobre a sua classe gramatical. Mais a frente

ser´a dado um exemplo pr´atico do funcionamento de um etiquetador.

2.4

O Colˆ

onia Corpus

O Colonia: Corpus of Historical Portuguese [11] ´e um corpus criado pela Universidade

de Colˆonia, na Alemanha. Este corpus ´e formado por uma cole¸c˜ao de material textual

do s´eculo XVI at´e in´ıcio do s´eculo XX, inteiramente em portuguˆes — contando com 52

livros em portuguˆes brasileiro e 48 em portuguˆes europeu — todos com POS tagged. A

compila¸c˜ao do corpus foi feita atrav´es da coleta do material de trˆes fontes principais:

Dom´ınio P´ublico, uma biblioteca digital de m´ıdia n˜ao protegida por direitos autorais

e mantida pelo Minist´erio da Educa¸c˜ao, e textos de outros dois corpus hist´oricos em

portuguˆes, um do Grupo de Morfologia Hist´orica do Portuguˆes (GMHP), da Universidade

de S˜ao Paulo, e o Corpus Hist´orico do Portuguˆes Tycho Brahe, da Universidade Estadual

de Campinas.

2.5

O TreeTagger

O Colonia corpus foi constru´ıdo e etiquetado em POS usando o TreeTagger [12], uma ferramenta de etiquetagem desenvolvida pelo Instituto de Processamento de Linguagem

Natural da Universidade de Stuttgart, usando um arquivo de parˆametros para o portuguˆes

[13]. O TreeTagger ´e um tagger probabil´ıstico independente de linguagem. Este organiza

os dados anotados em um formato de trˆes colunas (token original, a tag POS e lema a

qual o token pertence). O TreeTagger pode atingir um desempenho superior a 95% de

precis˜ao ao atribuir uma tag POS correta e o lema correto de um token [12].

Na tabela a seguir ´e poss´ıvel verificar um exemplo de como a tag POS do TreeTagger

funciona para uma senten¸ca em portuguˆes usando como exemplo a frase “O meu tio ´e

(32)

Tabela 2: Sa´ıdas do TreeTagger para uma senten¸ca em portuguˆes.

token tag lemma

O DET o

meu ADJ meu

tio NOM tio

´e V ser

portuguˆes ADJ portuguˆes

Note que cada linha cont´em um token, o tag POS e o lema correspondente, todos

separados por tabula¸c˜ao.

O TreeTagger para portuguˆes possui c´odigo execut´avel para sistemas operacionais

como PC-Linux, Windows, Mac-OS que podem ser baixados no portal da ferramenta [14].

(33)

3

An´

alise dos Resultados

O objetivo deste trabalho ´e comparar os resultados de cada algoritmo de aprendizado

de m´aquinas supervisionado na classifica¸c˜ao de textos. Ser´a avaliada a efic´acia desses

algoritmos na distin¸c˜ao entre dois autores diferentes.

Para compor a base de dados deste trabalho, foram usados alguns livros disponibi-lizados pela Colonia Corpus. Foram escolhidos alguns livros de dois autores brasileiros,

que est˜ao descritos na Tabela 3 a seguir:

Tabela 3: Autores e livros escolhidos.

Autor Livro

Antˆonio Jos´e da Silva

Anfitri˜ao ou J´upiter e Alcmena

As Variedades de Proteu Esopaida ou Vida de Esopo

Guerras do Alecrim e da Manjerona Labirinto de Creta Os Encantos de Medeia Precip´ıcio de Faetonte Alu´ısio Azevedo Casa de Pens˜ao Condessa V´esper Filomena Borges O Corti¸co

Este trabalho levou ent˜ao em considera¸c˜ao duas vari´aveis:

ˆ X1ij`= “quantidade de lemas distintos classificados como NOM na `-´esima

lauda do j-´esimo livro do i-´esimo autor” e;

ˆ X2ij`= “quantidade de lemas n˜ao-distintos classificados como V na `-´esima

lauda do j-´esimo livro do i-´esimo autor”,

onde i = 1, 2 e j = 1, . . . , 7 se i = 1 ou j = 1, . . . , 4 se i = 2. O ´ındice `

(34)

discriminados seus valores de varia¸c˜ao.

As classifica¸c˜oes NOM e V do TreeTagger [12] s˜ao, respectivamente, tags para

subs-tantivo e verbo.

Outras vari´aveis foram consideradas para compˆor a base de dados deste trabalho,

foram elas:

ˆ X1ij` = “quantidade de lemas n˜ao-distintos classificados como NOM na

`-´esima lauda do j-´esimo livro do i-´esimo autor”;

ˆ X2ij`= “quantidade de lemas distintos classificados como V na `-´esima lauda

do j-´esimo livro do i-´esimo autor”;

ˆ X1ij` = “quantidade de lemas distintos classificados como ADJ na `-´esima

lauda do j-´esimo livro do i-´esimo autor” e;

ˆ X2ij` = “quantidade de lemas n˜ao-distintos classificados como ADJ na

`-´

esima lauda do j-´esimo livro do i-´esimo autor”.

Por´em, as vari´aveis acima foram descartadas por apresentarem um comportamento

muito inst´avel para livro individualmente. Outro motivo que nos motivou a usar apenas

as duas vari´aveis consideradas foi a facilidade na visualiza¸c˜ao gr´afica de dados de duas

dimens˜oes.

Para facilitar a nota¸c˜ao, iremos nos referir `as vari´aveis usadas neste trabalho apenas

como X1 e X2 daqui em diante. Ainda no intuito de tornar a leitura deste trabalho menos

prolixa, ser´a considerado no decorrer do texto chamar o autor Antˆonio Jos´e da Silva de

autor 1, e Alu´ısio Azevedo de autor 2.

Definiu-se como lauda o n´umero de caracteres at´e que se fosse alcan¸cado a marca

de 1200 caracteres e uma senten¸ca fosse finalizada, de forma que as laudas nem sempre possuem o mesmo comprimento de string.

Foram considerados dois cen´arios de classifica¸c˜ao. Um usando o livro Esopaida ou a

Vida de Esopo do autor 1 como sendo a base de teste 1, e usando todos os outros livros

como base de treinamento 1. O segundo cen´ario foi constru´ıdo usando o livro Condessa

V´esper do autor 2 como sendo a base de teste 2 e usando os todos outros livros como

base de treinamento 2.

(35)

poss´ıveis cen´arios, isto ´e, usando cada livro em separado dos demais como teste, de forma

a criar mais outros nove cen´arios para cada algoritmo de classifica¸c˜ao.

3.1

Resultados a partir da An´

alise de Discriminante

A partir das vari´aveis definidas no in´ıcio deste cap´ıtulo, foram calculadas as

estima-tivas amostrais para as bases de treinamento de cada cen´ario distinguindo-se os autores.

Esses valores podem ser vistos na Tabela 4.

Dentro de cada cen´ario, as bases com os dados referentes ao autor 1 e 2 s˜ao

respecti-vamente as popula¸c˜oes π1 e π2.

Tabela 4: Estimativas amostrais para cada cen´ario.

Cen´arios Autor Estimativas amostrais

Base de treinamento 1 π1 X1 =  33.990 46.553  ; S1 =  38.510 −23.746 −23.746 53.326  π2 X2 =  43.790 35.668  ; S2 =  49.346 −37.118 −37.118 68.955  Base de treinamento 2 π1 X1 =  34.046 46.818  ; S1 =  39.746 −24.212 −24.212 53.060  π2 X2 =  44.370 35.437  ; S2 =  48.769 −35.938 −35.938 69.519 

Foram realizados o Teste de Shapiro-Wilk Multivariado para verificar a normalidade

das vari´aveis, X1 e X1 e o Teste Box’s M para verificar a homogeneidade das matrizes

de variˆancia e covariˆancia das popula¸c˜oes π1 e π2 de cada cen´ario. Na Tabela 5 est˜ao

apresentados o valor p e as estat´ısticas de cada teste.

Abaixo, na Figura 8, temos a representa¸c˜ao gr´afica da distribui¸c˜ao dos dados, com

uma elipse de 95% de confian¸ca, e o QQ-plot considerando uma distribui¸c˜ao Qui-quadrado

(36)

Tabela 5: Teste de Shapiro-Wilk multivariado e Teste Box’s M.

Cen´arios Autor Teste de Shapiro-Wilk Teste Box’s M

Valor p Estat´ıstica de Teste Valor p Estat´ıstica de Teste Base de Treinamento 1 π1 0.206 0.996 0 19.332 π2 0.069 0.998 Base de Treinamento 2 π1 0.293 0.997 0.001 16.809 π2 0.209 0.998

Cabe ressaltar que os pontos de dados nas el´ıpses da Figura 8 foram plotados usando

a fun¸c˜ao jitter(), que adiciona uma pequena varia¸c˜ao de um cinquenta avos na posi¸c˜ao

dos pontos em dire¸c˜ao aos eixos, afim de evidenciar os pontos de dados que possam ficar

sobrepostos. Os pr´oximos gr´aficos que ser˜ao mostrados no decorrer deste trabalho tamb´em

foram constru´ıdos usando esta fun¸c˜ao.

A partir do que foi definido na Se¸c˜ao 2.2, dos resultados mostrados na Tabela 5 e na

Figura 8, temos evidˆencia de que temos um problema de classifica¸c˜ao com duas popula¸c˜oes

normais bivariadas com matriz de covariˆancia distintas.

Foi aplicado o Resultado 2.5 nos dados dos dois cen´arios descritos e, usando os

parˆametros amostrais, foi gerada a regra que classifica cada `-´esima observa¸c˜ao das

amos-tras de teste da seguinte maneira:

1. classificar a `-´esima observa¸c˜ao da base de teste como pertencente a π1 caso esta

satisfa¸ca: −1 2X` T(S−1 1 − S −1 2 )X`+ (X T 1S −1 1 − X T 2S −1 2 )Xi− k ≥ ln hc(1|2) c(2|1) p1 p2 i , onde, k = −1 2ln h|S1| |S2| i +1 2(X T 1S −1 1 − X T 2S −1 2 )

2. Classificar a `-´esima observa¸c˜ao da base de teste como pertencente a π2caso contr´ario

Nas curvas mostradas na Figura 9 temos a distribui¸c˜ao dos pontos das base de

trei-namento e das bases teste de cada cen´ario. Tamb´em s˜ao mostradas as regi˜oes R1 e R2,

(37)

X1 X2 20 25 30 35 40 45 50 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12 14

Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Esopaida ou Vida de Esopo do autor Antônio José da Silva

Antônio José da Silva Aluísio Azevedo

(a) Cen´ario 1.

X1 X2 20 30 40 50 60 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12 14

Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Condessa Vésper do autor Aluísio Azevedo

Antônio José da Silva Aluísio Azevedo

(b) Cen´ario 2.

Figura 8: Distribui¸c˜ao e QQ-Plot.

A Tabela 6 a seguir cont´em o n´umero de observa¸c˜oes, o n´umero de observa¸c˜oes

(38)

X1 X2 10 20 30 40 50 60 70 0 20 40 60

Antônio José da Silva Aluísio Azevedo Esopaida ou Vida de Esopo

R1

R2

Livro Esopaida ou Vida de Esopo do autor Antônio José da Silva

(a) Classifica¸c˜ao das observa¸c˜oes da base de teste 1.

X1 X2 10 20 30 40 50 60 70 0 20 40 60

Antônio José da Silva Aluísio Azevedo Condessa Vésper

R1

R2

Livro Condessa Vésper do autor Aluísio Azevedo

(b) Classifica¸c˜ao das observa¸c˜oes da base de teste 2.

(39)

Tabela 6: Eficiˆencia do algoritmo de An´alise de Discriminante.

Base de Teste Nº de laudas

Nº de laudas

classificadas corretamente

Percentual de classifica¸c˜oes corretas

Esopaida ou Vida de Esopo 81 66 81.5%

Condessa V´esper 483 334 69.2%

3.2

Resultados a partir do Algoritmo de M´

aquinas

de Vetor de Suporte

Usando a linguagem R [6], atrav´es do pacote e1071, foram executados os seguintes

comandos afim de se calcular os vetores de suporte referentes `a base de treinamento:

svm.base = svm(X3 ∼ X1+X2, data=base.treino, cost=100, kernel=‘‘linear’’, scale=F)

O argumento kernel indica qual tipo de separa¸c˜ao ser´a feita entre os dados. Nesse

caso, pretende-se realizar uma separa¸c˜ao linear entre os dados, ou seja, o hiperplano ´otimo

´e uma reta conforme foi definido em (2.11).

O argumento cost ´e onde ser´a definido o valor do parˆametro C, que determina a

tolerˆencia dos erros de classifica¸c˜ao da m´aquina de vetor de suporte. Escolheu-se

arbitra-riamente o valor 100 para esse parˆametro.

As vari´aveis X1 e X2 correspondem `as vari´aveis X1 e X2 respectivamente, e a vari´avel

X3 corresponde aos autores.

A seguir, a Figura 10 mostra os vetores de suporte e a divis˜ao realizada pelo algoritmo

(40)

X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70

Antônio José da Silva Aluísio Azevedo

VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação

Livro Esopaida ou Vida de Esopo do autor Antônio José da Silva

(a) Hiperplano para a base de treinamento 1.

X1 X2 20 30 40 50 60 70 20 30 40 50 60 70

Antônio José da Silva Aluísio Azevedo

VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação

Livro Condessa Vésper do autor Aluísio Azevedo

(b) Hiperplano para a base de treinamento 2.

(41)

Usando a fun¸c˜ao predict(), pˆode-se obter a classifica¸c˜ao das laudas de cada base de teste da seguite maneira:

svm.pred = predict(svm.base,baseteste1) svm.pred = predict(svm.base,baseteste2)

A Tabela 7 fornece os resultados das classifica¸c˜oes para cada base de teste.

Tabela 7: Eficiˆencia do algoritmo de M´aquinas de Vetor de Suporte.

Base de Teste Nº de laudas

Nº de laudas classificadas corretamente Percentual de classifica¸c˜oes corretas Nº de vetores de suporte

Esopaida ou Vida de Esopo 81 51 63.0% 865

(42)

4

Conclus˜

oes

Primeiramente, apenas com os dados mostrados nas Se¸c˜oes 3.1 e 3.2, podemos notar

que ambos algoritmos apresentaram resultados satisfat´orios na classifica¸c˜ao correta das

laudas da base de teste nos dois cen´arios.

Pelos dados da Tabela 6, temos que o algoritmo de An´alise de Discriminante foi

mais eficiente em classificar as laudas do livro Esopaida ou a Vida de Esopo. Enquanto,

pela Tabela 7, temos que o algoritmo de M´aquinas de Vetor de Suporte teve um melhor

desempenho ao classificar corretamente as laudas do livro Condessa V´esper.

Nos Apˆendices 6 e 7 deste trabalho ´e mostrado o percentual de acerto de cada

algo-ritmo para os demais cen´arios poss´ıveis. ´E f´acil notar que a porcentagem de acerto do

Algoritmo de An´alise de Discriminante ´e maior quando este tenta classificar as laudas dos

livros do autor 1, enquanto as M´aquinas de Vetor de Suporte apresentam um percentual

de acerto maior para as laudas dos livros do autor 2.

Por´em, de forma geral, ambos algoritmos conseguiram classificar corretamente a maior

parte das laudas dos livros de teste de cada cen´ario poss´ıvel. As ´unicas exce¸c˜oes foram

os cen´arios onde pretendeu-se classificar as laudas dos livros Os Encantos de Medeia e

Guerras do Alecrim e da Manjerona, ambos do autor 1, usando M´aquinas de Vetor de

Suporte. O percentual de acertos dos respectivos cen´arios foram de 19.0% e 43.4%.

Desta forma, podemos dizer que o algoritmo mais bem sucedido foi o de An´alise de

Discriminante. Tamb´em ´e importante ressaltar que as el´ıpses de 95% de confian¸ca dos

livros de teste quase sempre apresentam um comportamento parecido com a el´ıpse do

autor correto, como pode ser visto no Apˆendice 2. Com exce¸c˜ao das el´ıpses dos livros Os

Encantos de Medeia e Anfitri˜ao ou J´upiter Alcmena que est˜ao um pouco mais inclinadas

que a el´ıpse dos dados do autor 1. Ainda assim, esses dois livros tiveram um percentual

de classifica¸c˜oes corretas maior de que 70%.

Com isso, podemos concluir que o principal objetivo deste trabalho foi alcan¸cado.

(43)

poss´ıvel criar vari´aveis a partir de dados textuais, com etiquetagem morfol´ogica, e us´a-las

(44)

Referˆ

encias

1 ALPAYDIN, E. Introduction to machine learning. [S.l.]: MIT press, 2009.

2 KELLEHER, J. D.; NAMEE, B. M.; D’ARCY, A. Fundamentals of machine learning for predictive data analytics: algorithms, worked examples, and case studies. [S.l.]: MIT Press, 2015.

3 AYODELE, T. O. Types of machine learning algorithms. In: New advances in machine learning. [S.l.]: IntechOpen, 2010.

4 AYODELE, T. O. Machine learning overview. In: New Advances in Machine Learning. [S.l.]: IntechOpen, 2010.

5 AGGARWAL, C. C.; ZHAI, C. A survey of text classification algorithms. In: Mining text data. [S.l.]: Springer, 2012. p. 163–222.

6 R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria, 2014. Dispon´ıvel em: hhttp://www.R-project.org/i.

7 KHATTREE, R.; NAIK, D. N. Applied multivariate statistics with SAS software. [S.l.]: SAS Institute Inc., 2018.

8 JOHNSON, D. E. et al. Applied multivariate methods for data analysts. [S.l.]: Duxbury press Pacific Grove, CA, 1998. v. 48.

9 HAYKIN, S. Neural Networks and Learning Machines, 3/E. [S.l.]: Pearson Education India, 2010.

10 VIEIRA, R.; LIMA, V. L. Ling¨u´ıstica computacional: princ´ıpios e aplica¸c˜oes. In: SN.

Anais do XXI Congresso da SBC. I Jornada de Atualiza¸c˜ao em Inteligˆencia Artificial.

[S.l.], 2001. v. 3, p. 47–86.

11 ZAMPIERI, M.; BECKER, M. Colonia: Corpus of historical portuguese. ZSM Studien, Special Volume on Non-Standard Data Sources in Corpus-Based Research, v. 5, p. 69–76, 2013.

12 SCHMID, H. Probabilistic part-ofispeech tagging using decision trees. In: New methods in language processing. [S.l.: s.n.], 2013. p. 154.

13 GARCIA”, P. G. e M. ”Tree-Tagger for Portuguese and Galician”. ”2005”.

Dispon´ıvel em: h”https://gramatica.usc.es/∼gamallo/tagger.htm”i.

14 SCHMID”, H. ”TreeTagger - a part-of-speech tagger for many languages”. ”1994”.

(45)

APˆ

ENDICE 1 -- Distribui¸

ao e QQ-Plot dos

demais cen´

arios poss´ıveis

X1 X2 20 30 40 50 60 30 40 50 60 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12 14

Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Os Encantos de Medeia do autor Antônio José da Silva

(46)

X1 X2 20 30 40 50 60 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12 14

Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Anfitrião ou Júpiter e Alcmena do autor Antônio José da Silva

Antônio José da Silva Aluísio Azevedo

X1 X2 20 30 40 50 60 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12 14

Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Labirinto de Creta do autor Antônio José da Silva

(47)

X1 X2 20 30 40 50 60 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12 14

Distribuição e QQ−plot dos dados de cada autor retirando−se o livro As Variedades de Proteu do autor Antônio José da Silva

Antônio José da Silva Aluísio Azevedo

X1 X2 20 30 40 50 60 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12 14

Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Guerras do Alecrim e da Manjerona do autor Antônio José da Silva

(48)

X1 X2 20 30 40 50 60 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12 14

Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Precipício de Faetonte do autor Antônio José da Silva

Antônio José da Silva Aluísio Azevedo

X1 X2 20 30 40 50 60 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12 14

Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Casa de Pensão do autor Aluísio Azevedo

(49)

X1 X2 20 30 40 50 60 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 30 40 50 60 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12

Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Filomena Borges do autor Aluísio Azevedo

Antônio José da Silva Aluísio Azevedo

X1 X2 20 30 40 50 60 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 5 10 15

Distribuição e QQ−plot dos dados de cada autor retirando−se o livro O Cortiço do autor Aluísio Azevedo

(50)

APˆ

ENDICE 2 -- Regi˜

oes de classifica¸

ao

para os demais cen´

arios

X1 X2 10 20 30 40 50 60 70 0 20 40 60

Antônio José da Silva Aluísio Azevedo Os Encantos de Medeia

R1

R2

Livro Os Encantos de Medeia do autor Antônio José da Silva

(51)

X1 X2 10 20 30 40 50 60 70 0 20 40 60

Antônio José da Silva Aluísio Azevedo

Anfitrião ou Júpiter e Alcmena

R1

R2

Livro Anfitrião ou Júpiter e Alcmena do autor Antônio José da Silva

X1 X2 10 20 30 40 50 60 70 0 20 40 60

Antônio José da Silva Aluísio Azevedo Labirinto de Creta

R1

R2

Livro Labirinto de Creta do autor Antônio José da Silva

(52)

X1 X2 10 20 30 40 50 60 70 0 20 40 60

Antônio José da Silva Aluísio Azevedo As Variedades de Proteu

R1

R2

Livro As Variedades de Proteu do autor Antônio José da Silva

X1 X2 10 20 30 40 50 60 70 0 20 40 60

Antônio José da Silva Aluísio Azevedo

Guerras do Alecrim e da Manjerona

R1

R2

Livro Guerras do Alecrim e da Manjerona do autor Antônio José da Silva

(53)

X1 X2 10 20 30 40 50 60 70 0 20 40 60

Antônio José da Silva Aluísio Azevedo Precipício de Faetonte

R1

R2

Livro Precipício de Faetonte do autor Antônio José da Silva

X1 X2 10 20 30 40 50 60 70 0 20 40 60

Antônio José da Silva Aluísio Azevedo Casa de Pensão

R1

R2

Livro Casa de Pensão do autor Aluísio Azevedo

(54)

X1 X2 10 20 30 40 50 60 70 0 20 40 60

Antônio José da Silva Aluísio Azevedo Filomena Borges

R1

R2

Livro Filomena Borges do autor Aluísio Azevedo

X1 X2 10 20 30 40 50 60 70 0 20 40 60

Antônio José da Silva Aluísio Azevedo O Cortiço

R1

R2

Livro O Cortiço do autor Aluísio Azevedo

(55)

APˆ

ENDICE 3 -- Hiperplano de separa¸

ao

para os demais cen´

arios

X1 X2 20 30 40 50 60 70 10 20 30 40 50 60

Antônio José da Silva Aluísio Azevedo

VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação

Livro Os Encantos de Medeia

do autor Antônio José da Silva

(56)

X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70

Antônio José da Silva Aluísio Azevedo

VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação

Livro Anfitrião ou Júpiter e Alcmena

do autor Antônio José da Silva

(57)

X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70

Antônio José da Silva Aluísio Azevedo

VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação

Livro Labirinto de Creta

do autor Antônio José da Silva

(58)

X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70

Antônio José da Silva Aluísio Azevedo

VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação

Livro As Variedades de Proteu

do autor Antônio José da Silva

(59)

X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70

Antônio José da Silva Aluísio Azevedo

VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação

Livro Guerras do Alecrim e da Manjerona

do autor Antônio José da Silva

(60)

X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70

Antônio José da Silva Aluísio Azevedo

VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação

Livro Precipício de Faetonte

do autor Antônio José da Silva

(61)

X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70

Antônio José da Silva Aluísio Azevedo

VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação

Livro Casa de Pensão

do autor Aluísio Azevedo

(62)

X1 X2 20 30 40 50 60 10 20 30 40 50 60 70

Antônio José da Silva Aluísio Azevedo

VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação

Livro Filomena Borges

do autor Aluísio Azevedo

(63)

X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70

Antônio José da Silva Aluísio Azevedo

VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação

Livro O Cortiço

do autor Aluísio Azevedo

(64)

APˆ

ENDICE 4 -- Estimativas amostrais para

(65)

Tabela 8: Estimativas amostrais para os demais cen´arios poss´ıveis

Cen´arios

(livro usado como teste) Autor Estimativas Amoestrais

Os Encantos de Medeia π1 X1 =  34.249 46.146  ; S1 =  40.550 −22.532 −22.532 48.761  π2 X2 =  43.790 35.668  ; S2 =  49.346 −37.118 −37.118 68.955  Anfitri˜ao ou J´upiter e Alcmena π1 X1 =  34.595 47.647  ; S1 =  37.288 −27.713 −27.713 53.708  π2 X2 =  43.790 35.668  ; S2 =  49.346 −37.118 −37.118 68.955  Labirinto de Creta π1 X1 =  33.715 47.128  ; S1 =  41.115 −24.553 −24.553 54.402  π2 X2 =  43.790 35.668  ; S2 =  49.346 −37.118 −37.118 68.955  As Variedades de Proteu π1 X1 =  34.007 47.011  ; S1 =  39.488 −23.618 −23.618 53.339  π2 X2 =  43.790 35.668  ; S2 =  49.346 −37.118 −37.118 68.955  Guerras do Alecrim e da Manjerona π1 X1 =  33.948 46.531  ; S1 =  40.594 −24.241 −24.241 54.073  π2 X2 =  43.790 35.668  ; S2 =  49.346 −37.118 −37.118 68.955  Precip´ıcio de Faetonte π1 X1 =  33.816 46.795  ; S1 =  40.216 −23.648 −23.648 52.789  π2 X2 =  43.790 35.668  ; S2 =  49.346 −37.118 −37.118 68.955  Casa de Pens˜ao π1 X1 =  34.046 46.818  ; S1 =  39.746 −24.212 −24.212 53.060  π2 X2 =  43.901 35.539  ; S2 =  52.712 −41.248 −41.248 74.678  Filomena Borges π1 X1 =  34.046 46.818  ; S1 =  39.746 −24.212 −24.212 53.060  π2 X2 =  44.026 35.650  ; S2 =  48.339 −35.183 −35.183 65.780  O Corti¸co π1 X1 =  34.046 46.818  ; S1 =  39.746 −24.212 −24.212 53.060  π2 X2 =  42.906 36.015  ; S2 =  46.705 −36.028 −36.028 66.462 

(66)

APˆ

ENDICE 5 -- Teste de Shapiro-Wilk

multivariado e Teste Box’s

(67)

Tabela 9: Teste de Shapiro-Wilk Multivariado e Teste Box’s M para demais cen´arios

Cen´arios

(livro usado como teste) Autor

Teste de Shapiro-Wilk Teste Box’s M

Valor p Estat´ıstica de teste Valor p Estat´ıstica de teste Os Encantos de Medeia π1 0.224 0.996 0 26.864 π2 0.069 0.998 Anfitri˜ao ou J´upiter e Alcmena π1 0.349 0.996 0 22.244 π2 0.069 0.998 Labirinto de Creta π1 0.579 0.997 0.002 15.327 π2 0.069 0.998 As Variedades de Proteu π1 0.276 0.997 0 19.603 π2 0.069 0.998 Guerras do Alecrim e da Manjerona π1 0.206 0.996 0.001 17.117 π2 0.069 0.998 Precip´ıcio de Faetonte π1 0.192 0.996 0 19.263 π2 0.069 0.998 Casa de Pens˜ao π1 0.293 0.997 0 29.347 π2 0.106 0.998 Filomena Borges π1 0.293 0.997 0.003 14.26 π2 0.063 0.998 O Corti¸co π1 0.293 0.997 0.001 16.398 π2 0.186 0.998

(68)

APˆ

ENDICE 6 -- Eficiˆ

encia do algoritmo de

An´

alise de Discriminante

(69)

Tabela 10: Eficiˆencia do algoritmo de An´alise de Discriminante para os demais cen´arios

Base de Teste Nº de laudas

Nº de laudas

classificadas corretamente

Percentual de classifica¸c˜oes corretas

Os Encantos de Medeia 63 60 95.2% Anfitri˜ao ou J´upiter e Alcmena 109 81 74.3% Labirinto de Creta 121 88 72.7% As Variedades de Proteu 65 52 80.0% Guerras do Alecrim e da Manjerona 83 70 84.3% Precip´ıcio de Faetonte 83 61 73.5% Casa de Pens˜ao 436 329 75.5% Filomena Borges 243 167 68.7% O Corti¸co 364 306 84.1%

(70)

APˆ

ENDICE 7 -- Eficiˆ

encia do algoritmo de

aquinas de Vetor de

Suporte para demais

(71)

Tabela 11: Eficiˆencia do algoritmo de M´aquina de Vetor de Suporte para os demais cen´arios

Base de Teste Nº de laudas

Nº de laudas

classificadas corretamente

Percentual de classifica¸c˜oes corretas

Nº de vetores de suporte Os Encantos de Medeia 63 12 19.0% 907 Anfitri˜ao ou J´upiter e Alcmena 109 58 53.2% 830 Labirinto de Creta 121 74 61.2% 794 As Variedades de Proteu 65 34 52.3% 869 Guerras do Alecrim e da Manjerona 83 36 43.4% 862 Precip´ıcio de Faetonte 83 50 60.2% 847 Casa de Pens˜ao 436 380 87.2% 825 Filomena Borges 243 202 83.1% 852 O Corti¸co 364 328 90.1% 872

Referências

Documentos relacionados

Com relação à análise de sequenciamento de genomas e ao GRC (Genome Reference Consortium), que é responsável por manter e melhorar a montagem do genoma de referência humano e do

 Ambulância da marca Ford (viatura nº8), de matrícula XJ-23-45, dotada com sirene, luz rotativa e equipamento de comunicação (Emissor/Receptor com adaptador);.  Ambulância da

A assistência da equipe de enfermagem para a pessoa portadora de Diabetes Mellitus deve ser desenvolvida para um processo de educação em saúde que contribua para que a

The fatigue study presented in this work was a first approach to the mixed-mode crack propagation behaviour using a mixed-mode apparatus that analyses the mode I and

For additional support to design options the structural analysis of the Vila Fria bridge was carried out using a 3D structural numerical model using the finite element method by

forficata recém-colhidas foram tratadas com escarificação mecânica, imersão em ácido sulfúrico concentrado durante 5 e 10 minutos, sementes armazenadas na geladeira (3 ± 1

Our contributions are: a set of guidelines that provide meaning to the different modelling elements of SysML used during the design of systems; the individual formal semantics for

Para isto, foi realizada uma série de experimentos laboratoriais que demonstraram que: (1) a presença de ovos frescos não altera o tempo necessário para o início de novas