Uso de Aprendizado de Máquinas para

(1)

Uso de Aprendizado de M´

aquinas para

classifica¸

c˜

ao de textos.

Niter´oi - RJ, Brasil

(2)

Isabelly da Silva Almeida

Uso de Aprendizado de M´

aquinas

para classifica¸

c˜

ao de textos.

Trabalho de Conclus˜ao de Curso

Monografia apresentada para obten¸c˜ao do grau de Bacharel em

Estat´ıstica pela Universidade Federal Fluminense.

Orientador(a): Prof. Dr. Valentin Sisko

Co-Orientador(a): Prof. Dr. Hugo Henrique Kegler dos Santos

Niter´oi - RJ, Brasil

(3)

Isabelly da Silva Almeida

Uso de Aprendizado de M´

aquinas para

classifica¸

c˜

ao de textos.

Monografia de Projeto Final de Gradua¸c˜ao sob o t´ıtulo “Uso

de Aprendizado de M´aquinas para classifica¸c˜ao de textos.”,

de-fendida por Isabelly da Silva Almeida e aprovada em 04 de

dezembro de 2020, na cidade de Niter´oi, no Estado do Rio de

Janeiro, pela banca examinadora constitu´ıda pelos professores:

Prof. Dr. Valentin Sisko Departamento de Estat´ıstica – UFF

Prof. Dr. Hugo Henrique Kegler dos Santos Departamento de Estat´ıstica – UFF

Prof. Dr. Karina Yuriko Yaginuma Departamento de Estat´ıstica – UFF

Prof. Dr. Mois´es Lima de Menezes

Departamento de Estat´ıstica – UFF

(4)

Bibliotecário responsável: Sandra Lopes Coelho - CRB7/3389

A447u Almeida, Isabelly da Silva

Uso de Aprendizado de Máquinas para classificação de textos. / Isabelly da Silva Almeida ; Valentin Sisko, orientador ; Hugo Henrique Kegler dos Santos, coorientador. Niterói, 2020.

69 f. : il.

Trabalho de Conclusão de Curso (Graduação em

Estatística)-Universidade Federal Fluminense, Instituto de Matemática e Estatística, Niterói, 2020.

1. Aprendizado de Máquinas. 2. Classificação de Textos. 3. Análise de Discriminante. 4. Máquinas de Vetor de Suporte. 5. Produção intelectual. I. Sisko, Valentin, orientador. II. Kegler dos Santos, Hugo Henrique,

coorientador. III. Universidade Federal Fluminense. Instituto de Matemática e Estatística. IV. Título.

(5)

-Com o crescimento do acesso a internet, um grande volume de dados textuais

migra-ram do papel impresso para o meio eletrˆonico. E-mails, not´ıcias, livros, artigos cient´ıficos

e outros tipos de texto s˜ao produzidos diariamente. Por vezes surge a necessidade de

cla-sificar essas informa¸cões. A técnica de classifica¸cão de texto pode ser aplicada em várias

´

areas da minera¸c˜ao de texto. O uso de Aprendizado de M´aquinas para resolver problemas

desse tipo torna-se uma ferramenta bastante útil por dispôr de vários algoritmos capazes

de reconhecer padrões e criar regras de associa¸cão de forma automática. Este trabalho

tem como objetivo verificar a eficiˆencia de dois algoritmos de Aprendizado de M´aquinas

Supervisionado: Análise de Discriminante e Máquinas de Vetor de Suporte, na resolu¸cão

do problema de classifica¸c˜ao de texto. Para isso, foram usados livros que passaram por

um processo de etiquetagem morfol´ogica. As etiquetas de cada palavra do livro serviram

para criar as vari´aveis usadas nas an´alises. Desta maneira, pretendemos verificar se os

algortimos s˜ao capazes de classificar, a partir de uma base de treinamento com livros de

dois autores distintos, se um novo livro pertence a um determinado autor.

Palavras-chave: Aprendizado de Máquinas. Classifica¸cão de Texto. Análise de

Discrimi-nante. M´aquinas de Vetor de Suporte. Etiquetagem Morfol´ogica. TreeTagger. Colonia

(6)

Dedico este trabalho a todos aqueles que nunca desistiram de praticar o bem. O

(7)

`

A fam´ılia e aos amigos pelo incentivo, apoio constantes e pela ajuda mesmo fora do

ambiente acadˆemico.

Ao professor Valentin, pela paciˆencia na orienta¸c˜ao e incentivo, e que tornou poss´ıvel

a conclus˜ao deste trabalho.

Agrade¸co tamb´em a todos os professores deste curso que me acompanharam durante

a gradua¸c˜ao.

Agrade¸co ao Andre por ter me dado todo amor e apoio nesta jornada, fazendo a vida valer cada vez mais a pena.

(8)

Lista de Figuras Lista de Tabelas 1 Introdu¸cão p. 11 1.1 Aprendizado de Máquinas . . . p. 11 1.1.1 Aprendizado Supervisionado . . . p. 12 1.2 Motiva¸cão . . . p. 13 1.3 Objetivos . . . p. 13 1.4 Organiza¸cão . . . p. 14 2 Materiais e Métodos p. 15

2.1 An´alise de Discriminante . . . p. 15

2.1.1 Separa¸cão e Classifica¸cão para Duas Popula¸cões . . . p. 16

2.1.2 Classifica¸c˜ao para Duas Popula¸c˜oes Normais Multivariadas . . . p. 19

2.1.2.1 Classifica¸c˜ao para Popula¸c˜oes Normais Σ1 = Σ2 = Σ . p. 19

2.1.2.2 Classifica¸c˜ao para Popula¸c˜oes Normais Σ1 6= Σ2 . . . . p. 20

2.2 M´aquinas de Vetor de Suporte . . . p. 22

2.2.1 Hiperplano Ótimo para Padrões Linearmente Separáveis . . . . p. 22

2.2.2 Erros de Classifica¸c˜ao . . . p. 27

2.3 Etiquetagem Morfol´ogica . . . p. 29

2.4 O Colˆonia Corpus . . . p. 30

(9)

3.1 Resultados a partir da An´alise de Discriminante . . . p. 34

3.2 Resultados a partir do Algoritmo de M´aquinas de Vetor de Suporte . . p. 38

4 Conclus˜oes p. 41

Referˆencias p. 43

Apêndice 1 -- Distribui¸cão e QQ-Plot dos demais cenários poss´ıveis p. 44

Apêndice 2 -- Regiões de classifica¸cão para os demais cenários p. 49

Apêndice 3 -- Hiperplano de separa¸cão para os demais cenários p. 54

Apˆendice 4 -- Tabela 4 para demais cen´arios. p. 63

(10)

1 Ilustra¸cão das Regiões de classifica¸cão para duas popula¸cões. . . p. 17

2 Erro de classifica¸c˜ao para o caso univariado com variˆancias iguais. . . . p. 20

3 Regra de classifica¸c˜ao para duas popula¸c˜oes normais univariadas com

variˆancias distintas. . . p. 22

4 Hiperplano e Margem de Separa¸c˜ao. . . p. 23

5 Interpreta¸cão geométrica das distâncias algébricas de pontos até o

hiper-plano ´otimo para o caso bidimensional. . . p. 25

6 Vetores de Suporte e Hiperplano de Separa¸c˜ao. . . p. 26

7 Viola¸cão à Margem de separa¸cão suave. . . p. 28

8 Distribui¸c˜ao e QQ-Plot. . . p. 36

9 Resultado da classifica¸c˜ao usando An´alise de Discriminante. . . p. 37

(11)

1 Tabela de Custos . . . p. 18

2 Sa´ıdas do TreeTagger para uma senten¸ca em portuguˆes. . . p. 31

3 Autores e livros escolhidos. . . p. 32

4 Estimativas amostrais para cada cen´ario. . . p. 34

5 Teste de Shapiro-Wilk multivariado e Teste Box’s M. . . p. 35

6 Eficiˆencia do algoritmo de An´alise de Discriminante. . . p. 38

7 Eficiˆencia do algoritmo de M´aquinas de Vetor de Suporte. . . p. 40

8 Estimativas amostrais para os demais cen´arios poss´ıveis . . . p. 64

9 Teste de Shapiro-Wilk Multivariado e Teste Box’s M para demais cen´arios p. 66

10 Eficiência do algoritmo de Análise de Discriminante para os demais cenários p. 68

11 Eficiˆencia do algoritmo de M´aquina de Vetor de Suporte para os demais

(12)

1 Introdu¸

c˜

ao

1.1 Aprendizado de M´

aquinas

Para resolver um problema em um computador, precisamos de um algoritmo, uma

sequˆencia de instru¸c˜oes que devem ser executadas para transformar uma determinada

entrada de dados em uma sa´ıda desejada. Porém há certas tarefas para as quais não exite

um algoritmo j´a definido.

Por exemplo, imagine que se queira classificar um e-mail como uma mensagem

im-portante ou como um spam. Neste caso, sabemos que o dado de entrada ´e um documento

de e-mail que, no caso mais simples, ´e um arquivo de caracteres, e sabemos que a sa´ıda

deve ser uma variável binária do tipo “sim/não” indicando se a mensagem é um spam [1].

Pode-se, ent˜ao, compilar v´arios e-mails de exemplo, previamente classificados como

spam ou n˜ao, com o objetivo de criar algoritmos capazes de identificar padr˜oes e, a partir

desses padr˜oes, aprender quais caracter´ısticas fazem de uma mensagem um spam.

O Aprendizado de M´aquinas ´e definido como um processo automatizado que extrai

padr˜oes de dados [2]. Tais padr˜oes podem ajudar a entender processos, classificar objetos

ou fazer previsões, usando teoria estat´ıstica na constru¸cão de modelos matemáticos, uma

vez que a tarefa principal ´e inferˆencia sobre uma amostra [1].

Os algoritmos de Aprendizado de M´aquinas s˜ao organizados de acordo com o resultado

desejado. Os tipos mais comuns, segundo [3] e [4], incluem as t´ecnicas a seguir.

Aprendizado supervisionado: onde o algoritmo aprende uma fun¸c˜ao a partir dos

dados da base de treinamento. Esses dados cont´em pares que consistem em objetos

de entrada (que tipicamente s˜ao vetores) e sa´ıdas desejadas. A sa´ıda da fun¸c˜ao pode

ser um valor cont´ınuo, se for usado um algoritmo de regress˜ao, ou pode prever um

r´otulo de classe do objeto de entrada, no caso de problemas de classifica¸c˜ao (como

(13)

Aprendizado não supervisionado: só existem os dados de entrada, isto é, sem

rótulos de classifica¸cão ou valores previamente conhecidos. Um modelo é ajustado

aos dados observados com o objetivo de encontrar padr˜oes nessas observa¸c˜oes. Por

exemplo, um algoritmo de clustering seria uma forma de aprendizado n˜ao

supervi-sionado. [1].

Aprendizado semi-supervisionado: combina exemplos rotulados e n˜ao rotula-dos para gerar um regressor ou classificador apropriado.

Aprendizado por refor¸co: o algoritmo aprende uma regra de como agir, dadas

algumas observa¸c˜oes dos dados. Toda a¸c˜ao tem algum impacto no ambiente e o

ambiente fornece um feedback que orienta o algoritmo de aprendizado.

Transdu¸cão: semelhante à aprendizado supervisionado, porém não constrói

expli-citamente uma fun¸c˜ao, em vez disso, tenta prever novos resultados com base em

dados de entrada usados para treinamento, sa´ıdas de treinamento e novas entradas.

Neste trabalho, o foco ser´a a aplica¸c˜ao de alguns agoritmos do tipo Supervisionado.

Por isso não será feito um aprofundamento teórico para os demais tipos.

1.1.1 Aprendizado Supervisionado

Como visto anteriormente, o Aprendizado de Máquinas Supervisionado é uma técnica

na qual algoritmo aprende uma fun¸c˜ao a partir dos dados da base de treinamento. Esta

base possui objetos de entrada e sa´ıdas desejadas; permitindo assim que o algoritmo

aprenda uma fun¸cão [4]. Essa tecnica é altamente dependente das informa¸cões fornecidas

pelas classifica¸c˜oes pr´e-determinadas dos dados de treinamento [3].

Ainda segundo [3], para os problemas de classifica¸c˜ao, h´a certos tipos de algoritmos

de Aprendizado Supervisionado mais comuns, que s˜ao os seguintes:

Classifica¸c˜ao linear:

– Regress˜ao log´ıstica;

– Discrimina¸c˜ao e classifica¸c˜ao;

– Classificador Na¨ıve Bayes; – Perceptron;

(14)

Classificadores quadráticos; Refor¸co; Árvore de decisão; Redes neurais; Redes bayesianas.

1.2 Motiva¸

c˜

ao

Como argumenta [5], a t´ecnica de classifica¸c˜ao de texto pode ser aplicada em uma

ampla variedade de problemas da ´area de minera¸c˜ao de texto. Por exemplo, na filtragem

e organiza¸c˜ao de not´ıcias, uma vez que a maior parte dos ve´ıculos de informa¸c˜ao como

jornais e revistas migraram para o meio eletrônico e produzem um número considerável

de informa¸c˜ao textual todos os dias. Portanto, m´etodos automatizados podem ser muito

´

uteis para a categoriza¸c˜ao de not´ıcias em uma variedade de portais da web. Aplica-se

também na organiza¸cão e recupera¸cão de documentos de grandes bibliotecas digitais,

cole¸cões da web, literatura cient´ıfica ou até feeds de redes sociais. E, como já mencionado,

na classifica¸c˜ao de e-mail e filtragem de spam.

Sob esse cenário, o uso do Aprendizado de Máquinas para problemas de classifica¸cão

de texto torna-se uma ferramenta bastante ´util, capaz de reconhecer padr˜oes, criar regras

de associa¸cão e realizar análises qualitativas e quantitativas de forma automática.

1.3 Objetivos

O objetivo geral deste trabalho ´e explorar e comparar duas t´ecnicas de Aprendizado

de Máquinas e aplicá-las na classifica¸cão de textos.

As técnicas de Aprendizado de Máquinas que foram aplicadas às variáveis escolhidas

são: Análise de Discriminante e Máquinas de Vetor de Suporte.

Os objetivos espec´ıficos s˜ao listados a seguir:

Estudar sobre An´alise de Discriminante;

(15)

Entender como Corpus de textos s˜ao criados e como podemos utilizar as informa¸c˜oes presentes em sua estrutura;

Manipular dados de texto com etiquetagem morfol´ogicas e criar vari´aveis a partir das palavras de uma senten¸ca.

1.4 Organiza¸

c˜

ao

No Cap´ıtulo 2 deste trabalho ´e apresentado um estudo te´orico dos algoritmos de

Aprendizado de M´aquinas Supervisionado que se pretende aplicar a um banco de dados

formado a partir de alguns livros. A Se¸cão 2.1 se dedica a dar embasamento teórico à

Análise de Discriminante, enquanto a Se¸cão 2.2 às Máquinas de Vetor de Suporte. Na

Se¸c˜ao 2.3 apresentamos os conceitos de etiquetagem morfol´ogica e o Colonia Corpus[11].

No Cap´ıtulo 3 ser´a descrito quais dados foram usados para criar a base que ser´a

anali-sada e quais vari´aveis foram consideradas para exemplificar um problema de classifica¸c˜ao.

Na Se¸cão 3.1 apresentamos as análises dos dados e os resultados obtidos com Análise de

Discriminante, enquanto que na Se¸c˜ao 3.2 temos os resultados da aplica¸c˜ao do algoritmo

de M´aquinas de Vetor e Suporte.

Por fim, no Cap´ıtulo 4 temos as considera¸c˜oes finais a cerca dos resultados obtidos

(16)

2 Materiais e M´

etodos

O uso de Aprendizado Supervisionado ´e bastante comum em problemas de

classi-fica¸c˜ao, porque geralmente tˆem-se como objetivo fazer com que o computador aprenda

um sistema de classifica¸c˜ao que ´e criado pelo programador.

Neste cap´ıtulo serão apresentadas as duas técnicas de Aprendizado de Máquinas

Su-pervisionado aplicadas neste trabalho.

2.1 An´

alise de Discriminante

A An´alise de Discriminante lida com um tipo especial de algoritmo de aprendizado

supervisionado. Concentra-se em separar conjuntos distintos de unidades em duas ou

mais popula¸cões e, em seguida, alocar novas unidades, cuja a popula¸cão de origem é

desconhecida, em uma dessas popula¸c˜oes [7].

Segundo [8], os objetivos da discrimina¸cão e da classifica¸cão são, respectivamente, os

seguintes:

Descrever graficamente ou algebricamente as caracter´ısticas diferenciais dos objetos

de v´arias popula¸c˜oes conhecidas. Tentar encontrar “discriminantes” cujos valores

numéricos são tais que as popula¸cões estejam separadas tanto quanto poss´ıvel.

Alocar objetos em uma das classes rotuladas. O n´umero de classes deve ser pelo

menos dois. A ênfase está na deriva¸cão de uma regra que pode ser usada para

atribuir de maneira otimizada novos objetos a essas classes.

A fun¸c˜ao utilizada para discriminar objetos tamb´em pode ser usada para alocar, assim

como as regras de aloca¸c˜ao de objetos podem ser usadas para discriminar. Na pr´atica,

os objetivos de discrimina¸cão e classifica¸cão se sobrepõem, fazendo com que a distin¸cão

(17)

2.1.1 Separa¸

c˜

ao e Classifica¸

c˜

ao para Duas Popula¸

c˜

oes

Suponha que se queira realizar um dos seguintes processos.

1. Separar duas classes de objetos.

2. Classificar um novo objeto em uma das duas classes previamente estipuladas.

Os objetos são separados ou classificados com base nas medi¸cões de p variáveis

aleat´orias associadas XT = [X1, X2, ..., Xp].

Os valores observados de X diferem at´e certo ponto de uma classe para outra.

Pode-se pensar que os valores de X da primeira clasPode-se s˜ao provenientes da popula¸c˜ao π1 e os

da segunda classe da popula¸c˜ao π2. Essas duas popula¸c˜oes podem ser descritas por suas

fun¸c˜oes de densidade de probabilidade f1(x) e f2(x), e consequentemente, pode-se pensar

em atribuir observa¸cões à popula¸cões ou objetos à classes.

As regras de aloca¸cão ou classifica¸cão são desenvolvidas a partir dos dados de uma

base treinamento. As p caracter´ısticas medidas dos objetos selecionados aleatoriamente,

conhecidos por vir de cada uma das duas popula¸c˜oes, s˜ao examinadas quanto as suas

diferen¸cas.

O conjunto de poss´ıveis resultados da amostragem ser´a dividido nas regi˜oes R1 e R2,

de modo que, se uma nova observa¸c˜ao cair em R1, esta ser´a classificada como proveniente

da popula¸cão π1 e, se cair em R2, será classificada como sendo da popula¸cão π2.

Se a probabilidade de uma classifica¸c˜ao incorreta for pequena, ent˜ao o procedimento de

classifica¸c˜ao ´e considerado adequado. Existem caracter´ısticas adicionais que uma regra de

classifica¸c˜ao “ideal” deve possuir. Pode ser que uma classe ou popula¸c˜ao tenha uma maior

probabilidade de ocorrência que outra porque uma das duas popula¸cões é relativamente

muito maior que a outra. Uma regra de classifica¸c˜ao ideal deve levar em conta essas

“probabilidades a priori ”.

Por conta disso, ´e importante estabalecer um custo de classifica¸c˜ao. Suponha que

a classifica¸c˜ao de um objeto π1 como pertencente a classe π2 representa um erro mais

grave que a classifica¸c˜ao de um objeto π2 como pertencente a π1. Um procedimento de

classifica¸cão ideal deve considerar os custos associados à classifica¸cão incorreta.

Sejam f1(x) e f2(x) as fun¸c˜oes de densidade de probabilidade associadas ao vetor

aleat´orio XT = [X1, X2, ..., Xp] para as popula¸c˜oes π1 e π2 respectivamente e seja Ω = Rp

(18)

x1 x2 População π1 População π₂ R1 R2

Figura 1: Ilustra¸cão das Regiões de classifica¸cão para duas popula¸cões.

Suponha que um objeto com medidas associadas a X deve ser atribu´ıdo a π1 ou π2.

Pode-se tomar uma parti¸c˜ao do espa¸co amostral tal que R1 seja o conjunto de valores de

X para os quais classificamos objetos como π1 e R2 = Ω − R1 ´e o conjuntos dos valores

de X restantes para os quais classificamos objetos como π2.

Pode-se calcular a probabilidade condicional P (2|1) = “classificar uma observa¸c˜ao

como π2 quando esta na verdade vem de π1” como sendo:

P (2|1) = P (X ∈ R2|π1) =

Z

R2=Ω−R1

f1(x) dx. (2.1)

Similarmente, a probabilidade P (1|2) = “classificar uma observa¸c˜ao como π1 quando

esta na verdade vem de π2” como sendo:

P (1|2) = P (X ∈ R1|π2) =

Z

R1

f2(x) dx. (2.2)

Sejam p1 e p2 as probabilidades a priori, tais que p1 = P (X ∈ π1) e p2 = P (X ∈ π2),

onde têm-se p1 + p2 = 1. A partir da´ı, têm-se que as probabilidades de classifica¸cão,

(19)

1. Probabilidade da observa¸cão ser da popula¸cão π1 e ser classificada como π1 é

P (X ∈ R1|π1)P (π1) = P (1|1)p1.

P (X ∈ R1|π2)P (π2) = P (1|2)p2.

P (X ∈ R2|π2)P (π2) = P (2|2)p2.

P (X ∈ R2|π1)P (π1) = P (2|1)p1.

Os custos da classifica¸c˜ao incorreta podem ser definidos por uma tabela da seguinte

forma:

Tabela 1: Tabela de Custos

Popula¸c˜ao Verdadeira Classifica¸c˜ao

π1 π2

π1 0 c(2|1)

π2 c(1|2) 0

Os custos são zero quando a classifica¸cão é correta, c(1|2) é o custo da observa¸cão ser

de π2 e ser classificada como π1 e, finalmente, c(2|1) ´e o custo da observa¸c˜ao ser de π1 e

ser classificada como π2.

Defini¸cão 2.1 O Custo Médio de Classifica¸cão Incorreta, isto é, Expected Cost of

Mis-classification (ECM), como sendo:

ECM = c(2|1)P (2|1)p1+ c(1|2)P (1|2)p2. (2.3)

Uma regra de classifica¸c˜ao razo´avel deve ter um ECM menor poss´ıvel.

(20)

X para as quais as seguintes desigualdades s˜ao v´alidas: R1 = n x : f1(x) f2(x) ≥ c(1|2) c(2|1) p2 p1 o , R2 = n x : f1(x) f2(x) < c(1|2) c(2|1) p2 p1 o . (2.4)

2.1.2 Classifica¸

c˜

ao para Duas Popula¸

c˜

oes Normais

Multivaria-das

Os procedimentos de classifica¸c˜ao baseados em popula¸c˜oes normais predominam na

prática devido à sua simplicidade e alta eficiência em uma ampla variedade de modelos

populacionais. Assumindo que f1 e f2 são fun¸cões de densidade de uma popula¸cão normal

multivariada, a primeira com vetor de média de µ1 e matriz de variância e covariância

Σ1, e a segunda com vetor de média de µ2 e matriz de variância e covariância Σ2. Para

realizar as classifica¸cões, é necessário verificar os casos para Σ1 = Σ2 e Σ1 6= Σ2.

2.1.2.1 Classifica¸c˜ao para Popula¸c˜oes Normais Σ1 = Σ2 = Σ

Suponha que a densidade conjunta de XT = [X1, X2, ..., Xp] das popula¸c˜oes π1 e π2

seja dada por:

fi(X) = 1 (2π)p/2_|Σ|1/2exp h −1 2(X − µi) T_Σ−1 (X − µi) i , ∀i = 1, 2, (2.5)

onde os parˆametros µ1, µ2 e Σ s˜ao conhecidos.

Resultado 2.2 As regi˜oes que produzem menor ECM s˜ao tais que:

     R1 : exp h −1 2(X − µ1) T_Σ−1_{(X − µ} 1) + 1₂(X − µ2)TΣ−1(X − µ2) i ≥c(1|2)_c(2|1)p1 p2 , R2 : exp h −1 2(X − µ1) T_Σ−1_{(X − µ} 1) + 1₂(X − µ2)TΣ−1(X − µ2) i <c(1|2)_c(2|1)p1 p2 . (2.6)

(21)

seguir.

Resultado 2.3 Sejam as popula¸c˜oes π1 e π2 descritas pela fun¸c˜ao de densidade normal

multivariada da forma (2.5). Então, a regra de aloca¸cão que minimiza o ECM é a da

forma: 1. alocar X0 em π1 se: (µ1− µ2)TΣ−1X0− 1 2(µ1− µ2) T_Σ−1 (µ1− µ2) < ln hc(1|2) c(2|1) p₁ p2 i . (2.7)

2. alocar X0 em π2 caso contr´ario.

<−−−−−−−−−− Classificar em π1 −−−−−−−−−><−−−−−−−−− Classificar em π2 −−−−−−−−>

P(X∈R1|X∈ π2) P(X∈R2|X∈ π1)

f1(x) f2(x)

Figura 2: Erro de classifica¸c˜ao para o caso univariado com variˆancias iguais.

2.1.2.2 Classifica¸c˜ao para Popula¸c˜oes Normais Σ1 6= Σ2

As regras de classifica¸cão são mais complicadas quando as matrizes de covariância

populacional s˜ao desiguais. Considerando as densidades normais multivariadas em (2.5)

com Σi, i = 1, 2, no lugar de Σ de forma que as matrizes de covariˆancia e os vetores de

(22)

Resultado 2.4 As regi˜oes R1 e R2 que minimizam o ECM, para este caso, s˜ao definidas

pelos valores e X para as quais as seguintes desigualdades s˜ao v´alidas:

     R1 : −1₂XT(Σ−11 − Σ −1 2 )X + (µT1Σ −1 1 − µT2Σ −1 2 )X − k ≥ ln h c(1|2) c(2|1) p1 p2 i , R2 : −1₂XT(Σ−11 − Σ −1 2 )X + (µT1Σ −1 1 − µT2Σ −1 2 )X − k < ln h c(1|2) c(2|1) p1 p2 i , (2.8) onde, k = −1 2ln h|Σ₁| |Σ2| i +1 2(µ T 1Σ −1 1 − µ T 2Σ −1 2 ). (2.9)

A regra de classifica¸c˜ao para popula¸c˜oes normais multivariadas seguem de 2.8.

Resultado 2.5 Sejam as popula¸c˜oes π1 e π2 descritas pela fun¸c˜ao de densidade normal

multivariada com vetor de m´edias e matrizes de covariˆancias µ1, Σ1 e µ2, Σ2,

respecti-vamente. A regra de aloca¸cão que minimiza o custo esperado da classifica¸cão incorreta é

dada por: 1. alocar X0 em π1 se: −1 2X0 T (Σ−1₁ − Σ−1₂ )X0+ (µT1Σ −1 1 − µ T 2Σ −1 2 )X0− k ≥ ln hc(1|2) c(2|1) p₁ p2 i , (2.10)

onde k est´a definido na equa¸c˜ao (2.9),

2. alocar X0 em π2 caso contr´ario.

Na pr´atica, tanto para o caso Σ1 = Σ2 quanto para o caso Σ1 6= Σ2, para estimar

µ1 e µ2 usa-se as fun¸c˜oes amostrais X1 e X2, tais que [8]:

Xi= 1_nXT1,

com i = 1, 2 e 1 matriz n × p onde todas as entradas s˜ao o n´umero 1.

Para estimar as matrizes de covariâncias também se usam as fun¸cões amostrais S1 e

S2 tais que [8]:

Si = _n−11 XT(In−_n111T)X,

(23)

R1 R1

R2

f1(x)

f2(x)

Figura 3: Regra de classifica¸cão para duas popula¸cões normais univariadas com variâncias

distintas.

2.2 M´

aquinas de Vetor de Suporte

As máquinas de vetor de suporte são máquinas de aprendizado binário cujo objetivo

é classificar padrões que possam ser separáveis [9] minimizando a probabilidade de erro

de classifica¸c˜ao.

A idéia principal por trás das máquinas pode ser explicada da seguinte forma: dada

uma amostra de treinamento, as m´aquinas de vetor de suporte constr´oem um hiperplano

como superf´ıcie de decis˜ao, de modo que a margem de separa¸c˜ao entre exemplos positivos

e negativos seja maximizada.

2.2.1 Hiperplano ´

Otimo para Padr˜

oes Linearmente Separ´

aveis

As máquinas de vetor de suporte são usadas para resolver problemas de classifica¸cão

de padr˜oes separ´aveis. Os vetores de suporte consistem em um pequeno subconjunto

de pontos de dados, extra´ıdos pelo algoritmo de aprendizado, da pr´opria amostra de

treinamento.

Considere a amostra de treinamento {(Xi, di)}

N

i=1, onde Xi´e o padr˜ao de entrada para

o i-´esimo indiv´ıduo da amostra de tamanho N , e di ´e a resposta desejada correspondente.

(24)

representado pelo subconjunto di = −1 são linearmente separáveis. A equa¸cão de uma

superf´ıcie de decisão na forma de um hiperplano que faz a separa¸cão é dada por:

wTX + b = 0, (2.11)

onde X é um vetor de entrada, w é um vetor de peso ajustável e b é um viés.

Desta maneira, podemos escrever (2.11) da seguinte forma:

wTXi+ b ≥ 0, para di = +1,

wTXi+ b < 0, para di = −1.

(2.12)

Para um dado w ajust´avel e b, a separa¸c˜ao entre o hiperplano definido em (2.11) e

o ponto de dado mais próximo é chamado de Margem de Separa¸cão ρ. As máquinas de

vetor de suporte tem por objetivo encontrar um hiperplano particular de forma que ρ seja o maior poss´ıvel.

Sendo atendida essa condi¸cão, a superf´ıcie de decisão é chamada de hiperplano ótimo.

ρ ρ

Figura 4: Hiperplano e Margem de Separa¸c˜ao.

(25)

´

otimo, representando uma superf´ıcie de decis˜ao linear multidimensional no espa¸co de

entrada, ´e definido por:

wT₀X + b0 = 0, (2.13)

A fun¸cão discriminante g(x) = wT₀X + b0 fornece uma medida algébrica da distância

de X ao hiperplano ´otimo, sendo poss´ıvel expressar X de outra maneira:

X = Xp+ r

w0

||w0||

, (2.14)

onde Xp é a proje¸cão normal de X no hiperplano ótimo, r é a distância algébrica

desejada. Tem-se que r ´e positivo se X estiver no lado positivo do hiperplano ´otimo, e

negativo se X estiver no lado negativo. Por defini¸c˜ao, g(Xp) = 0, segue-se que:

g(X) = wT₀X + b0 = r||w0||, (2.15)

ou, equivalentemente:

r = g(X)

||w0||

. (2.16)

A distância da origem (quando X = 0) até a hiperplano ótimo é dado por b0

||w0||.

Se b0 > 0, a origem está do lado positivo do hiperplano ótimo. Se b0 < 0, está do lado

negativo. Já para o caso b0 = 0, o hiperplano ótimo passa pela origem. Uma interpreta¸cão

(26)

X1 X2 b0 ||w0|| r X Hiperplano

Figura 5: Interpreta¸cão geométrica das distâncias algébricas de pontos até o hiperplano

´

otimo para o caso bidimensional.

Então a principal questão será encontrar os parâmetros w0 e b0 do hiperplano ótimo,

dada a amostra de treinamento definida por = = {(Xi, di)}. Pelos resultados

representa-dos na Figura 5 pode-se notar que o par (w0, b0) deve atender a regra:

w₀TXi+ b0 ≥ +1, para di = +1,

wT₀Xi+ b0 ≤ −1, para di = −1.

(2.17)

Se (2.11) é válido, ou seja, se os padrões forem linearmente separáveis, pode-se escalar

w0 e b0 de modo que (2.17) é válido. Essa opera¸cão de escalonamento não afeta (2.13).

Os pontos de dados espec´ıficos (Xi, di) para os quais a primeira ou a segunda equa¸c˜ao

de (2.17) ´e satisfeita com o sinal de igualdade s˜ao chamados de vetores de suporte, da´ı o

nome m´aquinas de vetor de suporte. Os vetores de suporte s˜ao os pontos de dados mais

pr´oximos do hiperplano ´otimo e, portanto, os mais dif´ıceis de classificar. Eles possuem

uma rela¸cão direta com a localiza¸cão ideal da superf´ıcie de decisão.

Considere o vetor de suporte X(s) para cada d(s) = +1. Ent˜ao, pela defini¸c˜ao, tem-se

que:

(27)

Vetores de suporte

Hiperplano Margem de separação

Figura 6: Vetores de Suporte e Hiperplano de Separa¸c˜ao.

De (2.16), a distância algébrica do vetor de suporte X(s) ao hiperplano ótimo é:

r = g(X(s)) ||w0|| =    1 ||w0||, se d(s)= +1 −1 ||w0||, se d(s)= −1, (2.19)

onde o sinal de positivo indica que X(s) est´a no lado positivo do hiperplano ´otimo e o

sinal de negativo indica que X(s) est´a no lado negativo.

Seja ρ o valor ideal da margem de separa¸c˜ao entre as duas classes que constituem a

amostra de treinamento. Ent˜ao, de (2.19), segue-se que:

ρ = r = 1

||w0||

(2.20)

Maximizar a margem de separa¸cão entre classes binárias é equivalente a minimizar a

norma euclidiana do vetor de peso w.

Em resumo, o hiperplano ótimo definido por (2.13) é único de maneira que o vetor

de peso ótimo w0 fornece a máxima separa¸cão entre exemplos positivos e negativos. Essa

condi¸c˜ao ideal ´e atingida minimizando a norma euclidiana do vetor de peso w.

(28)

a amostra de treinamento = = {(Xi, di)}, encontre o hiperplano ótimo sujeito à restri¸cão

di(wTXi+ b) ≥ +1 ∀i = 1, ..., N. (2.21)

Esta restri¸c˜ao combina as linhas contidas em (2.17) usando w no lugar de w0. Logo,

o problema de otimiza¸c˜ao restrito que deve ser resolvido ´e formulado a seguir.

Problema 2.1 Dada a amostra de treinamento {(Xi, di)}N_i=1, encontre os valores ´otimos

do vetor de peso w e o vi´es b que satisfa¸cam as restri¸c˜oes:

di(wTXi+ b) ≥ +1 ∀i = 1, ..., N. (2.22)

e o vetor de peso w que minimize a fun¸c˜ao de custo:

φ(w) = 1

2||w||

2

. (2.23)

2.2.2 Erros de Classifica¸

c˜

ao

Nesta Se¸cão será discutido o caso onde não é poss´ıvel construir um hiperplano de

separa¸c˜ao sem que ocorram erros de classifica¸c˜ao.

Defini¸cão 2.2 A margem de separa¸cão entre as classes é dita suave se, existe um ponto

(Xi, di), que viola a restri¸c˜ao definida em (2.22).

As viola¸c˜oes que podem ocorrer s˜ao as seguintes.

1. O ponto dado (Xi, di) se encontra dentro da região de separa¸cão, porém do lado

correto do hiperplano de decis˜ao, indicando que este foi corretamente classificado.

2. O ponto dado (Xi, di) se encontra do lado errado do hiperplano, indicando que este

foi classificado incorretamente.

Para os casos dados linearmente não-separáveis, quando há ocorrência de erros de

classifica¸cão como vistos na Defini¸cão 2.2, é necessário a introdu¸cão de um novo conjunto

(29)

Hiperplano Margem de separação Violação do Tipo 1 Violação do Tipo 2

Figura 7: Viola¸cão à Margem de separa¸cão suave.

Defini¸cão 2.3 Seja {ξi}Ni=1 um conjunto de variáveis escalares não negativas, tais que se

possa reescrever (2.22) como sendo:

di(wTXi+ b) ≥ 1 − ξi ∀i = 1, ..., N. (2.24)

As ξi são chamadas de variáveis soltas e tem como fun¸cão medir o desvio de um ponto

dado da condi¸c˜ao ideal de separa¸c˜ao, de forma que:

se 0 ≤ ξi ≤ 1, então o ponto dado executa a primeira viola¸cão descrita na Defini¸cão

2.2.

se ξi > 1, então o ponto dado executa a segunda viola¸cão descrita na Defini¸cão 2.2.

A soma dos ξi representa um limite no n´umero de erros de treinamento que o algoritmo

deve tolerar.

Podemos generalizar o Problema 2.1, de forma a incluir o caso de padr˜oes n˜ao

linear-mente separ´aveis, da seguinte maneira.

Problema 2.2 Dada a amostra de treinamento {(Xi, di)}

N

i=1, encontre os valores ´otimos

do vetor de peso w e o vi´es b que satisfa¸cam as restri¸c˜oes:

(30)

de maneira que o vetor de peso w e as vari´aveis soltas ξi minimizem a fun¸c˜ao de custo: φ(w)(w, ξ) = 1 2w T_{w + C} N X i=1 ξi, (2.25)

onde C é um parâmetro positivo escolhido pelo usuário.

Se tomarmos ξi = 0 para todo i nas Equa¸cões (2.24) e (2.25) teremos uma redu¸cão às

Equa¸c˜oes (2.21) e (2.23) respectivamente.

O parâmetro C é um número não negativo que controla o quão tolerante deve ser a

máquina de vetor de suporte com rela¸cão aos erros de classifica¸cão. Este parâmetro é

determinado pelo usu´ario experimentalmente atrav´es do uso de uma amostra de

treina-mento.

Quando é atribu´ıdo ao parâmetro C um valor alto, a implica¸cão é que o usuário da

m´aquina de vetor de suporte tem alta confian¸ca na qualidade da amostra de treinamento.

De outra forma, quando ´e atribu´ıdo um valor pequeno ao parˆamentro C, a amostra de

treinamento ´e considerada ruidosa e, portanto, menos ˆenfase deve ser colocada nela.

2.3 Etiquetagem Morfol´

ogica

O avan¸co da capacidade de armazenamento e processamento dos computadores nas ´

ultimas d´ecadas beneficiou muitas ´areas de estudo, como por exemplo a lingu´ıstica. A

computa¸c˜ao possibilitou o surgimento de novas abordagens a problemas que antes n˜ao

poderiam ser tratados de forma mais eficiente [10]. Por exemplo, hoje ´e poss´ıvel montar

um conjunto de textos (tamb´em chamado de corpus) que pode ser guardado, processado

e analisado de diferentes formas.

O reconhecimento das classes gramaticais de palavras, isto ´e, de acordo com sua

morfologia, ´e um problema cl´assico da lingu´ıstica computacional. Para analisar a estrutura

de senten¸cas, por exemplo, é necessário realizar num primeiro momento a categoriza¸cão

das palavras contidas num conjunto de textos [10].

Os sistemas capazes de realizar a tarefa classificar palavras de acordo com sua posi¸c˜ao

em uma senten¸ca s˜ao denominados etiquetadores (taggers) de categorias gramaticais (ou

(31)

categoria correta, de acordo com a posi¸c˜ao que a palavra ocupa na frase. Logo, ao usarmos

o etiquetador em um texto, este ser´a reescrito pela ferramenta com o acr´escimo, a cada

palavra, de uma etiqueta com a informa¸c˜ao sobre a sua classe gramatical. Mais a frente

ser´a dado um exemplo pr´atico do funcionamento de um etiquetador.

2.4 O Colˆ

onia Corpus

O Colonia: Corpus of Historical Portuguese [11] ´e um corpus criado pela Universidade

de Colônia, na Alemanha. Este corpus é formado por uma cole¸cão de material textual

do século XVI até in´ıcio do século XX, inteiramente em português — contando com 52

livros em portuguˆes brasileiro e 48 em portuguˆes europeu — todos com POS tagged. A

compila¸cão do corpus foi feita através da coleta do material de três fontes principais:

Dom´ınio P´ublico, uma biblioteca digital de m´ıdia n˜ao protegida por direitos autorais

e mantida pelo Ministério da Educa¸cão, e textos de outros dois corpus históricos em

português, um do Grupo de Morfologia Histórica do Português (GMHP), da Universidade

de São Paulo, e o Corpus Histórico do Português Tycho Brahe, da Universidade Estadual

de Campinas.

2.5 O TreeTagger

O Colonia corpus foi constru´ıdo e etiquetado em POS usando o TreeTagger [12], uma ferramenta de etiquetagem desenvolvida pelo Instituto de Processamento de Linguagem

Natural da Universidade de Stuttgart, usando um arquivo de parˆametros para o portuguˆes

[13]. O TreeTagger ´e um tagger probabil´ıstico independente de linguagem. Este organiza

os dados anotados em um formato de trˆes colunas (token original, a tag POS e lema a

qual o token pertence). O TreeTagger pode atingir um desempenho superior a 95% de

precis˜ao ao atribuir uma tag POS correta e o lema correto de um token [12].

Na tabela a seguir ´e poss´ıvel verificar um exemplo de como a tag POS do TreeTagger

funciona para uma senten¸ca em portuguˆes usando como exemplo a frase “O meu tio ´e

(32)

Tabela 2: Sa´ıdas do TreeTagger para uma senten¸ca em portuguˆes.

token tag lemma

O DET o

meu ADJ meu

tio NOM tio

´e V ser

portuguˆes ADJ portuguˆes

Note que cada linha cont´em um token, o tag POS e o lema correspondente, todos

separados por tabula¸c˜ao.

O TreeTagger para português possui código executável para sistemas operacionais

como PC-Linux, Windows, Mac-OS que podem ser baixados no portal da ferramenta [14].

(33)

3 An´

alise dos Resultados

O objetivo deste trabalho ´e comparar os resultados de cada algoritmo de aprendizado

de máquinas supervisionado na classifica¸cão de textos. Será avaliada a eficácia desses

algoritmos na distin¸c˜ao entre dois autores diferentes.

Para compor a base de dados deste trabalho, foram usados alguns livros disponibi-lizados pela Colonia Corpus. Foram escolhidos alguns livros de dois autores brasileiros,

que est˜ao descritos na Tabela 3 a seguir:

Tabela 3: Autores e livros escolhidos.

Autor Livro

Antˆonio Jos´e da Silva

Anfitri˜ao ou J´upiter e Alcmena

As Variedades de Proteu Esopaida ou Vida de Esopo

Guerras do Alecrim e da Manjerona Labirinto de Creta Os Encantos de Medeia Precip´ıcio de Faetonte Alu´ısio Azevedo Casa de Pens˜ao Condessa V´esper Filomena Borges O Corti¸co

Este trabalho levou então em considera¸cão duas variáveis:

X1ij`= “quantidade de lemas distintos classificados como NOM na `-´esima

lauda do j-´esimo livro do i-´esimo autor” e;

X2ij`= “quantidade de lemas n˜ao-distintos classificados como V na `-´esima

lauda do j-´esimo livro do i-´esimo autor”,

onde i = 1, 2 e j = 1, . . . , 7 se i = 1 ou j = 1, . . . , 4 se i = 2. O ´ındice `

(34)

discriminados seus valores de varia¸c˜ao.

As classifica¸c˜oes NOM e V do TreeTagger [12] s˜ao, respectivamente, tags para

subs-tantivo e verbo.

Outras vari´aveis foram consideradas para compˆor a base de dados deste trabalho,

foram elas:

X1ij` = “quantidade de lemas n˜ao-distintos classificados como NOM na

`-ésima lauda do j-ésimo livro do i-ésimo autor”;

X2ij`= “quantidade de lemas distintos classificados como V na `-´esima lauda

do j-´esimo livro do i-´esimo autor”;

X1ij` = “quantidade de lemas distintos classificados como ADJ na `-´esima

lauda do j-´esimo livro do i-´esimo autor” e;

X2ij` = “quantidade de lemas n˜ao-distintos classificados como ADJ na

`-´

esima lauda do j-´esimo livro do i-´esimo autor”.

Por´em, as vari´aveis acima foram descartadas por apresentarem um comportamento

muito inst´avel para livro individualmente. Outro motivo que nos motivou a usar apenas

as duas variáveis consideradas foi a facilidade na visualiza¸cão gráfica de dados de duas

dimens˜oes.

Para facilitar a nota¸cão, iremos nos referir às variáveis usadas neste trabalho apenas

como X1 e X2 daqui em diante. Ainda no intuito de tornar a leitura deste trabalho menos

prolixa, será considerado no decorrer do texto chamar o autor Antônio José da Silva de

autor 1, e Alu´ısio Azevedo de autor 2.

Definiu-se como lauda o n´umero de caracteres at´e que se fosse alcan¸cado a marca

de 1200 caracteres e uma senten¸ca fosse finalizada, de forma que as laudas nem sempre possuem o mesmo comprimento de string.

Foram considerados dois cen´arios de classifica¸c˜ao. Um usando o livro Esopaida ou a

Vida de Esopo do autor 1 como sendo a base de teste 1, e usando todos os outros livros

como base de treinamento 1. O segundo cen´ario foi constru´ıdo usando o livro Condessa

V´esper do autor 2 como sendo a base de teste 2 e usando os todos outros livros como

base de treinamento 2.

(35)

poss´ıveis cen´arios, isto ´e, usando cada livro em separado dos demais como teste, de forma

a criar mais outros nove cen´arios para cada algoritmo de classifica¸c˜ao.

3.1 Resultados a partir da An´

alise de Discriminante

A partir das vari´aveis definidas no in´ıcio deste cap´ıtulo, foram calculadas as

estima-tivas amostrais para as bases de treinamento de cada cen´ario distinguindo-se os autores.

Esses valores podem ser vistos na Tabela 4.

Dentro de cada cen´ario, as bases com os dados referentes ao autor 1 e 2 s˜ao

respecti-vamente as popula¸c˜oes π1 e π2.

Tabela 4: Estimativas amostrais para cada cen´ario.

Cen´arios Autor Estimativas amostrais

Base de treinamento 1 π1 X1 = 33.990 46.553 ; S1 = 38.510 −23.746 −23.746 53.326 π2 X2 = 43.790 35.668 ; S2 = 49.346 −37.118 −37.118 68.955 Base de treinamento 2 π1 X1 = 34.046 46.818 ; S1 = 39.746 −24.212 −24.212 53.060 π2 X2 = 44.370 35.437 ; S2 = 48.769 −35.938 −35.938 69.519

Foram realizados o Teste de Shapiro-Wilk Multivariado para verificar a normalidade

das vari´aveis, X1 e X1 e o Teste Box’s M para verificar a homogeneidade das matrizes

de variância e covariância das popula¸cões π1 e π2 de cada cenário. Na Tabela 5 estão

apresentados o valor p e as estat´ısticas de cada teste.

Abaixo, na Figura 8, temos a representa¸cão gráfica da distribui¸cão dos dados, com

uma elipse de 95% de confian¸ca, e o QQ-plot considerando uma distribui¸c˜ao Qui-quadrado

(36)

Tabela 5: Teste de Shapiro-Wilk multivariado e Teste Box’s M.

Cen´arios Autor Teste de Shapiro-Wilk Teste Box’s M

Valor p Estat´ıstica de Teste Valor p Estat´ıstica de Teste Base de Treinamento 1 π1 0.206 0.996 0 19.332 π2 0.069 0.998 Base de Treinamento 2 π1 0.293 0.997 0.001 16.809 π2 0.209 0.998

Cabe ressaltar que os pontos de dados nas el´ıpses da Figura 8 foram plotados usando

a fun¸cão jitter(), que adiciona uma pequena varia¸cão de um cinquenta avos na posi¸cão

dos pontos em dire¸c˜ao aos eixos, afim de evidenciar os pontos de dados que possam ficar

sobrepostos. Os próximos gráficos que serão mostrados no decorrer deste trabalho também

foram constru´ıdos usando esta fun¸c˜ao.

A partir do que foi definido na Se¸c˜ao 2.2, dos resultados mostrados na Tabela 5 e na

Figura 8, temos evidência de que temos um problema de classifica¸cão com duas popula¸cões

normais bivariadas com matriz de covariˆancia distintas.

Foi aplicado o Resultado 2.5 nos dados dos dois cen´arios descritos e, usando os

parâmetros amostrais, foi gerada a regra que classifica cada `-ésima observa¸cão das

amos-tras de teste da seguinte maneira:

1. classificar a `-´esima observa¸c˜ao da base de teste como pertencente a π1 caso esta

satisfa¸ca: −1 2X` T_(S−1 1 − S −1 2 )X`+ (X T 1S −1 1 − X T 2S −1 2 )Xi− k ≥ ln hc(1|2) c(2|1) p₁ p2 i , onde, k = −1 2ln h|S₁| |S2| i +1 2(X T 1S −1 1 − X T 2S −1 2 )

2. Classificar a `-ésima observa¸cão da base de teste como pertencente a π2caso contrário

Nas curvas mostradas na Figura 9 temos a distribui¸c˜ao dos pontos das base de

trei-namento e das bases teste de cada cenário. Também são mostradas as regiões R1 e R2,

(37)

X1 X2 20 25 30 35 40 45 50 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12 14

Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Esopaida ou Vida de Esopo do autor Antônio José da Silva

Antônio José da Silva Aluísio Azevedo

(a) Cen´ario 1.

X1 X2 20 30 40 50 60 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12 14

Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Condessa Vésper do autor Aluísio Azevedo

(b) Cen´ario 2.

Figura 8: Distribui¸c˜ao e QQ-Plot.

A Tabela 6 a seguir contém o número de observa¸cões, o número de observa¸cões

(38)

X1 X2 10 20 30 40 50 60 70 0 20 40 60

Antônio José da Silva Aluísio Azevedo Esopaida ou Vida de Esopo

R1

R2

Livro Esopaida ou Vida de Esopo do autor Antônio José da Silva

(a) Classifica¸c˜ao das observa¸c˜oes da base de teste 1.

X1 X2 10 20 30 40 50 60 70 0 20 40 60

Antônio José da Silva Aluísio Azevedo Condessa Vésper

R1

R2

Livro Condessa Vésper do autor Aluísio Azevedo

(b) Classifica¸c˜ao das observa¸c˜oes da base de teste 2.

(39)

Tabela 6: Eficiˆencia do algoritmo de An´alise de Discriminante.

Base de Teste Nº de laudas

Nº de laudas

classificadas corretamente

Percentual de classifica¸c˜oes corretas

Esopaida ou Vida de Esopo 81 66 81.5%

Condessa V´esper 483 334 69.2%

3.2 Resultados a partir do Algoritmo de M´

aquinas

de Vetor de Suporte

Usando a linguagem R [6], atrav´es do pacote e1071, foram executados os seguintes

comandos afim de se calcular os vetores de suporte referentes `a base de treinamento:

svm.base = svm(X3 ∼ X1+X2, data=base.treino, cost=100, kernel=‘‘linear’’, scale=F)

O argumento kernel indica qual tipo de separa¸c˜ao ser´a feita entre os dados. Nesse

caso, pretende-se realizar uma separa¸c˜ao linear entre os dados, ou seja, o hiperplano ´otimo

´e uma reta conforme foi definido em (2.11).

O argumento cost é onde será definido o valor do parâmetro C, que determina a

tolerência dos erros de classifica¸cão da máquina de vetor de suporte. Escolheu-se

arbitra-riamente o valor 100 para esse parˆametro.

As variáveis X1 e X2 correspondem às variáveis X1 e X2 respectivamente, e a variável

X3 corresponde aos autores.

A seguir, a Figura 10 mostra os vetores de suporte e a divis˜ao realizada pelo algoritmo

(40)

X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70

VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação

Livro Esopaida ou Vida de Esopo do autor Antônio José da Silva

(a) Hiperplano para a base de treinamento 1.

X1 X2 20 30 40 50 60 70 20 30 40 50 60 70

Livro Condessa Vésper do autor Aluísio Azevedo

(b) Hiperplano para a base de treinamento 2.

(41)

Usando a fun¸cão predict(), pôde-se obter a classifica¸cão das laudas de cada base de teste da seguite maneira:

svm.pred = predict(svm.base,baseteste1) svm.pred = predict(svm.base,baseteste2)

A Tabela 7 fornece os resultados das classifica¸c˜oes para cada base de teste.

Tabela 7: Eficiˆencia do algoritmo de M´aquinas de Vetor de Suporte.

Nº de laudas classificadas corretamente Percentual de classifica¸c˜oes corretas Nº de vetores de suporte

Esopaida ou Vida de Esopo 81 51 63.0% 865

(42)

4 Conclus˜

oes

Primeiramente, apenas com os dados mostrados nas Se¸c˜oes 3.1 e 3.2, podemos notar

que ambos algoritmos apresentaram resultados satisfat´orios na classifica¸c˜ao correta das

laudas da base de teste nos dois cen´arios.

Pelos dados da Tabela 6, temos que o algoritmo de An´alise de Discriminante foi

mais eficiente em classificar as laudas do livro Esopaida ou a Vida de Esopo. Enquanto,

pela Tabela 7, temos que o algoritmo de M´aquinas de Vetor de Suporte teve um melhor

desempenho ao classificar corretamente as laudas do livro Condessa V´esper.

Nos Apˆendices 6 e 7 deste trabalho ´e mostrado o percentual de acerto de cada

algo-ritmo para os demais cenários poss´ıveis. É fácil notar que a porcentagem de acerto do

Algoritmo de An´alise de Discriminante ´e maior quando este tenta classificar as laudas dos

livros do autor 1, enquanto as M´aquinas de Vetor de Suporte apresentam um percentual

de acerto maior para as laudas dos livros do autor 2.

Por´em, de forma geral, ambos algoritmos conseguiram classificar corretamente a maior

parte das laudas dos livros de teste de cada cenário poss´ıvel. As únicas exce¸cões foram

os cen´arios onde pretendeu-se classificar as laudas dos livros Os Encantos de Medeia e

Guerras do Alecrim e da Manjerona, ambos do autor 1, usando M´aquinas de Vetor de

Suporte. O percentual de acertos dos respectivos cen´arios foram de 19.0% e 43.4%.

Desta forma, podemos dizer que o algoritmo mais bem sucedido foi o de An´alise de

Discriminante. Tamb´em ´e importante ressaltar que as el´ıpses de 95% de confian¸ca dos

livros de teste quase sempre apresentam um comportamento parecido com a el´ıpse do

autor correto, como pode ser visto no Apˆendice 2. Com exce¸c˜ao das el´ıpses dos livros Os

Encantos de Medeia e Anfitrião ou Júpiter Alcmena que estão um pouco mais inclinadas

que a el´ıpse dos dados do autor 1. Ainda assim, esses dois livros tiveram um percentual

de classifica¸c˜oes corretas maior de que 70%.

Com isso, podemos concluir que o principal objetivo deste trabalho foi alcan¸cado.

(43)

poss´ıvel criar variáveis a partir de dados textuais, com etiquetagem morfológica, e usá-las

(44)

Referˆ

encias

1 ALPAYDIN, E. Introduction to machine learning. [S.l.]: MIT press, 2009.

2 KELLEHER, J. D.; NAMEE, B. M.; D’ARCY, A. Fundamentals of machine learning for predictive data analytics: algorithms, worked examples, and case studies. [S.l.]: MIT Press, 2015.

3 AYODELE, T. O. Types of machine learning algorithms. In: New advances in machine learning. [S.l.]: IntechOpen, 2010.

4 AYODELE, T. O. Machine learning overview. In: New Advances in Machine Learning. [S.l.]: IntechOpen, 2010.

5 AGGARWAL, C. C.; ZHAI, C. A survey of text classification algorithms. In: Mining text data. [S.l.]: Springer, 2012. p. 163–222.

6 R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria, 2014. Dispon´ıvel em: hhttp://www.R-project.org/i.

7 KHATTREE, R.; NAIK, D. N. Applied multivariate statistics with SAS software. [S.l.]: SAS Institute Inc., 2018.

8 JOHNSON, D. E. et al. Applied multivariate methods for data analysts. [S.l.]: Duxbury press Pacific Grove, CA, 1998. v. 48.

9 HAYKIN, S. Neural Networks and Learning Machines, 3/E. [S.l.]: Pearson Education India, 2010.

10 VIEIRA, R.; LIMA, V. L. Ling¨u´ıstica computacional: princ´ıpios e aplica¸c˜oes. In: SN.

Anais do XXI Congresso da SBC. I Jornada de Atualiza¸c˜ao em Inteligˆencia Artificial.

[S.l.], 2001. v. 3, p. 47–86.

11 ZAMPIERI, M.; BECKER, M. Colonia: Corpus of historical portuguese. ZSM Studien, Special Volume on Non-Standard Data Sources in Corpus-Based Research, v. 5, p. 69–76, 2013.

12 SCHMID, H. Probabilistic part-ofispeech tagging using decision trees. In: New methods in language processing. [S.l.: s.n.], 2013. p. 154.

13 GARCIA”, P. G. e M. ”Tree-Tagger for Portuguese and Galician”. ”2005”.

Dispon´ıvel em: h”https://gramatica.usc.es/∼_{gamallo/tagger.htm”i.}

14 SCHMID”, H. ”TreeTagger - a part-of-speech tagger for many languages”. ”1994”.

(45)

APˆ

ENDICE 1 -- Distribui¸

c˜

ao e QQ-Plot dos

demais cen´

arios poss´ıveis

X1 X2 20 30 40 50 60 30 40 50 60 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12 14

Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Os Encantos de Medeia do autor Antônio José da Silva

(46)

Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Anfitrião ou Júpiter e Alcmena do autor Antônio José da Silva

Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Labirinto de Creta do autor Antônio José da Silva

(47)

Distribuição e QQ−plot dos dados de cada autor retirando−se o livro As Variedades de Proteu do autor Antônio José da Silva

X1 X2 20 30 40 50 60 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12 14

Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Guerras do Alecrim e da Manjerona do autor Antônio José da Silva

(48)

Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Precipício de Faetonte do autor Antônio José da Silva

Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Casa de Pensão do autor Aluísio Azevedo

(49)

X1 X2 20 30 40 50 60 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 30 40 50 60 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12

Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Filomena Borges do autor Aluísio Azevedo

X1 X2 20 30 40 50 60 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 5 10 15

Distribuição e QQ−plot dos dados de cada autor retirando−se o livro O Cortiço do autor Aluísio Azevedo

(50)

APˆ

ENDICE 2 -- Regi˜

oes de classifica¸

c˜

ao

para os demais cen´

arios

X1 X2 10 20 30 40 50 60 70 0 20 40 60

Antônio José da Silva Aluísio Azevedo Os Encantos de Medeia

R1

R2

Livro Os Encantos de Medeia do autor Antônio José da Silva

(51)

X1 X2 10 20 30 40 50 60 70 0 20 40 60

Anfitrião ou Júpiter e Alcmena

R1

R2

Livro Anfitrião ou Júpiter e Alcmena do autor Antônio José da Silva

X1 X2 10 20 30 40 50 60 70 0 20 40 60

Antônio José da Silva Aluísio Azevedo Labirinto de Creta

R1

R2

Livro Labirinto de Creta do autor Antônio José da Silva

(52)

X1 X2 10 20 30 40 50 60 70 0 20 40 60

Antônio José da Silva Aluísio Azevedo As Variedades de Proteu

R1

R2

Livro As Variedades de Proteu do autor Antônio José da Silva

X1 X2 10 20 30 40 50 60 70 0 20 40 60

Guerras do Alecrim e da Manjerona

R1

R2

Livro Guerras do Alecrim e da Manjerona do autor Antônio José da Silva

(53)

X1 X2 10 20 30 40 50 60 70 0 20 40 60

Antônio José da Silva Aluísio Azevedo Precipício de Faetonte

R1

R2

Livro Precipício de Faetonte do autor Antônio José da Silva

X1 X2 10 20 30 40 50 60 70 0 20 40 60

Antônio José da Silva Aluísio Azevedo Casa de Pensão

R1

R2

Livro Casa de Pensão do autor Aluísio Azevedo

(54)

X1 X2 10 20 30 40 50 60 70 0 20 40 60

Antônio José da Silva Aluísio Azevedo Filomena Borges

R1

R2

Livro Filomena Borges do autor Aluísio Azevedo

X1 X2 10 20 30 40 50 60 70 0 20 40 60

Antônio José da Silva Aluísio Azevedo O Cortiço

R1

R2

Livro O Cortiço do autor Aluísio Azevedo

(55)

APˆ

ENDICE 3 -- Hiperplano de separa¸

c˜

ao

para os demais cen´

arios

X1 X2 20 30 40 50 60 70 10 20 30 40 50 60

Livro Os Encantos de Medeia

do autor Antônio José da Silva

(56)

X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70

Livro Anfitrião ou Júpiter e Alcmena

do autor Antônio José da Silva

(57)

X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70

Livro Labirinto de Creta

do autor Antônio José da Silva

(58)

X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70

Livro As Variedades de Proteu

do autor Antônio José da Silva

(59)

X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70

Livro Guerras do Alecrim e da Manjerona

do autor Antônio José da Silva

(60)

X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70

Livro Precipício de Faetonte

do autor Antônio José da Silva

(61)

X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70

Livro Casa de Pensão

do autor Aluísio Azevedo

(62)

X1 X2 20 30 40 50 60 10 20 30 40 50 60 70

Livro Filomena Borges

do autor Aluísio Azevedo

(63)

X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70

Livro O Cortiço

do autor Aluísio Azevedo

(64)

APˆ

ENDICE 4 -- Estimativas amostrais para

(65)

Tabela 8: Estimativas amostrais para os demais cen´arios poss´ıveis

Cen´arios

(livro usado como teste) Autor Estimativas Amoestrais

Os Encantos de Medeia π1 X1 = 34.249 46.146 ; S1 = 40.550 −22.532 −22.532 48.761 π2 X2 = 43.790 35.668 ; S2 = 49.346 −37.118 −37.118 68.955 Anfitrião ou Júpiter e Alcmena π1 X1 = 34.595 47.647 ; S1 = 37.288 −27.713 −27.713 53.708 π2 X2 = 43.790 35.668 ; S2 = 49.346 −37.118 −37.118 68.955 Labirinto de Creta π1 X1 = 33.715 47.128 ; S1 = 41.115 −24.553 −24.553 54.402 π2 X2 = 43.790 35.668 ; S2 = 49.346 −37.118 −37.118 68.955 As Variedades de Proteu π1 X1 = 34.007 47.011 ; S1 = 39.488 −23.618 −23.618 53.339 π2 X2 = 43.790 35.668 ; S2 = 49.346 −37.118 −37.118 68.955 Guerras do Alecrim e da Manjerona π1 X1 = 33.948 46.531 ; S1 = 40.594 −24.241 −24.241 54.073 π2 X2 = 43.790 35.668 ; S2 = 49.346 −37.118 −37.118 68.955 Precip´ıcio de Faetonte π1 X1 = 33.816 46.795 ; S1 = 40.216 −23.648 −23.648 52.789 π2 X2 = 43.790 35.668 ; S2 = 49.346 −37.118 −37.118 68.955 Casa de Pensão π1 X1 = 34.046 46.818 ; S1 = 39.746 −24.212 −24.212 53.060 π2 X2 = 43.901 35.539 ; S2 = 52.712 −41.248 −41.248 74.678 Filomena Borges π1 X1 = 34.046 46.818 ; S1 = 39.746 −24.212 −24.212 53.060 π2 X2 = 44.026 35.650 ; S2 = 48.339 −35.183 −35.183 65.780 O Corti¸co π1 X1 = 34.046 46.818 ; S1 = 39.746 −24.212 −24.212 53.060 π2 X2 = 42.906 36.015 ; S2 = 46.705 −36.028 −36.028 66.462

(66)

APˆ

ENDICE 5 -- Teste de Shapiro-Wilk

multivariado e Teste Box’s

(67)

Tabela 9: Teste de Shapiro-Wilk Multivariado e Teste Box’s M para demais cen´arios

Cen´arios

(livro usado como teste) Autor

Teste de Shapiro-Wilk Teste Box’s M

Valor p Estat´ıstica de teste Valor p Estat´ıstica de teste Os Encantos de Medeia π1 0.224 0.996 0 26.864 π2 0.069 0.998 Anfitrião ou Júpiter e Alcmena π1 0.349 0.996 0 22.244 π2 0.069 0.998 Labirinto de Creta π1 0.579 0.997 0.002 15.327 π2 0.069 0.998 As Variedades de Proteu π1 0.276 0.997 0 19.603 π2 0.069 0.998 Guerras do Alecrim e da Manjerona π1 0.206 0.996 0.001 17.117 π2 0.069 0.998 Precip´ıcio de Faetonte π1 0.192 0.996 0 19.263 π2 0.069 0.998 Casa de Pensão π1 0.293 0.997 0 29.347 π2 0.106 0.998 Filomena Borges π1 0.293 0.997 0.003 14.26 π2 0.063 0.998 O Corti¸co π1 0.293 0.997 0.001 16.398 π2 0.186 0.998

(68)

APˆ

ENDICE 6 -- Eficiˆ

encia do algoritmo de

An´

alise de Discriminante

(69)

Tabela 10: Eficiência do algoritmo de Análise de Discriminante para os demais cenários

Nº de laudas

Os Encantos de Medeia 63 60 95.2% Anfitrião ou Júpiter e Alcmena 109 81 74.3% Labirinto de Creta 121 88 72.7% As Variedades de Proteu 65 52 80.0% Guerras do Alecrim e da Manjerona 83 70 84.3% Precip´ıcio de Faetonte 83 61 73.5% Casa de Pensão 436 329 75.5% Filomena Borges 243 167 68.7% O Corti¸co 364 306 84.1%

(70)

APˆ

ENDICE 7 -- Eficiˆ

encia do algoritmo de

M´

aquinas de Vetor de

Suporte para demais

(71)

Tabela 11: Eficiência do algoritmo de Máquina de Vetor de Suporte para os demais cenários

Nº de laudas

Nº de vetores de suporte Os Encantos de Medeia 63 12 19.0% 907 Anfitrião ou Júpiter e Alcmena 109 58 53.2% 830 Labirinto de Creta 121 74 61.2% 794 As Variedades de Proteu 65 34 52.3% 869 Guerras do Alecrim e da Manjerona 83 36 43.4% 862 Precip´ıcio de Faetonte 83 50 60.2% 847 Casa de Pensão 436 380 87.2% 825 Filomena Borges 243 202 83.1% 852 O Corti¸co 364 328 90.1% 872