Uso de Aprendizado de M´
aquinas para
classifica¸
c˜
ao de textos.
Niter´oi - RJ, Brasil
Isabelly da Silva Almeida
Uso de Aprendizado de M´
aquinas
para classifica¸
c˜
ao de textos.
Trabalho de Conclus˜ao de Curso
Monografia apresentada para obten¸c˜ao do grau de Bacharel em
Estat´ıstica pela Universidade Federal Fluminense.
Orientador(a): Prof. Dr. Valentin Sisko
Co-Orientador(a): Prof. Dr. Hugo Henrique Kegler dos Santos
Niter´oi - RJ, Brasil
Isabelly da Silva Almeida
Uso de Aprendizado de M´
aquinas para
classifica¸
c˜
ao de textos.
Monografia de Projeto Final de Gradua¸c˜ao sob o t´ıtulo “Uso
de Aprendizado de M´aquinas para classifica¸c˜ao de textos.”,
de-fendida por Isabelly da Silva Almeida e aprovada em 04 de
dezembro de 2020, na cidade de Niter´oi, no Estado do Rio de
Janeiro, pela banca examinadora constitu´ıda pelos professores:
Prof. Dr. Valentin Sisko Departamento de Estat´ıstica – UFF
Prof. Dr. Hugo Henrique Kegler dos Santos Departamento de Estat´ıstica – UFF
Prof. Dr. Karina Yuriko Yaginuma Departamento de Estat´ıstica – UFF
Prof. Dr. Mois´es Lima de Menezes
Departamento de Estat´ıstica – UFF
Bibliotecário responsável: Sandra Lopes Coelho - CRB7/3389
A447u Almeida, Isabelly da Silva
Uso de Aprendizado de Máquinas para classificação de textos. / Isabelly da Silva Almeida ; Valentin Sisko, orientador ; Hugo Henrique Kegler dos Santos, coorientador. Niterói, 2020.
69 f. : il.
Trabalho de Conclusão de Curso (Graduação em
Estatística)-Universidade Federal Fluminense, Instituto de Matemática e Estatística, Niterói, 2020.
1. Aprendizado de Máquinas. 2. Classificação de Textos. 3. Análise de Discriminante. 4. Máquinas de Vetor de Suporte. 5. Produção intelectual. I. Sisko, Valentin, orientador. II. Kegler dos Santos, Hugo Henrique,
coorientador. III. Universidade Federal Fluminense. Instituto de Matemática e Estatística. IV. Título.
-Com o crescimento do acesso a internet, um grande volume de dados textuais
migra-ram do papel impresso para o meio eletrˆonico. E-mails, not´ıcias, livros, artigos cient´ıficos
e outros tipos de texto s˜ao produzidos diariamente. Por vezes surge a necessidade de
cla-sificar essas informa¸c˜oes. A t´ecnica de classifica¸c˜ao de texto pode ser aplicada em v´arias
´
areas da minera¸c˜ao de texto. O uso de Aprendizado de M´aquinas para resolver problemas
desse tipo torna-se uma ferramenta bastante ´util por dispˆor de v´arios algoritmos capazes
de reconhecer padr˜oes e criar regras de associa¸c˜ao de forma autom´atica. Este trabalho
tem como objetivo verificar a eficiˆencia de dois algoritmos de Aprendizado de M´aquinas
Supervisionado: An´alise de Discriminante e M´aquinas de Vetor de Suporte, na resolu¸c˜ao
do problema de classifica¸c˜ao de texto. Para isso, foram usados livros que passaram por
um processo de etiquetagem morfol´ogica. As etiquetas de cada palavra do livro serviram
para criar as vari´aveis usadas nas an´alises. Desta maneira, pretendemos verificar se os
algortimos s˜ao capazes de classificar, a partir de uma base de treinamento com livros de
dois autores distintos, se um novo livro pertence a um determinado autor.
Palavras-chave: Aprendizado de M´aquinas. Classifica¸c˜ao de Texto. An´alise de
Discrimi-nante. M´aquinas de Vetor de Suporte. Etiquetagem Morfol´ogica. TreeTagger. Colonia
Dedico este trabalho a todos aqueles que nunca desistiram de praticar o bem. O
`
A fam´ılia e aos amigos pelo incentivo, apoio constantes e pela ajuda mesmo fora do
ambiente acadˆemico.
Ao professor Valentin, pela paciˆencia na orienta¸c˜ao e incentivo, e que tornou poss´ıvel
a conclus˜ao deste trabalho.
Agrade¸co tamb´em a todos os professores deste curso que me acompanharam durante
a gradua¸c˜ao.
Agrade¸co ao Andre por ter me dado todo amor e apoio nesta jornada, fazendo a vida valer cada vez mais a pena.
Lista de Figuras Lista de Tabelas 1 Introdu¸c˜ao p. 11 1.1 Aprendizado de M´aquinas . . . p. 11 1.1.1 Aprendizado Supervisionado . . . p. 12 1.2 Motiva¸c˜ao . . . p. 13 1.3 Objetivos . . . p. 13 1.4 Organiza¸c˜ao . . . p. 14 2 Materiais e M´etodos p. 15
2.1 An´alise de Discriminante . . . p. 15
2.1.1 Separa¸c˜ao e Classifica¸c˜ao para Duas Popula¸c˜oes . . . p. 16
2.1.2 Classifica¸c˜ao para Duas Popula¸c˜oes Normais Multivariadas . . . p. 19
2.1.2.1 Classifica¸c˜ao para Popula¸c˜oes Normais Σ1 = Σ2 = Σ . p. 19
2.1.2.2 Classifica¸c˜ao para Popula¸c˜oes Normais Σ1 6= Σ2 . . . . p. 20
2.2 M´aquinas de Vetor de Suporte . . . p. 22
2.2.1 Hiperplano ´Otimo para Padr˜oes Linearmente Separ´aveis . . . . p. 22
2.2.2 Erros de Classifica¸c˜ao . . . p. 27
2.3 Etiquetagem Morfol´ogica . . . p. 29
2.4 O Colˆonia Corpus . . . p. 30
3.1 Resultados a partir da An´alise de Discriminante . . . p. 34
3.2 Resultados a partir do Algoritmo de M´aquinas de Vetor de Suporte . . p. 38
4 Conclus˜oes p. 41
Referˆencias p. 43
Apˆendice 1 -- Distribui¸c˜ao e QQ-Plot dos demais cen´arios poss´ıveis p. 44
Apˆendice 2 -- Regi˜oes de classifica¸c˜ao para os demais cen´arios p. 49
Apˆendice 3 -- Hiperplano de separa¸c˜ao para os demais cen´arios p. 54
Apˆendice 4 -- Tabela 4 para demais cen´arios. p. 63
Apˆendice 5 -- Tabela 5 para demais cen´arios. p. 65
Apˆendice 6 -- Tabela 6 para demais cen´arios. p. 67
1 Ilustra¸c˜ao das Regi˜oes de classifica¸c˜ao para duas popula¸c˜oes. . . p. 17
2 Erro de classifica¸c˜ao para o caso univariado com variˆancias iguais. . . . p. 20
3 Regra de classifica¸c˜ao para duas popula¸c˜oes normais univariadas com
variˆancias distintas. . . p. 22
4 Hiperplano e Margem de Separa¸c˜ao. . . p. 23
5 Interpreta¸c˜ao geom´etrica das distˆancias alg´ebricas de pontos at´e o
hiper-plano ´otimo para o caso bidimensional. . . p. 25
6 Vetores de Suporte e Hiperplano de Separa¸c˜ao. . . p. 26
7 Viola¸c˜ao `a Margem de separa¸c˜ao suave. . . p. 28
8 Distribui¸c˜ao e QQ-Plot. . . p. 36
9 Resultado da classifica¸c˜ao usando An´alise de Discriminante. . . p. 37
1 Tabela de Custos . . . p. 18
2 Sa´ıdas do TreeTagger para uma senten¸ca em portuguˆes. . . p. 31
3 Autores e livros escolhidos. . . p. 32
4 Estimativas amostrais para cada cen´ario. . . p. 34
5 Teste de Shapiro-Wilk multivariado e Teste Box’s M. . . p. 35
6 Eficiˆencia do algoritmo de An´alise de Discriminante. . . p. 38
7 Eficiˆencia do algoritmo de M´aquinas de Vetor de Suporte. . . p. 40
8 Estimativas amostrais para os demais cen´arios poss´ıveis . . . p. 64
9 Teste de Shapiro-Wilk Multivariado e Teste Box’s M para demais cen´arios p. 66
10 Eficiˆencia do algoritmo de An´alise de Discriminante para os demais cen´arios p. 68
11 Eficiˆencia do algoritmo de M´aquina de Vetor de Suporte para os demais
1
Introdu¸
c˜
ao
1.1
Aprendizado de M´
aquinas
Para resolver um problema em um computador, precisamos de um algoritmo, uma
sequˆencia de instru¸c˜oes que devem ser executadas para transformar uma determinada
entrada de dados em uma sa´ıda desejada. Por´em h´a certas tarefas para as quais n˜ao exite
um algoritmo j´a definido.
Por exemplo, imagine que se queira classificar um e-mail como uma mensagem
im-portante ou como um spam. Neste caso, sabemos que o dado de entrada ´e um documento
de e-mail que, no caso mais simples, ´e um arquivo de caracteres, e sabemos que a sa´ıda
deve ser uma vari´avel bin´aria do tipo “sim/n˜ao” indicando se a mensagem ´e um spam [1].
Pode-se, ent˜ao, compilar v´arios e-mails de exemplo, previamente classificados como
spam ou n˜ao, com o objetivo de criar algoritmos capazes de identificar padr˜oes e, a partir
desses padr˜oes, aprender quais caracter´ısticas fazem de uma mensagem um spam.
O Aprendizado de M´aquinas ´e definido como um processo automatizado que extrai
padr˜oes de dados [2]. Tais padr˜oes podem ajudar a entender processos, classificar objetos
ou fazer previs˜oes, usando teoria estat´ıstica na constru¸c˜ao de modelos matem´aticos, uma
vez que a tarefa principal ´e inferˆencia sobre uma amostra [1].
Os algoritmos de Aprendizado de M´aquinas s˜ao organizados de acordo com o resultado
desejado. Os tipos mais comuns, segundo [3] e [4], incluem as t´ecnicas a seguir.
Aprendizado supervisionado: onde o algoritmo aprende uma fun¸c˜ao a partir dos
dados da base de treinamento. Esses dados cont´em pares que consistem em objetos
de entrada (que tipicamente s˜ao vetores) e sa´ıdas desejadas. A sa´ıda da fun¸c˜ao pode
ser um valor cont´ınuo, se for usado um algoritmo de regress˜ao, ou pode prever um
r´otulo de classe do objeto de entrada, no caso de problemas de classifica¸c˜ao (como
Aprendizado n˜ao supervisionado: s´o existem os dados de entrada, isto ´e, sem
r´otulos de classifica¸c˜ao ou valores previamente conhecidos. Um modelo ´e ajustado
aos dados observados com o objetivo de encontrar padr˜oes nessas observa¸c˜oes. Por
exemplo, um algoritmo de clustering seria uma forma de aprendizado n˜ao
supervi-sionado. [1].
Aprendizado semi-supervisionado: combina exemplos rotulados e n˜ao rotula-dos para gerar um regressor ou classificador apropriado.
Aprendizado por refor¸co: o algoritmo aprende uma regra de como agir, dadas
algumas observa¸c˜oes dos dados. Toda a¸c˜ao tem algum impacto no ambiente e o
ambiente fornece um feedback que orienta o algoritmo de aprendizado.
Transdu¸c˜ao: semelhante `a aprendizado supervisionado, por´em n˜ao constr´oi
expli-citamente uma fun¸c˜ao, em vez disso, tenta prever novos resultados com base em
dados de entrada usados para treinamento, sa´ıdas de treinamento e novas entradas.
Neste trabalho, o foco ser´a a aplica¸c˜ao de alguns agoritmos do tipo Supervisionado.
Por isso n˜ao ser´a feito um aprofundamento te´orico para os demais tipos.
1.1.1
Aprendizado Supervisionado
Como visto anteriormente, o Aprendizado de M´aquinas Supervisionado ´e uma t´ecnica
na qual algoritmo aprende uma fun¸c˜ao a partir dos dados da base de treinamento. Esta
base possui objetos de entrada e sa´ıdas desejadas; permitindo assim que o algoritmo
aprenda uma fun¸c˜ao [4]. Essa tecnica ´e altamente dependente das informa¸c˜oes fornecidas
pelas classifica¸c˜oes pr´e-determinadas dos dados de treinamento [3].
Ainda segundo [3], para os problemas de classifica¸c˜ao, h´a certos tipos de algoritmos
de Aprendizado Supervisionado mais comuns, que s˜ao os seguintes:
Classifica¸c˜ao linear:
– Regress˜ao log´ıstica;
– Discrimina¸c˜ao e classifica¸c˜ao;
– Classificador Na¨ıve Bayes; – Perceptron;
Classificadores quadr´aticos; Refor¸co; ´Arvore de decis˜ao; Redes neurais; Redes bayesianas.
1.2
Motiva¸
c˜
ao
Como argumenta [5], a t´ecnica de classifica¸c˜ao de texto pode ser aplicada em uma
ampla variedade de problemas da ´area de minera¸c˜ao de texto. Por exemplo, na filtragem
e organiza¸c˜ao de not´ıcias, uma vez que a maior parte dos ve´ıculos de informa¸c˜ao como
jornais e revistas migraram para o meio eletrˆonico e produzem um n´umero consider´avel
de informa¸c˜ao textual todos os dias. Portanto, m´etodos automatizados podem ser muito
´
uteis para a categoriza¸c˜ao de not´ıcias em uma variedade de portais da web. Aplica-se
tamb´em na organiza¸c˜ao e recupera¸c˜ao de documentos de grandes bibliotecas digitais,
cole¸c˜oes da web, literatura cient´ıfica ou at´e feeds de redes sociais. E, como j´a mencionado,
na classifica¸c˜ao de e-mail e filtragem de spam.
Sob esse cen´ario, o uso do Aprendizado de M´aquinas para problemas de classifica¸c˜ao
de texto torna-se uma ferramenta bastante ´util, capaz de reconhecer padr˜oes, criar regras
de associa¸c˜ao e realizar an´alises qualitativas e quantitativas de forma autom´atica.
1.3
Objetivos
O objetivo geral deste trabalho ´e explorar e comparar duas t´ecnicas de Aprendizado
de M´aquinas e aplic´a-las na classifica¸c˜ao de textos.
As t´ecnicas de Aprendizado de M´aquinas que foram aplicadas `as vari´aveis escolhidas
s˜ao: An´alise de Discriminante e M´aquinas de Vetor de Suporte.
Os objetivos espec´ıficos s˜ao listados a seguir:
Estudar sobre An´alise de Discriminante;
Entender como Corpus de textos s˜ao criados e como podemos utilizar as informa¸c˜oes presentes em sua estrutura;
Manipular dados de texto com etiquetagem morfol´ogicas e criar vari´aveis a partir das palavras de uma senten¸ca.
1.4
Organiza¸
c˜
ao
No Cap´ıtulo 2 deste trabalho ´e apresentado um estudo te´orico dos algoritmos de
Aprendizado de M´aquinas Supervisionado que se pretende aplicar a um banco de dados
formado a partir de alguns livros. A Se¸c˜ao 2.1 se dedica a dar embasamento te´orico `a
An´alise de Discriminante, enquanto a Se¸c˜ao 2.2 `as M´aquinas de Vetor de Suporte. Na
Se¸c˜ao 2.3 apresentamos os conceitos de etiquetagem morfol´ogica e o Colonia Corpus[11].
No Cap´ıtulo 3 ser´a descrito quais dados foram usados para criar a base que ser´a
anali-sada e quais vari´aveis foram consideradas para exemplificar um problema de classifica¸c˜ao.
Na Se¸c˜ao 3.1 apresentamos as an´alises dos dados e os resultados obtidos com An´alise de
Discriminante, enquanto que na Se¸c˜ao 3.2 temos os resultados da aplica¸c˜ao do algoritmo
de M´aquinas de Vetor e Suporte.
Por fim, no Cap´ıtulo 4 temos as considera¸c˜oes finais a cerca dos resultados obtidos
2
Materiais e M´
etodos
O uso de Aprendizado Supervisionado ´e bastante comum em problemas de
classi-fica¸c˜ao, porque geralmente tˆem-se como objetivo fazer com que o computador aprenda
um sistema de classifica¸c˜ao que ´e criado pelo programador.
Neste cap´ıtulo ser˜ao apresentadas as duas t´ecnicas de Aprendizado de M´aquinas
Su-pervisionado aplicadas neste trabalho.
2.1
An´
alise de Discriminante
A An´alise de Discriminante lida com um tipo especial de algoritmo de aprendizado
supervisionado. Concentra-se em separar conjuntos distintos de unidades em duas ou
mais popula¸c˜oes e, em seguida, alocar novas unidades, cuja a popula¸c˜ao de origem ´e
desconhecida, em uma dessas popula¸c˜oes [7].
Segundo [8], os objetivos da discrimina¸c˜ao e da classifica¸c˜ao s˜ao, respectivamente, os
seguintes:
Descrever graficamente ou algebricamente as caracter´ısticas diferenciais dos objetos
de v´arias popula¸c˜oes conhecidas. Tentar encontrar “discriminantes” cujos valores
num´ericos s˜ao tais que as popula¸c˜oes estejam separadas tanto quanto poss´ıvel.
Alocar objetos em uma das classes rotuladas. O n´umero de classes deve ser pelo
menos dois. A ˆenfase est´a na deriva¸c˜ao de uma regra que pode ser usada para
atribuir de maneira otimizada novos objetos a essas classes.
A fun¸c˜ao utilizada para discriminar objetos tamb´em pode ser usada para alocar, assim
como as regras de aloca¸c˜ao de objetos podem ser usadas para discriminar. Na pr´atica,
os objetivos de discrimina¸c˜ao e classifica¸c˜ao se sobrep˜oem, fazendo com que a distin¸c˜ao
2.1.1
Separa¸
c˜
ao e Classifica¸
c˜
ao para Duas Popula¸
c˜
oes
Suponha que se queira realizar um dos seguintes processos.
1. Separar duas classes de objetos.
2. Classificar um novo objeto em uma das duas classes previamente estipuladas.
Os objetos s˜ao separados ou classificados com base nas medi¸c˜oes de p vari´aveis
aleat´orias associadas XT = [X1, X2, ..., Xp].
Os valores observados de X diferem at´e certo ponto de uma classe para outra.
Pode-se pensar que os valores de X da primeira clasPode-se s˜ao provenientes da popula¸c˜ao π1 e os
da segunda classe da popula¸c˜ao π2. Essas duas popula¸c˜oes podem ser descritas por suas
fun¸c˜oes de densidade de probabilidade f1(x) e f2(x), e consequentemente, pode-se pensar
em atribuir observa¸c˜oes `a popula¸c˜oes ou objetos `a classes.
As regras de aloca¸c˜ao ou classifica¸c˜ao s˜ao desenvolvidas a partir dos dados de uma
base treinamento. As p caracter´ısticas medidas dos objetos selecionados aleatoriamente,
conhecidos por vir de cada uma das duas popula¸c˜oes, s˜ao examinadas quanto as suas
diferen¸cas.
O conjunto de poss´ıveis resultados da amostragem ser´a dividido nas regi˜oes R1 e R2,
de modo que, se uma nova observa¸c˜ao cair em R1, esta ser´a classificada como proveniente
da popula¸c˜ao π1 e, se cair em R2, ser´a classificada como sendo da popula¸c˜ao π2.
Se a probabilidade de uma classifica¸c˜ao incorreta for pequena, ent˜ao o procedimento de
classifica¸c˜ao ´e considerado adequado. Existem caracter´ısticas adicionais que uma regra de
classifica¸c˜ao “ideal” deve possuir. Pode ser que uma classe ou popula¸c˜ao tenha uma maior
probabilidade de ocorrˆencia que outra porque uma das duas popula¸c˜oes ´e relativamente
muito maior que a outra. Uma regra de classifica¸c˜ao ideal deve levar em conta essas
“probabilidades a priori ”.
Por conta disso, ´e importante estabalecer um custo de classifica¸c˜ao. Suponha que
a classifica¸c˜ao de um objeto π1 como pertencente a classe π2 representa um erro mais
grave que a classifica¸c˜ao de um objeto π2 como pertencente a π1. Um procedimento de
classifica¸c˜ao ideal deve considerar os custos associados `a classifica¸c˜ao incorreta.
Sejam f1(x) e f2(x) as fun¸c˜oes de densidade de probabilidade associadas ao vetor
aleat´orio XT = [X1, X2, ..., Xp] para as popula¸c˜oes π1 e π2 respectivamente e seja Ω = Rp
x1 x2 População π1 População π2 R1 R2
Figura 1: Ilustra¸c˜ao das Regi˜oes de classifica¸c˜ao para duas popula¸c˜oes.
Suponha que um objeto com medidas associadas a X deve ser atribu´ıdo a π1 ou π2.
Pode-se tomar uma parti¸c˜ao do espa¸co amostral tal que R1 seja o conjunto de valores de
X para os quais classificamos objetos como π1 e R2 = Ω − R1 ´e o conjuntos dos valores
de X restantes para os quais classificamos objetos como π2.
Pode-se calcular a probabilidade condicional P (2|1) = “classificar uma observa¸c˜ao
como π2 quando esta na verdade vem de π1” como sendo:
P (2|1) = P (X ∈ R2|π1) =
Z
R2=Ω−R1
f1(x) dx. (2.1)
Similarmente, a probabilidade P (1|2) = “classificar uma observa¸c˜ao como π1 quando
esta na verdade vem de π2” como sendo:
P (1|2) = P (X ∈ R1|π2) =
Z
R1
f2(x) dx. (2.2)
Sejam p1 e p2 as probabilidades a priori, tais que p1 = P (X ∈ π1) e p2 = P (X ∈ π2),
onde tˆem-se p1 + p2 = 1. A partir da´ı, tˆem-se que as probabilidades de classifica¸c˜ao,
1. Probabilidade da observa¸c˜ao ser da popula¸c˜ao π1 e ser classificada como π1 ´e
P (X ∈ R1|π1)P (π1) = P (1|1)p1.
2. Probabilidade da observa¸c˜ao ser da popula¸c˜ao π2 e ser classificada como π1 ´e
P (X ∈ R1|π2)P (π2) = P (1|2)p2.
3. Probabilidade da observa¸c˜ao ser da popula¸c˜ao π2 e ser classificada como π2 ´e
P (X ∈ R2|π2)P (π2) = P (2|2)p2.
4. Probabilidade da observa¸c˜ao ser da popula¸c˜ao π1 e ser classificada como π2 ´e
P (X ∈ R2|π1)P (π1) = P (2|1)p1.
Os custos da classifica¸c˜ao incorreta podem ser definidos por uma tabela da seguinte
forma:
Tabela 1: Tabela de Custos
Popula¸c˜ao Verdadeira Classifica¸c˜ao
π1 π2
π1 0 c(2|1)
π2 c(1|2) 0
Os custos s˜ao zero quando a classifica¸c˜ao ´e correta, c(1|2) ´e o custo da observa¸c˜ao ser
de π2 e ser classificada como π1 e, finalmente, c(2|1) ´e o custo da observa¸c˜ao ser de π1 e
ser classificada como π2.
Defini¸c˜ao 2.1 O Custo M´edio de Classifica¸c˜ao Incorreta, isto ´e, Expected Cost of
Mis-classification (ECM), como sendo:
ECM = c(2|1)P (2|1)p1+ c(1|2)P (1|2)p2. (2.3)
Uma regra de classifica¸c˜ao razo´avel deve ter um ECM menor poss´ıvel.
X para as quais as seguintes desigualdades s˜ao v´alidas: R1 = n x : f1(x) f2(x) ≥ c(1|2) c(2|1) p2 p1 o , R2 = n x : f1(x) f2(x) < c(1|2) c(2|1) p2 p1 o . (2.4)
2.1.2
Classifica¸
c˜
ao para Duas Popula¸
c˜
oes Normais
Multivaria-das
Os procedimentos de classifica¸c˜ao baseados em popula¸c˜oes normais predominam na
pr´atica devido `a sua simplicidade e alta eficiˆencia em uma ampla variedade de modelos
populacionais. Assumindo que f1 e f2 s˜ao fun¸c˜oes de densidade de uma popula¸c˜ao normal
multivariada, a primeira com vetor de m´edia de µ1 e matriz de variˆancia e covariˆancia
Σ1, e a segunda com vetor de m´edia de µ2 e matriz de variˆancia e covariˆancia Σ2. Para
realizar as classifica¸c˜oes, ´e necess´ario verificar os casos para Σ1 = Σ2 e Σ1 6= Σ2.
2.1.2.1 Classifica¸c˜ao para Popula¸c˜oes Normais Σ1 = Σ2 = Σ
Suponha que a densidade conjunta de XT = [X1, X2, ..., Xp] das popula¸c˜oes π1 e π2
seja dada por:
fi(X) = 1 (2π)p/2|Σ|1/2exp h −1 2(X − µi) TΣ−1 (X − µi) i , ∀i = 1, 2, (2.5)
onde os parˆametros µ1, µ2 e Σ s˜ao conhecidos.
Resultado 2.2 As regi˜oes que produzem menor ECM s˜ao tais que:
R1 : exp h −1 2(X − µ1) TΣ−1(X − µ 1) + 12(X − µ2)TΣ−1(X − µ2) i ≥c(1|2)c(2|1)p1 p2 , R2 : exp h −1 2(X − µ1) TΣ−1(X − µ 1) + 12(X − µ2)TΣ−1(X − µ2) i <c(1|2)c(2|1)p1 p2 . (2.6)
seguir.
Resultado 2.3 Sejam as popula¸c˜oes π1 e π2 descritas pela fun¸c˜ao de densidade normal
multivariada da forma (2.5). Ent˜ao, a regra de aloca¸c˜ao que minimiza o ECM ´e a da
forma: 1. alocar X0 em π1 se: (µ1− µ2)TΣ−1X0− 1 2(µ1− µ2) TΣ−1 (µ1− µ2) < ln hc(1|2) c(2|1) p1 p2 i . (2.7)
2. alocar X0 em π2 caso contr´ario.
<−−−−−−−−−− Classificar em π1 −−−−−−−−−><−−−−−−−−− Classificar em π2 −−−−−−−−>
P(X∈R1|X∈ π2) P(X∈R2|X∈ π1)
f1(x) f2(x)
Figura 2: Erro de classifica¸c˜ao para o caso univariado com variˆancias iguais.
2.1.2.2 Classifica¸c˜ao para Popula¸c˜oes Normais Σ1 6= Σ2
As regras de classifica¸c˜ao s˜ao mais complicadas quando as matrizes de covariˆancia
populacional s˜ao desiguais. Considerando as densidades normais multivariadas em (2.5)
com Σi, i = 1, 2, no lugar de Σ de forma que as matrizes de covariˆancia e os vetores de
Resultado 2.4 As regi˜oes R1 e R2 que minimizam o ECM, para este caso, s˜ao definidas
pelos valores e X para as quais as seguintes desigualdades s˜ao v´alidas:
R1 : −12XT(Σ−11 − Σ −1 2 )X + (µT1Σ −1 1 − µT2Σ −1 2 )X − k ≥ ln h c(1|2) c(2|1) p1 p2 i , R2 : −12XT(Σ−11 − Σ −1 2 )X + (µT1Σ −1 1 − µT2Σ −1 2 )X − k < ln h c(1|2) c(2|1) p1 p2 i , (2.8) onde, k = −1 2ln h|Σ1| |Σ2| i +1 2(µ T 1Σ −1 1 − µ T 2Σ −1 2 ). (2.9)
A regra de classifica¸c˜ao para popula¸c˜oes normais multivariadas seguem de 2.8.
Resultado 2.5 Sejam as popula¸c˜oes π1 e π2 descritas pela fun¸c˜ao de densidade normal
multivariada com vetor de m´edias e matrizes de covariˆancias µ1, Σ1 e µ2, Σ2,
respecti-vamente. A regra de aloca¸c˜ao que minimiza o custo esperado da classifica¸c˜ao incorreta ´e
dada por: 1. alocar X0 em π1 se: −1 2X0 T (Σ−11 − Σ−12 )X0+ (µT1Σ −1 1 − µ T 2Σ −1 2 )X0− k ≥ ln hc(1|2) c(2|1) p1 p2 i , (2.10)
onde k est´a definido na equa¸c˜ao (2.9),
2. alocar X0 em π2 caso contr´ario.
Na pr´atica, tanto para o caso Σ1 = Σ2 quanto para o caso Σ1 6= Σ2, para estimar
µ1 e µ2 usa-se as fun¸c˜oes amostrais X1 e X2, tais que [8]:
Xi= 1nXT1,
com i = 1, 2 e 1 matriz n × p onde todas as entradas s˜ao o n´umero 1.
Para estimar as matrizes de covariˆancias tamb´em se usam as fun¸c˜oes amostrais S1 e
S2 tais que [8]:
Si = n−11 XT(In−n111T)X,
R1 R1
R2
f1(x)
f2(x)
Figura 3: Regra de classifica¸c˜ao para duas popula¸c˜oes normais univariadas com variˆancias
distintas.
2.2
M´
aquinas de Vetor de Suporte
As m´aquinas de vetor de suporte s˜ao m´aquinas de aprendizado bin´ario cujo objetivo
´e classificar padr˜oes que possam ser separ´aveis [9] minimizando a probabilidade de erro
de classifica¸c˜ao.
A id´eia principal por tr´as das m´aquinas pode ser explicada da seguinte forma: dada
uma amostra de treinamento, as m´aquinas de vetor de suporte constr´oem um hiperplano
como superf´ıcie de decis˜ao, de modo que a margem de separa¸c˜ao entre exemplos positivos
e negativos seja maximizada.
2.2.1
Hiperplano ´
Otimo para Padr˜
oes Linearmente Separ´
aveis
As m´aquinas de vetor de suporte s˜ao usadas para resolver problemas de classifica¸c˜ao
de padr˜oes separ´aveis. Os vetores de suporte consistem em um pequeno subconjunto
de pontos de dados, extra´ıdos pelo algoritmo de aprendizado, da pr´opria amostra de
treinamento.
Considere a amostra de treinamento {(Xi, di)}
N
i=1, onde Xi´e o padr˜ao de entrada para
o i-´esimo indiv´ıduo da amostra de tamanho N , e di ´e a resposta desejada correspondente.
representado pelo subconjunto di = −1 s˜ao linearmente separ´aveis. A equa¸c˜ao de uma
superf´ıcie de decis˜ao na forma de um hiperplano que faz a separa¸c˜ao ´e dada por:
wTX + b = 0, (2.11)
onde X ´e um vetor de entrada, w ´e um vetor de peso ajust´avel e b ´e um vi´es.
Desta maneira, podemos escrever (2.11) da seguinte forma:
wTXi+ b ≥ 0, para di = +1,
wTXi+ b < 0, para di = −1.
(2.12)
Para um dado w ajust´avel e b, a separa¸c˜ao entre o hiperplano definido em (2.11) e
o ponto de dado mais pr´oximo ´e chamado de Margem de Separa¸c˜ao ρ. As m´aquinas de
vetor de suporte tem por objetivo encontrar um hiperplano particular de forma que ρ seja o maior poss´ıvel.
Sendo atendida essa condi¸c˜ao, a superf´ıcie de decis˜ao ´e chamada de hiperplano ´otimo.
ρ ρ
Figura 4: Hiperplano e Margem de Separa¸c˜ao.
´
otimo, representando uma superf´ıcie de decis˜ao linear multidimensional no espa¸co de
entrada, ´e definido por:
wT0X + b0 = 0, (2.13)
A fun¸c˜ao discriminante g(x) = wT0X + b0 fornece uma medida alg´ebrica da distˆancia
de X ao hiperplano ´otimo, sendo poss´ıvel expressar X de outra maneira:
X = Xp+ r
w0
||w0||
, (2.14)
onde Xp ´e a proje¸c˜ao normal de X no hiperplano ´otimo, r ´e a distˆancia alg´ebrica
desejada. Tem-se que r ´e positivo se X estiver no lado positivo do hiperplano ´otimo, e
negativo se X estiver no lado negativo. Por defini¸c˜ao, g(Xp) = 0, segue-se que:
g(X) = wT0X + b0 = r||w0||, (2.15)
ou, equivalentemente:
r = g(X)
||w0||
. (2.16)
A distˆancia da origem (quando X = 0) at´e a hiperplano ´otimo ´e dado por b0
||w0||.
Se b0 > 0, a origem est´a do lado positivo do hiperplano ´otimo. Se b0 < 0, est´a do lado
negativo. J´a para o caso b0 = 0, o hiperplano ´otimo passa pela origem. Uma interpreta¸c˜ao
X1 X2 b0 ||w0|| r X Hiperplano
Figura 5: Interpreta¸c˜ao geom´etrica das distˆancias alg´ebricas de pontos at´e o hiperplano
´
otimo para o caso bidimensional.
Ent˜ao a principal quest˜ao ser´a encontrar os parˆametros w0 e b0 do hiperplano ´otimo,
dada a amostra de treinamento definida por = = {(Xi, di)}. Pelos resultados
representa-dos na Figura 5 pode-se notar que o par (w0, b0) deve atender a regra:
w0TXi+ b0 ≥ +1, para di = +1,
wT0Xi+ b0 ≤ −1, para di = −1.
(2.17)
Se (2.11) ´e v´alido, ou seja, se os padr˜oes forem linearmente separ´aveis, pode-se escalar
w0 e b0 de modo que (2.17) ´e v´alido. Essa opera¸c˜ao de escalonamento n˜ao afeta (2.13).
Os pontos de dados espec´ıficos (Xi, di) para os quais a primeira ou a segunda equa¸c˜ao
de (2.17) ´e satisfeita com o sinal de igualdade s˜ao chamados de vetores de suporte, da´ı o
nome m´aquinas de vetor de suporte. Os vetores de suporte s˜ao os pontos de dados mais
pr´oximos do hiperplano ´otimo e, portanto, os mais dif´ıceis de classificar. Eles possuem
uma rela¸c˜ao direta com a localiza¸c˜ao ideal da superf´ıcie de decis˜ao.
Considere o vetor de suporte X(s) para cada d(s) = +1. Ent˜ao, pela defini¸c˜ao, tem-se
que:
Vetores de suporte
Hiperplano Margem de separação
Figura 6: Vetores de Suporte e Hiperplano de Separa¸c˜ao.
De (2.16), a distˆancia alg´ebrica do vetor de suporte X(s) ao hiperplano ´otimo ´e:
r = g(X(s)) ||w0|| = 1 ||w0||, se d(s)= +1 −1 ||w0||, se d(s)= −1, (2.19)
onde o sinal de positivo indica que X(s) est´a no lado positivo do hiperplano ´otimo e o
sinal de negativo indica que X(s) est´a no lado negativo.
Seja ρ o valor ideal da margem de separa¸c˜ao entre as duas classes que constituem a
amostra de treinamento. Ent˜ao, de (2.19), segue-se que:
ρ = r = 1
||w0||
(2.20)
Maximizar a margem de separa¸c˜ao entre classes bin´arias ´e equivalente a minimizar a
norma euclidiana do vetor de peso w.
Em resumo, o hiperplano ´otimo definido por (2.13) ´e ´unico de maneira que o vetor
de peso ´otimo w0 fornece a m´axima separa¸c˜ao entre exemplos positivos e negativos. Essa
condi¸c˜ao ideal ´e atingida minimizando a norma euclidiana do vetor de peso w.
a amostra de treinamento = = {(Xi, di)}, encontre o hiperplano ´otimo sujeito `a restri¸c˜ao
di(wTXi+ b) ≥ +1 ∀i = 1, ..., N. (2.21)
Esta restri¸c˜ao combina as linhas contidas em (2.17) usando w no lugar de w0. Logo,
o problema de otimiza¸c˜ao restrito que deve ser resolvido ´e formulado a seguir.
Problema 2.1 Dada a amostra de treinamento {(Xi, di)}Ni=1, encontre os valores ´otimos
do vetor de peso w e o vi´es b que satisfa¸cam as restri¸c˜oes:
di(wTXi+ b) ≥ +1 ∀i = 1, ..., N. (2.22)
e o vetor de peso w que minimize a fun¸c˜ao de custo:
φ(w) = 1
2||w||
2
. (2.23)
2.2.2
Erros de Classifica¸
c˜
ao
Nesta Se¸c˜ao ser´a discutido o caso onde n˜ao ´e poss´ıvel construir um hiperplano de
separa¸c˜ao sem que ocorram erros de classifica¸c˜ao.
Defini¸c˜ao 2.2 A margem de separa¸c˜ao entre as classes ´e dita suave se, existe um ponto
(Xi, di), que viola a restri¸c˜ao definida em (2.22).
As viola¸c˜oes que podem ocorrer s˜ao as seguintes.
1. O ponto dado (Xi, di) se encontra dentro da regi˜ao de separa¸c˜ao, por´em do lado
correto do hiperplano de decis˜ao, indicando que este foi corretamente classificado.
2. O ponto dado (Xi, di) se encontra do lado errado do hiperplano, indicando que este
foi classificado incorretamente.
Para os casos dados linearmente n˜ao-separ´aveis, quando h´a ocorrˆencia de erros de
classifica¸c˜ao como vistos na Defini¸c˜ao 2.2, ´e necess´ario a introdu¸c˜ao de um novo conjunto
Hiperplano Margem de separação Violação do Tipo 1 Violação do Tipo 2
Figura 7: Viola¸c˜ao `a Margem de separa¸c˜ao suave.
Defini¸c˜ao 2.3 Seja {ξi}Ni=1 um conjunto de vari´aveis escalares n˜ao negativas, tais que se
possa reescrever (2.22) como sendo:
di(wTXi+ b) ≥ 1 − ξi ∀i = 1, ..., N. (2.24)
As ξi s˜ao chamadas de vari´aveis soltas e tem como fun¸c˜ao medir o desvio de um ponto
dado da condi¸c˜ao ideal de separa¸c˜ao, de forma que:
se 0 ≤ ξi ≤ 1, ent˜ao o ponto dado executa a primeira viola¸c˜ao descrita na Defini¸c˜ao
2.2.
se ξi > 1, ent˜ao o ponto dado executa a segunda viola¸c˜ao descrita na Defini¸c˜ao 2.2.
A soma dos ξi representa um limite no n´umero de erros de treinamento que o algoritmo
deve tolerar.
Podemos generalizar o Problema 2.1, de forma a incluir o caso de padr˜oes n˜ao
linear-mente separ´aveis, da seguinte maneira.
Problema 2.2 Dada a amostra de treinamento {(Xi, di)}
N
i=1, encontre os valores ´otimos
do vetor de peso w e o vi´es b que satisfa¸cam as restri¸c˜oes:
de maneira que o vetor de peso w e as vari´aveis soltas ξi minimizem a fun¸c˜ao de custo: φ(w)(w, ξ) = 1 2w Tw + C N X i=1 ξi, (2.25)
onde C ´e um parˆametro positivo escolhido pelo usu´ario.
Se tomarmos ξi = 0 para todo i nas Equa¸c˜oes (2.24) e (2.25) teremos uma redu¸c˜ao `as
Equa¸c˜oes (2.21) e (2.23) respectivamente.
O parˆametro C ´e um n´umero n˜ao negativo que controla o qu˜ao tolerante deve ser a
m´aquina de vetor de suporte com rela¸c˜ao aos erros de classifica¸c˜ao. Este parˆametro ´e
determinado pelo usu´ario experimentalmente atrav´es do uso de uma amostra de
treina-mento.
Quando ´e atribu´ıdo ao parˆametro C um valor alto, a implica¸c˜ao ´e que o usu´ario da
m´aquina de vetor de suporte tem alta confian¸ca na qualidade da amostra de treinamento.
De outra forma, quando ´e atribu´ıdo um valor pequeno ao parˆamentro C, a amostra de
treinamento ´e considerada ruidosa e, portanto, menos ˆenfase deve ser colocada nela.
2.3
Etiquetagem Morfol´
ogica
O avan¸co da capacidade de armazenamento e processamento dos computadores nas ´
ultimas d´ecadas beneficiou muitas ´areas de estudo, como por exemplo a lingu´ıstica. A
computa¸c˜ao possibilitou o surgimento de novas abordagens a problemas que antes n˜ao
poderiam ser tratados de forma mais eficiente [10]. Por exemplo, hoje ´e poss´ıvel montar
um conjunto de textos (tamb´em chamado de corpus) que pode ser guardado, processado
e analisado de diferentes formas.
O reconhecimento das classes gramaticais de palavras, isto ´e, de acordo com sua
morfologia, ´e um problema cl´assico da lingu´ıstica computacional. Para analisar a estrutura
de senten¸cas, por exemplo, ´e necess´ario realizar num primeiro momento a categoriza¸c˜ao
das palavras contidas num conjunto de textos [10].
Os sistemas capazes de realizar a tarefa classificar palavras de acordo com sua posi¸c˜ao
em uma senten¸ca s˜ao denominados etiquetadores (taggers) de categorias gramaticais (ou
categoria correta, de acordo com a posi¸c˜ao que a palavra ocupa na frase. Logo, ao usarmos
o etiquetador em um texto, este ser´a reescrito pela ferramenta com o acr´escimo, a cada
palavra, de uma etiqueta com a informa¸c˜ao sobre a sua classe gramatical. Mais a frente
ser´a dado um exemplo pr´atico do funcionamento de um etiquetador.
2.4
O Colˆ
onia Corpus
O Colonia: Corpus of Historical Portuguese [11] ´e um corpus criado pela Universidade
de Colˆonia, na Alemanha. Este corpus ´e formado por uma cole¸c˜ao de material textual
do s´eculo XVI at´e in´ıcio do s´eculo XX, inteiramente em portuguˆes — contando com 52
livros em portuguˆes brasileiro e 48 em portuguˆes europeu — todos com POS tagged. A
compila¸c˜ao do corpus foi feita atrav´es da coleta do material de trˆes fontes principais:
Dom´ınio P´ublico, uma biblioteca digital de m´ıdia n˜ao protegida por direitos autorais
e mantida pelo Minist´erio da Educa¸c˜ao, e textos de outros dois corpus hist´oricos em
portuguˆes, um do Grupo de Morfologia Hist´orica do Portuguˆes (GMHP), da Universidade
de S˜ao Paulo, e o Corpus Hist´orico do Portuguˆes Tycho Brahe, da Universidade Estadual
de Campinas.
2.5
O TreeTagger
O Colonia corpus foi constru´ıdo e etiquetado em POS usando o TreeTagger [12], uma ferramenta de etiquetagem desenvolvida pelo Instituto de Processamento de Linguagem
Natural da Universidade de Stuttgart, usando um arquivo de parˆametros para o portuguˆes
[13]. O TreeTagger ´e um tagger probabil´ıstico independente de linguagem. Este organiza
os dados anotados em um formato de trˆes colunas (token original, a tag POS e lema a
qual o token pertence). O TreeTagger pode atingir um desempenho superior a 95% de
precis˜ao ao atribuir uma tag POS correta e o lema correto de um token [12].
Na tabela a seguir ´e poss´ıvel verificar um exemplo de como a tag POS do TreeTagger
funciona para uma senten¸ca em portuguˆes usando como exemplo a frase “O meu tio ´e
Tabela 2: Sa´ıdas do TreeTagger para uma senten¸ca em portuguˆes.
token tag lemma
O DET o
meu ADJ meu
tio NOM tio
´e V ser
portuguˆes ADJ portuguˆes
Note que cada linha cont´em um token, o tag POS e o lema correspondente, todos
separados por tabula¸c˜ao.
O TreeTagger para portuguˆes possui c´odigo execut´avel para sistemas operacionais
como PC-Linux, Windows, Mac-OS que podem ser baixados no portal da ferramenta [14].
3
An´
alise dos Resultados
O objetivo deste trabalho ´e comparar os resultados de cada algoritmo de aprendizado
de m´aquinas supervisionado na classifica¸c˜ao de textos. Ser´a avaliada a efic´acia desses
algoritmos na distin¸c˜ao entre dois autores diferentes.
Para compor a base de dados deste trabalho, foram usados alguns livros disponibi-lizados pela Colonia Corpus. Foram escolhidos alguns livros de dois autores brasileiros,
que est˜ao descritos na Tabela 3 a seguir:
Tabela 3: Autores e livros escolhidos.
Autor Livro
Antˆonio Jos´e da Silva
Anfitri˜ao ou J´upiter e Alcmena
As Variedades de Proteu Esopaida ou Vida de Esopo
Guerras do Alecrim e da Manjerona Labirinto de Creta Os Encantos de Medeia Precip´ıcio de Faetonte Alu´ısio Azevedo Casa de Pens˜ao Condessa V´esper Filomena Borges O Corti¸co
Este trabalho levou ent˜ao em considera¸c˜ao duas vari´aveis:
X1ij`= “quantidade de lemas distintos classificados como NOM na `-´esima
lauda do j-´esimo livro do i-´esimo autor” e;
X2ij`= “quantidade de lemas n˜ao-distintos classificados como V na `-´esima
lauda do j-´esimo livro do i-´esimo autor”,
onde i = 1, 2 e j = 1, . . . , 7 se i = 1 ou j = 1, . . . , 4 se i = 2. O ´ındice `
discriminados seus valores de varia¸c˜ao.
As classifica¸c˜oes NOM e V do TreeTagger [12] s˜ao, respectivamente, tags para
subs-tantivo e verbo.
Outras vari´aveis foram consideradas para compˆor a base de dados deste trabalho,
foram elas:
X1ij` = “quantidade de lemas n˜ao-distintos classificados como NOM na
`-´esima lauda do j-´esimo livro do i-´esimo autor”;
X2ij`= “quantidade de lemas distintos classificados como V na `-´esima lauda
do j-´esimo livro do i-´esimo autor”;
X1ij` = “quantidade de lemas distintos classificados como ADJ na `-´esima
lauda do j-´esimo livro do i-´esimo autor” e;
X2ij` = “quantidade de lemas n˜ao-distintos classificados como ADJ na
`-´
esima lauda do j-´esimo livro do i-´esimo autor”.
Por´em, as vari´aveis acima foram descartadas por apresentarem um comportamento
muito inst´avel para livro individualmente. Outro motivo que nos motivou a usar apenas
as duas vari´aveis consideradas foi a facilidade na visualiza¸c˜ao gr´afica de dados de duas
dimens˜oes.
Para facilitar a nota¸c˜ao, iremos nos referir `as vari´aveis usadas neste trabalho apenas
como X1 e X2 daqui em diante. Ainda no intuito de tornar a leitura deste trabalho menos
prolixa, ser´a considerado no decorrer do texto chamar o autor Antˆonio Jos´e da Silva de
autor 1, e Alu´ısio Azevedo de autor 2.
Definiu-se como lauda o n´umero de caracteres at´e que se fosse alcan¸cado a marca
de 1200 caracteres e uma senten¸ca fosse finalizada, de forma que as laudas nem sempre possuem o mesmo comprimento de string.
Foram considerados dois cen´arios de classifica¸c˜ao. Um usando o livro Esopaida ou a
Vida de Esopo do autor 1 como sendo a base de teste 1, e usando todos os outros livros
como base de treinamento 1. O segundo cen´ario foi constru´ıdo usando o livro Condessa
V´esper do autor 2 como sendo a base de teste 2 e usando os todos outros livros como
base de treinamento 2.
poss´ıveis cen´arios, isto ´e, usando cada livro em separado dos demais como teste, de forma
a criar mais outros nove cen´arios para cada algoritmo de classifica¸c˜ao.
3.1
Resultados a partir da An´
alise de Discriminante
A partir das vari´aveis definidas no in´ıcio deste cap´ıtulo, foram calculadas as
estima-tivas amostrais para as bases de treinamento de cada cen´ario distinguindo-se os autores.
Esses valores podem ser vistos na Tabela 4.
Dentro de cada cen´ario, as bases com os dados referentes ao autor 1 e 2 s˜ao
respecti-vamente as popula¸c˜oes π1 e π2.
Tabela 4: Estimativas amostrais para cada cen´ario.
Cen´arios Autor Estimativas amostrais
Base de treinamento 1 π1 X1 = 33.990 46.553 ; S1 = 38.510 −23.746 −23.746 53.326 π2 X2 = 43.790 35.668 ; S2 = 49.346 −37.118 −37.118 68.955 Base de treinamento 2 π1 X1 = 34.046 46.818 ; S1 = 39.746 −24.212 −24.212 53.060 π2 X2 = 44.370 35.437 ; S2 = 48.769 −35.938 −35.938 69.519
Foram realizados o Teste de Shapiro-Wilk Multivariado para verificar a normalidade
das vari´aveis, X1 e X1 e o Teste Box’s M para verificar a homogeneidade das matrizes
de variˆancia e covariˆancia das popula¸c˜oes π1 e π2 de cada cen´ario. Na Tabela 5 est˜ao
apresentados o valor p e as estat´ısticas de cada teste.
Abaixo, na Figura 8, temos a representa¸c˜ao gr´afica da distribui¸c˜ao dos dados, com
uma elipse de 95% de confian¸ca, e o QQ-plot considerando uma distribui¸c˜ao Qui-quadrado
Tabela 5: Teste de Shapiro-Wilk multivariado e Teste Box’s M.
Cen´arios Autor Teste de Shapiro-Wilk Teste Box’s M
Valor p Estat´ıstica de Teste Valor p Estat´ıstica de Teste Base de Treinamento 1 π1 0.206 0.996 0 19.332 π2 0.069 0.998 Base de Treinamento 2 π1 0.293 0.997 0.001 16.809 π2 0.209 0.998
Cabe ressaltar que os pontos de dados nas el´ıpses da Figura 8 foram plotados usando
a fun¸c˜ao jitter(), que adiciona uma pequena varia¸c˜ao de um cinquenta avos na posi¸c˜ao
dos pontos em dire¸c˜ao aos eixos, afim de evidenciar os pontos de dados que possam ficar
sobrepostos. Os pr´oximos gr´aficos que ser˜ao mostrados no decorrer deste trabalho tamb´em
foram constru´ıdos usando esta fun¸c˜ao.
A partir do que foi definido na Se¸c˜ao 2.2, dos resultados mostrados na Tabela 5 e na
Figura 8, temos evidˆencia de que temos um problema de classifica¸c˜ao com duas popula¸c˜oes
normais bivariadas com matriz de covariˆancia distintas.
Foi aplicado o Resultado 2.5 nos dados dos dois cen´arios descritos e, usando os
parˆametros amostrais, foi gerada a regra que classifica cada `-´esima observa¸c˜ao das
amos-tras de teste da seguinte maneira:
1. classificar a `-´esima observa¸c˜ao da base de teste como pertencente a π1 caso esta
satisfa¸ca: −1 2X` T(S−1 1 − S −1 2 )X`+ (X T 1S −1 1 − X T 2S −1 2 )Xi− k ≥ ln hc(1|2) c(2|1) p1 p2 i , onde, k = −1 2ln h|S1| |S2| i +1 2(X T 1S −1 1 − X T 2S −1 2 )
2. Classificar a `-´esima observa¸c˜ao da base de teste como pertencente a π2caso contr´ario
Nas curvas mostradas na Figura 9 temos a distribui¸c˜ao dos pontos das base de
trei-namento e das bases teste de cada cen´ario. Tamb´em s˜ao mostradas as regi˜oes R1 e R2,
X1 X2 20 25 30 35 40 45 50 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12 14
Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Esopaida ou Vida de Esopo do autor Antônio José da Silva
Antônio José da Silva Aluísio Azevedo
(a) Cen´ario 1.
X1 X2 20 30 40 50 60 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12 14
Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Condessa Vésper do autor Aluísio Azevedo
Antônio José da Silva Aluísio Azevedo
(b) Cen´ario 2.
Figura 8: Distribui¸c˜ao e QQ-Plot.
A Tabela 6 a seguir cont´em o n´umero de observa¸c˜oes, o n´umero de observa¸c˜oes
X1 X2 10 20 30 40 50 60 70 0 20 40 60
Antônio José da Silva Aluísio Azevedo Esopaida ou Vida de Esopo
R1
R2
Livro Esopaida ou Vida de Esopo do autor Antônio José da Silva
(a) Classifica¸c˜ao das observa¸c˜oes da base de teste 1.
X1 X2 10 20 30 40 50 60 70 0 20 40 60
Antônio José da Silva Aluísio Azevedo Condessa Vésper
R1
R2
Livro Condessa Vésper do autor Aluísio Azevedo
(b) Classifica¸c˜ao das observa¸c˜oes da base de teste 2.
Tabela 6: Eficiˆencia do algoritmo de An´alise de Discriminante.
Base de Teste Nº de laudas
Nº de laudas
classificadas corretamente
Percentual de classifica¸c˜oes corretas
Esopaida ou Vida de Esopo 81 66 81.5%
Condessa V´esper 483 334 69.2%
3.2
Resultados a partir do Algoritmo de M´
aquinas
de Vetor de Suporte
Usando a linguagem R [6], atrav´es do pacote e1071, foram executados os seguintes
comandos afim de se calcular os vetores de suporte referentes `a base de treinamento:
svm.base = svm(X3 ∼ X1+X2, data=base.treino, cost=100, kernel=‘‘linear’’, scale=F)
O argumento kernel indica qual tipo de separa¸c˜ao ser´a feita entre os dados. Nesse
caso, pretende-se realizar uma separa¸c˜ao linear entre os dados, ou seja, o hiperplano ´otimo
´e uma reta conforme foi definido em (2.11).
O argumento cost ´e onde ser´a definido o valor do parˆametro C, que determina a
tolerˆencia dos erros de classifica¸c˜ao da m´aquina de vetor de suporte. Escolheu-se
arbitra-riamente o valor 100 para esse parˆametro.
As vari´aveis X1 e X2 correspondem `as vari´aveis X1 e X2 respectivamente, e a vari´avel
X3 corresponde aos autores.
A seguir, a Figura 10 mostra os vetores de suporte e a divis˜ao realizada pelo algoritmo
X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70
Antônio José da Silva Aluísio Azevedo
VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação
Livro Esopaida ou Vida de Esopo do autor Antônio José da Silva
(a) Hiperplano para a base de treinamento 1.
X1 X2 20 30 40 50 60 70 20 30 40 50 60 70
Antônio José da Silva Aluísio Azevedo
VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação
Livro Condessa Vésper do autor Aluísio Azevedo
(b) Hiperplano para a base de treinamento 2.
Usando a fun¸c˜ao predict(), pˆode-se obter a classifica¸c˜ao das laudas de cada base de teste da seguite maneira:
svm.pred = predict(svm.base,baseteste1) svm.pred = predict(svm.base,baseteste2)
A Tabela 7 fornece os resultados das classifica¸c˜oes para cada base de teste.
Tabela 7: Eficiˆencia do algoritmo de M´aquinas de Vetor de Suporte.
Base de Teste Nº de laudas
Nº de laudas classificadas corretamente Percentual de classifica¸c˜oes corretas Nº de vetores de suporte
Esopaida ou Vida de Esopo 81 51 63.0% 865
4
Conclus˜
oes
Primeiramente, apenas com os dados mostrados nas Se¸c˜oes 3.1 e 3.2, podemos notar
que ambos algoritmos apresentaram resultados satisfat´orios na classifica¸c˜ao correta das
laudas da base de teste nos dois cen´arios.
Pelos dados da Tabela 6, temos que o algoritmo de An´alise de Discriminante foi
mais eficiente em classificar as laudas do livro Esopaida ou a Vida de Esopo. Enquanto,
pela Tabela 7, temos que o algoritmo de M´aquinas de Vetor de Suporte teve um melhor
desempenho ao classificar corretamente as laudas do livro Condessa V´esper.
Nos Apˆendices 6 e 7 deste trabalho ´e mostrado o percentual de acerto de cada
algo-ritmo para os demais cen´arios poss´ıveis. ´E f´acil notar que a porcentagem de acerto do
Algoritmo de An´alise de Discriminante ´e maior quando este tenta classificar as laudas dos
livros do autor 1, enquanto as M´aquinas de Vetor de Suporte apresentam um percentual
de acerto maior para as laudas dos livros do autor 2.
Por´em, de forma geral, ambos algoritmos conseguiram classificar corretamente a maior
parte das laudas dos livros de teste de cada cen´ario poss´ıvel. As ´unicas exce¸c˜oes foram
os cen´arios onde pretendeu-se classificar as laudas dos livros Os Encantos de Medeia e
Guerras do Alecrim e da Manjerona, ambos do autor 1, usando M´aquinas de Vetor de
Suporte. O percentual de acertos dos respectivos cen´arios foram de 19.0% e 43.4%.
Desta forma, podemos dizer que o algoritmo mais bem sucedido foi o de An´alise de
Discriminante. Tamb´em ´e importante ressaltar que as el´ıpses de 95% de confian¸ca dos
livros de teste quase sempre apresentam um comportamento parecido com a el´ıpse do
autor correto, como pode ser visto no Apˆendice 2. Com exce¸c˜ao das el´ıpses dos livros Os
Encantos de Medeia e Anfitri˜ao ou J´upiter Alcmena que est˜ao um pouco mais inclinadas
que a el´ıpse dos dados do autor 1. Ainda assim, esses dois livros tiveram um percentual
de classifica¸c˜oes corretas maior de que 70%.
Com isso, podemos concluir que o principal objetivo deste trabalho foi alcan¸cado.
poss´ıvel criar vari´aveis a partir de dados textuais, com etiquetagem morfol´ogica, e us´a-las
Referˆ
encias
1 ALPAYDIN, E. Introduction to machine learning. [S.l.]: MIT press, 2009.
2 KELLEHER, J. D.; NAMEE, B. M.; D’ARCY, A. Fundamentals of machine learning for predictive data analytics: algorithms, worked examples, and case studies. [S.l.]: MIT Press, 2015.
3 AYODELE, T. O. Types of machine learning algorithms. In: New advances in machine learning. [S.l.]: IntechOpen, 2010.
4 AYODELE, T. O. Machine learning overview. In: New Advances in Machine Learning. [S.l.]: IntechOpen, 2010.
5 AGGARWAL, C. C.; ZHAI, C. A survey of text classification algorithms. In: Mining text data. [S.l.]: Springer, 2012. p. 163–222.
6 R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria, 2014. Dispon´ıvel em: hhttp://www.R-project.org/i.
7 KHATTREE, R.; NAIK, D. N. Applied multivariate statistics with SAS software. [S.l.]: SAS Institute Inc., 2018.
8 JOHNSON, D. E. et al. Applied multivariate methods for data analysts. [S.l.]: Duxbury press Pacific Grove, CA, 1998. v. 48.
9 HAYKIN, S. Neural Networks and Learning Machines, 3/E. [S.l.]: Pearson Education India, 2010.
10 VIEIRA, R.; LIMA, V. L. Ling¨u´ıstica computacional: princ´ıpios e aplica¸c˜oes. In: SN.
Anais do XXI Congresso da SBC. I Jornada de Atualiza¸c˜ao em Inteligˆencia Artificial.
[S.l.], 2001. v. 3, p. 47–86.
11 ZAMPIERI, M.; BECKER, M. Colonia: Corpus of historical portuguese. ZSM Studien, Special Volume on Non-Standard Data Sources in Corpus-Based Research, v. 5, p. 69–76, 2013.
12 SCHMID, H. Probabilistic part-ofispeech tagging using decision trees. In: New methods in language processing. [S.l.: s.n.], 2013. p. 154.
13 GARCIA”, P. G. e M. ”Tree-Tagger for Portuguese and Galician”. ”2005”.
Dispon´ıvel em: h”https://gramatica.usc.es/∼gamallo/tagger.htm”i.
14 SCHMID”, H. ”TreeTagger - a part-of-speech tagger for many languages”. ”1994”.
APˆ
ENDICE 1 -- Distribui¸
c˜
ao e QQ-Plot dos
demais cen´
arios poss´ıveis
X1 X2 20 30 40 50 60 30 40 50 60 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12 14
Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Os Encantos de Medeia do autor Antônio José da Silva
X1 X2 20 30 40 50 60 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12 14
Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Anfitrião ou Júpiter e Alcmena do autor Antônio José da Silva
Antônio José da Silva Aluísio Azevedo
X1 X2 20 30 40 50 60 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12 14
Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Labirinto de Creta do autor Antônio José da Silva
X1 X2 20 30 40 50 60 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12 14
Distribuição e QQ−plot dos dados de cada autor retirando−se o livro As Variedades de Proteu do autor Antônio José da Silva
Antônio José da Silva Aluísio Azevedo
X1 X2 20 30 40 50 60 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12 14
Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Guerras do Alecrim e da Manjerona do autor Antônio José da Silva
X1 X2 20 30 40 50 60 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12 14
Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Precipício de Faetonte do autor Antônio José da Silva
Antônio José da Silva Aluísio Azevedo
X1 X2 20 30 40 50 60 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12 14
Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Casa de Pensão do autor Aluísio Azevedo
X1 X2 20 30 40 50 60 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 30 40 50 60 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 2 4 6 8 10 12
Distribuição e QQ−plot dos dados de cada autor retirando−se o livro Filomena Borges do autor Aluísio Azevedo
Antônio José da Silva Aluísio Azevedo
X1 X2 20 30 40 50 60 30 40 50 60 70 Quantis teóricos Quantis obser v ados 0 2 4 6 8 10 12 14 0 5 10 15 X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 Quantis teóricos Quantis obser v ados 0 5 10 15 0 5 10 15
Distribuição e QQ−plot dos dados de cada autor retirando−se o livro O Cortiço do autor Aluísio Azevedo
APˆ
ENDICE 2 -- Regi˜
oes de classifica¸
c˜
ao
para os demais cen´
arios
X1 X2 10 20 30 40 50 60 70 0 20 40 60
Antônio José da Silva Aluísio Azevedo Os Encantos de Medeia
R1
R2
Livro Os Encantos de Medeia do autor Antônio José da Silva
X1 X2 10 20 30 40 50 60 70 0 20 40 60
Antônio José da Silva Aluísio Azevedo
Anfitrião ou Júpiter e Alcmena
R1
R2
Livro Anfitrião ou Júpiter e Alcmena do autor Antônio José da Silva
X1 X2 10 20 30 40 50 60 70 0 20 40 60
Antônio José da Silva Aluísio Azevedo Labirinto de Creta
R1
R2
Livro Labirinto de Creta do autor Antônio José da Silva
X1 X2 10 20 30 40 50 60 70 0 20 40 60
Antônio José da Silva Aluísio Azevedo As Variedades de Proteu
R1
R2
Livro As Variedades de Proteu do autor Antônio José da Silva
X1 X2 10 20 30 40 50 60 70 0 20 40 60
Antônio José da Silva Aluísio Azevedo
Guerras do Alecrim e da Manjerona
R1
R2
Livro Guerras do Alecrim e da Manjerona do autor Antônio José da Silva
X1 X2 10 20 30 40 50 60 70 0 20 40 60
Antônio José da Silva Aluísio Azevedo Precipício de Faetonte
R1
R2
Livro Precipício de Faetonte do autor Antônio José da Silva
X1 X2 10 20 30 40 50 60 70 0 20 40 60
Antônio José da Silva Aluísio Azevedo Casa de Pensão
R1
R2
Livro Casa de Pensão do autor Aluísio Azevedo
X1 X2 10 20 30 40 50 60 70 0 20 40 60
Antônio José da Silva Aluísio Azevedo Filomena Borges
R1
R2
Livro Filomena Borges do autor Aluísio Azevedo
X1 X2 10 20 30 40 50 60 70 0 20 40 60
Antônio José da Silva Aluísio Azevedo O Cortiço
R1
R2
Livro O Cortiço do autor Aluísio Azevedo
APˆ
ENDICE 3 -- Hiperplano de separa¸
c˜
ao
para os demais cen´
arios
X1 X2 20 30 40 50 60 70 10 20 30 40 50 60
Antônio José da Silva Aluísio Azevedo
VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação
Livro Os Encantos de Medeia
do autor Antônio José da Silva
X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70
Antônio José da Silva Aluísio Azevedo
VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação
Livro Anfitrião ou Júpiter e Alcmena
do autor Antônio José da Silva
X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70
Antônio José da Silva Aluísio Azevedo
VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação
Livro Labirinto de Creta
do autor Antônio José da Silva
X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70
Antônio José da Silva Aluísio Azevedo
VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação
Livro As Variedades de Proteu
do autor Antônio José da Silva
X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70
Antônio José da Silva Aluísio Azevedo
VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação
Livro Guerras do Alecrim e da Manjerona
do autor Antônio José da Silva
X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70
Antônio José da Silva Aluísio Azevedo
VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação
Livro Precipício de Faetonte
do autor Antônio José da Silva
X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70
Antônio José da Silva Aluísio Azevedo
VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação
Livro Casa de Pensão
do autor Aluísio Azevedo
X1 X2 20 30 40 50 60 10 20 30 40 50 60 70
Antônio José da Silva Aluísio Azevedo
VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação
Livro Filomena Borges
do autor Aluísio Azevedo
X1 X2 20 30 40 50 60 70 10 20 30 40 50 60 70
Antônio José da Silva Aluísio Azevedo
VS do autor Antônio José da Silva VS do autor Aluísio Azevedo superfície ótima de separação Margens de separação
Livro O Cortiço
do autor Aluísio Azevedo
APˆ
ENDICE 4 -- Estimativas amostrais para
Tabela 8: Estimativas amostrais para os demais cen´arios poss´ıveis
Cen´arios
(livro usado como teste) Autor Estimativas Amoestrais
Os Encantos de Medeia π1 X1 = 34.249 46.146 ; S1 = 40.550 −22.532 −22.532 48.761 π2 X2 = 43.790 35.668 ; S2 = 49.346 −37.118 −37.118 68.955 Anfitri˜ao ou J´upiter e Alcmena π1 X1 = 34.595 47.647 ; S1 = 37.288 −27.713 −27.713 53.708 π2 X2 = 43.790 35.668 ; S2 = 49.346 −37.118 −37.118 68.955 Labirinto de Creta π1 X1 = 33.715 47.128 ; S1 = 41.115 −24.553 −24.553 54.402 π2 X2 = 43.790 35.668 ; S2 = 49.346 −37.118 −37.118 68.955 As Variedades de Proteu π1 X1 = 34.007 47.011 ; S1 = 39.488 −23.618 −23.618 53.339 π2 X2 = 43.790 35.668 ; S2 = 49.346 −37.118 −37.118 68.955 Guerras do Alecrim e da Manjerona π1 X1 = 33.948 46.531 ; S1 = 40.594 −24.241 −24.241 54.073 π2 X2 = 43.790 35.668 ; S2 = 49.346 −37.118 −37.118 68.955 Precip´ıcio de Faetonte π1 X1 = 33.816 46.795 ; S1 = 40.216 −23.648 −23.648 52.789 π2 X2 = 43.790 35.668 ; S2 = 49.346 −37.118 −37.118 68.955 Casa de Pens˜ao π1 X1 = 34.046 46.818 ; S1 = 39.746 −24.212 −24.212 53.060 π2 X2 = 43.901 35.539 ; S2 = 52.712 −41.248 −41.248 74.678 Filomena Borges π1 X1 = 34.046 46.818 ; S1 = 39.746 −24.212 −24.212 53.060 π2 X2 = 44.026 35.650 ; S2 = 48.339 −35.183 −35.183 65.780 O Corti¸co π1 X1 = 34.046 46.818 ; S1 = 39.746 −24.212 −24.212 53.060 π2 X2 = 42.906 36.015 ; S2 = 46.705 −36.028 −36.028 66.462
APˆ
ENDICE 5 -- Teste de Shapiro-Wilk
multivariado e Teste Box’s
Tabela 9: Teste de Shapiro-Wilk Multivariado e Teste Box’s M para demais cen´arios
Cen´arios
(livro usado como teste) Autor
Teste de Shapiro-Wilk Teste Box’s M
Valor p Estat´ıstica de teste Valor p Estat´ıstica de teste Os Encantos de Medeia π1 0.224 0.996 0 26.864 π2 0.069 0.998 Anfitri˜ao ou J´upiter e Alcmena π1 0.349 0.996 0 22.244 π2 0.069 0.998 Labirinto de Creta π1 0.579 0.997 0.002 15.327 π2 0.069 0.998 As Variedades de Proteu π1 0.276 0.997 0 19.603 π2 0.069 0.998 Guerras do Alecrim e da Manjerona π1 0.206 0.996 0.001 17.117 π2 0.069 0.998 Precip´ıcio de Faetonte π1 0.192 0.996 0 19.263 π2 0.069 0.998 Casa de Pens˜ao π1 0.293 0.997 0 29.347 π2 0.106 0.998 Filomena Borges π1 0.293 0.997 0.003 14.26 π2 0.063 0.998 O Corti¸co π1 0.293 0.997 0.001 16.398 π2 0.186 0.998
APˆ
ENDICE 6 -- Eficiˆ
encia do algoritmo de
An´
alise de Discriminante
Tabela 10: Eficiˆencia do algoritmo de An´alise de Discriminante para os demais cen´arios
Base de Teste Nº de laudas
Nº de laudas
classificadas corretamente
Percentual de classifica¸c˜oes corretas
Os Encantos de Medeia 63 60 95.2% Anfitri˜ao ou J´upiter e Alcmena 109 81 74.3% Labirinto de Creta 121 88 72.7% As Variedades de Proteu 65 52 80.0% Guerras do Alecrim e da Manjerona 83 70 84.3% Precip´ıcio de Faetonte 83 61 73.5% Casa de Pens˜ao 436 329 75.5% Filomena Borges 243 167 68.7% O Corti¸co 364 306 84.1%
APˆ
ENDICE 7 -- Eficiˆ
encia do algoritmo de
M´
aquinas de Vetor de
Suporte para demais
Tabela 11: Eficiˆencia do algoritmo de M´aquina de Vetor de Suporte para os demais cen´arios
Base de Teste Nº de laudas
Nº de laudas
classificadas corretamente
Percentual de classifica¸c˜oes corretas
Nº de vetores de suporte Os Encantos de Medeia 63 12 19.0% 907 Anfitri˜ao ou J´upiter e Alcmena 109 58 53.2% 830 Labirinto de Creta 121 74 61.2% 794 As Variedades de Proteu 65 34 52.3% 869 Guerras do Alecrim e da Manjerona 83 36 43.4% 862 Precip´ıcio de Faetonte 83 50 60.2% 847 Casa de Pens˜ao 436 380 87.2% 825 Filomena Borges 243 202 83.1% 852 O Corti¸co 364 328 90.1% 872