• Nenhum resultado encontrado

Mineração de texto aplicada a um banco de reviews de produtos

N/A
N/A
Protected

Academic year: 2021

Share "Mineração de texto aplicada a um banco de reviews de produtos"

Copied!
58
0
0

Texto

(1)

Minera¸

ao de Texto Aplicada a um banco

de Reviews de produtos

Niter´oi - RJ, Brasil 15 de Julho de 2019

(2)

Universidade Federal Fluminense

Ana Luiza Santos Neves

Minera¸

ao de Texto Aplicada a um

banco de Reviews de produtos

Trabalho de Conclus˜ao de Curso

Monografia apresentada para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.

Orientador: Prof. Profa. Dra. Jessica Kubrusly

Niter´oi - RJ, Brasil 15 de Julho de 2019

(3)

Ana Luiza Santos Neves

Minera¸

ao de Texto Aplicada a um banco de

Reviews de produtos

Monografia de Projeto Final de Gradua¸c˜ao sob o t´ıtulo “Mi-nera¸c˜ao de Texto Aplicada a um banco de Reviews de produ-tos”, defendida por Ana Luiza Santos Neves e aprovada em 15 de Julho de 2019, na cidade de Niter´oi, no Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:

Profa. Dra. Jessica Kubrusly Departamento de Estat´ıstica – UFF

Prof. Dr. Hugo Santos Departamento de Estat´ıstica – UFF

Profa. Dra. Ludmilla Jacobson Departamento de Estat´ıstica – UFF

(4)

Ficha catalográfica automática - SDC/BIME Gerada com informações fornecidas pelo autor

Bibliotecário responsável: Ana Nogueira Braga - CRB7/4776

N511m Neves, Ana Luiza Santos

Mineração de Texto Aplicada a um banco de Reviews de produtos / Ana Luiza Santos Neves ; Jéssica Kubrusly, orientadora. Niterói, 2019.

56 f. : il.

Trabalho de Conclusão de Curso (Graduação em

Estatística)-Universidade Federal Fluminense, Instituto de Matemática e Estatística, Niterói, 2019.

1. Estatística. 2. Mineração de texto. 3. Random Forest. 4. Análise de Conglomerado. 5. Produção intelectual. I. Kubrusly, Jéssica, orientadora. II. Universidade Federal Fluminense. Instituto de Matemática e Estatística. III. Título.

(5)

-Este projeto tem como finalidade unir t´ecnicas de minera¸c˜ao de texto a m´etodos de classifica¸c˜ao de dados e aplic´a-los em um banco de reviews de pe¸cas de roupa compradas pela internet. O objetivo central do estudo ´e identificar pe¸cas com recomenda¸c˜oes positivas e negativas a partir do texto escrito pelo consumidor ao descrever a pe¸ca. Para tal, foram realizados procedimentos a fim de transformar o banco textual em um banco num´erico e, ap´os realizado isso, foram utilizados dois m´etodos para classificar os dados: An´alise de Conglomerado e Random Forest. Enquanto a an´alise de conglomerado encontrou muita dificuldade em classificar os documentos, o m´etodo Random Forest foi mais bem sucedido na tarefa, apresentando acur´acia em torno de 70%.

Palavras-chave: Estat´ıstica. Minera¸c˜ao de texto. Random Forest. An´alise de Conglome-rado. Reviews. E-commerce. Machine Learning. Data Science.

(6)

Dedicat´

oria

`

(7)

Eu gostaria de agradecer primeiramente a Profa. Jessica por ter, n˜ao apenas me orientado academicamente atrav´es desse ciclo com maestria, mas por ter me passado confian¸ca e calma durante os incont´aveis momentos de desespero. Gostaria de tamb´em agradecer a banca pelo tempo e cuidado ao participar de um momento t˜ao importante em minha vida.

Aos meus amigos de Cabo Frio por entenderem minha ausˆencia e por estarem sem-pre sem-presentes, mesmo na distˆancia. E aos amigos que fiz ao longo dessa jornada, vocˆes foram anjos que acompanharam minha rotina, dividiram suas casas comigo, riram de mim quando era necess´ario e me apoiaram quando eu precisei. Sem vocˆes, eu n˜ao teria aprendido metade do que aprendi nos ´ultimos anos.

E por fim, agrade¸co `a minha fam´ılia por em nenhum momento duvidarem da minha capacidade, por sempre me motivarem, sempre acreditarem na educa¸c˜ao e sempre estarem presentes. Vocˆes s˜ao o meu norte.

(8)

Sum´

ario

Lista de Figuras

Lista de Tabelas

1 Introdu¸c˜ao p. 11

1.1 Revis˜ao Bibliogr´afica . . . p. 12 1.2 Objetivos . . . p. 13 1.3 Organiza¸c˜ao . . . p. 13

2 Materiais e M´etodos p. 14

2.1 Materiais . . . p. 14 2.2 Minera¸c˜ao de Texto . . . p. 14 2.2.1 Ferramentas para An´alise Descritiva de Bancos Textuais . . . . p. 15 2.2.2 Pr´e - Processamento . . . p. 16 2.3 An´alise do Componente Principal . . . p. 21 2.3.1 Vis˜ao Geral . . . p. 21 2.3.2 Abordagem Te´orica . . . p. 22 2.3.3 Crit´erios para reduzir a dimens˜ao . . . p. 23 2.3.4 Abordagem Amostral . . . p. 25 2.4 M´etodos de Classifica¸c˜ao . . . p. 26 2.4.1 Arvore de Classifica¸c˜´ ao . . . p. 27 2.4.2 Random Forest . . . p. 28 2.4.3 An´alise de Conglomerado . . . p. 29

(9)

2.4.3.2 Sele¸c˜ao do Algoritmo . . . p. 31 2.4.3.3 Sele¸c˜ao do n´umero de Clusters . . . p. 33 2.5 Qualidade do Ajuste . . . p. 33 2.5.1 Valida¸c˜ao Cruzada . . . p. 33 2.5.2 Medidas de Qualidade . . . p. 34

3 An´alise dos Resultados p. 36

3.1 An´alise Descritiva . . . p. 36 3.2 Pr´e - Processamento . . . p. 40 3.3 Modelagem dos Dados . . . p. 41 3.4 An´alise do Componente Principal . . . p. 41 3.5 An´alise de Conglomerado . . . p. 42 3.6 Random Forest . . . p. 46

4 Conclus˜oes p. 48

Referˆencias p. 50

Apˆendice 1 -- Termos da Matriz Termo Documento p. 52

(10)

Lista de Figuras

1 Exemplo de Nuvem de Palavras. Fonte: Silge e Robinson (2017) . . . . p. 15 2 Exemplo de Grafos. Fonte: Silge e Robinson (2017) . . . p. 17 3 Curva de Zipf, curva de relevˆancia e cortes de Luhn . . . p. 21 4 Exemplo de scree plot. Fonte : Johson e Wichern (2014) . . . p. 25 5 Representa¸c˜ao de uma ´Arvore de Decis˜ao . . . p. 28 6 Representa¸c˜ao no Espa¸co de uma ´Arvore de Decis˜ao . . . p. 28 7 Dendograma ilustrando agrupamento hier´arquico. . . p. 32 8 Bigramas comuns em forma de Grafo . . . p. 38 9 Nuvem de Palavras. . . p. 40 10 Nuvem de palavras por classifica¸c˜ao. . . p. 40 11 Scree Plot das Componentes geradas . . . p. 42 12 Dendograma do M´etodo hier´arquico Divisivo - Average Linkage . . . . p. 43 13 N´umero de objetos em cada Conglomerado por Prevalˆencia no Mesmo . p. 45

(11)

1 Tabela de Compara¸c˜ao para correla¸c˜ao bin´aria . . . p. 16 2 Tabela de Confus˜ao . . . p. 34 3 Tabela de Frequˆencia dos termos mais frequentes . . . p. 37 4 Tabela de Frequˆencia dos bigramas mais frequentes . . . p. 37 5 Tabela de Palavras que ocorrem conjuntamente . . . p. 39 6 Tabela de Correla¸c˜ao entre Palavras . . . p. 39 7 Medidas Resumo das Prevalˆencias para cada um dos cen´arios testados p. 44 8 Medidas Resumo do Erro (%) no Banco de Treino . . . p. 46 9 Matriz de Confus˜ao Modelo I . . . p. 46 10 Matriz de Confus˜ao Modelo II . . . p. 46 11 Medidas de Qualidade do ajuste para dos Modelos I e II no banco de teste p. 47

(12)

11

1

Introdu¸

ao

A partir de meados do s´eculo XX, iniciou-se no mundo a terceira revolu¸c˜ao tecnol´ogica, marcada pela integra¸c˜ao e interdependˆencia entre tecnologia e sociedade. Isso, unido `a populariza¸c˜ao da internet anos depois, gerou e ainda gera, continuamente, massas gi-gantescas de dados. Dessa grande produ¸c˜ao de informa¸c˜ao, fez-se necess´aria, a cria¸c˜ao de t´ecnicas a fim de process´a-la e gerar conhecimento a partir dela. Essas t´ecnicas fi-caram conhecidas como Minera¸c˜ao de Dados, termo que surgiu em comunidades de T.I. (Tecnologia da Informa¸c˜ao) em 1990.

Dessa grande massa informacional, estima-se que 85% (HOTHO; NURNBERGER; PAAß, 2005) seja de documentos textuais, seja em redes sociais, como Facebook e Twitter ou ainda dados corporativos como reclama¸c˜oes e pesquisas de opini˜ao sobre um produto ou servi¸co. ´E da necessidade de processar documentos textuais que surgiu a Minera¸c˜ao de Textos, um ramo da Minera¸c˜ao de Dados. Este se ocupa da extra¸c˜ao de informa¸c˜ao inteligente de massas textuais de forma a ser process´avel por computadores.

KDD (Knowledge Discovery in Databases, ou Descoberta de conhecimento em bancos de dados, em portuguˆes) ´e o processo que se ocupa da extra¸c˜ao de informa¸c˜ao n˜ao trivial de bancos de dados atrav´es de ferramentas computacionais e descoberta de padr˜oes e para sua implementa¸c˜ao s˜ao utilizados, usualmente, dados estruturados. No caso de dados textuais n˜ao estruturados ´e esperado que alguma estrutura seja aplicada ao banco antes, e esse processo fica ent˜ao conhecido como KDT (Descoberta de conhecimento em textos) (FELDMAN; DAGAN, 1995). Ao entender a necessidade de transformar dados n˜ao estruturados em informa¸c˜ao ´util em meio `a uma avalanche de dados que vivemos hoje, o trabalho se prop˜oe a investigar um pouco mais do ˆambito da Minera¸c˜ao de Texto, assim como t´ecnicas de aprendizado de m´aquina.

O banco textual a ser analisado consiste em pequenos textos referentes a avalia¸c˜ao de produtos. Seguido deste, h´a uma classifica¸c˜ao que indica se o texto foi avaliado positiva ou negativamente pelo consumidor. Tem-se como objetivo geral formular um modelo que

(13)

busca prever essas classes atrav´es da produ¸c˜ao textual apenas.

1.1

Revis˜

ao Bibliogr´

afica

Muito se tem produzido a respeito das t´ecnicas de Minera¸c˜ao Textual nos ´ultimos anos, e aliadas a diferentes ferramentas de modelagem estat´ıstica cl´assica e/ou Aprendizado de M´aquina se prop˜oem a resolver diversas quest˜oes do mundo pr´atico. Como ser˜ao abordados a seguir.

Em sua disserta¸c˜ao, Soares (2010) teve como objetivo classificar despesas p´ublicas por tipo de gasto, com base na an´alise dos campos de hist´oricos de notas de empenhos, presentes nas presta¸c˜oes de contas dos munic´ıpios do Estado do Cear´a. Para tanto, reuniu 14.072 registros que podiam ser classificados em 8 objetos de gastos diferentes. Para a classifica¸c˜ao ele utilizou o m´etodo de ´Arvores de Classifica¸c˜ao para amostras de diferentes tamanhos: 500, 1.000, 3.000, 6.000, 9.000, e 12.000 registros. A m´edia de classifica¸c˜oes corretas aumentaram regularmente com o aumento do numero de registros nas amostras, chegando a 70, 6% na amostra de tamanho 12.000. Atrav´es da minera¸c˜ao de texto o autor pˆode, portanto, atingir seu objetivo geral que era classificar as despesas p´ublicas a partir da an´alise do conte´udo dos campos de hist´oricos das notas de empenhos.

Loureiro (2016), por sua vez, em sua disserta¸c˜ao pela UERJ se prop˜oe a analisar o cen´ario econˆomico do pa´ıs atrav´es de mat´erias publicadas em um portal de economia espec´ıfico. Para tal ele levanta 510 mat´erias de 3 autores distintos: Miriam Leit˜ao, ´Alvaro Gribel e Marcelo Loureiro. Atrav´es de t´ecnicas de clustering seus objetivos iniciais eram conseguir segregar as mat´erias por autor de forma autom´atica; segregar as mat´erias por conte´udo; e segregar os assuntos por per´ıodo de publica¸c˜ao. Loureiro (2016) explora um pouco m´etodos para a recupera¸c˜ao de dados textuais da internet e ap´os tal processo, ele obt´em uma coletˆanea de 510 mat´erias publicadas entre 25/08 a 15/12 de 2018 e 15.170 termos distintos. Devido a magnitude dos dados foi definida a utiliza¸c˜ao de um m´etodo n˜ao hier´arquico de an´alise de conglomerados: K-means, mas como nesse m´etodo ´e necess´ario que o n´umero de agrupamentos seja definido previamente, decidiu-se utilizar um m´etodo hier´arquico a priori para ajudar na tarefa de selecionar n´umeros razo´aveis para k. Com esse passo, foram definidos para o estudos 3 ks poss´ıveis: K1 = 5, K2 = 3

e K3 = 6. Como conclus˜ao `as an´alises, foi constatado que o n´umero k3 = 6 apresentou

resultados muito interessantes pois conseguiu segregar as produ¸c˜oes textuais por assunto, autor e tempo de publica¸c˜ao de forma muito satisfat´oria.

(14)

1.2 Objetivos 13

1.2

Objetivos

Objetivos Gerais

Aplicar m´etodos de minera¸c˜ao de texto e classifica¸c˜ao em um banco real, a fim de identificar textos com avalia¸c˜oes positivas e negativas.

Objetivos Espec´ıficos

• Estudar os processos que compreendem o m´etodo da minera¸c˜ao de texto; • Estudar m´etodos para classifica¸c˜ao dos dados;

• Rever conceitos da An´alise do Componente Principal; • Aplicar os m´etodos estudados em um banco de dados real.

1.3

Organiza¸

ao

No Cap´ıtulo 2 ser˜ao abordados os materiais e m´etodos utilizados para a an´alise dos dados, e no Cap´ıtulo 3 s˜ao apresentados os resultados das an´alises realizadas. Por fim, no Cap´ıtulo 5, ser´a apresentada a conclus˜ao do trabalho documentado.

(15)

2

Materiais e M´

etodos

2.1

Materiais

Para as an´alises ser´a utilizado um banco textual composto por 23.486 linhas, em que cada linha est´a relacionada aos atributos de um consumidor de uma loja online de roupas. A cada consumidor est´a associado uma produ¸c˜ao textual na l´ıngua inglesa que tem como objetivo analisar a pe¸ca comprada, e al´em desse campo h´a uma vari´avel em que o consumidor diz se recomenda ou n˜ao a pe¸ca em quest˜ao, sendo essa uma vari´avel bin´aria. Portanto, cada unidade amostral ´e composta por um texto e uma vari´avel bin´aria. O banco foi retirado do Kaggle GoogleLLC (2010), comunidade on-line de cientistas de dados, propriedade da Google LLC.

2.2

Minera¸

ao de Texto

Conforme j´a abordado no Cap´ıtulo 1, a Minera¸c˜ao de texto ´e o processo que consiste, basicamente, na extra¸c˜ao de padr˜oes e conhecimento n˜ao trivial de dados textuais, como ´e o caso do banco de dados apresentado na Se¸c˜ao 2.1. ´E poss´ıvel, portanto, separar o processo de minera¸c˜ao de dados em duas etapas principais: refinamento, o qual transforma o banco de texto original em um banco num´erico que pode ser analisado mais facilmente; e o processo de extra¸c˜ao de informa¸c˜ao efetivamente, que consiste na tentativa de deduzir padr˜oes do banco de dados refinado a partir de ferramentas estat´ısticas convencionais (TAN et al., 2000).

A presente se¸c˜ao encarrega-se do processo de refinamento do banco e a seguir ser˜ao apresentadas as etapas necess´arias para que o mesmo seja realizado.

(16)

2.2 Minera¸c˜ao de Texto 15

2.2.1

Ferramentas para An´

alise Descritiva de Bancos Textuais

Antes de abordar as etapas envolvidas no processo de tornar o banco textual em um banco num´erico que possa ser analisado por m´etodos estat´ısticos, ´e preciso definir algumas ferramentas que ser˜ao utilizadas na descri¸c˜ao do banco textual. Sejam elas ferramentas visuais ou medidas resumo a fim de explicar um pouco mais sobre o banco de dados.

Nuvem de Palavras ´

E uma forma de visualizar as palavras de um documento ou conjunto de documentos e plota as palavras de acordo com suas ocorrˆencia. Na Figura 1 ´e poss´ıvel ver um exem-plo de Nuvem de Palavras. As palavras miss e time s˜ao as maiores palavras na nuvem apresentada pois s˜ao as palavras mais recorrentes.

Figura 1: Exemplo de Nuvem de Palavras. Fonte: Silge e Robinson (2017)

Coeficiente φ

O Coeficiente φ ´e muito comum para calcular correla¸c˜ao entre vari´aveis bin´arias e ser´a utilizado para medir a correla¸c˜ao entre duas palavras dentro dos documentos.

(17)

Tabela 1: Tabela de Compara¸c˜ao para correla¸c˜ao bin´aria

Tem a palavra Y N˜ao tem a palavra Y Total

Tem a palavra X n11 n10 n1.

N˜ao tem a palavra X n01 n00 n0.

Total n.1 n0. n

O coeficiente φ ser´a definido pela Equa¸c˜ao 2.1.

φ = n√11n00− n10n01

n1.n0.n.0n.1 (2.1)

sendo n11 o n´umero de documentos em que as palavras X e Y est˜ao presentes

concomi-tantemente, n10 o n´umero de documentos com a palavra X, mas sem a palavra Y, n01

o n´umero de documentos com a palavra Y, mas sem a palavra X, e n00 o n´umero de

documentos sem a palavra X nem a palavra Y.

Grafos

A fim de representar as rela¸c˜oes entre todas as palavras simultaneamente, ´e sugerida por Silge e Robinson (2017), a utiliza¸c˜ao de grafos. Com esta ferramenta gr´afica ´e poss´ıvel visualizar as rela¸c˜oes entre todas as palavras do banco. Na Figura 2 podemos ver um exemplo de grafo e observar as rela¸c˜oes entre as palavras.

2.2.2

Pr´

e - Processamento

´

E um conjunto de processos aplicados ao banco textual, ap´os sua coleta, com a finali-dade de obter uma representa¸c˜ao mais estruturada para os dados e, com isso, possibilitar a an´alise do mesmo (CARRILHO, 2008). ´E caracterizado pela aplica¸c˜ao de diversos algo-ritmos os quais ser˜ao abordados na presente se¸c˜ao e tendo como objetivo final a obten¸c˜ao da matriz termo-documento.

Tokeniza¸c˜ao

A tokeninza¸c˜ao ´e a primeira etapa do pr´e-processamento e tem como objetivo extrair unidades m´ınimas do texto a partir de um texto livre. Essas unidades s˜ao chamadas de tokens e na maioria das vezes se referem a uma ´unica palavra. Por´em, para que o valor de um termo seja mantido, os tokens podem se referir a mais de uma palavra ou at´e mesmo s´ımbolos e pontua¸c˜oes (CARRILHO, 2008).

(18)

2.2 Minera¸c˜ao de Texto 17

Figura 2: Exemplo de Grafos. Fonte: Silge e Robinson (2017) O processo ´e mais facilmente visualizado abaixo:

Exemplo 2.1. Esse vestido ´e muito lindo! ⇒ [Esse] [vestido] [´e] [muito] [lindo] [!] No exemplo 2.1 cada par de colchetes caracteriza um token. Usualmente, s˜ao utilizados os espa¸cos em branco como pontos de quebra do texto, como foi poss´ıvel ver no exemplo acima. Por´em, al´em dos espa¸cos como delimitadores, s˜ao utilizadas tamb´em diversos tipos de pontua¸c˜oes, como parˆentesis, pontos de exclama¸c˜ao, interroga¸c˜ao e final, tra¸co, ponto e v´ırgula, aspas e travess˜ao.

´

E preciso destacar que, apesar do processo de tokeniza¸c˜ao ser muito natural ao ser humano, a realiza¸c˜ao desse processo pela m´aquina encontra diversas barreiras (SANTOS, 2010), algumas citadas abaixo :

• Palavras que carregam valores diferentes quando acompanhadas de outras palavras, como coca cola;

(19)

internet;

• Utiliza¸c˜ao de travess˜ao em come¸cos de di´alogos; • Utiliza¸c˜ao de parˆenteses em n´umeros de telefone.

Como tentativa de corre¸c˜ao desses poss´ıveis erros, s˜ao utilizados dicion´arios e regras de forma¸c˜ao que auxiliam no processo. (CARRILHO, 2008) prop˜oe uma regra de forma¸c˜ao a fim de solucionar os problemas apresentados acima. Primeiramente s˜ao gerados tokens preliminares de acordo com uma lista de delimitadores e os espa¸cos em branco. Ap´os o primeiro passo, ´e realizada uma identifica¸c˜ao de abrevia¸c˜oes com base em dicion´arios pr´e-estabelecidos. Em seguida, s˜ao identificadas as palavras combinadas, ou seja, palavras que carregam sentido apenas quando juntas. Essas palavras, que ap´os o primeiro passo, foram separadas por caracteres como “&”ou “-”, agora unem-se formando um s´o token. A pr´oxima etapa ´e identificar s´ımbolos da internet, sejam URLs, e-mails ou at´e mesmo endere¸cos de IP. Com isso ´e poss´ıvel fazer com que o termo “https://br.pinterest.com”seja identificado como um s´o, ao inv´es de algo como: [https] [:] [/][/] [br] [.] [pinterest] [.] [com]. O quinto passo do processo inclui a identifica¸c˜ao de qualquer forma de apresenta¸c˜ao de n´umeros. O ´ultimo passo, por sua vez, se encarrega da identifica¸c˜ao de tokens multi-vocabulares, ou seja, palavras que precisam estar unidos em um ´unico token para que seja mantido seu sentido original no texto.

Corre¸c˜ao Ortogr´afica

O material para an´alise de dados apresentado ´e um banco textual de grandes di-mens˜oes digitados por uma ou v´arias pessoas. Dados desse tipo apresentam, com frequˆencia, erros ortogr´aficos, o que pode reduzir a qualidade da an´alise dos dados. Como forma de resolver o problema apresentado, usaremos a t´ecnica de indexa¸c˜ao por n-gramas de le-tras. O processo consiste em dividir as palavras em n-gramas enquanto uma n-grama ´e uma sequˆencia de n letras de uma dada palavra. Por exemplo, a palavra “caneca”pode ser separada em quatro 3-gramas : “can”,“ane”,“nec”,“eca”. A ideia ´e que os erros or-togr´aficos mais recorrentes afetam poucos “pedacinhos”de palavras, portanto, podemos buscar a palavra correta atrav´es daquelas que compartilham a maior parte dos n-gramas com a palavra errada (CARRILHO, 2008).

´

E poss´ıvel encontrar mais informa¸c˜ao sobre algoritmos para corre¸c˜ao ortogr´afica em Fonseca e Reis (2002).

(20)

2.2 Minera¸c˜ao de Texto 19

Remo¸c˜ao das Stopwords

Na literatura os termos de maior apari¸c˜ao em uma l´ıngua s˜ao chamados de stopwords, n˜ao possuindo valor semˆantico e ajudando apenas na compreens˜ao geral do texto. As stopwords s˜ao caracterizadas geralmente por artigos, preposi¸c˜oes, pontua¸c˜ao, conjun¸c˜oes e pronomes. Usualmente utiliza-se uma lista pr´e-estabelecida de stopwords chamada sto-plist criada manualmente por um especialista no dom´ınio do assunto, ou ainda gerada automaticamente pela frequˆencia de apari¸c˜ao das palavras no l´exico. A remo¸c˜ao das stopwords reduz consideravelmente a quantidade de tokens melhorando as an´alises a se-rem realizadas (CARRILHO, 2008).

Est´a apresentado no Anexo 1 uma lista das stopwords usadas. Normaliza¸c˜ao

Ap´os quebrar cada texto em pequenos peda¸cos, busca-se padroniz´a-los, de forma a diminuir o n´umero de tokens distintos e melhorar as an´alises (MANNING; RAGHAVAN; SCH¨uTZE, 2008). Esse processo, chamado de normaliza¸c˜ao, consiste em agrupar palavras que compartilham o mesmo padr˜ao (CARRILHO, 2008), diferenciando-se apenas por caracter´ısticas superficiais (MANNING; RAGHAVAN; SCH¨uTZE, 2008). E abordado´ ainda por CARRILHO (2008) que os m´etodos de classifica¸c˜ao s˜ao os mais beneficiados por tal processo j´a que se fundamentam em processos estat´ısticos.

Os principais m´etodos de Normaliza¸c˜ao s˜ao o stemming e a lematiza¸c˜ao, cujo obje-tivo comum ´e reduzir as formas flexionadas ou at´e derivadas das palavras (MANNING; RAGHAVAN; SCH¨uTZE, 2008).

• Stemming ´E caracterizado, geralmente, pelo corte das extremidades de cada pa-lavra do l´exico, para que assim seja encontrada sua respectiva raiz. Para tanto, s˜ao removidos sufixos que indicam varia¸c˜ao de tempos verbais e plural. H´a 3 m´etodos principais de stemming: m´etodo do Stemmer S, M´etodo de Porter e m´etodo de Lovins, os quais podem sem consultados em CARRILHO (2008).

– M´etodo do Stemmer S foca apenas em algumas termina¸c˜oes de palavras do inglˆes, removendo alguns sufixos como “ies”, “es” e “s”.

– M´etodo de Porter re´une diferentes inflex˜oes referentes `a mesma palavra e as substitui por um radical em comum.

(21)

– M´etodo de Lovins ´e o agressivo dos algoritmos apresentados. Baseia-se em uma lista de regras (Regra de Lovins), e remove, no m´aximo, um sufixo por palavra em um ´unico passo.

• Lematiza¸c˜ao Realiza a redu¸c˜ao de l´exico levando em conta o uso do vocabul´ario e da an´alise morfol´ogica das palavras. Seu objetivo ´e obter a base da palavra, conhecida tamb´em como lema (MANNING; RAGHAVAN; SCH¨uTZE, 2008). Ao contr´ario do m´etodo stemming, este tem vantagem de manter o sentido original da palavra CARRILHO (2008).

Exemplo 2.3. Livro, Livros Livraria ⇒ Livro

No trabalho presente a normaliza¸c˜ao dos dados ser´a realizado atrav´es da Lematiza¸c˜ao, e ap´os esse processo os tokens resultantes s˜ao chamados de termos.

Matriz Termo-Documento

Ap´os a limpeza e sele¸c˜ao dos termos mais relevantes, a etapa final do pr´e-processamento busca representar os termos de forma codificada (LOUREIRO, 2016), possibilitando as-sim, o processamento atrav´es de algoritmos que ser˜ao abordados futuramente. Apesar de existirem muitos modelos para representa¸c˜ao de documentos na literatura, o mais usado ´e o Modelo de Espa¸co Vetorial. Este representa os documentos como pontos no espa¸co Euclidiano de dimens˜ao m, em que cada dimens˜ao ´e um termo do l´exico (CARRILHO, 2008).

Considere um banco textual composto por n documentos e m termos, ap´os realizadas as etapas de pr´e-processamento descritas anteriormente. Pode-se representar esse banco por uma matriz A de ordem n × m. Cada elemento aij representa a frequˆencia em que o

termo j ocorre no documento i. Essa matriz ´e chamada de Matriz Termo-Documento. Sele¸c˜ao de termos

Esse processo visa identificar termos que podem ser retirados da an´alise devido a seu baixo valor semˆantico. Proposto por Luhn (1958) o m´etodo baseia-se na Lei de zipf (ZIPF, 1949). Na Figura 3 ´e poss´ıvel ver a curva de Zipf, onde o eixo vertical representa a frequˆencia dos termos e o eixo horizontal representa os termos ordenados de forma decrescente com rela¸c˜ao `a frequˆencia nos documentos. Est˜ao plotados tamb´em a curva de relevˆancia e os cortes de Luhn.

Luhn prop˜oe que os termos que aparecem com frequˆencia muito elevada s˜ao pouco relevantes para o texto, pois aparecem na maioria deles, n˜ao acrescentando informa¸c˜oes

(22)

2.3 An´alise do Componente Principal 21

´

uteis. Ao passo que os elementos de baixa frequˆencia s˜ao muito raros e n˜ao possuem car´ater discriminat´orio. Portanto, os termos de muito alta e baixa frequˆencia s˜ao descar-tados. Esse m´etodo, por´em ´e extremamente subjetivo j´a que os pontos de corte ficam a crit´erio do pesquisador. Al´em da aplica¸c˜ao do m´etodo proposto por Luhn, ´e muito comum que sejam utilizados apenas os 100 termos mais frequentes.

Ap´os a sele¸c˜ao de termos a Matriz Termo-Documento ter´a dimens˜oes n × p, onde p ´e o n´umero de termos selecionados.

Corte superior Corte inferior ´ Apice das palavras relevantes Palavras Relevantes Palavras ordenadas de acordo com frequˆencia

F requ ˆencia das P ala vras

Figura 3: Curva de Zipf, curva de relevˆancia e cortes de Luhn

2.3

An´

alise do Componente Principal

2.3.1

Vis˜

ao Geral

Ap´os o processo de minera¸c˜ao de texto descrito na Se¸c˜ao 2.2, o banco de dados ´e representado pela matriz termo-documento cujas dimens˜oes s˜ao muito grandes. Para lidar com essa quest˜ao, ´e proposta a realiza¸c˜ao de algum m´etodo para reduzir a dimens˜ao dos dados. No caso descrito ser´a utilizada a An´alise do Componente Principal, tamb´em conhecido como PCA (Principal Component Analysis).

O PCA pode ser utilizado visando alguns objetivos, dentre eles: reduzir o tamanho do banco de dados; auxiliar na interpreta¸c˜ao dos dados, gerando interpreta¸c˜oes que n˜ao seriam visualizadas inicialmente; gerar um novo conjunto de vari´aveis n˜ao correlacionadas; reduzir o ru´ıdo nos dados.

(23)

2.3.2

Abordagem Te´

orica

O PCA consiste em explicar a covariˆancia de um conjunto de vari´aveis correlacionadas atrav´es de um novo conjunto de vari´aveis n˜ao correlacionada, sendo cada uma delas uma combina¸c˜ao linear das antigas. Sob uma ´otica geom´etrica, essas combina¸c˜oes lineares s˜ao uma sele¸c˜ao de um novo conjunto de coordenadas obtidos rotacionando o sistema original. Esses novos eixos representam a dire¸c˜ao de m´axima variabilidade dos dados (JOHSON; WICHERN, 2014).

Defini¸c˜ao 2.1. Seja Xt= (X

1, X2, . . . , Xp) vetor aleat´orio e a matriz de covariˆancia ΣX

associada a X, positiva definida. Seja tamb´em (λ1, e1), . . . , (λp, ep) os pares de autovalores

e autovetores associados a ΣX, em que λ1 ≥ λ2 ≥ . . . ≥ λp ≥ 0.

A i-´esima componente principal ´e dada por:

Yi = etiX = ei1X1+ ei2X2 + ei3X3+ . . . + eipXp , i = 1 . . . p (2.2)

Proposi¸c˜ao 2.1. Seja Xt = (X

1, X2, . . . , Xp) vetor aleat´orio e ΣX a matriz de

co-variˆancia associada a X, positiva definida. Seja tamb´em (λ1, e1), . . . , (λp, ep) os pares

de autovalores e autovetores associados a ΣX, em que λ1 ≥ λ2 ≥ . . . ≥ λp ≥ 0. Sabendo

que Y = (Y1, Y2, . . . , Yp), onde Yi= etiX. Ent˜ao:

V ar(Yi) = λi (2.3)

Cov(Yi, Yk) = 0 (2.4)

Demonstra¸c˜ao. ´E poss´ıvel escrever Y = ETX, onde E ´e a matriz cujos vetores coluna

s˜ao os autovetores de ΣX. Seja ΣY = V ar(Y ),

ΣY = V ar(ETX) = ETΣXE (2.5)

Como ΣX ´e sim´etrica, pelo Teorema da Decomposi¸c˜ao Espectral Hardle e Simar

(2003),

(24)

2.3 An´alise do Componente Principal 23

Seja D a matriz composta pelos autovalores de ΣX em sua diagonal principal. Como

ΣX ´e sim´etrica, tamb´em pode-se afirmar que os autovetores s˜ao ortonormais, ou seja,

ETE = I e EET = I Voltando `a Equa¸c˜ao 2.5: ΣY = ETΣXE = ETEDETE = D Ou seja, ΣY =        λ1 0 0 0 0 λ2 0 0 0 0 . .. 0 0 0 0 λp       

Pode-se concluir, portanto, que:

V ar(Yi) = λi

Cov(Yi, Yk) = 0

2.3.3

Crit´

erios para reduzir a dimens˜

ao

´

E necess´ario ressaltar que n˜ao h´a diferen¸cas entre X e Y com rela¸c˜ao a informa¸c˜ao obtida, pois como j´a dito anteriormente ´e apenas uma quest˜ao de mudan¸ca de base. H´a, por´em, algumas vantagens na utiliza¸c˜ao de Y:

• Os vetores Y1, . . . , Yp s˜ao n˜ao correlacionados;

• Os vetores est˜ao ordenados de forma decrescente com rela¸c˜ao a variˆancia. Ou seja, Yp ter´a uma varia¸c˜ao menor que a de Y1.

O PCA como m´etodo de redu¸c˜ao da dimensionalidade consiste em selecionar um n´umero k < p de componentes que expliquem uma grande parte da varia¸c˜ao dos dados.

(25)

´

E evidente que seriam necess´arias p componentes para explicar a varia¸c˜ao total, por´em ´e poss´ıvel obter quase a mesma informa¸c˜ao atrav´es dessas k componentes principais. Ao fazer isso, ´e poss´ıvel substituir o banco de dados original pelo banco de dimens˜oes reduzidas composto pelas componentes principais como cita Johson e Wichern (2014).

´

E preciso definir agora o n´umero de componentes a serem escolhidas para representa-rem os dados satisfatoriamente. Abaixo est˜ao listados alguns crit´erios para a sele¸c˜ao do n´umero de componentes a serem utilizadas:

1. M´etodo da raiz latente - Consiste em escolher as componentes cujos autovalores s˜ao maiores que 1.

2. Escolher as k < p componentes que expliquem de 80 a 90% da variˆancia total das vari´aveis iniciais. A propor¸c˜ao de variˆancia explicada pelas k componentes principais ´

e dada pela Equa¸c˜ao 2.6 denotada por:

Ψk= Pk i=1λi Pp i=1λi (2.6) 3. Atrav´es do gr´afico screeplot.

Esse gr´afico plota os autovalores no eixo vertical em ordem decrescente e seus ´ındices no eixo horizontal. Para determinar o n´umero de componentes a serem utilizadas, procura-se o instante em que os autovalores assumem valores muito baixos e o gr´afico torna-se quase constante - o momento em que se forma um “cotovelo” na forma do gr´afico. Podemos ver um exemplo de screeplot na Figura 4.

(26)

2.3 An´alise do Componente Principal 25

Figura 4: Exemplo de scree plot. Fonte : Johson e Wichern (2014)

Para as an´alises ser´a utilizado o segundo m´etodo apresentado, aquele que leva em considera¸c˜ao a quantidade de variˆancia explicada pelas k componentes principais.

2.3.4

Abordagem Amostral

Os resultados desenvolvidos na Subse¸c˜ao 2.3.2 s˜ao aplic´aveis apenas quando ΣX ´e

conhecido. Como na pr´atica esse parˆametro ´e desconhecido, ´e preciso estim´a-lo.

Portanto, seja X a matriz dos dados de dimens˜oes n × p. Sendo as colunas as vari´aveis X1, X2, . . . , Xp e as linhas as n observa¸c˜oes da amostra para cada uma das p vari´aveis.

Define-se ˜X como:

˜

X = X − 1X1

n (2.7)

Onde ´e denotado por 1 a matriz de dimens˜oes n × n composta de 1. Veja que 1Xn1 ´e uma matriz de dimens˜oes n × p cujas colunas s˜ao compostas pelas m´edias da vari´avel i em quest˜ao. Ou seja,

1X1 n =        ¯ X1 X¯2 . . . X¯p ¯ X1 X¯2 . . . X¯p .. . ... . .. ¯Xp ¯ X1 X¯2 . . . X¯p       

(27)

Com isso, ´e poss´ıvel dizer que:

ˆ

ΣX = ˜XtX˜

1

n (2.8)

Como j´a foi definido um estimador para Σx, podemos obter tamb´em os pares de

autovalores e autovetores estimados associados a matriz de covariˆancia estimada, denota-dos por (ˆλ1, ˆe1), . . . , (ˆλp, ˆep). Portanto, o banco de dados modificado, denotado por Y, ´e

definido por:

Y = EtX , (2.9)

onde E ´e a matriz cujos vetores coluna s˜ao os autovetores de ˆΣX.

A redu¸c˜ao dos dados ´e realizada eliminando as ´ultimas colunas do banco modificado Y de forma a garantir uma variˆancia explicada estimada, ˆΨ, definida por ˆΨk=

Pk i=1λˆi

Pr

i=1λˆi na Equa¸c˜ao 2.6, de pelo menos 90%.

2.4

etodos de Classifica¸

ao

Ap´os a constru¸c˜ao da matriz termo-documento, original ou modificada atrav´es da an´alise do componente principal, o pr´oximo passo ´e classificar os documentos (linhas da matriz de dados) baseado em uma legenda pr´e-estabelecida e para isso ser˜ao utilizados m´etodos de aprendizado de m´aquina. Tais m´etodos se baseiam no reconhecimento de padr˜oes advindos dos dados para a constru¸c˜ao de modelos capazes de, por exemplo, per-formar classifica¸c˜oes. Os m´etodos de aprendizado de m´aquina podem ser divididos em aprendizagem supervisionada, quando a classifica¸c˜ao original do banco de dados ´e utili-zada na constru¸c˜ao do modelo, e aprendizagem n˜ao supervisionada, quando n˜ao h´a uma classifica¸c˜ao a ajudar na modelagem. Para as an´alises ser˜ao testados um m´etodo super-visionado, Random Forest, abordado na Se¸c˜ao 2.4.2 e um m´etodo n˜ao supervisionado, An´alise de Conglomerado, abordado na Se¸c˜ao 2.4.3.

O m´etodo Random Forest, tamb´em chamado de Floresta Aleat´oria consiste, de forma generalizada, em uma combina¸c˜ao de ´arvores de decis˜ao (BREIMAN, 2001). Portanto, para que seja poss´ıvel explicar esse m´etodo ´e necess´aria a defini¸c˜ao do conceito de ´arvore de decis˜ao primeiro.

(28)

2.4 M´etodos de Classifica¸c˜ao 27

2.4.1

Arvore de Classifica¸

´

ao

Considere um universo composto por um n´umero n de objetos os quais podem ser descritos por um n´umero p de atributos em que cada atributo mede uma caracter´ıstica do objeto em quest˜ao. Al´em disso, cada objeto no universo pertence a uma classe distinta e mutuamente exclusiva. Para a realiza¸c˜ao de uma modelagem atrav´es de ´arvores de decis˜ao ´e necess´ario que tenhamos um banco de treino onde as classes dos objetos s˜ao conhecidas. O objetivo do m´etodo, segundo Quinlan (1986), ´e criar uma regra de decis˜ao para determinar a classe dos objetos a partir de seus atributos, a qual ser´a expressa por uma ´arvore de decis˜ao.

Para a constru¸c˜ao de um ´arvore de decis˜ao que denotaremos como T , o espa¸co Rp ´e

particionado em sub-espa¸cos definidos pelos atributos, e a cada sub-espa¸co ´e associada uma classe. Como podemos ver na Figura 5, a ´arvore parte de uma raiz, e em que cada n´o de decis˜ao cont´em um teste para algum atributo, cada ramo resultante corresponde a um poss´ıvel valor deste atributo, cada folha est´a associada a uma classe e cada percurso na ´

arvore corresponde a uma regra de classifica¸c˜ao. No espa¸co particionado pelos atributos, cada folha corresponde a um retˆangulo da Figura 6 (GAMA, 2002).

A ideia b´asica para a cria¸c˜ao de uma ´arvore de decis˜ao ´e, para cada n´o j, come¸cando na raiz:

1. Escolher um atributo Xi, entre os p dispon´ıveis, e uma constante aj que melhor

separe os objetos que chegam no n´o j de acordo com a seguinte parti¸c˜ao: Xi ≤ aj

e Xi > aj. Essa parti¸c˜ao define dois novos n´os, os filhos do n´o j. Para cada um dos

dois n´os filhos,

2. Se nesse n´o existe a prevalˆencia de alguma classe, prevalˆencia essa maior que um valor pr´e-definido, esse n´o vira uma folha com essa classe prevalente e FIM.

3. Caso contr´ario, voltar para o passo 1 considerando apenas os objetos que chegaram nesse n´o filho.

A escolha do atributo Xi e da constante aj citados no passo 1 ´e feita de forma a

otimizar a divis˜ao das classes. Para isso ´e definido um complexo problema de otimiza¸c˜ao em duas vari´aveis que busca minimizar as ”impurezas”, ou maximizar a prevalˆencia, nos dois novos n´os filhos criados com a parti¸c˜ao (LOH, 2011).

(29)

Figura 5: Representa¸c˜ao de uma ´Arvore de Decis˜ao

Figura 6: Representa¸c˜ao no Espa¸co de uma ´Arvore de Decis˜ao

Em muitos casos, ap´os a ´arvore criada pelos 3 passos acima, anda ´e feito um processo de poda a fim de evitar folhas muito distantes da raiz, o que resultaria em um sobreajuste nos dados.

2.4.2

Random Forest

Enquanto as ´arvores de decis˜ao apresentam algumas desvantagens, como o sobre-ajuste do modelo aos dados, uma melhora significativa na precis˜ao das classifica¸c˜oes ´e observada ao construir um conjunto de ´arvores e deix´a-las “votar” pela classifica¸c˜ao mais popular (BREIMAN, 2001).

Considerando um universo composto por n objetos e p vari´aveis, o m´etodo Random Forest se prop˜oe a gerar um n´umero M de ´arvores de regress˜ao, sendo M escolhido previamente. A ideia para a constru¸c˜ao de cada uma das M ´arvores ´e a seguinte:

(30)

2.4 M´etodos de Classifica¸c˜ao 29

1. ´E selecionada uma amostra aleat´oria e sem reposi¸c˜ao de tamanho R do banco ori-ginal;

2. S˜ao selecionadas de forma aleat´oria k vari´aveis dentre as p dispon´ıveis, k definido previamente;

3. A ´arvore cresce at´e seu limite, n˜ao sendo necess´aria a realiza¸c˜ao do processo de poda.

Depois que as M ´arvores forem constru´ıdas, verifica-se qual ´e a classe predominante para cada um dos objetos.

2.4.3

An´

alise de Conglomerado

A An´alise de conglomerado, tamb´em conhecida como An´alise de agrupamento ou clus-ter, ´e um m´etodo estat´ıstico que consiste em tentar classificar um conjunto de elementos em subconjuntos mutuamente exclusivos (PESSANHA, 2017). De forma que os elemen-tos de cada conjunto sejam semelhantes entre si, mas diferentes dos elemenelemen-tos dos outros grupos com rela¸c˜ao `as vari´aveis observadas (MINGOTI, 2005). ´E importante ressaltar que esse ´e um m´etodo n˜ao supervisionado, ou seja, as classifica¸c˜oes atribu´ıdas a cada unidade amostral n˜ao s˜ao consideradas na cria¸c˜ao do modelo

A An´alise de Conglomerado ´e utilizada em diversos campos de estudo, como cita Mingoti (2005).

• Psicologia – Na classifica¸c˜ao de pessoas com rela¸c˜ao aos seus perfis de personalidade; • Ecologia – na classifica¸c˜ao de esp´ecies;

• Geografia - Atrav´es de vari´aveis demogr´aficas, f´ısicas e econˆomicas, classificar regi˜oes, estados e cidades.

Antes de realizarmos a An´alise de Conglomerado ´e preciso definir as medidas de distˆancia a serem utilizadas, que tipo de algoritmo a ser adotado e que m´etodo escolher para definir o n´umero de cluster. Abordaremos cada uma dessas etapas a seguir.

2.4.3.1 Medidas de Distˆancia

Antes que possamos realizar a an´alise de conglomerados, ´e necess´ario definir, a priori, a medida de similaridade ou dissimilaridade a ser utilizada (MINGOTI, 2005). Importantes

(31)

considera¸c˜oes precisam ser realizadas quanto a escolha dessas medidas, ´e preciso observar tanto a natureza das vari´aveis quanto suas escalas de medida (JOHSON; WICHERN, 2014). Vari´aveis quantitativas admitem medidas como a Distˆancia Euclidiana, a Distˆancia Ponderada e a Distˆancia de Minkowski. Enquanto as vari´aveis de natureza qualitativa admitem o Coeficiente de concordˆancia simples, o Coeficiente de concordˆancia positiva e a Distˆancia Euclidiana m´edia (MINGOTI, 2005).

Definiremos primeiro as medidas de distˆancia entre elementos amostrais, e depois, a distˆancia entre elemento e conglomerado.

Seja X matriz dos dados e xi = (xi1, xi2, . . . , xip) e xj = (xj1, xj2, . . . , xjp) elementos

amostrais pertencentes a essa matriz. Denota-se por dij a distˆancia entre os elementos i

e j apresentados acima.

Medidas de distˆancia entre elementos amostrais, supondo vari´aveis quantita-tivas. A distˆancia escolhida para esse caso ´e a distˆancia Euclidiana, definida por Mingoti (2005). Considere neste caso Xi e Xj os elementos comparados e p o n´umero de vari´aveis

(quantitativas). dij = dist(xi, xj) = [(xi− xj)t(xi− xj)]1/2 = " p X k=1 (xki− xkj)2 #1/2 (2.10)

Medidas de distˆancia entre elementos amostrais, supondo vari´aveis qualita-tivas. Nesses casos, em geral, comparam-se os elementos de acordo com a presen¸ca ou ausˆencia de determinadas caracter´ısticas. ´E esperado que elementos “parecidos” tenham mais itens similares que dissimilares. A distˆancia escolhida para esse caso ´e a distˆancia Euclidiana M´edia, definida por Mingoti (2005). Considere neste caso Xie Xj os elementos

comparados e p o n´umero de vari´aveis (qualitativas).

dij = dist(xi, xj) = " n X k=1 1 p(xki− xkj) 2 #1/2

= N´umero de pares discordantes N´umero total de pares

1/2

(32)

2.4 M´etodos de Classifica¸c˜ao 31

Medidas de Distˆancia entre Elemento e Conglomerado

Al´em da distˆancia entre elementos, precisamos definir tamb´em a medida de distˆancia entre elemento e conglomerado. Para tal, consideremos um elemento x e um conglomerado C, com n elementos . A distˆancia entre eles ser´a definida pelo m´etodo da m´edia das distˆancias (Average Linkage) (MINGOTI, 2005), proposto a seguir:

d(x, C) =X k∈C  1 m  dist(x, xk), (2.12)

onde n ´e o n´umero de elementos e dist(x, xk) a medida de distˆancia entre cada elemento

xk∈ C e o elemento x .

2.4.3.2 Sele¸c˜ao do Algoritmo

Ap´os selecionada a medida de distˆancia, precisamos escolher o algoritmo a ser utili-zado. Os algoritmos se fazem necess´arios por ser muito dif´ıcil testarmos todas as possi-bilidades de agrupamentos poss´ıveis, mesmo com o uso computadores e softwares muito potentes (JOHSON; WICHERN, 2014).

As t´ecnicas de an´alise de conglomerado s˜ao usualmente dividias em 2 tipos: t´ecnicas hier´arquicas e n˜ao-hier´arquicas (MINGOTI, 2005).A t´ecnica n˜ao-hier´arquica se prop˜oe a separar os itens do estudo em um n´umero g de grupos. Esse n´umero g pode ser especificado previamente ou ainda durante o processo de clusteriza¸c˜ao. Os m´etodos n˜ao hier´arquicos podem ser iniciados a partir de uma parti¸c˜ao pr´evia dos itens em grupos ou a partir de sementes que formar˜ao os centroides dos clusters. Um dos m´etodos n˜ao hier´arquicos mais utilizados ´e o k-means (JOHSON; WICHERN, 2014).

A t´ecnica hier´arquica, por sua vez, consiste em sucessivas divis˜oes ou aglutina¸c˜oes. Temos, portanto, dois tipos de m´etodos hier´arquicos: o divisivo e o aglomerativo. Para nossas an´alises usaremos o m´etodo hier´arquico, o qual ser´a abordado mais aprofundada-mente a seguir.

T´ecnica Hier´arquica Aglomerativa. Nessa t´ecnica partimos do princ´ıpio que cada elemento estudado ´e um grupo. Ou seja, temos o mesmo n´umero n de conglomerados e observa¸c˜oes. A cada passo do algoritmo, os elementos amostrais v˜ao sendo agrupados de acordo com suas similaridades. Ao fim dos passos do algoritmo, todos os subgrupos s˜ao aglutinados em apenas um.

(33)

Figura 7: Dendograma ilustrando agrupamento hier´arquico.

com um ´unico grande grupo que, a cada itera¸c˜ao, subdivide-se at´e obtermos n clusters. O m´etodo consiste em achar o item mais afastado dos outros e us´a-lo como semente para um novo grupo. Os outros itens s˜ao ent˜ao testados quanto a entrada nesse novo grupo. Kaufman e Rousseeuw (1990) descrevem esse processo de forma bastante did´atica:

“O mecanismo se assemelha ao processo que pode levar a divis˜ao de um partido pol´ıtico devido a conflitos internos: Primeiro o membro mais desconectado, com ideias mais divergentes, deixa o partido e come¸ca um novo. Depois, outros que concordam com esse indiv´ıduo, juntam-se tamb´em a esse novo partido at´e que ´e obtido um equil´ıbrio. Precisamos inicialmente, portanto, descobrir qual membro discorda mais dos outros.”

Os Dendogramas (Figura 7) s˜ao formas intuitivas de visualizar a t´ecnica hier´arquica, tanto a aglomerativa quanto a divisiva, uma vez que ´e poss´ıvel visualizar os agrupamentos formados e o n´ıvel de distˆancia onde as divis˜oes ocorreram.

O passo-a-passo do algoritmo divisivo est´a descrito abaixo:

1. Inicia-se o processo com 1 conglomerado formado por todos os n elementos amos-trais;

2. Calcula-se a distˆancia de cada elemento para seu pr´oprio conglomerado;

3. O elemento com maior distˆancia para o seu pr´oprio conglomerado torna-se um novo conglomerado, formado por um ´unico elemento;

4. Para todos os elementos que n˜ao est˜ao no novo conglomerado, calcula-se a diferen¸ca entre a sua distˆancia para o seu pr´oprio conglomerado e para o novo;

(34)

2.5 Qualidade do Ajuste 33

do novo, ir para passo 6. Caso contr´ario, aloca-se o elemento com maior diferen¸ca no novo conglomerado e retornar para o passo 4;

6. Voltar ao passo 2 at´e que sejam obtidos n conglomerados com 1 elemento em cada.

2.4.3.3 Sele¸c˜ao do n´umero de Clusters

Ap´os realizados os passos acima, uma quest˜ao de grande importˆancia ´e como esco-lheremos o n´umero g de grupos. Ou seja, em que momento interromperemos o processo iterativo de divis˜ao.

A nossa proposta ´e interromper o processo de divis˜ao no momento em que for obtida prevalˆencia de 70% de uma categoria dentro dos clusters obtidos, ou seja, pelo menos um agrupamento gerado pelo algoritmo deve apresentar prevalˆencia de 70% ou mais de documentos positivos e pelo meno menos um agrupamento deve apresentar prevalˆencia de 70% ou mais de documentos negativos.

2.5

Qualidade do Ajuste

Nessa se¸c˜ao ser˜ao apresentadas t´ecnicas para avaliarmos o qu˜ao bom foram os resul-tados obtidos pelos m´etodos de classifica¸c˜ao.

2.5.1

Valida¸

ao Cruzada

Para uma an´alise supervisionada de dados, ou seja, aquela em que os dados carregam algum tipo de classifica¸c˜ao pr´evia, divide-se, usualmente, o banco de dados em banco de treino e banco de teste. Em outras palavras, a por¸c˜ao designada a ser o banco de treino ´e aquela usada para ajustar os m´etodos/modelos abordados. Por exemplo, ´e a partir do banco de treino que vamos definir os conglomerados para o nosso m´etodo de classifica¸c˜ao. J´a o banco de teste ´e a parte que ser´a usada para testar o modelo obtido pelo banco de treino. Por exemplo, as observa¸c˜oes do banco de treino ser˜ao classificadas pelo m´etodo escolhido e a classe prevista por esse m´etodo ser´a comparada com a classe real. Resumindo, o banco de treino ajusta o m´etodo ou modelo e o banco de teste ´e usado para medir a qualidade do ajuste fora da amostra.

A valida¸c˜ao cruzada, mais especificamente, subdivide o banco em k “peda¸cos”, sendo k − 1 para treino e 1 para teste. O algoritmo consiste em k itera¸c˜oes em que, a cada uma

(35)

delas, muda-se a denomina¸c˜ao de que parti¸c˜ao ´e o banco de teste. Ao fim dos passos, ´e calculada uma m´edia a partir das medidas geradas em cada um dos passos do algoritmo, assim, obtemos uma estimativa para a qualidade do modelo gerado (SANTOS et al., 2009).

2.5.2

Medidas de Qualidade

A Tabela 2 resume as classifica¸c˜oes previstas pelo modelo, comparando-as `as verda-deiras classes vinculadas ao banco. Uma tabela dessas ´e criada ao final da valida¸c˜ao cruzada.

Tabela 2: Tabela de Confus˜ao

XX XX XX XX XXX X Classe Previs˜ao Negativo Positivo Negativo a00 a01 Positivo a10 a11

Sendo a00 o n´umero de objetos do banco de teste com classe negativa cuja predi¸c˜ao

realizada pelo modelo tenha sido negativa, a11´e o n´umero de objetos do banco de teste com

classe positiva cuja predi¸c˜ao realizada pelo modelo tenha sido positiva, a10 ´e o n´umero

de objetos do banco de teste com classe positiva cuja predi¸c˜ao realizada pelo modelo tenha sido negativa, a01´e o n´umero de objetos do banco de teste com classe negativa cuja

predi¸c˜ao realizada pelo modelo tenha sido positiva.

Utilizaremos a seguinte medida para quantificar a qualidade do ajuste no Banco de treino:

Taxa de Erro Total: ´E definida pelo complementar da propor¸c˜ao de predi¸c˜oes corretas dentre todas as predi¸c˜oes.

Taxa de Erro Total = 1 − a00+ a11 a00+ a01+ a10+ a11

Utilizaremos as seguintes medidas para quantificar a qualidade do ajuste no Banco de teste:

• Acur´acia: ´E definida pela propor¸c˜ao de predi¸c˜oes corretas dentre todas as predi¸c˜oes. A sua express˜ao ´e dada abaixo.

Acur´acia = a00+ a11 a00+ a01+ a10+ a11

(36)

2.5 Qualidade do Ajuste 35

• Sensibilidade: ´E definida pela probabilidade de previs˜ao positiva dado que a classe ´

e positiva. A sua express˜ao ´e dada na equa¸c˜ao abaixo.

Sensibilidade = a11 a10+ a11

• Especificidade: ´E definida pela probabilidade de previs˜ao negativa dado que a classe ´

e negativa. A sua express˜ao ´e dada na equa¸c˜ao abaixo.

Especificidade = a00 a00+ a01

´

E esperado que um bom modelo apresente valores altos para acur´acia, sensibilidade e especifidade.

(37)

3

An´

alise dos Resultados

Como j´a descrito na Se¸c˜ao 2.1 o banco de dados a ser analisado ´e formado por 23.486 documentos cuja finalidade ´e escrever uma curta descri¸c˜ao de pe¸cas de roupas compradas pela internet e classific´a-las. Este cap´ıtulo tem como objetivo permear o processo da an´alise desse banco, come¸cando pela Se¸c˜ao 3.1 a qual aborda a an´alise descritiva do banco textual original, e o mesmo ap´os o pr´e processamento. Esse pr´e-processamento, por sua vez, ser´a apresentado na Se¸c˜ao 3.2; e por fim, a an´alise estat´ıstica atrav´es dos algoritmos computacionais j´a citados anteriormente, na se¸c˜ao 3.3. Todas as an´alises a serem descritas foram realizadas atrav´es do software R (R Core Team, 2014), e os principais pacotes utilizados foram: ggraph (PEDERSEN, 2018), wordcloud (FELLOWS, 2018), tidytext (SILGE; ROBINSON, 2016), tm (FEINERER; HORNIK; MEYER, 2008), stats (R Core Team, 2019), textstem (RINKER, 2018) e RandomForest (LIAW; WIENER, 2002).

3.1

An´

alise Descritiva

O banco original a ser analisado possui 23.486 linhas e 11 vari´aveis, das quais utiliza-mos apenas trˆes: “Review Text”, referente `a pequena produ¸c˜ao textual na l´ıngua inglesa escrita pela consumidora; “title”, o t´ıtulo dado pelo consumidor a sua produ¸c˜ao textual; e “Recommended IND”, uma vari´avel que indica se o consumidor recomenda a pe¸ca em quest˜ao ou n˜ao. As vari´aveis “Review Text” e “title” foram concatenadas de forma a trazer mais riqueza de informa¸c˜oes `as an´alises. Dos 23.486 documentos, 19.314 est˜ao associados a classifica¸c˜oes positivas e 4.172 est˜ao associados a classifica¸c˜oes negativas, referente `a recomenda¸c˜ao ou n˜ao da pe¸ca.

Ap´os realizar o pr´e-processamento que ser´a abordado na se¸c˜ao a seguir, antes de realizar a remo¸c˜ao das stop words, do banco original foram obtidos 11.936 termos distintos. De acordo com a Tabela 3, a palavra mais utilizada nos textos foi dress, utilizada 12.207 vezes, representando 2, 38% dos termos. Em segundo e terceiro lugar ficaram as palavras love e size, com frequˆencias absolutas de 10.815 e 8.972 apari¸c˜oes.

(38)

3.1 An´alise Descritiva 37

Tabela 3: Tabela de Frequˆencia dos termos mais frequentes Rank Termo Frequˆencia (n) Representatividade (%)

1 dress 12207 2, 38% 2 love 10815 2, 11% 3 size 8972 1, 75% 4 top 8582 1, 67% 5 fit 7930 1, 55% 6 wear 6556 1, 28% 7 fabric 5074 0, 99% 8 color 4916 0, 96% 9 cute 4595 0, 90% 10 perfect 4588 0, 89%

Outra forma ´util de visualizar e analisar os documentos ´e separ´a-los em pares de palavras, nomeados de bigramas como cita Silge e Robinson (2017). Ap´os tokenizar os documentos par a par ´e preciso remover os bigramas que contˆem stopwords, pois sem esse passo os bigramas mais comuns seriam “in the” e “it is” , composi¸c˜oes que acrescentam muito pouco `as an´alises por serem demasiadamente comuns na l´ıngua inglesa. Ap´os a remo¸c˜ao das stopwords obt´em-se a Tabela 4, onde ´e poss´ıvel observar que “love love” ´e o bigrama mais utilizado, com frequˆencia absoluta de 553 vezes. Seguido por “Super cute” e “fit perfectly”, com frequˆencia de 522 e 509 respectivamente.

Tabela 4: Tabela de Frequˆencia dos bigramas mais frequentes Rank Bigrama Frequˆencia (n) Representatividade (%)

1 love love 553 0, 39% 2 super cute 522 0, 37% 3 fit perfectly 509 0, 36% 4 usual size 476 0, 34% 5 fits perfectly 433 0, 31% 6 super soft 371 0, 26% 7 highly recommend 370 0, 26% 8 size 4 367 0, 26% 9 size 6 356 0, 25% 10 beautiful dress 339 0, 24%

Para melhor visualizar a rela¸c˜ao entre as palavras de forma simultˆanea pode-se uti-lizar um gr´afico que plota uma rede de palavras, tamb´em chamado de “grafo”. Esta representa¸c˜ao ´e composta pela palavra de partida, pela palavra aonde o fluxo est´a indo e a intensidade de conex˜ao entre essas palavras. Com a a Figura 8 ´e poss´ıvel ver esse tipo de representa¸c˜ao e observar, por exemplo, como a palavras “normal” e “size” se relacionam. O grafo foi gerado a partir do pacote ggraph Pedersen (2018).

(39)

Figura 8: Bigramas comuns em forma de Grafo

Al´em da an´alise dos bigramas, ´e poss´ıvel calcular a frequˆencia com que duas palavras ocorrem conjuntamento dentro dos documentos, que pode ser visualizada na Tabela 5 e a correla¸c˜ao entre as palavras dentro dos documentos. Para isso utilizaremos o coeficiente de φ, que mede o qu˜ao mais prov´avel ´e que as duas palavras apare¸cam juntas ou que nenhuma das duas apare¸ca em um documento do que elas apare¸cam separadas. A Tabela 6 apresenta os pares de palavras que apresentaram os maiores coeficientes de φ.

(40)

3.1 An´alise Descritiva 39

Tabela 5: Tabela de Palavras que ocorrem conjuntamente Rank Palavra 1 Palavra 2 Frequˆencia (n)

1 fit size 4.015

2 fit love 3.916

3 wear love 3.501

4 wear fit 3.301

5 fit dress 3.022

Tabela 6: Tabela de Correla¸c˜ao entre Palavras Rank Palavra 1 Palavra 2 φ

1 lar byron 0, 91

2 stone cloth 0, 73

3 bridal shower 0, 72

4 not do justice 0, 63

5 rib cage 0, 60

Outra forma de visualiza¸c˜ao dos dados ´e a Nuvem de Palavras, que plota as palavras mais frequentes e sua frequˆencia est´a relacionada ao tamanho em que a mesma aparece no gr´afico. Na Figura 9 pode-se visualizar a Nuvem de palavras do banco ap´os o pr´ e-processamento e na Figura 10 podemos ver a nuvem de palavras separadas de acordo com a vari´avel de recomenda¸c˜ao. ´E poss´ıvel observar que as os documentos com reco-menda¸c˜ao negativa, em vermelho, possuem palavras de vi´es negativo como “disappoint” e “unflattering”, j´a os documentos com recomenda¸c˜ao positiva, em verde, possuem palavras de contentamento como “love” e “comfortable”. As nuvens de palavras foram geradas a partir do pacote wordcloud (FELLOWS, 2018).

(41)

Figura 9: Nuvem de Palavras.

Figura 10: Nuvem de palavras por classifica¸c˜ao.

3.2

Pr´

e - Processamento

O objetivo do Pr´e-Processamento, como j´a mencionado anteriormente ´e preparar o banco de dados para que nele seja poss´ıvel realizar as an´alises estat´ısticas. O primeiro passo ´e a tokeniza¸c˜ao, respons´avel por quebrar cada documento presente no banco de dados em unidades m´ınimas de texto, respeitando, por´em, o sentido original de cada palavra presente. Para a tokeniza¸c˜ao foi utilizado o pacote Tidytext (SILGE; ROBINSON, 2016), e com isso, podemos observar que h´a 1.435.364 palavras no banco. A fim de melhorar as an´alises foi decidido, tamb´em, concatenar a palavra not `a palavra a qual ela precede, desta forma, not like torna-se um termo s´o.

Ap´os a tokeniza¸c˜ao ´e necess´ario que sejam retiradas as stopwords, que, como j´a ci-tado anteriormente, s˜ao aquelas palavras muito comuns em uma determinada l´ıngua. O banco, ap´os a remo¸c˜ao destas passa a ter 512.807 termos e a lista das stopwords pode ser encontrada no Anexo 1. Al´em da remo¸c˜ao das stopwords foram retirados tamb´em os n´umeros, utilizando o pacote tm (FEINERER; HORNIK; MEYER, 2008) e ap´os esses passos o banco possui 15.108 termos distintos.

Ap´os a limpeza do banco, chega o momento da normaliza¸c˜ao dos documentos atrav´es da lematiza¸c˜ao, que busca reduzir o l´exico, levando em conta a an´alise morfol´ogica das apalavras. Para tanto foi utilizado o pacote textstem (RINKER, 2018). Ap´os todos os passos citados acima, obtemos 501.254 termos, sendo 11.936 termos distintos.

Todas as etapas de limpeza e organiza¸c˜ao do banco de dados original tornam poss´ıvel a cria¸c˜ao da matriz termo-documento definida na Se¸c˜ao 2.2.2. Para tal, foram selecionados os 100 termos mais frequentes e suas frequˆencias foram calculadas com rela¸c˜ao a cada um

(42)

3.3 Modelagem dos Dados 41

dos documentos analisados. Al´em das 100 palavras mais recorrentes, foram adicionadas mais 52 palavras `as quais foram atribu´ıdas grande valor semˆantico, como “hate”, “ridicu-lous” e “boring”. Ao fim desse processo a matriz termo-documento apresenta dimens˜oes de 23.486 × 152, ou seja cada linha representa um documento, cada coluna um termo e cada c´elula representa a quantidade de vezes que o termo j aparece no documento i. Os termos presentes na Matriz Termo Documento podem ser encontrados no Apˆendice 1.

3.3

Modelagem dos Dados

Como escopo, foi definido para a an´alise, inicialmente, testar os m´etodos de an´alise de conglomerado e Random Forest, ambos com e sem PCA e checar qual deles performa melhor no banco de teste. Devido ao desequil´ıbrio no banco de dados com rela¸c˜ao a classifica¸c˜ao dos textos em positivo e negativo (19.314 contra 4.172), decidiu-se coletar uma amostra de 8.000 documentos entre os 23.486, sendo 4.000 positivos e 4.000 negativos e rodar as an´alises nessa amostra.

´

E importante lembrar que essa amostra ser´a submetida ainda `a Valida¸c˜ao cruzada como mencionado na Se¸c˜ao 2.5. Isso implica que, para as an´alises, a amostra a ser utilizada ser´a particionada em 10 partes, cada uma com 800 linhas. A cada itera¸c˜ao, 9 de 10 partes formar˜ao o banco de treino e 1 parte ser´a o banco de teste. Depois que o modelo for gerado no banco de treino, este ser´a utilizado para tentar prever as classes no banco de teste. Esse processo ser´a repetido 10 vezes para cada modelo implementado.

3.4

An´

alise do Componente Principal

A an´alise do Componente foi adicionada ao escopo da pesquisa com o objetivo de diminuir a dimensionalidade dos dados e foi definido que o n´umero k de componentes a serem utilizadas seria o n´umero que explicassem de 80% a 90% da variˆancia total das vari´aveis iniciais, que no caso da matriz termo documento s˜ao 152. Foi utilizada a fun¸c˜ao princomp do pacote stats (R Core Team, 2019) e ao realizar a an´alise do Componente Principal, por´em, pode-se notar que para que Ψk assuma valores entre 80% e 90% seria

necess´aria utiliza¸c˜ao de um n´umero k de componentes principais entre 112 e 130. Como o objetivo de reduzir a dimens˜ao dos dados n˜ao foi alcan¸cado de forma substancial, optou-se pela n˜ao utiliza¸c˜ao do m´etodo nas an´alises. Na Figura 11 ´e poss´ıvel observar o Scree Plot das componentes geradas. Nota-se que at´e as ´ultimas componentes geradas ainda h´a um

(43)

ganho substancial de informa¸c˜ao quanto a variˆancia explicada.

Figura 11: Scree Plot das Componentes geradas

Sendo assim, este trabalho apresentar´a os resultados para os m´etodos Random Forest e An´alise de Conglomerado somente, sem a An´alise do Componente Principal.

3.5

An´

alise de Conglomerado

Como a an´alise de conglomerado hier´arquica ´e um m´etodo n˜ao supervisionado onde n˜ao h´a um n´umero de grupos pr´e definidos, ´e o pesquisador quem controla esse n´umero. Como mencionado na Se¸c˜ao 2.4.3.3, a proposta para a interrup¸c˜ao do processo divisivo ´e o momento em que os clusters gerados apresentem prevalˆencia de pelo menos 70% de alguma das classes. Para que possamos ter melhor no¸c˜ao de como o m´etodo se comporta nos dados, um modelo foi implementado em toda a amostra e seu dendograma foi gerado, como ´e poss´ıvel ver na Figura 12.

(44)

3.5 An´alise de Conglomerado 43

Figura 12: Dendograma do M´etodo hier´arquico Divisivo - Average Linkage

Foram testados diferentes n´umeros de agrupamentos e inferidas as prevalˆencias dentro deles, os n´umeros de agrupamentos testados foram: 10, 20, 50, 100 e 500 grupos. O resumo das prevalˆencias, ou seja, a porcentagem da classifica¸c˜ao predominante em cada conglomerado gerado pode ser vista na Tabela 7.

Podemos observar na Tabela 7 que para o modelo com 10 agrupamentos, 25% dos grupos gerados possui prevalˆencia de at´e 0, 511 e 50% possuem prevalˆencias de at´e 0, 530. Para o modelo com 20 agrupamentos, 25% dos grupos gerados possui prevalˆencia de at´e 0, 531 e 50% possuem prevalˆencias de at´e 0, 581. Para o modelo com 50 agrupamentos, 25% dos grupos gerados possui prevalˆencia de at´e 0, 556 e 50% possuem prevalˆencias de at´e 0, 667. para o modelo com 100 agrupamentos, 25% dos grupos gerados possui prevalˆencia de at´e 0, 574 e 50% possuem prevalˆencias de at´e 0, 670. para o modelo com 500 agrupamentos, 25% dos grupos gerados possui prevalˆencia de at´e 0, 600 e 50% possuem prevalˆencias de at´e 0, 800. para o modelo com 1.000 agrupamentos, 25% dos grupos gerados possui prevalˆencia de at´e 0, 667 e 50% possuem prevalˆencias de at´e 1, 0.

´

E poss´ıvel visualizar que com o aumento de n´umeros de agrupamentos, aumenta tamb´em a porcentagem de prevalˆencia de uma classe sobre a outra. Por´em, a medida que o n´umero de grupos aumenta, aumenta a possibilidade de um sobre-ajuste do modelo

(45)

aos dados, ou seja, um modelo que descreve razoavelmente apenas esse grupo de dados especificamente, n˜ao sendo ´util para uma generaliza¸c˜ao. Para checar o comportamento dos modelos gerados quanto a um poss´ıvel sobre-ajuste podemos consultar os gr´aficos da Figura 13, que exibe para cada um dos cen´arios apresentados, o n´umero de objetos em cada grupo versus a prevalˆencia dentro dos grupos.

Tabela 7: Medidas Resumo das Prevalˆencias para cada um dos cen´arios testados M´ınimo 1o Quantil Mediana edia 3o Quantil aximo

10 Agrupamentos 0,500 0,511 0,530 0,582 0,568 1,000 20 Agrupamentos 0,500 0,531 0,581 0,656 0,750 1,000 50 Agrupamentos 0,500 0,565 0,667 0,705 0,794 1,000 100 Agrupamentos 0,500 0,574 0,670 0,721 0,837 1,000 500 Agrupamentos 0,500 0,600 0,800 0,791 1,000 1,000 1000 Agrupamentos 0,500 0,667 1,000 0,835 1,000 1,000

(46)

3.5 An´alise de Conglomerado 45

: 10 Conglomerados : 20 Conglomerados

: 50 Conglomerados : 100 Conglomerados

: 500 Conglomerados : 1000 Conglomerados

Figura 13: N´umero de objetos em cada Conglomerado por Prevalˆencia no Mesmo

Com os gr´aficos apresentados na Figura 13 percebemos que a maioria dos conglome-rados formados possuem uma quantidade muito pequena de objetos em cada cluster, e os poucos agrupamentos com uma quantidade mais representativa de objetos, possuem prevalˆencia muito baixa, em torno de 50%. Ou seja, os grupos grandes tˆem prevalˆencia baixa e os grupos com prevalˆencia alta s˜ao os com poucos objetos.

(47)

3.6

Random Forest

Foram implementados dois modelos de Random Forest atrav´es do pacote Random-Forest (LIAW; WIENER, 2002), um modelo com os parˆametros padr˜ao implementados pelo R e um modelo em que o parˆametro ‘mtry’, que indica o n´umero k de vari´aveis amostradas de forma aleat´oria na cria¸c˜ao de cada ´arvore de regress˜ao, foi modificado. O padr˜ao implementado pelo R apresenta k = 12. :

• Modelo I: Modelo com os parˆametros padr˜ao apresentados pelo R. • Modelo II: Modelo com k = 20.

Os dois modelos foram implementados para cada um dos 10 bancos de treino. Na Tabela 8, que apresenta o resumo dos erros estimados no banco de treino, ´e poss´ıvel ver que n˜ao h´a grande varia¸c˜ao nas taxas apresentadas, sendo o erro m´ınimo de 21, 65% para o Modelo I e de 21, 99% para o Modelo II. O Modelo I apresenta menor erro m´edio se comparado co Modelo II: 22, 06% contra 22, 68% do Modelo II.

Tabela 8: Medidas Resumo do Erro (%) no Banco de Treino

M´ınimo 1o Quantil Mediana M´edia 3o Quantil M´aximo

Modelo I 21,65 21,87 22,06 22,13 22,32 22,75

Modelo II 21,99 22,43 22,68 22,63 22,83 23,04

Os modelos ent˜ao foram utilizados nas amostras de teste para tentar prever suas classes. Os resultados da matriz de confus˜ao para os dois modelos propostos podem ser visualizados nas Tabelas 9 e 10.

Tabela 9: Matriz de Confus˜ao Modelo I

XX XX XX XX XX XX Classe Previs˜ao Negativo Positivo Negativo 3.197 962 Positivo 803 3.038

Tabela 10: Matriz de Confus˜ao Modelo II

XX XX XX XX XX XX Classe Previs˜ao Negativo Positivo Negativo 3.181 998 Positivo 819 3.002

(48)

3.6 Random Forest 47

´

E poss´ıvel ver que ambos os modelos apresentados performaram bem na amostra de teste como podemos ver nas Tabelas de Confus˜ao 9 e 10, com a00 = 3.197 no Modelo

I e a00 = 3.181 no Modelo II, ou seja, apresentaram valores altos ao classificar como

negativo objetos com classe negativa. Apresentaram tamb´em a11 = 3.197 no Modelo I e

a11 = 3.002 no Modelo II, sendo a11 referente aos objetos que foram classificados como

positivos objetos de classe positiva.

Tabela 11: Medidas de Qualidade do ajuste para dos Modelos I e II no banco de teste Acur´acia Sensibilidade Especificidade

Modelo I 0, 779 0, 791 0, 768

Modelo II 0, 773 0, 786 0, 761

Na tabela 11 ´e poss´ıvel visualizar as medidas de qualidade do ajuste para os Mo-delos I e II. Ambos os moMo-delos apresentaram taxas altas para Acur´acia, Sensibilidade e Especificidade, o modelo II, por´em apresenta valores maiores, com Acur´acia = 0, 779, Sensibilidade = 0, 791 e Especificidade = 0, 768.

(49)

4

Conclus˜

oes

Levando em conta a grande massa de dados textuais produzidas atualmente, o tra-balho se propˆos a explorar t´ecnicas de minera¸c˜ao de texto e de aprendizado de m´aquina com o objetivo de classificar os documentos do banco em documentos com classifica¸c˜oes positivas ou negativas quanto a rcomenda¸c˜ao do consumidor.

Pudemos permear as t´ecnicas de minera¸c˜ao textual, desde seu pr´e-processamento com v´arias etapas das quais podemos citar: a tokeniza¸c˜ao, lematiza¸c˜ao e sele¸c˜ao de termos at´e a chegada do produto final chamado de Matriz Termo Documento, que tornou-se o banco de dados onde as an´alises estat´ısticas puderam ser realizadas.

Com os resultados apresentados no Cap´ıtulo 3 foi poss´ıvel adentrar um pouco mais no universo da minera¸c˜ao textual e entender melhor o banco de dados a ser analisado. Al´em de, por meio da visualiza¸c˜ao de dados, distinguir palavras mais comuns em textos classificados como positivos bem como textos classificados como negativos, o que fortaleceu a hip´otese inicial de que seria poss´ıvel prever as classifica¸c˜oes dos documentos a partir de seu conte´udo escrito.

A an´alise do Componente Principal se mostrou muito pouco eficaz no quesito de redu¸c˜ao da dimensionalidade dos dados, o qual era seu prop´osito no presente trabalho. Devido a isso, optou-se pela n˜ao utiliza¸c˜ao do m´etodo.

A modelagem buscou comparar dois tipos diferentes de metodologias a fim de clas-sificar os documentos em documentos com recomenda¸c˜oes positivas e negativas a partir do seu conte´udo escrito. Um dos m´etodos foi o da an´alise de conglomerado, m´etodo n˜ao supervisionado e o outro foi o Random Forest, m´etodo supervisionado. Devido a dispari-dade entre documentos negativos e positivos, decidiu-se por realizar as an´alises em uma amostra de 8.000 documentos, sendo 4.000 positivos e 4.000 negativos. Essa etapa foi considerada essencial para os resultados obtidos atrav´es das an´alises.

No que tange ao m´etodo n˜ao supervisionado, an´alise de conglomerado divisivo, obtive-mos resultados que n˜ao explicaram os dados de forma que pudesse ser ´util `a classifica¸c˜ao.

(50)

4 Conclus˜oes 49

Devido a demanda de n´umeros muito altos de agrupamentos para garantir a prevalˆencia de uma das classes dentro dos grupos, modelos sobre-ajustados foram criados, ou seja, modelos que performam bem apenas para o banco de treino.

O resultado mais expressivo se deu pelo m´etodo supervisionado, o Random Forest. Foram implementados 2 modelos que obtiveram resultados bem parecidos; erros gerais por volta de 20% no banco de treino. Ap´os a implementa¸c˜ao do modelo, o mesmo foi usado para tentar prever as classes do banco de teste, com isso foi poss´ıvel construir a matriz de confus˜ao para comparar as classes previstas com as classes reais do banco. Obteve-se, para ambos os modelos, acur´acia, sensibilidade e especificidade por volta de 70%.

Referências

Documentos relacionados

No mês de dezembro, os títulos públicos em carteira foram remunerados por um IPCA (inflação oficial) médio de -0,06%. A variação do índice INPC do mês de novembro, que

seria usada para o parafuso M6, foram utilizadas as equações 14 e 15, referentes aos parafusos de 8 mm de diâmetro e folga entre parafuso e furo de 0,5 mm, que definem,

No entanto, os resultados apresentados pelo --linalol não foram semelhantes, em parte, aos do linalol racêmico, uma vez que este apresenta um efeito vasorelaxante em anéis de

Resumo: O presente trabalho corresponde a um estudo empírico descritivo e exploratório que aborda comportamentos e falas de atores políticos que participaram do processo legislativo

As micotoxinas são compostos químicos tóxicos provenientes do metabolismo secundário de fungos filamentosos e conhecidas pelos danos causados à saúde humana e

onde Qe são as forças de origem externa ao sistema e Qc são as forças de reação. Estas equações não podem ser utilizadas diretamente, pois as forças de

Conclui-se que o conhecimento do desenvolvimento ponderal evidenciou um padrão racial, que o perímetro torácico está altamente associado ao peso corporal e que equações de

As principais indicações para a realização foram a suspeita de tuberculose (458 pacientes) e uso de imunobiológicos (380 pacientes).. A maior prevalência de resultado positivo