Mineração de texto aplicada a um banco de reviews de produtos

(1)

Minera¸

c˜

ao de Texto Aplicada a um banco

de Reviews de produtos

Niter´oi - RJ, Brasil 15 de Julho de 2019

(2)

Universidade Federal Fluminense

Ana Luiza Santos Neves

Minera¸

c˜

ao de Texto Aplicada a um

banco de Reviews de produtos

Trabalho de Conclus˜ao de Curso

Monografia apresentada para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.

Orientador: Prof. Profa. Dra. Jessica Kubrusly

Niter´oi - RJ, Brasil 15 de Julho de 2019

(3)

Ana Luiza Santos Neves

Minera¸

c˜

ao de Texto Aplicada a um banco de

Reviews de produtos

Monografia de Projeto Final de Gradua¸cão sob o t´ıtulo “Mi-nera¸cão de Texto Aplicada a um banco de Reviews de produ-tos”, defendida por Ana Luiza Santos Neves e aprovada em 15 de Julho de 2019, na cidade de Niterói, no Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:

Profa. Dra. Jessica Kubrusly Departamento de Estat´ıstica – UFF

Prof. Dr. Hugo Santos Departamento de Estat´ıstica – UFF

Profa. Dra. Ludmilla Jacobson Departamento de Estat´ıstica – UFF

(4)

Ficha catalográfica automática - SDC/BIME Gerada com informações fornecidas pelo autor

Bibliotecário responsável: Ana Nogueira Braga - CRB7/4776

N511m Neves, Ana Luiza Santos

Mineração de Texto Aplicada a um banco de Reviews de produtos / Ana Luiza Santos Neves ; Jéssica Kubrusly, orientadora. Niterói, 2019.

56 f. : il.

Trabalho de Conclusão de Curso (Graduação em

Estatística)-Universidade Federal Fluminense, Instituto de Matemática e Estatística, Niterói, 2019.

1. Estatística. 2. Mineração de texto. 3. Random Forest. 4. Análise de Conglomerado. 5. Produção intelectual. I. Kubrusly, Jéssica, orientadora. II. Universidade Federal Fluminense. Instituto de Matemática e Estatística. III. Título.

(5)

-Este projeto tem como finalidade unir técnicas de minera¸cão de texto a métodos de classifica¸cão de dados e aplicá-los em um banco de reviews de pe¸cas de roupa compradas pela internet. O objetivo central do estudo é identificar pe¸cas com recomenda¸cões positivas e negativas a partir do texto escrito pelo consumidor ao descrever a pe¸ca. Para tal, foram realizados procedimentos a fim de transformar o banco textual em um banco numérico e, após realizado isso, foram utilizados dois métodos para classificar os dados: Análise de Conglomerado e Random Forest. Enquanto a análise de conglomerado encontrou muita dificuldade em classificar os documentos, o método Random Forest foi mais bem sucedido na tarefa, apresentando acurácia em torno de 70%.

Palavras-chave: Estat´ıstica. Minera¸c˜ao de texto. Random Forest. An´alise de Conglome-rado. Reviews. E-commerce. Machine Learning. Data Science.

(6)

Dedicat´

oria

`

(7)

Eu gostaria de agradecer primeiramente a Profa. Jessica por ter, não apenas me orientado academicamente através desse ciclo com maestria, mas por ter me passado confian¸ca e calma durante os incontáveis momentos de desespero. Gostaria de também agradecer a banca pelo tempo e cuidado ao participar de um momento tão importante em minha vida.

Aos meus amigos de Cabo Frio por entenderem minha ausência e por estarem sem-pre sem-presentes, mesmo na distância. E aos amigos que fiz ao longo dessa jornada, vocês foram anjos que acompanharam minha rotina, dividiram suas casas comigo, riram de mim quando era necessário e me apoiaram quando eu precisei. Sem vocês, eu não teria aprendido metade do que aprendi nos últimos anos.

E por fim, agrade¸co à minha fam´ılia por em nenhum momento duvidarem da minha capacidade, por sempre me motivarem, sempre acreditarem na educa¸cão e sempre estarem presentes. Vocês são o meu norte.

(8)

Sum´

ario

Lista de Figuras

Lista de Tabelas

1 Introdu¸c˜ao p. 11

1.1 Revisão Bibliográfica . . . p. 12 1.2 Objetivos . . . p. 13 1.3 Organiza¸cão . . . p. 13

2 Materiais e M´etodos p. 14

2.1 Materiais . . . p. 14 2.2 Minera¸cão de Texto . . . p. 14 2.2.1 Ferramentas para Análise Descritiva de Bancos Textuais . . . . p. 15 2.2.2 Pré - Processamento . . . p. 16 2.3 Análise do Componente Principal . . . p. 21 2.3.1 Visão Geral . . . p. 21 2.3.2 Abordagem Teórica . . . p. 22 2.3.3 Critérios para reduzir a dimensão . . . p. 23 2.3.4 Abordagem Amostral . . . p. 25 2.4 Métodos de Classifica¸cão . . . p. 26 2.4.1 Arvore de Classifica¸c˜´ ao . . . p. 27 2.4.2 Random Forest . . . p. 28 2.4.3 Análise de Conglomerado . . . p. 29

(9)

2.4.3.2 Sele¸cão do Algoritmo . . . p. 31 2.4.3.3 Sele¸cão do número de Clusters . . . p. 33 2.5 Qualidade do Ajuste . . . p. 33 2.5.1 Valida¸cão Cruzada . . . p. 33 2.5.2 Medidas de Qualidade . . . p. 34

3 An´alise dos Resultados p. 36

3.1 Análise Descritiva . . . p. 36 3.2 Pré - Processamento . . . p. 40 3.3 Modelagem dos Dados . . . p. 41 3.4 Análise do Componente Principal . . . p. 41 3.5 Análise de Conglomerado . . . p. 42 3.6 Random Forest . . . p. 46

4 Conclus˜oes p. 48

Referˆencias p. 50

Apˆendice 1 -- Termos da Matriz Termo Documento p. 52

(10)

Lista de Figuras

1 Exemplo de Nuvem de Palavras. Fonte: Silge e Robinson (2017) . . . . p. 15 2 Exemplo de Grafos. Fonte: Silge e Robinson (2017) . . . p. 17 3 Curva de Zipf, curva de relevância e cortes de Luhn . . . p. 21 4 Exemplo de scree plot. Fonte : Johson e Wichern (2014) . . . p. 25 5 Representa¸cão de uma Árvore de Decisão . . . p. 28 6 Representa¸cão no Espa¸co de uma Árvore de Decisão . . . p. 28 7 Dendograma ilustrando agrupamento hierárquico. . . p. 32 8 Bigramas comuns em forma de Grafo . . . p. 38 9 Nuvem de Palavras. . . p. 40 10 Nuvem de palavras por classifica¸cão. . . p. 40 11 Scree Plot das Componentes geradas . . . p. 42 12 Dendograma do Método hierárquico Divisivo - Average Linkage . . . . p. 43 13 Número de objetos em cada Conglomerado por Prevalência no Mesmo . p. 45

(11)

1 Tabela de Compara¸cão para correla¸cão binária . . . p. 16 2 Tabela de Confusão . . . p. 34 3 Tabela de Frequência dos termos mais frequentes . . . p. 37 4 Tabela de Frequência dos bigramas mais frequentes . . . p. 37 5 Tabela de Palavras que ocorrem conjuntamente . . . p. 39 6 Tabela de Correla¸cão entre Palavras . . . p. 39 7 Medidas Resumo das Prevalências para cada um dos cenários testados p. 44 8 Medidas Resumo do Erro (%) no Banco de Treino . . . p. 46 9 Matriz de Confusão Modelo I . . . p. 46 10 Matriz de Confusão Modelo II . . . p. 46 11 Medidas de Qualidade do ajuste para dos Modelos I e II no banco de teste p. 47

(12)

11

1 Introdu¸

c˜

ao

A partir de meados do século XX, iniciou-se no mundo a terceira revolu¸cão tecnológica, marcada pela integra¸cão e interdependência entre tecnologia e sociedade. Isso, unido à populariza¸cão da internet anos depois, gerou e ainda gera, continuamente, massas gi-gantescas de dados. Dessa grande produ¸cão de informa¸cão, fez-se necessária, a cria¸cão de técnicas a fim de processá-la e gerar conhecimento a partir dela. Essas técnicas fi-caram conhecidas como Minera¸cão de Dados, termo que surgiu em comunidades de T.I. (Tecnologia da Informa¸cão) em 1990.

Dessa grande massa informacional, estima-se que 85% (HOTHO; NURNBERGER; PAAß, 2005) seja de documentos textuais, seja em redes sociais, como Facebook e Twitter ou ainda dados corporativos como reclama¸cões e pesquisas de opinião sobre um produto ou servi¸co. É da necessidade de processar documentos textuais que surgiu a Minera¸cão de Textos, um ramo da Minera¸cão de Dados. Este se ocupa da extra¸cão de informa¸cão inteligente de massas textuais de forma a ser processável por computadores.

KDD (Knowledge Discovery in Databases, ou Descoberta de conhecimento em bancos de dados, em português) é o processo que se ocupa da extra¸cão de informa¸cão não trivial de bancos de dados através de ferramentas computacionais e descoberta de padrões e para sua implementa¸cão são utilizados, usualmente, dados estruturados. No caso de dados textuais não estruturados é esperado que alguma estrutura seja aplicada ao banco antes, e esse processo fica então conhecido como KDT (Descoberta de conhecimento em textos) (FELDMAN; DAGAN, 1995). Ao entender a necessidade de transformar dados não estruturados em informa¸cão útil em meio à uma avalanche de dados que vivemos hoje, o trabalho se propõe a investigar um pouco mais do âmbito da Minera¸cão de Texto, assim como técnicas de aprendizado de máquina.

O banco textual a ser analisado consiste em pequenos textos referentes a avalia¸cão de produtos. Seguido deste, há uma classifica¸cão que indica se o texto foi avaliado positiva ou negativamente pelo consumidor. Tem-se como objetivo geral formular um modelo que

(13)

busca prever essas classes atrav´es da produ¸c˜ao textual apenas.

1.1 Revis˜

ao Bibliogr´

afica

Muito se tem produzido a respeito das técnicas de Minera¸cão Textual nos últimos anos, e aliadas a diferentes ferramentas de modelagem estat´ıstica clássica e/ou Aprendizado de Máquina se propõem a resolver diversas questões do mundo prático. Como serão abordados a seguir.

Em sua disserta¸cão, Soares (2010) teve como objetivo classificar despesas públicas por tipo de gasto, com base na análise dos campos de históricos de notas de empenhos, presentes nas presta¸cões de contas dos munic´ıpios do Estado do Ceará. Para tanto, reuniu 14.072 registros que podiam ser classificados em 8 objetos de gastos diferentes. Para a classifica¸cão ele utilizou o método de Árvores de Classifica¸cão para amostras de diferentes tamanhos: 500, 1.000, 3.000, 6.000, 9.000, e 12.000 registros. A média de classifica¸cões corretas aumentaram regularmente com o aumento do numero de registros nas amostras, chegando a 70, 6% na amostra de tamanho 12.000. Através da minera¸cão de texto o autor pôde, portanto, atingir seu objetivo geral que era classificar as despesas públicas a partir da análise do conteúdo dos campos de históricos das notas de empenhos.

Loureiro (2016), por sua vez, em sua disserta¸cão pela UERJ se propõe a analisar o cenário econômico do pa´ıs através de matérias publicadas em um portal de economia espec´ıfico. Para tal ele levanta 510 matérias de 3 autores distintos: Miriam Leitão, Álvaro Gribel e Marcelo Loureiro. Através de técnicas de clustering seus objetivos iniciais eram conseguir segregar as matérias por autor de forma automática; segregar as matérias por conteúdo; e segregar os assuntos por per´ıodo de publica¸cão. Loureiro (2016) explora um pouco métodos para a recupera¸cão de dados textuais da internet e após tal processo, ele obtém uma coletânea de 510 matérias publicadas entre 25/08 a 15/12 de 2018 e 15.170 termos distintos. Devido a magnitude dos dados foi definida a utiliza¸cão de um método não hierárquico de análise de conglomerados: K-means, mas como nesse método é necessário que o número de agrupamentos seja definido previamente, decidiu-se utilizar um método hierárquico a priori para ajudar na tarefa de selecionar números razoáveis para k. Com esse passo, foram definidos para o estudos 3 ks poss´ıveis: K1 = 5, K2 = 3

e K3 = 6. Como conclusão às análises, foi constatado que o número k3 = 6 apresentou

resultados muito interessantes pois conseguiu segregar as produ¸cões textuais por assunto, autor e tempo de publica¸cão de forma muito satisfatória.

(14)

1.2 Objetivos 13

1.2 Objetivos

Objetivos Gerais

Aplicar métodos de minera¸cão de texto e classifica¸cão em um banco real, a fim de identificar textos com avalia¸cões positivas e negativas.

Objetivos Espec´ıficos

• Estudar os processos que compreendem o método da minera¸cão de texto; • Estudar métodos para classifica¸cão dos dados;

• Rever conceitos da An´alise do Componente Principal; • Aplicar os m´etodos estudados em um banco de dados real.

1.3 Organiza¸

c˜

ao

No Cap´ıtulo 2 serão abordados os materiais e métodos utilizados para a análise dos dados, e no Cap´ıtulo 3 são apresentados os resultados das análises realizadas. Por fim, no Cap´ıtulo 5, será apresentada a conclusão do trabalho documentado.

(15)

2 Materiais e M´

etodos

2.1 Materiais

Para as análises será utilizado um banco textual composto por 23.486 linhas, em que cada linha está relacionada aos atributos de um consumidor de uma loja online de roupas. A cada consumidor está associado uma produ¸cão textual na l´ıngua inglesa que tem como objetivo analisar a pe¸ca comprada, e além desse campo há uma variável em que o consumidor diz se recomenda ou não a pe¸ca em questão, sendo essa uma variável binária. Portanto, cada unidade amostral é composta por um texto e uma variável binária. O banco foi retirado do Kaggle GoogleLLC (2010), comunidade on-line de cientistas de dados, propriedade da Google LLC.

2.2 Minera¸

c˜

ao de Texto

Conforme já abordado no Cap´ıtulo 1, a Minera¸cão de texto é o processo que consiste, basicamente, na extra¸cão de padrões e conhecimento não trivial de dados textuais, como é o caso do banco de dados apresentado na Se¸cão 2.1. É poss´ıvel, portanto, separar o processo de minera¸cão de dados em duas etapas principais: refinamento, o qual transforma o banco de texto original em um banco numérico que pode ser analisado mais facilmente; e o processo de extra¸cão de informa¸cão efetivamente, que consiste na tentativa de deduzir padrões do banco de dados refinado a partir de ferramentas estat´ısticas convencionais (TAN et al., 2000).

A presente se¸cão encarrega-se do processo de refinamento do banco e a seguir serão apresentadas as etapas necessárias para que o mesmo seja realizado.

(16)

2.2 Minera¸c˜ao de Texto 15

2.2.1 Ferramentas para An´

alise Descritiva de Bancos Textuais

Antes de abordar as etapas envolvidas no processo de tornar o banco textual em um banco numérico que possa ser analisado por métodos estat´ısticos, é preciso definir algumas ferramentas que serão utilizadas na descri¸cão do banco textual. Sejam elas ferramentas visuais ou medidas resumo a fim de explicar um pouco mais sobre o banco de dados.

Nuvem de Palavras ´

E uma forma de visualizar as palavras de um documento ou conjunto de documentos e plota as palavras de acordo com suas ocorrência. Na Figura 1 é poss´ıvel ver um exem-plo de Nuvem de Palavras. As palavras miss e time são as maiores palavras na nuvem apresentada pois são as palavras mais recorrentes.

Figura 1: Exemplo de Nuvem de Palavras. Fonte: Silge e Robinson (2017)

Coeficiente φ

O Coeficiente φ é muito comum para calcular correla¸cão entre variáveis binárias e será utilizado para medir a correla¸cão entre duas palavras dentro dos documentos.

(17)

Tabela 1: Tabela de Compara¸cão para correla¸cão binária

Tem a palavra Y N˜ao tem a palavra Y Total

Tem a palavra X n11 n10 n1.

N˜ao tem a palavra X n01 n00 n0.

Total n.1 n0. n

O coeficiente φ ser´a definido pela Equa¸c˜ao 2.1.

φ = n√11n00− n10n01

n1.n0.n.0n.1 (2.1)

sendo n11 o n´umero de documentos em que as palavras X e Y est˜ao presentes

concomi-tantemente, n10 o n´umero de documentos com a palavra X, mas sem a palavra Y, n01

o n´umero de documentos com a palavra Y, mas sem a palavra X, e n00 o n´umero de

documentos sem a palavra X nem a palavra Y.

Grafos

A fim de representar as rela¸cões entre todas as palavras simultaneamente, é sugerida por Silge e Robinson (2017), a utiliza¸cão de grafos. Com esta ferramenta gráfica é poss´ıvel visualizar as rela¸cões entre todas as palavras do banco. Na Figura 2 podemos ver um exemplo de grafo e observar as rela¸cões entre as palavras.

2.2.2 Pr´

e - Processamento

´

E um conjunto de processos aplicados ao banco textual, após sua coleta, com a finali-dade de obter uma representa¸cão mais estruturada para os dados e, com isso, possibilitar a análise do mesmo (CARRILHO, 2008). É caracterizado pela aplica¸cão de diversos algo-ritmos os quais serão abordados na presente se¸cão e tendo como objetivo final a obten¸cão da matriz termo-documento.

Tokeniza¸c˜ao

A tokeninza¸cão é a primeira etapa do pré-processamento e tem como objetivo extrair unidades m´ınimas do texto a partir de um texto livre. Essas unidades são chamadas de tokens e na maioria das vezes se referem a uma única palavra. Porém, para que o valor de um termo seja mantido, os tokens podem se referir a mais de uma palavra ou até mesmo s´ımbolos e pontua¸cões (CARRILHO, 2008).

(18)

Figura 2: Exemplo de Grafos. Fonte: Silge e Robinson (2017) O processo ´e mais facilmente visualizado abaixo:

Exemplo 2.1. Esse vestido é muito lindo! ⇒ [Esse] [vestido] [é] [muito] [lindo] [!] No exemplo 2.1 cada par de colchetes caracteriza um token. Usualmente, são utilizados os espa¸cos em branco como pontos de quebra do texto, como foi poss´ıvel ver no exemplo acima. Porém, além dos espa¸cos como delimitadores, são utilizadas também diversos tipos de pontua¸cões, como parêntesis, pontos de exclama¸cão, interroga¸cão e final, tra¸co, ponto e v´ırgula, aspas e travessão.

´

E preciso destacar que, apesar do processo de tokeniza¸cão ser muito natural ao ser humano, a realiza¸cão desse processo pela máquina encontra diversas barreiras (SANTOS, 2010), algumas citadas abaixo :

• Palavras que carregam valores diferentes quando acompanhadas de outras palavras, como coca cola;

(19)

internet;

• Utiliza¸cão de travessão em come¸cos de diálogos; • Utiliza¸cão de parênteses em números de telefone.

Como tentativa de corre¸cão desses poss´ıveis erros, são utilizados dicionários e regras de forma¸cão que auxiliam no processo. (CARRILHO, 2008) propõe uma regra de forma¸cão a fim de solucionar os problemas apresentados acima. Primeiramente são gerados tokens preliminares de acordo com uma lista de delimitadores e os espa¸cos em branco. Após o primeiro passo, é realizada uma identifica¸cão de abrevia¸cões com base em dicionários pré-estabelecidos. Em seguida, são identificadas as palavras combinadas, ou seja, palavras que carregam sentido apenas quando juntas. Essas palavras, que após o primeiro passo, foram separadas por caracteres como “&”ou “-”, agora unem-se formando um só token. A próxima etapa é identificar s´ımbolos da internet, sejam URLs, e-mails ou até mesmo endere¸cos de IP. Com isso é poss´ıvel fazer com que o termo “https://br.pinterest.com”seja identificado como um só, ao invés de algo como: [https] [:] [/][/] [br] [.] [pinterest] [.] [com]. O quinto passo do processo inclui a identifica¸cão de qualquer forma de apresenta¸cão de números. O último passo, por sua vez, se encarrega da identifica¸cão de tokens multi-vocabulares, ou seja, palavras que precisam estar unidos em um único token para que seja mantido seu sentido original no texto.

Corre¸c˜ao Ortogr´afica

O material para análise de dados apresentado é um banco textual de grandes di-mensões digitados por uma ou várias pessoas. Dados desse tipo apresentam, com frequência, erros ortográficos, o que pode reduzir a qualidade da análise dos dados. Como forma de resolver o problema apresentado, usaremos a técnica de indexa¸cão por n-gramas de le-tras. O processo consiste em dividir as palavras em n-gramas enquanto uma n-grama é uma sequência de n letras de uma dada palavra. Por exemplo, a palavra “caneca”pode ser separada em quatro 3-gramas : “can”,“ane”,“nec”,“eca”. A ideia é que os erros or-tográficos mais recorrentes afetam poucos “pedacinhos”de palavras, portanto, podemos buscar a palavra correta através daquelas que compartilham a maior parte dos n-gramas com a palavra errada (CARRILHO, 2008).

´

E poss´ıvel encontrar mais informa¸cão sobre algoritmos para corre¸cão ortográfica em Fonseca e Reis (2002).

(20)

Remo¸c˜ao das Stopwords

Na literatura os termos de maior apari¸cão em uma l´ıngua são chamados de stopwords, não possuindo valor semântico e ajudando apenas na compreensão geral do texto. As stopwords são caracterizadas geralmente por artigos, preposi¸cões, pontua¸cão, conjun¸cões e pronomes. Usualmente utiliza-se uma lista pré-estabelecida de stopwords chamada sto-plist criada manualmente por um especialista no dom´ınio do assunto, ou ainda gerada automaticamente pela frequência de apari¸cão das palavras no léxico. A remo¸cão das stopwords reduz consideravelmente a quantidade de tokens melhorando as análises a se-rem realizadas (CARRILHO, 2008).

Est´a apresentado no Anexo 1 uma lista das stopwords usadas. Normaliza¸c˜ao

Após quebrar cada texto em pequenos peda¸cos, busca-se padronizá-los, de forma a diminuir o número de tokens distintos e melhorar as análises (MANNING; RAGHAVAN; SCHüTZE, 2008). Esse processo, chamado de normaliza¸cão, consiste em agrupar palavras que compartilham o mesmo padrão (CARRILHO, 2008), diferenciando-se apenas por caracter´ısticas superficiais (MANNING; RAGHAVAN; SCHüTZE, 2008). E abordado´ ainda por CARRILHO (2008) que os métodos de classifica¸cão são os mais beneficiados por tal processo já que se fundamentam em processos estat´ısticos.

Os principais métodos de Normaliza¸cão são o stemming e a lematiza¸cão, cujo obje-tivo comum é reduzir as formas flexionadas ou até derivadas das palavras (MANNING; RAGHAVAN; SCHüTZE, 2008).

• Stemming É caracterizado, geralmente, pelo corte das extremidades de cada pa-lavra do léxico, para que assim seja encontrada sua respectiva raiz. Para tanto, são removidos sufixos que indicam varia¸cão de tempos verbais e plural. Há 3 métodos principais de stemming: método do Stemmer S, Método de Porter e método de Lovins, os quais podem sem consultados em CARRILHO (2008).

– Método do Stemmer S foca apenas em algumas termina¸cões de palavras do inglês, removendo alguns sufixos como “ies”, “es” e “s”.

– Método de Porter reúne diferentes inflexões referentes à mesma palavra e as substitui por um radical em comum.

(21)

– Método de Lovins é o agressivo dos algoritmos apresentados. Baseia-se em uma lista de regras (Regra de Lovins), e remove, no máximo, um sufixo por palavra em um único passo.

• Lematiza¸cão Realiza a redu¸cão de léxico levando em conta o uso do vocabulário e da análise morfológica das palavras. Seu objetivo é obter a base da palavra, conhecida também como lema (MANNING; RAGHAVAN; SCHüTZE, 2008). Ao contrário do método stemming, este tem vantagem de manter o sentido original da palavra CARRILHO (2008).

Exemplo 2.3. Livro, Livros Livraria ⇒ Livro

No trabalho presente a normaliza¸cão dos dados será realizado através da Lematiza¸cão, e após esse processo os tokens resultantes são chamados de termos.

Matriz Termo-Documento

Após a limpeza e sele¸cão dos termos mais relevantes, a etapa final do pré-processamento busca representar os termos de forma codificada (LOUREIRO, 2016), possibilitando as-sim, o processamento através de algoritmos que serão abordados futuramente. Apesar de existirem muitos modelos para representa¸cão de documentos na literatura, o mais usado é o Modelo de Espa¸co Vetorial. Este representa os documentos como pontos no espa¸co Euclidiano de dimensão m, em que cada dimensão é um termo do léxico (CARRILHO, 2008).

Considere um banco textual composto por n documentos e m termos, após realizadas as etapas de pré-processamento descritas anteriormente. Pode-se representar esse banco por uma matriz A de ordem n × m. Cada elemento aij representa a frequência em que o

termo j ocorre no documento i. Essa matriz ´e chamada de Matriz Termo-Documento. Sele¸c˜ao de termos

Esse processo visa identificar termos que podem ser retirados da análise devido a seu baixo valor semântico. Proposto por Luhn (1958) o método baseia-se na Lei de zipf (ZIPF, 1949). Na Figura 3 é poss´ıvel ver a curva de Zipf, onde o eixo vertical representa a frequência dos termos e o eixo horizontal representa os termos ordenados de forma decrescente com rela¸cão à frequência nos documentos. Estão plotados também a curva de relevância e os cortes de Luhn.

Luhn propõe que os termos que aparecem com frequência muito elevada são pouco relevantes para o texto, pois aparecem na maioria deles, não acrescentando informa¸cões

(22)

2.3 An´alise do Componente Principal 21

´

uteis. Ao passo que os elementos de baixa frequência são muito raros e não possuem caráter discriminatório. Portanto, os termos de muito alta e baixa frequência são descar-tados. Esse método, porém é extremamente subjetivo já que os pontos de corte ficam a critério do pesquisador. Além da aplica¸cão do método proposto por Luhn, é muito comum que sejam utilizados apenas os 100 termos mais frequentes.

Após a sele¸cão de termos a Matriz Termo-Documento terá dimensões n × p, onde p é o número de termos selecionados.

Corte superior Corte inferior ´ Apice das palavras relevantes Palavras Relevantes Palavras ordenadas de acordo com frequˆencia

F requ ˆencia das P ala vras

Figura 3: Curva de Zipf, curva de relevˆancia e cortes de Luhn

2.3 An´

alise do Componente Principal

2.3.1 Vis˜

ao Geral

Após o processo de minera¸cão de texto descrito na Se¸cão 2.2, o banco de dados é representado pela matriz termo-documento cujas dimensões são muito grandes. Para lidar com essa questão, é proposta a realiza¸cão de algum método para reduzir a dimensão dos dados. No caso descrito será utilizada a Análise do Componente Principal, também conhecido como PCA (Principal Component Analysis).

O PCA pode ser utilizado visando alguns objetivos, dentre eles: reduzir o tamanho do banco de dados; auxiliar na interpreta¸cão dos dados, gerando interpreta¸cões que não seriam visualizadas inicialmente; gerar um novo conjunto de variáveis não correlacionadas; reduzir o ru´ıdo nos dados.

(23)

2.3.2 Abordagem Te´

orica

O PCA consiste em explicar a covariância de um conjunto de variáveis correlacionadas através de um novo conjunto de variáveis não correlacionada, sendo cada uma delas uma combina¸cão linear das antigas. Sob uma ótica geométrica, essas combina¸cões lineares são uma sele¸cão de um novo conjunto de coordenadas obtidos rotacionando o sistema original. Esses novos eixos representam a dire¸cão de máxima variabilidade dos dados (JOHSON; WICHERN, 2014).

Defini¸c˜ao 2.1. Seja Xt_{= (X}

1, X2, . . . , Xp) vetor aleat´orio e a matriz de covariˆancia ΣX

associada a X, positiva definida. Seja tamb´em (λ1, e1), . . . , (λp, ep) os pares de autovalores

e autovetores associados a ΣX, em que λ1 ≥ λ2 ≥ . . . ≥ λp ≥ 0.

A i-´esima componente principal ´e dada por:

Yi = etiX = ei1X1+ ei2X2 + ei3X3+ . . . + eipXp , i = 1 . . . p (2.2)

Proposi¸c˜ao 2.1. Seja Xt _{= (X}

1, X2, . . . , Xp) vetor aleat´orio e ΣX a matriz de

co-variˆancia associada a X, positiva definida. Seja tamb´em (λ1, e1), . . . , (λp, ep) os pares

de autovalores e autovetores associados a ΣX, em que λ1 ≥ λ2 ≥ . . . ≥ λp ≥ 0. Sabendo

que Y = (Y1, Y2, . . . , Yp), onde Yi= etiX. Ent˜ao:

V ar(Yi) = λi (2.3)

Cov(Yi, Yk) = 0 (2.4)

Demonstra¸c˜ao. ´E poss´ıvel escrever Y = ET_{X, onde E ´}_{e a matriz cujos vetores coluna}

s˜ao os autovetores de ΣX. Seja ΣY = V ar(Y ),

ΣY = V ar(ETX) = ETΣXE (2.5)

Como ΣX é simétrica, pelo Teorema da Decomposi¸cão Espectral Hardle e Simar

(2003),

(24)

Seja D a matriz composta pelos autovalores de ΣX em sua diagonal principal. Como

ΣX é simétrica, também pode-se afirmar que os autovetores são ortonormais, ou seja,

ETE = I e EET = I Voltando `a Equa¸c˜ao 2.5: ΣY = ETΣXE = ETEDETE = D Ou seja, ΣY =        λ1 0 0 0 0 λ2 0 0 0 0 . .. 0 0 0 0 λp       

Pode-se concluir, portanto, que:

V ar(Yi) = λi

Cov(Yi, Yk) = 0

2.3.3 Crit´

erios para reduzir a dimens˜

ao

´

E necessário ressaltar que não há diferen¸cas entre X e Y com rela¸cão a informa¸cão obtida, pois como já dito anteriormente é apenas uma questão de mudan¸ca de base. Há, porém, algumas vantagens na utiliza¸cão de Y:

• Os vetores Y1, . . . , Yp s˜ao n˜ao correlacionados;

• Os vetores estão ordenados de forma decrescente com rela¸cão a variância. Ou seja, Yp terá uma varia¸cão menor que a de Y1.

O PCA como método de redu¸cão da dimensionalidade consiste em selecionar um número k < p de componentes que expliquem uma grande parte da varia¸cão dos dados.

(25)

´

E evidente que seriam necessárias p componentes para explicar a varia¸cão total, porém é poss´ıvel obter quase a mesma informa¸cão através dessas k componentes principais. Ao fazer isso, é poss´ıvel substituir o banco de dados original pelo banco de dimensões reduzidas composto pelas componentes principais como cita Johson e Wichern (2014).

´

E preciso definir agora o número de componentes a serem escolhidas para representa-rem os dados satisfatoriamente. Abaixo estão listados alguns critérios para a sele¸cão do número de componentes a serem utilizadas:

1. M´etodo da raiz latente - Consiste em escolher as componentes cujos autovalores s˜ao maiores que 1.

2. Escolher as k < p componentes que expliquem de 80 a 90% da variância total das variáveis iniciais. A propor¸cão de variância explicada pelas k componentes principais ´

e dada pela Equa¸c˜ao 2.6 denotada por:

Ψk= Pk i=1λi Pp i=1λi (2.6) 3. Atrav´es do gr´afico screeplot.

Esse gráfico plota os autovalores no eixo vertical em ordem decrescente e seus ´ındices no eixo horizontal. Para determinar o número de componentes a serem utilizadas, procura-se o instante em que os autovalores assumem valores muito baixos e o gráfico torna-se quase constante - o momento em que se forma um “cotovelo” na forma do gráfico. Podemos ver um exemplo de screeplot na Figura 4.

(26)

Figura 4: Exemplo de scree plot. Fonte : Johson e Wichern (2014)

Para as análises será utilizado o segundo método apresentado, aquele que leva em considera¸cão a quantidade de variância explicada pelas k componentes principais.

2.3.4 Abordagem Amostral

Os resultados desenvolvidos na Subse¸cão 2.3.2 são aplicáveis apenas quando ΣX é

conhecido. Como na prática esse parâmetro é desconhecido, é preciso estimá-lo.

Portanto, seja X a matriz dos dados de dimensões n × p. Sendo as colunas as variáveis X1, X2, . . . , Xp e as linhas as n observa¸cões da amostra para cada uma das p variáveis.

Define-se ˜X como:

˜

X = X − 1X1

n (2.7)

Onde é denotado por 1 a matriz de dimensões n × n composta de 1. Veja que 1X_n1 é uma matriz de dimensões n × p cujas colunas são compostas pelas médias da variável i em questão. Ou seja,

1X1 n =        ¯ X1 X¯2 . . . X¯p ¯ X1 X¯2 . . . X¯p .. . ... . .. ¯Xp ¯ X1 X¯2 . . . X¯p       

(27)

Com isso, ´e poss´ıvel dizer que:

ˆ

ΣX = ˜XtX˜

1

n (2.8)

Como j´a foi definido um estimador para Σx, podemos obter tamb´em os pares de

autovalores e autovetores estimados associados a matriz de covariância estimada, denota-dos por (ˆλ1, ê1), . . . , (ˆλp, êp). Portanto, o banco de dados modificado, denotado por Y, é

definido por:

Y = Et_{X ,} _(2.9)

onde E ´e a matriz cujos vetores coluna s˜ao os autovetores de ˆΣX.

A redu¸cão dos dados é realizada eliminando as últimas colunas do banco modificado Y de forma a garantir uma variância explicada estimada, ˆΨ, definida por ˆΨk=

Pk i=1λˆi

Pr

i=1λˆi na Equa¸c˜ao 2.6, de pelo menos 90%.

2.4 M´

etodos de Classifica¸

c˜

ao

Após a constru¸cão da matriz termo-documento, original ou modificada através da análise do componente principal, o próximo passo é classificar os documentos (linhas da matriz de dados) baseado em uma legenda pré-estabelecida e para isso serão utilizados métodos de aprendizado de máquina. Tais métodos se baseiam no reconhecimento de padrões advindos dos dados para a constru¸cão de modelos capazes de, por exemplo, per-formar classifica¸cões. Os métodos de aprendizado de máquina podem ser divididos em aprendizagem supervisionada, quando a classifica¸cão original do banco de dados é utili-zada na constru¸cão do modelo, e aprendizagem não supervisionada, quando não há uma classifica¸cão a ajudar na modelagem. Para as análises serão testados um método super-visionado, Random Forest, abordado na Se¸cão 2.4.2 e um método não supervisionado, Análise de Conglomerado, abordado na Se¸cão 2.4.3.

O método Random Forest, também chamado de Floresta Aleatória consiste, de forma generalizada, em uma combina¸cão de árvores de decisão (BREIMAN, 2001). Portanto, para que seja poss´ıvel explicar esse método é necessária a defini¸cão do conceito de árvore de decisão primeiro.

(28)

2.4 M´etodos de Classifica¸c˜ao 27

2.4.1 Arvore de Classifica¸

´

c˜

ao

Considere um universo composto por um número n de objetos os quais podem ser descritos por um número p de atributos em que cada atributo mede uma caracter´ıstica do objeto em questão. Além disso, cada objeto no universo pertence a uma classe distinta e mutuamente exclusiva. Para a realiza¸cão de uma modelagem através de árvores de decisão é necessário que tenhamos um banco de treino onde as classes dos objetos são conhecidas. O objetivo do método, segundo Quinlan (1986), é criar uma regra de decisão para determinar a classe dos objetos a partir de seus atributos, a qual será expressa por uma árvore de decisão.

Para a constru¸c˜ao de um ´arvore de decis˜_{ao que denotaremos como T , o espa¸co R}p _´_e

particionado em sub-espa¸cos definidos pelos atributos, e a cada sub-espa¸co é associada uma classe. Como podemos ver na Figura 5, a árvore parte de uma raiz, e em que cada nó de decisão contém um teste para algum atributo, cada ramo resultante corresponde a um poss´ıvel valor deste atributo, cada folha está associada a uma classe e cada percurso na ´

arvore corresponde a uma regra de classifica¸c˜ao. No espa¸co particionado pelos atributos, cada folha corresponde a um retˆangulo da Figura 6 (GAMA, 2002).

A ideia básica para a cria¸cão de uma árvore de decisão é, para cada nó j, come¸cando na raiz:

1. Escolher um atributo Xi, entre os p dispon´ıveis, e uma constante aj que melhor

separe os objetos que chegam no n´o j de acordo com a seguinte parti¸c˜ao: Xi ≤ aj

e Xi > aj. Essa parti¸cão define dois novos nós, os filhos do nó j. Para cada um dos

dois n´os filhos,

2. Se nesse nó existe a prevalência de alguma classe, prevalência essa maior que um valor pré-definido, esse nó vira uma folha com essa classe prevalente e FIM.

3. Caso contr´ario, voltar para o passo 1 considerando apenas os objetos que chegaram nesse n´o filho.

A escolha do atributo Xi e da constante aj citados no passo 1 ´e feita de forma a

otimizar a divisão das classes. Para isso é definido um complexo problema de otimiza¸cão em duas variáveis que busca minimizar as ”impurezas”, ou maximizar a prevalência, nos dois novos nós filhos criados com a parti¸cão (LOH, 2011).

(29)

Figura 5: Representa¸cão de uma Árvore de Decisão

Figura 6: Representa¸cão no Espa¸co de uma Árvore de Decisão

Em muitos casos, após a árvore criada pelos 3 passos acima, anda é feito um processo de poda a fim de evitar folhas muito distantes da raiz, o que resultaria em um sobreajuste nos dados.

2.4.2 Random Forest

Enquanto as árvores de decisão apresentam algumas desvantagens, como o sobre-ajuste do modelo aos dados, uma melhora significativa na precisão das classifica¸cões é observada ao construir um conjunto de árvores e deixá-las “votar” pela classifica¸cão mais popular (BREIMAN, 2001).

Considerando um universo composto por n objetos e p variáveis, o método Random Forest se propõe a gerar um número M de árvores de regressão, sendo M escolhido previamente. A ideia para a constru¸cão de cada uma das M árvores é a seguinte:

(30)

1. É selecionada uma amostra aleatória e sem reposi¸cão de tamanho R do banco ori-ginal;

2. São selecionadas de forma aleatória k variáveis dentre as p dispon´ıveis, k definido previamente;

3. A árvore cresce até seu limite, não sendo necessária a realiza¸cão do processo de poda.

Depois que as M ´arvores forem constru´ıdas, verifica-se qual ´e a classe predominante para cada um dos objetos.

2.4.3 An´

alise de Conglomerado

A Análise de conglomerado, também conhecida como Análise de agrupamento ou clus-ter, é um método estat´ıstico que consiste em tentar classificar um conjunto de elementos em subconjuntos mutuamente exclusivos (PESSANHA, 2017). De forma que os elemen-tos de cada conjunto sejam semelhantes entre si, mas diferentes dos elemenelemen-tos dos outros grupos com rela¸cão às variáveis observadas (MINGOTI, 2005). É importante ressaltar que esse é um método não supervisionado, ou seja, as classifica¸cões atribu´ıdas a cada unidade amostral não são consideradas na cria¸cão do modelo

A An´alise de Conglomerado ´e utilizada em diversos campos de estudo, como cita Mingoti (2005).

• Psicologia – Na classifica¸cão de pessoas com rela¸cão aos seus perfis de personalidade; • Ecologia – na classifica¸cão de espécies;

• Geografia - Através de variáveis demográficas, f´ısicas e econômicas, classificar regiões, estados e cidades.

Antes de realizarmos a Análise de Conglomerado é preciso definir as medidas de distância a serem utilizadas, que tipo de algoritmo a ser adotado e que método escolher para definir o número de cluster. Abordaremos cada uma dessas etapas a seguir.

2.4.3.1 Medidas de Distˆancia

Antes que possamos realizar a análise de conglomerados, é necessário definir, a priori, a medida de similaridade ou dissimilaridade a ser utilizada (MINGOTI, 2005). Importantes

(31)

considera¸cões precisam ser realizadas quanto a escolha dessas medidas, é preciso observar tanto a natureza das variáveis quanto suas escalas de medida (JOHSON; WICHERN, 2014). Variáveis quantitativas admitem medidas como a Distância Euclidiana, a Distância Ponderada e a Distância de Minkowski. Enquanto as variáveis de natureza qualitativa admitem o Coeficiente de concordância simples, o Coeficiente de concordância positiva e a Distância Euclidiana média (MINGOTI, 2005).

Definiremos primeiro as medidas de distˆancia entre elementos amostrais, e depois, a distˆancia entre elemento e conglomerado.

Seja X matriz dos dados e xi = (xi1, xi2, . . . , xip) e xj = (xj1, xj2, . . . , xjp) elementos

amostrais pertencentes a essa matriz. Denota-se por dij a distˆancia entre os elementos i

e j apresentados acima.

Medidas de distância entre elementos amostrais, supondo variáveis quantita-tivas. A distância escolhida para esse caso é a distância Euclidiana, definida por Mingoti (2005). Considere neste caso Xi e Xj os elementos comparados e p o número de variáveis

(quantitativas). dij = dist(xi, xj) = [(xi− xj)t(xi− xj)]1/2 = " p X k=1 (xki− xkj)2 #1/2 (2.10)

Medidas de distância entre elementos amostrais, supondo variáveis qualita-tivas. Nesses casos, em geral, comparam-se os elementos de acordo com a presen¸ca ou ausência de determinadas caracter´ısticas. É esperado que elementos “parecidos” tenham mais itens similares que dissimilares. A distância escolhida para esse caso é a distância Euclidiana Média, definida por Mingoti (2005). Considere neste caso Xie Xj os elementos

comparados e p o n´umero de vari´aveis (qualitativas).

dij = dist(xi, xj) = " _n X k=1 1 p(xki− xkj) 2 #1/2

= N´umero de pares discordantes N´umero total de pares

1/2

(32)

Medidas de Distˆancia entre Elemento e Conglomerado

Além da distância entre elementos, precisamos definir também a medida de distância entre elemento e conglomerado. Para tal, consideremos um elemento x e um conglomerado C, com n elementos . A distância entre eles será definida pelo método da média das distâncias (Average Linkage) (MINGOTI, 2005), proposto a seguir:

d(x, C) =X k∈C 1 m dist(x, xk), (2.12)

onde n é o número de elementos e dist(x, xk) a medida de distância entre cada elemento

xk∈ C e o elemento x .

2.4.3.2 Sele¸c˜ao do Algoritmo

Após selecionada a medida de distância, precisamos escolher o algoritmo a ser utili-zado. Os algoritmos se fazem necessários por ser muito dif´ıcil testarmos todas as possi-bilidades de agrupamentos poss´ıveis, mesmo com o uso computadores e softwares muito potentes (JOHSON; WICHERN, 2014).

As técnicas de análise de conglomerado são usualmente dividias em 2 tipos: técnicas hierárquicas e não-hierárquicas (MINGOTI, 2005).A técnica não-hierárquica se propõe a separar os itens do estudo em um número g de grupos. Esse número g pode ser especificado previamente ou ainda durante o processo de clusteriza¸cão. Os métodos não hierárquicos podem ser iniciados a partir de uma parti¸cão prévia dos itens em grupos ou a partir de sementes que formarão os centroides dos clusters. Um dos métodos não hierárquicos mais utilizados é o k-means (JOHSON; WICHERN, 2014).

A técnica hierárquica, por sua vez, consiste em sucessivas divisões ou aglutina¸cões. Temos, portanto, dois tipos de métodos hierárquicos: o divisivo e o aglomerativo. Para nossas análises usaremos o método hierárquico, o qual será abordado mais aprofundada-mente a seguir.

Técnica Hierárquica Aglomerativa. Nessa técnica partimos do princ´ıpio que cada elemento estudado é um grupo. Ou seja, temos o mesmo número n de conglomerados e observa¸cões. A cada passo do algoritmo, os elementos amostrais vão sendo agrupados de acordo com suas similaridades. Ao fim dos passos do algoritmo, todos os subgrupos são aglutinados em apenas um.

(33)

Figura 7: Dendograma ilustrando agrupamento hier´arquico.

com um único grande grupo que, a cada itera¸cão, subdivide-se até obtermos n clusters. O método consiste em achar o item mais afastado dos outros e usá-lo como semente para um novo grupo. Os outros itens são então testados quanto a entrada nesse novo grupo. Kaufman e Rousseeuw (1990) descrevem esse processo de forma bastante didática:

“O mecanismo se assemelha ao processo que pode levar a divisão de um partido pol´ıtico devido a conflitos internos: Primeiro o membro mais desconectado, com ideias mais divergentes, deixa o partido e come¸ca um novo. Depois, outros que concordam com esse indiv´ıduo, juntam-se também a esse novo partido até que é obtido um equil´ıbrio. Precisamos inicialmente, portanto, descobrir qual membro discorda mais dos outros.”

Os Dendogramas (Figura 7) são formas intuitivas de visualizar a técnica hierárquica, tanto a aglomerativa quanto a divisiva, uma vez que é poss´ıvel visualizar os agrupamentos formados e o n´ıvel de distância onde as divisões ocorreram.

O passo-a-passo do algoritmo divisivo est´a descrito abaixo:

1. Inicia-se o processo com 1 conglomerado formado por todos os n elementos amos-trais;

2. Calcula-se a distˆancia de cada elemento para seu pr´oprio conglomerado;

3. O elemento com maior distância para o seu próprio conglomerado torna-se um novo conglomerado, formado por um único elemento;

4. Para todos os elementos que não estão no novo conglomerado, calcula-se a diferen¸ca entre a sua distância para o seu próprio conglomerado e para o novo;

(34)

2.5 Qualidade do Ajuste 33

do novo, ir para passo 6. Caso contr´ario, aloca-se o elemento com maior diferen¸ca no novo conglomerado e retornar para o passo 4;

6. Voltar ao passo 2 at´e que sejam obtidos n conglomerados com 1 elemento em cada.

2.4.3.3 Sele¸c˜ao do n´umero de Clusters

Após realizados os passos acima, uma questão de grande importância é como esco-lheremos o número g de grupos. Ou seja, em que momento interromperemos o processo iterativo de divisão.

A nossa proposta é interromper o processo de divisão no momento em que for obtida prevalência de 70% de uma categoria dentro dos clusters obtidos, ou seja, pelo menos um agrupamento gerado pelo algoritmo deve apresentar prevalência de 70% ou mais de documentos positivos e pelo meno menos um agrupamento deve apresentar prevalência de 70% ou mais de documentos negativos.

2.5 Qualidade do Ajuste

Nessa se¸cão serão apresentadas técnicas para avaliarmos o quão bom foram os resul-tados obtidos pelos métodos de classifica¸cão.

2.5.1 Valida¸

c˜

ao Cruzada

Para uma análise supervisionada de dados, ou seja, aquela em que os dados carregam algum tipo de classifica¸cão prévia, divide-se, usualmente, o banco de dados em banco de treino e banco de teste. Em outras palavras, a por¸cão designada a ser o banco de treino é aquela usada para ajustar os métodos/modelos abordados. Por exemplo, é a partir do banco de treino que vamos definir os conglomerados para o nosso método de classifica¸cão. Já o banco de teste é a parte que será usada para testar o modelo obtido pelo banco de treino. Por exemplo, as observa¸cões do banco de treino serão classificadas pelo método escolhido e a classe prevista por esse método será comparada com a classe real. Resumindo, o banco de treino ajusta o método ou modelo e o banco de teste é usado para medir a qualidade do ajuste fora da amostra.

A valida¸c˜ao cruzada, mais especificamente, subdivide o banco em k “peda¸cos”, sendo k − 1 para treino e 1 para teste. O algoritmo consiste em k itera¸c˜oes em que, a cada uma

(35)

delas, muda-se a denomina¸cão de que parti¸cão é o banco de teste. Ao fim dos passos, é calculada uma média a partir das medidas geradas em cada um dos passos do algoritmo, assim, obtemos uma estimativa para a qualidade do modelo gerado (SANTOS et al., 2009).

2.5.2 Medidas de Qualidade

A Tabela 2 resume as classifica¸cões previstas pelo modelo, comparando-as às verda-deiras classes vinculadas ao banco. Uma tabela dessas é criada ao final da valida¸cão cruzada.

Tabela 2: Tabela de Confus˜ao

XX XX XX XX XX_X X Classe Previs˜ao Negativo Positivo Negativo a00 a01 Positivo a10 a11

Sendo a00 o n´umero de objetos do banco de teste com classe negativa cuja predi¸c˜ao

realizada pelo modelo tenha sido negativa, a11´e o n´umero de objetos do banco de teste com

classe positiva cuja predi¸cão realizada pelo modelo tenha sido positiva, a10 é o número

de objetos do banco de teste com classe positiva cuja predi¸cão realizada pelo modelo tenha sido negativa, a01é o número de objetos do banco de teste com classe negativa cuja

predi¸c˜ao realizada pelo modelo tenha sido positiva.

Utilizaremos a seguinte medida para quantificar a qualidade do ajuste no Banco de treino:

Taxa de Erro Total: É definida pelo complementar da propor¸cão de predi¸cões corretas dentre todas as predi¸cões.

Taxa de Erro Total = 1 − a00+ a11 a00+ a01+ a10+ a11

Utilizaremos as seguintes medidas para quantificar a qualidade do ajuste no Banco de teste:

• Acurácia: É definida pela propor¸cão de predi¸cões corretas dentre todas as predi¸cões. A sua expressão é dada abaixo.

Acur´acia = a00+ a11 a00+ a01+ a10+ a11

(36)

2.5 Qualidade do Ajuste 35

• Sensibilidade: ´E definida pela probabilidade de previs˜ao positiva dado que a classe ´

e positiva. A sua expressão é dada na equa¸cão abaixo.

Sensibilidade = a11 a10+ a11

• Especificidade: ´E definida pela probabilidade de previs˜ao negativa dado que a classe ´

e negativa. A sua expressão é dada na equa¸cão abaixo.

Especificidade = a00 a00+ a01

´

E esperado que um bom modelo apresente valores altos para acur´acia, sensibilidade e especifidade.

(37)

3 An´

alise dos Resultados

Como já descrito na Se¸cão 2.1 o banco de dados a ser analisado é formado por 23.486 documentos cuja finalidade é escrever uma curta descri¸cão de pe¸cas de roupas compradas pela internet e classificá-las. Este cap´ıtulo tem como objetivo permear o processo da análise desse banco, come¸cando pela Se¸cão 3.1 a qual aborda a análise descritiva do banco textual original, e o mesmo após o pré processamento. Esse pré-processamento, por sua vez, será apresentado na Se¸cão 3.2; e por fim, a análise estat´ıstica através dos algoritmos computacionais já citados anteriormente, na se¸cão 3.3. Todas as análises a serem descritas foram realizadas através do software R (R Core Team, 2014), e os principais pacotes utilizados foram: ggraph (PEDERSEN, 2018), wordcloud (FELLOWS, 2018), tidytext (SILGE; ROBINSON, 2016), tm (FEINERER; HORNIK; MEYER, 2008), stats (R Core Team, 2019), textstem (RINKER, 2018) e RandomForest (LIAW; WIENER, 2002).

3.1 An´

alise Descritiva

O banco original a ser analisado possui 23.486 linhas e 11 variáveis, das quais utiliza-mos apenas três: “Review Text”, referente à pequena produ¸cão textual na l´ıngua inglesa escrita pela consumidora; “title”, o t´ıtulo dado pelo consumidor a sua produ¸cão textual; e “Recommended IND”, uma variável que indica se o consumidor recomenda a pe¸ca em questão ou não. As variáveis “Review Text” e “title” foram concatenadas de forma a trazer mais riqueza de informa¸cões às análises. Dos 23.486 documentos, 19.314 estão associados a classifica¸cões positivas e 4.172 estão associados a classifica¸cões negativas, referente à recomenda¸cão ou não da pe¸ca.

Após realizar o pré-processamento que será abordado na se¸cão a seguir, antes de realizar a remo¸cão das stop words, do banco original foram obtidos 11.936 termos distintos. De acordo com a Tabela 3, a palavra mais utilizada nos textos foi dress, utilizada 12.207 vezes, representando 2, 38% dos termos. Em segundo e terceiro lugar ficaram as palavras love e size, com frequências absolutas de 10.815 e 8.972 apari¸cões.

(38)

3.1 An´alise Descritiva 37

Tabela 3: Tabela de Frequˆencia dos termos mais frequentes Rank Termo Frequˆencia (n) Representatividade (%)

1 dress 12207 2, 38% 2 love 10815 2, 11% 3 size 8972 1, 75% 4 top 8582 1, 67% 5 fit 7930 1, 55% 6 wear 6556 1, 28% 7 fabric 5074 0, 99% 8 color 4916 0, 96% 9 cute 4595 0, 90% 10 perfect 4588 0, 89%

Outra forma útil de visualizar e analisar os documentos é separá-los em pares de palavras, nomeados de bigramas como cita Silge e Robinson (2017). Após tokenizar os documentos par a par é preciso remover os bigramas que contêm stopwords, pois sem esse passo os bigramas mais comuns seriam “in the” e “it is” , composi¸cões que acrescentam muito pouco às análises por serem demasiadamente comuns na l´ıngua inglesa. Após a remo¸cão das stopwords obtém-se a Tabela 4, onde é poss´ıvel observar que “love love” é o bigrama mais utilizado, com frequência absoluta de 553 vezes. Seguido por “Super cute” e “fit perfectly”, com frequência de 522 e 509 respectivamente.

Tabela 4: Tabela de Frequˆencia dos bigramas mais frequentes Rank Bigrama Frequˆencia (n) Representatividade (%)

1 love love 553 0, 39% 2 super cute 522 0, 37% 3 fit perfectly 509 0, 36% 4 usual size 476 0, 34% 5 fits perfectly 433 0, 31% 6 super soft 371 0, 26% 7 highly recommend 370 0, 26% 8 size 4 367 0, 26% 9 size 6 356 0, 25% 10 beautiful dress 339 0, 24%

Para melhor visualizar a rela¸cão entre as palavras de forma simultânea pode-se uti-lizar um gráfico que plota uma rede de palavras, também chamado de “grafo”. Esta representa¸cão é composta pela palavra de partida, pela palavra aonde o fluxo está indo e a intensidade de conexão entre essas palavras. Com a a Figura 8 é poss´ıvel ver esse tipo de representa¸cão e observar, por exemplo, como a palavras “normal” e “size” se relacionam. O grafo foi gerado a partir do pacote ggraph Pedersen (2018).

(39)

Figura 8: Bigramas comuns em forma de Grafo

Além da análise dos bigramas, é poss´ıvel calcular a frequência com que duas palavras ocorrem conjuntamento dentro dos documentos, que pode ser visualizada na Tabela 5 e a correla¸cão entre as palavras dentro dos documentos. Para isso utilizaremos o coeficiente de φ, que mede o quão mais provável é que as duas palavras apare¸cam juntas ou que nenhuma das duas apare¸ca em um documento do que elas apare¸cam separadas. A Tabela 6 apresenta os pares de palavras que apresentaram os maiores coeficientes de φ.

(40)

3.1 An´alise Descritiva 39

Tabela 5: Tabela de Palavras que ocorrem conjuntamente Rank Palavra 1 Palavra 2 Frequˆencia (n)

1 fit size 4.015

2 fit love 3.916

3 wear love 3.501

4 wear fit 3.301

5 fit dress 3.022

Tabela 6: Tabela de Correla¸c˜ao entre Palavras Rank Palavra 1 Palavra 2 φ

1 lar byron 0, 91

2 stone cloth 0, 73

3 bridal shower 0, 72

4 not do justice 0, 63

5 rib cage 0, 60

Outra forma de visualiza¸cão dos dados é a Nuvem de Palavras, que plota as palavras mais frequentes e sua frequência está relacionada ao tamanho em que a mesma aparece no gráfico. Na Figura 9 pode-se visualizar a Nuvem de palavras do banco após o pr´ e-processamento e na Figura 10 podemos ver a nuvem de palavras separadas de acordo com a variável de recomenda¸cão. É poss´ıvel observar que as os documentos com reco-menda¸cão negativa, em vermelho, possuem palavras de viés negativo como “disappoint” e “unflattering”, já os documentos com recomenda¸cão positiva, em verde, possuem palavras de contentamento como “love” e “comfortable”. As nuvens de palavras foram geradas a partir do pacote wordcloud (FELLOWS, 2018).

(41)

Figura 9: Nuvem de Palavras.

Figura 10: Nuvem de palavras por classifica¸c˜ao.

3.2 Pr´

e - Processamento

O objetivo do Pré-Processamento, como já mencionado anteriormente é preparar o banco de dados para que nele seja poss´ıvel realizar as análises estat´ısticas. O primeiro passo é a tokeniza¸cão, responsável por quebrar cada documento presente no banco de dados em unidades m´ınimas de texto, respeitando, porém, o sentido original de cada palavra presente. Para a tokeniza¸cão foi utilizado o pacote Tidytext (SILGE; ROBINSON, 2016), e com isso, podemos observar que há 1.435.364 palavras no banco. A fim de melhorar as análises foi decidido, também, concatenar a palavra not à palavra a qual ela precede, desta forma, not like torna-se um termo só.

Após a tokeniza¸cão é necessário que sejam retiradas as stopwords, que, como já ci-tado anteriormente, são aquelas palavras muito comuns em uma determinada l´ıngua. O banco, após a remo¸cão destas passa a ter 512.807 termos e a lista das stopwords pode ser encontrada no Anexo 1. Além da remo¸cão das stopwords foram retirados também os números, utilizando o pacote tm (FEINERER; HORNIK; MEYER, 2008) e após esses passos o banco possui 15.108 termos distintos.

Após a limpeza do banco, chega o momento da normaliza¸cão dos documentos através da lematiza¸cão, que busca reduzir o léxico, levando em conta a análise morfológica das apalavras. Para tanto foi utilizado o pacote textstem (RINKER, 2018). Após todos os passos citados acima, obtemos 501.254 termos, sendo 11.936 termos distintos.

Todas as etapas de limpeza e organiza¸cão do banco de dados original tornam poss´ıvel a cria¸cão da matriz termo-documento definida na Se¸cão 2.2.2. Para tal, foram selecionados os 100 termos mais frequentes e suas frequências foram calculadas com rela¸cão a cada um

(42)

3.3 Modelagem dos Dados 41

dos documentos analisados. Além das 100 palavras mais recorrentes, foram adicionadas mais 52 palavras às quais foram atribu´ıdas grande valor semântico, como “hate”, “ridicu-lous” e “boring”. Ao fim desse processo a matriz termo-documento apresenta dimensões de 23.486 × 152, ou seja cada linha representa um documento, cada coluna um termo e cada célula representa a quantidade de vezes que o termo j aparece no documento i. Os termos presentes na Matriz Termo Documento podem ser encontrados no Apêndice 1.

3.3 Modelagem dos Dados

Como escopo, foi definido para a análise, inicialmente, testar os métodos de análise de conglomerado e Random Forest, ambos com e sem PCA e checar qual deles performa melhor no banco de teste. Devido ao desequil´ıbrio no banco de dados com rela¸cão a classifica¸cão dos textos em positivo e negativo (19.314 contra 4.172), decidiu-se coletar uma amostra de 8.000 documentos entre os 23.486, sendo 4.000 positivos e 4.000 negativos e rodar as análises nessa amostra.

´

E importante lembrar que essa amostra será submetida ainda à Valida¸cão cruzada como mencionado na Se¸cão 2.5. Isso implica que, para as análises, a amostra a ser utilizada será particionada em 10 partes, cada uma com 800 linhas. A cada itera¸cão, 9 de 10 partes formarão o banco de treino e 1 parte será o banco de teste. Depois que o modelo for gerado no banco de treino, este será utilizado para tentar prever as classes no banco de teste. Esse processo será repetido 10 vezes para cada modelo implementado.

3.4 An´

alise do Componente Principal

A análise do Componente foi adicionada ao escopo da pesquisa com o objetivo de diminuir a dimensionalidade dos dados e foi definido que o número k de componentes a serem utilizadas seria o número que explicassem de 80% a 90% da variância total das variáveis iniciais, que no caso da matriz termo documento são 152. Foi utilizada a fun¸cão princomp do pacote stats (R Core Team, 2019) e ao realizar a análise do Componente Principal, porém, pode-se notar que para que Ψk assuma valores entre 80% e 90% seria

necessária utiliza¸cão de um número k de componentes principais entre 112 e 130. Como o objetivo de reduzir a dimensão dos dados não foi alcan¸cado de forma substancial, optou-se pela não utiliza¸cão do método nas análises. Na Figura 11 é poss´ıvel observar o Scree Plot das componentes geradas. Nota-se que até as últimas componentes geradas ainda há um

(43)

ganho substancial de informa¸c˜ao quanto a variˆancia explicada.

Figura 11: Scree Plot das Componentes geradas

Sendo assim, este trabalho apresentará os resultados para os métodos Random Forest e Análise de Conglomerado somente, sem a Análise do Componente Principal.

3.5 An´

alise de Conglomerado

Como a análise de conglomerado hierárquica é um método não supervisionado onde não há um número de grupos pré definidos, é o pesquisador quem controla esse número. Como mencionado na Se¸cão 2.4.3.3, a proposta para a interrup¸cão do processo divisivo é o momento em que os clusters gerados apresentem prevalência de pelo menos 70% de alguma das classes. Para que possamos ter melhor no¸cão de como o método se comporta nos dados, um modelo foi implementado em toda a amostra e seu dendograma foi gerado, como é poss´ıvel ver na Figura 12.

(44)

3.5 An´alise de Conglomerado 43

Figura 12: Dendograma do M´etodo hier´arquico Divisivo - Average Linkage

Foram testados diferentes números de agrupamentos e inferidas as prevalências dentro deles, os números de agrupamentos testados foram: 10, 20, 50, 100 e 500 grupos. O resumo das prevalências, ou seja, a porcentagem da classifica¸cão predominante em cada conglomerado gerado pode ser vista na Tabela 7.

Podemos observar na Tabela 7 que para o modelo com 10 agrupamentos, 25% dos grupos gerados possui prevalência de até 0, 511 e 50% possuem prevalências de até 0, 530. Para o modelo com 20 agrupamentos, 25% dos grupos gerados possui prevalência de até 0, 531 e 50% possuem prevalências de até 0, 581. Para o modelo com 50 agrupamentos, 25% dos grupos gerados possui prevalência de até 0, 556 e 50% possuem prevalências de até 0, 667. para o modelo com 100 agrupamentos, 25% dos grupos gerados possui prevalência de até 0, 574 e 50% possuem prevalências de até 0, 670. para o modelo com 500 agrupamentos, 25% dos grupos gerados possui prevalência de até 0, 600 e 50% possuem prevalências de até 0, 800. para o modelo com 1.000 agrupamentos, 25% dos grupos gerados possui prevalência de até 0, 667 e 50% possuem prevalências de até 1, 0.

´

E poss´ıvel visualizar que com o aumento de números de agrupamentos, aumenta também a porcentagem de prevalência de uma classe sobre a outra. Porém, a medida que o número de grupos aumenta, aumenta a possibilidade de um sobre-ajuste do modelo

(45)

aos dados, ou seja, um modelo que descreve razoavelmente apenas esse grupo de dados especificamente, não sendo útil para uma generaliza¸cão. Para checar o comportamento dos modelos gerados quanto a um poss´ıvel sobre-ajuste podemos consultar os gráficos da Figura 13, que exibe para cada um dos cenários apresentados, o número de objetos em cada grupo versus a prevalência dentro dos grupos.

Tabela 7: Medidas Resumo das Prevalˆencias para cada um dos cen´arios testados M´ınimo 1o _Quantil _Mediana _M´_edia ₃o _Quantil _M´_aximo

10 Agrupamentos 0,500 0,511 0,530 0,582 0,568 1,000 20 Agrupamentos 0,500 0,531 0,581 0,656 0,750 1,000 50 Agrupamentos 0,500 0,565 0,667 0,705 0,794 1,000 100 Agrupamentos 0,500 0,574 0,670 0,721 0,837 1,000 500 Agrupamentos 0,500 0,600 0,800 0,791 1,000 1,000 1000 Agrupamentos 0,500 0,667 1,000 0,835 1,000 1,000

(46)

3.5 An´alise de Conglomerado 45

: 10 Conglomerados : 20 Conglomerados

Figura 13: N´umero de objetos em cada Conglomerado por Prevalˆencia no Mesmo

Com os gráficos apresentados na Figura 13 percebemos que a maioria dos conglome-rados formados possuem uma quantidade muito pequena de objetos em cada cluster, e os poucos agrupamentos com uma quantidade mais representativa de objetos, possuem prevalência muito baixa, em torno de 50%. Ou seja, os grupos grandes têm prevalência baixa e os grupos com prevalência alta são os com poucos objetos.

(47)

3.6 Random Forest

Foram implementados dois modelos de Random Forest através do pacote Random-Forest (LIAW; WIENER, 2002), um modelo com os parâmetros padrão implementados pelo R e um modelo em que o parâmetro ‘mtry’, que indica o número k de variáveis amostradas de forma aleatória na cria¸cão de cada árvore de regressão, foi modificado. O padrão implementado pelo R apresenta k = 12. :

• Modelo I: Modelo com os parˆametros padr˜ao apresentados pelo R. • Modelo II: Modelo com k = 20.

Os dois modelos foram implementados para cada um dos 10 bancos de treino. Na Tabela 8, que apresenta o resumo dos erros estimados no banco de treino, é poss´ıvel ver que não há grande varia¸cão nas taxas apresentadas, sendo o erro m´ınimo de 21, 65% para o Modelo I e de 21, 99% para o Modelo II. O Modelo I apresenta menor erro médio se comparado co Modelo II: 22, 06% contra 22, 68% do Modelo II.

Tabela 8: Medidas Resumo do Erro (%) no Banco de Treino

M´ınimo 1o Quantil Mediana M´edia 3o Quantil M´aximo

Modelo I 21,65 21,87 22,06 22,13 22,32 22,75

Modelo II 21,99 22,43 22,68 22,63 22,83 23,04

Os modelos ent˜ao foram utilizados nas amostras de teste para tentar prever suas classes. Os resultados da matriz de confus˜ao para os dois modelos propostos podem ser visualizados nas Tabelas 9 e 10.

Tabela 9: Matriz de Confus˜ao Modelo I

XX XX XX XX XX XX Classe Previs˜ao Negativo Positivo Negativo 3.197 962 Positivo 803 3.038

Tabela 10: Matriz de Confus˜ao Modelo II

XX XX XX XX XX XX Classe Previs˜ao Negativo Positivo Negativo 3.181 998 Positivo 819 3.002

(48)

3.6 Random Forest 47

´

E poss´ıvel ver que ambos os modelos apresentados performaram bem na amostra de teste como podemos ver nas Tabelas de Confus˜ao 9 e 10, com a00 = 3.197 no Modelo

I e a00 = 3.181 no Modelo II, ou seja, apresentaram valores altos ao classificar como

negativo objetos com classe negativa. Apresentaram tamb´em a11 = 3.197 no Modelo I e

a11 = 3.002 no Modelo II, sendo a11 referente aos objetos que foram classificados como

positivos objetos de classe positiva.

Tabela 11: Medidas de Qualidade do ajuste para dos Modelos I e II no banco de teste Acur´acia Sensibilidade Especificidade

Modelo I 0, 779 0, 791 0, 768

Modelo II 0, 773 0, 786 0, 761

Na tabela 11 é poss´ıvel visualizar as medidas de qualidade do ajuste para os Mo-delos I e II. Ambos os moMo-delos apresentaram taxas altas para Acurácia, Sensibilidade e Especificidade, o modelo II, porém apresenta valores maiores, com Acurácia = 0, 779, Sensibilidade = 0, 791 e Especificidade = 0, 768.

(49)

4 Conclus˜

oes

Levando em conta a grande massa de dados textuais produzidas atualmente, o tra-balho se propôs a explorar técnicas de minera¸cão de texto e de aprendizado de máquina com o objetivo de classificar os documentos do banco em documentos com classifica¸cões positivas ou negativas quanto a rcomenda¸cão do consumidor.

Pudemos permear as técnicas de minera¸cão textual, desde seu pré-processamento com várias etapas das quais podemos citar: a tokeniza¸cão, lematiza¸cão e sele¸cão de termos até a chegada do produto final chamado de Matriz Termo Documento, que tornou-se o banco de dados onde as análises estat´ısticas puderam ser realizadas.

Com os resultados apresentados no Cap´ıtulo 3 foi poss´ıvel adentrar um pouco mais no universo da minera¸cão textual e entender melhor o banco de dados a ser analisado. Além de, por meio da visualiza¸cão de dados, distinguir palavras mais comuns em textos classificados como positivos bem como textos classificados como negativos, o que fortaleceu a hipótese inicial de que seria poss´ıvel prever as classifica¸cões dos documentos a partir de seu conteúdo escrito.

A análise do Componente Principal se mostrou muito pouco eficaz no quesito de redu¸cão da dimensionalidade dos dados, o qual era seu propósito no presente trabalho. Devido a isso, optou-se pela não utiliza¸cão do método.

A modelagem buscou comparar dois tipos diferentes de metodologias a fim de clas-sificar os documentos em documentos com recomenda¸cões positivas e negativas a partir do seu conteúdo escrito. Um dos métodos foi o da análise de conglomerado, método não supervisionado e o outro foi o Random Forest, método supervisionado. Devido a dispari-dade entre documentos negativos e positivos, decidiu-se por realizar as análises em uma amostra de 8.000 documentos, sendo 4.000 positivos e 4.000 negativos. Essa etapa foi considerada essencial para os resultados obtidos através das análises.

No que tange ao método não supervisionado, análise de conglomerado divisivo, obtive-mos resultados que não explicaram os dados de forma que pudesse ser útil à classifica¸cão.

(50)

4 Conclus˜oes 49

Devido a demanda de n´umeros muito altos de agrupamentos para garantir a prevalˆencia de uma das classes dentro dos grupos, modelos sobre-ajustados foram criados, ou seja, modelos que performam bem apenas para o banco de treino.

O resultado mais expressivo se deu pelo método supervisionado, o Random Forest. Foram implementados 2 modelos que obtiveram resultados bem parecidos; erros gerais por volta de 20% no banco de treino. Após a implementa¸cão do modelo, o mesmo foi usado para tentar prever as classes do banco de teste, com isso foi poss´ıvel construir a matriz de confusão para comparar as classes previstas com as classes reais do banco. Obteve-se, para ambos os modelos, acurácia, sensibilidade e especificidade por volta de 70%.