An´ alise Descritiva - 3 An´ alise dos Resultados

3 An´ alise dos Resultados

3.1 An´ alise Descritiva

O banco original a ser analisado possui 23.486 linhas e 11 variáveis, das quais utiliza- mos apenas três: “Review Text”, referente à pequena produ¸cão textual na l´ıngua inglesa escrita pela consumidora; “title”, o t´ıtulo dado pelo consumidor a sua produ¸cão textual; e “Recommended IND”, uma variável que indica se o consumidor recomenda a pe¸ca em questão ou não. As variáveis “Review Text” e “title” foram concatenadas de forma a trazer mais riqueza de informa¸cões às análises. Dos 23.486 documentos, 19.314 estão associados a classifica¸cões positivas e 4.172 estão associados a classifica¸cões negativas, referente à recomenda¸cão ou não da pe¸ca.

Após realizar o pré-processamento que será abordado na se¸cão a seguir, antes de realizar a remo¸cão das stop words, do banco original foram obtidos 11.936 termos distintos. De acordo com a Tabela 3, a palavra mais utilizada nos textos foi dress, utilizada 12.207 vezes, representando 2, 38% dos termos. Em segundo e terceiro lugar ficaram as palavras love e size, com frequências absolutas de 10.815 e 8.972 apari¸cões.

3.1 An´alise Descritiva 37

Tabela 3: Tabela de Frequˆencia dos termos mais frequentes Rank Termo Frequˆencia (n) Representatividade (%)

1 dress 12207 2, 38% 2 love 10815 2, 11% 3 size 8972 1, 75% 4 top 8582 1, 67% 5 fit 7930 1, 55% 6 wear 6556 1, 28% 7 fabric 5074 0, 99% 8 color 4916 0, 96% 9 cute 4595 0, 90% 10 perfect 4588 0, 89%

Outra forma útil de visualizar e analisar os documentos é separá-los em pares de palavras, nomeados de bigramas como cita Silge e Robinson (2017). Após tokenizar os documentos par a par é preciso remover os bigramas que contêm stopwords, pois sem esse passo os bigramas mais comuns seriam “in the” e “it is” , composi¸cões que acrescentam muito pouco às análises por serem demasiadamente comuns na l´ıngua inglesa. Após a remo¸cão das stopwords obtém-se a Tabela 4, onde é poss´ıvel observar que “love love” é o bigrama mais utilizado, com frequência absoluta de 553 vezes. Seguido por “Super cute” e “fit perfectly”, com frequência de 522 e 509 respectivamente.

Tabela 4: Tabela de Frequˆencia dos bigramas mais frequentes Rank Bigrama Frequˆencia (n) Representatividade (%)

1 love love 553 0, 39% 2 super cute 522 0, 37% 3 fit perfectly 509 0, 36% 4 usual size 476 0, 34% 5 fits perfectly 433 0, 31% 6 super soft 371 0, 26% 7 highly recommend 370 0, 26% 8 size 4 367 0, 26% 9 size 6 356 0, 25% 10 beautiful dress 339 0, 24%

Para melhor visualizar a rela¸cão entre as palavras de forma simultânea pode-se uti- lizar um gráfico que plota uma rede de palavras, também chamado de “grafo”. Esta representa¸cão é composta pela palavra de partida, pela palavra aonde o fluxo está indo e a intensidade de conexão entre essas palavras. Com a a Figura 8 é poss´ıvel ver esse tipo de representa¸cão e observar, por exemplo, como a palavras “normal” e “size” se relacionam. O grafo foi gerado a partir do pacote ggraph Pedersen (2018).

Figura 8: Bigramas comuns em forma de Grafo

Além da análise dos bigramas, é poss´ıvel calcular a frequência com que duas palavras ocorrem conjuntamento dentro dos documentos, que pode ser visualizada na Tabela 5 e a correla¸cão entre as palavras dentro dos documentos. Para isso utilizaremos o coeficiente de φ, que mede o quão mais provável é que as duas palavras apare¸cam juntas ou que nenhuma das duas apare¸ca em um documento do que elas apare¸cam separadas. A Tabela 6 apresenta os pares de palavras que apresentaram os maiores coeficientes de φ.

3.1 An´alise Descritiva 39

Tabela 5: Tabela de Palavras que ocorrem conjuntamente Rank Palavra 1 Palavra 2 Frequˆencia (n)

1 fit size 4.015

2 fit love 3.916

3 wear love 3.501

4 wear fit 3.301

5 fit dress 3.022

Tabela 6: Tabela de Correla¸c˜ao entre Palavras Rank Palavra 1 Palavra 2 φ

1 lar byron 0, 91

2 stone cloth 0, 73

3 bridal shower 0, 72

4 not do justice 0, 63

5 rib cage 0, 60

Outra forma de visualiza¸cão dos dados é a Nuvem de Palavras, que plota as palavras mais frequentes e sua frequência está relacionada ao tamanho em que a mesma aparece no gráfico. Na Figura 9 pode-se visualizar a Nuvem de palavras do banco após o pré- processamento e na Figura 10 podemos ver a nuvem de palavras separadas de acordo com a variável de recomenda¸cão. É poss´ıvel observar que as os documentos com recomenda¸cão negativa, em vermelho, possuem palavras de viés negativo como “disappoint” e “unflattering”, já os documentos com recomenda¸cão positiva, em verde, possuem palavras de contentamento como “love” e “comfortable”. As nuvens de palavras foram geradas a partir do pacote wordcloud (FELLOWS, 2018).

Figura 9: Nuvem de Palavras.

Figura 10: Nuvem de palavras por classifica¸c˜ao.

3.2 Pr´e - Processamento

O objetivo do Pré-Processamento, como já mencionado anteriormente é preparar o banco de dados para que nele seja poss´ıvel realizar as análises estat´ısticas. O primeiro passo é a tokeniza¸cão, responsável por quebrar cada documento presente no banco de dados em unidades m´ınimas de texto, respeitando, porém, o sentido original de cada palavra presente. Para a tokeniza¸cão foi utilizado o pacote Tidytext (SILGE; ROBINSON, 2016), e com isso, podemos observar que há 1.435.364 palavras no banco. A fim de melhorar as análises foi decidido, também, concatenar a palavra not à palavra a qual ela precede, desta forma, not like torna-se um termo só.

Após a tokeniza¸cão é necessário que sejam retiradas as stopwords, que, como já ci- tado anteriormente, são aquelas palavras muito comuns em uma determinada l´ıngua. O banco, após a remo¸cão destas passa a ter 512.807 termos e a lista das stopwords pode ser encontrada no Anexo 1. Além da remo¸cão das stopwords foram retirados também os números, utilizando o pacote tm (FEINERER; HORNIK; MEYER, 2008) e após esses passos o banco possui 15.108 termos distintos.

Após a limpeza do banco, chega o momento da normaliza¸cão dos documentos através da lematiza¸cão, que busca reduzir o léxico, levando em conta a análise morfológica das apalavras. Para tanto foi utilizado o pacote textstem (RINKER, 2018). Após todos os passos citados acima, obtemos 501.254 termos, sendo 11.936 termos distintos.

Todas as etapas de limpeza e organiza¸cão do banco de dados original tornam poss´ıvel a cria¸cão da matriz termo-documento definida na Se¸cão 2.2.2. Para tal, foram selecionados os 100 termos mais frequentes e suas frequências foram calculadas com rela¸cão a cada um

No documento Mineração de texto aplicada a um banco de reviews de produtos (páginas 37-42)