• Nenhum resultado encontrado

3 An´ alise dos Resultados

3.1 An´ alise Descritiva

O banco original a ser analisado possui 23.486 linhas e 11 vari´aveis, das quais utiliza- mos apenas trˆes: “Review Text”, referente `a pequena produ¸c˜ao textual na l´ıngua inglesa escrita pela consumidora; “title”, o t´ıtulo dado pelo consumidor a sua produ¸c˜ao textual; e “Recommended IND”, uma vari´avel que indica se o consumidor recomenda a pe¸ca em quest˜ao ou n˜ao. As vari´aveis “Review Text” e “title” foram concatenadas de forma a trazer mais riqueza de informa¸c˜oes `as an´alises. Dos 23.486 documentos, 19.314 est˜ao associados a classifica¸c˜oes positivas e 4.172 est˜ao associados a classifica¸c˜oes negativas, referente `a recomenda¸c˜ao ou n˜ao da pe¸ca.

Ap´os realizar o pr´e-processamento que ser´a abordado na se¸c˜ao a seguir, antes de realizar a remo¸c˜ao das stop words, do banco original foram obtidos 11.936 termos distintos. De acordo com a Tabela 3, a palavra mais utilizada nos textos foi dress, utilizada 12.207 vezes, representando 2, 38% dos termos. Em segundo e terceiro lugar ficaram as palavras love e size, com frequˆencias absolutas de 10.815 e 8.972 apari¸c˜oes.

3.1 An´alise Descritiva 37

Tabela 3: Tabela de Frequˆencia dos termos mais frequentes Rank Termo Frequˆencia (n) Representatividade (%)

1 dress 12207 2, 38% 2 love 10815 2, 11% 3 size 8972 1, 75% 4 top 8582 1, 67% 5 fit 7930 1, 55% 6 wear 6556 1, 28% 7 fabric 5074 0, 99% 8 color 4916 0, 96% 9 cute 4595 0, 90% 10 perfect 4588 0, 89%

Outra forma ´util de visualizar e analisar os documentos ´e separ´a-los em pares de palavras, nomeados de bigramas como cita Silge e Robinson (2017). Ap´os tokenizar os documentos par a par ´e preciso remover os bigramas que contˆem stopwords, pois sem esse passo os bigramas mais comuns seriam “in the” e “it is” , composi¸c˜oes que acrescentam muito pouco `as an´alises por serem demasiadamente comuns na l´ıngua inglesa. Ap´os a remo¸c˜ao das stopwords obt´em-se a Tabela 4, onde ´e poss´ıvel observar que “love love” ´e o bigrama mais utilizado, com frequˆencia absoluta de 553 vezes. Seguido por “Super cute” e “fit perfectly”, com frequˆencia de 522 e 509 respectivamente.

Tabela 4: Tabela de Frequˆencia dos bigramas mais frequentes Rank Bigrama Frequˆencia (n) Representatividade (%)

1 love love 553 0, 39% 2 super cute 522 0, 37% 3 fit perfectly 509 0, 36% 4 usual size 476 0, 34% 5 fits perfectly 433 0, 31% 6 super soft 371 0, 26% 7 highly recommend 370 0, 26% 8 size 4 367 0, 26% 9 size 6 356 0, 25% 10 beautiful dress 339 0, 24%

Para melhor visualizar a rela¸c˜ao entre as palavras de forma simultˆanea pode-se uti- lizar um gr´afico que plota uma rede de palavras, tamb´em chamado de “grafo”. Esta representa¸c˜ao ´e composta pela palavra de partida, pela palavra aonde o fluxo est´a indo e a intensidade de conex˜ao entre essas palavras. Com a a Figura 8 ´e poss´ıvel ver esse tipo de representa¸c˜ao e observar, por exemplo, como a palavras “normal” e “size” se relacionam. O grafo foi gerado a partir do pacote ggraph Pedersen (2018).

Figura 8: Bigramas comuns em forma de Grafo

Al´em da an´alise dos bigramas, ´e poss´ıvel calcular a frequˆencia com que duas palavras ocorrem conjuntamento dentro dos documentos, que pode ser visualizada na Tabela 5 e a correla¸c˜ao entre as palavras dentro dos documentos. Para isso utilizaremos o coeficiente de φ, que mede o qu˜ao mais prov´avel ´e que as duas palavras apare¸cam juntas ou que nenhuma das duas apare¸ca em um documento do que elas apare¸cam separadas. A Tabela 6 apresenta os pares de palavras que apresentaram os maiores coeficientes de φ.

3.1 An´alise Descritiva 39

Tabela 5: Tabela de Palavras que ocorrem conjuntamente Rank Palavra 1 Palavra 2 Frequˆencia (n)

1 fit size 4.015

2 fit love 3.916

3 wear love 3.501

4 wear fit 3.301

5 fit dress 3.022

Tabela 6: Tabela de Correla¸c˜ao entre Palavras Rank Palavra 1 Palavra 2 φ

1 lar byron 0, 91

2 stone cloth 0, 73

3 bridal shower 0, 72

4 not do justice 0, 63

5 rib cage 0, 60

Outra forma de visualiza¸c˜ao dos dados ´e a Nuvem de Palavras, que plota as palavras mais frequentes e sua frequˆencia est´a relacionada ao tamanho em que a mesma aparece no gr´afico. Na Figura 9 pode-se visualizar a Nuvem de palavras do banco ap´os o pr´e- processamento e na Figura 10 podemos ver a nuvem de palavras separadas de acordo com a vari´avel de recomenda¸c˜ao. ´E poss´ıvel observar que as os documentos com reco- menda¸c˜ao negativa, em vermelho, possuem palavras de vi´es negativo como “disappoint” e “unflattering”, j´a os documentos com recomenda¸c˜ao positiva, em verde, possuem palavras de contentamento como “love” e “comfortable”. As nuvens de palavras foram geradas a partir do pacote wordcloud (FELLOWS, 2018).

Figura 9: Nuvem de Palavras.

Figura 10: Nuvem de palavras por classifica¸c˜ao.

3.2

Pr´e - Processamento

O objetivo do Pr´e-Processamento, como j´a mencionado anteriormente ´e preparar o banco de dados para que nele seja poss´ıvel realizar as an´alises estat´ısticas. O primeiro passo ´e a tokeniza¸c˜ao, respons´avel por quebrar cada documento presente no banco de dados em unidades m´ınimas de texto, respeitando, por´em, o sentido original de cada palavra presente. Para a tokeniza¸c˜ao foi utilizado o pacote Tidytext (SILGE; ROBINSON, 2016), e com isso, podemos observar que h´a 1.435.364 palavras no banco. A fim de melhorar as an´alises foi decidido, tamb´em, concatenar a palavra not `a palavra a qual ela precede, desta forma, not like torna-se um termo s´o.

Ap´os a tokeniza¸c˜ao ´e necess´ario que sejam retiradas as stopwords, que, como j´a ci- tado anteriormente, s˜ao aquelas palavras muito comuns em uma determinada l´ıngua. O banco, ap´os a remo¸c˜ao destas passa a ter 512.807 termos e a lista das stopwords pode ser encontrada no Anexo 1. Al´em da remo¸c˜ao das stopwords foram retirados tamb´em os n´umeros, utilizando o pacote tm (FEINERER; HORNIK; MEYER, 2008) e ap´os esses passos o banco possui 15.108 termos distintos.

Ap´os a limpeza do banco, chega o momento da normaliza¸c˜ao dos documentos atrav´es da lematiza¸c˜ao, que busca reduzir o l´exico, levando em conta a an´alise morfol´ogica das apalavras. Para tanto foi utilizado o pacote textstem (RINKER, 2018). Ap´os todos os passos citados acima, obtemos 501.254 termos, sendo 11.936 termos distintos.

Todas as etapas de limpeza e organiza¸c˜ao do banco de dados original tornam poss´ıvel a cria¸c˜ao da matriz termo-documento definida na Se¸c˜ao 2.2.2. Para tal, foram selecionados os 100 termos mais frequentes e suas frequˆencias foram calculadas com rela¸c˜ao a cada um

Documentos relacionados