Pré-processamento, Stemming e remoção de ruído

Ao que se relaciona a stemming, Shrma et. al. [15] apresenta um estudo e compara- tivo entre as técnicas e principais algoritmos, procurando mostrar a eficiência de métodos como a remoção de afixos e a variedade de sucessores em relação a técnica de n-gram, além de destacar abordagens estatísticas, gráficas e de acordo com regras. O trabalho destaca o fato da quantidade de texto que é gerada a cada dia na web e que recuperar esta informação de maneira eficiente é um grande desafio. Este estudo mostra ainda que o custo computacional destas técnicas é baixo, assim como o tempo de processamento. Por fim, ao comparar as abordagens o mesmo chega à conclusão que a técnica gráfica apresenta resultados melhores em relação a estatística, tanto na língua inglesa quanto na francesa. Porém, ressalta que apesar do fato de que stemming aumenta o desempenho da recuperação da informação, ainda existem questões em aberto nessa área que precisam ser tradadas, como o tamanho da amostra a ser analisada em aplicações que utilizam gráficos e a dificuldade de implementação dos algoritmos em idiomas diferentes do inglês.

Para [22] as atividades de pré-processamento desempenham um papel vital em várias aplicações. Este trabalho utiliza três etapas, sendo elas a remoção de stopwords, o stemming e a verificação da escrita. Vale ressaltar que o autor procura mostrar os be- nefícios da verificação de escrita, tais como evitar a diminuição da acurácia com erros e economizar tempo ao não utilizar o algoritmo nestas instâncias. O trabalho busca ainda comparar a implementação padrão do algoritmo de Poter com a versão aprimorada proposta no artigo, visto que as técnicas tradicionais podem se tornar inadequadas com o vasto aumento de texto gerado pela web. Comumente um algoritmo de stemming lidará com alguns problemas, como a dependência do contexto e a dificuldade de avaliar se um sufixo é de fato importante ou se o mesmo deve ser removido e o modelo proposto visa lidar de forma efetiva com estes problemas. Nota-se que para a aplicação escolhida a melhor técnica foi a proposta no modelo, pois pode ser utilizada de forma dinâmica em qualquer domínio.

Já a abordagem de [23] mostra que a análise de sentimento em redes sociais digitais está atraindo uma atenção especial, visto a quantidade de texto gerado e que os usuários tendem a falar sobre assuntos cotidianos e expressar sua opinião nestas redes. Assim, treinar um classificador com dados de um tweet (nome dado a uma postagem no twitter ), gera uma grande quantidade de ruído, sendo assim é necessário a utilização de boas técnicas de pré-processamento. Entre algumas das técnicas utilizadas estão o stemming, a remoção de letras repetidas feita de acordo com uma implementação baseada no modelo

de n-gram, remoção de URLs (Links) e negações. Com a utilização dessas técnicas o trabalho consegue atingir 85,5% de acurácia na classificação.

De acordo com [24], foi analisada uma base de dados obtida no twitter durante a realização do jogo Brasil x Japão na Copa das Confederações em 2013. Tal estudo propõe um modelo automático para redução do ruído gerado nesta base. A proposta para redução do ruído utilizava uma modelagem em níveis: a primeira parte seria a remoção de caracteres e siglas especiais assim como as palavras que os procedem; a segunda parte seria a remoção de pontuação e stopwords, no terceiro nível a correção ortográfica e por fim as palavras são comparadas ao vocabulário de internet e substituídas por sua grafia formal. Os experimentos foram feitos utilizando o algoritmo de indexação LSI e os resultados mostram que emoticons e usuários da rede eram classificados como palavras com grande relevância, após a utilização do modelo foi verificado que ao remover estes casos as palavras com maior relevância eram de acordo com o tema.

Em [25] após realizar a etapa de tokenização, procura-se então encontrar palavras escritas em inglês casual (informal) e transformá-las para uma escrita formal. O trabalho tenta ainda comparar o modelo proposto com outros que visam realizar apenas a correção ortográfica. Os resultados mostram que a diminuição dos erros eleva em até 15% a eficácia dos classificadores. Sendo assim, conclui-se que o melhor seria utilizar a proposta do artigo em conjunto com um corretor ortográfico padrão, pois a abordagem integrada vem a ser uma forma mais eficaz do que a proposta de apenas correção.

Por fim, em [26] mostra o papel que o pré-processamento pode desempenhar em aplicações que visam a análise de sentimento. Este utiliza uma combinação de técnicas para reduzir o ruído gerado, entre elas estão a limpeza do texto online, a remoção de espaços em branco, a expansão das abreviações, o stemming, remoção de stopwords e negações. Como resultado, o mesmo mostra que a análise de sentimento é uma área muito importante a ser explorada, principalmente com o constante crescimento das RSD e o marketing que pode ser gerado em cima delas. Todavia estas geram uma grande quantidade de ruído, portanto a etapa de pré-processamento deve ser feita da melhor forma possível a fim de maximizar os resultados obtidos pelo classificador.

3 MATERIAIS E MÉTODOS

3.1 Descrição do Modelo

O modelo proposto segue o que esta especificado na Figura2:

Figura 2 – Especificação do Modelo

3.1.1 A Base de Dados

A base de dados a ser utilizada neste trabalho conta com 8.034.401 tweets obtidos no dia 27/01/2014 de acordo com a realização da última partida da temporada de futebol americano nos Estados Unidos da América, conhecido como Super Bowl. Esta base está disponível na internet para utilização pública1_.

3.1.2 As Aplicações

A primeira aplicação escolhida para ser reproduzida neste trabalho é a [27], neste trabalho o autor procura classificar os usuários do Twitter em três classes, sendo elas

os bots (usuários que realizam apenas postagens atemáticas), os cyborgs (usuários que realizam postagens atemáticas e postagens normais) e os humanos (usuários comuns da rede).

A segunda aplicação escolhida foi [28] , onde é feita a análise de sentimento de acordo com a polaridade dos termos.

Vale ressaltar que será reproduzido tudo que foi proposto pelos autores, porém no caso da aplicação 2 será utilizada a base de dados proposta neste trabalho por uma questão de padronização dos testes.

3.1.3 Pré-processamento

Para a fase de pré-processamento serão desenvolvidas as seguintes técnicas: remo- ção de stopwords, o stemming, correção ortográfica, remoção de Links, caracteres especiais e transformação de texto informal (vocabulário da internet, gírias, abreviações) para formal.

Serão então separadas em quatro grupos:

∙ Grupo 1: Nenhuma atividade de pré-processamento; ∙ Grupo 2: Todas as atividades de pré-processamento; ∙ Grupo 3: Stemming + remoção de Stopwords;

∙ Grupo 4: Remoção de Stopwords + correção ortográfica + remoção de caracteres especiais + transformação de texto informal para formal;

Os grupos foram separados a fim de facilitar a confecção dos experimentos. Os grupos 1 e 2 visam mostrar a importância do pré-processamento na MT, já para grupo 3 a escolha das técnicas foi dada empiricamente para a aplicação 2, visto que a literatura não dá enfoque na fase de pré-processamento para a detecção e remoção de bots. Por fim, para o grupo 4 as técnicas seguem o indicado para aplicações de MT e análise de sentimento encontradas na literatura.

3.1.4 Experimentos

Serão realizados oito experimentos, que serão divididos a fim de utilizar todos os grupos de pré-processamento em conjunto com as duas aplicações escolhidas.

Da seguinte forma:

∙ Experimento 1: Grupo 1 + Aplicação 1; ∙ Experimento 2: Grupo 2 + Aplicação 1;

∙ Experimento 3: Grupo 3 + Aplicação 1;

∙ Experimento 4: Grupo 4 + Aplicação 1;

∙ Experimento 5: Grupo 1 + Aplicação 2;

∙ Experimento 6: Grupo 2 + Aplicação 2;

∙ Experimento 7: Grupo 3 + Aplicação 2;

∙ Experimento 8: Grupo 4 + Aplicação 2.

Abaixo segue a Figura3para sintetizar os experimentos, onde N abrange a quantidade de grupos e M, a quantidade de aplicações:

Figura 3 – Síntese dos Experimentos

3.1.5 Testes e Resultados

Para os testes e resultados será utilizado um classificador com o auxílio do software Weka 2. O classificador utilizado respeitará o que melhor obteve resultados no artigo que

denota a aplicação 1 [27] e a aplicação 2 [28] . Em seguida os resultados serão comparados com o da literatura a fim de validar o que foi proposto no modelo.

Além disso, a frequência das palavras será analisada de acordo com o algoritmo de indexação de texto Term Frequency–Inverse Document Frequency (TF-IDF), para que em cada experimento seja destacada quais são as palavras com maior relevância.

REFERÊNCIAS

[1] GOLBECK, J. Analyzing the social web. [S.l.]: Newnes, 2013.

[2] KWAK, H. et al. What is twitter, a social network or a news media? In: ACM.

Proceedings of the 19th international conference on World wide web. [S.l.], 2010. p.

591–600.

[3] SAKAKI, T.; OKAZAKI, M.; MATSUO, Y. Earthquake shakes twitter users: real-time event detection by social sensors. In: ACM. Proceedings of the 19th

international conference on World wide web. [S.l.], 2010. p. 851–860.

[4] PANG, B.; LEE, L. Opinion mining and sentiment analysis. Foundations and trends

in information retrieval, Now Publishers Inc., v. 2, n. 1-2, p. 1–135, 2008.

[5] FALCÃO, A. E. J. et al. Indecs: método automatizado de classificação de páginas web de saúde usando mineração de texto e descritores em ciências da saúde (decs).

Journal of Health Informatics, v. 1, n. 1, 2009.

[6] PAK, A.; PAROUBEK, P. Twitter as a corpus for sentiment analysis and opinion mining. In: LREC. [S.l.: s.n.], 2010. v. 10, p. 1320–1326.

[7] ZHANG, D.; JIANG, K. Application of data mining techniques in the analysis of fire incidents. Procedia Engineering, Elsevier, v. 43, p. 250–256, 2012.

[8] HE, W.; ZHA, S.; LI, L. Social media competitive analysis and text mining: A case study in the pizza industry. International Journal of Information Management, Elsevier, v. 33, n. 3, p. 464–472, 2013.

[9] SUKANYA, M.; BIRUNTHA, S. Techniques on text mining. In: IEEE. Advanced

Communication Control and Computing Technologies (ICACCCT), 2012 IEEE International Conference on. [S.l.], 2012. p. 269–271.

[10] FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in

analyzing unstructured data. [S.l.]: Cambridge University Press, 2007.

[11] MAIMON, O.; ROKACH, L. Data mining and knowledge discovery handbook. [S.l.]: Springer, 2005. v. 2.

[12] RIBEIRO, J. S.; KAUFMAN, K. A.; KERSCHBERG, L. Knowledge discovery from multiple databases. In: KDD. [S.l.: s.n.], 1995. p. 240–245.

[13] INGERSOLL, G. S.; MORTON, T. S.; FARRIS, A. L. Taming text: how to find,

organize, and manipulate it. [S.l.]: Manning Publications Co., 2013.

[14] SUH, J. H.; PARK, C. H.; JEON, S. H. Applying text and data mining techniques to forecasting the trend of petitions filed to e-people. Expert Systems with Applications, Elsevier, v. 37, n. 10, p. 7255–7268, 2010.

[15] SHARMA, D. Stemming algorithms: A comparative study and their analysis.

[16] ADAMSON, G. W.; BOREHAM, J. The use of an association measure based on character structure to identify semantically related pairs of words and document titles. Information storage and retrieval, Elsevier, v. 10, n. 7, p. 253–260, 1974. [17] WALKER, M. A. et al. That is your evidence?: Classifying stance in online political

debate. Decision Support Systems, Elsevier, v. 53, n. 4, p. 719–729, 2012.

[18] MOSTAFA, M. M. More than words: Social networks’ text mining for consumer brand sentiments. Expert Systems with Applications, Elsevier, v. 40, n. 10, p. 4241–4251, 2013.

[19] SILVA, N. R.; LIMA, D.; BARROS, F. Sapair: Um processo de análise de sentimento no nível de característica. In: 4nd International Workshop on Web and Text

Intelligence (WTI’12), Curitiba. [S.l.: s.n.], 2012.

[20] WALKER, M. A. et al. That is your evidence?: Classifying stance in online political debate. Decision Support Systems, Elsevier, v. 53, n. 4, p. 719–729, 2012.

[21] NETO, F. A. R.; BARROS, F. de A. Asdp: um processo para análise de sentimento em debates polarizados.

[22] RAMASUBRAMANIAN, C.; RAMYA, R. Effective pre-processing activities in text mining using improved porter’s stemming algorithm. International Journal of

Advanced Research in Computer and Communication Engineering, v. 2, n. 12, p.

2278–1021, 2013.

[23] BAO, Y. et al. The role of pre-processing in twitter sentiment analysis. In: Intelligent

Computing Methodologies. [S.l.]: Springer, 2014. p. 615–624.

[24] CAPOBIANCO, K. R.; JÚNIOR, S. B. Modelo para redução automática de ruído em conteúdo de redes sociais digitais.

[25] CLARK, E.; ARAKI, K. Text normalization in social media: progress, problems and applications for a pre-processing system of casual english. Procedia-Social and

Behavioral Sciences, Elsevier, v. 27, p. 2–11, 2011.

[26] HADDI, E.; LIU, X.; SHI, Y. The role of text pre-processing in sentiment analysis.

Procedia Computer Science, Elsevier, v. 17, p. 26–32, 2013.

[27] IGAWA, R. A. e. a. Account classification in online social networks with lbca and wavelets. Proceedings of Information Sciences, Elsevier, 2014.

[28] MONTEJO-RÁEZ, A. et al. Crowd explicit sentiment analysis. Knowledge-Based

No documento KELVIN RAMIRES CAPOBIANCO AVALIAÇÃO DA ETAPA DE PRÉ-PROCESSAMENTO NA MINERAÇÃO DE TEXTO EM REDES SOCIAIS DIGITAIS (páginas 34-42)