• Nenhum resultado encontrado

Existe cada vez mais trabalhos relatando construção de córpus para as mais varia- das atividades de Análise de Sentimentos (AS). Nos últimos anos, alguns pesquisadores relataram a escassez de bases de treinamento para atividades de classificação de textos baseada em métodos de Aprendizagem de Máquina (AM). DOSCIATTI; FERREIRA; PA- RAISO, por exemplo, afirmaram que a literatura ainda não é farta quanto à produção de córpus para o idioma português Brasileiro para atividades de Análise de Sentimentos (AS). E dois anos antes, ZAMPIERI; BECKER viram que o número de corpora em portu- guês vem se desenvolvendo nos últimos vinte anos e a maioria deles está disponível on-line.

BRUM; NUNES construíram o TweetSentBR6, um córpus de sentimentos a partir de

mensagens curtas extraídas da rede social Twitter para atividades de AS. No trabalho, os

autores utilizaram o processo de anotação manual onde 15.000 tweets foram rotulados. No processo de anotação foram utilizados 7 anotadores para identificar a polaridade das men- sagens entre as classes positiva, negativa e neutra. Na contrução, os autores aplicaram os métodos de AM para testar a credibilidade das mensagens manualmente anotadas. Para isso, utilizaram as métricas acurácia e F-Measure que resultaram em 82,06% e 80,99% respectivamente.

VITÓRIO et al. elaborou o córpus 2000-tweets-br como atividade da pesquisa do Mi- ningBR Research Group7 e conta com 2000 mensagens em português do Brasil extraídas

da rede social Twitter8. Esse córpus foi rotulado manualmente em quatro classes positiva,

negativa, neutra e ambas. E por ser anotado manualmente, o referido córpus contou com três anotadores onde todos anotaram a mesma mensagem obtendo o grau de 54,25% de concordância entre anotadores . O grau de concordância entre os anotadores é definido pelo coeficiente Kappa (FLEISS, 1971).

MORAES; MANSSOUR; SILVEIRA criaram o córpus 7x1-PT referente à partida de fu- tebol masculino ocorrida em 2014 entre Brasil e Alemanha durante a copa do mundo no Brasil. No trabalho, os autores relatam o processo de coleta e anotação do córpus. Os tweets presentes no córpus 7x1-PT são parte da base de dados WorldCupBrazil2014. Essa base contém 851.292 tweets coletados nos idiomas português, inglês e espanhol para posterior processamento e separação em um córpus menor de interesse dos autores. No trabalho, os autores relatam o processo de limpeza e nomalização das mensagens devido à forte presença de caracteres especiais característicos de CGU na web. Segundo os autores o maior desafio nesse sentido foi o tratamento das hashtags, porque elas normalmente representavam sujeitos nos tweets. Sabe-se que manter caracteres especiais em mensagens resulta em ruídos, prejudicando assim, o processo de classificação de textos curtos. Por esse motivo, os autores relatam a remoção do caractere cerquilha, símbolo das hashtags, das mensagens e mantiveram todo o corpo do texto. MORAES; MANSSOUR; SILVEIRA es- clarecem que as anotações foram feitas manualmente e tinham como referência a seleção brasileira. Isso signfica que as anotações positiva, negativa e neutra foram feitas tomando as mensagens direcionadas ao Brasil. Como resultado do trabalho, os autores disponibi- lizaram o córpus com 157 mensagens positivas (6% do córpus), 1.771 mensagens neutras (65% do córpus) e 800 mensagens negativas (29% do córpus).

ZAMPIERI; BECKER desenvolveram um recurso linguístico para o português denomi- nado Colonia1: Um córpus de português histórico. Esse recurso linguístico representa uma

coleção de documentos do século XVI até o início do século XX etiquetados com POS-

7 <<http://miningbrgroup.com.br>>. Acessado em 15 de junho de 2019 8 <<www.twitter.com>>. Acessado em 15 de junho de 2019

taggers por meio da ferramenta TreeTagger9. Colonia contém 5.1 milhões de tokens que

se divide em cinco sub-corpora10 separados por século. A compilação do córpus ocorreu

através da coleta dos textos de diferentes fontes como: Domínio Público11, uma biblioteca

digital mantida pelo Ministério da Educação Brasileiro, e textos de outras duas fontes históricas como Grupo de Morfologia Histórica do Português (GMHP) da Universidade de São Paulo e Tycho Brahe12

ROCHA; SANTOS criaram o córpus linguístico jornalístico para o idioma português na variante portuguêsa denomiado CETEMPúblico13. O córpus criado não contém polari-

dades anotadas por se tratar de uma base de textos linguísticos. Para criação do córpus os autores reportaram uma sequência de atividades para o tratamento dos textos, que consistiu majoritariamente na separação do texto seguindo a regra de inserir marcações, tags, para identificar se um bloco de texto, definido como extracto, é uma sentença, ar- tigo, título etc. Essa separação, segundo os autores, foi necessária devido ao acordo com o jornal fornecedor dos textos jornálisticos no sentido da não reprodução das matérias por meio automático. Então, em seguida, todo material coletado foi separado em palavras, tokens, para compor o córpus. O processo de separação do texto em palavras, resultou em um córpus com 180 milhões de palavras. Os autores, não consideraram o descarte de pontuações como ocorre nas atividades de pré-processamento de textos para classificação.

Córpus Positiva Negativa Neutra Total

TweetSentBR 6.648 4.426 3.926 15.000 7x1-PT 157 800 1.771 2.728

Colonia14 - - - -

2000-tweets-br15 390 509 1040 1939

CETEMPúblico* - - - -

Tabela 4 – Corpora listados na seção 3.2

Fonte: Elaborada pelo autor.

De acordo com os trabalhos resumidos nesta seção, se pode afirmar que a escassez de corpora em português do Brasil para atividades de AS para métodos de AM é de domínio ou contexto específico para trabalhos em PLN. Os diversos trabalhos relatados se basearam em córpus para seus próprios domínios, isto significa que a maioria deles tinha um contexto específico: Uns se aplicavam nas avaliações de produtos ou serviçõs

9 <https://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html>. Acessado

em 28 de junho de 2019

10 <http://corporavm.uni-koeln.de/colonia/inventory.html>.Acessado em 28 de junho de 2019 11 <http://www.dominiopublico.gov.br/>. Acessado em 17 de junho de 2019

12 <http://www.tycho.iel.unicamp.br/hotsite/index.html>. Acessado em 17 de junhho de 2019

(reviews), outros foram aplicados na identificação de emoções em textos curtos, alguns tratavam da extração de nomes de entidades etc.

4 MÉTODO PROPOSTO

Neste capítulo é apresentada a metodologia do processo definido na arquitetura pro- posta nesta pesquisa. Nele, todo o processo está organizado por seção onde se esclarece, de forma metodológica, todo processo de preparação dos algoritmos e dos dados a ser investigados.

Documentos relacionados