Resultados práticos e análise - Realização do Pre-processamento dos dados

5.2 Realização do Pre-processamento dos dados

5.5.2 Resultados práticos e análise

Após ser aplicada a métrica em cada um dos dez textos foi realizado o cálculo da taxa de aceitação de cada revisor que foi explicado acima. Comparando cada token classificado pelos revisores com a resposta correta nos dados de treino do CoNNL é possível ver a partir do Quadro 5 as respectivas taxas de aceitação que definem o quão bem um revisor avalia os textos. Essa taxa é também, critério de desempate para tokens discordantes.

Quadro 5 – Taxas de aceitação dos revisores.

Tokens Submetidos Tokens Aceitos Taxa de aceitação

Revisor 1 335 133 0.3970

Revisor 2 279 111 0.3978

Revisor 3 288 90 0.3125

Fonte: Elaborado pelo próprio Autor.

Então foi realizada a agregação das revisões finais para cada texto seguindo as regras definidas e desempatando as classificações quando necessário.

No Quadro 6 mostra a quantidade de tokens por tipo que cada revisor classificou, bem como a soma total desses tokens. Com isso percebe-se que a entidade OUTROS é a mais classificada e que a entidade PESSOA recebeu menos classificações.

Quadro 6 – Quantidade de classificações por entidade.

Pessoa Organização Localização Outros

Revisor 1 37 76 60 162

Revisor 2 32 26 80 141

Revisor 3 33 42 77 85

Total 102 144 217 388

Fonte: Elaborado pelo próprio Autor.

Também é possível perceber que a quantidade de tokens da revisão final é maior que a quantidade de tokens submetidas pelos revisores individualmente, visto que algumas classifi- cações de diferentes revisores não discordantes são aceitas, incrementando as classificações da

revisão final. Também é possível perceber através da Figura 17 e 18 um aumento na quantidade de entidades LOCALIZAÇÃO e OUTROS e uma diminuição na porcentagem das outras duas entidades.

Figura 17 – Quantidade de tokens por entidade antes da revisão final

Fonte: Elaborado pelo próprio Autor.

Figura 18 – Quantidade de tokens por entidade após a revisão final

Fonte: Elaborado pelo próprio Autor.

Com isso tem-se uma métrica de concordância proposta, validada com dados de treino amplamente utilizados em seu domínio de aplicação e revisores reais distintos. Os arquivos

utilizados para revisão vêm de textos no idioma Inglês, mas este processo pode ser aplicado também a outros idiomas em outros domínios de aplicação.

6 CONCLUSÕES E TRABALHOS FUTUROS

Neste trabalho foi apresentado o desenvolvimento de uma métrica baseada em concordância com o objetivo de apoiar um processo de criação de revisão final através de revisões paralelas de um mesmo texto. Esta métrica suporta o cálculo para diversos revisores e por isso pode ser candidata a aplicação em problemas deste domínio de REN. Uma das vantagens de se utilizar esta métrica, é que ela é simples e precisa no cálculo de concordância, podendo ser utilizada por sistemas de REN em grande escala.

Foi apresentado também o processo de criação de uma revisão final, unindo as classificações mais adequadas de vários revisores sobre um mesmo texto, baseando-se em Quórum e na taxa de aceitação como forma de desempate. Uma vantagem disso é que ao invés de precisar escolher uma dentre várias revisões, esse processo utiliza as classificações das revisões para criar uma revisão final, contendo todas as melhores classificações.

Com os experimentos realizados, pode-se concluir que a métrica avalia bem o nível de concordância entre revisores sobre um mesmo texto, levando em consideração todos os tokens do texto e avaliando sobre as respostas verdadeiras dos dados de treino. O processo de criação da revisão final pode ser também manipulado para ser implantado em sistemas de REN na prática, auxiliando o processo de revisões manuais dos revisores.

Faz-se necessário utilizar uma maior quantidade de dados de treinos e também mais revisores a fim de calcular maiores possibilidades de discordância inter-revisores. Também é necessário utilizar dados de treino no idioma Português e testar os cenários para domínios com dados em Português.

Como trabalho futuro, sugere-se a aplicação da métrica e processo de criação da revisão final em ambiente computacional para ganhar tempo e performance nos cálculos e gerar os arquivos de revisões finais automaticamente.

REFERÊNCIAS

BATISTA, R. L.; SALGADO, N.; BARRETO, R. Avaliação e feedback automático em educação apoiada por tecnologia: Um mapeamento sistemático da literatura. In: Brazilian Symposium on Computers in Education (Simpósio Brasileiro de Informática na Educação-SBIE). [S.l.: s.n.], 2018. v. 29, n. 1, p. 178.

BORGHOFF, U. M.; SCHLICHTER, J. H. Computer-supported cooperative work. In: Computer-supported cooperative work. [S.l.]: Springer, 2000. p. 87–141.

COHEN, J. A coefficient of agreement for nominal scales. Educational and psychological measurement, Sage Publications Sage CA: Thousand Oaks, CA, v. 20, n. 1, p. 37–46, 1960. COLLOBERT, R.; WESTON, J.; BOTTOU, L.; KARLEN, M.; KAVUKCUOGLU, K.; KUKSA, P. Natural language processing (almost) from scratch. Journal of machine learning research, v. 12, n. Aug, p. 2493–2537, 2011.

CONFERENCE ON NATURAL LANGUAGE LEARNING. Language-Independent Named Entity Recognition (II). 2005. https://www.clips.uantwerpen.be/conll2003/ner/.

CRAIGTRIM. The Art of Tokenization. 2013.

https://www.ibm.com/developerworks/community/blogs/nlp/entry/tokenization?lang=en. Acesso em: 29 May. 2019.

DEVELOPERS GOOGLE. Classification: True vs. False and Positive vs. Negative. 2019. https://developers.google.com/machine-learning/crash-course/classification/true-false-positive- negative. Acesso em: 30 Jun. 2019.

FRANCO, A. Juiz-promoção por antiguidade-recusa-"quorum"necessário. Revista de Direito Administrativo, v. 51, p. 225–233, 1958.

GATE. General Architecture for Text Engineering. 2019. https://gate.ac.uk/. Acesso em: 09 Jun. 2019.

GRISHMAN, R.; SUNDHEIM, B. Message understanding conference-6: A brief history. In: COLING 1996 Volume 1: The 16th International Conference on Computational Linguistics. [S.l.: s.n.], 1996. v. 1.

HOWARD, N.; CAMBRIA, E. Intention awareness: improving upon situation awareness in human-centric environments. Human-centric Computing and Information Sciences, SpringerOpen, v. 3, n. 1, p. 9, 2013.

JIANG, R.; BANCHS, R. E.; LI, H. Evaluating and combining name entity recognition systems. In: Proceedings of the Sixth Named Entity Workshop. [S.l.: s.n.], 2016. p. 21–27.

KOO PING SHUNG. Accuracy, Precision, Recall or F1? 2019.

https://towardsdatascience.com/accuracy-precision-recall-or-f1-331fb37c5cb9. Acesso em: 24 Apr. 2019.

LANDIS, J. R.; KOCH, G. G. The measurement of observer agreement for categorical data. biometrics, JSTOR, p. 159–174, 1977.

MARCELO FERNANDES. F-Beta Score. 2019. http://www.marcelonet.com/snippets/machine- learning/evaluation-metrix/f-beta-score. Acesso em: Jun 30, 2019.

MIKHEEV, A.; MOENS, M.; GROVER, C. Named entity recognition without gazetteers. In: ASSOCIATION FOR COMPUTATIONAL LINGUISTICS. Proceedings of the ninth conference on European chapter of the Association for Computational Linguistics. [S.l.], 1999. p. 1–8.

NADEAU, D. Semi-supervised named entity recognition: learning to recognize 100 entity types with little supervision. Tese (Doutorado) — University of Ottawa, 2007.

NLKT. Natural Language Toolkit. 2019. https://www.nltk.org/. Acesso em: 06 Jun. 2019. PLISSON, J.; LAVRAC, N.; MLADENIC, D. et al. A rule based approach to word lemmatization. Proceedings of IS-2004, p. 83–86, 2004.

RATINOV, L.; ROTH, D. Design challenges and misconceptions in named entity recognition. In: ASSOCIATION FOR COMPUTATIONAL LINGUISTICS. Proceedings of the thirteenth conference on computational natural language learning. [S.l.], 2009. p. 147–155.

RUSHDI SHAMS. Micro- and Macro-average of Precision, Recall and F-Score. 2019. http://rushdishams.blogspot.com/2011/08/micro-and-macro-average-of-precision.html. Acesso em: 25 Jun. 2019.

SACHIN MALHOTRA. An introduction to part-of-speech tagging and the Hidden Markov Model. 2018. https://www.freecodecamp.org/news/an-introduction-to-part-of- speech-tagging-and-the-hidden-markov-model-953d45338f24/. Acesso em: 29 May. 2019.

SANG, E. F.; MEULDER, F. D. Introduction to the conll-2003 shared task: Language- independent named entity recognition. arXiv preprint cs/0306050, 2003.

SHRUTI SAXENA. Precision vs Recall. 2018. https://towardsdatascience.com/precision-vs- recall-386cf9f89488. Acesso em: 30 Jun. 2019.

SIGNIFICADOS. Significados. 2019. https://www.significados.com.br/quorum/. Acesso em: 03 Nov. 2019.

SILVA, T. L. C. da; MAGALHÃES, R. P.; MACÊDO, J. A. F. de; ARAÚJO, D.; ARAÚJO, N.; MELO, V. de; OLÍMPIO, P.; REGO, P.; NETO, A. V. L. Improving Named Entity Recognition using Deep Learning with Human in the Loop. OpenProceedings.org, p. 594–597, 2019.

SIMON, E. The Definition of Named Entities. Research Institute for Linguistics, Hungarian Academy of Sciences (RIL HAS), 2017.

SPACY. Industrial-Strength Natural Language Processing. 2019. https://spacy.io/usage/linguistic-features. Acesso em: 15 Out. 2019.

THE STANFORD NATURAL LANGUAGE PROCESSING GROUP. Neural Network Dependency Parser. 2019. https://nlp.stanford.edu/software/nndep.html. Acesso em: 29 May. 2019.

THE STANFORD NATURAL LANGUAGE PROCESSING GROUP. The Stanford Parser: A statistical parser. 2019. https://nlp.stanford.edu/software/lex-parser.shtml. Acesso em: 06 Jun. 2019.

TURING, A. M. Computing machinery and intelligence. In: Parsing the Turing Test. [S.l.]: Springer, 2009. p. 23–65.

No documento Proposta de uma métrica para avaliação do nível de concordância de classificações paralelas de entidades e decisão sobre revisão final a partir de revisões paralelas de um mesmo texto (páginas 45-51)