• Nenhum resultado encontrado

Experimentos de Classificação de Documentos Textuais Enriquecidos Se-

tuais Enriquecidos Semanticamente

O cenário de validação foi de classificação de textos. O que se pretende avaliar com este experimento é a eficácia do método de classificação de textos enriquecidos com anotações semânticas baseadas em ontologia. A hipótese inicial para esta validação é que o uso de ontologia como anotação semântica contribui para melhorar a eficácia de tarefas de aprendizado de máquina voltadas para classificação de texto.

CAPÍTULO 4. VALIDAÇÃO 39

Figura 4.3: Workflow de experimento de classificação considerando o descritor BoTG e sua versão enriquecida semanticamente (SBoTG).

4.2.1

Protocolo Experimental

Coleções de Documentos Textuais: Três coleções de documentos textuais foram consideradas nos experimentos: K-series, Reuters e 20-newsgroups. A coleção K-series contém páginas Web extraídas do site Yahoo e distribuídas em 6 categorias. A coleção Reuters (mais especificamente Reutesrs21578) contém notícias agrupadas compostas de um título curto e uma longa descrição de texto, classificadas em 5 categorias distintas. Destas só consideramos a categoria topics, com 15 classes. A coleção 20-newsgroups con- tém mensagens postadas no forum USENET, sendo portanto a coleção menos padronizada do ponto de vista da estrutura das amostras, distribuídas em 20 classes.

Das amostras originais, por simplificação, foram descartadas as amostras não classi- ficadas e as amostras com múltiplas classificações. Também foram descartadas amostras sem conteúdo textual por não serem úteis em nossa abordagem de classificação de textos. A Tabela 4.1 resume as estatísticas das três coleções em seu conteúdo final após a seleção das classes e limpezas. São apresentados o número de classes e o número de amostras por coleção.

Extração de Grafos: A geração dos grafos a partir das amostras da coleção obtém os segmentos de texto do documento que são relevantes, ou seja, que possuem algum

CAPÍTULO 4. VALIDAÇÃO 40 Tabela 4.1: Estatísticas das coleções consideradas nos experimentos.

Coleção # classes # amostras

K-series 6 1.951

Reuters 15 4.010

20-newsgroups 20 10.944

conteúdo após a remoção de stop words4. Existe ainda o critério de pré-processamento do texto que corresponde à redução de palavras por meio da radicalização, que pode ser opcionalmente definido no método, sendo o padrão sempre aplicar a radicalização. A radicalização pode obter termos que não são palavras existentes na língua inglesa, o que não permitiria encontrar estes termos em um dicionário e, portanto, não seria possível enriquecer semanticamente o grafo. Para avaliar esta hipótese foram realizados experimentos com os dois cenários para validação dos resultados.

Enriquecimento Semântico: A atividade de enriquecimento semântico permite que o usuário defina no Kuaa qual o tipo de enriquecimento deseja usar no experimento. Quatro versões de enriquecimento semântico, que combinam o enriquecimento por sinônimo ou hiperônimo, conforme detalhado na Seção 3.3 foram avaliadas. Estas versões constituem, portanto, quatro diferentes implementações do descritor Semantic Bag of Textual Graphs. São elas:

• Enriquecimento-V1: O grafo é enriquecido com o todos os sinônimos encontrados para cada termo do grafo original no sentido mais comum em que o termo é usado em inglês;

• Enriquecimento-V2: O grafo é enriquecido com o primeiro sinônimo encontrado para cada termo do grafo original no sentido mais comum em que o termo é usado em inglês;

• Enriquecimento-V3: O grafo é enriquecido com o primeiro hiperônimo encontrado para cada termo do grafo original no sentido mais comum em que o termo é usado em inglês;

• Enriquecimento-V4: O grafo é enriquecido com uma combinação das versões 2 e 3, ou seja, com o sinônimo e o hiperônimo de cada termo do grafo original no sentido mais comum em que o termo é usado em inglês.

Para todas as versões de enriquecimento consideradas nos experimentos conduzidos, a ontologia usada foi a WordNet.

Classificador Utilizado e Protocolo Experimental: A escolha do método de clas- sificação foi definida a partir das opções de classificação realizadas por Dourado [11], visto que este é nosso baseline para análise de eficácia da solução. Para a validação, utilizamos 4Lista disponível em http://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups (Último

CAPÍTULO 4. VALIDAÇÃO 41 Tabela 4.2: Média do número de vértices obtido por amostra em cada coleção no grafo ori- ginal extraído e nas quatro versões de enriquecimento, considerando o uso de radicalização dos termos nos documentos originais.

Coleção

K-series Reuters 20-newsgroups

Grafo extraído 169 46 69

Grafo enriquecimento-V1 348 90 137

Grafo enriquecimento-V2 268 72 106

Grafo enriquecimento-V3 264 69 102

Grafo enriquecimento-V4 270 72 107

o método de validação cruzada particionando as amostras em 10 conjuntos com o mesmo número de objetos e com mesma distribuição de classes que a coleção completa. O mé- todo utilizado para a classificação foi o SVM com kernel linear. O SVM é originalmente destinado a problemas de classificação binária. Então para nossa necessidade que é multi- classe, foi utilizado o método “um contra todos”. Nesta abordagem treina-se o SVM para cada classe, ou seja, obtém-se a função do hiperplano para cada uma classe em relação a todas as demais e, ao final, obtém-se o agrupamento do resultado com todas as classes. Parâmetros testados no SVM para seu parâmetro C foram 0,001, 0,01, 0,1, 1, 10, 100 e 1000.

Medida de Comparação: A medida obtida para análise dos resultados foi Macro-F1 (média ponderada da revocação e precisão de todos os folds). Para a análise quantitativa por classes, com o objetivo de investigar em quais cenários o enriquecimento semântico se comportou de forma diferente em relação à baseline, foi utilizada a matriz de confusão de erros e acertos por classe.

4.2.2

Resultados

Os experimentos foram realizados e analisados em duas fases: primeiro foram executados os experimentos e realizadas as avaliações dos resultados obtidos nas três coleções, apli- cando as quatro versões de enriquecimento exatamente como executado no baseline, ou seja, aplicando a radicalização na extração dos grafos originais da coleção. Posteriormente os experimentos foram repetidos, porém usando o grafo de origem extraído sem aplicar radicalização dos termos.

A Tabela 4.2 apresenta a média do número de vértices por amostra nas coleções na sua versão original e nas quatro versões de enriquecimento. É possível observar que houve um aumento no número de vértices, o que era esperado, visto que o enriquecimento justamente acrescenta novos termos e arestas aos grafo identificados para cada documento.

A Tabela 4.3 contém os resultados obtidos pelo baseline e pelas quatro versões de enriquecimento executadas para os grafos extraídos com aplicação do algoritmo de ra- dicalização dos termos. Com exceção da coleção K-series, é possível observar o melhor resultado de enriquecimento para a versão V 4, ou seja, aquela que considera a inclusão

CAPÍTULO 4. VALIDAÇÃO 42 Tabela 4.3: Comparativo das eficácias por Macro-F1 para o baseline e as quatro versões de enriquecimento.

Original Enriquecimento-V1 Enriquecimento-V2 Enriquecimento-V3 Enriquecimento-V4

Coleções C Macro-F1 C Macro-F1 C Macro-F1 C Macro-F1 C Macro-F1

K-series 1 99,46±0,61 0,01 98,92±0,93 0,1 99,21±0,63 0,1 99,29±0,68 1 99,22±0,72

Reuters 0,1 93,15±1,21 0,01 93,35±1,12 0,01 93,31±1,03 0,01 93,30±1,14 0,01 93,36±0,98 20-newsgroups 0,1 87,15±1,10 0,01 85,84±1,20 0,01 86,36±1,07 0,01 86,19±0,93 0,01 86,49±1,11

Tabela 4.4: Média do número de vértices obtido por amostra em cada coleção no grafo original extraído e nas quatro versões de enriquecimento, sem a utilização de radicalização dos termos nos documentos originais.

Coleção Reuters 20-newsgroups Grafo extraído 49 71 Grafo enriquecimento-V1 126 179 Grafo enriquecimento-V2 90 125 Grafo enriquecimento-V3 85 118 Grafo enriquecimento-V4 91 127

de um sinônimo e um hiperônimo para os termos originais. Para a coleção Reuters o resultado obtido foi ainda melhor que o observado para o baseline.

Avaliando o caso específico da coleção K-series, foi possível identificar que em números absolutos, a baseline está errando a classificação de 7 entre as 1.951 amostras originais, enquanto a melhor abordagem de enriquecimento erra estas mesmas 7 amostras e mais outros 2 casos. Por ser uma base com um alto índice de acerto na classificação, a coleção K-series não foi utilizada na próxima fase de experimentos.

Levando em consideração que a radicalização de termos gerou termos novos que não puderam ser encontrados na ontologia, uma segunda fase de experimentos foi executada para validar se, sem aplicar a radicalização, novos termos seriam incluídos e contribuiriam para um melhor resultado na classificação. A Tabela 4.4 apresenta a média do número de vértices por amostra nas coleções quando não foi realizada radicalização dos termos do documento original. Novamente ocorreu aumento do número de vértices original, o que já era previsto. Observa-se também, por outro lado, que ocorreu aumento em relação ao número de vértices da abordagem com radicalização dos termos (Tabela 4.2).

A Tabela 4.5 contém os resultados obtidos para o baseline e as quatro versões de en- riquecimento executadas para os grafos extraídos sem radicalização dos termos. Para a coleção Reuters, é possível notar que as abordagens de enriquecimento propostas obtive- ram ainda melhor resultado que a versão com radicalização. Para a coleção 20-newsgroups os resultados são melhores do que aqueles da primeira fase de experimentos, porém a ba- seline (BoTG) ainda tem um resultado melhor que as abordagens com enriquecimento (SBoTG). Neste ponto, observa-se que a seleção da ontologia tem forte impacto no resul- tado da classificação.

CAPÍTULO 4. VALIDAÇÃO 43 Tabela 4.5: Comparativo dos resultados médios de Macro-F1 para o baseline e as quatro versões de enriquecimento, a partir de grafos sem radicalização de termos.

Original Enriquecimento-V1 Enriquecimento-V2 Enriquecimento-V3 Enriquecimento-V4

Coleções C Macro-F1 C Macro-F1 C Macro-F1 C Macro-F1 C Macro-F1

Reuters 0,1 93,87±1,07 0,01 93,73±1,61 0,01 94,04±1,37 0,01 93,95±1,34 0,1 94,01±1,22 20-newsgroups 0,1 87,58±0,77 0,01 86,72±0,96 0,01 87,33±1,06 0,01 87,19±1,24 0,01 87,41±1,15

(a) (b)

Figura 4.4: (a) Originalmente da classe HEALTH, predito como POLITICSP; (b) Origi- nalmente da classe ENTERTAINMENT, predito como POLITICSP.

4.2.3

Discussão

Na coleção K-series, na qual o índice de erro é muito pequeno na abrodagem de classi- ficaçõ, analisamos alguns casos de erros. A Figura 4.4 exibe dois exemplos de erros de classificação na coleção K-series, onde o destaque foi dado à termos que remeteram a predição da classe POLITICSP ao invés das classes originais HEALTH e ENTERTAIN- MENT respectivamente. A abordagem proposta de enriquecimento semântico baseado em uma ontologia de termos sinônimos não conseguiria melhorar os resultados anteriores. A coleção Reuters é uma base de notícias que tem conteúdo bem estruturado, em geral bem escrito, sem erros de redação, portanto o enriquecimento semântico a partir de uma ontologia como a WordNet (dicionário em inglês), consegue contribuir positivamente. Analisando as Tabelas 4.2 e 4.4, nota-se que há um aumento proporcionalmente maior no enriquecimento da Reuters sem radicalização de termos do que na 20-newsgroups. Esta segunda coleção armazena mensagens trocadas em um grupo de usuários, portanto pouco estruturado, sem um padrão definido. Seus documentos contêm uma linguagem mais próxima do falado e menos formalizada, sendo que alguns documentos podem não ter uma correta pontuação, o que aumenta o ruído no momento de formar os subgrafos. Além disso, estão sujeitos a erros de digitação e, ainda, podem estar sob um domínio técnico específico.

Na análise quantitativa (acertos por classe) fica mais fácil avaliar a dependência que o método tem da ontologia selecionada. Na base Reuters, a variação na taxa de acerto entre os diferentes experimentos é bem perceptível e verifica-se melhoria para determinadas classes. A Figura 4.5 exibe dois exemplos de erros de classificação na coleção Reuters, onde o destaque foi dado a termos que remeteram a predição da classe EARN ao invés das classes originais ACQ e GOLD, respectivamente.

CAPÍTULO 4. VALIDAÇÃO 44

(a) (b)

Figura 4.5: (a) Originalmente da classe ACQ, predito como EARN; (b) Originalmente da classe GOLD, predito como EARN.

(a) (b)

Figura 4.6: (a) Originalmente da classe COMP.SYS.IBM.PC.HARDWARE, predito como COMP.SYS.MAC.PC.HARDWARE; (b) Originalmente da classe COMP.WINDOWS.X, predito como COMP.GRAPHICS.

de seu conteúdo. Neste cenário, as anotações semânticas baseadas na ontologia WordNet não influenciam o resultado final, porém o uso de uma ontologia específica do tema das amostras, poderia contribuir mais. A Figura 4.6 exibe dois exemplos de erros de classifi- cação na coleção 20-newsgroups, para os quais não é possível distinguir a classe correta do amostra a partir dos termos contidos na amostra ou ainda de novos termos adicionados baseado em sinônimos.

As Figuras 4.7 e 4.8 exibem o percentual de acerto por classe para as coleções Reuters e 20-newsgroups, respectivamente. Nos gráficos é possível avaliar quais as classes tiveram melhor desempenho em cada um dos melhores resultados das combinações de uso ou não de radicalização e com ou sem enriquecimento semântico. No caso da base Reuters, destacam-se os resultados para as classes acq, crude, ship e trade. Na base 20-newsgroups, bons resultados foram observados para as classes rec_motorcycles e rec_autos.

CAPÍTULO 4. VALIDAÇÃO 45

Figura 4.7: Gráfico de acerto por classe para coleção Reuters.

Capítulo 5

Conclusão

5.1

Contribuições

Grandes coleções de documentos textuais vêm sendo criadas em diversas aplicações. Em especial na Web milhares de páginas são criadas e disponibilizadas a uma enorme veloci- dade, sendo imperativo, portanto, a especificação e a implementação de serviços eficientes e eficazes visando à identificação e à recuperação de informações de interesse. Um outro complicador reside na falta de (ou pouca) estrutura comumente encontrada nestes tipos de documentos.

Esta dissertação trata parte destes problemas ao propor um Sistema de Enriqueci- mento Semântico de Dados Textuais, visando à criação de representações de documentos que potencialmente são mais eficazes em problemas de Recuperação de Informação. A proposta é baseada no uso de grafos que modelam relações de proximidade e ordem entre termos em um documento [11]. Grafos são enriquecidos a partir da adição de novos vérti- ces e arestas que são definidos a partir de relações (por exemplo, sinônimos e hiperônimos) identificados em ontologias. Apresenta-se, então, um novo descritor de documentos textu- ais baseados em grafo que explora relações semânticas entre termos, chamado de Semantic Bag of Textual Graphs (SBoTG).

A implementação do sistema de enriquecimento semântico foi baseada no uso de work- flows. Propõe-se o uso do sistema Kuaa, recentemente desenvolvido no Instituto de Com- putação da Unicamp [10]. Este sistema oferece mecanismos para especificação e execução de workflows voltados a problemas de aprendizado de máquina. Em especial, este trabalho tratou de tarefas de classificação de texto. Algumas das vantagens do uso do sistema Kuaa consiste na facilidade de implementação do descritor proposto, utilizando-se de um modelo de plugins; e na possibilidade de especificação e execução de experimentos de classificação de documentos textuais, em particular classificação, em um ambiente controlado.

Experimentos foram realizados utilizando-se de três coleções de documentos textuais largamente utilizadas na área de Recuperação de Informação e quatro variações do des- critor proposto (que consideram o uso de relações de termos de diferentes maneiras). Re- sultados experimentais demonstram que o descritor baseado no enriquecimento semântico de documentos textuais produz resultados comparáveis ou superiores àqueles observados por métodos recentemente propostos na literatura. Os melhores resultados foram obti- dos no enriquecimento pela adição de um sinônimo e um hiperônimo mais relevante para

CAPÍTULO 5. CONCLUSÃO 47

cada termo na coleção 20-newsgroups e na adição de um sinônimo para a coleção Reuters, porém, em ambos os casos, sem usar radicalização no pré-processamento da coleção. Isso indica que no cenário com radicalização, muito ruído foi observado nos termos da cole- ção, ocasionando pouca melhoria quando aplicado enriquecimento semântico. A coleção Reuters, a base melhor organizada com relação ao conteúdo dos textos, foi a que mais se beneficiou do enriquecimento semântico pela ontologia WordNet, sendo possível obter melhor resultado de macro-F1 em ambos os cenários (com ou sem radicalização).

Este trabalho abre a oportunidade de realização de novas possibilidades de pesquisa, algumas delas enumeradas a seguir.

5.2

Trabalhos Futuros

As seguintes possibilidades de investigação são vislumbradas para dar continuidade à pesquisa desenvolvida:

• Acoplamento com serviços de ontologias: muitos trabalhos têm se dedicado ao de- senvolvimento de serviços de gerenciamento de ontologias que possibilitam a im- plementação de buscas de termos e suas relações de forma efetiva [9]. Propõe-se a investigação de serviços como estes no processo de enriquecimento semântico de documentos textuais.

• Refinamento da seleção de parâmetros: a validação conduzida no trabalho utilizou- se de representação de documentos textuais em grafos. Propõe-se a realização de experimentos visando descrições baseadas em outras representações de grafo. Novos experimentos, variando-se o tamanho do dicionário de grafos, assim como técnicas de pooling empregadas também precisam ser realizados.

• Novas técnicas de representação de grafos: uma nova linha de pesquisa utiliza outras formas de representação de um grafo em um vetor na linha de Deep Neural Networks (DNN) [7, 32, 42]. Propõe-se a implementação do módulo de representação dos grafos em vetores utilizando este abordagem.

• Novas aplicações: propõe-se a validação do descritor baseado no enriquecimento semântico de dados textuais no contexto de novas aplicações como problemas de recuperação e recomendação baseada em documentos textuais. Outra vertente, potencialmente mais promissora para as técnicas de enriquecimento propostas neste trabalho, é a aplicação do enriquecimento semântico em coleções com textos curtos, como microbogs ou tweets [22].

Referências Bibliográficas

[1] Pinar Alper, Khalid Belhajjame, Carole Goble, and Pinar Karagoz. Small is beautiful: Summarizing scientific workflows using semantic annotations. In Big Data (BigData Congress), 2013 IEEE International Congress on, pages 318–325. IEEE, 2013. [2] Ilkay Altintas, Chad Berkley, Efrat Jaeger, Matthew Jones, Bertram Ludascher, and

Steve Mock. Kepler: an extensible system for design and execution of scientific workflows. In Scientific and Statistical Database Management, 2004. Proceedings. 16th International Conference on, pages 423–424. IEEE, 2004.

[3] Ricardo Baeza-Yates and Berthier Ribeiro-Neto. Recuperação de Informação-: Con- ceitos e Tecnologia das Máquinas de Busca. Bookman Editora, 2013.

[4] Ramakrishna B Bairi, Raghavendra Udupa, and Ganesh Ramakrishnan. A framework for task-specific short document expansion. In Proceedings of the 25th ACM Inter- national on Conference on Information and Knowledge Management, pages 791–800. ACM, 2016.

[5] Louis Bavoil, Steven P Callahan, Patricia J Crossno, Juliana Freire, Carlos E Schei- degger, Cláudio T Silva, and Huy T Vo. Vistrails: Enabling interactive multiple-view visualizations. In Visualization, 2005. VIS 05. IEEE, pages 135–142. IEEE, 2005. [6] Christine L. Borgman. Big Data, Little Data, No Data: Scholarship in the Networked

World. The MIT Press, 2015. ISBN 0262028565, 9780262028561.

[7] Shaosheng Cao, Wei Lu, and Qiongkai Xu. Grarep: Learning graph representations with global structural information. In Proceedings of the 24th ACM International on Conference on Information and Knowledge Management, pages 891–900. ACM, 2015.

[8] Artem Chebotko, Cui Lin, Xubo Fei, Zhaoqiang Lai, Shiyong Lu, Jing Hua, and Farshad Fotouhi. View: a visual scientificworkflow management system. In Services, 2007 IEEE Congress on, pages 207–208. IEEE, 2007.

[9] Jaudete Daltio and Claudia Bauzer Medeiros. Aondê: An ontology web service for interoperability across biodiversity applications. Inf. Syst., 33(7-8):724–753, 2008. doi: 10.1016/j.is.2008.02.001. URL https://doi.org/10.1016/j.is.2008.02.001. [10] Rafael de Oliveira Werneck, Waldir Rodrigues de Almeida, Bernardo Vecchia Stein, Daniel Vatanabe Pazinato, Pedro Ribeiro Mendes Júnior, Otávio Augusto Bizetto

REFERÊNCIAS BIBLIOGRÁFICAS 49

Penatti, Anderson Rocha, and Ricardo da Silva Torres. Kuaa: A unified framework for design, deployment, execution, and recommendation of machine learning experi- ments. Future Generation Computer Systems, 2017.

[11] Ícaro Cavalcante Dourado. Bag of textual graphs: an accurate, efficient, and general- purpose graph-based text representation model. Master’s thesis, UNICAMP, 2016. [12] Katti Faceli, Ana Carolina Lorena, João Gama, and ACPLF Carvalho. Inteligência

artificial: Uma abordagem de aprendizado de máquina. Rio de Janeiro: LTC, 2:192, 2011.

[13] Christiane Fellbaum. WordNet. Wiley Online Library, 1998.

[14] Fred Freitas, Stefan Schulz, and Eduardo Moraes. Survey of current terminologies and ontologies in biology and medicine. RECIIS—Electronic Journal in Communication, Information and Innovation in Health, 3(1):7–18, 2009.

[15] Thomas R Gruber. A translation approach to portable ontology specifications. Kno- wledge acquisition, 5(2):199–220, 1993.

[16] Jayavardhana Gubbi, Rajkumar Buyya, Slaven Marusic, and Marimuthu Pala- niswami. Internet of things (iot): A vision, architectural elements, and future di- rections. Future generation computer systems, 29(7):1645–1660, 2013.

[17] Khaled M Hammouda and Mohamed S Kamel. Efficient phrase-based document indexing for web document clustering. IEEE Transactions on knowledge and data engineering, 16(10):1279–1296, 2004.

[18] Zellig S Harris. Distributional structure. Word, 10(2-3):146–162, 1954.

[19] Mirjana Ivanović and Zoran Budimac. An overview of ontologies and data resources in medical domains. Expert Systems with Applications, 41(11):5158–5166, 2014. [20] Wei Jin and Rohini K Srihari. Graph-based text representation and knowledge dis-

covery. In Proceedings of the 2007 ACM symposium on Applied computing, pages 807–811. ACM, 2007.

[21] Karthik Kambatla, Giorgos Kollias, Vipin Kumar, and Ananth Grama. Trends in big data analytics. Journal of Parallel and Distributed Computing, 74(7):2561–2573, 2014.

[22] Tom Kenter and Maarten De Rijke. Short text similarity with word embeddings. In Proceedings of the 24th ACM International on Conference on Information and Knowledge Management, pages 1411–1420. ACM, 2015.

[23] Jon M Kleinberg. Authoritative sources in a hyperlinked environment. Journal of the ACM (JACM), 46(5):604–632, 1999.

REFERÊNCIAS BIBLIOGRÁFICAS 50

[24] Saar Kuzi, Anna Shtok, and Oren Kurland. Query expansion using word embeddings. In Proceedings of the 25th ACM International on Conference on Information and

Documentos relacionados