• Nenhum resultado encontrado

Estudo 2: Aplicando o TLATE para a Extra¸c˜ ao de Termos

5.2 Experimentos Preliminares

5.2.2 Estudo 2: Aplicando o TLATE para a Extra¸c˜ ao de Termos

Ap´os se obter os resultados preliminares realizados no primeiro experimento, procurou-se aplicar uma t´ecnica mais robusta para a extra¸c˜ao de termos. Desse modo, aplicou-se o TLATE (Conrado et al., 2013), descrito com detalhes na Se¸c˜ao 3.2.1, como m´etodo no m´odulo de extra¸c˜ao de caracter´ısticas. Compararam-se, novamente, os resultados obtidos com aqueles produzidos por metadados estruturados, apresentados na Tabela 5.2. Por fim, as descobertas foram apresentadas em um artigo curto de conferˆencia nacional (D’Addio et al., 2014). Descreve-se, a seguir, o experimento realizado detalhando-se as configura¸c˜oes utilizadas, as altera¸c˜oes realizadas na arquitetura principal e os resultados obtidos.

As etapas realizadas neste experimento s˜ao semelhantes `aquelas realizadas no expe- rimento anterior. Algumas altera¸c˜oes, por´em, foram realizadas nos diversos m´odulos da arquitetura do sistema para que este fosse capaz de alimentar e receber os dados produ- zidos pelo TLATE. No m´odulo de pr´e-processamento, at´e o momento, obtinha-se apenas o lema das palavras. Adotou-se tamb´em a extra¸c˜ao dos radicais, realizada pela utiliza¸c˜ao do algoritmo de Porter. Ao transformar as palavras candidatas em radicais, construiu-se um arquivo que listava a quais palavras um radical se refere.

Tendo isso em mente, o m´odulo de cria¸c˜ao da matriz de sentimento foi modificado para que fosse capaz de analisar tanto lemas quanto radicais de palavras. No ´ultimo caso, o m´odulo recebe um parˆametro extra de entrada, que ´e a lista de palavras por radical. Cada caracter´ıstica, nesse caso, ´e um radical, que compreende um conjunto de palavras

que se relacionam em um mesmo t´opico. O algoritmo de redu¸c˜ao de dimensionalidade pela frequˆencia do item tamb´em foi atualizado para receber ambos tipos de termos.

O m´etodo TLATE (Conrado et al., 2013) originalmente usa aprendizado semi-supervi- sionado transdutivo para classificar as palavras em termos ou n˜ao termos de um dom´ınio. O conjunto de dados utilizado neste trabalho n˜ao pode ser considerado um corpus, e esse fato torna a tarefa de extra¸c˜ao de termos mais desafiadora, pois ´e necess´ario identificar termos sem ter todos os textos que representam o dom´ınio. Neste trabalho, foi aplicado o TLATE para extrair termos que representam coment´arios dos usu´arios.

O TLATE est´a dividido em quatro passos: (i) pr´e-processamento textual, (ii) extra- ¸c˜ao de caracter´ısticas das palavras, (iii) filtragem, e (iv) classifica¸c˜ao transdutiva. Na etapa de pr´e-processamento, efetuaram-se as mesmas rotinas realizadas no experimento anterior, obtendo-se arquivos com anota¸c˜oes textuais produzidas pela Stanford CoreNLP. Adicionalmente, extraiu-se o radical das palavras atrav´es do algoritmo de radicaliza¸c˜ao de Porter, e removeram-se do conjunto de palavras candidatas: palavras de apenas um caractere, com caracteres especiais, n´umeros e stopwords.

Na etapa de extra¸c˜ao de caracter´ısticas das palavras, foram utilizadas 24 caracter´ısti- cas que variam de conhecimento estat´ıstico e lingu´ıstico para conhecimento h´ıbrido mais sofisticado. As trˆes caracter´ısticas lingu´ısticas utilizadas foram: classe gramatical, que assume que termos s˜ao substantivos, m phrase que indica se uma palavra ´e parte de um sintagma nominal, e (ii) k noun phrase, que indica se uma palavra ´e n´ucleo de sintagma nominal. As Tabelas 3.1 e 3.2, localizadas na Se¸c˜ao 3.2.1 descrevem os recursos estat´ısticos e h´ıbridos utilizados.

Na etapa de filtragem, foram testados dois filtros diferentes: (i) Filtro DF, que remove os candidatos que ocorrem apenas em um documento no conjunto de revis˜oes, porque aqueles n˜ao s˜ao representativos, e (ii) Filtro DF N que, a partir dos candidatos n˜ao re- movidos pelo filtro DF, exclu´ıram-se aqueles que n˜ao s˜ao substantivos. Vale notar que o segundo filtro ´e opcional, sendo utilizado neste experimento pois o dom´ınio abordado foi o de filmes. Se aplicado em outro dom´ınio ao qual palavras de outra classe gramatical constituem termos, este filtro pode ser descartado.

Estes dois conjuntos de candidatos gerados na etapa de filtragem s˜ao as entradas para o passo de classifica¸c˜ao transdutiva. Representou-se o conjunto de revis˜oes em uma rede m´utua de k vizinhos mais pr´oximos (Rossi et al., 2014). Foi testado com dois valores de k, k = {7, 57}, e a distˆancia utilizada foi a Euclidiana. Utilizou-se tais configura- ¸c˜oes por serem as recomendadas, de acordo com os resultados apresentados por Conrado (Conrado-Laguna, 2014).

Esta rede ´e dada a um algoritmo de aprendizagem transdutiva com o objetivo de clas- sificar os candidatos em termos ou n˜ao termos. A partir das revis˜oes, foram selecionados

manualmente 16 candidatos rotulados como termos e 16 como n˜ao-termos. Utilizou-se o algoritmo LLGC (Zhou et al., 2004) para aprender com as informa¸c˜oes desses candidatos rotulados a como classificar os demais em termos ou n˜ao termos. Portanto, o algoritmo produziu uma lista de candidatos classificados como termos para os conjunto de candi- datos selecionados pelo filtro DF e pelo filtro DF N. A lista gerada a partir do filtro DF tem 27229 termos candidatos e o LLGC extraiu 362 termos quando se utiliza k = 7 e 16118 quando k = 57. O filtro DF N selecionou 12815 candidatos e o LLGC extraiu 313 termos ao usar k = 7 e 8433 quando k = 57.

Para esta abordagem, foram constru´ıdos quatro conjunto de caracter´ısticas atrav´es da aplica¸c˜ao das t´ecnicas descritas na Se¸c˜ao 3.2.1: dois conjuntos foram produzidos pela aplica¸c˜ao da classifica¸c˜ao transdutiva com k = 7 e k = 57 no filtro DF, e os outros dois foram produzidos pela aplica¸c˜ao do mesmo algoritmo de classifica¸c˜ao no filtro DF N. A Tabela 5.4 resume os resultados obtidos.

Tabela 5.4: Os resultados de Precis˜ao em 10 e MAP para todas as matrizes produzidas pela abordagem proposta.

prec@10 MAP

Filtro DF k=7 0,03752 0,03069

k=57 0,05922 0,04626

Filtro DF N k=7 0,03904 0,03223

k=57 0,05991 0,04764

Como pode ser observado, as caracter´ısticas geradas pela aplica¸c˜ao da classifica¸c˜ao transdutiva no conjunto gerado pelo filtro DF N produz melhores resultados para o sis- tema de recomenda¸c˜ao. Apesar de a diferen¸ca ser pequena, o filtro DF N produz um conjunto muito menor de termos candidatos, permitindo que o algoritmo de classifica¸c˜ao execute mais r´apido e at´e mesmo produza um conjunto menor de termos, que constituir˜ao as caracter´ısticas dos itens. Por ter um conjunto menor de caracter´ısticas, a recomenda¸c˜ao tamb´em ´e executada mais rapidamente. Por fim, a Figura 5.6 compara os resultados ob- tidos pelo filtro DF N com os resultados base. Observa-se que com k = 57, obtiveram-se resultados consideravelmente melhores do que os resultados base. Com k = 7, os resulta- dos foram similares aos base, por´em o tamanho do conjunto de caracter´ısticas produzido ´e significantemente menor que a maioria dos conjuntos dos metadados.