Estudo 2: Aplicando o TLATE para a Extra¸c˜ ao de Termos

5.2 Experimentos Preliminares

5.2.2 Estudo 2: Aplicando o TLATE para a Extra¸c˜ ao de Termos

Após se obter os resultados preliminares realizados no primeiro experimento, procurou-se aplicar uma técnica mais robusta para a extra¸cão de termos. Desse modo, aplicou-se o TLATE (Conrado et al., 2013), descrito com detalhes na Se¸cão 3.2.1, como método no módulo de extra¸cão de caracter´ısticas. Compararam-se, novamente, os resultados obtidos com aqueles produzidos por metadados estruturados, apresentados na Tabela 5.2. Por fim, as descobertas foram apresentadas em um artigo curto de conferência nacional (D’Addio et al., 2014). Descreve-se, a seguir, o experimento realizado detalhando-se as configura¸cões utilizadas, as altera¸cões realizadas na arquitetura principal e os resultados obtidos.

As etapas realizadas neste experimento são semelhantes àquelas realizadas no experimento anterior. Algumas altera¸cões, porém, foram realizadas nos diversos módulos da arquitetura do sistema para que este fosse capaz de alimentar e receber os dados produzidos pelo TLATE. No módulo de pré-processamento, até o momento, obtinha-se apenas o lema das palavras. Adotou-se também a extra¸cão dos radicais, realizada pela utiliza¸cão do algoritmo de Porter. Ao transformar as palavras candidatas em radicais, construiu-se um arquivo que listava a quais palavras um radical se refere.

Tendo isso em mente, o módulo de cria¸cão da matriz de sentimento foi modificado para que fosse capaz de analisar tanto lemas quanto radicais de palavras. No último caso, o módulo recebe um parâmetro extra de entrada, que é a lista de palavras por radical. Cada caracter´ıstica, nesse caso, é um radical, que compreende um conjunto de palavras

que se relacionam em um mesmo tópico. O algoritmo de redu¸cão de dimensionalidade pela frequência do item também foi atualizado para receber ambos tipos de termos.

O método TLATE (Conrado et al., 2013) originalmente usa aprendizado semi-supervi- sionado transdutivo para classificar as palavras em termos ou não termos de um dom´ınio. O conjunto de dados utilizado neste trabalho não pode ser considerado um corpus, e esse fato torna a tarefa de extra¸cão de termos mais desafiadora, pois é necessário identificar termos sem ter todos os textos que representam o dom´ınio. Neste trabalho, foi aplicado o TLATE para extrair termos que representam comentários dos usuários.

O TLATE está dividido em quatro passos: (i) pré-processamento textual, (ii) extra- ¸cão de caracter´ısticas das palavras, (iii) filtragem, e (iv) classifica¸cão transdutiva. Na etapa de pré-processamento, efetuaram-se as mesmas rotinas realizadas no experimento anterior, obtendo-se arquivos com anota¸cões textuais produzidas pela Stanford CoreNLP. Adicionalmente, extraiu-se o radical das palavras através do algoritmo de radicaliza¸cão de Porter, e removeram-se do conjunto de palavras candidatas: palavras de apenas um caractere, com caracteres especiais, números e stopwords.

Na etapa de extra¸cão de caracter´ısticas das palavras, foram utilizadas 24 caracter´ısti- cas que variam de conhecimento estat´ıstico e lingu´ıstico para conhecimento h´ıbrido mais sofisticado. As três caracter´ısticas lingu´ısticas utilizadas foram: classe gramatical, que assume que termos são substantivos, m phrase que indica se uma palavra é parte de um sintagma nominal, e (ii) k noun phrase, que indica se uma palavra é núcleo de sintagma nominal. As Tabelas 3.1 e 3.2, localizadas na Se¸cão 3.2.1 descrevem os recursos estat´ısticos e h´ıbridos utilizados.

Na etapa de filtragem, foram testados dois filtros diferentes: (i) Filtro DF, que remove os candidatos que ocorrem apenas em um documento no conjunto de revisões, porque aqueles não são representativos, e (ii) Filtro DF N que, a partir dos candidatos não re- movidos pelo filtro DF, exclu´ıram-se aqueles que não são substantivos. Vale notar que o segundo filtro é opcional, sendo utilizado neste experimento pois o dom´ınio abordado foi o de filmes. Se aplicado em outro dom´ınio ao qual palavras de outra classe gramatical constituem termos, este filtro pode ser descartado.

Estes dois conjuntos de candidatos gerados na etapa de filtragem são as entradas para o passo de classifica¸cão transdutiva. Representou-se o conjunto de revisões em uma rede mútua de k vizinhos mais próximos (Rossi et al., 2014). Foi testado com dois valores de k, k = {7, 57}, e a distância utilizada foi a Euclidiana. Utilizou-se tais configura- ¸cões por serem as recomendadas, de acordo com os resultados apresentados por Conrado (Conrado-Laguna, 2014).

Esta rede é dada a um algoritmo de aprendizagem transdutiva com o objetivo de classificar os candidatos em termos ou não termos. A partir das revisões, foram selecionados

manualmente 16 candidatos rotulados como termos e 16 como não-termos. Utilizou-se o algoritmo LLGC (Zhou et al., 2004) para aprender com as informa¸cões desses candidatos rotulados a como classificar os demais em termos ou não termos. Portanto, o algoritmo produziu uma lista de candidatos classificados como termos para os conjunto de candidatos selecionados pelo filtro DF e pelo filtro DF N. A lista gerada a partir do filtro DF tem 27229 termos candidatos e o LLGC extraiu 362 termos quando se utiliza k = 7 e 16118 quando k = 57. O filtro DF N selecionou 12815 candidatos e o LLGC extraiu 313 termos ao usar k = 7 e 8433 quando k = 57.

Para esta abordagem, foram constru´ıdos quatro conjunto de caracter´ısticas através da aplica¸cão das técnicas descritas na Se¸cão 3.2.1: dois conjuntos foram produzidos pela aplica¸cão da classifica¸cão transdutiva com k = 7 e k = 57 no filtro DF, e os outros dois foram produzidos pela aplica¸cão do mesmo algoritmo de classifica¸cão no filtro DF N. A Tabela 5.4 resume os resultados obtidos.

Tabela 5.4: Os resultados de Precis˜ao em 10 e MAP para todas as matrizes produzidas pela abordagem proposta.

prec@10 MAP

Filtro DF k=7 0,03752 0,03069

k=57 0,05922 0,04626

Filtro DF N k=7 0,03904 0,03223

k=57 0,05991 0,04764

Como pode ser observado, as caracter´ısticas geradas pela aplica¸cão da classifica¸cão transdutiva no conjunto gerado pelo filtro DF N produz melhores resultados para o sistema de recomenda¸cão. Apesar de a diferen¸ca ser pequena, o filtro DF N produz um conjunto muito menor de termos candidatos, permitindo que o algoritmo de classifica¸cão execute mais rápido e até mesmo produza um conjunto menor de termos, que constituirão as caracter´ısticas dos itens. Por ter um conjunto menor de caracter´ısticas, a recomenda¸cão também é executada mais rapidamente. Por fim, a Figura 5.6 compara os resultados obtidos pelo filtro DF N com os resultados base. Observa-se que com k = 57, obtiveram-se resultados consideravelmente melhores do que os resultados base. Com k = 7, os resultados foram similares aos base, porém o tamanho do conjunto de caracter´ısticas produzido é significantemente menor que a maioria dos conjuntos dos metadados.

No documento Filtragem baseada em conteúdo auxiliada por métodos de indexação colaborativa (páginas 97-99)