• Nenhum resultado encontrado

Reproduzimos também a avaliação da qualidade da desambiguação sobre as instâncias da base para as quais as abordagens incluem, no seu conjunto de candidatos, o sinônimo rotulado como moda nos dados anotados (gold). A competição realizou tal comparação incluindo todas as abordagens até então apresentadas17.

5.6.1 Precisão do Sistema

Tabela 5.10:Precisão da desambiguação dos métodos para somente as instâncias que viabili- zam a construção de um inventários de candidatos que inclui o melhor substituto (Linha “total00na tabela).

Sistema HIT UNT KU MELB USYD IRST2 IRST1 TOR MS MSL-DE

PSis 52,53 59,67 42,31 53,71 37,77 44,57 43,82 37,91 48,11 53,12 total 499 432 587 465 575 888 364 152 345 544

O primeiro cenário, que é ilustrado na Tabela5.10, compreende os resultados para a métrica de desambiguação PSis (Seção2.6.4). Nossa abordagem representa a terceira

mais bem avaliada, ficando 12% inferior à UNT. Meio a todas as abordagens avaliadas neste cenário, a UNT, naturalmente é que a mais combina métodos durante a desam- biguação, o que tende a captar melhor as relações sob todos os aspectos: sintáticos

17

Experimentos e Resultados 95

e semânticos sob menores e maiores contextos com muita ênfase em contadores de frequência. Os métodos IRST2 e KU, que aproveitam da frequência contada a partir de motores de busca, também obtiveram bons resultados. O método de [52], surpreen- dentemente, superou quatro métodos, ainda que a sua representação vetorial (com dimensionalidade reduzida) tenha sido constantemente inferior a grande parte das abordagens para as subtarefas de substituição.

A amostragem utilizada para descrever a precisão de cada método é problemática na instauração de um cenário de igualdade, já que os resultados estão condicionados às específicas habilidades de seleção de candidatos por cada abordagem. A linha inferior da Tabela5.10(“Instâncias”) destaca a quantidade de instâncias que satisfazem ao pré- requisito para a reprodução da métrica avaliada. Observando a variação da amostra e da precisão das abordagens, o resultado é pouco assertivo quanto à superioridade de alguma técnica específica inclusa nas abordagens, diferente da tarefa de substituição, onde a combinação dicionário e contadores de frequências são mais competitivos.

5.6.2 Precisão entre Todos

Tabela 5.11:Resultado da desambiguação sobre as instâncias para as quais todas as abordagens incluem o melhor substituto no seu conjunto de candidatos.

Sistema UNT KU IRST2 MSL-DE PT 67,04 44,82 45,59 59,00

A competição original avaliou também a qualidade da desambiguação utilizando somente aquelas instâncias com moda para as quais todos os participantes da compe- tição foram capazes de colocar o substituto correto no seu conjunto de candidatos. No entanto, a premissa que assegura este cenário isonômico para as abordagens reduz a base de experimentação em um conjunto ínfimo de 17 instâncias das 1710 originais (≈1%). Consideramos esse volume de instâncias uma amostragem muito pequena, dando margem a resultados pouco fidedignos para mensurar a qualidade das abor- dagens. Portanto, afrouxamos a restritividade do cenário em questão, reduzindo o conjunto de abordagens testadas (apenas IRST2, KU e UNT), e aumentando conse- quentemente o espaço amostral utilizado para 261 das 1710 instâncias (≈15%). Quanto aos trabalhos escolhidos, em nossa defesa, priorizamos aqueles que representam os melhores métodos para as subtarefas best e oot para R e Rm. Destacamos outra vez ao

96 Experimentos e Resultados

cobertura de sinônimos, já que avalia as abordagens que inclui os melhores substitutos (independente de serem a moda ou não) meio às dez sugestões admitidas.

O cenário da Tabela5.11exibe os resultados para a métrica de desambiguação PT (descrita na Seção2.6.4). A UNT, mais uma vez, é o teto da avaliação. Obtendo 67.04 de precisão, contra 59.00 do MSL-DE. Entretanto, ainda que o resultado da desambiguação seja competitivo, a qualidade das instâncias não é investigada no cenário. Mais uma vez, o MSL-DE carece de apresentar resultados mais competitivos em cenário que oot/revocação, já que atribui peso maior aos bons substitutos, mas que não são majoritários no gold. A desambiguação aqui mensurada reduz a avaliação somente à precisão sobre o substituto ideal, o que nem sempre é satisfatório para predizer a definição correta em cenários para os quais tem-se um inventário de definições explicitamente definido.

Conforme observado na Seção5.4. Nosso método se mostrou competitivo para encontrar o substituto mais adequado. No entanto, a desambiguação de sentido está fortemente atrelada à base que constitui o inventário de sentidos. A definição correta a ser descoberta no processo de desambiguação pode estar associada a uma lista de sinônimos com tamanho expressivo. A desambiguação de sentido reproduzida neste trabalho não possui inventário de sentido explicitamente definido, sendo men- surada em função da escolha o termo certo na substituição isolando a mensuração da qualidade da seleção/extração da avaliação. Partindo da premissa que muitos significados de uma mesma palavra possuem muitos sinônimos em suas listas compar- tilhados, emerge como necessidade a descoberta não só do substituto principal, mas dos melhores substitutos. A descoberta da definição correta de t se daria através da diferenciação entre os sinônimos presentes em sua lista que não são compartilhados com as definições incorretas.

Capítulo 6

Conclusões e Trabalhos Futuros

Neste capítulo destacamos as conclusões a respeito do trabalho desenvolvido (Seção

6.1) e os trabalhos futuros possíveis a partir do que fora observado (Seção6.2).

6.1 Conclusões

A substituição lexical possui diversas aplicações no âmbito de sistemas de recuperação de informação, através da indexação semântica e expansão de consultas, e no proces- samento de linguagem natural, em tarefas como desambiguação lexical de sentido e tradução de máquina.

Destacados os cenários de aplicação, apresentamos um método destinado à substi- tuição lexical que usa dicionários, n-grams e modelos de embeddings. Para dicionários, utilizamos de seus significados existentes, extraindo potenciais bons substitutos atra- vés das relações ontológicas verificando a concordância entre anotadores de diferentes bases, atestando se tais conexões ontológicas provêm alternativas promissoras. Na prática, criamos dois critérios de ordenação distintos, que atendem a dois diferentes propósitos: um em pequenos contextos (baseado em n-grams) para atestar a integri- dade sintática do substituto; e outro na totalidade da sentença buscando uma forte correlação com a palavra marcada para a substituição. A partir desta correlação, alimentamos uma operação algébrica para sugerir melhores substitutos contidos no espaço vetorial.

Nossa abordagem se provou competitiva para selecionar o melhor substituto para as instâncias que possuem uma moda durante o processo de anotação (Seção5.4). Para

98 Conclusões e Trabalhos Futuros

o caso considerando todas as instâncias, nossa abordagem se mostrou competitiva ao estado da arte. Quando investigamos a junção de dicionários/thesauri, conseguimos a aprimorar todas as subtarefas e métricas (Seção5.3), atestando que a concordância entre anotadores de bases diferentes é de relevância para o começo do processo.

Ainda que com bons resultados na predição do melhor substituto meio a dez tentativas para as instâncias com moda, nosso trabalho desempenhou mal na predição de substitutos para entradas sem moda meio a dez tentativas, o que atesta que o MSL-DE carece de aprimoramento para obter contadores de frequência mais precisos para alimentar o Avaliador de Contexto. Tal deficiência, talvez seja explicada por um possível viés para a palavra mais usual nos contextos aprendidos dos corpora utilizados. Nosso método, diferente de todos ao nosso comparados, gera os n-grams de corpora distintos.