• Nenhum resultado encontrado

4 Similaridade Semântica

4.1 Bases de Dados Lexicais

Uma base de dados lexical é um banco de dados que contém todos os léxicos de um idioma, ou seja, é um conjunto de palavras utilizadas por um idioma. As bases de dados lexicais armazenam as definições das palavras, seus sinônimos, sua classe lexical, informações referentes ao contexto da palavra, assim como as relações semânticas entre elas. Para o idioma Português, podemos citar como exemplos, a base de dados lexical DIADORIM (Greghi et al., 2002) e WordNet.Br (Dias e Moraes, 2002). Para o idioma Inglês podemos citar a base lexical DANTE (Kilgarriff, 2010) e a base lexical WordNet (Miller, 1995).

um projeto de pesquisa da Universidade de Princeton. lexicais mais utilizadas em pesquisas

psicolinguísticas e computacionais de memória lexical human importante banco de dados

conjuntos de sinônimos cognitivos chamados

WordNet

denotam o mesmo conceito e que são permutáveis em muitos contextos. Existem quatro relações semânticas pa

merônimo/homônimo ( merônimo/substância holô tipo hipônimo/hiperônimo das relações. A Figura

grafo, em que cada nó representa um um hiperônimo de

visto na Figura 9.

A WordNet é um

um projeto de pesquisa da Universidade de Princeton. lexicais mais utilizadas em pesquisas

psicolinguísticas e computacionais de memória lexical human importante banco de dados

conjuntos de sinônimos cognitivos chamados Os synsets

WordNet, a principal relação entre as palavras é a relação por sinônimos

denotam o mesmo conceito e que são permutáveis em muitos contextos. Existem quatro relações semânticas pa

merônimo/homônimo ( merônimo/substância holô tipo hipônimo/hiperônimo das relações. A Figura

Figura

A W

grafo, em que cada nó representa um um hiperônimo de

visto na Figura 9.

WordNet é um

um projeto de pesquisa da Universidade de Princeton. lexicais mais utilizadas em pesquisas

psicolinguísticas e computacionais de memória lexical human importante banco de dados

conjuntos de sinônimos cognitivos chamados

synsets são interl

a principal relação entre as palavras é a relação por sinônimos

denotam o mesmo conceito e que são permutáveis em muitos contextos. Existem quatro relações semânticas para nomes utilizadas na WordNet

merônimo/homônimo (part merônimo/substância holônimo ( tipo hipônimo/hiperônimo

das relações. A Figura 9 apresenta um fragmento d

Figura 9 - Fragmento

WordNet, como uma base de conhecimento grafo, em que cada nó representa um

um hiperônimo de v. A Figura 10 apresenta visto na Figura 9.

WordNet é uma grande ba

um projeto de pesquisa da Universidade de Princeton. lexicais mais utilizadas em pesquisas

psicolinguísticas e computacionais de memória lexical human importante banco de dados, os nomes, verbos

conjuntos de sinônimos cognitivos chamados

são interligados por relações conceituais semânticas e lexicais. Na a principal relação entre as palavras é a relação por sinônimos

denotam o mesmo conceito e que são permutáveis em muitos contextos. Existem quatro ra nomes utilizadas na WordNet

part-of), parte merônimo/parte

nimo (substance

tipo hipônimo/hiperônimo (is-a) é a mais comuns apresenta um fragmento d

Fragmento de relação do tipo

ordNet, como uma base de conhecimento grafo, em que cada nó representa um

. A Figura 10 apresenta

grande base de dados lexical para o idioma Inglês um projeto de pesquisa da Universidade de Princeton.

envolvendo análise de textos e foi inspirada em psicolinguísticas e computacionais de memória lexical human

os nomes, verbos, advérbios e adjetivos são agrupados dentro de conjuntos de sinônimos cognitivos chamados synsets

igados por relações conceituais semânticas e lexicais. Na a principal relação entre as palavras é a relação por sinônimos

denotam o mesmo conceito e que são permutáveis em muitos contextos. Existem quatro ra nomes utilizadas na WordNet

), parte merônimo/parte

substance-of) (Men

) é a mais comuns apresenta um fragmento d

de relação do tipo

ordNet, como uma base de conhecimento

grafo, em que cada nó representa um synset e cada aresta direcionada . A Figura 10 apresenta, na forma de grafo, o

de dados lexical para o idioma Inglês

um projeto de pesquisa da Universidade de Princeton. A WordNet é uma das bases de dados envolvendo análise de textos e foi inspirada em

psicolinguísticas e computacionais de memória lexical human

advérbios e adjetivos são agrupados dentro de

synsets.

igados por relações conceituais semânticas e lexicais. Na a principal relação entre as palavras é a relação por sinônimos

denotam o mesmo conceito e que são permutáveis em muitos contextos. Existem quatro ra nomes utilizadas na WordNet, que são hipônimo/hiperônimo

), parte merônimo/parte holô (Meng et al., 2013) ) é a mais comuns, correspondendo apresenta um fragmento de relação is

de relação do tipo is-a (

ordNet, como uma base de conhecimento,

e cada aresta direcionada , na forma de grafo, o

de dados lexical para o idioma Inglês

WordNet é uma das bases de dados envolvendo análise de textos e foi inspirada em

psicolinguísticas e computacionais de memória lexical humana (Fellbaum, 1998)

advérbios e adjetivos são agrupados dentro de

igados por relações conceituais semânticas e lexicais. Na a principal relação entre as palavras é a relação por sinônimos

denotam o mesmo conceito e que são permutáveis em muitos contextos. Existem quatro que são hipônimo/hiperônimo

ônimo (member

al., 2013). Na WordNet, a relaç correspondendo a cerca de 80% do total

is-a entre conceitos na WordNet.

(Meng et al., 2013)

pode ser representada como um e cada aresta direcionada

, na forma de grafo, o fragmento de relação de dados lexical para o idioma Inglês,

WordNet é uma das bases de dados envolvendo análise de textos e foi inspirada em

(Fellbaum, 1998)

advérbios e adjetivos são agrupados dentro de

igados por relações conceituais semânticas e lexicais. Na a principal relação entre as palavras é a relação por sinônimos, em que as palavras denotam o mesmo conceito e que são permutáveis em muitos contextos. Existem quatro

que são hipônimo/hiperônimo

member-of) e sub

. Na WordNet, a relaç cerca de 80% do total entre conceitos na WordNet.

Meng et al., 2013)

pode ser representada como um e cada aresta direcionada v → w indica que

fragmento de relação produto de WordNet é uma das bases de dados envolvendo análise de textos e foi inspirada em teorias (Fellbaum, 1998). Nesse advérbios e adjetivos são agrupados dentro de

igados por relações conceituais semânticas e lexicais. Na em que as palavras denotam o mesmo conceito e que são permutáveis em muitos contextos. Existem quatro que são hipônimo/hiperônimo (is-a), ) e substância . Na WordNet, a relação do cerca de 80% do total entre conceitos na WordNet.

pode ser representada como um indica que w é fragmento de relação is-a

produto de WordNet é uma das bases de dados teorias e advérbios e adjetivos são agrupados dentro de

igados por relações conceituais semânticas e lexicais. Na em que as palavras denotam o mesmo conceito e que são permutáveis em muitos contextos. Existem quatro ), stância ão do cerca de 80% do total

pode ser representada como um é

Figura 10 - Fragmento de relação do tipo is-a na forma de grafo (adaptada de Meng et al., 2013)

A versão 3.1 da WordNet apresenta 155.287 palavras , 117.659 synsets e 206.941 pares palavra-sentido organizadas em hierarquias taxonômicas. Alguns dos métodos de semelhança semântica mais populares são implementados e avaliados usando a WordNet como ontologia de referência (Varelas et al., 2005). A seguir, será introduzido o funcionamento de funções de similaridade que fazem uso do banco de dados lexical WordNet.