4 Similaridade Semântica
4.1 Bases de Dados Lexicais
Uma base de dados lexical é um banco de dados que contém todos os léxicos de um idioma, ou seja, é um conjunto de palavras utilizadas por um idioma. As bases de dados lexicais armazenam as definições das palavras, seus sinônimos, sua classe lexical, informações referentes ao contexto da palavra, assim como as relações semânticas entre elas. Para o idioma Português, podemos citar como exemplos, a base de dados lexical DIADORIM (Greghi et al., 2002) e WordNet.Br (Dias e Moraes, 2002). Para o idioma Inglês podemos citar a base lexical DANTE (Kilgarriff, 2010) e a base lexical WordNet (Miller, 1995).
um projeto de pesquisa da Universidade de Princeton. lexicais mais utilizadas em pesquisas
psicolinguísticas e computacionais de memória lexical human importante banco de dados
conjuntos de sinônimos cognitivos chamados
WordNet
denotam o mesmo conceito e que são permutáveis em muitos contextos. Existem quatro relações semânticas pa
merônimo/homônimo ( merônimo/substância holô tipo hipônimo/hiperônimo das relações. A Figura
grafo, em que cada nó representa um um hiperônimo de
visto na Figura 9.
A WordNet é um
um projeto de pesquisa da Universidade de Princeton. lexicais mais utilizadas em pesquisas
psicolinguísticas e computacionais de memória lexical human importante banco de dados
conjuntos de sinônimos cognitivos chamados Os synsets
WordNet, a principal relação entre as palavras é a relação por sinônimos
denotam o mesmo conceito e que são permutáveis em muitos contextos. Existem quatro relações semânticas pa
merônimo/homônimo ( merônimo/substância holô tipo hipônimo/hiperônimo das relações. A Figura
Figura
A W
grafo, em que cada nó representa um um hiperônimo de
visto na Figura 9.
WordNet é um
um projeto de pesquisa da Universidade de Princeton. lexicais mais utilizadas em pesquisas
psicolinguísticas e computacionais de memória lexical human importante banco de dados
conjuntos de sinônimos cognitivos chamados
synsets são interl
a principal relação entre as palavras é a relação por sinônimos
denotam o mesmo conceito e que são permutáveis em muitos contextos. Existem quatro relações semânticas para nomes utilizadas na WordNet
merônimo/homônimo (part merônimo/substância holônimo ( tipo hipônimo/hiperônimo
das relações. A Figura 9 apresenta um fragmento d
Figura 9 - Fragmento
WordNet, como uma base de conhecimento grafo, em que cada nó representa um
um hiperônimo de v. A Figura 10 apresenta visto na Figura 9.
WordNet é uma grande ba
um projeto de pesquisa da Universidade de Princeton. lexicais mais utilizadas em pesquisas
psicolinguísticas e computacionais de memória lexical human importante banco de dados, os nomes, verbos
conjuntos de sinônimos cognitivos chamados
são interligados por relações conceituais semânticas e lexicais. Na a principal relação entre as palavras é a relação por sinônimos
denotam o mesmo conceito e que são permutáveis em muitos contextos. Existem quatro ra nomes utilizadas na WordNet
part-of), parte merônimo/parte
nimo (substance
tipo hipônimo/hiperônimo (is-a) é a mais comuns apresenta um fragmento d
Fragmento de relação do tipo
ordNet, como uma base de conhecimento grafo, em que cada nó representa um
. A Figura 10 apresenta
grande base de dados lexical para o idioma Inglês um projeto de pesquisa da Universidade de Princeton.
envolvendo análise de textos e foi inspirada em psicolinguísticas e computacionais de memória lexical human
os nomes, verbos, advérbios e adjetivos são agrupados dentro de conjuntos de sinônimos cognitivos chamados synsets
igados por relações conceituais semânticas e lexicais. Na a principal relação entre as palavras é a relação por sinônimos
denotam o mesmo conceito e que são permutáveis em muitos contextos. Existem quatro ra nomes utilizadas na WordNet
), parte merônimo/parte
substance-of) (Men
) é a mais comuns apresenta um fragmento d
de relação do tipo
ordNet, como uma base de conhecimento
grafo, em que cada nó representa um synset e cada aresta direcionada . A Figura 10 apresenta, na forma de grafo, o
de dados lexical para o idioma Inglês
um projeto de pesquisa da Universidade de Princeton. A WordNet é uma das bases de dados envolvendo análise de textos e foi inspirada em
psicolinguísticas e computacionais de memória lexical human
advérbios e adjetivos são agrupados dentro de
synsets.
igados por relações conceituais semânticas e lexicais. Na a principal relação entre as palavras é a relação por sinônimos
denotam o mesmo conceito e que são permutáveis em muitos contextos. Existem quatro ra nomes utilizadas na WordNet, que são hipônimo/hiperônimo
), parte merônimo/parte holô (Meng et al., 2013) ) é a mais comuns, correspondendo apresenta um fragmento de relação is
de relação do tipo is-a (
ordNet, como uma base de conhecimento,
e cada aresta direcionada , na forma de grafo, o
de dados lexical para o idioma Inglês
WordNet é uma das bases de dados envolvendo análise de textos e foi inspirada em
psicolinguísticas e computacionais de memória lexical humana (Fellbaum, 1998)
advérbios e adjetivos são agrupados dentro de
igados por relações conceituais semânticas e lexicais. Na a principal relação entre as palavras é a relação por sinônimos
denotam o mesmo conceito e que são permutáveis em muitos contextos. Existem quatro que são hipônimo/hiperônimo
ônimo (member
al., 2013). Na WordNet, a relaç correspondendo a cerca de 80% do total
is-a entre conceitos na WordNet.
(Meng et al., 2013)
pode ser representada como um e cada aresta direcionada
, na forma de grafo, o fragmento de relação de dados lexical para o idioma Inglês,
WordNet é uma das bases de dados envolvendo análise de textos e foi inspirada em
(Fellbaum, 1998)
advérbios e adjetivos são agrupados dentro de
igados por relações conceituais semânticas e lexicais. Na a principal relação entre as palavras é a relação por sinônimos, em que as palavras denotam o mesmo conceito e que são permutáveis em muitos contextos. Existem quatro
que são hipônimo/hiperônimo
member-of) e sub
. Na WordNet, a relaç cerca de 80% do total entre conceitos na WordNet.
Meng et al., 2013)
pode ser representada como um e cada aresta direcionada v → w indica que
fragmento de relação produto de WordNet é uma das bases de dados envolvendo análise de textos e foi inspirada em teorias (Fellbaum, 1998). Nesse advérbios e adjetivos são agrupados dentro de
igados por relações conceituais semânticas e lexicais. Na em que as palavras denotam o mesmo conceito e que são permutáveis em muitos contextos. Existem quatro que são hipônimo/hiperônimo (is-a), ) e substância . Na WordNet, a relação do cerca de 80% do total entre conceitos na WordNet.
pode ser representada como um indica que w é fragmento de relação is-a
produto de WordNet é uma das bases de dados teorias e advérbios e adjetivos são agrupados dentro de
igados por relações conceituais semânticas e lexicais. Na em que as palavras denotam o mesmo conceito e que são permutáveis em muitos contextos. Existem quatro ), stância ão do cerca de 80% do total
pode ser representada como um é
Figura 10 - Fragmento de relação do tipo is-a na forma de grafo (adaptada de Meng et al., 2013)
A versão 3.1 da WordNet apresenta 155.287 palavras , 117.659 synsets e 206.941 pares palavra-sentido organizadas em hierarquias taxonômicas. Alguns dos métodos de semelhança semântica mais populares são implementados e avaliados usando a WordNet como ontologia de referência (Varelas et al., 2005). A seguir, será introduzido o funcionamento de funções de similaridade que fazem uso do banco de dados lexical WordNet.