Revisão de
Revisão de
“
“
Automatic
Automatic
Acquisition
Acquisition
and
and
Expansion
Expansion
of
of
Hypernym
Hypernym
Links
Links
”
”
Emmanuel
Emmanuel
Morin
Morin
e
e
Christian
Christian
Jacquemin
Jacquemin
Por Lu
Por Luíís Sarmentos Sarmento Linguateca
Introdu
Introdu
ç
ç
ão
ão
Objectivo
Objectivo
facilitar a construfacilitar a construçção automão automáática de tesauros a partir de texto tica de tesauros a partir de texto
“
“livrelivre””
descobrir reladescobrir relaçções entre Unidades Terminolões entre Unidades Terminolóógicasgicas
Extracç
Extrac
ção de informa
ão de informa
ção / Conhecimento
ç
ão / Conhecimento
ExtracExtracçção de Relaão de Relaçções Semânticasões Semânticas
Principalmente HiperonPrincipalmente Hiperoníímia/Hiponmia/Hiponíímiamia
RelaRelaçções ões ““FusãoFusão”” e e ””ProduzProduz””
Envolve
Envolve
ExtracExtracçção de Terminologia (indirectamente)ão de Terminologia (indirectamente)
Pesquisas/Inferência de PLSPesquisas/Inferência de PLS
Introdu
Introdu
ç
ç
ão
ão
Muitas semelhan
Muitas semelhan
ç
ç
as com o Corp
as com o Corp
ó
ó
grafo!
grafo!
Ponto de vista t
Ponto de vista t
é
é
cnico
cnico
Filosofia de Pesquisa
Filosofia de Pesquisa
Mais sofisticado que o Corp
Mais sofisticado que o Corp
ó
ó
grafo na:
grafo na:
Gera
Gera
ç
ç
ão de variantes terminol
ão de variantes terminol
ó
ó
gicos
gicos
Obten
Obten
ç
ç
ão de PLS: Padrões L
ão de PLS: Padrões
L
é
é
xico-
xico
-Sint
Sint
á
á
cticos
cticos
Corp
Corp
ó
ó
grafo uma ferramenta de utilizador:
grafo uma ferramenta de utilizador:
Arquitectura
Arquitectura
Sistema envolve 3 ferramentas:
Sistema envolve 3 ferramentas:
1.
1. ACABIT (ACABIT (DailleDaille 1996): 1996):
extracextracçção de UT multião de UT multi--palavrapalavra
2.
2. FASTR (FASTR (JacqueminJacquemin, 1996): , 1996):
obtenobtençção de variantes UT ão de variantes UT
muito interessante muito interessante --> podia ser desenvolvido para PT> podia ser desenvolvido para PT
3.
3. PromPromééththééee ((MorinMorin, 1999):, 1999):
EstruturaEstruturaçção das UT (i.e.: obtenão das UT (i.e.: obtençção de relaão de relaçções)ões)
Pesquisa de evidências usando PLSPesquisa de evidências usando PLS
O artigo foca essencialmente esta ferramentaO artigo foca essencialmente esta ferramenta
O
O
Prom
Prom
é
é
th
th
é
é
e
e
O
O
Prom
Prom
é
é
th
th
é
é
e
e
é
é
:
:
sistema para a extracsistema para a extracçção de informaão de informaçção de relaão de relaçções ões
semânticas entre UT a partir de corpora, usando padrões
semânticas entre UT a partir de corpora, usando padrões
l
lééxicoxico--sintsintáácticoscticos ((tradtrad.).)
2 funcionalidades base:
2 funcionalidades base:
AquisiAquisiçção de PLS (++)ão de PLS (++)
A arquitectura
A arquitectura
3 M
3 M
ó
ó
dulos:
dulos:
1.
1.
Pr
Pr
é
é
-
-
processador lexical:
processador lexical:
–
– AtomizaAtomizaçção, anão, anáálise morfolise morfo--sintsintááctica, lematizactica, lematizaççãoão
–
– NP, acrNP, acróónimos e sequências de NP são identificadasnimos e sequências de NP são identificadas
2.
2.
Shallow
Shallow
Parser
Parser
e Classificador:
e Classificador:
–
– ResponsResponsáável pela extracvel pela extracçção de PLSão de PLS
3.
3.
Extractor de Informa
Extractor de Informa
ç
ç
ão
ão
–
– ResponsResponsáável pela aquisivel pela aquisiçção de novos pares ão de novos pares
conceptualmente ligados (por uma dada rela
A descoberta de PLS
A descoberta de PLS
Esta
Esta
é
é
a parte mais interessante do sistema
a parte mais interessante do sistema
Tem 7 passos, mas resumidamente:
Tem 7 passos, mas resumidamente:
a partir de um conjunto de UT que conhecemos e que estão a partir de um conjunto de UT que conhecemos e que estão
relacionadas por uma dada rela
relacionadas por uma dada relaçção, procurar os contextos em ão, procurar os contextos em que essas UT ocorrem e tentar generalizar
que essas UT ocorrem e tentar generalizar
Ex.
Ex.
arqu
arqu
é
é
tipo:
tipo:
Entrada: p1(banana, fruta) e p2(carro, veEntrada: p1(banana, fruta) e p2(carro, veíículo)culo)
Pesquisa em corpora de contextos, seguida de generalizaPesquisa em corpora de contextos, seguida de generalizaççãoão
Os 7 passos
Os 7 passos
1.
1.
Seleccionar uma rela
Seleccionar uma rela
ç
ç
ão semântica representativa.
ão semântica representativa.
Ex
Ex
: Hiperon
: Hiperon
ímia
í
mia
2.
2.
Criar uma lista com os v
Criar uma lista com os v
á
á
rios pares representativos da
rios pares representativos da
rela
rela
ç
ç
ão. Constru
ão. Constru
ç
ç
ão manual a partir de corpora ou
ão manual a partir de corpora ou
usando um recurso j
usando um recurso j
á
á
existente (tesauro base).
existente (tesauro base).
•
• ExEx: : p(neocortexp(neocortex, , “á“área vulnerrea vulneráávelvel””) *) *
3.
3.
Procurar frases onde os pares (lematizados) ocorram
Procurar frases onde os pares (lematizados) ocorram
e recolher padrões:
e recolher padrões:
•
• ExEx: : ““Foram encontrados danos neuronais em certas Foram encontrados danos neuronais em certas ááreas reas
vulner
vulnerááveisveis tal como o tal como o neocortexneocortex”” ****
•
Os 7 passos
Os 7 passos
4.
4.
Generaliza
Generaliza
ç
ç
ão dos padrões.
ão dos padrões.
•
•
Para todos os padrões recolhidos, encontrar
Para todos os padrões recolhidos, encontrar
generaliza
generaliza
ç
ç
ões (vamos ver com mais cuidado!!!)
ões (vamos ver com mais cuidado!!!)
5.
5.
Valida
Valida
ç
ç
ão dos padrões por um perito
ão dos padrões por um perito
•
•
O papel do perito pode ser essencial em certas
O papel do perito pode ser essencial em certas
rela
rela
ç
ç
ões / dom
ões / dom
í
í
nios
nios
6.
6.
Pesquisa de novos pares relacionados usando
Pesquisa de novos pares relacionados usando
os padrões
os padrões
7.A generaliza
A generaliza
ç
ç
ão de padrões
ão de padrões
Par 1:
Par 1:
HIPER(vulnerable
HIPER(vulnerable
area,neocortex
area,neocortex
):
):
““Neuronal Neuronal damagedamage waswas foundfound inin thethe selectivelyselectively vulnerablevulnerable
areas
areas suchsuch as as neocortexneocortex, striatum, striatum, hippocampus, hippocampus andand thalamus
thalamus””
PLS gerado: NP PLS gerado: NP findfind inin NP NP suchsuch as LISTas LIST
Par 2:
Par 2:
HIPER(complication
HIPER(complication
,
,
infection
infection
)
)
TherapeuticTherapeutic complicationscomplications suchsuch as as infection, infection, recurrencerecurrence, , andand
loss
loss ofof supportsupport ofof thethe articular articular surfacesurface havehave continuedcontinued to to plague
plague thethe treatmenttreatment ofof giantgiant cellcell tumortumor
A generaliza
A generaliza
ç
ç
ão de padrões
ão de padrões
Consideraremos
Consideraremos
v.
v.
abstractas dos PLS:
abstractas dos PLS:
A = A
A = A
11A
A
22...
...
A
A
jj...
...
A
A
kk...
...
A
A
nncom
com
HIPER(A
HIPER(A
jj,A
,A
kk)
)
A generaliza
A generaliza
ç
ç
ão de padrões
ão de padrões
Fun
Fun
ç
ç
ão de semelhan
ão de semelhan
ç
ç
a PLS SIM(A,B)
a PLS SIM(A,B)
Hip
Hip
ó
ó
tese (Isomorfia Sint
tese (Isomorfia Sint
á
á
ctica): Se duas expressões
ctica): Se duas expressões
l
l
é
é
xico
xico
-
-
sint
sint
á
á
cticas
cticas
A e B representam o mesmo
A e B representam o mesmo
padrão, os itens
padrão, os itens
A
A
jje B
e
B
jje os itens A
e os itens
A
kke os itens B
e os itens
B
kk(os
(os
“
“
pontos de fixa
pontos de fixa
ç
ç
ão
ão
”
”
) têm a mesmo fun
) têm a mesmo fun
ç
ç
ão na frase.
ão na frase.
Assim, podemos concentrar
Assim, podemos concentrar
-
-
nos apenas nas janelas
nos apenas nas janelas
que estes pontos de fixa
que estes pontos de fixa
ç
ç
ão criam para testar as
ão criam para testar as
semelhan
Fun
Fun
ç
ç
ão de Semelhan
ão de Semelhan
ç
ç
a
a
Sim(A;B
Sim(A;B
) =
) =
Σ
Σ
i=(1,3)i=(1,3)Sim(Win
Sim(Win
ii(A
(A
);
);
Win
Win
ii(B
(B
))
))
Em que Em que Sim(WinSim(Winii(A(A););WinWinii(B(B)) foi definido como uma fun)) foi definido como uma funçção ão da maior
da maior subsub--sequênciasequência comum (MSC).comum (MSC).
A maior
A maior
sub
sub
-
-
sequência
sequência
comum
comum
Consideremos duas Consideremos duas stringsstrings X e Y:X e Y:
X[1...m] = X1X[1...m] = X1X2X2...XmXm, , comprimento mcomprimento m
Y[1...n] = Y1Y[1...n] = Y1Y2Y2...YL, ...YL, comprimento ncomprimento n
Sejam:Sejam:
X[1...k] e Y[1..L] os prefixos de comprimento k e L das X[1...k] e Y[1..L] os prefixos de comprimento k e L das stringsstringsX e Y X e Y
respectivamente
respectivamente
c[k,Lc[k,L] o ] o compcomp. da MSC entre X[1...k] e Y[1..L]. da MSC entre X[1...k] e Y[1..L]
A generaliza
A generaliza
ç
ç
ão de padrões (
ão de padrões (
cont
cont
.)
.)
1.
1. ComparamComparam--se todos os padrões dois a dois usando a funse todos os padrões dois a dois usando a funçção ão
de semelhan
de semelhanççaa
2.
2. CriaCria--se uma matriz de semelhanse uma matriz de semelhançças as PxPPxP
M[i,jM[i,j] = ] = Sim(PSim(Pii,P,Pjj))
3.
3. ÉÉ executado o agrupamento das expressões semelhantesexecutado o agrupamento das expressões semelhantes
4.
4. Para cada grupo Para cada grupo éé escolhida a expressão que possui o menor escolhida a expressão que possui o menor
desvio padrão com as restantes do grupo
desvio padrão com as restantes do grupo
5.
5. Para o exemplo:Para o exemplo:
NP
NP findfind inin NP NP suchsuch as LISTas LIST NP
NP suchsuch as LIST continue to as LIST continue to plagueplague NPNP NP
Avalia
Avalia
ç
ç
ão do processo de descoberta
ão do processo de descoberta
Corpus usado Corpus usado AgroAgro--AlimAlim ((FrFr: ?? : ?? ààtomostomos))
40 pares hiper40 pares hiper--hipo definidos manualmente. hipo definidos manualmente. ExEx::
fruitsfruits tropicauxtropicaux : : bananesbananes
cationscations : : sodiumsodium
arbresarbres : : chêneschênes
cerealescereales : : bleble
fruitsfruits : : orangeorange
fruitsfruits : kiwi: kiwi
legume : legume : carottecarotte
legume : legume : concombreconcombre
sucresucre : : saccharosesaccharose
huileshuiles: : huilehuile de sojade soja
Nesta fase os autores usaram UT de uma palavra apenas (acelerar Nesta fase os autores usaram UT de uma palavra apenas (acelerar
a convergência?)
a convergência?)
O processo de descoberta
O processo de descoberta
40 instâncias permitiram gerar 11 PLS:
40 instâncias permitiram gerar 11 PLS:
{{deux|troisdeux|trois...|2|3|4...} NP1 ( LIST2 )...|2|3|4...} NP1 ( LIST2 )
{{certain|quelque|decertain|quelque|de autreautre...} NP1 ( LIST2 )...} NP1 ( LIST2 )
{{deux|troisdeux|trois...|2|3|4...} NP1 : LIST2...|2|3|4...} NP1 : LIST2
{{certain|quelque|decertain|quelque|de autreautre...} NP1 : LIST2...} NP1 : LIST2
{de {de autreautre}? NP1 }? NP1 teltel que LIST2que LIST2
NP1, NP1, particuliparticulièèrementrement NP2,NP2,
{de {de autreautre}? NP1 }? NP1 commecomme LIST2LIST2
NP2 {NP2 {et|ouet|ou} de } de autreautre NP1NP1
NP1 NP1 etet notammentnotamment NP2NP2
Avalia
Avalia
ç
ç
ão do processo de descoberta
ão do processo de descoberta
Avaliar os pares rela
Avaliar os pares rela
ç
ç
ão descobertos pelo
ão descobertos pelo
Prom
Prom
é
é
th
th
é
é
e
e
:
:
Como habitualmente P, R e F:
Como habitualmente P, R e F:
NNtottot: N: Nºº pares existentes (manual)pares existentes (manual)
NNcorcor: N: Nºº pares correctospares correctos
NNerrerr: N: Nºº pares correctospares correctos
P = (P = (NNcorcor)/()/(NNcorcor++NNerrerr))
R = R = NNcorcor//NNtottot
F = 2 (P x R) / (P+R)F = 2 (P x R) / (P+R)
Avalia
Avalia
ç
ç
ão do processo de descoberta
ão do processo de descoberta
Resultados:
Resultados:
Pm
Pm
é
é
dia
dia
= 82% (m
= 82% (m
é
é
dia
dia
-
-
alta)
alta)
Avalia
Avalia
ç
ç
ão do processo de descoberta
ão do processo de descoberta
DetecDetecçção de relaão de relaçções ões subsub--especificadasespecificadas::
((““caractercaracteríísticastica””,,””durezadureza””))
““caractercaracteríísticastica”” éé demasiado gendemasiado genéérico. Que rico. Que ““caractercaracteríísticastica””??
““elementoelemento””, , ““espespééciecie””,,””factorfactor””, etc... (Termos Secund, etc... (Termos Secundáários?)rios?)
Pares muito especPares muito especííficos do assunto/amostra: ficos do assunto/amostra:
((““ambiente idealambiente ideal””, , ““MalMaláásiasia””))
““...crescem num ...crescem num ambiente idealambiente ideal tal como na tal como na MalMaláásiasia””
Confusão Confusão hiperonhiperoníímiamia//meronmeroníímiamia
((““troncotronco””,,””membromembro””) )
““...parte do ...parte do troncotronco em particular os em particular os membros...membros...””
PossPossííveis causas:veis causas:
Ambiguidade morfoAmbiguidade morfo--sintsintááctica entre ctica entre AdjAdj e PPe PP
Coment
Coment
á
á
rios R
rios R
á
á
pidos
pidos
Valores de P e R nada surpreendentesValores de P e R nada surpreendentes
Foram Foram ““apenasapenas”” obtidos os padrões obtidos os padrões ““triviaistriviais””
Manualmente talvez fosse melhorManualmente talvez fosse melhor
O CorpO Corpóógrafo tem padrões menos triviais!grafo tem padrões menos triviais!
Contudo, a hiperonContudo, a hiperoníímia não mia não éé habitualmente expressa shabitualmente expressa sóó por por
estas constru
estas construçções...ões...
ao contrao contráário de certas relario de certas relaçções funcionais (ões funcionais (exex: : causacausa--efeitoefeito))
... estando grande parte da informa... estando grande parte da informaçção da hiperonão da hiperoníímia em mia em
dom
domíínios tnios téécnicos implcnicos implíícita na morfologia. cita na morfologia.
““ccéélulalula”” : : ““neurneuróónionio”” vsvs. . ““ccéélulalula”” : : ““ccéélulalula da da gliaglia””
Em todo o caso, Em todo o caso, éé um mum méétodo automtodo automáático e potencialmente tico e potencialmente
“
Outras experiências
Outras experiências
Teste com a
Teste com a
“
“
rela
rela
ç
ç
ão
ão
”
”
“
“
fusão
fusão
”
”
:
:
“Dixons Group Plc said shareholders at a special meeting of Cyclops“
Corp approve the previously announced merger of Cyclops with Dixons.””
Processo ligeiramente diferente (
Processo ligeiramente diferente (
Reuters
Reuters
Corpus!):
Corpus!):
Carregamento do Carregamento do PromPromééththééee com 2 PLS base com 2 PLS base ““arquarquéétipostipos””
ExtracExtracçção de pares usando os padrões baseão de pares usando os padrões base
Pesquisa de mais PLS usando os pares anteriores: +5Pesquisa de mais PLS usando os pares anteriores: +5
Pesquisa de novos pares usando os 7 padrõesPesquisa de novos pares usando os 7 padrões
101 novos pares P = 92% mas R=??101 novos pares P = 92% mas R=??
Claro que
Claro que
é
é
uma rela
uma rela
ç
ç
ão muito do dom
ão muito do dom
í
í
nio e o corpus
nio e o corpus
é
é
de dom
Outras experiências ainda...
Outras experiências ainda...
Teste com a rela
Teste com a rela
ç
ç
ão
ão
“
“
produz
produz
”
”
:
:
produz(produz(““nome_da_empresanome_da_empresa””,,””produtoproduto””))
Permite Permite ““distribuidistribui””, , ““vendevende””, , ““fornecefornece””, etc., etc.
A aproxima
A aproxima
ç
ç
ão foi a mesma que a anterior
ão foi a mesma que a anterior
Mas não houve convergência:
Mas não houve convergência:
A explicaA explicaçção foi que os pares gerados não chegam para ão foi que os pares gerados não chegam para
garantir a convergência
garantir a convergência
Claro que o domClaro que o domíínio nio éé muito maiormuito maior do que no caso anteriordo que no caso anterior
A expansão dos
A expansão dos
Hiper
Hiper
ó
ó
nimos
nimos
Usando os PLS 11 anteriores
Usando os PLS 11 anteriores
1216
1216
tuplos
tuplos
hiperon
hiperon
í
í
mia
mia
26.2% entre
26.2% entre
UT
UT
’
’
s
s
multi
multi
-
-
palavra
palavra
23.5% entre
23.5% entre
UT
UT
’
’
s
s
simples
simples
50.3% entre uma UT multi
50.3% entre uma UT multi
-
-
palavra e outra simples
palavra e outra simples
O
O
tuplos
tuplos
obtidos referem
obtidos referem
-
-
se aos poss
se aos poss
í
í
veis de
veis de
detectar no contexto de uma frase
detectar no contexto de uma frase
Representam apenas uma frac
Representam apenas uma frac
ç
ç
ão dos existentes
ão dos existentes
A expansão dos
A expansão dos
Hiper
Hiper
ó
ó
nimos
nimos
Ideia: encontrar relaIdeia: encontrar relaçções entre ões entre UTUT’’ss compostas, a partir das compostas, a partir das
rela
relaçções conhecidas para ões conhecidas para UTUT’’ss de 1 palavra de 1 palavra
Supondo que conheSupondo que conheçço:o:
1.
1. hiper(frutahiper(fruta, ma, maçça)a) 2.
2. UT(sumoUT(sumo de fruta) e de fruta) e UT(sumoUT(sumo de made maçça)a) 3.
3. Relacionados(nectar,sumoRelacionados(nectar,sumo))
Podemos gerar por propaga
Podemos gerar por propagaçção (ou não):ão (ou não):
1.
1. hiper(sumohiper(sumo de fruta, sumo de made fruta, sumo de maçça)a) 2.
2. Relacionados (Relacionados (nectarnectar de fruta, sumo de made fruta, sumo de maçça)a) 3.
3. REL (N1 de fruta, N2 de maREL (N1 de fruta, N2 de maçça) a)
com N1 e N2 semanticamente ligadoscom N1 e N2 semanticamente ligados
VerificaVerifica--se ser possse ser possíível propagar relavel propagar relaçções quando as UT ões quando as UT
compostas são UT Variantes
O que são UT Variantes?
O que são UT Variantes?
São UT que partilham semelhan
São UT que partilham semelhan
ç
ç
as estruturais e
as estruturais e
semânticas, e que por isso permitem
semânticas, e que por isso permitem
propagar rela
propagar rela
ç
ç
ões
ões
3 tipos de
3 tipos de
UT
UT
’
’
s
s
Variantes a considerar:
Variantes a considerar:
SintSintáácticascticas
MorfoMorfo--sintsintáácticascticas
SemânticasSemânticas
H
H
á
á
algoritmos que permitem detectar as UT variantes!
algoritmos que permitem detectar as UT variantes!
Detec
Detec
ç
ç
ão (ou gera
ão (ou gera
ç
ç
ão) de variantes:
ão) de variantes:
FASTR (FASTR (JacqueminJacquemin 99)99)
Variantes Sint
Variantes Sint
á
á
cticas
cticas
As palavras da UT original mantêm
As palavras da UT original mantêm
-
-
se na UT
se na UT
variante, mas a estrutura relativamente
variante, mas a estrutura relativamente
à
à
UT
UT
original
original
é
é
diferente.
diferente.
1.
1.
Coordena
Coordena
ç
ç
ão:
ão:
combina
combina
ç
ç
ão de dois termos com a
ão de dois termos com a
mesma
mesma
“
“
cabe
cabe
ç
ç
a
a
”
”
:
:
“
“
frutos frescos ou secos
frutos frescos ou secos
”
”
2.
2.
Modifica
Modifica
ç
ç
ão:
ão:
inser
inser
ç
ç
ão de um modificador:
ão de um modificador:
“
“
resistência [mecânica] do man
resistência [mecânica] do man
í
í
pulo
pulo
”
”
3.
3.
Sinapse:
Sinapse:
remo
remo
ç
ç
ão de algumas palavras fun
ão de algumas palavras fun
ç
ç
ão:
ão:
cultivo de bananas / cultivo das bananas
cultivo de bananas / cultivo das bananas
Variantes Morfo
Variantes Morfo
-
-
Sint
Sint
á
á
cticas
cticas
O conte
O conte
ú
ú
do da UT original ou de uma sua
do da UT original ou de uma sua
variante morfol
variante morfol
ó
ó
gica
gica
é
é
encontrado na UT
encontrado na UT
variante. A estrutura sint
variante. A estrutura sint
á
á
ctica tamb
ctica tamb
é
é
m
m
é
é
alterada.
alterada.
1.
1.
Nome
Nome
-
-
Nome
Nome
:
:
“
“
semente de alfarrobeira
semente de alfarrobeira
”
”
/
/
“
“
semente de alfarroba
semente de alfarroba
”
”
2.
2.
Nome
Nome
-
-
Verbo
Verbo
:
:
“
“
produ
produ
ç
ç
ão de enzimas
ão de enzimas
”
”
/
/
“
“
produzir enzimas
produzir enzimas
”
”
3.
3.
Nome
Nome
-
-
Adjectivo
Adjectivo
:
:
“
“
produ
produ
ç
ç
ão de fruta
ão de fruta
”
”
,
,
“
Variantes Semânticas
Variantes Semânticas
Rela
Rela
ç
ç
ões semânticas (sinon
ões semânticas (sinon
í
í
mia, hiperon
mia, hiperon
í
í
mia)
mia)
encontradas entre palavras da UT original e da UT
encontradas entre palavras da UT original e da UT
variante:
variante:
1.
1. Semânticas (Puras):Semânticas (Puras): ““farinha de trigofarinha de trigo”” / / ““farinha de farinha de
milho
milho”” ((coco--hiperonhiperoníímiamia trigo/milho)trigo/milho)
2.
2. SintSintáácticoctico--SemânticasSemânticas:: (1) mais possibilidade de (1) mais possibilidade de
Modifica
Modificaçção/Sinapse: ão/Sinapse: ““grãos duros de milhogrãos duros de milho”” / / ““grãos de grãos de trigo
trigo””
3.
3. MorfoMorfo--sintsintáácticoctico--semânticassemânticas:: (2) + aplicar (2) + aplicar
transforma
transformaçções tambões tambéém m ààs palavras morfologicamente s palavras morfologicamente relacionadas:
Restri
Restri
ç
ç
ões
ões
à
à
produ
produ
ç
ç
ão de Variantes Semânticas
ão de Variantes Semânticas
Consideremos duas
Consideremos duas
UT
UT
’
’
s
s
possivelmente variantes:
possivelmente variantes:
UT = wUT = w11ww22 e UTe UT’’ = w= w11’’ww22’’
ObservaObservaçção: ão:
w1 e w1w1 e w1’’ podem estar semanticamente relacionadospodem estar semanticamente relacionados
w2 e w2w2 e w2’’ podem estar semanticamente relacionadospodem estar semanticamente relacionados
Não implica UT e UTNão implica UT e UT’’ semanticamente prsemanticamente próóximos!!ximos!!
ÉÉ necessnecessáário impor algumas restririo impor algumas restriçções:ões:
1.
1. Isomorfia sintIsomorfia sintáácticactica 2.
2. Isomorfia semânticaIsomorfia semântica 3.
Isomorfia sint
Isomorfia sint
á
á
ctica
ctica
As palavras relacionadas têm de ocupar posi
As palavras relacionadas têm de ocupar posi
ç
ç
ões
ões
similares nas UT, como:
similares nas UT, como:
CabeCabeççasas ArgumentosArgumentos ModificadoresModificadores
Ex
Ex
:
:
processoprocesso de de elaboraelaboraççãoão !ISO_SIN !ISO_SIN elaboraelaboraççãoão de um de um mméétodotodo “
“processo”processo” e e ““mémétodotodo”” são sinsão sinóónimos mas nimos mas “
Isomorfia semântica
Isomorfia semântica
As palavras relacionadas têm de ter significados
As palavras relacionadas têm de ter significados
semelhantes em ambas as
semelhantes em ambas as
UT
UT
’
’
s
s
.
.
EX.:
EX.:
an
anáálise da lise da distribuidistribuiççãoão estatestatíística stica !ISO_SEM
!ISO_SEM
an
anáálise de lise de divisãodivisão estatestatíísticastica Apesar de haver ISO_SIN
Apesar de haver ISO_SIN
É
É
necess
necess
á
á
rio lidar com polissemia
rio lidar com polissemia
Rela
Rela
ç
ç
ão semântica hol
ão semântica hol
í
í
stica
stica
Temos de verificar que as
Temos de verificar que as
UT
UT
’
’
s
s
completas (i.e.
completas (i.e.
os
os
holons
holons
) são semanticamente equivalentes.
) são semanticamente equivalentes.
EX:
EX:
inspec
inspec
ç
ç
ão
ão
alimentar
alimentar
não
não
é
é
semanticamente equivalente a
semanticamente equivalente a
controlo
controlo
alimentar
alimentar
apesar de
apesar de
inspec
inspec
ç
ç
ão
ão
e
e
controlo
controlo
serem pr
serem pr
ó
ó
ximos
ximos
Parece
Parece
-
-
me ainda mais dif
me ainda mais dif
í
í
cil e dependente do
cil e dependente do
dom
Variantes semânticos: defini
Variantes semânticos: defini
ç
ç
ão
ão
Duas UT multi
Duas UT multi
-
-
palavra w1w2 e w1
palavra w1w2 e w1
’
’
w2
w2
’
’
são
são
variantes semânticos se 3 condi
variantes semânticos se 3 condi
ç
ç
ões se
ões se
verificarem:
verificarem:
1.
1.
Existe uma rela
Existe uma rela
ção semântica
ç
ão semântica
S
entre w1 e w1’
entre w1 e w1
’
e/ou w2 e w2
e/ou w2 e w2
’
’
. O elemento não relacionado
. O elemento não relacionado
é
é
idêntico ou
idêntico ou
é
é
morfologicamente relacionado
morfologicamente relacionado
2.
2.
w1 e w1
w1 e w1
’
’
são cabeç
são cabe
ç
as enquanto que w2 e w2
as enquanto que w2 e w2
’
’
possuem pap
possuem pap
é
é
is tem
is tem
á
á
ticos semelhantes
ticos semelhantes
3.
3.
w1w2 e w1
w1w2 e w1
’
’
w2’
w2
’
possuem
possuem
a mesma
a mesma
rela
rela
ção
ç
ão
semântica
semântica
S
S
Variantes semânticos: Corol
Variantes semânticos: Corol
á
á
rio
rio
Se
duas UT compostas T e T’ forem consideradas (hipoteticamente)
variantes semânticos (usando as regras)
e T e T’ são estruturados a partir das UT simples w1/w1’ ou
w2/w2’
e w1/w1’ e w2/w2’ que verificam (1) e (2)
Então
podemos assumir que as UT Variantes T e T’ partilham a mesma
relação semântica S que um dos seus constituintes (w1/w1’ ou w2/w2’), e por isso poderemos propagar a relação
Algoritmo:
1. procurar UT variantes
2. propagar entre as UT variantes as relações semânticas dos seus
Pesquisa de Variantes
Pesquisa de Variantes
Baseada nas regras e restri
Baseada nas regras e restri
ç
ç
ões anteriores foi criada uma
ões anteriores foi criada uma
meta
meta
-
-
gram
gram
á
á
tica
tica
de produ
de produ
ção de varia
ç
ão de varia
ç
ç
ões
ões
110
110
meta
meta
-
-
regras
regras
!
!
16 para termos 16 para termos AdjAdj NN
22 para termos N 22 para termos N AdjAdj
72 para N 72 para N PrepPrep NN
Ex
Ex
:
:
N1 Prep N2 -> M(N1; N) Adv? Adj? Prep Art? Adj? S(N2)
composi
composiççãoão do do frutofruto --> > compostos qucompostos quíímicosmicos da da sementesemente
Usada no FASTR
Usada no FASTR
Pesquisa de Variantes
Pesquisa de Variantes
Recapitulando a ideia base:
Recapitulando a ideia base:
Conhecemos a relaç
Conhecemos a rela
ç
ão
ão
““sementesemente”” éé parte do parte do ““frutofruto””
Conhecemos e somos capazes detectar UT variantes:
Conhecemos e somos capazes detectar UT variantes:
composicomposiçção do fruto ão do fruto
compostos [qucompostos [quíímicos] da sementemicos] da semente
Usando: Usando: N1 Prep N2 -> M(N1; N) Adv? Adj? Prep Art? Adj? S(N2)
Pela definiPela definiçção de UT variantes podemos assumir:ão de UT variantes podemos assumir:
““compostos qucompostos quíímicos da sementemicos da semente”” éé parte do parte do ““composicomposiçção ão
do fruto
Resultados da pesquisa de variantes
Resultados da pesquisa de variantes
Foram encontrados 1.143 variantes
Foram encontrados 1.143 variantes
SintSintáácticos: 495cticos: 495
Semânticos: 584Semânticos: 584
MorfoMorfo--sintsintáácticos: 64cticos: 64
981 Variantes foram considerados correctos
981 Variantes foram considerados correctos
–
–
85.5%
85.5%
Resultados parciais vari
Resultados parciais vari
áveis:
á
veis:
1.
1. SintSintáácticos cticos –– P = 93.9 %P = 93.9 % 2.
2. Semânticos Semânticos ““purospuros”” –– P = 86.2 %P = 86.2 % 3.
3. MorfoMorfo--sintsintáácticos cticos –– P = 71.2 % P = 71.2 % 4.
4. Semânticos com variaSemânticos com variaçções sintões sintáácticas/morfolcticas/morfolóógicas gicas –– P = 73.8 %P = 73.8 %
Para (3) e (4) muitas Para (3) e (4) muitas UT variantes são UT variantes são semanticamente semanticamente
diferentes das originais
Propaga
Propaga
ç
ç
ão de Rela
ão de Rela
ç
ç
ões
ões
Pretende
Pretende
-
-
se projectar hierarquias de UT 1 de palavra
se projectar hierarquias de UT 1 de palavra
em hierarquias de UT multi
em hierarquias de UT multi
-
-
palavra.
palavra.
Recordemos que o FASTR, precisou de poder testar
Recordemos que o FASTR, precisou de poder testar
rela
rela
ções semânticas entre palavras simples
ç
ões semânticas entre palavras simples
2 op
2 op
ç
ç
ões
ões
dispon
dispon
í
í
veis para este efeito:
veis para este efeito:
1.1.
Tesauros
Tesauros
[AGROVAC]
[AGROVAC]
2.
2.
Conjuntos de hiper
Conjuntos de hiper
ó
ó
nimo e os seus co
nimo e os seus co
-
-
hip
hip
ó
ó
nimos
nimos
gerados pelo
gerados pelo
Prom
Prom
éth
é
thé
ée
e
a partir do corpus (tipo
a partir do corpus (tipo
synsets
Propaga
Propaga
ç
ç
ão de Rela
ão de Rela
ç
ç
ões
ões
E.g.
Propaga
Propaga
ç
ç
ão de Rela
ão de Rela
ç
ç
ões: 2 tipos
ões: 2 tipos
1.
1.
Projec
Projec
ç
ç
ão por Transferência
ão por Transferência
as ligaas ligaçções entre 2 conceitos representados por UT de 1 ões entre 2 conceitos representados por UT de 1
palavra são transferidas para UT multi
palavra são transferidas para UT multi--palavra localizadas palavra localizadas noutro ponto da hierarquia.
noutro ponto da hierarquia.
hiper(frutahiper(fruta, ma, maççã) ã) ÆÆ hiper(sumohiper(sumo de fruta, sumo de made fruta, sumo de maççã)ã)
2.
2.
Projec
Projec
ç
ç
ão por Especializa
ão por Especializa
ç
ç
ão
ão
as ligaas ligaçções entre 2 conceitos representados por UT de 1 ões entre 2 conceitos representados por UT de 1
palavra são transferidas em paralelo para
palavra são transferidas em paralelo para UTUT’’ss multimulti--palavra palavra que representam conceitos especializados de cada um dos
que representam conceitos especializados de cada um dos
conceitos base
conceitos base
Propaga
Propaga
Propaga
ç
ç
ão de Rela
ão de Rela
ç
ç
ões: observa
ões: observa
ç
ç
ões
ões
Estamos a trabalhar em dom
Estamos a trabalhar em dom
í
í
nios espec
nios espec
í
í
ficos o que
ficos o que
reduz ambiguidades / polissemia / homografia
reduz ambiguidades / polissemia / homografia
Por isso, estas propagaPor isso, estas propagaçções não devem gerar demasiados ões não devem gerar demasiados
pares esp
pares espúúriosrios
UT multi
UT multi
-
-
palavra são normalmente espec
palavra são normalmente espec
í
í
ficas e menos
ficas e menos
frequentes em corpora
frequentes em corpora
Por isso, nem todas as propagaPor isso, nem todas as propagaçções possões possííveis podem depois veis podem depois
ser encontradas / verificadas em corpora
ser encontradas / verificadas em corpora
Esta t
Esta t
é
é
cnica deve ser entendida como uma forma semi
cnica deve ser entendida como uma forma semi
-
-autom
Avalia
Avalia
ç
ç
ão das Projec
ão das Projec
ç
ç
ões (1)
ões (1)
Propaga
Propaga
ç
ç
ão das
ão das
rela
rela
ções obtidas pelo
ç
ões obtidas pelo
M
M
é
é
todo 1:
todo 1:
Prom
Prom
é
é
th
th
é
é
e
e
+ corpora
+ corpora
Dos 1216 pares entre
Dos 1216 pares entre
UT
UT
’
’
s
s
de 1 palavra,
de 1 palavra,
seleccionaram
seleccionaram
-
-
se 89
se 89
Propagadas 584 novas
Propagadas 584 novas
rela
rela
ç
ç
ões entre UT
ões entre UT
multi
Avalia
Avalia
ç
ç
ão das Projec
ão das Projec
ç
ç
ões (1)
ões (1)
Transferências são mais habituais: 507
Transferências são mais habituais: 507
vs
vs
. 77
. 77
Certas classes são muito produtivas:
Certas classes são muito produtivas:
Elementos qu
Elementos qu
í
í
micos, cereais e frutos
micos, cereais e frutos
Termos muito gené
Termos muito gen
é
ricos
ricos
Outras classes são muito pouco produtivas:
Outras classes são muito pouco produtivas:
Poli
Poli
ó
ó
leos
leos
, prote
, prote
í
í
nas: UT muito espec
nas: UT muito espec
í
í
ficos, ou
ficos, ou
melhor têm regras pr
melhor têm regras pr
ó
ó
prias de obtenç
prias de obten
ç
ão de variantes
ão de variantes
e de projec
e de projec
ç
ç
ão
ão
Especializa
Especializa
ç
ç
ão
ão
vs
vs
. Transferência (1)
. Transferência (1)
Projec
Projec
ç
ç
ão por Especializa
ão por Especializa
ç
ç
ão:
ão:
Menos frequentes: 77
Menos frequentes: 77
tuplos
tuplos
Precisão m
Precisão m
édia relativamente baixa: 58.4 %
é
dia relativamente baixa: 58.4 %
Desvio padrão elevado
Desvio padrão elevado
Projec
Projec
ç
ç
ão por Transferência:
ão por Transferência:
Bastante frequentes: 507
Bastante frequentes: 507
Precisão m
Precisão m
é
é
dia relativamente elevada: 83.8 %
dia relativamente elevada: 83.8 %
Desvio padrão reduzido
Desvio padrão reduzido
Avalia
Avalia
ç
ç
ão das Projec
ão das Projec
ç
ç
ões (2)
ões (2)
PropagaPropagaçção das relaão das relaçções ões
identificadas por consulta a
identificadas por consulta a
um tesauro [AGROVAC:
um tesauro [AGROVAC:
15,800
15,800 UTUT’’ss]]
Teste Teste àà robustez do robustez do
Prom
Promééththééee
SeleccionaramSeleccionaram--se 168 se 168 UTUT’’ss
de 4 t
de 4 tóópicos: cultivo / picos: cultivo /
anatomia vegetal / produtos
anatomia vegetal / produtos
vegetais / sabores
vegetais / sabores
Projectadas 371 novas Projectadas 371 novas
rela
relaçções entre UT multiões entre UT multi- -palavra
Avalia
Avalia
ç
ç
ão das Projec
ão das Projec
ç
ç
ões (2)
ões (2)
Resultados semelhantes ao caso anterior
Resultados semelhantes ao caso anterior
Projec
Projec
ç
ç
ão por Especializa
ão por Especializa
ç
ç
ão:
ão:
Menos frequentes: 45
Menos frequentes: 45
tuplos
tuplos
Precisão m
Precisão m
é
é
dia relativamente baixa: 57.8 %
dia relativamente baixa: 57.8 %
Projec
Projec
ç
ç
ão por Transferência:
ão por Transferência:
Bastante frequentes: 326
Bastante frequentes: 326
Precisão m
Precisão m
é
é
dia relativamente elevada: 72.4 %
dia relativamente elevada: 72.4 %
Corpora
Corpora
vs
vs
.
.
Tesauros
Tesauros
Os resultados da utiliza
Os resultados da utiliza
ç
ç
ão da informa
ão da informa
ç
ç
ão de
ão de
tesauros são significativamente inferiores
tesauros são significativamente inferiores
Os tesauros utilizam hierarquias mais profundas
Os tesauros utilizam hierarquias mais profundas
o que aumenta a distância m
o que aumenta a distância m
é
é
dia entre co
dia entre co
-
-hip
hip
ó
ó
nimos
nimos
Aparentemente,
Aparentemente,
é
é
mais dif
mais dif
í
í
cil verificar a rela
cil verificar a rela
ç
ç
ão
ão
entre UT simples usando tesauros (não h
entre UT simples usando tesauros (não h
á
á
transitividade?) e por isso são validadas menos
transitividade?) e por isso são validadas menos
rela
Conclusões
Conclusões
Um m
Um m
é
é
todo que permite propagar algumas rela
todo que permite propagar algumas rela
ç
ç
ões
ões
semânticas f
semânticas fá
á
ceis de estabelecer automaticamente (i.e.
ceis de estabelecer automaticamente (i.e.
entre UT 1 palavra) a um conjunto de UT compostas
entre UT 1 palavra) a um conjunto de UT compostas
cuja detec
cuja detec
ç
ç
ão de rela
ão de rela
ç
ç
ões
ões
é
é
mais complexa
mais complexa
Boa precisão
Boa precisão
Pass
Pass
í
í
vel de ser portado para PT
vel de ser portado para PT
Bom m
Bom m
é
é
todo para criar gloss
todo para criar gloss
á
á
rios
rios
Conclusões
Conclusões
Um m
Um m
é
é
todo
todo
autom
autom
á
á
tico
tico
interessante para
interessante para
obten
obten
ç
ç
ão de PLS
ão de PLS
Precisão razo
Precisão razo
á
á
vel e talvez tenha poucas
vel e talvez tenha poucas
vantagens relativamente
vantagens relativamente
à
à
aproxima
aproxima
ç
ç
ão manual
ão manual
Seria interessante pensar:
Seria interessante pensar:
1.
1. como generalizar o mcomo generalizar o méétodo de propagatodo de propagaçção para quaisquer ão para quaisquer
UT para partir de qualquer tamanho
UT para partir de qualquer tamanho
2.