• Nenhum resultado encontrado

Revisão de "Automatic Acquisition and Expansion of Hypernym Links" Emmanuel Morin e Christian Jacquemin

N/A
N/A
Protected

Academic year: 2021

Share "Revisão de "Automatic Acquisition and Expansion of Hypernym Links" Emmanuel Morin e Christian Jacquemin"

Copied!
51
0
0

Texto

(1)

Revisão de

Revisão de

Automatic

Automatic

Acquisition

Acquisition

and

and

Expansion

Expansion

of

of

Hypernym

Hypernym

Links

Links

Emmanuel

Emmanuel

Morin

Morin

e

e

Christian

Christian

Jacquemin

Jacquemin

Por Lu

Por Luíís Sarmentos Sarmento Linguateca

(2)

Introdu

Introdu

ç

ç

ão

ão

„

„

Objectivo

Objectivo

„

„ facilitar a construfacilitar a construçção automão automáática de tesauros a partir de texto tica de tesauros a partir de texto

“livrelivre””

„

„ descobrir reladescobrir relaçções entre Unidades Terminolões entre Unidades Terminolóógicasgicas

„

„

Extracç

Extrac

ção de informa

ão de informa

ção / Conhecimento

ç

ão / Conhecimento

„

„ ExtracExtracçção de Relaão de Relaçções Semânticasões Semânticas „

„ Principalmente HiperonPrincipalmente Hiperoníímia/Hiponmia/Hiponíímiamia

„

„ RelaRelaçções ões ““FusãoFusão”” e e ””ProduzProduz””

„

„

Envolve

Envolve

„

„ ExtracExtracçção de Terminologia (indirectamente)ão de Terminologia (indirectamente) „

„ Pesquisas/Inferência de PLSPesquisas/Inferência de PLS „

(3)

Introdu

Introdu

ç

ç

ão

ão

„

„

Muitas semelhan

Muitas semelhan

ç

ç

as com o Corp

as com o Corp

ó

ó

grafo!

grafo!

„

„

Ponto de vista t

Ponto de vista t

é

é

cnico

cnico

„

„

Filosofia de Pesquisa

Filosofia de Pesquisa

„

„

Mais sofisticado que o Corp

Mais sofisticado que o Corp

ó

ó

grafo na:

grafo na:

„

„

Gera

Gera

ç

ç

ão de variantes terminol

ão de variantes terminol

ó

ó

gicos

gicos

„

„

Obten

Obten

ç

ç

ão de PLS: Padrões L

ão de PLS: Padrões

L

é

é

xico-

xico

-Sint

Sint

á

á

cticos

cticos

„

„

Corp

Corp

ó

ó

grafo uma ferramenta de utilizador:

grafo uma ferramenta de utilizador:

„

(4)

Arquitectura

Arquitectura

„

„

Sistema envolve 3 ferramentas:

Sistema envolve 3 ferramentas:

1.

1. ACABIT (ACABIT (DailleDaille 1996): 1996): „

„ extracextracçção de UT multião de UT multi--palavrapalavra

2.

2. FASTR (FASTR (JacqueminJacquemin, 1996): , 1996): „

„ obtenobtençção de variantes UT ão de variantes UT

„

„ muito interessante muito interessante --> podia ser desenvolvido para PT> podia ser desenvolvido para PT

3.

3. PromPromééththééee ((MorinMorin, 1999):, 1999): „

„ EstruturaEstruturaçção das UT (i.e.: obtenão das UT (i.e.: obtençção de relaão de relaçções)ões)

„

„ Pesquisa de evidências usando PLSPesquisa de evidências usando PLS

„

„ O artigo foca essencialmente esta ferramentaO artigo foca essencialmente esta ferramenta

„

(5)

O

O

Prom

Prom

é

é

th

th

é

é

e

e

„

„

O

O

Prom

Prom

é

é

th

th

é

é

e

e

é

é

:

:

„

„ sistema para a extracsistema para a extracçção de informaão de informaçção de relaão de relaçções ões

semânticas entre UT a partir de corpora, usando padrões

semânticas entre UT a partir de corpora, usando padrões

l

lééxicoxico--sintsintáácticoscticos ((tradtrad.).)

„

„

2 funcionalidades base:

2 funcionalidades base:

„

„ AquisiAquisiçção de PLS (++)ão de PLS (++) „

(6)

A arquitectura

A arquitectura

„

„

3 M

3 M

ó

ó

dulos:

dulos:

1.

1.

Pr

Pr

é

é

-

-

processador lexical:

processador lexical:

– AtomizaAtomizaçção, anão, anáálise morfolise morfo--sintsintááctica, lematizactica, lematizaççãoão

– NP, acrNP, acróónimos e sequências de NP são identificadasnimos e sequências de NP são identificadas

2.

2.

Shallow

Shallow

Parser

Parser

e Classificador:

e Classificador:

– ResponsResponsáável pela extracvel pela extracçção de PLSão de PLS

3.

3.

Extractor de Informa

Extractor de Informa

ç

ç

ão

ão

– ResponsResponsáável pela aquisivel pela aquisiçção de novos pares ão de novos pares

conceptualmente ligados (por uma dada rela

(7)

A descoberta de PLS

A descoberta de PLS

„

„

Esta

Esta

é

é

a parte mais interessante do sistema

a parte mais interessante do sistema

„

„

Tem 7 passos, mas resumidamente:

Tem 7 passos, mas resumidamente:

„

„ a partir de um conjunto de UT que conhecemos e que estão a partir de um conjunto de UT que conhecemos e que estão

relacionadas por uma dada rela

relacionadas por uma dada relaçção, procurar os contextos em ão, procurar os contextos em que essas UT ocorrem e tentar generalizar

que essas UT ocorrem e tentar generalizar

„

„

Ex.

Ex.

arqu

arqu

é

é

tipo:

tipo:

„

„ Entrada: p1(banana, fruta) e p2(carro, veEntrada: p1(banana, fruta) e p2(carro, veíículo)culo) „

„ Pesquisa em corpora de contextos, seguida de generalizaPesquisa em corpora de contextos, seguida de generalizaççãoão „

(8)

Os 7 passos

Os 7 passos

1.

1.

Seleccionar uma rela

Seleccionar uma rela

ç

ç

ão semântica representativa.

ão semântica representativa.

Ex

Ex

: Hiperon

: Hiperon

ímia

í

mia

2.

2.

Criar uma lista com os v

Criar uma lista com os v

á

á

rios pares representativos da

rios pares representativos da

rela

rela

ç

ç

ão. Constru

ão. Constru

ç

ç

ão manual a partir de corpora ou

ão manual a partir de corpora ou

usando um recurso j

usando um recurso j

á

á

existente (tesauro base).

existente (tesauro base).

• ExEx: : p(neocortexp(neocortex, , “á“área vulnerrea vulneráávelvel””) *) *

3.

3.

Procurar frases onde os pares (lematizados) ocorram

Procurar frases onde os pares (lematizados) ocorram

e recolher padrões:

e recolher padrões:

• ExEx: : ““Foram encontrados danos neuronais em certas Foram encontrados danos neuronais em certas ááreas reas

vulner

vulnerááveisveis tal como o tal como o neocortexneocortex”” ****

(9)

Os 7 passos

Os 7 passos

4.

4.

Generaliza

Generaliza

ç

ç

ão dos padrões.

ão dos padrões.

Para todos os padrões recolhidos, encontrar

Para todos os padrões recolhidos, encontrar

generaliza

generaliza

ç

ç

ões (vamos ver com mais cuidado!!!)

ões (vamos ver com mais cuidado!!!)

5.

5.

Valida

Valida

ç

ç

ão dos padrões por um perito

ão dos padrões por um perito

O papel do perito pode ser essencial em certas

O papel do perito pode ser essencial em certas

rela

rela

ç

ç

ões / dom

ões / dom

í

í

nios

nios

6.

6.

Pesquisa de novos pares relacionados usando

Pesquisa de novos pares relacionados usando

os padrões

os padrões

7.

(10)

A generaliza

A generaliza

ç

ç

ão de padrões

ão de padrões

„

„

Par 1:

Par 1:

HIPER(vulnerable

HIPER(vulnerable

area,neocortex

area,neocortex

):

):

„

„ ““Neuronal Neuronal damagedamage waswas foundfound inin thethe selectivelyselectively vulnerablevulnerable

areas

areas suchsuch as as neocortexneocortex, striatum, striatum, hippocampus, hippocampus andand thalamus

thalamus””

„

„ PLS gerado: NP PLS gerado: NP findfind inin NP NP suchsuch as LISTas LIST

„

„

Par 2:

Par 2:

HIPER(complication

HIPER(complication

,

,

infection

infection

)

)

„

„ TherapeuticTherapeutic complicationscomplications suchsuch as as infection, infection, recurrencerecurrence, , andand

loss

loss ofof supportsupport ofof thethe articular articular surfacesurface havehave continuedcontinued to to plague

plague thethe treatmenttreatment ofof giantgiant cellcell tumortumor

„

(11)

A generaliza

A generaliza

ç

ç

ão de padrões

ão de padrões

„

„

Consideraremos

Consideraremos

v.

v.

abstractas dos PLS:

abstractas dos PLS:

„

„

A = A

A = A

11

A

A

22

...

...

A

A

jj

...

...

A

A

kk

...

...

A

A

nn

com

com

HIPER(A

HIPER(A

jj

,A

,A

kk

)

)

„

(12)

A generaliza

A generaliza

ç

ç

ão de padrões

ão de padrões

„

„

Fun

Fun

ç

ç

ão de semelhan

ão de semelhan

ç

ç

a PLS SIM(A,B)

a PLS SIM(A,B)

„

„

Hip

Hip

ó

ó

tese (Isomorfia Sint

tese (Isomorfia Sint

á

á

ctica): Se duas expressões

ctica): Se duas expressões

l

l

é

é

xico

xico

-

-

sint

sint

á

á

cticas

cticas

A e B representam o mesmo

A e B representam o mesmo

padrão, os itens

padrão, os itens

A

A

jj

e B

e

B

jj

e os itens A

e os itens

A

kk

e os itens B

e os itens

B

kk

(os

(os

pontos de fixa

pontos de fixa

ç

ç

ão

ão

) têm a mesmo fun

) têm a mesmo fun

ç

ç

ão na frase.

ão na frase.

„

„

Assim, podemos concentrar

Assim, podemos concentrar

-

-

nos apenas nas janelas

nos apenas nas janelas

que estes pontos de fixa

que estes pontos de fixa

ç

ç

ão criam para testar as

ão criam para testar as

semelhan

(13)

Fun

Fun

ç

ç

ão de Semelhan

ão de Semelhan

ç

ç

a

a

„

„

Sim(A;B

Sim(A;B

) =

) =

Σ

Σ

i=(1,3)i=(1,3)

Sim(Win

Sim(Win

ii

(A

(A

);

);

Win

Win

ii

(B

(B

))

))

„

„ Em que Em que Sim(WinSim(Winii(A(A););WinWinii(B(B)) foi definido como uma fun)) foi definido como uma funçção ão da maior

da maior subsub--sequênciasequência comum (MSC).comum (MSC).

„

(14)

A maior

A maior

sub

sub

-

-

sequência

sequência

comum

comum

„

„ Consideremos duas Consideremos duas stringsstrings X e Y:X e Y:

„

„ X[1...m] = X1X[1...m] = X1X2X2...XmXm, , comprimento mcomprimento m

„

„ Y[1...n] = Y1Y[1...n] = Y1Y2Y2...YL, ...YL, comprimento ncomprimento n

„

„ Sejam:Sejam:

„

„ X[1...k] e Y[1..L] os prefixos de comprimento k e L das X[1...k] e Y[1..L] os prefixos de comprimento k e L das stringsstringsX e Y X e Y

respectivamente

respectivamente

„

„ c[k,Lc[k,L] o ] o compcomp. da MSC entre X[1...k] e Y[1..L]. da MSC entre X[1...k] e Y[1..L]

„

(15)

A generaliza

A generaliza

ç

ç

ão de padrões (

ão de padrões (

cont

cont

.)

.)

1.

1. ComparamComparam--se todos os padrões dois a dois usando a funse todos os padrões dois a dois usando a funçção ão

de semelhan

de semelhanççaa

2.

2. CriaCria--se uma matriz de semelhanse uma matriz de semelhançças as PxPPxP

„

„ M[i,jM[i,j] = ] = Sim(PSim(Pii,P,Pjj))

3.

3. ÉÉ executado o agrupamento das expressões semelhantesexecutado o agrupamento das expressões semelhantes

4.

4. Para cada grupo Para cada grupo éé escolhida a expressão que possui o menor escolhida a expressão que possui o menor

desvio padrão com as restantes do grupo

desvio padrão com as restantes do grupo

5.

5. Para o exemplo:Para o exemplo:

NP

NP findfind inin NP NP suchsuch as LISTas LIST NP

NP suchsuch as LIST continue to as LIST continue to plagueplague NPNP NP

(16)

Avalia

Avalia

ç

ç

ão do processo de descoberta

ão do processo de descoberta

„

„ Corpus usado Corpus usado AgroAgro--AlimAlim ((FrFr: ?? : ?? ààtomostomos))

„

„ 40 pares hiper40 pares hiper--hipo definidos manualmente. hipo definidos manualmente. ExEx::

„

„ fruitsfruits tropicauxtropicaux : : bananesbananes

„

„ cationscations : : sodiumsodium

„

„ arbresarbres : : chêneschênes

„

„ cerealescereales : : bleble

„

„ fruitsfruits : : orangeorange

„

„ fruitsfruits : kiwi: kiwi

„

„ legume : legume : carottecarotte

„

„ legume : legume : concombreconcombre

„

„ sucresucre : : saccharosesaccharose

„

„ huileshuiles: : huilehuile de sojade soja

„

„ Nesta fase os autores usaram UT de uma palavra apenas (acelerar Nesta fase os autores usaram UT de uma palavra apenas (acelerar

a convergência?)

a convergência?)

„

(17)

O processo de descoberta

O processo de descoberta

„

„

40 instâncias permitiram gerar 11 PLS:

40 instâncias permitiram gerar 11 PLS:

„

„ {{deux|troisdeux|trois...|2|3|4...} NP1 ( LIST2 )...|2|3|4...} NP1 ( LIST2 ) „

„ {{certain|quelque|decertain|quelque|de autreautre...} NP1 ( LIST2 )...} NP1 ( LIST2 ) „

„ {{deux|troisdeux|trois...|2|3|4...} NP1 : LIST2...|2|3|4...} NP1 : LIST2 „

„ {{certain|quelque|decertain|quelque|de autreautre...} NP1 : LIST2...} NP1 : LIST2 „

„ {de {de autreautre}? NP1 }? NP1 teltel que LIST2que LIST2 „

„ NP1, NP1, particuliparticulièèrementrement NP2,NP2, „

„ {de {de autreautre}? NP1 }? NP1 commecomme LIST2LIST2 „

„ NP2 {NP2 {et|ouet|ou} de } de autreautre NP1NP1 „

„ NP1 NP1 etet notammentnotamment NP2NP2 „

(18)

Avalia

Avalia

ç

ç

ão do processo de descoberta

ão do processo de descoberta

„

„

Avaliar os pares rela

Avaliar os pares rela

ç

ç

ão descobertos pelo

ão descobertos pelo

Prom

Prom

é

é

th

th

é

é

e

e

:

:

„

„

Como habitualmente P, R e F:

Como habitualmente P, R e F:

„

„ NNtottot: N: Nºº pares existentes (manual)pares existentes (manual) „

„ NNcorcor: N: Nºº pares correctospares correctos „

„ NNerrerr: N: Nºº pares correctospares correctos „

„ P = (P = (NNcorcor)/()/(NNcorcor++NNerrerr))

„

„ R = R = NNcorcor//NNtottot

„

„ F = 2 (P x R) / (P+R)F = 2 (P x R) / (P+R)

„

(19)

Avalia

Avalia

ç

ç

ão do processo de descoberta

ão do processo de descoberta

„

„

Resultados:

Resultados:

„

„

Pm

Pm

é

é

dia

dia

= 82% (m

= 82% (m

é

é

dia

dia

-

-

alta)

alta)

„

(20)

Avalia

Avalia

ç

ç

ão do processo de descoberta

ão do processo de descoberta

„

„ DetecDetecçção de relaão de relaçções ões subsub--especificadasespecificadas::

„

„ ((““caractercaracteríísticastica””,,””durezadureza””)) „

„ ““caractercaracteríísticastica”” éé demasiado gendemasiado genéérico. Que rico. Que ““caractercaracteríísticastica””?? „

„ ““elementoelemento””, , ““espespééciecie””,,””factorfactor””, etc... (Termos Secund, etc... (Termos Secundáários?)rios?) „

„ Pares muito especPares muito especííficos do assunto/amostra: ficos do assunto/amostra:

„

„ ((““ambiente idealambiente ideal””, , ““MalMaláásiasia””)) „

„ ““...crescem num ...crescem num ambiente idealambiente ideal tal como na tal como na MalMaláásiasia”” „

„ Confusão Confusão hiperonhiperoníímiamia//meronmeroníímiamia

„

„ ((““troncotronco””,,””membromembro””) ) „

„ ““...parte do ...parte do troncotronco em particular os em particular os membros...membros...”” „

„ PossPossííveis causas:veis causas:

„

„ Ambiguidade morfoAmbiguidade morfo--sintsintááctica entre ctica entre AdjAdj e PPe PP „

(21)

Coment

Coment

á

á

rios R

rios R

á

á

pidos

pidos

„

„ Valores de P e R nada surpreendentesValores de P e R nada surpreendentes

„

„ Foram Foram ““apenasapenas”” obtidos os padrões obtidos os padrões ““triviaistriviais””

„

„ Manualmente talvez fosse melhorManualmente talvez fosse melhor „

„ O CorpO Corpóógrafo tem padrões menos triviais!grafo tem padrões menos triviais! „

„ Contudo, a hiperonContudo, a hiperoníímia não mia não éé habitualmente expressa shabitualmente expressa sóó por por

estas constru

estas construçções...ões...

„

„ ao contrao contráário de certas relario de certas relaçções funcionais (ões funcionais (exex: : causacausa--efeitoefeito)) „

„ ... estando grande parte da informa... estando grande parte da informaçção da hiperonão da hiperoníímia em mia em

dom

domíínios tnios téécnicos implcnicos implíícita na morfologia. cita na morfologia.

„

„ ““ccéélulalula”” : : ““neurneuróónionio”” vsvs. . ““ccéélulalula”” : : ““ccéélulalula da da gliaglia””

„

„ Em todo o caso, Em todo o caso, éé um mum méétodo automtodo automáático e potencialmente tico e potencialmente

(22)

Outras experiências

Outras experiências

„

„

Teste com a

Teste com a

rela

rela

ç

ç

ão

ão

fusão

fusão

:

:

„

„ “Dixons Group Plc said shareholders at a special meeting of Cyclops“

Corp approve the previously announced merger of Cyclops with Dixons.”” „

„

Processo ligeiramente diferente (

Processo ligeiramente diferente (

Reuters

Reuters

Corpus!):

Corpus!):

„

„ Carregamento do Carregamento do PromPromééththééee com 2 PLS base com 2 PLS base ““arquarquéétipostipos”” „

„ ExtracExtracçção de pares usando os padrões baseão de pares usando os padrões base „

„ Pesquisa de mais PLS usando os pares anteriores: +5Pesquisa de mais PLS usando os pares anteriores: +5 „

„ Pesquisa de novos pares usando os 7 padrõesPesquisa de novos pares usando os 7 padrões „

„ 101 novos pares P = 92% mas R=??101 novos pares P = 92% mas R=??

„

„

Claro que

Claro que

é

é

uma rela

uma rela

ç

ç

ão muito do dom

ão muito do dom

í

í

nio e o corpus

nio e o corpus

é

é

de dom

(23)

Outras experiências ainda...

Outras experiências ainda...

„

„

Teste com a rela

Teste com a rela

ç

ç

ão

ão

produz

produz

:

:

„

„ produz(produz(““nome_da_empresanome_da_empresa””,,””produtoproduto””)) „

„ Permite Permite ““distribuidistribui””, , ““vendevende””, , ““fornecefornece””, etc., etc.

„

„

A aproxima

A aproxima

ç

ç

ão foi a mesma que a anterior

ão foi a mesma que a anterior

„

„

Mas não houve convergência:

Mas não houve convergência:

„

„ A explicaA explicaçção foi que os pares gerados não chegam para ão foi que os pares gerados não chegam para

garantir a convergência

garantir a convergência

„

„ Claro que o domClaro que o domíínio nio éé muito maiormuito maior do que no caso anteriordo que no caso anterior „

(24)

A expansão dos

A expansão dos

Hiper

Hiper

ó

ó

nimos

nimos

„

„

Usando os PLS 11 anteriores

Usando os PLS 11 anteriores

„

„

1216

1216

tuplos

tuplos

hiperon

hiperon

í

í

mia

mia

„

„

26.2% entre

26.2% entre

UT

UT

s

s

multi

multi

-

-

palavra

palavra

„

„

23.5% entre

23.5% entre

UT

UT

s

s

simples

simples

„

„

50.3% entre uma UT multi

50.3% entre uma UT multi

-

-

palavra e outra simples

palavra e outra simples

„

„

O

O

tuplos

tuplos

obtidos referem

obtidos referem

-

-

se aos poss

se aos poss

í

í

veis de

veis de

detectar no contexto de uma frase

detectar no contexto de uma frase

„

„

Representam apenas uma frac

Representam apenas uma frac

ç

ç

ão dos existentes

ão dos existentes

„

(25)

A expansão dos

A expansão dos

Hiper

Hiper

ó

ó

nimos

nimos

„

„ Ideia: encontrar relaIdeia: encontrar relaçções entre ões entre UTUT’’ss compostas, a partir das compostas, a partir das

rela

relaçções conhecidas para ões conhecidas para UTUT’’ss de 1 palavra de 1 palavra

„

„ Supondo que conheSupondo que conheçço:o:

1.

1. hiper(frutahiper(fruta, ma, maçça)a) 2.

2. UT(sumoUT(sumo de fruta) e de fruta) e UT(sumoUT(sumo de made maçça)a) 3.

3. Relacionados(nectar,sumoRelacionados(nectar,sumo))

Podemos gerar por propaga

Podemos gerar por propagaçção (ou não):ão (ou não):

1.

1. hiper(sumohiper(sumo de fruta, sumo de made fruta, sumo de maçça)a) 2.

2. Relacionados (Relacionados (nectarnectar de fruta, sumo de made fruta, sumo de maçça)a) 3.

3. REL (N1 de fruta, N2 de maREL (N1 de fruta, N2 de maçça) a)

„

„ com N1 e N2 semanticamente ligadoscom N1 e N2 semanticamente ligados „

„ VerificaVerifica--se ser possse ser possíível propagar relavel propagar relaçções quando as UT ões quando as UT

compostas são UT Variantes

(26)

O que são UT Variantes?

O que são UT Variantes?

„

„

São UT que partilham semelhan

São UT que partilham semelhan

ç

ç

as estruturais e

as estruturais e

semânticas, e que por isso permitem

semânticas, e que por isso permitem

propagar rela

propagar rela

ç

ç

ões

ões

„

„

3 tipos de

3 tipos de

UT

UT

s

s

Variantes a considerar:

Variantes a considerar:

„

„ SintSintáácticascticas „

„ MorfoMorfo--sintsintáácticascticas „

„ SemânticasSemânticas

„

„

H

H

á

á

algoritmos que permitem detectar as UT variantes!

algoritmos que permitem detectar as UT variantes!

„

„

Detec

Detec

ç

ç

ão (ou gera

ão (ou gera

ç

ç

ão) de variantes:

ão) de variantes:

„

„ FASTR (FASTR (JacqueminJacquemin 99)99) „

(27)

Variantes Sint

Variantes Sint

á

á

cticas

cticas

„

„

As palavras da UT original mantêm

As palavras da UT original mantêm

-

-

se na UT

se na UT

variante, mas a estrutura relativamente

variante, mas a estrutura relativamente

à

à

UT

UT

original

original

é

é

diferente.

diferente.

1.

1.

Coordena

Coordena

ç

ç

ão:

ão:

combina

combina

ç

ç

ão de dois termos com a

ão de dois termos com a

mesma

mesma

cabe

cabe

ç

ç

a

a

:

:

frutos frescos ou secos

frutos frescos ou secos

2.

2.

Modifica

Modifica

ç

ç

ão:

ão:

inser

inser

ç

ç

ão de um modificador:

ão de um modificador:

resistência [mecânica] do man

resistência [mecânica] do man

í

í

pulo

pulo

3.

3.

Sinapse:

Sinapse:

remo

remo

ç

ç

ão de algumas palavras fun

ão de algumas palavras fun

ç

ç

ão:

ão:

cultivo de bananas / cultivo das bananas

cultivo de bananas / cultivo das bananas

(28)

Variantes Morfo

Variantes Morfo

-

-

Sint

Sint

á

á

cticas

cticas

„

„

O conte

O conte

ú

ú

do da UT original ou de uma sua

do da UT original ou de uma sua

variante morfol

variante morfol

ó

ó

gica

gica

é

é

encontrado na UT

encontrado na UT

variante. A estrutura sint

variante. A estrutura sint

á

á

ctica tamb

ctica tamb

é

é

m

m

é

é

alterada.

alterada.

1.

1.

Nome

Nome

-

-

Nome

Nome

:

:

semente de alfarrobeira

semente de alfarrobeira

/

/

semente de alfarroba

semente de alfarroba

2.

2.

Nome

Nome

-

-

Verbo

Verbo

:

:

produ

produ

ç

ç

ão de enzimas

ão de enzimas

/

/

produzir enzimas

produzir enzimas

3.

3.

Nome

Nome

-

-

Adjectivo

Adjectivo

:

:

produ

produ

ç

ç

ão de fruta

ão de fruta

,

,

(29)

Variantes Semânticas

Variantes Semânticas

„

„

Rela

Rela

ç

ç

ões semânticas (sinon

ões semânticas (sinon

í

í

mia, hiperon

mia, hiperon

í

í

mia)

mia)

encontradas entre palavras da UT original e da UT

encontradas entre palavras da UT original e da UT

variante:

variante:

1.

1. Semânticas (Puras):Semânticas (Puras): ““farinha de trigofarinha de trigo”” / / ““farinha de farinha de

milho

milho”” ((coco--hiperonhiperoníímiamia trigo/milho)trigo/milho)

2.

2. SintSintáácticoctico--SemânticasSemânticas:: (1) mais possibilidade de (1) mais possibilidade de

Modifica

Modificaçção/Sinapse: ão/Sinapse: ““grãos duros de milhogrãos duros de milho”” / / ““grãos de grãos de trigo

trigo””

3.

3. MorfoMorfo--sintsintáácticoctico--semânticassemânticas:: (2) + aplicar (2) + aplicar

transforma

transformaçções tambões tambéém m ààs palavras morfologicamente s palavras morfologicamente relacionadas:

(30)

Restri

Restri

ç

ç

ões

ões

à

à

produ

produ

ç

ç

ão de Variantes Semânticas

ão de Variantes Semânticas

„

„

Consideremos duas

Consideremos duas

UT

UT

s

s

possivelmente variantes:

possivelmente variantes:

„

„ UT = wUT = w11ww22 e UTe UT’’ = w= w11’ww22’’

„

„ ObservaObservaçção: ão:

„

„ w1 e w1w1 e w1’’ podem estar semanticamente relacionadospodem estar semanticamente relacionados „

„ w2 e w2w2 e w2’’ podem estar semanticamente relacionadospodem estar semanticamente relacionados „

„ Não implica UT e UTNão implica UT e UT’’ semanticamente prsemanticamente próóximos!!ximos!! „

„ ÉÉ necessnecessáário impor algumas restririo impor algumas restriçções:ões:

1.

1. Isomorfia sintIsomorfia sintáácticactica 2.

2. Isomorfia semânticaIsomorfia semântica 3.

(31)

Isomorfia sint

Isomorfia sint

á

á

ctica

ctica

„

„

As palavras relacionadas têm de ocupar posi

As palavras relacionadas têm de ocupar posi

ç

ç

ões

ões

similares nas UT, como:

similares nas UT, como:

„ „ CabeCabeççasas „ „ ArgumentosArgumentos „ „ ModificadoresModificadores „ „

Ex

Ex

:

:

processo

processo de de elaboraelaboraççãoão !ISO_SIN !ISO_SIN elaboraelaboraççãoão de um de um mméétodotodo “

“processo”processo” e e ““mémétodotodo”” são sinsão sinóónimos mas nimos mas “

(32)

Isomorfia semântica

Isomorfia semântica

„

„

As palavras relacionadas têm de ter significados

As palavras relacionadas têm de ter significados

semelhantes em ambas as

semelhantes em ambas as

UT

UT

s

s

.

.

„

„

EX.:

EX.:

an

anáálise da lise da distribuidistribuiççãoão estatestatíística stica !ISO_SEM

!ISO_SEM

an

anáálise de lise de divisãodivisão estatestatíísticastica Apesar de haver ISO_SIN

Apesar de haver ISO_SIN

„

„

É

É

necess

necess

á

á

rio lidar com polissemia

rio lidar com polissemia

„

(33)

Rela

Rela

ç

ç

ão semântica hol

ão semântica hol

í

í

stica

stica

„

„

Temos de verificar que as

Temos de verificar que as

UT

UT

s

s

completas (i.e.

completas (i.e.

os

os

holons

holons

) são semanticamente equivalentes.

) são semanticamente equivalentes.

„

„

EX:

EX:

„

„

inspec

inspec

ç

ç

ão

ão

alimentar

alimentar

„

„

não

não

é

é

semanticamente equivalente a

semanticamente equivalente a

„

„

controlo

controlo

alimentar

alimentar

„

„

apesar de

apesar de

inspec

inspec

ç

ç

ão

ão

e

e

controlo

controlo

serem pr

serem pr

ó

ó

ximos

ximos

„

„

Parece

Parece

-

-

me ainda mais dif

me ainda mais dif

í

í

cil e dependente do

cil e dependente do

dom

(34)

Variantes semânticos: defini

Variantes semânticos: defini

ç

ç

ão

ão

„

„

Duas UT multi

Duas UT multi

-

-

palavra w1w2 e w1

palavra w1w2 e w1

w2

w2

são

são

variantes semânticos se 3 condi

variantes semânticos se 3 condi

ç

ç

ões se

ões se

verificarem:

verificarem:

1.

1.

Existe uma rela

Existe uma rela

ção semântica

ç

ão semântica

S

entre w1 e w1’

entre w1 e w1

e/ou w2 e w2

e/ou w2 e w2

. O elemento não relacionado

. O elemento não relacionado

é

é

idêntico ou

idêntico ou

é

é

morfologicamente relacionado

morfologicamente relacionado

2.

2.

w1 e w1

w1 e w1

são cabeç

são cabe

ç

as enquanto que w2 e w2

as enquanto que w2 e w2

possuem pap

possuem pap

é

é

is tem

is tem

á

á

ticos semelhantes

ticos semelhantes

3.

3.

w1w2 e w1

w1w2 e w1

w2’

w2

possuem

possuem

a mesma

a mesma

rela

rela

ção

ç

ão

semântica

semântica

S

S

(35)

Variantes semânticos: Corol

Variantes semânticos: Corol

á

á

rio

rio

„ Se

„ duas UT compostas T e T’ forem consideradas (hipoteticamente)

variantes semânticos (usando as regras)

„ e T e T’ são estruturados a partir das UT simples w1/w1’ ou

w2/w2’

„ e w1/w1’ e w2/w2’ que verificam (1) e (2)

„ Então

„ podemos assumir que as UT Variantes T e T’ partilham a mesma

relação semântica S que um dos seus constituintes (w1/w1’ ou w2/w2’), e por isso poderemos propagar a relação

„ Algoritmo:

1. procurar UT variantes

2. propagar entre as UT variantes as relações semânticas dos seus

(36)

Pesquisa de Variantes

Pesquisa de Variantes

„

„

Baseada nas regras e restri

Baseada nas regras e restri

ç

ç

ões anteriores foi criada uma

ões anteriores foi criada uma

meta

meta

-

-

gram

gram

á

á

tica

tica

de produ

de produ

ção de varia

ç

ão de varia

ç

ç

ões

ões

„

„

110

110

meta

meta

-

-

regras

regras

!

!

„

„ 16 para termos 16 para termos AdjAdj NN „

„ 22 para termos N 22 para termos N AdjAdj „

„ 72 para N 72 para N PrepPrep NN

„

„

Ex

Ex

:

:

N1 Prep N2 -> M(N1; N) Adv? Adj? Prep Art? Adj? S(N2)

composi

composiççãoão do do frutofruto --> > compostos qucompostos quíímicosmicos da da sementesemente

„

„

Usada no FASTR

Usada no FASTR

„

(37)

Pesquisa de Variantes

Pesquisa de Variantes

„

„

Recapitulando a ideia base:

Recapitulando a ideia base:

„

„

Conhecemos a relaç

Conhecemos a rela

ç

ão

ão

„

„ ““sementesemente”” éé parte do parte do ““frutofruto””

„

„

Conhecemos e somos capazes detectar UT variantes:

Conhecemos e somos capazes detectar UT variantes:

„

„ composicomposiçção do fruto ão do fruto „

„ compostos [qucompostos [quíímicos] da sementemicos] da semente „

„ Usando: Usando: N1 Prep N2 -> M(N1; N) Adv? Adj? Prep Art? Adj? S(N2) „

„ Pela definiPela definiçção de UT variantes podemos assumir:ão de UT variantes podemos assumir:

„

„ ““compostos qucompostos quíímicos da sementemicos da semente”” éé parte do parte do ““composicomposiçção ão

do fruto

(38)

Resultados da pesquisa de variantes

Resultados da pesquisa de variantes

„

„

Foram encontrados 1.143 variantes

Foram encontrados 1.143 variantes

„

„ SintSintáácticos: 495cticos: 495 „

„ Semânticos: 584Semânticos: 584 „

„ MorfoMorfo--sintsintáácticos: 64cticos: 64

„

„

981 Variantes foram considerados correctos

981 Variantes foram considerados correctos

85.5%

85.5%

„

„

Resultados parciais vari

Resultados parciais vari

áveis:

á

veis:

1.

1. SintSintáácticos cticos –– P = 93.9 %P = 93.9 % 2.

2. Semânticos Semânticos ““purospuros”” –– P = 86.2 %P = 86.2 % 3.

3. MorfoMorfo--sintsintáácticos cticos –– P = 71.2 % P = 71.2 % 4.

4. Semânticos com variaSemânticos com variaçções sintões sintáácticas/morfolcticas/morfolóógicas gicas –– P = 73.8 %P = 73.8 %

Para (3) e (4) muitas Para (3) e (4) muitas UT variantes são UT variantes são semanticamente semanticamente

diferentes das originais

(39)

Propaga

Propaga

ç

ç

ão de Rela

ão de Rela

ç

ç

ões

ões

„

„

Pretende

Pretende

-

-

se projectar hierarquias de UT 1 de palavra

se projectar hierarquias de UT 1 de palavra

em hierarquias de UT multi

em hierarquias de UT multi

-

-

palavra.

palavra.

„

„

Recordemos que o FASTR, precisou de poder testar

Recordemos que o FASTR, precisou de poder testar

rela

rela

ções semânticas entre palavras simples

ç

ões semânticas entre palavras simples

„

„

2 op

2 op

ç

ç

ões

ões

dispon

dispon

í

í

veis para este efeito:

veis para este efeito:

1.

1.

Tesauros

Tesauros

[AGROVAC]

[AGROVAC]

2.

2.

Conjuntos de hiper

Conjuntos de hiper

ó

ó

nimo e os seus co

nimo e os seus co

-

-

hip

hip

ó

ó

nimos

nimos

gerados pelo

gerados pelo

Prom

Prom

éth

é

thé

ée

e

a partir do corpus (tipo

a partir do corpus (tipo

synsets

(40)

Propaga

Propaga

ç

ç

ão de Rela

ão de Rela

ç

ç

ões

ões

E.g.

(41)

Propaga

Propaga

ç

ç

ão de Rela

ão de Rela

ç

ç

ões: 2 tipos

ões: 2 tipos

1.

1.

Projec

Projec

ç

ç

ão por Transferência

ão por Transferência

„

„ as ligaas ligaçções entre 2 conceitos representados por UT de 1 ões entre 2 conceitos representados por UT de 1

palavra são transferidas para UT multi

palavra são transferidas para UT multi--palavra localizadas palavra localizadas noutro ponto da hierarquia.

noutro ponto da hierarquia.

„

„ hiper(frutahiper(fruta, ma, maççã) ã) ÆÆ hiper(sumohiper(sumo de fruta, sumo de made fruta, sumo de maççã)ã)

2.

2.

Projec

Projec

ç

ç

ão por Especializa

ão por Especializa

ç

ç

ão

ão

„

„ as ligaas ligaçções entre 2 conceitos representados por UT de 1 ões entre 2 conceitos representados por UT de 1

palavra são transferidas em paralelo para

palavra são transferidas em paralelo para UTUT’’ss multimulti--palavra palavra que representam conceitos especializados de cada um dos

que representam conceitos especializados de cada um dos

conceitos base

conceitos base

„

(42)

Propaga

(43)

Propaga

Propaga

ç

ç

ão de Rela

ão de Rela

ç

ç

ões: observa

ões: observa

ç

ç

ões

ões

„

„

Estamos a trabalhar em dom

Estamos a trabalhar em dom

í

í

nios espec

nios espec

í

í

ficos o que

ficos o que

reduz ambiguidades / polissemia / homografia

reduz ambiguidades / polissemia / homografia

„

„ Por isso, estas propagaPor isso, estas propagaçções não devem gerar demasiados ões não devem gerar demasiados

pares esp

pares espúúriosrios

„

„

UT multi

UT multi

-

-

palavra são normalmente espec

palavra são normalmente espec

í

í

ficas e menos

ficas e menos

frequentes em corpora

frequentes em corpora

„

„ Por isso, nem todas as propagaPor isso, nem todas as propagaçções possões possííveis podem depois veis podem depois

ser encontradas / verificadas em corpora

ser encontradas / verificadas em corpora

„

„

Esta t

Esta t

é

é

cnica deve ser entendida como uma forma semi

cnica deve ser entendida como uma forma semi

-

-autom

(44)

Avalia

Avalia

ç

ç

ão das Projec

ão das Projec

ç

ç

ões (1)

ões (1)

„

„

Propaga

Propaga

ç

ç

ão das

ão das

rela

rela

ções obtidas pelo

ç

ões obtidas pelo

M

M

é

é

todo 1:

todo 1:

Prom

Prom

é

é

th

th

é

é

e

e

+ corpora

+ corpora

„

„

Dos 1216 pares entre

Dos 1216 pares entre

UT

UT

s

s

de 1 palavra,

de 1 palavra,

seleccionaram

seleccionaram

-

-

se 89

se 89

„

„

Propagadas 584 novas

Propagadas 584 novas

rela

rela

ç

ç

ões entre UT

ões entre UT

multi

(45)

Avalia

Avalia

ç

ç

ão das Projec

ão das Projec

ç

ç

ões (1)

ões (1)

„

„

Transferências são mais habituais: 507

Transferências são mais habituais: 507

vs

vs

. 77

. 77

„

„

Certas classes são muito produtivas:

Certas classes são muito produtivas:

„

„

Elementos qu

Elementos qu

í

í

micos, cereais e frutos

micos, cereais e frutos

„

„

Termos muito gené

Termos muito gen

é

ricos

ricos

„

„

Outras classes são muito pouco produtivas:

Outras classes são muito pouco produtivas:

„

„

Poli

Poli

ó

ó

leos

leos

, prote

, prote

í

í

nas: UT muito espec

nas: UT muito espec

í

í

ficos, ou

ficos, ou

melhor têm regras pr

melhor têm regras pr

ó

ó

prias de obtenç

prias de obten

ç

ão de variantes

ão de variantes

e de projec

e de projec

ç

ç

ão

ão

„

(46)

Especializa

Especializa

ç

ç

ão

ão

vs

vs

. Transferência (1)

. Transferência (1)

„

„

Projec

Projec

ç

ç

ão por Especializa

ão por Especializa

ç

ç

ão:

ão:

„

„

Menos frequentes: 77

Menos frequentes: 77

tuplos

tuplos

„

„

Precisão m

Precisão m

édia relativamente baixa: 58.4 %

é

dia relativamente baixa: 58.4 %

„

„

Desvio padrão elevado

Desvio padrão elevado

„

„

Projec

Projec

ç

ç

ão por Transferência:

ão por Transferência:

„

„

Bastante frequentes: 507

Bastante frequentes: 507

„

„

Precisão m

Precisão m

é

é

dia relativamente elevada: 83.8 %

dia relativamente elevada: 83.8 %

„

„

Desvio padrão reduzido

Desvio padrão reduzido

„

(47)

Avalia

Avalia

ç

ç

ão das Projec

ão das Projec

ç

ç

ões (2)

ões (2)

„

„ PropagaPropagaçção das relaão das relaçções ões

identificadas por consulta a

identificadas por consulta a

um tesauro [AGROVAC:

um tesauro [AGROVAC:

15,800

15,800 UTUT’’ss]]

„

„ Teste Teste àà robustez do robustez do

Prom

Promééththééee

„

„ SeleccionaramSeleccionaram--se 168 se 168 UTUT’’ss

de 4 t

de 4 tóópicos: cultivo / picos: cultivo /

anatomia vegetal / produtos

anatomia vegetal / produtos

vegetais / sabores

vegetais / sabores

„

„ Projectadas 371 novas Projectadas 371 novas

rela

relaçções entre UT multiões entre UT multi- -palavra

(48)

Avalia

Avalia

ç

ç

ão das Projec

ão das Projec

ç

ç

ões (2)

ões (2)

„

„

Resultados semelhantes ao caso anterior

Resultados semelhantes ao caso anterior

„

„

Projec

Projec

ç

ç

ão por Especializa

ão por Especializa

ç

ç

ão:

ão:

„

„

Menos frequentes: 45

Menos frequentes: 45

tuplos

tuplos

„

„

Precisão m

Precisão m

é

é

dia relativamente baixa: 57.8 %

dia relativamente baixa: 57.8 %

„

„

Projec

Projec

ç

ç

ão por Transferência:

ão por Transferência:

„

„

Bastante frequentes: 326

Bastante frequentes: 326

„

„

Precisão m

Precisão m

é

é

dia relativamente elevada: 72.4 %

dia relativamente elevada: 72.4 %

„

(49)

Corpora

Corpora

vs

vs

.

.

Tesauros

Tesauros

„

„

Os resultados da utiliza

Os resultados da utiliza

ç

ç

ão da informa

ão da informa

ç

ç

ão de

ão de

tesauros são significativamente inferiores

tesauros são significativamente inferiores

„

„

Os tesauros utilizam hierarquias mais profundas

Os tesauros utilizam hierarquias mais profundas

o que aumenta a distância m

o que aumenta a distância m

é

é

dia entre co

dia entre co

-

-hip

hip

ó

ó

nimos

nimos

„

„

Aparentemente,

Aparentemente,

é

é

mais dif

mais dif

í

í

cil verificar a rela

cil verificar a rela

ç

ç

ão

ão

entre UT simples usando tesauros (não h

entre UT simples usando tesauros (não h

á

á

transitividade?) e por isso são validadas menos

transitividade?) e por isso são validadas menos

rela

(50)

Conclusões

Conclusões

„

„

Um m

Um m

é

é

todo que permite propagar algumas rela

todo que permite propagar algumas rela

ç

ç

ões

ões

semânticas f

semânticas fá

á

ceis de estabelecer automaticamente (i.e.

ceis de estabelecer automaticamente (i.e.

entre UT 1 palavra) a um conjunto de UT compostas

entre UT 1 palavra) a um conjunto de UT compostas

cuja detec

cuja detec

ç

ç

ão de rela

ão de rela

ç

ç

ões

ões

é

é

mais complexa

mais complexa

„

„

Boa precisão

Boa precisão

„

„

Pass

Pass

í

í

vel de ser portado para PT

vel de ser portado para PT

„

„

Bom m

Bom m

é

é

todo para criar gloss

todo para criar gloss

á

á

rios

rios

„

(51)

Conclusões

Conclusões

„

„

Um m

Um m

é

é

todo

todo

autom

autom

á

á

tico

tico

interessante para

interessante para

obten

obten

ç

ç

ão de PLS

ão de PLS

„

„

Precisão razo

Precisão razo

á

á

vel e talvez tenha poucas

vel e talvez tenha poucas

vantagens relativamente

vantagens relativamente

à

à

aproxima

aproxima

ç

ç

ão manual

ão manual

„

„

Seria interessante pensar:

Seria interessante pensar:

1.

1. como generalizar o mcomo generalizar o méétodo de propagatodo de propagaçção para quaisquer ão para quaisquer

UT para partir de qualquer tamanho

UT para partir de qualquer tamanho

2.

Referências

Documentos relacionados

Diferentemente do prazo fixado para pagamento dos precató- rios, as RPVs são depositadas pelos Tribunais Regionais Federais nos bancos ofi- ciais, mensalmente, obedecido o prazo de

A comunicação desenvolve o tema de aplicação do conceito gestão do risco precisamente ao risco de gestão dos recursos hídricos, focando os processos de decisão e de

Questão 5 - (UFMG - adaptação) O princípio básico de funcionamento de uma fibra óptica consiste em colocar um material X, com índice de refração nx, no interior de outro

15.6 - Os pedidos de esclarecimentos referentes a este processo licitatório deverão ser enviados ao pregoeiro, até três dias úteis anteriores à data fixada para abertura da

[r]

Varr edura TCP Window ( cont inuação) ACK- win manipulado Não Responde ACK- win manipulado ICMP Tipo 3 Firewall Negando Firewall Rejeitando Scanner de Porta... Var r edur a FI N/

Contamos ainda com vários itens para fotografia de Newborn, toda linha de suprimentos para sublimação e um Guia de Negócios especial, com todos os nossos kits de prensas

Eu tenho rugas, porque tive filhos e fiquei preocu- pada com eles desde a concepção, mas também porque sorri, para to- das as suas novas descober- tas e porque passei muitas noites