• Nenhum resultado encontrado

Extracção Automática de Terminologia

N/A
N/A
Protected

Academic year: 2021

Share "Extracção Automática de Terminologia"

Copied!
46
0
0

Texto

(1)

Extrac

Extrac

ç

ç

ão Autom

ão Autom

á

á

tica

tica

de Terminologia

de Terminologia

Uma breve abordagem

Uma breve abordagem

Lu

Luíís Sarmentos Sarmento Simp

Simpóósio Doutoral da Linguatecasio Doutoral da Linguateca Lisboa, 6 de Maio de 2005 Lisboa, 6 de Maio de 2005

(2)

Resumo

Resumo

„

„

O que

O que

é

é

Terminologia (11)

Terminologia (11)

„

„

Para que serve a

Para que serve a

Terminolgia

Terminolgia

(3)

(3)

„

„

Como Extrair

Como Extrair

Terminolgia

Terminolgia

(14)

(14)

V

V

á

á

rios m

rios m

é

é

todos

todos

„

„

Um caso particular (14)

Um caso particular (14)

Corp

Corp

ógrafo

ó

grafo

„

(3)

Motiva

Motiva

ç

ç

ão para a EAT

ão para a EAT

„

„

Os “

Os

termos

termos

são uma parte essencial da

são uma parte essencial da

comunica

comunica

ção de dom

ç

ão de dom

í

í

nio especí

nio espec

í

fico

fico

„

„

Identificaç

Identifica

ção

ão é

é

fundamental para:

fundamental para:

– AnáAnálise / Compreensãolise / Compreensão –

– GeraGeração ção –

– TraduTraduççãoão

„

„

Constante aumento da informa

Constante aumento da informa

ç

ç

ão dispon

ão dispon

í

í

vel de

vel de

dom

domí

ínio espec

nio especí

í

fico (DE)

fico (DE)

„

„

A Extrac

A Extrac

ç

ç

ão Autom

ão Autom

á

á

tica de Terminologia (EAT)

tica de Terminologia (EAT)

torna

(4)

Termos

Termos

„

„

O que são os

O que são os

termos

termos

?

?

„

„

Primeiro vamos alterar a nossa pr

Primeiro vamos alterar a nossa pr

ó

ó

pria

pria

terminologia

terminologia

termo

termo

Æ

Æ

Unidade Terminol

Unidade Terminol

ó

ó

gica : UT

gica : UT

„

„

Evitar confusões com a terminologia

Evitar confusões com a terminologia

usada em IR

usada em IR

(5)

Unidades Terminol

Unidades Terminol

ó

ó

gicas

gicas

„

„

O que é

O que

é

uma UT?

uma UT?

– Questão complexa e controversaQuestão complexa e controversa

„

„

Mas poderemos dizer:

Mas poderemos dizer:

– Uma UT Uma UT éé uma etiqueta linguuma etiqueta linguíística para um conceito:stica para um conceito:

„

„ DomíDomínio nio ÆÆ Conceito –Conceito – UTUT

„

„

Visão clá

Visão cl

ássica do Conhecimento:

ssica do Conhecimento:

– Estruturado, dividido em domíEstruturado, dividido em domínio, redes conceptuaisnio, redes conceptuais

„

„

Na prá

Na pr

ática as estrutura de conhecimento são

tica as estrutura de conhecimento são

– dinâmicas, dependentes da perspectiva e da utilizaçdinâmicas, dependentes da perspectiva e da utilizaçãoão

„

„

Mas podemos ficar com esta ideia:

Mas podemos ficar com esta ideia:

(6)

Unidades Terminol

Unidades Terminol

ó

ó

gicas

gicas

„

„

UT dividem

UT dividem

-

-

se em:

se em:

Simples / 1 palavra

Simples / 1 palavra

„

„ ““rede”rede”, , ”c”céélulalula”, ”, ““sistemasistema””

„

„ Normalmente genéNormalmente genéricas e ambricas e ambííguas, atguas, atéé em domem domínios ínios

fechados fechados

Compostas / multi

Compostas / multi

-

-

palavra

palavra

„

„ ““rede neuronalrede neuronal”” / “/ “ccéélula eucarilula eucarióóticatica””, , ““sistema de sistema de

bombagem de

bombagem de águaágua””

„

„ Normalmente não ambíNormalmente não ambíguas num determinado guas num determinado

dom

(7)

Unidades Terminol

Unidades Terminol

ó

ó

gicas

gicas

„

„

Mais terminologia sobre

Mais terminologia sobre

UT

UT

s

s

.

.

„

„

UT

UT

s

s

são habitualmente formadas:

são habitualmente formadas:

por uma

por uma

cabe

cabe

ç

ç

a

a

„

„ termo muito gentermo muito genérico: érico: ““rederede”, ”, “c“céélulalula”,”,”á”ácidocido””

„

„ termo secundtermo secundário: ário: ““sistemasistema””, , ““processoprocesso”, ”, ““estruturaestrutura””

Um

Um

grupo modificador

grupo modificador

ou

ou

grupo de argumentos

grupo de argumentos

„

„ Adjectivo, nome ou Adjectivo, nome ou outra UToutra UT

– [[Sistema de [Sistema de [gestão de [gestão de [bases de dadosbases de dados]]]]]]

Certas UT formam-

Certas UT formam

-

se por aglutina

se por aglutina

ç

ç

ão mas em

ão mas em

português são raras ou s

português são raras ou s

ó

ó

ocorrem em certos

ocorrem em certos

dom

(8)

Quanto

Quanto

à

à

Morfologia

Morfologia

„

„

É

É

difí

dif

í

cil descrever a morfologia dos termos.

cil descrever a morfologia dos termos.

„

„

Grande dependência do dom

Grande dependência do dom

í

í

nio:

nio:

– Vantagens e desvantagens na identificaVantagens e desvantagens na identificaçção ão

„

„

Exemplos:

Exemplos:

– QuíQuímica/farmmica/farmácia/medicina destacamácia/medicina destacam-se pela sua -se pela sua excentricidade:

excentricidade:

„

„ “3“3--44--benzoterminolaninabenzoterminolanina”” ou “ou “TerminologiteTerminologite aguda”aguda”

– Nas engenharias e ciências tecnolóNas engenharias e ciências tecnológicas são mais variados gicas são mais variados mas

mas ““bem comportadosbem comportados””::

„

„ ““Sistema terminolSistema terminolóógicogico”” ou ou ““extractor de extractor de UTUT’’ss””

– Direito/geografia fazem parte do lDireito/geografia fazem parte do lééxico corrente:xico corrente:

„

(9)

Quanto

Quanto

à

à

Sintaxe

Sintaxe

„

„

Normalmente consideram

Normalmente consideram

-

-

se UT apenas sintagmas

se UT apenas sintagmas

nominais

nominais

„

„

H

H

á

á

v

v

á

á

rias estruturas sint

rias estruturas sint

ácticas frequentes

á

cticas frequentes

– N: redeN: rede –

– NA: rede neuronalNA: rede neuronal –

– NpN: rede de telefone, ciclo de NpN: rede de telefone, ciclo de KrebsKrebs (EN!!)(EN!!) –

– NpNpNANpNpNA: Sistema de reencaminhamento de Chamadas : Sistema de reencaminhamento de Chamadas Autom

Automáticoático

„

„

V

V

á

á

rias possibilidades de

rias possibilidades de

– Introduzir modificadores ou argumentosIntroduzir modificadores ou argumentos –

– Compor novas UT por variaçCompor novas UT por variação:ão:

„

(10)

Quanto

Quanto

à

à

Sintaxe

Sintaxe

„

„

H

H

á

á

quem considere Verbos como UT v

quem considere Verbos como UT v

á

á

lidas

lidas

mas essa não

mas essa não

é

é

a visão dominante.

a visão dominante.

„

„

Normalmente as formas verbais resultam da

Normalmente as formas verbais resultam da

transforma

transforma

ç

ç

ão morfol

ão morfol

ó

ó

gica N

gica N

Æ

Æ

V

V

da UT:

da UT:

Reencaminhamento de chamadas Reencaminhamento de chamadas

Æ

Æ reencaminhar (“reencaminhar (“asas””|mod|mod)* chamadas)* chamadas

„

„

Por tudo isto, a detec

Por tudo isto, a detec

ç

ç

ão de variantes

ão de variantes

é

é

uma

(11)

Recursos Terminol

Recursos Terminol

ó

ó

gicos

gicos

„

„

Onde armazenamos a Terminologia?

Onde armazenamos a Terminologia?

Tesauros: UMLS/

Tesauros

: UMLS/MeSH

MeSH

„

„ UTUT’’ss + certas rela+ certas relaçções tradicionaisões tradicionais

Ontologias (?)

Ontologias (?)

„

„ UTUT’’ss + certas rela+ certas relaçções especões especííficasficas

Gloss

Gloss

ários

á

rios

„

„ UTUT’’ss e suas definie suas definiççõesões

Bases de Dados Terminoló

Bases de Dados Terminol

ógicas

gicas

„

„ Guardam as UT, equivalentes de Guardam as UT, equivalentes de TradTrad., Exemplos de ., Exemplos de

Utiliza

Utilizaçção, contextos / colocaão, contextos / colocaçções, ões, InfInf. . adminstrativa, adminstrativa, etc

(12)

Recursos Terminol

Recursos Terminol

ó

ó

gicos

gicos

„

„

Apesar de ser uma representa

Apesar de ser uma representa

ç

ç

ão lexical de

ão lexical de

um determinado conceito. uma UT não

um determinado conceito. uma UT não é

é

guardada sozinha, mas sim:

guardada sozinha, mas sim:

Em contexto

Em contexto

Relacionada com outras UT

Relacionada com outras UT

Relacionada com equivalentes noutros idiomas

Relacionada com equivalentes noutros idiomas

Tal como os pr

Tal como os pr

óprios conceitos

ó

prios conceitos

„

„

Uma UT não tem valor isoladamente

Uma UT não tem valor isoladamente

Vale essencialmente pelas rela

Vale essencialmente pelas rela

ções que

ç

ões que

estabelece

(13)

Recursos Terminol

Recursos Terminol

ó

ó

gicos

gicos

„

„

Visão de Engenharia do Conhecimento

Visão de Engenharia do Conhecimento

– A UT como ponto de partida para a criaA UT como ponto de partida para a criaçção de um recurso ão de um recurso de conhecimento...

de conhecimento... –

– ... e não s... e não sóó apenas chegada!apenas chegada!

„

„

A UT como “

A UT como

n

n

ó”

ó”

de uma “

de uma

rede”

rede

– poliedro irregular e instpoliedro irregular e instáável de uma região semântica vel de uma região semântica dinâmica e subjectiva

dinâmica e subjectiva

„

„

Recursos gerados para determinados fins:

Recursos gerados para determinados fins:

– Um recurso terminolóUm recurso terminológico não gico não éé uma representaçuma representação final e ão final e ú

última do conhecimento (se ltima do conhecimento (se éé que isso existe)que isso existe) –

(14)

Exemplos da utiliza

Exemplos da utiliza

ç

ç

ão de UT

ão de UT

„

„

Em Recolha de informa

Em Recolha de informa

ç

ç

ão (

ão (

D.Esp

D.Esp

.?)

.?)

– IndexaçIndexação (ão (““indexaindexaçção controlada/conceptualão controlada/conceptual””):):

„

„ Se a UT Se a UT éé uma uma “representa“representaçção lexical”ão lexical” de um conceitode um conceito „

„ Então pode ser uma representaEntão pode ser uma representaçção mais fiel e compacta de ão mais fiel e compacta de

um documento um documento

– Processamento de Expressões de PesquisaProcessamento de Expressões de Pesquisa

„

„ TesaurosTesauros para expansão / compactaçpara expansão / compactaçãoão „

„ SubstituiSubstituição de uma UT por hiperção de uma UT por hiperóónimo/conimo/co--hiphipóónimonimo

– OrdenaçOrdenação de resultados: ão de resultados:

„

„ UT podem indicar com razoáUT podem indicar com razoável precisão (?) o nvel precisão (?) o nível de ível de

especializa

especializaçção do documento: poucos exemplosão do documento: poucos exemplos

– AuxíAuxílio lio àà naveganavegação e pesquisa de informação e pesquisa de informaçção!ão!

„

„ O utilizador pode “O utilizador pode “verver”” os Termos “os Termos “relevantesrelevantes”” e tentar e tentar

reescrever a sua

(15)

Exemplos da utiliza

Exemplos da utiliza

ç

ç

ão de UT

ão de UT

„

„

Trad

Trad

. Assistida e Autom

. Assistida e Autom

á

á

tica:

tica:

Para um tradutor humano uma das maiores

Para um tradutor humano uma das maiores

dificuldades

dificuldades é

é

a tradu

a tradu

ção de UT:

ç

ão de UT:

„

„ Reflectem o conhecimento do domReflectem o conhecimento do domínio que o tradutor ínio que o tradutor

(humano/autom

(humano/automático) não tem!ático) não tem!

„

„ Saber a Terminologia e as equivalências éSaber a Terminologia e as equivalências é fundamental fundamental

(normalmente pergunta

(normalmente pergunta--se ao especialista)se ao especialista)

Traduç

Tradu

ção autom

ão automá

ática as UT (Baseada Regras):

tica as UT (Baseada Regras):

„

„ Importantes na AnáImportantes na Análiselise

„

„ Transferência não éTransferência não é normalmente ambínormalmente ambígua (gua (D.EspD.Esp))

„

(16)

Mais exemplos da utiliza

Mais exemplos da utiliza

ç

ç

ão de UT

ão de UT

„

„ Tarefas que envolvam:Tarefas que envolvam:

– anáanálise rigorosa do textolise rigorosa do texto –

– Necessidade de manter grande fidelidade semânticaNecessidade de manter grande fidelidade semântica

„

„ SumarizaSumarizaçção automão automááticatica

„

„ ...

„

„ Em quase todas as aplicaçEm quase todas as aplicações em que EM são importantes:ões em que EM são importantes:

– ShallowShallow-parsing-parsing / Chunking/ Chunking/melhoramento /melhoramento “dinâmico“dinâmico”” de parsersde parsers –

– QAQA –

– Reconhecimento de vozReconhecimento de voz

„

„ LegendadorLegendador automautomááticotico

– – ...

„

„ Ou seja, tarefas em que seja crOu seja, tarefas em que seja crítico assegurar que certas ítico assegurar que certas

unidades lexicais (neste caso

unidades lexicais (neste caso UTUT’’s) não sejam segmentadas e s) não sejam segmentadas e sejam correctamente analisadas!

(17)

Extrac

Extrac

ç

ç

ão de Terminologia

ão de Terminologia

„

„

Tarefa 1:

Tarefa 1:

dado um texto num idioma:

dado um texto num idioma:

„

„ Identificar as UTIdentificar as UT

„

„ Identificar possIdentificar possíveis variaíveis variaççõesões

„

„ Identificar possIdentificar possííveis relaveis relaçções entre ões entre UTUT’’ss

„

„

Aquisi

Aquisi

ç

ç

ão de Terminologia:

ão de Terminologia:

Se não h

Se não h

á

á

base terminol

base terminol

ó

ó

gica pr

gica pr

é

é

via

via

Normalmente

Normalmente

é

é

desta que falamos

desta que falamos

„

„

Enriquecimento de Terminologia

Enriquecimento de Terminologia

(18)

Extrac

Extrac

ç

ç

ão de Terminologia

ão de Terminologia

„

„

Tarefa 2:

Tarefa 2:

Tarefa 1 em textos de v

Tarefa 1 em textos de v

á

á

rias l

rias l

í

í

nguas

nguas

Obter terminologia alinhada

Obter terminologia alinhada

Normalmente textos compar

Normalmente textos compar

á

á

veis

veis

Sub

Sub

-

-

problema

problema

de EBMT?

de EBMT?

„

„

Vamos focar:

Vamos focar:

(19)

V

V

á

á

rias aproxima

rias aproxima

ç

ç

ões

ões

„

„

H

H

á

á

v

v

á

á

rias aproxima

rias aproxima

ç

ç

ões:

ões:

Gramaticais

Gramaticais

„

„ CaracterCaracterísticas morfolísticas morfolóógicasgicas

„

„ sequências POSsequências POS

M

M

é

é

todos estat

todos estat

í

í

sticos

sticos

„

„ Coesão lexicalCoesão lexical

„

„ Desvio relativo Desvio relativo àà normanorma

H

H

í

í

bridas

bridas

„

„ CombinaCombinações mções múúltiplasltiplas

„

(20)

V

V

á

á

rias aproxima

rias aproxima

ç

ç

ões

ões

„

„

Todas estas aproxima

Todas estas aproxima

ç

ç

ões:

ões:

utilizam intui

utilizam intui

ç

ç

ões e descri

ões e descri

ç

ç

ões lingu

ões lingu

í

í

sticas

sticas

mais ou menos apuradas

mais ou menos apuradas

têm requisitos de

têm requisitos de

pr

pr

é

é

-

-

processamento

processamento

muito diferentes

muito diferentes

Podem ou não prever retorno de um

Podem ou não prever retorno de um

operador humano:

operador humano:

„

„

H

H

á

á

v

ários sistemas semi

rios sistemas semi

-

-

autom

autom

á

á

ticos que

ticos que

funcionam interactivamente

funcionam interactivamente

(21)

Que tipo de evidência

Que tipo de evidência

procurar?

procurar?

„

„

As UT são Unidades Lexicais internamente

As UT são Unidades Lexicais internamente

coesas e com forte influência contextual.

coesas e com forte influência contextual.

„

„

Na sua detecç

Na sua detec

ç

ão/exclusão podemos:

ão/exclusão podemos:

Procurar evidências internas:

Procurar evidências internas:

„

„ morfologia / sintaxe morfologia / sintaxe

Procurar evidências externas:

Procurar evidências externas:

„

„ Contextos descriminatóContextos descriminatórios / colocaçrios / colocações ões

Combinar ambas as aproximaç

Combinar ambas as aproxima

ções

ões

„

„ ““boundaryboundary rules”rules”, exclusões internas, exclusões internas

„

„

Podem prever a possibilidade de variaç

Podem prever a possibilidade de varia

ç

ões

ões

morfo

(22)

Aproxima

Aproxima

ç

ç

ões Gramaticais

ões Gramaticais

„

„

Ideias

Ideias

base /

base /

Intui

Intui

ç

ç

ões

ões

:

:

As UT

As UT

obedecem a uma gram

obedecem a uma gram

á

á

tica

tica

„

„

Normalmente

Normalmente

SN

SN

„

„

EX:

EX:

N

N

(A

(

A|P

|P N

N

)+

)+

– SistemaSistema de gestãode gestão de basede base de dadosde dados

– RedeRede neuronalneuronal –

– AparelhoAparelho de golgide golgi

Os

Os

contextos

contextos

tamb

tamb

é

é

m

m

possuem

possuem

uma

uma

gram

gram

á

á

tica

tica

„

(23)

Aproxima

Aproxima

ç

ç

ões Gramaticais

ões Gramaticais

„

„

Mais

Mais

Ideias

Ideias

base /

base /

Intui

Intui

ç

ç

ões

ões

:

:

Identificar

Identificar

UT

UT

variantes

variantes

sabendo

sabendo

o conjunto

o

conjunto

de

de

regras

regras

que

que

levam

levam

à

à

sua

sua

forma

forma

ç

ç

ão

ão

:

:

Parte

Parte

de um conjunto

de um

conjunto

de UT base e

de UT base e

aplica

aplica

regras

regras

de

de

composi

composi

ção

ç

ão

->

-

>

gram

gram

á

á

tica

tica

generativa

generativa

Pode

Pode

utilizar

utilizar

/

/

necessitar

necessitar

de

de

retorno

retorno

humano

humano

ou

ou

uma

uma

base de

base de

conhecimento

conhecimento

inicial

inicial

.

.

EX:

EX:

„

„ T (T (AA|P)T)+|P)T)+

„

„ RegrasRegras de de ““analogiaanalogia””: :

(24)

Aproxima

Aproxima

ç

ç

ões Gramaticais

ões Gramaticais

„

„

Vantagens

Vantagens

:

:

Boa

Boa

precisão

precisão

Normalmente

Normalmente

robustos

robustos

„

„

Desvantagens:

Desvantagens

:

complexidade

complexidade

de

de

implementa

implementa

ç

ç

ão

ão

necessitam

necessitam

de

de

bastante

bastante

pr

pr

é

é

-

-

processamento

processamento

Dificuldade

Dificuldade

de

de

porte

porte

para outras

para

outras

l

í

nguas

nguas

Incapazes

Incapazes

de

de

detectar

detectar

algo

algo

que

que

não

não

tenha

tenha

sido

sido

previsto

(25)

Aproxima

Aproxima

ç

ç

ões Gramaticais

ões Gramaticais

„

„

Sistemas

Sistemas

que

que

exploram

exploram

a

a

Morfologia

Morfologia

!

!

„

„

Ideias

Ideias

base /

base /

Intui

Intui

ç

ç

ões

ões

:

:

Procurar

Procurar

sequências

sequências

de palavras

de

palavras,

, que

que

possuem

possuem

uma

uma

determinada

determinada

forma:

forma:

„

„ SufixosSufixos: “: “proto*proto*””

„

„ PrefixosPrefixos: “: “**zoide”zoide”

„

„ Raizes: Raizes: ““sistemasistema””

„

„

Podem

Podem

també

tamb

é

m

m

usar

usar

alguma

alguma

evidência

evidência

externa

externa

simples:

simples:

Ex:

Ex:

Palavra

Palavra

anterior

anterior

é

é

artigo?

artigo

?

„

(26)

Aproxima

Aproxima

ç

ç

ões Gramaticais

ões Gramaticais

„

„

Vantagens:

Vantagens

:

– Boa Boa precisãoprecisão emem domdomííniosnios ““fechadosfechados””. . EgEg: : QuQuíímicamica –

– DentroDentro de um domde um domíínionio, , podempodem ser ser facilmentefacilmente portadosportados para

para llíínguasnguas prpróóximasximas ((cognatoscognatos))

„

„

Desvantagens

Desvantagens

:

:

– SSóó sãosão aplicaplicááveisveis emem certoscertos domdomííniosnios.. –

– NecessitamNecessitam de um investimentode um investimento de estudode estudo linguílinguísticostico porpor cada

cada domdomíínionio –

– NãoNão sãosão portáportáveisveis de domde domíínionio parapara domdomínioínio –

– IncapazesIncapazes de detectarde detectar algoalgo queque nãonão tenhatenha sidosido previstoprevisto nana “

“gramgramáticaática””

„

(27)

Aproxima

Aproxima

ç

ç

ões Estat

ões Estat

í

í

sticas

sticas

„

„

Sistemas que exploram informa

Sistemas que exploram informa

ç

ç

ão estatí

ão estat

í

stica:

stica:

– normalmente sobre o lnormalmente sobre o lééxico mas pode haver lematizaxico mas pode haver lematizaççãoão

„

„

Ideias base / Intui

Ideias base / Intui

ções:

ç

ões:

1.

1. As UT são unidades lexicais que pertencem a um As UT são unidades lexicais que pertencem a um determinado dom

determinado domíínio, logo podem ser consideradas nio, logo podem ser consideradas estatisticamente desviantes das unidades obtidas num estatisticamente desviantes das unidades obtidas num

“corpus padrão de linguagem comumcorpus padrão de linguagem comum””

„

„ Coeficiente de Coeficiente de DiceDice sobre o N-sobre o N-Gramas extraGramas extraíídosdos

2.

2. As UT são unidades lexicais coesas: os seus constituintes As UT são unidades lexicais coesas: os seus constituintes co

co-ocorrem com frequências muito acima do -ocorrem com frequências muito acima do ““normal”normal”

„

„ InformaçInformação Múão Mútuatua „

(28)

Aproxima

Aproxima

ç

ç

ões Estat

ões Estat

í

í

sticas

sticas

„

„

Vantagens:

Vantagens:

– PortáPortáveis entre lveis entre líínguasnguas –

– FáFáceis de programarceis de programar –

– RáRápidos (?)pidos (?)

„

„

Desvantagens:

Desvantagens:

– Muito ruidosos Muito ruidosos

„

„ Muita influência de fenóMuita influência de fenómenos lingumenos linguíísticos recorrentes e de sticos recorrentes e de

marcas de estilo marcas de estilo

„

„ (2) pode obter todas as colocaç(2) pode obter todas as colocações, que não são UT!ões, que não são UT!

– Na prNa prática, ática, éé difídifícil implementar:cil implementar:

„

„ Afinal, o que éAfinal, o que é um corpus padrão de linguagem geral?um corpus padrão de linguagem geral?

„

„

São uma boa aproximaç

São uma boa aproxima

ção quando não se tem

ão quando não se tem

alternativas que usam mais conhecimento expl

(29)

Aproxima

Aproxima

ç

ç

ões H

ões H

í

í

bridas

bridas

„

„

Ideias base / Intui

Ideias base / Intui

ç

ç

ões:

ões:

– Os méOs métodos anteriores parecem ser bons para lidar com todos anteriores parecem ser bons para lidar com certas caracter

certas caracteríísticas do problema sticas do problema –– mas não com todas!mas não com todas! –

– Tentar combinaTentar combinações que mantenham as vantagens de ções que mantenham as vantagens de todos, e não as desvantagens

todos, e não as desvantagens

„

„

Estes mé

Estes m

étodos são baseados normalmente em

todos são baseados normalmente em

heur

heurí

í

sticas que são verificadas num dado contexto

sticas que são verificadas num dado contexto

aplicacional

aplicacional

„

„

Podem levar a bons resultados mas normalmente:

Podem levar a bons resultados mas normalmente:

– não têm uma boa fundamentaçnão têm uma boa fundamentação teão teóóricarica –

– podem requerer muita afinaçpodem requerer muita afinação manualão manual –

– podem ser dependentes de um dado contexto/pressuposto podem ser dependentes de um dado contexto/pressuposto não generaliz

(30)

Aproxima

Aproxima

ç

ç

ões H

ões H

í

í

bridas

bridas

„

„

Pode ser praticamente tudo!

Pode ser praticamente tudo!

„

„

Um caso concreto: o Corp

Um caso concreto: o Corp

ó

ó

grafo

grafo

Alguma sintaxe

Alguma sintaxe

„

„ Regras de descriRegras de descriçção (ou melhor de eliminaão (ou melhor de eliminaçção)ão)

„

„ AnAnáálise de contextos prlise de contextos próóximos (palavra anterior)ximos (palavra anterior)

Alguma

Alguma

morfologia

morfologia

:

:

„

„ SingularizaSingularizaçção para melhorar convergênciaão para melhorar convergência

Alguma estat

Alguma estat

í

í

stica

stica

„

„ As UT seleccionadas ocorrem com uma frequência As UT seleccionadas ocorrem com uma frequência

m

(31)

O Corp

O Corp

ó

ó

grafo

grafo

o contexto

o contexto

„

„

O contexto em que se realizam as tarefas de

O contexto em que se realizam as tarefas de

extrac

extrac

ção

ç

ão é

é

sempre importante!

sempre importante!

„

„

Corpó

Corp

ógrafo: m

grafo: m

é

é

todo orientado para pesquisas semi

todo orientado para pesquisas semi

-

-autom

automá

áticas em v

ticas em vá

ários idiomas!

rios idiomas!

„

„

É

É

o primeiro passo para a constru

o primeiro passo para a constru

ç

ç

ão de

ão de

gloss

gloss

á

á

rios/tesauros:

rios/tesauros:

– Permite a posterior extracçPermite a posterior extracção de definião de definiçõesções –

– Permite a posterior identificaçPermite a posterior identificação de relaão de relaçõesções –

– UT’UT’ss funcionam como pontos de fixafuncionam como pontos de fixação do PLSção do PLS

„

„

NÃO foi ainda devidamente testado nem

NÃO foi ainda devidamente testado nem

comparado!!

comparado!!

(32)

O Corp

O Corp

ó

ó

grafo

grafo

„

„

A explicaç

A explica

ç

ão do mé

ão do m

étodo ir

todo irá

á

ser feita mostrando o

ser feita mostrando o

percurso de desenvolvimento realmente seguido

percurso de desenvolvimento realmente seguido

„

„

Permitir

Permitir

á

á

compreender melhor o seu funcionamento

compreender melhor o seu funcionamento

e assim:

e assim:

– Ser criticado/melhoradoSer criticado/melhorado –

– Inspirar sistemas melhores/alternativosInspirar sistemas melhores/alternativos

„

„

Por razões de reaproveitamento de dados os

Por razões de reaproveitamento de dados os

exemplos apresentados são em inglês

exemplos apresentados são em inglês

– embora os resultados para português sejam equivalentes embora os resultados para português sejam equivalentes ou

ou superioressuperiores..

„

(33)

Uma aproxima

Uma aproxima

ç

ç

ão muito

ão muito

simples

simples

„

„

Compilar N

Compilar

N-

-gramas

gramas

do corpus

do corpus

„

„

Perguntar ao utilizador se são UT

Perguntar ao utilizador se são UT

„

„

Recolher os exemplos validados

Recolher os exemplos validados

„

„

Vantagens:

Vantagens:

– Não são necessáNão são necessários recursos lingurios recursos linguíísticossticos –

– Não necessita de prNão necessita de pré-é-processamentoprocessamento –

– RáRápido e portpido e portáável entre lvel entre línguasínguas

„

„

Desvantagens

Desvantagens

– Demasiado ruidosoDemasiado ruidoso –

– Os utilizadores consideram inadequadoOs utilizadores consideram inadequado –

(34)

Exemplo

Exemplo

do corpus

do corpus

Neurodemo

Neurodemo

N N--gramgram ## F (%)F (%) of the of the 332332 1.1371.137 in the in the 243243 0.8320.832 to the to the 121121 0.4140.414 the cell the cell 118118 0.4040.404 from the from the 7171 0.2430.243 the brain the brain 6565 0.2220.222 nervous system nervous system 6565 0.2220.222 on the on the 5959 0.2020.202 and the and the 5252 0.1780.178 of a of a 5151 0.1740.174 the neuron the neuron 4848 0.1640.164 the axon the axon 4646 0.1570.157 cell body cell body 4646 0.1570.157 is the is the 4242 0.1430.143 by the by the 4040 0.1370.137 „

„

Dom

Dom

í

í

nio

nio

:

:

neurologia

neurologia

Textos

Textos

tirados

tirados

da web

da web

(

(pdf

pdf

, word, html)

, word, html)

6

6

idiomas

idiomas

(PT,EN,FR,ES,IT,DE)

(PT,EN,FR,ES,IT,DE)

Sec

Sec

ç

ç

ão

ão

EM: 29192

EM: 29192

à

à

ts

ts

.

.

Muito ruidoso : apenas 2 UT em 15 n-grams!

(35)

Como

Como

melhorar

melhorar

os

os

resultados

resultados

?

?

„

„

Vantagens: os resultados tão maus que podem ser

Vantagens: os resultados tão maus que podem ser

facilmente melhorados.

facilmente melhorados.

„

„

Pod

Pod

í

í

amos criar regras sint

amos criar regras sint

ácticas e morfol

á

cticas e morfoló

ógicas

gicas

acerca das UT e seleccionar apenas

acerca das UT e seleccionar apenas

N

N

-

-

gramas

gramas

que

que

as respeitem

as respeitem

„

„

Contudo, como vimos,

Contudo, como vimos,

é

é

muito dif

muito dif

í

í

cil dizer o que

cil dizer o que

é

é

uma UT, e podemos ter de recorrer a algum pr

uma UT, e podemos ter de recorrer a algum pré

é

-

-processamento: muito complicado

processamento: muito complicado…

„

„

Mas

Mas

é

é

muito mais f

muito mais f

á

á

cil dizer:

cil dizer:

o que o que éé que NÃO que NÃO ÉÉ uma UT!uma UT!

(36)

Excluindo N

Excluindo N

-

-

Gramas

Gramas

„

„

Definir 3 listas de á

Definir 3 listas de

átomos para exclusão de

tomos para exclusão de N

N-

-gramas

gramas

Lista dos

Lista dos

não

não

-

-

in

in

í

í

cios

cios

„

„ àtàt. que não podem iniciar UT. que não podem iniciar UT’’ss

Lista dos

Lista dos

não

não

-

-

fins

fins

„

„ àtàt. que não podem terminar UT. que não podem terminar UT’’ss

Lista dos não

Lista dos

não-

-

inclu

inclu

ídos

í

dos

„

„ àtàt. que não podem estar incluí. que não podem estar incluídos em dos em UTUT’’ss

„

„

Encontrar

Encontrar

N

N

-

-

gramas

gramas

que respeitem estas restri

que respeitem estas restri

ç

ç

ões

ões

„

„

Por razões de redundância, as UT devem:

Por razões de redundância, as UT devem:

– aparecer no topo da lista dos aparecer no topo da lista dos NN-gramas-gramas seleccionados.seleccionados.

„

(37)

E o

E o

que

que

são

são

estas

estas

listas

listas

?

?

„

„

A maioria

A

maioria

dos elementos

dos

elementos

destas

destas

listas

listas

são

são

– preposipreposiççõesões –

– pronomespronomes –

– pontuapontuaççãoão –

– certascertas palavraspalavras muitomuito frequentesfrequentes

„

„

Facilmente

Facilmente

compiladas

compiladas

por

por

tentativa

tentativa

-

-

e

e

-

-

erro

erro

„

„

Muito

Muito

está

est

áveis

veis

entre

entre

domí

dom

í

nios

nios

– HipóHipótesetese atéaté agora vagora váálidalida –

– AlteradasAlteradas facilmentefacilmente se necessse necessááriorio

„

(38)

Restri

Restri

ç

ç

ões

ões

simples (top 20)

simples (top 20)

N

N--gram (2208 found)gram (2208 found) ## F (%)F (%)

central nervous system

central nervous system 1616 0.0540.054 peripheral nervous system

peripheral nervous system 88 0.0270.027 integral membrane proteins

integral membrane proteins 88 0.0270.027 nuclear pore complexes

nuclear pore complexes 55 0.0170.017 name of glial

name of glial 55 0.0170.017 signaling between nerve

signaling between nerve 55 0.0170.017 pattern of activity pattern of activity 55 0.0170.017 nodes of ranvier nodes of ranvier 44 0.0130.013 synthesis of proteins synthesis of proteins 44 0.0130.013 induction of ltp/ltd induction of ltp/ltd 44 0.0130.013 evoked nt secretion evoked nt secretion 33 0.0100.010 can be divided can be divided 33 0.0100.010 primary visual cortex

primary visual cortex 33 0.0100.010 nmda receptor activation

nmda receptor activation 33 0.0100.010 –

–the messengersthe messengers 33 0.0100.010 action potential will

action potential will 33 0.0100.010 rate of transmission

rate of transmission 33 0.0100.010 primary cell walls

primary cell walls 33 0.0100.010 complexes of integral

complexes of integral 33 0.0100.010

N

N--gram (3110 found)gram (3110 found) ## F (%)F (%)

nervous system nervous system 6565 0.2220.222 cell body cell body 4646 0.1570.157 electrical activity electrical activity 3939 0.1330.133 nerve cells nerve cells 3737 0.1260.126 spinal cord spinal cord 3434 0.1160.116 action potential action potential 3232 0.1090.109 glial cells glial cells 2929 0.0990.099 synaptic cleft synaptic cleft 2020 0.0680.068 plasma membrane plasma membrane 1616 0.0540.054 central nervous central nervous 1616 0.0540.054 action potentials action potentials 1414 0.0470.047 schwann cells schwann cells 1414 0.0470.047 membrane proteins membrane proteins 1313 0.0440.044 nerve fibers nerve fibers 13 13 0.0440.044 endoplasmic reticulum endoplasmic reticulum 1313 0.0440.044 nervous systems nervous systems 1212 0.0410.041 developing circuits developing circuits 1212 0.0410.041 amino acids amino acids 1212 0.0410.041 myelin sheath myelin sheath 1212 0.0410.041

(39)

Restri

Restri

ç

ç

ões

ões

Simples

Simples

„

„

Aumentamos a precisão (no topo)

Aumentamos a precisão (no topo)

Reduzimos o esfor

Reduzimos o esfor

ç

ç

o de valida

o de valida

ç

ç

ão:

ão:

~ 100 termos/

~ 100 termos/

hr

hr

„

„

Ainda temos alguns problemas:

Ainda temos alguns problemas:

1.

1. Algumas palavras frequentes/homóAlgumas palavras frequentes/homógrafas ainda grafas ainda

trazem muitos candidatos falsos (

trazem muitos candidatos falsos (ex: ex: ““cancan”)”)

2.

2. Ocorrências divididas entre o Plural/SingularOcorrências divididas entre o Plural/Singular

3.

3. Termos encapsulados são ainda difíTermos encapsulados são ainda difíceis de separarceis de separar

– “nervous“nervous system”system” e “e “central central nervousnervous systemsystem””

4.

(40)

Mais

Mais

restri

restri

ç

ç

ões

ões

„

„

Objectivo: melhorar a precisão e resolver

Objectivo: melhorar a precisão e resolver

alguns

alguns

dos problemas anteriores (1 & 2)

dos problemas anteriores (1 & 2)

„

„

Se

Se

obrigarmos

obrigarmos

a que os N

a que os N

-

-

Gramas sejam

Gramas sejam

SN, então a singulariza

SN, então a singulariza

ç

ç

ão

ão

é

é

trivial em

trivial em

v

v

á

á

rias l

rias l

í

í

nguas

nguas

„

„

Vamos impor 1 nova restri

Vamos impor 1 nova restri

ç

ç

ão: os N

ão: os N

-

-

Gramas

Gramas

têm de ser precedidos por certas palavras

têm de ser precedidos por certas palavras

Ex

Ex

:

:

a

a

,

,

the

the

,

,

one

one

,

,

as

as

,

,

etc

etc

.

.

É

É

f

f

ácil impor restri

á

cil impor restriç

ções para

ões para

PT”

PT

,

,

ES”

ES

,

,

FR”

FR

,

,

IT

IT

(41)

Mais

Mais

restri

restri

ç

ç

ões

ões

:

:

resultados

resultados

N

N--gram (943 found)gram (943 found) ## F (%)F (%)

central nervous system

central nervous system 1515 0.051 0.051 peripheral nervous system

peripheral nervous system 99 0.030 0.030 node of

node of ranvierranvier 66 0.0200.020 integral membrane protein

integral membrane protein 66 0.020 0.020 synthesis of proteins

synthesis of proteins 44 0.013 0.013 nuclear pore complex

nuclear pore complex 44 0.013 0.013 induction of

induction of ltpltp/ltd/ltd 44 0.013 0.013 primary visual cortex

primary visual cortex 33 0.010 0.010 energy of

energy of atpatp 33 0.010 0.010 development of neural

development of neural 33 0.010 0.010 rate of transmission

rate of transmission 33 0.010 0.010 activation of

activation of nmdanmda 22 0.006 0.006 evoked

evoked ntntsecretionsecretion 22 0.006 0.006 refinement of neural

refinement of neural 22 0.006 0.006 xenopus

xenopusretinotectalretinotectalsystemsystem 22 0.006 0.006 induction of

induction of ltpltp 22 0.006 0.006 activity

activity--induced synaptic modificationinduced synaptic modification 22 0.006 0.006 cytochrome

cytochromeb geneb gene 22 0.006 0.006 activity

activity--dependent synaptic dependent synaptic 22 0.006 0.006

N

N--gram (1304 found)gram (1304 found) ## F (%)F (%)

cell body cell body 4646 0.157 0.157 nervous system nervous system 3535 0.119 0.119 spinal cord spinal cord 3131 0.106 0.106 action potential action potential 3030 0.102 0.102 nerve cell nerve cell 2626 0.089 0.089 electrical activity electrical activity 2222 0.075 0.075 synaptic cleft synaptic cleft 2020 0.068 0.068 plasma membrane plasma membrane 1616 0.054 0.054 glial

glialcellcell 1616 0.054 0.054 central nervous central nervous 1515 0.051 0.051 myelin sheath myelin sheath 1212 0.041 0.041 developing circuit developing circuit 1111 0.037 0.037 neural circuit neural circuit 1010 0.034 0.034 peripheral nervous peripheral nervous 99 0.030 0.030 protein synthesis protein synthesis 99 0.030 0.030 endoplasmic reticulum endoplasmic reticulum 88 0.027 0.027 human brain human brain 88 0.027 0.027 respiratory chain respiratory chain 77 0.023 0.023 schwann

(42)

Qual

Qual

é

é

a

a

melhoria

melhoria

?

?

„

„

Aumento da precisão

Aumento da precisão

Torna

Torna

-se mais f

-

se mais fá

á

cil o processo de valida

cil o processo de valida

ção!

ç

ão!

„

„

Formas Plural/Singular convergiram

Formas Plural/Singular convergiram

„

„

F

F

á

á

cil de implementar

cil de implementar

„

„

Multilingue

Multilingue

„

„

Muito rá

Muito r

ápido: como h

pido: como há

á

exclusão de muitos

exclusão de muitos

N

N

-

-

Gramas, a ordena

Gramas, a ordena

ç

ç

ão

ão

é

é

r

r

á

á

pida!

pida!

(43)

Problemas por resolver

Problemas por resolver

„

„

Valor Abrangência: ainda desconhecido!

Valor Abrangência: ainda desconhecido!

Precisamos de fazer testes!

Precisamos de fazer testes!

„

„

Problema do encapsulamento dos termos.

Problema do encapsulamento dos termos.

Como resolver?

Como resolver?

Simples: tentar primeiro achar N-

Simples: tentar primeiro achar N

-Gramas

Gramas

maiores e partir s

maiores e partir s

ó

ó

depois para o menores.

depois para o menores.

Custo: CPU

Custo: CPU

„

„

Problemas das variantes morfol

Problemas das variantes morfol

ó

ó

gicas:

gicas:

Seria necess

Seria necess

á

á

rio implementar regras de

rio implementar regras de

transforma

transforma

ção de equivalentes

ç

ão de equivalentes

(44)

O

O

M

M

é

é

todo

todo

do Corp

do Corp

ó

ó

grafo

grafo

„

„

Algoritmo h

Algoritmo h

í

í

brido simples:

brido simples:

F

F

á

á

cil de implementar

cil de implementar

Simples para utilizadores compreenderem

Simples para utilizadores compreenderem

Execu

Execu

ç

ç

ão em tempo linear

ão em tempo linear

-

-

O(kN

O(kN

)

)

É

É

possí

poss

í

vel alterar as restri

vel alterar as restri

ç

ç

ões para

ões para

adaptar a certos dom

adaptar a certos dom

í

í

nios

nios

Pode ser portado para v

Pode ser portado para v

á

á

rios idiomas

rios idiomas

Ainda melhor

Ainda melhor

á

á

vel, sem demasiado

vel, sem demasiado

trabalho

(45)

Extrac

Extrac

ç

ç

ão de Terminologia

ão de Terminologia

„

„

Conclusões:

Conclusões:

1.

1. Terminologia Terminologia éé algo muito dinâmicoalgo muito dinâmico 2.

2. Terminologia tem grande potencial aplicacional embora Terminologia tem grande potencial aplicacional embora não tenha sido poss

não tenha sido possíível ainda explorar tudo com vel ainda explorar tudo com sucesso.

sucesso. 3.

3. A ExtracA Extracçção de Terminologia ão de Terminologia éé por isso por isso úútil, mas til, mas éé tamb

tambéém uma tarefa dependente de um contextom uma tarefa dependente de um contexto 4.

4. Têm sido propostos vTêm sido propostos váários mrios méétodos que possuem todos que possuem caracter

características mais adaptadas a certos contextos. ísticas mais adaptadas a certos contextos. Baseados em:

Baseados em:

„

„ GramáGramáticasticas „

„ MéMétodos estattodos estatísticosísticos „

(46)

Extrac

Extrac

ç

ç

ão de Terminologia

ão de Terminologia

„

„

É

É

poss

poss

í

í

vel implementar extractores de

vel implementar extractores de

terminologia relativamente simples e com

terminologia relativamente simples e com

sucesso razo

sucesso razo

á

á

vel (?)

vel (?)

„

„

A extrac

A extrac

ç

ç

ão de terminologia

ão de terminologia

é

é

ainda uma

ainda uma

á

á

rea com alguma margem de

rea com alguma margem de

desenvolvimento

desenvolvimento

„

„

A terminologia ainda não

A terminologia ainda não

é

é

devidamente

devidamente

explorada em aplica

explorada em aplica

ç

ç

ões de PLN

ões de PLN

Aplicaç

Aplica

ções serão motivadoras de novos m

ões serão motivadoras de novos m

é

é

todos

todos

que serão adaptados a um determinado

que serão adaptados a um determinado

contexto aplicacional (RI, TA, etc..)

Referências

Documentos relacionados

- Ante tal confissão e gesto de Judá, José não mais suporta e se dá a conhecer a seus irmãos e lhes explica o plano de Deus para as suas vidas, dizendo que ainda haveria mais

Art. 112. Os registros de estabelecimentos e produtos, as autorizações e os cadastramentos dos prestadores de serviços

Logo, as normativas dela não podem ser consideradas proposições legislativas, mas normas obrigatórias a todos os membros, principalmente, no condizente à paz, à dignidade

Outros efeitos adversos Não existe informação adicional disponível. SECÇÃO 13: Considerações relativas

Admitindo o humor como uma predisposição mental para se perceber o riso no momento de sua ocorrência na linguagem, que desvela um aspecto latente da realidade não apreendido

desenvolve ações para reforçar ainda mais a qualificação des- ses profissionais, por meio de cursos do Capacidade máxima e de programas de incentivo, como o Desafio

Normalmente tem níveis diminuídos em células tumorais, inversamente à enzima que regula, a HDAC1.(19) O MiR-34a é mais um gene supressor tumoral, com uma expressão

O protocolo aplicado nesse estudo de caso para o tratamento das manchas hipercrômicas, com microagulhamento associado a ácidos e ativos clareadores, home care com