Extrac
Extrac
ç
ç
ão Autom
ão Autom
á
á
tica
tica
de Terminologia
de Terminologia
Uma breve abordagem
Uma breve abordagem
Lu
Luíís Sarmentos Sarmento Simp
Simpóósio Doutoral da Linguatecasio Doutoral da Linguateca Lisboa, 6 de Maio de 2005 Lisboa, 6 de Maio de 2005
Resumo
Resumo
O que
O que
é
é
Terminologia (11)
Terminologia (11)
Para que serve a
Para que serve a
Terminolgia
Terminolgia
(3)
(3)
Como Extrair
Como Extrair
Terminolgia
Terminolgia
(14)
(14)
–
–
V
V
á
á
rios m
rios m
é
é
todos
todos
Um caso particular (14)
Um caso particular (14)
–
–
Corp
Corp
ógrafo
ó
grafo
Motiva
Motiva
ç
ç
ão para a EAT
ão para a EAT
Os “
Os
“
termos
termos
”
”
são uma parte essencial da
são uma parte essencial da
comunica
comunica
ção de dom
ç
ão de dom
í
í
nio especí
nio espec
í
fico
fico
Identificaç
Identifica
ção
ão é
é
fundamental para:
fundamental para:
–
– AnáAnálise / Compreensãolise / Compreensão –
– GeraGeração ção –
– TraduTraduççãoão
Constante aumento da informa
Constante aumento da informa
ç
ç
ão dispon
ão dispon
í
í
vel de
vel de
dom
domí
ínio espec
nio especí
í
fico (DE)
fico (DE)
A Extrac
A Extrac
ç
ç
ão Autom
ão Autom
á
á
tica de Terminologia (EAT)
tica de Terminologia (EAT)
torna
“
“
Termos
Termos
”
”
O que são os
O que são os
“
“
termos
termos
”
”
?
?
Primeiro vamos alterar a nossa pr
Primeiro vamos alterar a nossa pr
ó
ó
pria
pria
terminologia
terminologia
–
–
“
“
termo
termo
”
”
Æ
Æ
Unidade Terminol
Unidade Terminol
ó
ó
gica : UT
gica : UT
Evitar confusões com a terminologia
Evitar confusões com a terminologia
usada em IR
usada em IR
–
Unidades Terminol
Unidades Terminol
ó
ó
gicas
gicas
O que é
O que
é
uma UT?
uma UT?
–
– Questão complexa e controversaQuestão complexa e controversa
Mas poderemos dizer:
Mas poderemos dizer:
–
– Uma UT Uma UT éé uma etiqueta linguuma etiqueta linguíística para um conceito:stica para um conceito:
DomíDomínio nio ÆÆ Conceito –Conceito – UTUT
Visão clá
Visão cl
ássica do Conhecimento:
ssica do Conhecimento:
–
– Estruturado, dividido em domíEstruturado, dividido em domínio, redes conceptuaisnio, redes conceptuais
Na prá
Na pr
ática as estrutura de conhecimento são
tica as estrutura de conhecimento são
–
– dinâmicas, dependentes da perspectiva e da utilizaçdinâmicas, dependentes da perspectiva e da utilizaçãoão
Mas podemos ficar com esta ideia:
Mas podemos ficar com esta ideia:
–
Unidades Terminol
Unidades Terminol
ó
ó
gicas
gicas
UT dividem
UT dividem
-
-
se em:
se em:
–
–
Simples / 1 palavra
Simples / 1 palavra
““rede”rede”, , ”c”céélulalula”, ”, ““sistemasistema””
Normalmente genéNormalmente genéricas e ambricas e ambííguas, atguas, atéé em domem domínios ínios
fechados fechados
–
–
Compostas / multi
Compostas / multi
-
-
palavra
palavra
““rede neuronalrede neuronal”” / “/ “ccéélula eucarilula eucarióóticatica””, , ““sistema de sistema de
bombagem de
bombagem de águaágua””
Normalmente não ambíNormalmente não ambíguas num determinado guas num determinado
dom
Unidades Terminol
Unidades Terminol
ó
ó
gicas
gicas
Mais terminologia sobre
Mais terminologia sobre
UT
UT
’
’
s
s
.
.
UT
UT
’
’
s
s
são habitualmente formadas:
são habitualmente formadas:
–
–
por uma
por uma
cabe
cabe
ç
ç
a
a
termo muito gentermo muito genérico: érico: ““rederede”, ”, “c“céélulalula”,”,”á”ácidocido””
termo secundtermo secundário: ário: ““sistemasistema””, , ““processoprocesso”, ”, ““estruturaestrutura””
–
–
Um
Um
grupo modificador
grupo modificador
ou
ou
grupo de argumentos
grupo de argumentos
Adjectivo, nome ou Adjectivo, nome ou outra UToutra UT
–
– [[Sistema de [Sistema de [gestão de [gestão de [bases de dadosbases de dados]]]]]]
–
–
Certas UT formam-
Certas UT formam
-
se por aglutina
se por aglutina
ç
ç
ão mas em
ão mas em
português são raras ou s
português são raras ou s
ó
ó
ocorrem em certos
ocorrem em certos
dom
Quanto
Quanto
à
à
Morfologia
Morfologia
É
É
difí
dif
í
cil descrever a morfologia dos termos.
cil descrever a morfologia dos termos.
Grande dependência do dom
Grande dependência do dom
í
í
nio:
nio:
–
– Vantagens e desvantagens na identificaVantagens e desvantagens na identificaçção ão
Exemplos:
Exemplos:
–
– QuíQuímica/farmmica/farmácia/medicina destacamácia/medicina destacam-se pela sua -se pela sua excentricidade:
excentricidade:
“3“3--44--benzoterminolaninabenzoterminolanina”” ou “ou “TerminologiteTerminologite aguda”aguda”
–
– Nas engenharias e ciências tecnolóNas engenharias e ciências tecnológicas são mais variados gicas são mais variados mas
mas ““bem comportadosbem comportados””::
““Sistema terminolSistema terminolóógicogico”” ou ou ““extractor de extractor de UTUT’’ss””
–
– Direito/geografia fazem parte do lDireito/geografia fazem parte do lééxico corrente:xico corrente:
Quanto
Quanto
à
à
Sintaxe
Sintaxe
Normalmente consideram
Normalmente consideram
-
-
se UT apenas sintagmas
se UT apenas sintagmas
nominais
nominais
H
H
á
á
v
v
á
á
rias estruturas sint
rias estruturas sint
ácticas frequentes
á
cticas frequentes
–
– N: redeN: rede –
– NA: rede neuronalNA: rede neuronal –
– NpN: rede de telefone, ciclo de NpN: rede de telefone, ciclo de KrebsKrebs (EN!!)(EN!!) –
– NpNpNANpNpNA: Sistema de reencaminhamento de Chamadas : Sistema de reencaminhamento de Chamadas Autom
Automáticoático
V
V
á
á
rias possibilidades de
rias possibilidades de
–
– Introduzir modificadores ou argumentosIntroduzir modificadores ou argumentos –
– Compor novas UT por variaçCompor novas UT por variação:ão:
Quanto
Quanto
à
à
Sintaxe
Sintaxe
H
H
á
á
quem considere Verbos como UT v
quem considere Verbos como UT v
á
á
lidas
lidas
–
–
mas essa não
mas essa não
é
é
a visão dominante.
a visão dominante.
Normalmente as formas verbais resultam da
Normalmente as formas verbais resultam da
transforma
transforma
ç
ç
ão morfol
ão morfol
ó
ó
gica N
gica N
Æ
Æ
V
V
da UT:
da UT:
Reencaminhamento de chamadas Reencaminhamento de chamadas
Æ
Æ reencaminhar (“reencaminhar (“asas””|mod|mod)* chamadas)* chamadas
Por tudo isto, a detec
Por tudo isto, a detec
ç
ç
ão de variantes
ão de variantes
é
é
uma
Recursos Terminol
Recursos Terminol
ó
ó
gicos
gicos
Onde armazenamos a Terminologia?
Onde armazenamos a Terminologia?
–
–
Tesauros: UMLS/
Tesauros
: UMLS/MeSH
MeSH
UTUT’’ss + certas rela+ certas relaçções tradicionaisões tradicionais
–
–
Ontologias (?)
Ontologias (?)
UTUT’’ss + certas rela+ certas relaçções especões especííficasficas
–
–
Gloss
Gloss
ários
á
rios
UTUT’’ss e suas definie suas definiççõesões
–
–
Bases de Dados Terminoló
Bases de Dados Terminol
ógicas
gicas
Guardam as UT, equivalentes de Guardam as UT, equivalentes de TradTrad., Exemplos de ., Exemplos de
Utiliza
Utilizaçção, contextos / colocaão, contextos / colocaçções, ões, InfInf. . adminstrativa, adminstrativa, etc
Recursos Terminol
Recursos Terminol
ó
ó
gicos
gicos
Apesar de ser uma representa
Apesar de ser uma representa
ç
ç
ão lexical de
ão lexical de
um determinado conceito. uma UT não
um determinado conceito. uma UT não é
é
guardada sozinha, mas sim:
guardada sozinha, mas sim:
–
–
Em contexto
Em contexto
–
–
Relacionada com outras UT
Relacionada com outras UT
–
–
Relacionada com equivalentes noutros idiomas
Relacionada com equivalentes noutros idiomas
–
–
Tal como os pr
Tal como os pr
óprios conceitos
ó
prios conceitos
Uma UT não tem valor isoladamente
Uma UT não tem valor isoladamente
–
–
Vale essencialmente pelas rela
Vale essencialmente pelas rela
ções que
ç
ões que
estabelece
Recursos Terminol
Recursos Terminol
ó
ó
gicos
gicos
Visão de Engenharia do Conhecimento
Visão de Engenharia do Conhecimento
–
– A UT como ponto de partida para a criaA UT como ponto de partida para a criaçção de um recurso ão de um recurso de conhecimento...
de conhecimento... –
– ... e não s... e não sóó apenas chegada!apenas chegada!
A UT como “
A UT como
“
n
n
ó”
ó”
de uma “
de uma
“
rede”
rede
”
–
– poliedro irregular e instpoliedro irregular e instáável de uma região semântica vel de uma região semântica dinâmica e subjectiva
dinâmica e subjectiva
Recursos gerados para determinados fins:
Recursos gerados para determinados fins:
–
– Um recurso terminolóUm recurso terminológico não gico não éé uma representaçuma representação final e ão final e ú
última do conhecimento (se ltima do conhecimento (se éé que isso existe)que isso existe) –
Exemplos da utiliza
Exemplos da utiliza
ç
ç
ão de UT
ão de UT
Em Recolha de informa
Em Recolha de informa
ç
ç
ão (
ão (
D.Esp
D.Esp
.?)
.?)
–
– IndexaçIndexação (ão (““indexaindexaçção controlada/conceptualão controlada/conceptual””):):
Se a UT Se a UT éé uma uma “representa“representaçção lexical”ão lexical” de um conceitode um conceito
Então pode ser uma representaEntão pode ser uma representaçção mais fiel e compacta de ão mais fiel e compacta de
um documento um documento
–
– Processamento de Expressões de PesquisaProcessamento de Expressões de Pesquisa
TesaurosTesauros para expansão / compactaçpara expansão / compactaçãoão
SubstituiSubstituição de uma UT por hiperção de uma UT por hiperóónimo/conimo/co--hiphipóónimonimo
–
– OrdenaçOrdenação de resultados: ão de resultados:
UT podem indicar com razoáUT podem indicar com razoável precisão (?) o nvel precisão (?) o nível de ível de
especializa
especializaçção do documento: poucos exemplosão do documento: poucos exemplos
–
– AuxíAuxílio lio àà naveganavegação e pesquisa de informação e pesquisa de informaçção!ão!
O utilizador pode “O utilizador pode “verver”” os Termos “os Termos “relevantesrelevantes”” e tentar e tentar
reescrever a sua
Exemplos da utiliza
Exemplos da utiliza
ç
ç
ão de UT
ão de UT
Trad
Trad
. Assistida e Autom
. Assistida e Autom
á
á
tica:
tica:
–
–
Para um tradutor humano uma das maiores
Para um tradutor humano uma das maiores
dificuldades
dificuldades é
é
a tradu
a tradu
ção de UT:
ç
ão de UT:
Reflectem o conhecimento do domReflectem o conhecimento do domínio que o tradutor ínio que o tradutor
(humano/autom
(humano/automático) não tem!ático) não tem!
Saber a Terminologia e as equivalências éSaber a Terminologia e as equivalências é fundamental fundamental
(normalmente pergunta
(normalmente pergunta--se ao especialista)se ao especialista)
–
–
Traduç
Tradu
ção autom
ão automá
ática as UT (Baseada Regras):
tica as UT (Baseada Regras):
Importantes na AnáImportantes na Análiselise
Transferência não éTransferência não é normalmente ambínormalmente ambígua (gua (D.EspD.Esp))
Mais exemplos da utiliza
Mais exemplos da utiliza
ç
ç
ão de UT
ão de UT
Tarefas que envolvam:Tarefas que envolvam:
–
– anáanálise rigorosa do textolise rigorosa do texto –
– Necessidade de manter grande fidelidade semânticaNecessidade de manter grande fidelidade semântica
SumarizaSumarizaçção automão automááticatica
...
Em quase todas as aplicaçEm quase todas as aplicações em que EM são importantes:ões em que EM são importantes:
–
– ShallowShallow-parsing-parsing / Chunking/ Chunking/melhoramento /melhoramento “dinâmico“dinâmico”” de parsersde parsers –
– QAQA –
– Reconhecimento de vozReconhecimento de voz
LegendadorLegendador automautomááticotico
– – ...
Ou seja, tarefas em que seja crOu seja, tarefas em que seja crítico assegurar que certas ítico assegurar que certas
unidades lexicais (neste caso
unidades lexicais (neste caso UTUT’’s) não sejam segmentadas e s) não sejam segmentadas e sejam correctamente analisadas!
Extrac
Extrac
ç
ç
ão de Terminologia
ão de Terminologia
Tarefa 1:
Tarefa 1:
–
–
dado um texto num idioma:
dado um texto num idioma:
Identificar as UTIdentificar as UT
Identificar possIdentificar possíveis variaíveis variaççõesões
Identificar possIdentificar possííveis relaveis relaçções entre ões entre UTUT’’ss
Aquisi
Aquisi
ç
ç
ão de Terminologia:
ão de Terminologia:
–
–
Se não h
Se não h
á
á
base terminol
base terminol
ó
ó
gica pr
gica pr
é
é
via
via
–
–
Normalmente
Normalmente
é
é
desta que falamos
desta que falamos
Enriquecimento de Terminologia
Enriquecimento de Terminologia
–
Extrac
Extrac
ç
ç
ão de Terminologia
ão de Terminologia
Tarefa 2:
Tarefa 2:
–
–
Tarefa 1 em textos de v
Tarefa 1 em textos de v
á
á
rias l
rias l
í
í
nguas
nguas
–
–
Obter terminologia alinhada
Obter terminologia alinhada
–
–
Normalmente textos compar
Normalmente textos compar
á
á
veis
veis
–
–
Sub
Sub
-
-
problema
problema
de EBMT?
de EBMT?
Vamos focar:
Vamos focar:
–
V
V
á
á
rias aproxima
rias aproxima
ç
ç
ões
ões
H
H
á
á
v
v
á
á
rias aproxima
rias aproxima
ç
ç
ões:
ões:
–
–
Gramaticais
Gramaticais
CaracterCaracterísticas morfolísticas morfolóógicasgicas
sequências POSsequências POS
–
–
M
M
é
é
todos estat
todos estat
í
í
sticos
sticos
Coesão lexicalCoesão lexical
Desvio relativo Desvio relativo àà normanorma
–
–
H
H
í
í
bridas
bridas
CombinaCombinações mções múúltiplasltiplas
V
V
á
á
rias aproxima
rias aproxima
ç
ç
ões
ões
Todas estas aproxima
Todas estas aproxima
ç
ç
ões:
ões:
–
–
utilizam intui
utilizam intui
ç
ç
ões e descri
ões e descri
ç
ç
ões lingu
ões lingu
í
í
sticas
sticas
mais ou menos apuradas
mais ou menos apuradas
–
–
têm requisitos de
têm requisitos de
“
“
pr
pr
é
é
-
-
processamento
processamento
”
”
muito diferentes
muito diferentes
–
–
Podem ou não prever retorno de um
Podem ou não prever retorno de um
operador humano:
operador humano:
H
H
á
á
vá
v
ários sistemas semi
rios sistemas semi
-
-
autom
autom
á
á
ticos que
ticos que
funcionam interactivamente
funcionam interactivamente
Que tipo de evidência
Que tipo de evidência
procurar?
procurar?
As UT são Unidades Lexicais internamente
As UT são Unidades Lexicais internamente
coesas e com forte influência contextual.
coesas e com forte influência contextual.
Na sua detecç
Na sua detec
ç
ão/exclusão podemos:
ão/exclusão podemos:
–
–
Procurar evidências internas:
Procurar evidências internas:
morfologia / sintaxe morfologia / sintaxe
–
–
Procurar evidências externas:
Procurar evidências externas:
Contextos descriminatóContextos descriminatórios / colocaçrios / colocações ões
–
–
Combinar ambas as aproximaç
Combinar ambas as aproxima
ções
ões
““boundaryboundary rules”rules”, exclusões internas, exclusões internas
Podem prever a possibilidade de variaç
Podem prever a possibilidade de varia
ç
ões
ões
morfo
Aproxima
Aproxima
ç
ç
ões Gramaticais
ões Gramaticais
Ideias
Ideias
base /
base /
Intui
Intui
ç
ç
ões
ões
:
:
–
–
As UT
As UT
obedecem a uma gram
obedecem a uma gram
á
á
tica
tica
Normalmente
Normalmente
SN
SN
EX:
EX:
N
N
(A
(
A|P
|P N
N
)+
)+
–
– SistemaSistema de gestãode gestão de basede base de dadosde dados
–
– RedeRede neuronalneuronal –
– AparelhoAparelho de golgide golgi
–
–
Os
Os
contextos
contextos
tamb
tamb
é
é
m
m
possuem
possuem
uma
uma
gram
gram
á
á
tica
tica
Aproxima
Aproxima
ç
ç
ões Gramaticais
ões Gramaticais
Mais
Mais
Ideias
Ideias
base /
base /
Intui
Intui
ç
ç
ões
ões
:
:
–
–
Identificar
Identificar
UT
UT
variantes
variantes
sabendo
sabendo
o conjunto
o
conjunto
de
de
regras
regras
que
que
levam
levam
à
à
sua
sua
forma
forma
ç
ç
ão
ão
:
:
–
–
Parte
Parte
de um conjunto
de um
conjunto
de UT base e
de UT base e
aplica
aplica
regras
regras
de
de
composi
composi
ção
ç
ão
->
-
>
gram
gram
á
á
tica
tica
generativa
generativa
–
–
Pode
Pode
utilizar
utilizar
/
/
necessitar
necessitar
de
de
retorno
retorno
humano
humano
ou
ou
uma
uma
base de
base de
conhecimento
conhecimento
inicial
inicial
.
.
–
–
EX:
EX:
T (T (AA|P)T)+|P)T)+
RegrasRegras de de ““analogiaanalogia””: :
–
Aproxima
Aproxima
ç
ç
ões Gramaticais
ões Gramaticais
Vantagens
Vantagens
:
:
–
–
Boa
Boa
precisão
precisão
–
–
Normalmente
Normalmente
robustos
robustos
Desvantagens:
Desvantagens
:
–
–
complexidade
complexidade
de
de
implementa
implementa
ç
ç
ão
ão
–
–
necessitam
necessitam
de
de
bastante
bastante
pr
pr
é
é
-
-
processamento
processamento
–
–
Dificuldade
Dificuldade
de
de
porte
porte
para outras
para
outras
lí
l
í
nguas
nguas
–
–
Incapazes
Incapazes
de
de
detectar
detectar
algo
algo
que
que
não
não
tenha
tenha
sido
sido
previsto
Aproxima
Aproxima
ç
ç
ões Gramaticais
ões Gramaticais
Sistemas
Sistemas
que
que
exploram
exploram
a
a
Morfologia
Morfologia
!
!
Ideias
Ideias
base /
base /
Intui
Intui
ç
ç
ões
ões
:
:
–
–
Procurar
Procurar
sequências
sequências
de palavras
de
palavras,
, que
que
possuem
possuem
uma
uma
determinada
determinada
forma:
forma:
SufixosSufixos: “: “proto*proto*””
PrefixosPrefixos: “: “**zoide”zoide”
Raizes: Raizes: ““sistemasistema””
Podem
Podem
també
tamb
é
m
m
usar
usar
alguma
alguma
evidência
evidência
externa
externa
simples:
simples:
–
–
Ex:
Ex:
Palavra
Palavra
anterior
anterior
é
é
artigo?
artigo
?
Aproxima
Aproxima
ç
ç
ões Gramaticais
ões Gramaticais
Vantagens:
Vantagens
:
–
– Boa Boa precisãoprecisão emem domdomííniosnios ““fechadosfechados””. . EgEg: : QuQuíímicamica –
– DentroDentro de um domde um domíínionio, , podempodem ser ser facilmentefacilmente portadosportados para
para llíínguasnguas prpróóximasximas ((cognatoscognatos))
Desvantagens
Desvantagens
:
:
–
– SSóó sãosão aplicaplicááveisveis emem certoscertos domdomííniosnios.. –
– NecessitamNecessitam de um investimentode um investimento de estudode estudo linguílinguísticostico porpor cada
cada domdomíínionio –
– NãoNão sãosão portáportáveisveis de domde domíínionio parapara domdomínioínio –
– IncapazesIncapazes de detectarde detectar algoalgo queque nãonão tenhatenha sidosido previstoprevisto nana “
“gramgramáticaática””
Aproxima
Aproxima
ç
ç
ões Estat
ões Estat
í
í
sticas
sticas
Sistemas que exploram informa
Sistemas que exploram informa
ç
ç
ão estatí
ão estat
í
stica:
stica:
–
– normalmente sobre o lnormalmente sobre o lééxico mas pode haver lematizaxico mas pode haver lematizaççãoão
Ideias base / Intui
Ideias base / Intui
ções:
ç
ões:
1.
1. As UT são unidades lexicais que pertencem a um As UT são unidades lexicais que pertencem a um determinado dom
determinado domíínio, logo podem ser consideradas nio, logo podem ser consideradas estatisticamente desviantes das unidades obtidas num estatisticamente desviantes das unidades obtidas num
“
“corpus padrão de linguagem comumcorpus padrão de linguagem comum””
Coeficiente de Coeficiente de DiceDice sobre o N-sobre o N-Gramas extraGramas extraíídosdos
2.
2. As UT são unidades lexicais coesas: os seus constituintes As UT são unidades lexicais coesas: os seus constituintes co
co-ocorrem com frequências muito acima do -ocorrem com frequências muito acima do ““normal”normal”
InformaçInformação Múão Mútuatua
Aproxima
Aproxima
ç
ç
ões Estat
ões Estat
í
í
sticas
sticas
Vantagens:
Vantagens:
–
– PortáPortáveis entre lveis entre líínguasnguas –
– FáFáceis de programarceis de programar –
– RáRápidos (?)pidos (?)
Desvantagens:
Desvantagens:
–
– Muito ruidosos Muito ruidosos
Muita influência de fenóMuita influência de fenómenos lingumenos linguíísticos recorrentes e de sticos recorrentes e de
marcas de estilo marcas de estilo
(2) pode obter todas as colocaç(2) pode obter todas as colocações, que não são UT!ões, que não são UT!
–
– Na prNa prática, ática, éé difídifícil implementar:cil implementar:
Afinal, o que éAfinal, o que é um corpus padrão de linguagem geral?um corpus padrão de linguagem geral?
São uma boa aproximaç
São uma boa aproxima
ção quando não se tem
ão quando não se tem
alternativas que usam mais conhecimento expl
Aproxima
Aproxima
ç
ç
ões H
ões H
í
í
bridas
bridas
Ideias base / Intui
Ideias base / Intui
ç
ç
ões:
ões:
–
– Os méOs métodos anteriores parecem ser bons para lidar com todos anteriores parecem ser bons para lidar com certas caracter
certas caracteríísticas do problema sticas do problema –– mas não com todas!mas não com todas! –
– Tentar combinaTentar combinações que mantenham as vantagens de ções que mantenham as vantagens de todos, e não as desvantagens
todos, e não as desvantagens
Estes mé
Estes m
étodos são baseados normalmente em
todos são baseados normalmente em
heur
heurí
í
sticas que são verificadas num dado contexto
sticas que são verificadas num dado contexto
aplicacional
aplicacional
Podem levar a bons resultados mas normalmente:
Podem levar a bons resultados mas normalmente:
–
– não têm uma boa fundamentaçnão têm uma boa fundamentação teão teóóricarica –
– podem requerer muita afinaçpodem requerer muita afinação manualão manual –
– podem ser dependentes de um dado contexto/pressuposto podem ser dependentes de um dado contexto/pressuposto não generaliz
Aproxima
Aproxima
ç
ç
ões H
ões H
í
í
bridas
bridas
Pode ser praticamente tudo!
Pode ser praticamente tudo!
Um caso concreto: o Corp
Um caso concreto: o Corp
ó
ó
grafo
grafo
–
–
Alguma sintaxe
Alguma sintaxe
Regras de descriRegras de descriçção (ou melhor de eliminaão (ou melhor de eliminaçção)ão)
AnAnáálise de contextos prlise de contextos próóximos (palavra anterior)ximos (palavra anterior)
–
–
Alguma
Alguma
“
“
morfologia
morfologia
”
”
:
:
SingularizaSingularizaçção para melhorar convergênciaão para melhorar convergência
–
–
Alguma estat
Alguma estat
í
í
stica
stica
As UT seleccionadas ocorrem com uma frequência As UT seleccionadas ocorrem com uma frequência
m
O Corp
O Corp
ó
ó
grafo
grafo
–
–
o contexto
o contexto
O contexto em que se realizam as tarefas de
O contexto em que se realizam as tarefas de
extrac
extrac
ção
ç
ão é
é
sempre importante!
sempre importante!
Corpó
Corp
ógrafo: m
grafo: m
é
é
todo orientado para pesquisas semi
todo orientado para pesquisas semi
-
-autom
automá
áticas em v
ticas em vá
ários idiomas!
rios idiomas!
É
É
o primeiro passo para a constru
o primeiro passo para a constru
ç
ç
ão de
ão de
gloss
gloss
á
á
rios/tesauros:
rios/tesauros:
–
– Permite a posterior extracçPermite a posterior extracção de definião de definiçõesções –
– Permite a posterior identificaçPermite a posterior identificação de relaão de relaçõesções –
– UT’UT’ss funcionam como pontos de fixafuncionam como pontos de fixação do PLSção do PLS
NÃO foi ainda devidamente testado nem
NÃO foi ainda devidamente testado nem
comparado!!
comparado!!
O Corp
O Corp
ó
ó
grafo
grafo
A explicaç
A explica
ç
ão do mé
ão do m
étodo ir
todo irá
á
ser feita mostrando o
ser feita mostrando o
percurso de desenvolvimento realmente seguido
percurso de desenvolvimento realmente seguido
Permitir
Permitir
á
á
compreender melhor o seu funcionamento
compreender melhor o seu funcionamento
e assim:
e assim:
–
– Ser criticado/melhoradoSer criticado/melhorado –
– Inspirar sistemas melhores/alternativosInspirar sistemas melhores/alternativos
Por razões de reaproveitamento de dados os
Por razões de reaproveitamento de dados os
exemplos apresentados são em inglês
exemplos apresentados são em inglês
–
– embora os resultados para português sejam equivalentes embora os resultados para português sejam equivalentes ou
ou superioressuperiores..
Uma aproxima
Uma aproxima
ç
ç
ão muito
ão muito
simples
simples
Compilar N
Compilar
N-
-gramas
gramas
do corpus
do corpus
Perguntar ao utilizador se são UT
Perguntar ao utilizador se são UT
Recolher os exemplos validados
Recolher os exemplos validados
Vantagens:
Vantagens:
–
– Não são necessáNão são necessários recursos lingurios recursos linguíísticossticos –
– Não necessita de prNão necessita de pré-é-processamentoprocessamento –
– RáRápido e portpido e portáável entre lvel entre línguasínguas
Desvantagens
Desvantagens
–
– Demasiado ruidosoDemasiado ruidoso –
– Os utilizadores consideram inadequadoOs utilizadores consideram inadequado –
Exemplo
Exemplo
do corpus
do corpus
Neurodemo
Neurodemo
N N--gramgram ## F (%)F (%) of the of the 332332 1.1371.137 in the in the 243243 0.8320.832 to the to the 121121 0.4140.414 the cell the cell 118118 0.4040.404 from the from the 7171 0.2430.243 the brain the brain 6565 0.2220.222 nervous system nervous system 6565 0.2220.222 on the on the 5959 0.2020.202 and the and the 5252 0.1780.178 of a of a 5151 0.1740.174 the neuron the neuron 4848 0.1640.164 the axon the axon 4646 0.1570.157 cell body cell body 4646 0.1570.157 is the is the 4242 0.1430.143 by the by the 4040 0.1370.137
Dom
Dom
í
í
nio
nio
:
:
neurologia
neurologia
–
–
Textos
Textos
tirados
tirados
da web
da web
(
, word, html)
, word, html)
–
–
6
6
idiomas
idiomas
(PT,EN,FR,ES,IT,DE)
(PT,EN,FR,ES,IT,DE)
–
–
Sec
Sec
ç
ç
ão
ão
EM: 29192
EM: 29192
à
à
ts
ts
.
.
Muito ruidoso : apenas 2 UT em 15 n-grams!
Como
Como
melhorar
melhorar
os
os
resultados
resultados
?
?
Vantagens: os resultados tão maus que podem ser
Vantagens: os resultados tão maus que podem ser
facilmente melhorados.
facilmente melhorados.
Pod
Pod
í
í
amos criar regras sint
amos criar regras sint
ácticas e morfol
á
cticas e morfoló
ógicas
gicas
acerca das UT e seleccionar apenas
acerca das UT e seleccionar apenas
N
N
-
-
gramas
gramas
que
que
as respeitem
as respeitem
Contudo, como vimos,
Contudo, como vimos,
é
é
muito dif
muito dif
í
í
cil dizer o que
cil dizer o que
é
é
uma UT, e podemos ter de recorrer a algum pr
uma UT, e podemos ter de recorrer a algum pré
é
-
-processamento: muito complicado
processamento: muito complicado…
…
Mas
Mas
é
é
muito mais f
muito mais f
á
á
cil dizer:
cil dizer:
–
– o que o que éé que NÃO que NÃO ÉÉ uma UT!uma UT!
–
Excluindo N
Excluindo N
-
-
Gramas
Gramas
Definir 3 listas de á
Definir 3 listas de
átomos para exclusão de
tomos para exclusão de N
N-
-gramas
gramas
–
–
Lista dos
Lista dos
não
não
-
-
in
in
í
í
cios
cios
àtàt. que não podem iniciar UT. que não podem iniciar UT’’ss
–
–
Lista dos
Lista dos
não
não
-
-
fins
fins
àtàt. que não podem terminar UT. que não podem terminar UT’’ss
–
–
Lista dos não
Lista dos
não-
-
inclu
inclu
ídos
í
dos
àtàt. que não podem estar incluí. que não podem estar incluídos em dos em UTUT’’ss
Encontrar
Encontrar
N
N
-
-
gramas
gramas
que respeitem estas restri
que respeitem estas restri
ç
ç
ões
ões
Por razões de redundância, as UT devem:
Por razões de redundância, as UT devem:
–
– aparecer no topo da lista dos aparecer no topo da lista dos NN-gramas-gramas seleccionados.seleccionados.
E o
E o
que
que
são
são
estas
estas
listas
listas
?
?
A maioria
A
maioria
dos elementos
dos
elementos
destas
destas
listas
listas
são
são
–
– preposipreposiççõesões –
– pronomespronomes –
– pontuapontuaççãoão –
– certascertas palavraspalavras muitomuito frequentesfrequentes
Facilmente
Facilmente
compiladas
compiladas
por
por
“
“
tentativa
tentativa
-
-
e
e
-
-
erro
erro
”
”
Muito
Muito
está
est
áveis
veis
entre
entre
domí
dom
í
nios
nios
–
– HipóHipótesetese atéaté agora vagora váálidalida –
– AlteradasAlteradas facilmentefacilmente se necessse necessááriorio
Restri
Restri
ç
ç
ões
ões
simples (top 20)
simples (top 20)
N
N--gram (2208 found)gram (2208 found) ## F (%)F (%)
central nervous system
central nervous system 1616 0.0540.054 peripheral nervous system
peripheral nervous system 88 0.0270.027 integral membrane proteins
integral membrane proteins 88 0.0270.027 nuclear pore complexes
nuclear pore complexes 55 0.0170.017 name of glial
name of glial 55 0.0170.017 signaling between nerve
signaling between nerve 55 0.0170.017 pattern of activity pattern of activity 55 0.0170.017 nodes of ranvier nodes of ranvier 44 0.0130.013 synthesis of proteins synthesis of proteins 44 0.0130.013 induction of ltp/ltd induction of ltp/ltd 44 0.0130.013 evoked nt secretion evoked nt secretion 33 0.0100.010 can be divided can be divided 33 0.0100.010 primary visual cortex
primary visual cortex 33 0.0100.010 nmda receptor activation
nmda receptor activation 33 0.0100.010 –
–the messengersthe messengers 33 0.0100.010 action potential will
action potential will 33 0.0100.010 rate of transmission
rate of transmission 33 0.0100.010 primary cell walls
primary cell walls 33 0.0100.010 complexes of integral
complexes of integral 33 0.0100.010
N
N--gram (3110 found)gram (3110 found) ## F (%)F (%)
nervous system nervous system 6565 0.2220.222 cell body cell body 4646 0.1570.157 electrical activity electrical activity 3939 0.1330.133 nerve cells nerve cells 3737 0.1260.126 spinal cord spinal cord 3434 0.1160.116 action potential action potential 3232 0.1090.109 glial cells glial cells 2929 0.0990.099 synaptic cleft synaptic cleft 2020 0.0680.068 plasma membrane plasma membrane 1616 0.0540.054 central nervous central nervous 1616 0.0540.054 action potentials action potentials 1414 0.0470.047 schwann cells schwann cells 1414 0.0470.047 membrane proteins membrane proteins 1313 0.0440.044 nerve fibers nerve fibers 13 13 0.0440.044 endoplasmic reticulum endoplasmic reticulum 1313 0.0440.044 nervous systems nervous systems 1212 0.0410.041 developing circuits developing circuits 1212 0.0410.041 amino acids amino acids 1212 0.0410.041 myelin sheath myelin sheath 1212 0.0410.041
Restri
Restri
ç
ç
ões
ões
Simples
Simples
Aumentamos a precisão (no topo)
Aumentamos a precisão (no topo)
–
–
Reduzimos o esfor
Reduzimos o esfor
ç
ç
o de valida
o de valida
ç
ç
ão:
ão:
–
–
~ 100 termos/
~ 100 termos/
hr
hr
Ainda temos alguns problemas:
Ainda temos alguns problemas:
1.1. Algumas palavras frequentes/homóAlgumas palavras frequentes/homógrafas ainda grafas ainda
trazem muitos candidatos falsos (
trazem muitos candidatos falsos (ex: ex: ““cancan”)”)
2.
2. Ocorrências divididas entre o Plural/SingularOcorrências divididas entre o Plural/Singular
3.
3. Termos encapsulados são ainda difíTermos encapsulados são ainda difíceis de separarceis de separar
–
– “nervous“nervous system”system” e “e “central central nervousnervous systemsystem””
4.
Mais
Mais
restri
restri
ç
ç
ões
ões
…
…
Objectivo: melhorar a precisão e resolver
Objectivo: melhorar a precisão e resolver
alguns
alguns
dos problemas anteriores (1 & 2)
dos problemas anteriores (1 & 2)
Se
Se
“
“
obrigarmos
obrigarmos
”
”
a que os N
a que os N
-
-
Gramas sejam
Gramas sejam
SN, então a singulariza
SN, então a singulariza
ç
ç
ão
ão
é
é
trivial em
trivial em
v
v
á
á
rias l
rias l
í
í
nguas
nguas
Vamos impor 1 nova restri
Vamos impor 1 nova restri
ç
ç
ão: os N
ão: os N
-
-
Gramas
Gramas
têm de ser precedidos por certas palavras
têm de ser precedidos por certas palavras
–
–
Ex
Ex
:
:
“
“
a
a
”
”
,
,
“
“
the
the
”
”
,
,
“
“
one
one
”
”
,
,
“
“
as
as
”
”
,
,
etc
etc
.
.
–
–
É
É
f
f
ácil impor restri
á
cil impor restriç
ções para
ões para
“
“
PT”
PT
”
,
,
“
“
ES”
ES
”
,
,
”
”
FR”
FR
”
,
,
“
“
IT
IT
”
”
–
Mais
Mais
restri
restri
ç
ç
ões
ões
:
:
resultados
resultados
N
N--gram (943 found)gram (943 found) ## F (%)F (%)
central nervous system
central nervous system 1515 0.051 0.051 peripheral nervous system
peripheral nervous system 99 0.030 0.030 node of
node of ranvierranvier 66 0.0200.020 integral membrane protein
integral membrane protein 66 0.020 0.020 synthesis of proteins
synthesis of proteins 44 0.013 0.013 nuclear pore complex
nuclear pore complex 44 0.013 0.013 induction of
induction of ltpltp/ltd/ltd 44 0.013 0.013 primary visual cortex
primary visual cortex 33 0.010 0.010 energy of
energy of atpatp 33 0.010 0.010 development of neural
development of neural 33 0.010 0.010 rate of transmission
rate of transmission 33 0.010 0.010 activation of
activation of nmdanmda 22 0.006 0.006 evoked
evoked ntntsecretionsecretion 22 0.006 0.006 refinement of neural
refinement of neural 22 0.006 0.006 xenopus
xenopusretinotectalretinotectalsystemsystem 22 0.006 0.006 induction of
induction of ltpltp 22 0.006 0.006 activity
activity--induced synaptic modificationinduced synaptic modification 22 0.006 0.006 cytochrome
cytochromeb geneb gene 22 0.006 0.006 activity
activity--dependent synaptic dependent synaptic 22 0.006 0.006
N
N--gram (1304 found)gram (1304 found) ## F (%)F (%)
cell body cell body 4646 0.157 0.157 nervous system nervous system 3535 0.119 0.119 spinal cord spinal cord 3131 0.106 0.106 action potential action potential 3030 0.102 0.102 nerve cell nerve cell 2626 0.089 0.089 electrical activity electrical activity 2222 0.075 0.075 synaptic cleft synaptic cleft 2020 0.068 0.068 plasma membrane plasma membrane 1616 0.054 0.054 glial
glialcellcell 1616 0.054 0.054 central nervous central nervous 1515 0.051 0.051 myelin sheath myelin sheath 1212 0.041 0.041 developing circuit developing circuit 1111 0.037 0.037 neural circuit neural circuit 1010 0.034 0.034 peripheral nervous peripheral nervous 99 0.030 0.030 protein synthesis protein synthesis 99 0.030 0.030 endoplasmic reticulum endoplasmic reticulum 88 0.027 0.027 human brain human brain 88 0.027 0.027 respiratory chain respiratory chain 77 0.023 0.023 schwann
Qual
Qual
é
é
a
a
melhoria
melhoria
?
?
Aumento da precisão
Aumento da precisão
–
–
Torna
Torna
-se mais f
-
se mais fá
á
cil o processo de valida
cil o processo de valida
ção!
ç
ão!
Formas Plural/Singular convergiram
Formas Plural/Singular convergiram
F
F
á
á
cil de implementar
cil de implementar
“
“
Multilingue
Multilingue
”
”
Muito rá
Muito r
ápido: como h
pido: como há
á
exclusão de muitos
exclusão de muitos
N
N
-
-
Gramas, a ordena
Gramas, a ordena
ç
ç
ão
ão
é
é
r
r
á
á
pida!
pida!
–
Problemas por resolver
Problemas por resolver
Valor Abrangência: ainda desconhecido!
Valor Abrangência: ainda desconhecido!
–
–
Precisamos de fazer testes!
Precisamos de fazer testes!
Problema do encapsulamento dos termos.
Problema do encapsulamento dos termos.
Como resolver?
Como resolver?
–
–
Simples: tentar primeiro achar N-
Simples: tentar primeiro achar N
-Gramas
Gramas
maiores e partir s
maiores e partir s
ó
ó
depois para o menores.
depois para o menores.
–
–
Custo: CPU
Custo: CPU
…
…
Problemas das variantes morfol
Problemas das variantes morfol
ó
ó
gicas:
gicas:
–
–
Seria necess
Seria necess
á
á
rio implementar regras de
rio implementar regras de
transforma
transforma
ção de equivalentes
ç
ão de equivalentes
–
O
O
M
M
é
é
todo
todo
do Corp
do Corp
ó
ó
grafo
grafo
Algoritmo h
Algoritmo h
í
í
brido simples:
brido simples:
–
–
F
F
á
á
cil de implementar
cil de implementar
–
–
Simples para utilizadores compreenderem
Simples para utilizadores compreenderem
–
–
Execu
Execu
ç
ç
ão em tempo linear
ão em tempo linear
-
-
O(kN
O(kN
)
)
–
–
É
É
possí
poss
í
vel alterar as restri
vel alterar as restri
ç
ç
ões para
ões para
adaptar a certos dom
adaptar a certos dom
í
í
nios
nios
–
–
Pode ser portado para v
Pode ser portado para v
á
á
rios idiomas
rios idiomas
–
–
Ainda melhor
Ainda melhor
á
á
vel, sem demasiado
vel, sem demasiado
trabalho
Extrac
Extrac
ç
ç
ão de Terminologia
ão de Terminologia
Conclusões:
Conclusões:
1.
1. Terminologia Terminologia éé algo muito dinâmicoalgo muito dinâmico 2.
2. Terminologia tem grande potencial aplicacional embora Terminologia tem grande potencial aplicacional embora não tenha sido poss
não tenha sido possíível ainda explorar tudo com vel ainda explorar tudo com sucesso.
sucesso. 3.
3. A ExtracA Extracçção de Terminologia ão de Terminologia éé por isso por isso úútil, mas til, mas éé tamb
tambéém uma tarefa dependente de um contextom uma tarefa dependente de um contexto 4.
4. Têm sido propostos vTêm sido propostos váários mrios méétodos que possuem todos que possuem caracter
características mais adaptadas a certos contextos. ísticas mais adaptadas a certos contextos. Baseados em:
Baseados em:
GramáGramáticasticas
MéMétodos estattodos estatísticosísticos
Extrac
Extrac
ç
ç
ão de Terminologia
ão de Terminologia
É
É
poss
poss
í
í
vel implementar extractores de
vel implementar extractores de
terminologia relativamente simples e com
terminologia relativamente simples e com
sucesso razo
sucesso razo
á
á
vel (?)
vel (?)
A extrac
A extrac
ç
ç
ão de terminologia
ão de terminologia
é
é
ainda uma
ainda uma
á
á
rea com alguma margem de
rea com alguma margem de
desenvolvimento
desenvolvimento