2.4 Resumo
3.1.6 Espa¸co multidimensional de respostas
Para cada tipo de pergunta existem m´etodos espec´ıficos de procura de respostas candi- datas. Destas, nem todas ser˜ao v´alidas. Mas para confirmar ou descartar uma poss´ıvel resposta levando em considera¸c˜ao as demais, ´e necess´aria uma representa¸c˜ao global que facilite a compara¸c˜ao de aspectos determinantes para essa decis˜ao.
Cada resposta consiste numa express˜ao para o resultado, acompanhada de elementos sobre o contexto onde foi encontrada e ainda uma pontua¸c˜ao que reflecte o grau de con- fian¸ca que o sistema lhe atribui. Depois de coleccionadas pelos diversos processos, as
Figura 3.2: Disposi¸c˜ao de respostas candidatas num espa¸co multidimensional
poss´ıveis respostas s˜ao representadas num espa¸co multidimensional, como se ilustra na figura 3.2. O posicionamento de cada resposta candidata ´e determinado pelo seu valor e pelos atributos que lhe est˜ao associados.
O conjunto de respostas forma assim uma nuvem de pontos. Em termos abstrac- tos, se esses pontos estiverem aglomerados, isso significa que as respostas encontradas s˜ao pr´oximas ou parecidas. Uma nuvem de pontos dispersos reflecte um conjunto com respostas d´ıspares. Para cada uma das dimens˜oes desde espa¸co de resultados, as coor- denadas de uma resposta dependem do valor, do contexto e do tipo dessa resposta. H´a trˆes eixos fundamentais neste espa¸co de respostas, descritos em seguida, do mais simples para o mais complexo.
Eixo do Tempo
Sempre que se consegue uma referˆencia temporal associada a uma resposta, essa in- forma¸c˜ao vai assinalar a ´epoca em que se crˆe que a resposta ´e v´alida. Com um eixo que reflecte uma dimens˜ao temporal, o espa¸co de respostas fica dotado de uma organiza¸c˜ao cronol´ogica. Consideremos a seguinte quest˜ao:
O que est´a no centro do sistema solar?
A pergunta admite v´arias respostas, nomeadamente as decorrentes das teorias do ge- ocentrismo e heliocentrismo. A figura 3.3 ilustra a disposi¸c˜ao das respostas ao longo deste eixo. Esta organiza¸c˜ao do espa¸co de resultados facilita a escolha da resposta mais recente. Se uma pergunta incluir uma restri¸c˜ao temporal, ent˜ao a intersec¸c˜ao entre o contexto temporal dessa quest˜ao e este eixo permite seleccionar as respostas v´alidas. Assim aconteceria se reformul´assemos a pergunta para o ano 161 d.C., o ano em que
faleceu Ptolomeu4, o que levaria `a resposta Terra como centro do sistema solar.
Figura 3.3: Respostas ao longo do eixo do tempo
Eixo do Espa¸co
Este eixo est´a associado `a dimens˜ao espacial, sendo um pouco mais complexo que o anterior por ser uma abstrac¸c˜ao para uma localiza¸c˜ao, que pode ser representada de modo concreto, por coordenadas para latitude e longitude, ou de um modo simplificado com o nome da regi˜ao geogr´afica, cidade ou pa´ıs. Vejamos como seriam representadas as respostas da pergunta seguinte:
Quem ´e o presidente?
Considerando apenas algumas respostas actuais sobre a presidˆencia de pa´ıses, os resul- tados para Estados Unidos da Am´erica, Brasil, Portugal, Fran¸ca e It´alia est˜ao represen- tados na figura 3.4. Todas as respostas s˜ao v´alidas para o respectivo pa´ıs, devidamente assinalado neste eixo do espa¸co global de resultados. Se a pergunta n˜ao especifica um local em particular, a melhor resposta do sistema ser´a aquela que, nesta dimens˜ao, for mais compat´ıvel com o contexto espacial do pr´oprio sistema (´Evora, Portugal).
Eixo Semˆantico
Este ´e o eixo mais complexo do espa¸co de resultados. Na representa¸c˜ao das respostas candidatas, esta dimens˜ao constitui uma abstrac¸c˜ao para a distˆancia semˆantica entre os valores desses resultados. ´E estabelecida uma teia entre cada resposta e alguns conceitos relacionados, formando uma rede semˆantica. As liga¸c˜oes dessa rede v˜ao permitir apurar o n´ıvel de semelhan¸ca entre os resultados.
A an´alise das respostas para este eixo ´e executada em fun¸c˜ao do tipo de pergunta e do tipo de valor encontrado para cada resposta.
• datas
Importa esclarecer que uma resposta do tipo data pode ter associado um contexto temporal de valor diferente. Neste eixo, a an´alise incide sobre o valor da resposta 4
Claudius Ptolomeu (83-161 d.C.) foi um matem´atico e astr´onomo grego associado ao Geocentrismo.
Figura 3.4: Respostas distribu´ıdas pelo espa¸co
e n˜ao sobre o contexto temporal em que foi encontrada. Tomemos como exemplo a quest˜ao:
Quando nasceu Thomas Mann?
A figura 3.5 inclui algumas das respostas candidatas que o sistema detecta em diversas fontes. Essas respostas s˜ao representadas de acordo com o seu significado. O valor 1702 representa um ano que vem antes do ano 1875. A resposta 1875- 06-06 representa um dia enquadrado no mˆes Junho de 1875, que por sua vez se insere no ano 1875. A representa¸c˜ao usada reflecte rela¸c˜ao entre as respostas pelo significado que tˆem.
Figura 3.5: Dimens˜ao semˆantica: representa¸c˜ao de datas
• quantidades
As respostas candidatas com quantidades podem surgir com formatos distintos, no que respeita a separador decimal ou separador dos milhares. Um valor num´erico inteiro pode ser escrito por extenso, com algarismos ou de modo misto. Ao colocar cada resposta neste eixo, o sistema interpreta o significado do valor, no formato encontrado, e representa-o de um modo normalizado. Se existirem unidades asso- ciadas ao valor num´erico, esta interpreta¸c˜ao faz-se para cada unidade em separado,
a n˜ao ser que o sistema consiga efectuar uma convers˜ao entre as unidades. Para a pergunta:
Quanto pesa um beija-flor?
o sistema sabe que os s´ımbolos g e gr s˜ao usados para a unidade gramas. Assim, os valores num´ericos com estas unidades ficam representados num mesmo eixo, como mostra a figura 3.6.
Figura 3.6: Dimens˜ao semˆantica: representa¸c˜ao de quantidades
Os resultados seis gramas e 6g s˜ao equivalentes, ficando portanto no mesmo ponto deste eixo. O mesmo acontece com as respostas 1.6 gr e 1,6 g. As outras respostas assinaladas nesta dimens˜ao do espa¸co de resultados s˜ao intervalos. O intervalo mais amplo ´e entre 1,5 a 20 gramas e outro est´a contido no primeiro, entre 2 a 6 gramas. A variedade de respostas resulta das diferentes proveniˆencias destes valo- res.
• fact´oides
As respostas deste g´enero s˜ao usualmente formadas por uma ´unica palavra ou uma express˜ao curta correspondente ao nome de uma entidade. A disposi¸c˜ao destes fact´oides na dimens˜ao semˆantica do espa¸co de resultados faz-se atrav´es de uma malha de conceitos interligados. O objectivo ´e representar o significado das pala- vras por forma a evidenciar semelhan¸cas entre as respostas, no campo semˆantico. Estabelecendo um paralelo com o processo neurocognitivo de activa¸c˜ao de asso- cia¸c˜oes entre conceitos, sobre as mem´orias semˆantica e epis´odica [DMP07], cada fact´oide ´e associado a um conjunto de termos relacionados, que n˜ao tˆem de fazer parte da pergunta ou do documento onde ´e encontrada a resposta. Este processo ´e gen´erico, independente de qualquer dom´ınio em particular e teoricamente funci- onal para todo o l´exico de qualquer idioma. O procedimento adoptado ´e inspirado em trabalhos anteriores sobre representa¸c˜ao semˆantica e detec¸c˜ao de similaridade, de Kozima [KF93], e desambigua¸c˜ao de Veronis[VI90] e Tsatsaronis [TVA07], com base em redes associativas e dicion´arios.
A fase inicial consiste na representa¸c˜ao das respostas candidatas no espa¸co, ainda sem diferencia¸c˜ao de posicionamento entre elas, mas com indica¸c˜ao da pontua¸c˜ao
de cada uma, atribu´ıda durante o processo de extrac¸c˜ao de respostas. Considere- mos a seguinte quest˜ao:
Que animal ´e o Cocas?
A resposta esperada ´e um fact´oide. A figura 3.7 mostra algumas das respostas candidatas que o sistema detecta para esta quest˜ao. Os fact´oides mostrados s˜ao respostas plaus´ıveis encontradas em textos. Apesar da interpreta¸c˜ao mais comum da pergunta nos remeter para a famosa personagem da s´erie Os Marretas, ´e poss´ıvel que algum outro animal com o mesmo nome seja referido nos recursos consultados, o que conduz a outras respostas v´alidas, apesar de menos populares.
peluche porco r˜a sapo verde
Figura 3.7: Dimens˜ao semˆantica: fact´oides (in´ıcio)
O passo seguinte ´e a obten¸c˜ao do primeiro n´ıvel de informa¸c˜ao semˆantica para as poss´ıveis respostas. A cada n´o resposta ´e adicionado um elo de liga¸c˜ao para novos n´os que cont´em poss´ıveis significados ou conceitos relacionados. Os elos de liga¸c˜ao tˆem um tipo e um peso associados. O tipo caracteriza a rela¸c˜ao semˆantica expressa pelo arco entre os conceitos dos n´os de origem e destino. O peso reflecte o grau de certeza do sistema sobre essa rela¸c˜ao. O peso de uma rela¸c˜ao ´e um valor real prel, tal que 0 < prel <= 1, que ir´a influenciar o processo de propaga¸c˜ao do n´ıvel de activa¸c˜ao, conforme ser´a explicado na sec¸c˜ao seguinte.
Para cada resposta desta categoria, tipicamente formada por uma palavra, importa coleccionar alguns conceitos que com ela estabelecem uma rela¸c˜ao semˆantica. A procura dessas rela¸c˜oes semˆanticas faz-se pela defini¸c˜ao da palavra (ou da res- pectiva forma base) num dicion´ario acess´ıvel via Web. Com base na metodologia seguida pelo sistema SESEMI5 [Van95], mas de modo simplificado, o sistema pro- cessa a an´alise sint´actica de uma defini¸c˜ao com um conjunto de regras que validam a existˆencia ou n˜ao de determinado padr˜ao. Essas regras s˜ao focadas em no- mes, verbos e adjectivos presentes na estrutura sint´actica que evidenciem rela¸c˜oes como hiper´onimo, mer´onimo, sin´onimo, ant´onimo e agente de determinado verbo, quando poss´ıvel.
O quadro seguinte tem uma lista com as defini¸c˜oes dos termos da figura 3.7.
5
SESEMI: System for Extracting SEMantic Information. Identifica rela¸c˜oes semˆanticas atrav´es de
consultas a dicion´arios online. As defini¸c˜oes nas entradas dos dicion´arios tˆem determinada estrutura
que facilita a detec¸c˜ao de padr˜oes que podem evidenciar rela¸c˜oes semˆanticas [Van95]. Em trabalho mais
recente e para o Portuguˆes, foi usada uma abordagem an´aloga para a constru¸c˜ao de uma ontologia com
peluches.m. - Boneco revestido com tecido felpudo.
porcos.m. - Quadr´upede da classe dos mam´ıferos e da fam´ılia dos su´ıdeos.
adj. - Imundo
r˜as.f. - Batr´aquio saltador e nadador, de pele lisa, verde-parda. sapos.m. - Esp´ecie de batr´aquio anuro.
verdes.m. - A cor verde.
As defini¸c˜oes com adjectivos indicam um significado poss´ıvel para o termo, como acontece com porco, e s˜ao captadas como sin´onimos. As entradas do dicion´ario que descrevem substantivos s˜ao mais extensas, pelo que se usa um analisador morfo- sint´actico. A figura 3.8 mostra a estrutura sint´actica obtida para a defini¸c˜ao de peluche. O padr˜ao existente leva `a associa¸c˜ao entre o conceito peluche e o elemento nuclear da estrutura, o substantivo boneco.
NPHR:np =H:n(’boneco’ <H> M S) boneco =N<:v-pcp(’revestir’ M S) revestido =N<:pp ==H:prp(’com’) com ==P<:np
===H:n(’tecido’ <cc-rag> <mat-cloth> M S) tecido
===N<:adj(’felpudo’ M S) felpudo
Figura 3.8: Dimens˜ao semˆantica: estrutura sint´actica da defini¸c˜ao
O uso do dicion´ario para captar significados para as respostas candidatas apresen- tadas permite aumentar o espa¸co de resultados com novos n´os e rela¸c˜oes, designa- damente hiper´onimo e sin´onimo, como se ilustra na figura 3.9.
boneco quadr´upede mam´ıfero imundo batr´aquio cor
peluche porco r˜a sapo verde
hiper hiper hiper sin hiper hiper hiper
Figura 3.9: Dimens˜ao semˆantica: fact´oides (1o
n´ıvel de rela¸c˜oes)
Os fact´oides com nomes de entidades s˜ao mais dif´ıceis de caracterizar neste pri- meiro n´ıvel de expans˜ao, uma vez que n˜ao possuem uma defini¸c˜ao de dicion´ario. Nesses casos determina-se simplesmente a categoria da entidade referida, que pode ser uma pessoa, um monumento, uma empresa ou outra classe. Esta informa¸c˜ao est´a contida nos cat´alogos de entidades. A rela¸c˜ao semˆantica estabelecida entre a
entidade e a sua categoria ´e ’instˆancia de’.
Ap´os a consulta de dicion´arios e cat´alogos de entidades, a malha de conceitos ´e agora constitu´ıda pelos n´os com as respostas e mais um n´ıvel de n´os com os con- ceitos semanticamente relacionados. O terceiro passo ´e a expans˜ao da malha por importa¸c˜ao de termos relacionados com cada n´o em estruturas semˆanticas associ- ativas acess´ıveis pelo sistema. A express˜ao em cada n´o ´e procurada em ontologias e em redes semˆanticas e os respectivos conceitos relacionados s˜ao importados para o espa¸co de resultados. Os novos n´os ter˜ao um elo de liga¸c˜ao com peso 1, estabe- lecido de acordo com a estrutura de origem.
A rede semˆantica resultante deste processo est´a indicada na figura 3.10.
figura
animal
vertebrado asseado
aparˆencia caracter´ıstica
boneco quadr´upede mam´ıfero imundo batr´aquio cor
peluche porco r˜a sapo verde
hiper hiper hiper sin
ant hiper hiper hiper hiper hiper hiper hiper hiper
hiperhiper hiper
hiper
Figura 3.10: Dimens˜ao semˆantica: fact´oides (rede de conceitos) • frases
As respostas mais compridas est˜ao associadas a perguntas do tipo Defini¸c˜ao. ´E o caso da pergunta:
O que ´e um berimbau?
As respostas candidatas com maior pontua¸c˜ao que o sistema encontrada nos do- cumentos s˜ao as seguintes:
uma harpa de corda ´unica
um instrumento de percuss˜ao usado tradicionalmente na capoeira um instrumento musical afro-brasileiro
um elemento fundamental na capoeira uma arma maligna e mortal
feito de um bast˜ao de madeira
A transposi¸c˜ao destas express˜oes para a dimens˜ao semˆantica do espa¸co de resul- tados consiste na identifica¸c˜ao dos termos relevantes da frase e na percep¸c˜ao dos seus poss´ıveis significados. A an´alise morfo-sint´actica do texto de cada resposta
gera uma estrutura atrav´es da qual se detectam os termos de n´ucleo. A figura 3.11 mostra a estrutura sint´actica para a primeira resposta do exemplo. As etiquetas do analisador com a cor azul denotam n´ucleo (H ), substantivo (n) e adjectivo (adj ). Os conceitos n´ucleo da express˜ao surgem destacados a vermelho. O ad- jectivo ´unico ´e tamb´em captado como caracter´ıstica do nome corda, que por sua vez ´e um n´ucleo secund´ario, parte constituinte do conceito definido. Os termos
NPHR:np
=>N:art(’um’ <arti> F S) uma
=H:n(’harpa’ <tool-mus> F S) harpa
=N<:pp
==H:prp(’de’) de
==P<:np
===H:n(’corda’ F S) corda
===N<:adj(’unico´ ’ F S) ´unica
Figura 3.11: Dimens˜ao semˆantica: estrutura sint´actica e elementos de n´ucleo n´ucleo s˜ao representados em n´os, numa rede semˆantica, sendo considerados n´os de referˆencia da resposta. Cada n´o de referˆencia ´e relacionado com outros n´os do espa¸co atrav´es de rela¸c˜oes semˆanticas, aplicando-se-lhes o procedimento j´a des- crito para a representa¸c˜ao dos fact´oides. Uma resposta ´e simbolizada por um n´o associado aos seus n´os de referˆencia atrav´es de rela¸c˜oes que dependem da estru- tura sint´actica da express˜ao, como ilustrado na figura 3.12. O n´o ’corda ´unica’ ´e um n´o derivado do n´o de referˆencia corda, simbolizando um conceito daquele tipo que ´e caracterizado ainda por outros elementos semˆanticos (neste caso apenas uma rela¸c˜ao com o adjectivo ´unico). Havendo um n´o derivado, ´e com ele que o n´o da resposta se associa, em vez de corda, estabelecendo com ele uma rela¸c˜ao que depende da estrutura sint´actica. No caso, a etiqueta mer simboliza a rela¸c˜ao mer´onimo, significando que ’corda ´unica’ ´e parte do conceito naquela resposta.
Com todos os resultados neste espa¸co multidimensional, temos os respectivos significa- dos no eixo semˆantico, e o espa¸co e tempo a que se referem nos restantes eixos. Podemos agora reavaliar o conjunto e eventualmente tender para uma das respostas. ´E disso que trata pr´oxima a sec¸c˜ao.