• Nenhum resultado encontrado

2.4 Resumo

3.1.6 Espa¸co multidimensional de respostas

Para cada tipo de pergunta existem m´etodos espec´ıficos de procura de respostas candi- datas. Destas, nem todas ser˜ao v´alidas. Mas para confirmar ou descartar uma poss´ıvel resposta levando em considera¸c˜ao as demais, ´e necess´aria uma representa¸c˜ao global que facilite a compara¸c˜ao de aspectos determinantes para essa decis˜ao.

Cada resposta consiste numa express˜ao para o resultado, acompanhada de elementos sobre o contexto onde foi encontrada e ainda uma pontua¸c˜ao que reflecte o grau de con- fian¸ca que o sistema lhe atribui. Depois de coleccionadas pelos diversos processos, as

Figura 3.2: Disposi¸c˜ao de respostas candidatas num espa¸co multidimensional

poss´ıveis respostas s˜ao representadas num espa¸co multidimensional, como se ilustra na figura 3.2. O posicionamento de cada resposta candidata ´e determinado pelo seu valor e pelos atributos que lhe est˜ao associados.

O conjunto de respostas forma assim uma nuvem de pontos. Em termos abstrac- tos, se esses pontos estiverem aglomerados, isso significa que as respostas encontradas s˜ao pr´oximas ou parecidas. Uma nuvem de pontos dispersos reflecte um conjunto com respostas d´ıspares. Para cada uma das dimens˜oes desde espa¸co de resultados, as coor- denadas de uma resposta dependem do valor, do contexto e do tipo dessa resposta. H´a trˆes eixos fundamentais neste espa¸co de respostas, descritos em seguida, do mais simples para o mais complexo.

Eixo do Tempo

Sempre que se consegue uma referˆencia temporal associada a uma resposta, essa in- forma¸c˜ao vai assinalar a ´epoca em que se crˆe que a resposta ´e v´alida. Com um eixo que reflecte uma dimens˜ao temporal, o espa¸co de respostas fica dotado de uma organiza¸c˜ao cronol´ogica. Consideremos a seguinte quest˜ao:

O que est´a no centro do sistema solar?

A pergunta admite v´arias respostas, nomeadamente as decorrentes das teorias do ge- ocentrismo e heliocentrismo. A figura 3.3 ilustra a disposi¸c˜ao das respostas ao longo deste eixo. Esta organiza¸c˜ao do espa¸co de resultados facilita a escolha da resposta mais recente. Se uma pergunta incluir uma restri¸c˜ao temporal, ent˜ao a intersec¸c˜ao entre o contexto temporal dessa quest˜ao e este eixo permite seleccionar as respostas v´alidas. Assim aconteceria se reformul´assemos a pergunta para o ano 161 d.C., o ano em que

faleceu Ptolomeu4, o que levaria `a resposta Terra como centro do sistema solar.

Figura 3.3: Respostas ao longo do eixo do tempo

Eixo do Espa¸co

Este eixo est´a associado `a dimens˜ao espacial, sendo um pouco mais complexo que o anterior por ser uma abstrac¸c˜ao para uma localiza¸c˜ao, que pode ser representada de modo concreto, por coordenadas para latitude e longitude, ou de um modo simplificado com o nome da regi˜ao geogr´afica, cidade ou pa´ıs. Vejamos como seriam representadas as respostas da pergunta seguinte:

Quem ´e o presidente?

Considerando apenas algumas respostas actuais sobre a presidˆencia de pa´ıses, os resul- tados para Estados Unidos da Am´erica, Brasil, Portugal, Fran¸ca e It´alia est˜ao represen- tados na figura 3.4. Todas as respostas s˜ao v´alidas para o respectivo pa´ıs, devidamente assinalado neste eixo do espa¸co global de resultados. Se a pergunta n˜ao especifica um local em particular, a melhor resposta do sistema ser´a aquela que, nesta dimens˜ao, for mais compat´ıvel com o contexto espacial do pr´oprio sistema (´Evora, Portugal).

Eixo Semˆantico

Este ´e o eixo mais complexo do espa¸co de resultados. Na representa¸c˜ao das respostas candidatas, esta dimens˜ao constitui uma abstrac¸c˜ao para a distˆancia semˆantica entre os valores desses resultados. ´E estabelecida uma teia entre cada resposta e alguns conceitos relacionados, formando uma rede semˆantica. As liga¸c˜oes dessa rede v˜ao permitir apurar o n´ıvel de semelhan¸ca entre os resultados.

A an´alise das respostas para este eixo ´e executada em fun¸c˜ao do tipo de pergunta e do tipo de valor encontrado para cada resposta.

• datas

Importa esclarecer que uma resposta do tipo data pode ter associado um contexto temporal de valor diferente. Neste eixo, a an´alise incide sobre o valor da resposta 4

Claudius Ptolomeu (83-161 d.C.) foi um matem´atico e astr´onomo grego associado ao Geocentrismo.

Figura 3.4: Respostas distribu´ıdas pelo espa¸co

e n˜ao sobre o contexto temporal em que foi encontrada. Tomemos como exemplo a quest˜ao:

Quando nasceu Thomas Mann?

A figura 3.5 inclui algumas das respostas candidatas que o sistema detecta em diversas fontes. Essas respostas s˜ao representadas de acordo com o seu significado. O valor 1702 representa um ano que vem antes do ano 1875. A resposta 1875- 06-06 representa um dia enquadrado no mˆes Junho de 1875, que por sua vez se insere no ano 1875. A representa¸c˜ao usada reflecte rela¸c˜ao entre as respostas pelo significado que tˆem.

Figura 3.5: Dimens˜ao semˆantica: representa¸c˜ao de datas

• quantidades

As respostas candidatas com quantidades podem surgir com formatos distintos, no que respeita a separador decimal ou separador dos milhares. Um valor num´erico inteiro pode ser escrito por extenso, com algarismos ou de modo misto. Ao colocar cada resposta neste eixo, o sistema interpreta o significado do valor, no formato encontrado, e representa-o de um modo normalizado. Se existirem unidades asso- ciadas ao valor num´erico, esta interpreta¸c˜ao faz-se para cada unidade em separado,

a n˜ao ser que o sistema consiga efectuar uma convers˜ao entre as unidades. Para a pergunta:

Quanto pesa um beija-flor?

o sistema sabe que os s´ımbolos g e gr s˜ao usados para a unidade gramas. Assim, os valores num´ericos com estas unidades ficam representados num mesmo eixo, como mostra a figura 3.6.

Figura 3.6: Dimens˜ao semˆantica: representa¸c˜ao de quantidades

Os resultados seis gramas e 6g s˜ao equivalentes, ficando portanto no mesmo ponto deste eixo. O mesmo acontece com as respostas 1.6 gr e 1,6 g. As outras respostas assinaladas nesta dimens˜ao do espa¸co de resultados s˜ao intervalos. O intervalo mais amplo ´e entre 1,5 a 20 gramas e outro est´a contido no primeiro, entre 2 a 6 gramas. A variedade de respostas resulta das diferentes proveniˆencias destes valo- res.

• fact´oides

As respostas deste g´enero s˜ao usualmente formadas por uma ´unica palavra ou uma express˜ao curta correspondente ao nome de uma entidade. A disposi¸c˜ao destes fact´oides na dimens˜ao semˆantica do espa¸co de resultados faz-se atrav´es de uma malha de conceitos interligados. O objectivo ´e representar o significado das pala- vras por forma a evidenciar semelhan¸cas entre as respostas, no campo semˆantico. Estabelecendo um paralelo com o processo neurocognitivo de activa¸c˜ao de asso- cia¸c˜oes entre conceitos, sobre as mem´orias semˆantica e epis´odica [DMP07], cada fact´oide ´e associado a um conjunto de termos relacionados, que n˜ao tˆem de fazer parte da pergunta ou do documento onde ´e encontrada a resposta. Este processo ´e gen´erico, independente de qualquer dom´ınio em particular e teoricamente funci- onal para todo o l´exico de qualquer idioma. O procedimento adoptado ´e inspirado em trabalhos anteriores sobre representa¸c˜ao semˆantica e detec¸c˜ao de similaridade, de Kozima [KF93], e desambigua¸c˜ao de Veronis[VI90] e Tsatsaronis [TVA07], com base em redes associativas e dicion´arios.

A fase inicial consiste na representa¸c˜ao das respostas candidatas no espa¸co, ainda sem diferencia¸c˜ao de posicionamento entre elas, mas com indica¸c˜ao da pontua¸c˜ao

de cada uma, atribu´ıda durante o processo de extrac¸c˜ao de respostas. Considere- mos a seguinte quest˜ao:

Que animal ´e o Cocas?

A resposta esperada ´e um fact´oide. A figura 3.7 mostra algumas das respostas candidatas que o sistema detecta para esta quest˜ao. Os fact´oides mostrados s˜ao respostas plaus´ıveis encontradas em textos. Apesar da interpreta¸c˜ao mais comum da pergunta nos remeter para a famosa personagem da s´erie Os Marretas, ´e poss´ıvel que algum outro animal com o mesmo nome seja referido nos recursos consultados, o que conduz a outras respostas v´alidas, apesar de menos populares.

peluche porco a sapo verde

Figura 3.7: Dimens˜ao semˆantica: fact´oides (in´ıcio)

O passo seguinte ´e a obten¸c˜ao do primeiro n´ıvel de informa¸c˜ao semˆantica para as poss´ıveis respostas. A cada n´o resposta ´e adicionado um elo de liga¸c˜ao para novos n´os que cont´em poss´ıveis significados ou conceitos relacionados. Os elos de liga¸c˜ao tˆem um tipo e um peso associados. O tipo caracteriza a rela¸c˜ao semˆantica expressa pelo arco entre os conceitos dos n´os de origem e destino. O peso reflecte o grau de certeza do sistema sobre essa rela¸c˜ao. O peso de uma rela¸c˜ao ´e um valor real prel, tal que 0 < prel <= 1, que ir´a influenciar o processo de propaga¸c˜ao do n´ıvel de activa¸c˜ao, conforme ser´a explicado na sec¸c˜ao seguinte.

Para cada resposta desta categoria, tipicamente formada por uma palavra, importa coleccionar alguns conceitos que com ela estabelecem uma rela¸c˜ao semˆantica. A procura dessas rela¸c˜oes semˆanticas faz-se pela defini¸c˜ao da palavra (ou da res- pectiva forma base) num dicion´ario acess´ıvel via Web. Com base na metodologia seguida pelo sistema SESEMI5 [Van95], mas de modo simplificado, o sistema pro- cessa a an´alise sint´actica de uma defini¸c˜ao com um conjunto de regras que validam a existˆencia ou n˜ao de determinado padr˜ao. Essas regras s˜ao focadas em no- mes, verbos e adjectivos presentes na estrutura sint´actica que evidenciem rela¸c˜oes como hiper´onimo, mer´onimo, sin´onimo, ant´onimo e agente de determinado verbo, quando poss´ıvel.

O quadro seguinte tem uma lista com as defini¸c˜oes dos termos da figura 3.7.

5

SESEMI: System for Extracting SEMantic Information. Identifica rela¸c˜oes semˆanticas atrav´es de

consultas a dicion´arios online. As defini¸c˜oes nas entradas dos dicion´arios tˆem determinada estrutura

que facilita a detec¸c˜ao de padr˜oes que podem evidenciar rela¸c˜oes semˆanticas [Van95]. Em trabalho mais

recente e para o Portuguˆes, foi usada uma abordagem an´aloga para a constru¸c˜ao de uma ontologia com

peluches.m. - Boneco revestido com tecido felpudo.

porcos.m. - Quadr´upede da classe dos mam´ıferos e da fam´ılia dos su´ıdeos.

adj. - Imundo

r˜as.f. - Batr´aquio saltador e nadador, de pele lisa, verde-parda. sapos.m. - Esp´ecie de batr´aquio anuro.

verdes.m. - A cor verde.

As defini¸c˜oes com adjectivos indicam um significado poss´ıvel para o termo, como acontece com porco, e s˜ao captadas como sin´onimos. As entradas do dicion´ario que descrevem substantivos s˜ao mais extensas, pelo que se usa um analisador morfo- sint´actico. A figura 3.8 mostra a estrutura sint´actica obtida para a defini¸c˜ao de peluche. O padr˜ao existente leva `a associa¸c˜ao entre o conceito peluche e o elemento nuclear da estrutura, o substantivo boneco.

NPHR:np =H:n(’boneco’ <H> M S) boneco =N<:v-pcp(’revestir’ M S) revestido =N<:pp ==H:prp(’com’) com ==P<:np

===H:n(’tecido’ <cc-rag> <mat-cloth> M S) tecido

===N<:adj(’felpudo’ M S) felpudo

Figura 3.8: Dimens˜ao semˆantica: estrutura sint´actica da defini¸c˜ao

O uso do dicion´ario para captar significados para as respostas candidatas apresen- tadas permite aumentar o espa¸co de resultados com novos n´os e rela¸c˜oes, designa- damente hiper´onimo e sin´onimo, como se ilustra na figura 3.9.

boneco quadr´upede mam´ıfero imundo batr´aquio cor

peluche porco a sapo verde

hiper hiper hiper sin hiper hiper hiper

Figura 3.9: Dimens˜ao semˆantica: fact´oides (1o

n´ıvel de rela¸c˜oes)

Os fact´oides com nomes de entidades s˜ao mais dif´ıceis de caracterizar neste pri- meiro n´ıvel de expans˜ao, uma vez que n˜ao possuem uma defini¸c˜ao de dicion´ario. Nesses casos determina-se simplesmente a categoria da entidade referida, que pode ser uma pessoa, um monumento, uma empresa ou outra classe. Esta informa¸c˜ao est´a contida nos cat´alogos de entidades. A rela¸c˜ao semˆantica estabelecida entre a

entidade e a sua categoria ´e ’instˆancia de’.

Ap´os a consulta de dicion´arios e cat´alogos de entidades, a malha de conceitos ´e agora constitu´ıda pelos n´os com as respostas e mais um n´ıvel de n´os com os con- ceitos semanticamente relacionados. O terceiro passo ´e a expans˜ao da malha por importa¸c˜ao de termos relacionados com cada n´o em estruturas semˆanticas associ- ativas acess´ıveis pelo sistema. A express˜ao em cada n´o ´e procurada em ontologias e em redes semˆanticas e os respectivos conceitos relacionados s˜ao importados para o espa¸co de resultados. Os novos n´os ter˜ao um elo de liga¸c˜ao com peso 1, estabe- lecido de acordo com a estrutura de origem.

A rede semˆantica resultante deste processo est´a indicada na figura 3.10.

figura

animal

vertebrado asseado

aparˆencia caracter´ıstica

boneco quadr´upede mam´ıfero imundo batr´aquio cor

peluche porco a sapo verde

hiper hiper hiper sin

ant hiper hiper hiper hiper hiper hiper hiper hiper

hiperhiper hiper

hiper

Figura 3.10: Dimens˜ao semˆantica: fact´oides (rede de conceitos) • frases

As respostas mais compridas est˜ao associadas a perguntas do tipo Defini¸c˜ao. ´E o caso da pergunta:

O que ´e um berimbau?

As respostas candidatas com maior pontua¸c˜ao que o sistema encontrada nos do- cumentos s˜ao as seguintes:

uma harpa de corda ´unica

um instrumento de percuss˜ao usado tradicionalmente na capoeira um instrumento musical afro-brasileiro

um elemento fundamental na capoeira uma arma maligna e mortal

feito de um bast˜ao de madeira

A transposi¸c˜ao destas express˜oes para a dimens˜ao semˆantica do espa¸co de resul- tados consiste na identifica¸c˜ao dos termos relevantes da frase e na percep¸c˜ao dos seus poss´ıveis significados. A an´alise morfo-sint´actica do texto de cada resposta

gera uma estrutura atrav´es da qual se detectam os termos de n´ucleo. A figura 3.11 mostra a estrutura sint´actica para a primeira resposta do exemplo. As etiquetas do analisador com a cor azul denotam n´ucleo (H ), substantivo (n) e adjectivo (adj ). Os conceitos n´ucleo da express˜ao surgem destacados a vermelho. O ad- jectivo ´unico ´e tamb´em captado como caracter´ıstica do nome corda, que por sua vez ´e um n´ucleo secund´ario, parte constituinte do conceito definido. Os termos

NPHR:np

=>N:art(’um’ <arti> F S) uma

=H:n(’harpa’ <tool-mus> F S) harpa

=N<:pp

==H:prp(’de’) de

==P<:np

===H:n(’corda’ F S) corda

===N<:adj(’unico´ ’ F S) ´unica

Figura 3.11: Dimens˜ao semˆantica: estrutura sint´actica e elementos de n´ucleo n´ucleo s˜ao representados em n´os, numa rede semˆantica, sendo considerados n´os de referˆencia da resposta. Cada n´o de referˆencia ´e relacionado com outros n´os do espa¸co atrav´es de rela¸c˜oes semˆanticas, aplicando-se-lhes o procedimento j´a des- crito para a representa¸c˜ao dos fact´oides. Uma resposta ´e simbolizada por um n´o associado aos seus n´os de referˆencia atrav´es de rela¸c˜oes que dependem da estru- tura sint´actica da express˜ao, como ilustrado na figura 3.12. O n´o ’corda ´unica’ ´e um n´o derivado do n´o de referˆencia corda, simbolizando um conceito daquele tipo que ´e caracterizado ainda por outros elementos semˆanticos (neste caso apenas uma rela¸c˜ao com o adjectivo ´unico). Havendo um n´o derivado, ´e com ele que o n´o da resposta se associa, em vez de corda, estabelecendo com ele uma rela¸c˜ao que depende da estrutura sint´actica. No caso, a etiqueta mer simboliza a rela¸c˜ao mer´onimo, significando que ’corda ´unica’ ´e parte do conceito naquela resposta.

Com todos os resultados neste espa¸co multidimensional, temos os respectivos significa- dos no eixo semˆantico, e o espa¸co e tempo a que se referem nos restantes eixos. Podemos agora reavaliar o conjunto e eventualmente tender para uma das respostas. ´E disso que trata pr´oxima a sec¸c˜ao.