• Nenhum resultado encontrado

RECUPERAC¸ ˜AO DE V´IDEOS INDEXADOS POR CONCEITOS Christian Danniel Paz Trillo

N/A
N/A
Protected

Academic year: 2022

Share "RECUPERAC¸ ˜AO DE V´IDEOS INDEXADOS POR CONCEITOS Christian Danniel Paz Trillo"

Copied!
29
0
0

Texto

(1)

RECUPERAC ¸ ˜ AO DE V´ IDEOS INDEXADOS POR CONCEITOS

Christian Danniel Paz Trillo

DISSERTAC¸ ˜AO APRESENTADA AO

INSTITUTO DE MATEM ´ATICA E ESTAT´ISTICA DA UNIVERSIDADE DE S ˜AO PAULO

PARA OBTENC¸ ˜AO DO T´ITULO DE MESTRE EM CIˆENCIA DA COMPUTAC¸ ˜AO

Area de Concentra¸c˜ ´ ao: Inteligˆ encia Artificial Orientadora: Profa. Dra. Renata Wassermann

Durante a elabora¸c˜ao deste trabalho o autor recebeu apoio financeiro da CAPES

S˜ao Paulo, agosto de 2004

(2)

Dedicat´ oria

2

(3)

Agradecimentos

3

(4)

Resumo

Aqu´ı deber´a estar alg´un d´ıa el resumen

4

(5)

Abstract

Some day the abstract will be here

5

(6)

´ Indice

1 Introdu¸c˜ao 1

2 Recupera¸c˜ao de Informa¸c˜ao 2

2.1 Defini¸c˜oes . . . 2

2.1.1 Problemas na Recupera¸c˜ao de Informa¸c˜ao . . . 3

2.2 Processo de Indexa¸c˜ao . . . 4

2.2.1 Stemming (Remo¸c˜ao de afixos) . . . 6

2.2.2 POS (Part-Of-Speech) Tagging (Etiquetagem Morfo-sint´atica) . . . . 7

2.2.3 Expans˜ao de termos do ´ındice . . . 7

2.2.4 C´alculo de pesos . . . 8

2.3 Processo de Recupera¸c˜ao . . . 8

2.3.1 Busca booleana . . . 8

2.3.2 Recupera¸c˜ao Ordenada . . . 10

2.3.3 Recupera¸c˜ao Probabil´ıstica . . . 14

2.4 Avalia¸c˜ao de Sistemas de RI . . . 14 6

(7)

´Indice 7

3 Uso de Ontolog´ıas em Recupera¸c˜ao de Informa¸c˜ao 17

3.1 Defini¸c˜oes . . . 17

3.2 Utiliza¸c˜ao em Recupera¸c˜ao de Informa¸c˜ao . . . 17

3.2.1 Extra¸c˜ao e Elabora¸c˜ao das Ontologias . . . 17

3.2.2 Conte´udo das Ontologias . . . 17

3.2.3 Medidas de Similaridade . . . 17

3.3 Ontologia do Dom´ınio . . . 17

4 Recupera¸c˜ao de V´ıdeos : Uma aplica¸c˜ao 18

5 Resultados 19

6 Conclus˜oes e Trabalhos Futuros 20

(8)

Cap´ıtulo 1

Introdu¸ c˜ ao

Aqu´ı debe ir la introducci´on

1

(9)

Cap´ıtulo 2

Recupera¸ c˜ ao de Informa¸ c˜ ao

2.1 Defini¸ c˜ oes

Recupera¸c˜ao de Informa¸c˜ao (RI) pode ser definida como a aplica¸c˜ao de tecnologia computa- cional `a aquisi¸c˜ao, organiza¸c˜ao, armazenamento, recupera¸c˜ao e distribui¸c˜ao de informa¸c˜ao [JM02].

O prop´osito da RI ´e satisfazer uma necessidade de informa¸c˜ao do usu´ario a qual ´e expressada numa consulta que procura encontrar documentos relevantes. Essa consulta pode n˜ao expressar da melhor forma a necessidade de informa¸c˜ao, e pode conter palavras com erros ortogr´aficos ou usadas de forma inadequada. O Sistema de RI deve tentar recu- perar os documentos relevantes para a necessidade de informa¸c˜ao baseado na informa¸c˜ao proporcionada na consulta, pois o usu´ario avaliar´a a relevˆancia para a necessidade dele.

Uma grande dificuldade na RI ´e saber quando um documento ´e relevante ou n˜ao para a necessidade do usu´ario, de fato esse conceito ´e b´asico na RI pois o objetivo primordial dela ´e recuperar todos os documentos que s˜ao relevantes e a menor quantidade poss´ıvel de documentos n˜ao relevantes [BYRN99].

2

(10)

2.1 Defini¸c˜oes 3

2.1.1 Problemas na Recupera¸ c˜ ao de Informa¸ c˜ ao

Os sistemas de recupera¸c˜ao de informa¸c˜ao baseados em busca por palavra chave s˜ao limi- tados na sua capacidade de distinguir textos relevantes e irrelevantes, isto devido a uma s´erie de caracter´ısticas, dentre as quais se destacam [Mau91]:

• Sinon´ımia, quando existem diversos termos para descrever um mesmo objeto ou conceito, um sistema de recupera¸c˜ao de informa¸c˜ao baseado em semelhan¸ca de pa- lavras chave s´o recuperar´a aqueles documentos em que o objeto ou conceito esteja descrito com os mesmos termos com que a consulta foi elaborada. Por exemplo, se algu´em estiver procurando algum lugar para se hospedar no Rio de Janeiro, poderia colocar em uma consulta “pousada no Rio de Janeiro”, e s´o os documentos em que a palavra “pousada” estiver presente ser˜ao recuperados, mas naqueles documentos em que a informa¸c˜ao de hospedagem esteja referenciada como “hotel” ou “pens˜ao” por exemplo, n˜ao ser˜ao recuperados.

• Polissemia, uma palavra ´e polissˆemica quando ela tem v´arios significados, expres- sando diversos conceitos. Neste caso a recupera¸c˜ao de informa¸c˜ao por uma palavra polissˆemica pode trazer documentos relacionados n˜ao s´o ao conceito procurado como tamb´em aos outros conceitos que s˜ao expressados pela mesma palavra. Neste caso por exemplo, a busca da palavra “´arvore” no sentido da estrutura de dados pode fa- zer o sistema recuperar documentos relacionados a “´arvore” no sentido do organismo biol´ogico.

Estes problemas fazem com que os sistemas de recupera¸c˜ao de informa¸c˜ao baseados em palavras-chave tenham um limite no seu desempenho conhecido como a barreira da palavra- chave1 [Mau91]. Um dos objetivos da pesquisa ´e organizar a informa¸c˜ao sobre a qual a recupera¸c˜ao de informa¸c˜ao vai ser feita para lidar com o problema da sinon´ımia. Polissemia

´

e um problema que n˜ao ser´a tratado pois as aplica¸c˜oes que se pretendem abarcar s˜ao de

1Do inglˆeskeyword barrier

(11)

2.2 Processo de Indexa¸c˜ao 4

dom´ınio restrito, o qual diminui o impacto da polossemia no sistema.

Um Sistema de RI apresenta dois processos principais bem definidos e diferenciados:

o Processo de Indexa¸c˜ao, em que a cole¸c˜ao de documentos ´e indexada para permitir uma recupera¸c˜ao posterior eficiente; e o Processo de Recupera¸c˜ao em que dada uma consulta os documentos mais fortemente relacionados a ela s˜ao recuperados.

2.2 Processo de Indexa¸ c˜ ao

Um sistema b´asico de recupera¸c˜ao de informa¸c˜ao, geralmente, consta de trˆes componentes principais: a cole¸c˜ao de documentos; o dicion´ario, que ´e uma lista em ordem alfab´etica das palavras que aparecem no banco de dados; e um arquivo de ´ındice invertido, que armazena as ocorrˆencias de cada palavra do dicion´ario. Esta estrutura permite acesso eficiente a grandes banco de dados pois cada palavra no dicion´ario ´e um ponto de entrada para o in´ıcio de uma busca.

A entrada do processo de indexa¸c˜ao ´e a cole¸c˜ao de documentos enquanto as suas sa´ıdas s˜ao o dicion´ario e o arquivo invertido. O dicion´ario ´e uma lista das palavras presentes na cole¸c˜ao de documentos em que cada palavra aponta a entrada da mesma no arquivo invertido. No arquivo invertido s˜ao armazenadas informa¸c˜oes sobre as ocorrˆencias das palavras nos documentos, a estrutura de uma entrada em um arquivo invertido ´e [JM02]:

• Token: o token que representa a palavra, ou a raiz da palavra indexada. O processo de obten¸c˜ao da raiz das palavras ser´a explicado posteriormente nesta Se¸c˜ao.

• Contagem de documentos: o n´umero de documentos em que o token aparece.

• Contagem de freq¨uˆencia total: o n´umero de vezes que o token aparece no total de documentos. Indica que t˜ao comum ´e o token na cole¸c˜ao de documentos.

• Informa¸c˜ao por documento: uma lista de informa¸c˜oes associadas `as ocorrˆencias

(12)

2.2 Processo de Indexa¸c˜ao 5

do token em cada documento. Cada documento em que o token aparece tem uma entrada nessa lista, contendo as seguintes informa¸c˜oes:

– Contagem de freq¨uˆencia: quantas vezes aparece o token no documento. De um modo, este valor indica a grosso modo se o documento ´e realmente acerca desse conceito ou se ele ´e s´o nomeado.

– Posi¸c˜ao: contem uma lista das posi¸c˜oes relativas nas que o token aparece no documento.

Uma fra¸c˜ao de exemplo de uma estrutura de arquivo invertido pode ser vista na Figura 2.1.

Figura 2.1: Estrutura de um arquivo invertido.

As Stopwords n˜ao s˜ao consideradas na cria¸c˜ao do arquivo invertido. Stopwords s˜ao termos que aparecem t˜ao freq¨uentemente nos textos da cole¸c˜ao que perdem sua utilidade como termos para a busca. Os artigos e preposi¸c˜oes s˜ao comumente consideradasstopwords, por exemplo um, de e cada s˜ao algumas das usadas no sistema. Uma lista completa das stopwords usadas ´e mostrada no Apˆendice??.

Alguns sistemas de recupera¸c˜ao de informa¸c˜ao armazenam informa¸c˜ao adicional `a cole¸c˜ao em um tesauro ou em uma ontologia. O uso dessas estruturas ser´a detalhado no Cap´ıtulo 3.

(13)

2.2 Processo de Indexa¸c˜ao 6

Durante o processo de indexa¸c˜ao, algumas opera¸c˜oes adicionais podem ser executadas sobre o texto da cole¸c˜ao. Algumas das opera¸c˜oes poss´ıveis s˜ao explicadas a continua¸c˜ao.

2.2.1 Stemming (Remo¸ c˜ ao de afixos)

E um processo utilizado para a extra¸´ c˜ao das radicais das palavras. Com isso, as variantes de palavras s˜ao associadas ao mesmo radical, e a quantidade de armazenamento requerida decresce, pois o n´umero de palavras indexadas diminui. Por exemplo as palavras “cum- prido”, “cumpriu” e “cumprir´a” s˜ao associadas ao mesmo radical “cumpr” que, como no exemplo, n˜ao necessariamente ´e uma palavra v´alida, mas permite associar todas as palavras derivadas do mesmo radical. Com essa associa¸c˜ao ´e poss´ıvel fazer com que consultas por palavras derivadas do mesmo radical recuperem os mesmos resultados, o que normalmente ´e v´alido pois documentos relacionados com palavras derivadas s˜ao relevantes para as mesmas consultas.

Um algoritmo destemming simples aplica heur´ısticas para detectar os pontos dos quais os afixos podem ser extra´ıdos. Essas heur´ısticas obedecem a regras simples,como a de- tec¸c˜ao de marcas nas palavras, que normalmente s˜ao associadas com afixos, por exemplo a termina¸c˜ao “mente”, utilizada na forma¸c˜ao de adv´erbios no portuguˆes, ou a termina¸c˜ao

“inho” comumente uilizada para a forma¸c˜ao de diminutivos dos substantivos. Essas regras s˜ao especificadas para o algoritmo de stemming junto com as exce¸c˜oes delas, por exemplo a palavra “caminho” termina com as letras “inho” mas, nesse casso, “inho” n˜ao representa um sufixo, mas ´e parte da palavra.

A maioria desses algoritmos heur´ısticos removem s´o sufixos, pois sufixos mudam a categoria sint´atica da palavra, mas conservam o sentido da palavra em que s˜ao colocados.

Um exemplo de algoritmo baseado em regras heur´ısticas, muito utilizado, ´e o algoritmo de Porter [Por80] que remove as termina¸c˜oes morfol´ogicas mais comuns das palavras, e foi inicialmente criado para palavras em inglˆes. Posteriormente, Porter desenvolveuSnowball,

(14)

2.2 Processo de Indexa¸c˜ao 7

uma linguagem para uso de cadeias que pode ser utilizado para criar algoritmos destemming gerando programas em Java, ou ANSI C. O algoritmo de stemming para portuguˆes em Snowballest´a dispon´ıvel2, junto com `as vers˜oes j´a compiladas emJava e ANSI C.

Em 2001, foi desenvolvido um algoritmo de stemming para portuguˆes [OH01] composto por uma s´erie de regras (Ver Apˆendice??), aplicadas seq¨uencialmente. Cada regra especifica o sufixo que ser´a removido, o menor tamanho do radical que pode ficar ap´os a remo¸c˜ao do sufixo, o sufixo substituto do removido, e as exce¸c˜oes `a regra, sendo esses dois ´ultimos opcionais. Existe uma implementa¸c˜ao dispon´ıvel do algoritmo em ANSI C e uma vers˜ao dele foi desenvolvida em Java para ser utilizada na aplica¸c˜ao, testes foram feitos com o algoritmo de Porter e a vers˜ao modificada.

2.2.2 POS (Part-Of-Speech) Tagging (Etiquetagem Morfo- sint´ atica)

A etiquetagem morfo-sint´atica consiste em associar a cada palavra que aparece no texto uma categoria morfo-sint´atica.

***** Falta conhecer, detalhar e implementar esse processo *****

2.2.3 Expans˜ ao de termos do ´ındice

Durante a cria¸c˜ao do arquivo invertido, os termos n˜ao presentes no texto mas que estejam relacionados aos presentes podem ser indexados tamb´em. A rela¸c˜ao ou similaridade entre os termos est´a definida no tesauro ou na ontologia associada `a cole¸c˜ao e ser´a detalhada no Cap´ıtulo 3.

2http://snowball.tartarus.org/

(15)

2.3 Processo de Recupera¸c˜ao 8

2.2.4 C´ alculo de pesos

Para o c´alculo da relevˆancia de um documento s˜ao usados alguns valores que associam cada termo do arquivo invertido com os documentos nos quais ele aparece. Esses valores podem ser calculados na hora da consulta ou podem ser armazenados no arquivo invertido para evitar sobrecarregar o processo de consulta. Dependendo do tipo de processo de consulta usado, diferentes valores devem ser calculados, portanto esses valores ser˜ao explicados na seguinte Subse¸c˜ao.

2.3 Processo de Recupera¸ c˜ ao

Este processo come¸ca quando a consulta de usu´ario ´e apresentada ao sistema. Os passos b´asicos presentes neste processo s˜ao o processamento da consulta, o c´alculo da relevˆancia dos documentos e a ordena¸c˜ao dos resultados de acordo com a relevˆancia para ser apresentados ao usu´ario.

Existem na literatura basicamente trˆes enfoques para a busca em RI [JM02], a busca booleana, a recupera¸c˜ao ordenada e a recupera¸c˜ao probabil´ıstica e eles ser˜ao apresentados a continua¸c˜ao.

2.3.1 Busca booleana

Neste tipo de busca o usu´ario busca no banco de dados usando consultas que conectam palavras mediante operadores l´ogicos (AND, OR, e NOT) e ´e o tipo de busca freq¨uentemente usado nos motores de busca. Um motor de busca retorna o conjunto de documentos na cole¸c˜ao que satisfaz a consulta do usu´ario. Por exemplo, a consulta “obra AND arte” dever´a retornar todos os documentos contendo os termos “obra” e “arte”, i.e.: docsobra∩docsarteem que docspalavra ´e o conjunto dos documentos em que a palavra aparece. Do mesmo modo

(16)

2.3 Processo de Recupera¸c˜ao 9

a consulta “mostra OR bienal” recupera os documentos em que aparecem ou a palavra

“mostra” ou a palavra “bienal”: docsmostra∪docsbienal.

Um operador freq¨uentemente permitido neste tipo de consultas ´e o operador de pro- ximidade de termos. A consulta “obra /2 arte” deve recuperar os documentos em que as palavras “obra” e “arte” aparecem no m´aximo com uma distˆancia de duas palavras uma da outra, no caso n˜ao recuperaria documentos em que essas palavras aparecem dentro da frase “ele obra em contra da arte” por exemplo.

Esse tipo de busca pode ser melhorada atrav´es do uso de um tesauro ou de uma onto- logia, incrementando sinˆonimos `a consulta para usar maior quantidade de termos em um processo chamado de expans˜ao de consulta (Ver Se¸c˜ao ??), por exemplo: dada a consulta

“obra AND arte” ela pode ser expandida a “(obra OR trabalho) AND arte”, assim, docu- mentos usando qualquer um desses sinˆonimos (nesse contexto). As buscas booleanas podem tomar vantagem do processo de stemming detalhado na Se¸c˜ao 2.2.1, removendo os afixos tanto na hora da cria¸c˜ao do arquivo invertido quanto no processamento da consulta, desse modo a consulta por “obra AND arte” poderia recuperar documentos que utilizem a frase

“as obras de arte foram apresentadas em ...” por exemplo, desde que “obra” e “obras” s˜ao detectadas pelo algoritmo de stemming como derivadas da mesma raiz.

A pesar dessas melhoras, as buscas booleanas apresentam alguns problemas: eles de- volvem conjuntos de resultados muito grandes, a l´ogica para efetuar consultas ´e complexa, devolvem um conjunto desordenado de resultados, e al´em disso oferecem uma recupera¸c˜ao booleana, i.e. o documento ´e ou n˜ao ´e relevante, n˜ao existe a no¸c˜ao de grau de relevˆancia.

Este tipo de buscas resulta adequado para usu´arios profissionais, mas ´e dif´ıcil para usu´arios espor´adicos ou inexperientes.

(17)

2.3 Processo de Recupera¸c˜ao 10

2.3.2 Recupera¸ c˜ ao Ordenada

A maioria de buscadores na Web baseiam-se em uma t´ecnica que ordena os resultados da busca com base na distribui¸c˜ao de freq¨uˆencia dos termos da consulta na cole¸c˜ao de documentos. Por exemplo, um documento que cont´em v´arias ocorrˆencias de uma palavra que n˜ao ´e comum na cole¸c˜ao de documentos, provavelmente seja relevante para uma consulta que contenha tal palavra. Assim mesmo, palavras comuns s˜ao consideradas com menor importˆancia na ordena¸c˜ao dos resultados.

Esse tipo de busca ´e usualmente empregado em interfaces de busca em que se permite aos usu´arios entrar com consultas em uma linguagem irrestrita, isto ´e, sem operadores ou uma sintaxe formal. Para permitir isso, os motores removem as stopwords e realizam algumas opera¸c˜oes sobre as outras palavras, sendo a mais comum dentre elas o stemming.

Neste enfoque os documentos e as consultas s˜ao tratados como vetores no espa¸co multi- dimensional definido pelos termos existentes na cole¸c˜ao, e em que a freq¨uˆencia de apari¸c˜ao dos termos ´e o valor escalar associado ao vetor na dimens˜ao do termo. Assim, o c´alculo da similaridade entre a consulta e cada documento d´a um valor de relevˆancia do documento para com a consulta. Finalmente, os documentos s˜ao ordenados de acordo com a medida de similaridade deles com a consulta.

O Modelo de espa¸co de vetores

Dada uma cole¸c˜ao dendocumentos,d1, d2, . . . , dn, nos quais aparecemmdiferentes termos, t1, t2, . . . , tm. Os termos definem um espa¸co m-dimensional, em que um documento d ´e representado como um vetor:

d= (w1,d, w2,d, . . . , wm,d) (2.1) sendowi,do peso doi-´esimo termo no documentod. O peso de um termo em um documento representa a importˆancia que ele tem no documento, e ´e um estimado de quanto o docu- mento ´e relevante para esse termo. Do mesmo modo, uma consultaq pode ser representada

(18)

2.3 Processo de Recupera¸c˜ao 11

como um vetor:

q= (w1,q, w2,q, . . . , wm,q) (2.2) em que wi,q ´e o peso do i-´esimo termo na consulta q. O grau de similaridade entre dois documentos, ou entre um documento e uma consulta no espa¸co vetorial, em sua forma mais simples, pode ser o produto escalar dos vetores que os representam[SWY75]:

sim(d, q) =

m

X

t=1

wt,d·wt,q (2.3)

Para efeitos de exemplo, consideremos wt,d como o n´umero de vezes que o termo t aparece no documentod. Suponha uma cole¸c˜ao com trˆes documentos, nos quais aparecem os termos: “obra”, “de”, “arte”, “tratado”, “m´usica”, “moderna”, “contemporˆanea” e

“Gross” que representar˜ao as dimens˜oes de 1 a 8 do espa¸co dimensional que elas definem.

Os documentos s˜ao:

d1: “obras de arte”

d2: “tratado de m´usica moderna e de m´usica contemporˆanea”

d3: “obra moderna de Gross”

Considerando um processo destemming em que o radical “obra” ´e extra´ıdo da palavra

“obras” em d1, os documentos podem ser vistos como vetores no espa¸co vetorial definido pelos termos como:

d1= (1,1,1,0,0,0,0,0) d2= (0,2,0,1,2,1,1,0) d3= (1,1,0,0,0,1,0,1)

Pode-se ver que asstopwords, como “de” trazem pouca informa¸c˜ao que permita discer- nir a relevˆancia ou n˜ao relevˆancia de algum documento, pois provavelmente aparecer´a na maioria dos documentos. Seja uma consulta:

q = “quais s˜ao as obras de Carmela Gross”

(19)

2.3 Processo de Recupera¸c˜ao 12

a consulta, depois do processo de stemming, tamb´em pode ser representada no espa¸co vetorial pelo vetor:

q= (1,1,0,0,0,0,0,1)

O processo de recupera¸c˜ao ordenada, deve calcular a similaridade de cada documento com a consulta, segundo a f´ormula apresentada anteriormente:

sim(d1, q) = 1·1 + 1·1 + 1·0 + 0·0 + 0·0 + 0·0 + 0·0 + 0·1 = 2 sim(d2, q) = 0·1 + 2·1 + 0·0 + 1·0 + 2·0 + 1·0 + 1·0 + 0·1 = 2 sim(d3, q) = 1·1 + 1·1 + 0·0 + 0·0 + 0·0 + 1·0 + 0·0 + 1·1 = 3

Dando como resultado que o documento d3 ´e o mais similar com a consulta, o qual ´e, segundo a nossa l´ogica, certo. Al´em disso, segundo o c´alculo de similaridade, d1 e d2 s˜ao igualmente similares `a consulta, mas podemos observar que d2 obteve o seu grau de simi- laridade pela presen¸ca da palavra “de”, o t´opico principal do documento ´e aparentemente

“m´usica”, mesmo assim a presen¸ca de uma stopword pode causar esse tipo de erros na recupera¸c˜ao.

Existem termos que dentro do contexto da cole¸c˜ao, s˜ao muito comuns e que, assim como asstopwords resultam n˜ao sendo bons discriminadores de relevˆancia de documentos, esses termos podem ser detectados conhecendo a freq¨uˆencia total deles na cole¸c˜ao, esse dado pode ser usado para diminuir o peso do termo no documento, assim, a f´ormula para o c´alculo do peso de um termo no documento ´e [JM02]:

wt,d=tft,d·idft,d (2.4)

em que tfi,d (term frequency) ´e o n´umero de apari¸c˜oes do termo t no documento d e idft,d = log(nn

t + 1) (inverse document frequency) mede a raridade relativa do termo na cole¸c˜ao, isto ´e, permite saber que t˜ao bom discriminador de relevˆancia esse termo ´e. nt´e o n´umero de documentos em que o termo taparece.

Uma medida de similaridade derivada da apresentada na Equa¸c˜ao 2.3 ´e a similaridade

(20)

2.3 Processo de Recupera¸c˜ao 13

do coseno, que consiste no c´alculo do coseno do ˆangulo formado pelos vetores dos quais se deseja achar a similaridade [Har92].

sim(d, q) =

Pm

t=1wt,d·wt,q qPm

t=1w2t,d·Pm t=1wt,q2

(2.5)

Podemos perceber que quando esses vetores coincidem, i.e. s˜ao iguais, formam ˆangulo de 0 graus e portanto o coseno deles ´e m´aximo, 1. Este modelo tem sido usado em v´arios experimentos de recupera¸c˜ao de informa¸c˜ao, entre os quais se destaca o SMART3 que ´e um dos maiores esfor¸cos na pesquisa na ´area de recupera¸c˜ao de informa¸c˜ao.

O Modelo estendido de espa¸co de vetores

O modelo estendido de espa¸co de vetores[Voo98] permite considerar o vetor como uma cole¸c˜ao de sub-vetores. Esses sub-vetores s˜ao usados para representar diferentes aspectos dos documentos da cole¸c˜ao. Por exemplo um dos sub-vetores pode representar os pesos do documento considerando o texto completo, enquanto outro sub-vetor pode representar o documento como uma cole¸c˜ao de palavras chave manualmente associadas.

A similaridade total neste modelo estendido ´e calculada como a soma ponderada das similaridades nos sub-vetores.

sim(d, q) = X

sub−vetori

αi·simi(di, qi) (2.6)

em quedi eqis˜ao osi-´esimos sub-vetores do documento e da consulta respectivamente, e αi ´e a importˆancia do sub-vetor ina similaridade total. A similaridade usada em cada sub-vetor pode ser a similaridade coseno apresentada anteriormente. P

sub−vetoriαi deve ser 1.

3ftp://ftp.cs.cornell.edu/pub/smart/

(21)

2.4 Avalia¸c˜ao de Sistemas de RI 14

2.3.3 Recupera¸ c˜ ao Probabil´ıstica

Ver si realmente debo poner esto

2.4 Avalia¸ c˜ ao de Sistemas de RI

A avalia¸c˜ao dos Sistemas de RI ´e fundamental para o estabelecimento de um ponto de compara¸c˜ao entre os sistemas sendo desenvolvidos. A id´eia ´e medir a efic´acia dos sistemas, sendo esta a capacidade do sistema de satisfazer o usu´ario em termos da relevˆancia dos documentos recuperados.

Existem duas medidas padr˜ao para a medi¸c˜ao da efic´acia, e ambas est˜ao baseadas em rela¸c˜oes entre os conjuntos de documentos relevantes e n˜ao relevantes, assim como os conjuntos de documentos recuperados e n˜ao recuperados (Ver Figura 2.2).

Relevantes N˜ao Relevantes

Recuperados A∩B A¯∩B B

N˜ao Recuperados A∩B¯ A¯∩B¯ B¯

A A¯ N

Figura 2.2: Distribui¸c˜ao de documentos relevantes/n˜ao relevantes e recuperados/n˜ao recuperados. *** Consultar como referenciar o fato de usar uma figura de uma fonte X

Com base nessa distribui¸c˜ao, podemos definir[vR79]:

• Precis˜ao: E a raz˜´ ao entre o n´umero de documentos recuperados pelo sistema que s˜ao relevantes para a consulta e o n´umero total de documentos recuperados.

(22)

2.4 Avalia¸c˜ao de Sistemas de RI 15

P = N´umero de documentos relevantes recuperados

N´umero total de documentos recuperados = |A∩B |

|B| (2.7) Por exemplo, se os sistema recuperou 6 documentos para uma consulta, em que 3 de eles foram relevantes, a medida de precis˜ao do sistema ´e de 0,5 ou 50%. A polissemia pode produzir baixas taxas de precis˜ao no caso de alguns documentos irrelevantes serem recuperados.

• Cobertura(Recall): Podem existir muitos documentos na cole¸c˜ao que o usu´ario considera relevante, mas s´o alguns deles ser˜ao recuperados pelo sistema. A medida de cobertura ´e a raz˜ao do n´umero de documentos relevantes dividido pelo n´umero total de documentos relevantes na cole¸c˜ao.

R= N´umero de documentos relevantes recuperados

N´umero total de documentos relevantes na cole¸c˜ao = |A∩B|

|A| (2.8) A cobertura ´e dif´ıcil de medir pois requer o conhecimento do n´umero total de docu- mentos relevantes no banco de dados, que tem que ser determinado manualmente.

Para fazer essa medida, normalmente se estabelece um limite superior baseado na sele¸c˜ao de documentos que deveriam ter sido recuperados mas n˜ao foram. Quanto maior for o esfor¸co manual para achar esses documentos, mais precisa ´e a medida de cobertura. A sinon´ımia pode induzir uma baixa cobertura, pois ´e poss´ıvel que n˜ao se- jam recuperados alguns documentos relevantes que est˜ao relacionados s´o a sinˆonimos das palavras utilizadas na consulta.

As medidas de precis˜ao e cobertura s˜ao independentes e a melhora de uma delas pode implicar uma perda na outra. Um sistema pode ter precis˜ao de 100% se ele devolve s´o um documento da cole¸c˜ao que com certeza ´e relevante. Uma cobertura de 100% ´e obtida por um sistema que devolve a qualquer consulta todos os documentos da cole¸c˜ao. Portanto se utiliza uma medida que combina as duas, chamada de Medida-F (originalmente chamada de medida de efic´acia)[vR79].

F = 1

α

P + 1−αR (2.9)

(23)

2.4 Avalia¸c˜ao de Sistemas de RI 16

Em que 0 < α < 1 indica a importˆancia relativa da precis˜ao para o usu´ario. O caso especial em queα= 0,5, que d´a a mesma importˆancia para a precis˜ao e a cobertura, resulta sendo a m´edia harmˆonica delas.

F = 2·R·P

R+P (2.10)

A vantagem do uso da Medida-F ´e que uma melhora nela indica uma melhora tanto da precis˜ao quanto da cobertura.

Usualmente na avalia¸c˜ao dos sistemas de RI s˜ao avaliadas as medidas de cobertura em 11 valores diferentes de precis˜ao, entre 0.0 e 1.0 em intervalos de 0.1, essa avalia¸c˜ao ´e conhecida como M´edia de Precis˜ao de 11 pontos (11-point average precision).

(24)

Cap´ıtulo 3

Uso de Ontolog´ıas em Recupera¸ c˜ ao de Informa¸ c˜ ao

3.1 Defini¸ c˜ oes

3.2 Utiliza¸ c˜ ao em Recupera¸ c˜ ao de Informa¸ c˜ ao

3.2.1 Extra¸ c˜ ao e Elabora¸ c˜ ao das Ontologias

3.2.2 Conte´ udo das Ontologias

3.2.3 Medidas de Similaridade

3.3 Ontologia do Dom´ınio

17

(25)

Cap´ıtulo 4

Recupera¸ c˜ ao de V´ıdeos : Uma aplica¸ c˜ ao

18

(26)

Cap´ıtulo 5

Resultados

19

(27)

Cap´ıtulo 6

Conclus˜ oes e Trabalhos Futuros

20

(28)

Referˆ encias Bibliogr´ aficas

[BYRN99] R. Baeza-Yates and B. Ribeiro-Neto. Modern Information Retrieval. Addison Wesley Longman, 1999.

[Har92] D. Harman. Information Retrieval, chapter Ranking Algorithms, pages 363–

392. Prentice Hall, 1992.

[JM02] P. Jackson and I. Moulinier. Natural Language Processing for Online Applicati- ons: Text Retrieval, Extraction, and Categorization. John Benjamins Publishing Co, 2002.

[Mau91] M. Mauldin. Conceptual Information Retrieval A case study in adaptive partial parsing. Kluwer Academic Publishers, 1991.

[OH01] V. Orengo and C. Huyck. A stemming algorithm for the Portuguese language.

In Proceedings of the 8th International Symposium on String Processing and Information Retrieval(SPIRE) 2001, pages 186–193, 2001. O algoritmo est´a dispon´ıvel em http://www.cs.mdx.ac.uk/research/PhDArea/rslp/RSLP.htm.

[Por80] M. F. Porter. An algorithm for suffix stripping. In ACM SI- GIR Conference on R&D in Information Retrieval, pages 318–327, 1980. Diversas implementa¸c˜oes do algoritmo est˜ao dispon´ıveis em:

http://www.tartarus.org/˜martin/PorterStemmer/.

21

(29)

Referˆencias Bibliogr´aficas 22

[SWY75] G. Salton, A. Wong, and C. S. Yang. A vector space model for automatic indexing. Commun. ACM, 18(11):613–620, 1975.

[Voo98] E. Voorhees. WordNet, an Electronic Lexical Database, chapter Using WordNet for text retrieval, pages 285–303. The MIT Press, 1998.

[vR79] C. J. van Rijsbergen. Information Retrieval. Butterworths, 2nd edition, 1979.

Referências

Documentos relacionados

Dessa forma, dentro dessas configurações, o projeto hegemônico não prevê a formação de um montante significativo de força de trabalho que irá se voltar ao trabalho

3 O presente artigo tem como objetivo expor as melhorias nas praticas e ferramentas de recrutamento e seleção, visando explorar o capital intelectual para

Projetil encamisado por uma camisa pré-sulcada de latão endurecido, contendo chumbo não endurecido no seu interior, dotado de uma ponta oca. HYDRA SHOCK centro, que

15, estão representados os teores médios de safrol contido em óleo essencial obtido, no decorrer do progresso de extração, da biomassa aérea de pimenta longa procedente de cultivos

As técnicas são baseadas em descontinuidade: detecção de pontos isolados, detecção de linhas e detecção de bordas, e similaridade: limiares (Thresholding), crescimento de

O desenvolvimento das interações entre os próprios alunos e entre estes e as professoras, juntamente com o reconhecimento da singularidade dos conhecimentos

Foram incluídos no estudo os portadores de cirrose hepática e carcinoma hepatocelular diagnosticado pelos critérios da EASL ( European Association for the Study of the Liver ). Após

Partindo da premissa que a monitoria no ensino superior se constitui como incentivadora para a formação de professores, o presente estudo versa sobre o processo