RECUPERAÇ ÃO DE VÍDEOS INDEXADOS POR CONCEITOS Christian Danniel Paz Trillo

(1)

RECUPERAC ¸ ˜ AO DE V´ IDEOS INDEXADOS POR CONCEITOS

Christian Danniel Paz Trillo

DISSERTAC¸ ˜AO APRESENTADA AO

INSTITUTO DE MATEM ÁTICA E ESTATÍSTICA DA UNIVERSIDADE DE S ÃO PAULO

PARA OBTENÇ ÃO DO TÍTULO DE MESTRE EM CIÊNCIA DA COMPUTAÇ ÃO

Area de Concentra¸c˜ ´ ao: Inteligˆ encia Artificial Orientadora: Profa. Dra. Renata Wassermann

Durante a elabora¸c˜ao deste trabalho o autor recebeu apoio financeiro da CAPES

S˜ao Paulo, agosto de 2004

(2)

Dedicat´ oria

2

(3)

Agradecimentos

3

(4)

Resumo

Aqu´ı deber´a estar alg´un d´ıa el resumen

4

(5)

Abstract

Some day the abstract will be here

5

(6)

´ Indice

1 Introdu¸c˜ao 1

2 Recupera¸c˜ao de Informa¸c˜ao 2

2.1 Defini¸c˜oes . . . 2

2.1.1 Problemas na Recupera¸c˜ao de Informa¸c˜ao . . . 3

2.2 Processo de Indexa¸c˜ao . . . 4

2.2.1 Stemming (Remo¸c˜ao de afixos) . . . 6

2.2.2 POS (Part-Of-Speech) Tagging (Etiquetagem Morfo-sint´atica) . . . . 7

2.2.3 Expans˜ao de termos do ´ındice . . . 7

2.2.4 C´alculo de pesos . . . 8

2.3 Processo de Recupera¸c˜ao . . . 8

2.3.1 Busca booleana . . . 8

2.3.2 Recupera¸c˜ao Ordenada . . . 10

2.3.3 Recupera¸c˜ao Probabil´ıstica . . . 14

2.4 Avalia¸c˜ao de Sistemas de RI . . . 14 6

(7)

´Indice 7

3 Uso de Ontolog´ıas em Recupera¸c˜ao de Informa¸c˜ao 17

3.1 Defini¸c˜oes . . . 17

3.2 Utiliza¸cão em Recupera¸cão de Informa¸cão . . . 17

3.2.1 Extra¸c˜ao e Elabora¸c˜ao das Ontologias . . . 17

3.2.2 Conte´udo das Ontologias . . . 17

3.2.3 Medidas de Similaridade . . . 17

3.3 Ontologia do Dom´ınio . . . 17

4 Recupera¸c˜ao de V´ıdeos : Uma aplica¸c˜ao 18

5 Resultados 19

6 Conclus˜oes e Trabalhos Futuros 20

(8)

Cap´ıtulo 1

Introdu¸ c˜ ao

Aqu´ı debe ir la introducci´on

1

(9)

Cap´ıtulo 2

Recupera¸ c˜ ao de Informa¸ c˜ ao

2.1 Defini¸ c˜ oes

Recupera¸cão de Informa¸cão (RI) pode ser definida como a aplica¸cão de tecnologia computa- cional à aquisi¸cão, organiza¸cão, armazenamento, recupera¸cão e distribui¸cão de informa¸cão [JM02].

O propósito da RI é satisfazer uma necessidade de informa¸cão do usuário a qual é expressada numa consulta que procura encontrar documentos relevantes. Essa consulta pode não expressar da melhor forma a necessidade de informa¸cão, e pode conter palavras com erros ortográficos ou usadas de forma inadequada. O Sistema de RI deve tentar recuperar os documentos relevantes para a necessidade de informa¸cão baseado na informa¸cão proporcionada na consulta, pois o usuário avaliará a relevância para a necessidade dele.

Uma grande dificuldade na RI é saber quando um documento é relevante ou não para a necessidade do usuário, de fato esse conceito é básico na RI pois o objetivo primordial dela é recuperar todos os documentos que são relevantes e a menor quantidade poss´ıvel de documentos não relevantes [BYRN99].

2

(10)

2.1 Defini¸c˜oes 3

2.1.1 Problemas na Recupera¸ c˜ ao de Informa¸ c˜ ao

Os sistemas de recupera¸cão de informa¸cão baseados em busca por palavra chave são limi- tados na sua capacidade de distinguir textos relevantes e irrelevantes, isto devido a uma série de caracter´ısticas, dentre as quais se destacam [Mau91]:

• Sinon´ımia, quando existem diversos termos para descrever um mesmo objeto ou conceito, um sistema de recupera¸cão de informa¸cão baseado em semelhan¸ca de palavras chave só recuperará aqueles documentos em que o objeto ou conceito esteja descrito com os mesmos termos com que a consulta foi elaborada. Por exemplo, se alguém estiver procurando algum lugar para se hospedar no Rio de Janeiro, poderia colocar em uma consulta “pousada no Rio de Janeiro”, e só os documentos em que a palavra “pousada” estiver presente serão recuperados, mas naqueles documentos em que a informa¸cão de hospedagem esteja referenciada como “hotel” ou “pensão” por exemplo, não serão recuperados.

• Polissemia, uma palavra é polissêmica quando ela tem vários significados, expres- sando diversos conceitos. Neste caso a recupera¸cão de informa¸cão por uma palavra polissêmica pode trazer documentos relacionados não só ao conceito procurado como também aos outros conceitos que são expressados pela mesma palavra. Neste caso por exemplo, a busca da palavra “árvore” no sentido da estrutura de dados pode fazer o sistema recuperar documentos relacionados a “árvore” no sentido do organismo biológico.

Estes problemas fazem com que os sistemas de recupera¸cão de informa¸cão baseados em palavras-chave tenham um limite no seu desempenho conhecido como a barreira da palavra- chave¹ [Mau91]. Um dos objetivos da pesquisa é organizar a informa¸cão sobre a qual a recupera¸cão de informa¸cão vai ser feita para lidar com o problema da sinon´ımia. Polissemia

´

e um problema que não será tratado pois as aplica¸cões que se pretendem abarcar são de

1Do inglˆeskeyword barrier

(11)

2.2 Processo de Indexa¸c˜ao 4

dom´ınio restrito, o qual diminui o impacto da polossemia no sistema.

Um Sistema de RI apresenta dois processos principais bem definidos e diferenciados:

o Processo de Indexa¸cão, em que a cole¸cão de documentos é indexada para permitir uma recupera¸cão posterior eficiente; e o Processo de Recupera¸cão em que dada uma consulta os documentos mais fortemente relacionados a ela são recuperados.

2.2 Processo de Indexa¸ c˜ ao

Um sistema básico de recupera¸cão de informa¸cão, geralmente, consta de três componentes principais: a cole¸cão de documentos; o dicionário, que é uma lista em ordem alfabética das palavras que aparecem no banco de dados; e um arquivo de ´ındice invertido, que armazena as ocorrências de cada palavra do dicionário. Esta estrutura permite acesso eficiente a grandes banco de dados pois cada palavra no dicionário é um ponto de entrada para o in´ıcio de uma busca.

A entrada do processo de indexa¸cão é a cole¸cão de documentos enquanto as suas sa´ıdas são o dicionário e o arquivo invertido. O dicionário é uma lista das palavras presentes na cole¸cão de documentos em que cada palavra aponta a entrada da mesma no arquivo invertido. No arquivo invertido são armazenadas informa¸cões sobre as ocorrências das palavras nos documentos, a estrutura de uma entrada em um arquivo invertido é [JM02]:

• Token: o token que representa a palavra, ou a raiz da palavra indexada. O processo de obten¸cão da raiz das palavras será explicado posteriormente nesta Se¸cão.

• Contagem de documentos: o n´umero de documentos em que o token aparece.

• Contagem de freqüência total: o número de vezes que o token aparece no total de documentos. Indica que tão comum é o token na cole¸cão de documentos.

• Informa¸cão por documento: uma lista de informa¸cões associadas às ocorrências

(12)

do token em cada documento. Cada documento em que o token aparece tem uma entrada nessa lista, contendo as seguintes informa¸c˜oes:

– Contagem de freqüência: quantas vezes aparece o token no documento. De um modo, este valor indica a grosso modo se o documento é realmente acerca desse conceito ou se ele é só nomeado.

– Posi¸c˜ao: contem uma lista das posi¸c˜oes relativas nas que o token aparece no documento.

Uma fra¸c˜ao de exemplo de uma estrutura de arquivo invertido pode ser vista na Figura 2.1.

Figura 2.1: Estrutura de um arquivo invertido.

As Stopwords não são consideradas na cria¸cão do arquivo invertido. Stopwords são termos que aparecem tão freqüentemente nos textos da cole¸cão que perdem sua utilidade como termos para a busca. Os artigos e preposi¸cões são comumente consideradasstopwords, por exemplo um, de e cada são algumas das usadas no sistema. Uma lista completa das stopwords usadas é mostrada no Apêndice??.

Alguns sistemas de recupera¸cão de informa¸cão armazenam informa¸cão adicional à cole¸cão em um tesauro ou em uma ontologia. O uso dessas estruturas será detalhado no Cap´ıtulo 3.

(13)

Durante o processo de indexa¸cão, algumas opera¸cões adicionais podem ser executadas sobre o texto da cole¸cão. Algumas das opera¸cões poss´ıveis são explicadas a continua¸cão.

2.2.1 Stemming (Remo¸ c˜ ao de afixos)

E um processo utilizado para a extra¸´ cão das radicais das palavras. Com isso, as variantes de palavras são associadas ao mesmo radical, e a quantidade de armazenamento requerida decresce, pois o número de palavras indexadas diminui. Por exemplo as palavras “cum- prido”, “cumpriu” e “cumprirá” são associadas ao mesmo radical “cumpr” que, como no exemplo, não necessariamente é uma palavra válida, mas permite associar todas as palavras derivadas do mesmo radical. Com essa associa¸cão é poss´ıvel fazer com que consultas por palavras derivadas do mesmo radical recuperem os mesmos resultados, o que normalmente é válido pois documentos relacionados com palavras derivadas são relevantes para as mesmas consultas.

Um algoritmo destemming simples aplica heur´ısticas para detectar os pontos dos quais os afixos podem ser extra´ıdos. Essas heur´ısticas obedecem a regras simples,como a de- teçcão de marcas nas palavras, que normalmente são associadas com afixos, por exemplo a termina¸cão “mente”, utilizada na forma¸cão de advérbios no português, ou a termina¸cão

“inho” comumente uilizada para a forma¸cão de diminutivos dos substantivos. Essas regras são especificadas para o algoritmo de stemming junto com as exce¸cões delas, por exemplo a palavra “caminho” termina com as letras “inho” mas, nesse casso, “inho” não representa um sufixo, mas é parte da palavra.

A maioria desses algoritmos heur´ısticos removem só sufixos, pois sufixos mudam a categoria sintática da palavra, mas conservam o sentido da palavra em que são colocados.

Um exemplo de algoritmo baseado em regras heur´ısticas, muito utilizado, é o algoritmo de Porter [Por80] que remove as termina¸cões morfológicas mais comuns das palavras, e foi inicialmente criado para palavras em inglês. Posteriormente, Porter desenvolveuSnowball,

(14)

uma linguagem para uso de cadeias que pode ser utilizado para criar algoritmos destemming gerando programas em Java, ou ANSI C. O algoritmo de stemming para português em Snowballestá dispon´ıvel², junto com às versões já compiladas emJava e ANSI C.

Em 2001, foi desenvolvido um algoritmo de stemming para português [OH01] composto por uma série de regras (Ver Apêndice??), aplicadas seqüencialmente. Cada regra especifica o sufixo que será removido, o menor tamanho do radical que pode ficar após a remo¸cão do sufixo, o sufixo substituto do removido, e as exce¸cões à regra, sendo esses dois últimos opcionais. Existe uma implementa¸cão dispon´ıvel do algoritmo em ANSI C e uma versão dele foi desenvolvida em Java para ser utilizada na aplica¸cão, testes foram feitos com o algoritmo de Porter e a versão modificada.

2.2.2 POS (Part-Of-Speech) Tagging (Etiquetagem Morfo- sint´ atica)

A etiquetagem morfo-sint´atica consiste em associar a cada palavra que aparece no texto uma categoria morfo-sint´atica.

***** Falta conhecer, detalhar e implementar esse processo *****

2.2.3 Expans˜ ao de termos do ´ındice

Durante a cria¸cão do arquivo invertido, os termos não presentes no texto mas que estejam relacionados aos presentes podem ser indexados também. A rela¸cão ou similaridade entre os termos está definida no tesauro ou na ontologia associada à cole¸cão e será detalhada no Cap´ıtulo 3.

2http://snowball.tartarus.org/

(15)

2.3 Processo de Recupera¸c˜ao 8

2.2.4 C´ alculo de pesos

Para o cálculo da relevância de um documento são usados alguns valores que associam cada termo do arquivo invertido com os documentos nos quais ele aparece. Esses valores podem ser calculados na hora da consulta ou podem ser armazenados no arquivo invertido para evitar sobrecarregar o processo de consulta. Dependendo do tipo de processo de consulta usado, diferentes valores devem ser calculados, portanto esses valores serão explicados na seguinte Subse¸cão.

2.3 Processo de Recupera¸ c˜ ao

Este processo come¸ca quando a consulta de usuário é apresentada ao sistema. Os passos básicos presentes neste processo são o processamento da consulta, o cálculo da relevância dos documentos e a ordena¸cão dos resultados de acordo com a relevância para ser apresentados ao usuário.

Existem na literatura basicamente três enfoques para a busca em RI [JM02], a busca booleana, a recupera¸cão ordenada e a recupera¸cão probabil´ıstica e eles serão apresentados a continua¸cão.

2.3.1 Busca booleana

Neste tipo de busca o usuário busca no banco de dados usando consultas que conectam palavras mediante operadores lógicos (AND, OR, e NOT) e é o tipo de busca freqüentemente usado nos motores de busca. Um motor de busca retorna o conjunto de documentos na cole¸cão que satisfaz a consulta do usuário. Por exemplo, a consulta “obra AND arte” deverá retornar todos os documentos contendo os termos “obra” e “arte”, i.e.: docs_obra∩docs_arteem que docs_palavra é o conjunto dos documentos em que a palavra aparece. Do mesmo modo

(16)

a consulta “mostra OR bienal” recupera os documentos em que aparecem ou a palavra

“mostra” ou a palavra “bienal”: docs_mostra∪docs_bienal.

Um operador freqüentemente permitido neste tipo de consultas é o operador de pro- ximidade de termos. A consulta “obra /2 arte” deve recuperar os documentos em que as palavras “obra” e “arte” aparecem no máximo com uma distância de duas palavras uma da outra, no caso não recuperaria documentos em que essas palavras aparecem dentro da frase “ele obra em contra da arte” por exemplo.

Esse tipo de busca pode ser melhorada através do uso de um tesauro ou de uma ontologia, incrementando sinônimos à consulta para usar maior quantidade de termos em um processo chamado de expansão de consulta (Ver Se¸cão ??), por exemplo: dada a consulta

“obra AND arte” ela pode ser expandida a “(obra OR trabalho) AND arte”, assim, documentos usando qualquer um desses sinônimos (nesse contexto). As buscas booleanas podem tomar vantagem do processo de stemming detalhado na Se¸cão 2.2.1, removendo os afixos tanto na hora da cria¸cão do arquivo invertido quanto no processamento da consulta, desse modo a consulta por “obra AND arte” poderia recuperar documentos que utilizem a frase

“as obras de arte foram apresentadas em ...” por exemplo, desde que “obra” e “obras” s˜ao detectadas pelo algoritmo de stemming como derivadas da mesma raiz.

A pesar dessas melhoras, as buscas booleanas apresentam alguns problemas: eles devolvem conjuntos de resultados muito grandes, a lógica para efetuar consultas é complexa, devolvem um conjunto desordenado de resultados, e além disso oferecem uma recupera¸cão booleana, i.e. o documento é ou não é relevante, não existe a no¸cão de grau de relevância.

Este tipo de buscas resulta adequado para usuários profissionais, mas é dif´ıcil para usuários esporádicos ou inexperientes.

(17)

2.3.2 Recupera¸ c˜ ao Ordenada

A maioria de buscadores na Web baseiam-se em uma técnica que ordena os resultados da busca com base na distribui¸cão de freqüência dos termos da consulta na cole¸cão de documentos. Por exemplo, um documento que contém várias ocorrências de uma palavra que não é comum na cole¸cão de documentos, provavelmente seja relevante para uma consulta que contenha tal palavra. Assim mesmo, palavras comuns são consideradas com menor importância na ordena¸cão dos resultados.

Esse tipo de busca é usualmente empregado em interfaces de busca em que se permite aos usuários entrar com consultas em uma linguagem irrestrita, isto é, sem operadores ou uma sintaxe formal. Para permitir isso, os motores removem as stopwords e realizam algumas opera¸cões sobre as outras palavras, sendo a mais comum dentre elas o stemming.

Neste enfoque os documentos e as consultas são tratados como vetores no espa¸co multi- dimensional definido pelos termos existentes na cole¸cão, e em que a freqüência de apari¸cão dos termos é o valor escalar associado ao vetor na dimensão do termo. Assim, o cálculo da similaridade entre a consulta e cada documento dá um valor de relevância do documento para com a consulta. Finalmente, os documentos são ordenados de acordo com a medida de similaridade deles com a consulta.

O Modelo de espa¸co de vetores

Dada uma cole¸c˜ao dendocumentos,d₁, d₂, . . . , d_n, nos quais aparecemmdiferentes termos, t1, t2, . . . , tm. Os termos definem um espa¸co m-dimensional, em que um documento d ´e representado como um vetor:

d= (w1,d, w2,d, . . . , wm,d) (2.1) sendow_i,do peso doi-ésimo termo no documentod. O peso de um termo em um documento representa a importância que ele tem no documento, e é um estimado de quanto o documento é relevante para esse termo. Do mesmo modo, uma consultaq pode ser representada

(18)

como um vetor:

q= (w_1,q, w_2,q, . . . , w_m,q) (2.2) em que w_i,q ´e o peso do i-´esimo termo na consulta q. O grau de similaridade entre dois documentos, ou entre um documento e uma consulta no espa¸co vetorial, em sua forma mais simples, pode ser o produto escalar dos vetores que os representam[SWY75]:

sim(d, q) =

m

X

t=1

w_t,d·w_t,q (2.3)

Para efeitos de exemplo, consideremos w_t,d como o número de vezes que o termo t aparece no documentod. Suponha uma cole¸cão com três documentos, nos quais aparecem os termos: “obra”, “de”, “arte”, “tratado”, “música”, “moderna”, “contemporânea” e

“Gross” que representar˜ao as dimens˜oes de 1 a 8 do espa¸co dimensional que elas definem.

Os documentos s˜ao:

d₁: “obras de arte”

d2: “tratado de música moderna e de música contemporânea”

d₃: “obra moderna de Gross”

Considerando um processo destemming em que o radical “obra” ´e extra´ıdo da palavra

“obras” em d₁, os documentos podem ser vistos como vetores no espa¸co vetorial definido pelos termos como:

d₁= (1,1,1,0,0,0,0,0) d2= (0,2,0,1,2,1,1,0) d₃= (1,1,0,0,0,1,0,1)

Pode-se ver que asstopwords, como “de” trazem pouca informa¸cão que permita discer- nir a relevância ou não relevância de algum documento, pois provavelmente aparecerá na maioria dos documentos. Seja uma consulta:

q = “quais s˜ao as obras de Carmela Gross”

(19)

a consulta, depois do processo de stemming, tamb´em pode ser representada no espa¸co vetorial pelo vetor:

q= (1,1,0,0,0,0,0,1)

O processo de recupera¸c˜ao ordenada, deve calcular a similaridade de cada documento com a consulta, segundo a f´ormula apresentada anteriormente:

sim(d1, q) = 1·1 + 1·1 + 1·0 + 0·0 + 0·0 + 0·0 + 0·0 + 0·1 = 2 sim(d₂, q) = 0·1 + 2·1 + 0·0 + 1·0 + 2·0 + 1·0 + 1·0 + 0·1 = 2 sim(d3, q) = 1·1 + 1·1 + 0·0 + 0·0 + 0·0 + 1·0 + 0·0 + 1·1 = 3

Dando como resultado que o documento d₃ é o mais similar com a consulta, o qual é, segundo a nossa lógica, certo. Além disso, segundo o cálculo de similaridade, d1 e d2 são igualmente similares à consulta, mas podemos observar que d₂ obteve o seu grau de similaridade pela presen¸ca da palavra “de”, o tópico principal do documento é aparentemente

“m´usica”, mesmo assim a presen¸ca de uma stopword pode causar esse tipo de erros na recupera¸c˜ao.

Existem termos que dentro do contexto da cole¸cão, são muito comuns e que, assim como asstopwords resultam não sendo bons discriminadores de relevância de documentos, esses termos podem ser detectados conhecendo a freqüência total deles na cole¸cão, esse dado pode ser usado para diminuir o peso do termo no documento, assim, a fórmula para o cálculo do peso de um termo no documento é [JM02]:

w_t,d=tf_t,d·idf_t,d (2.4)

em que tf_i,d (term frequency) é o número de apari¸cões do termo t no documento d e idft,d = log(_nⁿ

t + 1) (inverse document frequency) mede a raridade relativa do termo na cole¸cão, isto é, permite saber que tão bom discriminador de relevância esse termo é. n_té o número de documentos em que o termo taparece.

Uma medida de similaridade derivada da apresentada na Equa¸c˜ao 2.3 ´e a similaridade

(20)

do coseno, que consiste no c´alculo do coseno do ˆangulo formado pelos vetores dos quais se deseja achar a similaridade [Har92].

sim(d, q) =

P_m

t=1w_t,d·w_t,q qPm

t=1w²_t,d·Pm t=1w_t,q²

(2.5)

Podemos perceber que quando esses vetores coincidem, i.e. são iguais, formam ângulo de 0 graus e portanto o coseno deles é máximo, 1. Este modelo tem sido usado em vários experimentos de recupera¸cão de informa¸cão, entre os quais se destaca o SMART³ que é um dos maiores esfor¸cos na pesquisa na área de recupera¸cão de informa¸cão.

O Modelo estendido de espa¸co de vetores

O modelo estendido de espa¸co de vetores[Voo98] permite considerar o vetor como uma cole¸cão de sub-vetores. Esses sub-vetores são usados para representar diferentes aspectos dos documentos da cole¸cão. Por exemplo um dos sub-vetores pode representar os pesos do documento considerando o texto completo, enquanto outro sub-vetor pode representar o documento como uma cole¸cão de palavras chave manualmente associadas.

A similaridade total neste modelo estendido ´e calculada como a soma ponderada das similaridades nos sub-vetores.

sim(d, q) = X

sub−vetori

α_i·sim_i(d_i, q_i) (2.6)

em quedi eqisão osi-ésimos sub-vetores do documento e da consulta respectivamente, e α_i é a importância do sub-vetor ina similaridade total. A similaridade usada em cada sub-vetor pode ser a similaridade coseno apresentada anteriormente. P

sub−vetoriα_i deve ser 1.

3ftp://ftp.cs.cornell.edu/pub/smart/

(21)

2.4 Avalia¸c˜ao de Sistemas de RI 14

2.3.3 Recupera¸ c˜ ao Probabil´ıstica

Ver si realmente debo poner esto

2.4 Avalia¸ c˜ ao de Sistemas de RI

A avalia¸cão dos Sistemas de RI é fundamental para o estabelecimento de um ponto de compara¸cão entre os sistemas sendo desenvolvidos. A idéia é medir a eficácia dos sistemas, sendo esta a capacidade do sistema de satisfazer o usuário em termos da relevância dos documentos recuperados.

Existem duas medidas padrão para a medi¸cão da eficácia, e ambas estão baseadas em rela¸cões entre os conjuntos de documentos relevantes e não relevantes, assim como os conjuntos de documentos recuperados e não recuperados (Ver Figura 2.2).

Relevantes N˜ao Relevantes

Recuperados A∩B A¯∩B B

N˜ao Recuperados A∩B¯ A¯∩B¯ B¯

A A¯ N

Figura 2.2: Distribui¸cão de documentos relevantes/não relevantes e recuperados/não recuperados. *** Consultar como referenciar o fato de usar uma figura de uma fonte X

Com base nessa distribui¸c˜ao, podemos definir[vR79]:

• Precisão: E a raz˜´ ao entre o número de documentos recuperados pelo sistema que são relevantes para a consulta e o número total de documentos recuperados.

(22)

P = N´umero de documentos relevantes recuperados

N´umero total de documentos recuperados = |A∩B |

|B| (2.7) Por exemplo, se os sistema recuperou 6 documentos para uma consulta, em que 3 de eles foram relevantes, a medida de precisão do sistema é de 0,5 ou 50%. A polissemia pode produzir baixas taxas de precisão no caso de alguns documentos irrelevantes serem recuperados.

• Cobertura(Recall): Podem existir muitos documentos na cole¸cão que o usuário considera relevante, mas só alguns deles serão recuperados pelo sistema. A medida de cobertura é a razão do número de documentos relevantes dividido pelo número total de documentos relevantes na cole¸cão.

R= N´umero de documentos relevantes recuperados

N´umero total de documentos relevantes na cole¸c˜ao = |A∩B|

|A| (2.8) A cobertura ´e dif´ıcil de medir pois requer o conhecimento do n´umero total de documentos relevantes no banco de dados, que tem que ser determinado manualmente.

Para fazer essa medida, normalmente se estabelece um limite superior baseado na sele¸cão de documentos que deveriam ter sido recuperados mas não foram. Quanto maior for o esfor¸co manual para achar esses documentos, mais precisa é a medida de cobertura. A sinon´ımia pode induzir uma baixa cobertura, pois é poss´ıvel que não se- jam recuperados alguns documentos relevantes que estão relacionados só a sinônimos das palavras utilizadas na consulta.

As medidas de precisão e cobertura são independentes e a melhora de uma delas pode implicar uma perda na outra. Um sistema pode ter precisão de 100% se ele devolve só um documento da cole¸cão que com certeza é relevante. Uma cobertura de 100% é obtida por um sistema que devolve a qualquer consulta todos os documentos da cole¸cão. Portanto se utiliza uma medida que combina as duas, chamada de Medida-F (originalmente chamada de medida de eficácia)[vR79].

F = 1

α

P + ^1−α_R (2.9)

(23)

Em que 0 < α < 1 indica a importância relativa da precisão para o usuário. O caso especial em queα= 0,5, que dá a mesma importância para a precisão e a cobertura, resulta sendo a média harmônica delas.

F = 2·R·P

R+P (2.10)

A vantagem do uso da Medida-F ´e que uma melhora nela indica uma melhora tanto da precis˜ao quanto da cobertura.

Usualmente na avalia¸cão dos sistemas de RI são avaliadas as medidas de cobertura em 11 valores diferentes de precisão, entre 0.0 e 1.0 em intervalos de 0.1, essa avalia¸cão é conhecida como Média de Precisão de 11 pontos (11-point average precision).

(24)

Cap´ıtulo 3

Uso de Ontolog´ıas em Recupera¸ c˜ ao de Informa¸ c˜ ao

3.1 Defini¸ c˜ oes

3.2 Utiliza¸ c˜ ao em Recupera¸ c˜ ao de Informa¸ c˜ ao

3.2.1 Extra¸ c˜ ao e Elabora¸ c˜ ao das Ontologias

3.2.2 Conte´ udo das Ontologias

3.2.3 Medidas de Similaridade

3.3 Ontologia do Dom´ınio

17

(25)

Cap´ıtulo 4

Recupera¸ c˜ ao de V´ıdeos : Uma aplica¸ c˜ ao

18

(26)

Cap´ıtulo 5

Resultados

19

(27)

Cap´ıtulo 6

Conclus˜ oes e Trabalhos Futuros

20

(28)

Referˆ encias Bibliogr´ aficas

[BYRN99] R. Baeza-Yates and B. Ribeiro-Neto. Modern Information Retrieval. Addison Wesley Longman, 1999.

[Har92] D. Harman. Information Retrieval, chapter Ranking Algorithms, pages 363–

392. Prentice Hall, 1992.

[JM02] P. Jackson and I. Moulinier. Natural Language Processing for Online Applicati- ons: Text Retrieval, Extraction, and Categorization. John Benjamins Publishing Co, 2002.

[Mau91] M. Mauldin. Conceptual Information Retrieval A case study in adaptive partial parsing. Kluwer Academic Publishers, 1991.

[OH01] V. Orengo and C. Huyck. A stemming algorithm for the Portuguese language.

In Proceedings of the 8th International Symposium on String Processing and Information Retrieval(SPIRE) 2001, pages 186–193, 2001. O algoritmo est´a dispon´ıvel em http://www.cs.mdx.ac.uk/research/PhDArea/rslp/RSLP.htm.

[Por80] M. F. Porter. An algorithm for suffix stripping. In ACM SI- GIR Conference on R&D in Information Retrieval, pages 318–327, 1980. Diversas implementa¸c˜oes do algoritmo est˜ao dispon´ıveis em:

http://www.tartarus.org/˜martin/PorterStemmer/.

21

(29)

Referˆencias Bibliogr´aficas 22

[SWY75] G. Salton, A. Wong, and C. S. Yang. A vector space model for automatic indexing. Commun. ACM, 18(11):613–620, 1975.

[Voo98] E. Voorhees. WordNet, an Electronic Lexical Database, chapter Using WordNet for text retrieval, pages 285–303. The MIT Press, 1998.

[vR79] C. J. van Rijsbergen. Information Retrieval. Butterworths, 2nd edition, 1979.