• Nenhum resultado encontrado

Principi di Information Retrieval

N/A
N/A
Protected

Academic year: 2021

Share "Principi di Information Retrieval"

Copied!
13
0
0

Texto

(1)

Basi di Dati Multimediali -Università di Siena

Principi di Information Retrieval

Marco Gori

II Ciclo 2002

(2)

'DWD%DVHV

7HRULDVROLGD H SDFFKHWWL VZ PROWRDIILGDELOL

,O UHFRUG³LPSLHJDWR´

VRFLHWjFRGILVFFRJQRPHLQGLUL]]RFLWWjVWDWR

2SHUDWRULVHOHFWLRQSURMHFWLRQFDUWHVLDQ

SURGXFWMRLQXQLRQ

%DVLGDWLDGRJJHWWL

Basati su

schema

Centrati su

operatori

relazionali

Si sfrutta

paradigma

(3)

Basi di Dati Multimediali -Università di Siena

4XDOL 'DWL"

1RQIRUPDWWDWL O¶RSSRVWR GHL '% UHOD]LRQDOL

'DWL WHVWXDOLDUWLFROL VFLHQWLILFLSDJLQHGLTXRWLGLDQL

3DJLQH:HE +70/;0/

'DWL QRQWHVWXDOLLPPDJLQLJUDILFLYRFHYLGHR

/¶HVSORVLRQH GL LQWHUHVVH RJJL:::VHDUFKHQJLQHVHV

*RRJOH



$OWDYLVWD +RW%RW 

Semi-strutturati

Senza

tags,

plain text

crawler

Index

interface

query

User

queries

(4)

(VHPSL

Gli stessi principi in contesti applicativi diversi:

Ricerca di articoli, libri in digital libraries

World wide web: tecnologie dei motori di ricerca

Enciclopedie elettroniche (online o CDROM)

Manuali elettronici on-line

Ricerca di informazione visuale (persone, ecc...)

(5)

Basi di Dati Multimediali -Università di Siena

Query = commedia

grep

Linee riconosciute

dal file

$ grep commedia input-file1 input-file2 …

Input files

,O&ODVVLFR´JUHSµ

(6)

3HUFKp O·,5 q LPSRUWDQWH"

0ROWD LQIRUPD]LRQH WHVWXDOH q RJJL QRQVWUXWWXUDWD HVWD

³DOODJDQGR¶¶ LGLVFKL HJHPDLOVDUWLFROL QHZVJURXS 

,QWHJUD]LRQH GL WH[WUHWULHYDOFRQEDVLGDWLUHOD]LRQDOL

,QFUHPHQWRGHOODGRFXPHQWD]LRQH RQOLQH

/¶HVSORVLRQHGHO :HE

(7)

Basi di Dati Multimediali -Università di Siena

3HUFKp O· ,5q 'LIILFLOH"(VLO:HE

La dimensione del web raddoppia ogni anno:

50 milioni pagine novembre1995

320 milioni pagine dicembre 1997

800 milioni febbraio 1999

oggi quasi 2 miliardi

non ancora verso la saturazione

Enormi quantit

à

di dati (e.g., WWW) impongono soluzioni

efficienti

Poche centinaia di Mbytes erano considerati larga

scala 10 anni fa; si pensi ad un laptop odierno!

(8)

'DWL QRQVWUXWWXUDWLq GLIILFLOHFDWWXUDUHODVHPDQWLFD GHL

GRFXPHQWL&RPSDUD

³VHOHFW IURP(PSOR\HHZKHUH6DODU\!´

³UHWULHYHDOOQHZVLWHPVDERXW

FRUSRUDWHWDNHRYHU

´

3HUFKp ODVHFRQGD GRPDQGD q SL GLIILFLOH"/DVHJXHQWH

OR q DQFRUD GL SL

³UHWULHYHDOOQHZVLWHPVDERXW

FRUSRUDWHWDNHRYHU

LQYROYLQJ

DQ

LQWHUQHWFRPSDQ\´

,GRFXPHQWLQRQKDQQRXQGRPLQLRGHILQLWR

q PROWRGLIILFLOHWURYDUHODFDWHJRULDGHLGRFXPHQWL

(9)

Basi di Dati Multimediali -Università di Siena

,O SUREOHPD GHOO¶LQWHUD]LRQH SHUVRQDOH

ODULVSRVWDGDWDDSHUVRQHGLYHUVHGRYUHEEH

FRQWHPSODUHOHGLYHUVHHVLJHQ]H

&RPHFDWWXUDUHO¶LQWHQ]LRQH"

&RPSDUD XQ 5($'0(ILOHFRQXQ ³XVHUPDQXDO´

FRPSDUDXQ VRPPDULRFRQXQ UDSSRUWR GHWWDJOLDWR

Non si può rispondere soddisfacendo tutti!

(10)

,GRFXPHQWLVRQRGLVWULEXLWLH³OLQNDWL´ HJ

+\SHUWH[W

H:::

'D GRYHVL SDUWH DFHUFDUH"

&RPHVRQR FRUUHODWHOHLQIRUPD]LRQL"

Efficienza e efficacia

Spesso con conflittuali.

velocità

qualità

(11)

Basi di Dati Multimediali -Università di Siena

Documento: stringa caratteri in un singolo file

Indice: lista di importanti keywords memorizzate in qualche struttura

Query: Boolean (A and B or C), lista di parole, frasi linguaggio naturale

Relevance feedback: prova e.g.

similar pages

con

Google

Formulaz. query

L’utente e la “sete” di informazione

Ling. formale Rappres. documenti Documenti Indexing UHWULHYDO Relevance Feedback

'RFXPHQW5HWULHYDO6FKHPDEDVH

Retrieved documents

(12)

Formulazione delle queries:

Linguaggio naturale

Voce

Immagini (queries visuali)

Sono databases?

Video e segmentazione scene

Raggruppamento di argomenti

.

(13)

Basi di Dati Multimediali -Università di Siena

5LWRUQRDOIXWXUR 6SLHOEHUJ

1HOODVFHQHVRWWRSULPDFKH

0DUW\ULSDUWD'RFJOLRIIUHXQD

&ROW´6HLVLFXURFKHQRQOD

YXRL"´0DUW\VKDNHVVFXRWHOD

WHVWD1RJUD]LH,QRJQL

FDVRQRQVRFRPHXVDUOD

6LDPR LQGLHWUR QHO«

DEELDPRLOPXOWLPHGLDHL

JLJDELWHV«PDOHQRVWUH

³SLVWROH´VRQRDQFRUD

LQHIILFDFL

Referências

Documentos relacionados

Com base em estudo de Nitecki e Hernon (2000), que propõe que as pontuações de gaps entre 0 e -1 não superam as expectativas, porém podem atender ao que os usuários realmente esperam

e parágrafo anterior da presente cláusula pagarão a cada um de seus empregados, a título de PLR - Participação nos Lucros ou Resultados - relativa ao ano civil de

rede de distribuição secundária de energia elétrica existente ou prevista pela LIGHT, inclusive nos postes com transformador. Na hipótese de haver duas redes secundárias

Embalagem: ALMOTOLIA DE PLASTICO OPACO - Primária CAIXA DE PAPELAO SEM COLMEIA - Secundária Local de Fabricação:. Apresentação Forma Física

Pesquisas como as de Martins (2007), Codo (1999) e Marchesi (2008), ao estudarem a relação entre mal-estar docente e crise de identidade, esclarecem que a falta de

Vi resteranno sei parole che sono anche i titoli di sei poesie di Umberto Saba.

FUNÇÃO SERVIDOR/ DISPENSA co di- go DESIGNA- ÇÃO có di- go Maria do Carmo Conceição de Mendonça, Ana- lista Judiciária – Área Judiciária, Classe “C”, Pa- drão 15

Tabella 2 – Indice di correlazione di Spearman calcolato sui dati orari di concentrazione di CO misurato nelle stazioni della Rete di Rilevamento regionale.. LEGENDA: