Basi di Dati Multimediali -Università di Siena
Principi di Information Retrieval
Marco Gori
II Ciclo 2002
'DWD%DVHV
❚
7HRULDVROLGD H SDFFKHWWL VZ PROWRDIILGDELOL
❚
,O UHFRUG³LPSLHJDWR´
❙
VRFLHWjFRGILVFFRJQRPHLQGLUL]]RFLWWjVWDWR
❚
2SHUDWRULVHOHFWLRQSURMHFWLRQFDUWHVLDQ
SURGXFWMRLQXQLRQ
❚
%DVLGDWLDGRJJHWWL
Basati su
schema
Centrati su
operatori
relazionali
Si sfrutta
paradigma
Basi di Dati Multimediali -Università di Siena
4XDOL 'DWL"
❚
1RQIRUPDWWDWL O¶RSSRVWR GHL '% UHOD]LRQDOL
❙
'DWL WHVWXDOLDUWLFROL VFLHQWLILFLSDJLQHGLTXRWLGLDQL
❙
3DJLQH:HE+70/;0/
❙
'DWL QRQWHVWXDOLLPPDJLQLJUDILFLYRFHYLGHR
❚
/¶HVSORVLRQH GL LQWHUHVVH RJJL:::VHDUFKHQJLQHVHV
*RRJOH
$OWDYLVWD +RW%RW
Semi-strutturati
Senza
tags,
plain text
crawler
Index
interface
query
User
queries
(VHPSL
❚
Gli stessi principi in contesti applicativi diversi:
❙
Ricerca di articoli, libri in digital libraries
❙
World wide web: tecnologie dei motori di ricerca
❙
Enciclopedie elettroniche (online o CDROM)
❙
Manuali elettronici on-line
❙
Ricerca di informazione visuale (persone, ecc...)
Basi di Dati Multimediali -Università di Siena
Query = commedia
grep
Linee riconosciute
dal file
$ grep commedia input-file1 input-file2 …
Input files
,O&ODVVLFR´JUHSµ
3HUFKp O·,5 q LPSRUWDQWH"
❚
0ROWD LQIRUPD]LRQH WHVWXDOH q RJJL QRQVWUXWWXUDWD HVWD
³DOODJDQGR¶¶ LGLVFKLHJHPDLOVDUWLFROL QHZVJURXS
❚
,QWHJUD]LRQH GL WH[WUHWULHYDOFRQEDVLGDWLUHOD]LRQDOL
❚
,QFUHPHQWRGHOODGRFXPHQWD]LRQH RQOLQH
❚
/¶HVSORVLRQHGHO :HE
Basi di Dati Multimediali -Università di Siena
3HUFKp O· ,5q 'LIILFLOH"(VLO:HE
La dimensione del web raddoppia ogni anno:
50 milioni pagine novembre1995
320 milioni pagine dicembre 1997
800 milioni febbraio 1999
oggi quasi 2 miliardi
non ancora verso la saturazione
Enormi quantit
à
di dati (e.g., WWW) impongono soluzioni
efficienti
Poche centinaia di Mbytes erano considerati larga
scala 10 anni fa; si pensi ad un laptop odierno!
❚
'DWL QRQVWUXWWXUDWLq GLIILFLOHFDWWXUDUHODVHPDQWLFD GHL
GRFXPHQWL&RPSDUD
❙
³VHOHFW IURP(PSOR\HHZKHUH6DODU\!´
❙
³UHWULHYHDOOQHZVLWHPVDERXW
FRUSRUDWHWDNHRYHU
´
❚
3HUFKp ODVHFRQGD GRPDQGD q SL GLIILFLOH"/DVHJXHQWH
OR q DQFRUD GL SL
❙
³UHWULHYHDOOQHZVLWHPVDERXW
FRUSRUDWHWDNHRYHU
LQYROYLQJ
DQ
LQWHUQHWFRPSDQ\´
❚
,GRFXPHQWLQRQKDQQRXQGRPLQLRGHILQLWR
❙
q PROWRGLIILFLOHWURYDUHODFDWHJRULDGHLGRFXPHQWL
Basi di Dati Multimediali -Università di Siena
❚
,O SUREOHPD GHOO¶LQWHUD]LRQH SHUVRQDOH
❙
ODULVSRVWDGDWDDSHUVRQHGLYHUVHGRYUHEEH
FRQWHPSODUHOHGLYHUVHHVLJHQ]H
❚
&RPHFDWWXUDUHO¶LQWHQ]LRQH"
❙
&RPSDUD XQ 5($'0(ILOHFRQXQ ³XVHUPDQXDO´
❙
FRPSDUDXQ VRPPDULRFRQXQ UDSSRUWR GHWWDJOLDWR
Non si può rispondere soddisfacendo tutti!
❚
,GRFXPHQWLVRQRGLVWULEXLWLH³OLQNDWL´ HJ
+\SHUWH[W
H:::
❙
'D GRYHVL SDUWH DFHUFDUH"
❙
&RPHVRQR FRUUHODWHOHLQIRUPD]LRQL"
Efficienza e efficacia
Spesso con conflittuali.
velocità
qualità
Basi di Dati Multimediali -Università di Siena
Documento: stringa caratteri in un singolo file
Indice: lista di importanti keywords memorizzate in qualche struttura
Query: Boolean (A and B or C), lista di parole, frasi linguaggio naturale
Relevance feedback: prova e.g.
“
similar pages
”
con
Formulaz. query
L’utente e la “sete” di informazione
Ling. formale Rappres. documenti Documenti Indexing UHWULHYDO Relevance Feedback
'RFXPHQW5HWULHYDO6FKHPDEDVH
Retrieved documentsFormulazione delle queries:
Linguaggio naturale
Voce
Immagini (queries visuali)
Sono databases?
Video e segmentazione scene
Raggruppamento di argomenti
…
.
Basi di Dati Multimediali -Università di Siena