Professional Documents
Culture Documents
Cvetana Krstev as 1
Engleski termin je Information Retrieval Koje je znaenje rei retrieval? Collins Cobuild:
If you retrieve sth, you succeed in getting it back from somewhere, especially from the place where you have hidden it or where it should not be. The men were trying to retrieve weapons left when the army abandoned the island
Oxford/Hornby:
get possession of again: retrieve a lost piece of lagguage
ta kae Wikipedia?
Information retrieval (IR) is the science of searching for documents, for information within documents, and for metadata about documents, as well as that of searching relational databases and the WWW. There is overlap in the usage of the terms data retrieval, document retrieval, information retrieval, and text retrieval, but each also has its own body of literature, theory, praxis, and technologies. IR is interdisciplinary, based on computer science, mathematics, library science, information science, information architecture, cognitive psychology, linguistics, statistics, and physics. Automated information retrieval systems are used to reduce what has been called "information overload". Many universities and public libraries use IR systems to provide access to books, journals and other documents. Web search engines are the most visible IR applications.
O nastanku discipline
Ideja: Ideja da bi se raunari mogli koristiti za traenje relevantnih informacija je u lanku As We May Think koji je objavljen 1945. godine (pre efektivnog korienja raunara) popularisao Vannever Bush (Bu) Termin: IR je skovao i prvi upotrebio Calvin Northrup Mooers zajedno sa terminom descriptor u svojoj magistarskoj tezi na MIT-u 1948. godine Realizacija: Da bi se prevazilo zaostajanje za SSSR-om u nauci, u SAD-u poinju poetkom 50-tih godina XX veka da se finansiraju istraivanja u oblasti mechanized literature searching systems i citation indexing
Malo istorije
60-te godine: prvi sistemi za pronalaenje informacija u kolekcijama manjeg obima (nekoliko hiljada dokumenata). Gerard Selton i sistem SMART (System for the Mechanical Analysis and Retrieval of Text) 70-te godine: Prvi on-line sistemi NLM's AIM-TWX, MEDLINE (Medical Literature Analysis and Retrieval System); Lockheed's Dialog (prvi sistem velikih dimenzija); SDC's ORBIT Poetak 90-tih godina: Ministarstvo odbrane SAD-a (US Department of Defense), zajedno sa Dravnim institutom za standarde i tehnologiju (National Institute of Standards and Technology - NIST), finansiraju konferenciju Text Retrieval Conference (TREC) sa ciljem da se istraivaima u oblasti IR obezbedi potrebna infrastruktura za evaluciju metodologija za pronaenje tekstualnih informacija u vrlo velikim kolekcijama dokumenata.
Bum 90-tih
1989: Tim Berners-Lee iz CERN-a je sainio prvi predlog World Wide Web-a. Kasne 90-te: U mainama za pretraivanje veba primenjena su mnoga napredna svojstva koja su ranije imali samo eksperimentalni IR sistemi. Maine za pretraivanje su postale najei i najbolji primer za modele, istraivanje i realizaciju u pronalaenju informaicja.
Prvi sistemi za pronalaenje informacija Njihova svrha je bila da pronau informacije o postojanju ili nepostojanju bibliografskih dokumenata koja su relevantni za korisnikov upit. Ova dokumenta uz bibliografske podatke mogu da sadre kljune rei, apstrakt ili saetak, itd. Ovi sistemi ne informiu korisnika, tj. ne menjaju njegovo znanje o temi upita, ve mu samo govore da li postoje i gde se nalaze dokumenta koja su vezana za korisnikov zahtev.
Pojam pronalaenja informacija se sutinski promenio kada su poela da se skladite u digitalnom obliku kompletna dokumenta (pun tekst dokumenata) Ovi sistemi mogu da pretrauju ili po bibliografskim podacima ili se u tekstu dokumenta iz uskladitene kolekcije trai tekst koji je korisnik zadao kao upit
Pojam sistema za pronalaenje informacija je na poetku znaio pronalaenje tekstualnih informacija Savremeni multimedijalni sistemi pronalaze multimedijalne informacije to osim teksta, podrazumeva slike, zvuk i pokretne slike. Mnoge tehnike koje se koriste za pronalaenje tekstualnih informacija se mogu primeniti i na multimedijalna dokumenta, iako su za njih razvijeni mnogi novi alati i tehnike. (Mi se time u okviru ovog kursa neemo baviti)
I u njima su sadrane injenice ali kao meta-podaci (podaci o podacima) o dokumentima koja se zapravo trae.
U njima su sadrane injenice kao vrednosti odgovarajuih atribita. Korisnik pretrauje i kao odgovor dobija injenice (npr. Koja je prosena starost vozaa u autobuskom preduzeu?) Podaci su u principu obavezni i unapred poznate (maksimalne) duine
I u njima su sadrane injenice ali kao meta-podaci (podaci o podacima) o dokumentima koja se zapravo trae. I njih je mogue pretraivati po injenicama (npr. Koliko razliitih autora je objavljivalo kod Prosvete 1986. godine?) Ali najee se trae podaci koji e pomoi da se pronau potrebna dokumenta (na polici ili u bazi podataka) Karakteriu ih neobavezni podaci promenljive duine. Za njihov opis koriste formati iz familije MARC (MAchine Readable Cataloguing)
Trae se dokumenta koja u potpunosti, ali ee delimino, odgovaraju korisnikovom upitu. (Interesuju me tekstovi koji govore o maloletnikom nasilju na sportskim terenima) Otuda se sistemi za pronalaenje dokumenata sastoje od tri vane komponente: Informacione stavke; Korisniki upiti; Sravnjivanje upita sa bazom podataka dokumenta
Identifikacija informacionih izvora koji su relevantni za oblast interesovanja ciljne grupe korisnika; Analiza sadraja informacionih izvora (dokumenata); Reprezentacija sadraja analiziranih izvora na nain koji bi bio pogodan za sravnjivanje s korisnikim upitima; Analiza korisnikih upita i njihova reprezentacija u obliku koji bi bio pogodan za sravnjivanje s bazom podataka dokumenata; Sravnjivanje upitnog iskaza sa uskladitenom bazom; Pronalaenje relevantnih informacija; Potrebno podeavanje odgovora na osnovu odziva korisnika.
Podsistem dokumenata; Podsistem za indeksiranje; Reniki podsistem; Podsistem za pretraivanje; Korisniko suelje (interface); Podsistem za sravnjivanje.
Pronaene informacije
sravnjivanje
korisnici
Analiza upita
Upitni iskazi
Kuni sistemi za pronalaenje informacija slue korisnicima unutar neke organizacije On-line sistemi za pronalaenje informacija obezbeuju raznovrsnim korisnicima pristup udaljenim bazama podataka Javno dostupni (npr. OPAC) Pristup na komercijalnoj osnovi Baze podataka na CD-ROM ili DVD
Korienje digitalnih metoda za skladitenje i pronalaenje informacija je dovelo do fenomena koji je poznat kao zastarevanje digitalnih podataka (digital obsolescence), kada digitalni resurs vie ne moe da se proita bilo zato to fiziki medij ili ureaj koji ga ita vie nije dostupan, ili nije dostupan hardver ili softver koji se na njemu izvrava. Digitalne informacije je na poetku lake pronai nego one na papiru, ali u jednom trenutku, ako se na vreme ne prenesu na savremeniji medijum, one su potpuno izgubljene.
BBC Domesday Project je trebalo da obelei 900tu godinjicu originalnog dokumenta Domesday Book, koji predtsvlja popis stanovnitva Engleske iz XI veka.
Smeten je na laserskim diskovima (Laser Vision ReadOnly Memory LV-ROM format) prethodnik CD-ROM Softver je pisan na programskom jeziku BCPL (prethodnik jezika C) Slike su bile u analognom formatu (pre nastanka JPEG) ...