You are on page 1of 21

Pronaenje informacija

Cvetana Krstev as 1

Pronalaenje informacija ta je tu novo?

Engleski termin je Information Retrieval Koje je znaenje rei retrieval? Collins Cobuild:
If you retrieve sth, you succeed in getting it back from somewhere, especially from the place where you have hidden it or where it should not be. The men were trying to retrieve weapons left when the army abandoned the island

Oxford/Hornby:
get possession of again: retrieve a lost piece of lagguage

ta kae Wikipedia?

Information retrieval (IR) is the science of searching for documents, for information within documents, and for metadata about documents, as well as that of searching relational databases and the WWW. There is overlap in the usage of the terms data retrieval, document retrieval, information retrieval, and text retrieval, but each also has its own body of literature, theory, praxis, and technologies. IR is interdisciplinary, based on computer science, mathematics, library science, information science, information architecture, cognitive psychology, linguistics, statistics, and physics. Automated information retrieval systems are used to reduce what has been called "information overload". Many universities and public libraries use IR systems to provide access to books, journals and other documents. Web search engines are the most visible IR applications.

O nastanku discipline

Ideja: Ideja da bi se raunari mogli koristiti za traenje relevantnih informacija je u lanku As We May Think koji je objavljen 1945. godine (pre efektivnog korienja raunara) popularisao Vannever Bush (Bu) Termin: IR je skovao i prvi upotrebio Calvin Northrup Mooers zajedno sa terminom descriptor u svojoj magistarskoj tezi na MIT-u 1948. godine Realizacija: Da bi se prevazilo zaostajanje za SSSR-om u nauci, u SAD-u poinju poetkom 50-tih godina XX veka da se finansiraju istraivanja u oblasti mechanized literature searching systems i citation indexing

Malo istorije

60-te godine: prvi sistemi za pronalaenje informacija u kolekcijama manjeg obima (nekoliko hiljada dokumenata). Gerard Selton i sistem SMART (System for the Mechanical Analysis and Retrieval of Text) 70-te godine: Prvi on-line sistemi NLM's AIM-TWX, MEDLINE (Medical Literature Analysis and Retrieval System); Lockheed's Dialog (prvi sistem velikih dimenzija); SDC's ORBIT Poetak 90-tih godina: Ministarstvo odbrane SAD-a (US Department of Defense), zajedno sa Dravnim institutom za standarde i tehnologiju (National Institute of Standards and Technology - NIST), finansiraju konferenciju Text Retrieval Conference (TREC) sa ciljem da se istraivaima u oblasti IR obezbedi potrebna infrastruktura za evaluciju metodologija za pronaenje tekstualnih informacija u vrlo velikim kolekcijama dokumenata.

Bum 90-tih

1989: Tim Berners-Lee iz CERN-a je sainio prvi predlog World Wide Web-a. Kasne 90-te: U mainama za pretraivanje veba primenjena su mnoga napredna svojstva koja su ranije imali samo eksperimentalni IR sistemi. Maine za pretraivanje su postale najei i najbolji primer za modele, istraivanje i realizaciju u pronalaenju informaicja.

Razvoj pojma Pronalaenje informacija

Sistemi za pronalaenje dokumenata Sistemi za pronalaenje tekstualnih dokumenata


Savremeno pronalaenje dokumenata Pronalaenje dokumenata s punim tekstom

Sistemi za pronalaenje multimedijalnih dokumenata

Sistemi za pronalaenje dokumenata

Prvi sistemi za pronalaenje informacija Njihova svrha je bila da pronau informacije o postojanju ili nepostojanju bibliografskih dokumenata koja su relevantni za korisnikov upit. Ova dokumenta uz bibliografske podatke mogu da sadre kljune rei, apstrakt ili saetak, itd. Ovi sistemi ne informiu korisnika, tj. ne menjaju njegovo znanje o temi upita, ve mu samo govore da li postoje i gde se nalaze dokumenta koja su vezana za korisnikov zahtev.

Sistemi za pronalaenje tekstualnih dokumenata

Pojam pronalaenja informacija se sutinski promenio kada su poela da se skladite u digitalnom obliku kompletna dokumenta (pun tekst dokumenata) Ovi sistemi mogu da pretrauju ili po bibliografskim podacima ili se u tekstu dokumenta iz uskladitene kolekcije trai tekst koji je korisnik zadao kao upit

Sistemi za pronalaenje multimedijalnih dokumenata


Pojam sistema za pronalaenje informacija je na poetku znaio pronalaenje tekstualnih informacija Savremeni multimedijalni sistemi pronalaze multimedijalne informacije to osim teksta, podrazumeva slike, zvuk i pokretne slike. Mnoge tehnike koje se koriste za pronalaenje tekstualnih informacija se mogu primeniti i na multimedijalna dokumenta, iako su za njih razvijeni mnogi novi alati i tehnike. (Mi se time u okviru ovog kursa neemo baviti)

Odnos sistema za pronalaenje informacija i sistema za upravljanje bazama podataka


Sistemi za upravljanje (relacionim) bazama podataka Sistemi za rad s bibliografskim podacima

I u njima su sadrane injenice ali kao meta-podaci (podaci o podacima) o dokumentima koja se zapravo trae.

Sistemi za upravljanje (relacionim) bazama podataka

U njima su sadrane injenice kao vrednosti odgovarajuih atribita. Korisnik pretrauje i kao odgovor dobija injenice (npr. Koja je prosena starost vozaa u autobuskom preduzeu?) Podaci su u principu obavezni i unapred poznate (maksimalne) duine

Sistemi za rad s bibliografskim podacima

I u njima su sadrane injenice ali kao meta-podaci (podaci o podacima) o dokumentima koja se zapravo trae. I njih je mogue pretraivati po injenicama (npr. Koliko razliitih autora je objavljivalo kod Prosvete 1986. godine?) Ali najee se trae podaci koji e pomoi da se pronau potrebna dokumenta (na polici ili u bazi podataka) Karakteriu ih neobavezni podaci promenljive duine. Za njihov opis koriste formati iz familije MARC (MAchine Readable Cataloguing)

Sistemi za pronalaenje informacija

Trae se dokumenta koja u potpunosti, ali ee delimino, odgovaraju korisnikovom upitu. (Interesuju me tekstovi koji govore o maloletnikom nasilju na sportskim terenima) Otuda se sistemi za pronalaenje dokumenata sastoje od tri vane komponente: Informacione stavke; Korisniki upiti; Sravnjivanje upita sa bazom podataka dokumenta

ta sistem za pronalaenje informacija treba da radi


Analizira sadraj informacionih izvora kao i korisnikih upita i na osnovu toga Sravnjuje jedne i druge da bi pronaao one koju su za korisnika relevantni (najrelevantniji).

Na osnovu toga sledi da su glavne funkcije sistema za pronalaenje:


Identifikacija informacionih izvora koji su relevantni za oblast interesovanja ciljne grupe korisnika; Analiza sadraja informacionih izvora (dokumenata); Reprezentacija sadraja analiziranih izvora na nain koji bi bio pogodan za sravnjivanje s korisnikim upitima; Analiza korisnikih upita i njihova reprezentacija u obliku koji bi bio pogodan za sravnjivanje s bazom podataka dokumenata; Sravnjivanje upitnog iskaza sa uskladitenom bazom; Pronalaenje relevantnih informacija; Potrebno podeavanje odgovora na osnovu odziva korisnika.

Komponente sistema za pronalaenje informacija

Podsistem dokumenata; Podsistem za indeksiranje; Reniki podsistem; Podsistem za pretraivanje; Korisniko suelje (interface); Podsistem za sravnjivanje.

Opti nacrt sistema za pronalaenje


Informacioni izvori Analiza i reprezentacija Organizacija informacija

Pronaene informacije

sravnjivanje

korisnici

Analiza upita

Upitni iskazi

Tipovi sistema za pronalaenje informacija

Kuni sistemi za pronalaenje informacija slue korisnicima unutar neke organizacije On-line sistemi za pronalaenje informacija obezbeuju raznovrsnim korisnicima pristup udaljenim bazama podataka Javno dostupni (npr. OPAC) Pristup na komercijalnoj osnovi Baze podataka na CD-ROM ili DVD

Zastarevanje digitalnih podataka

Korienje digitalnih metoda za skladitenje i pronalaenje informacija je dovelo do fenomena koji je poznat kao zastarevanje digitalnih podataka (digital obsolescence), kada digitalni resurs vie ne moe da se proita bilo zato to fiziki medij ili ureaj koji ga ita vie nije dostupan, ili nije dostupan hardver ili softver koji se na njemu izvrava. Digitalne informacije je na poetku lake pronai nego one na papiru, ali u jednom trenutku, ako se na vreme ne prenesu na savremeniji medijum, one su potpuno izgubljene.

Primer zastarevanja digitalnog materijala

BBC Domesday Project je trebalo da obelei 900tu godinjicu originalnog dokumenta Domesday Book, koji predtsvlja popis stanovnitva Engleske iz XI veka.

Smeten je na laserskim diskovima (Laser Vision ReadOnly Memory LV-ROM format) prethodnik CD-ROM Softver je pisan na programskom jeziku BCPL (prethodnik jezika C) Slike su bile u analognom formatu (pre nastanka JPEG) ...

You might also like