You are on page 1of 276

Вовед во Дигитални

библиотеки
Дигитална библиотека
• Неформална дефиниција на дигитална
библиотека е управувана колекција од
информации, со соодветни придружни сервиси,
каде информациите се зачувани во дигитални
формати и може да бидат пристапени преку
мрежа.
• Wm Arms, Digital Libraries, 1999
• Фокусирана колекција од дигитални објекти,
вклучувајќи текст, видео, и аудио, вклучувајќи и
методи за пристап and извлекување објекти,
како и за селекција, организација и одржување
на колекцијата. --
• Witten and Bainbridge, How to Build a Digital
Library 2010
Дигитална библиотека
• Не само книги
– уметност, филмови, звучни записи,
ботанички примероци, култулорошки
објекти…
– WWW – “анархичен хаос” 
• дигитална библиотека≠
“дигитализирана библиотека”
Дигитална библиотека
• Две основни улоги:
– Корисник- пребарува и прелистува
колекции
– Библиотекар- овозможува соодветни
организациски структури и ги
одржува ефективно
Историја на библиотеките
• Steles – поставена од Song династијата
(1100 ПНЕ), 2,000 гравирани камени
плочи, 2-3 m високи, содржат поени,
приказни, или историски записи
• Средновековните манастирски и
универзитетски библиотеки содржеле
книги врзани со синџир во јавни
простории за читање
• 19ти век – патроните го прегледуваат
каталогот и избираат книги, кои им се
предаваат преку шалтер
Историја на библиотеките
• 20ти век – им се дозволува на
читателите да прегледуваат низ
полиците и самите да избираат
содржини (библиотеки со отворен
пристап)
• Денес – на праг на дигитални
библиотеки
Рани технолошки соништа -
Мemex
• Визијата на Vannevar Bush (1945)

“разгледајте уред од иднината, за индивидуална


употреба, кој претставува некој вид на
механизирани приватни документи и библиотека …
уред во кој една индивидуа ги чува своите книги,
записи, и комуникации, и кој е механизиран и може
да биде управуван брзо и флексибилно”
Извор на слики: kelty.rice.edu/375/images/memex/camera.jpg
http://www.knowledgesearch.org/presentations/etcon/images/memex.gif
Зошто дигитални библиотеки?
• Дигиталните библиотеки (ДБ) ги
носат библиотеките до корисникот
• Моќта на компјутерот се употребува
за пребарување и преглед
• Информациите може да се
споделуваат
• Информациите полесно се
одржуваат
• Информациите се секогаш достапни
• Возможни се нови форми на
информации
Технички развој
• Електронското складирање е
поевтино од хартија
• Персоналните компјутери и
останатите уреди (моб. телефони
и таблети) се дел од
секојдневниот живот
• Достапност на мрежи со големи
брзини
• Компјутерите се преносливи
Библиотечен каталог
• Виртуелна библиотека ги има сите
стандардни практични примени, но без
ѕидови или физички книги
• Дури и пред Александрија,
библиотеките се уредуваат според
содржина и имаат каталози кои го
содржат насловот на секое дело, број
на линии, содржина, и вовед
• 240 ПНЕ – индекс, за да се овозможи
пристап до книгите во Александрија
Библиотечен каталог
• Јасна разлика меѓу ДБ и World
Wide Web: во WWW недостига
основни карактеристики како
селекција и организација
• Библиотечен каталог – целосен
модел кој го претставува
универзумот на книгите во една
библиотека
– Во ДБ- метаподатоци (metadata -
податоци за податоци)
Основни концепти и
терминологија
• Податоци и метаподатоци
• Метаподатоци се податоци со кои
се опишуваат други податоци
– Информација за ресурси, вградена
или асоцирана со ресурсот.
• Јазикот на метаподатоците: XML
– eXtensible Markup Language
Основни концепти и
терминологија
• Општи категории на метаподатоци:
– дескриптивни, како библиографски
информации, структурни метаподатоци за
форматите и структурите, и
– административни, кои вклучуваат права,
согласности, и останати информации со кои
се управува пристап.
– Еден елемент на метаподатоците е
идентификатор, кој го идентификува
предметот во надворешниот свет.
Основни концепти и
терминологија
• Предмети во ДБ
– Предмети кои се зачувуваат во ДБ
– Најгенерален израз е материјали
– Попрецизен израз – дигитални
објекти
Основни концепти и
терминологија
• Објекти на библиотека
– Кориснички поглед на тоа што е
зачувано во библиотеката
– Пр. статија – Читателот ја гледа како
еден објект во библиотеката, но
најверојатно статијата на компјутер
се зачувува како повеќе посебни
објекти (страници од дигитализиран
текст, графици, дури и комп.
програми, или поврзани елементи
зачувани на оддалечен компјутер)
Основни концепти и
терминологија
• Презентација, споделување, и форма
на складирање на дигитални објекти
– Формата на зачувување на информациите
може многу да се разликува од формата
во која се употребуваат
– Форма на складирање на објект – пр.
комп. програма, податочна структура,
дигитализирана слика, и останати
податоци
– Кога дигиталната информација доаѓа на
корисничкиот компјутер - рендерирање
Дигитални библиотеки во
земји во развој
• Споделување хуманитарни
информации
– Додека во САД медицинската
библиотека се претплаќа на 5,000
списанија, библиотеката на
медицинскиот факултет во Nairobi
University, долг сметана како една од
најдобрите во Источна Африка,
добила само 20 списанија во 1998
Дигитални библиотеки во
земји во развој
• Помош при катастрофи
– Во ситуација на катастрофа има
голема потреба од информации:
информации кои помагаат за
тековниот проблем, организирани за
да може ефективно да се пристапат,
и дистрибуираат дури и во отсуство
на мрежна инфраструктура.
Дигитални библиотеки во
земји во развој
• Зачувување на култура
– Библиотеките и нивните блиски
роднини, музеите, секогаш биле
вклучени во зачувување на
културата
– Флексибилна и кохерентна
мултимедијална колекција која може
да се пребарува и прегледува во
повеќе димензии
Авторски права
• ДБ се многу попристапни од
физичките=> проблеми:
пристапот до информации во ДБ е
генерално помалку контролиран
отколку кај физичките колекции
Авторски права
• Закони за авторски права
– Поседување на копија на документ
не значи сопственост генерално
– Секој документ има еден сопственик
на авторски права (без разлика дали
е електронски или физички)
– Авторски право се однесува на
повеќе права(репродукција, дистри-
буција, јавно позајмување, друго)
– Законот за авторски права е
комплексен и се разликува од земја
до земја
Авторски права
• Јавен домен
– Дела кои не потпаѓаат на авторски
права се вели дека се од “јавен
домен,” (ЈД) (културно и
интелектуално наследство што секој
може да го користи)
– Авторското право не трае засекогаш;
кога истекува станува ЈД
– Според меѓународен договор на
конвенцијата во Berne Convention,
минимално траење е животниот век
на авторот плус 50 години
Авторски права
• Управување со дигитални права
– World Intellectual Property Organization
(WIPO) одлучува дека компјутерска
програма треба да биде заштитена како
литературно дело (и поставувањето и
одбирањето на материјалите во базата е
заштитен)
– Изразот “digital rights management” (DRM) се
однесува на контрола и заштита на диги-
тална содржина, вклучувајќи текст, слики,
видео и аудио. DRM ограничува што може
корисниците да прават со содржината
Авторски права
• Авторско право и дигитализација
– Ако делото е од јавен домен – може да се
дигитализира без дозвола
– Ако материјалот е дониран на институција за
дигитализација, донорот е сопственик на
авторското право
– Градење на дигитална библиотека бара
сериозно внимание на авторски права
Авторски права
• Содржини од Интернет
– Легалниот статус на документите на World
Wide Web не е добро прецизиран
– Некои правници дискутираат дали е воопшто
легално да се гледаат документи на
Интернет, бидејќи пребарувачот прави копии
без експлицитна дозвола
Авторски права
• Содржини од Интернет
– ДБ се организирани колекции од инфор-
мации. Интернет е полн со неорганизирани
информации. Организација на содржините
на Интернет со цел да бидат покорисни е
област на ДБ
– Пребарувачите користат софтвер да најдат и
симнат содржини и да креираат индексна
содржините (легалниот статус не е јасен)
Авторски права
• Содржини од Интернет
– Повеќето ДБ нудат подетално пребарување
и прегледување отколку пребарувачите
– Ги зачувуваат документите локално,за да
овозможат достапност
– Одговорните за таквите библиотеки треба да
внимаваат на етичките и легалните права
Etana – ДБ за археологија
Google Books Проект

• Michael A. Keller
– Ida M. Green University Librarian at
Stanford,
– Director of Academic Information
Resources,
– Publisher of HighWire Press, and
– Publisher of the Stanford University Press:
• “Едно добро дело заслужува друго;
така Google Book Search проектот е
добар за сите".
Google Books демо

• Целосен текст - Life of Miguel de


Cervantes
• Делумен преглед - The Life of
Miguel de Cervantes Saavedra
• Исечоци (snips)- "Discreción" in
the Works of Cervantes: A
Semantic Study
Што е постигнато
• Од септември 2006
• До октомври 2015 – 25 милиони книги
• Приближно 30,000 Stanford книги
дигитализирани
– ~1M книги од партнерски библиотеки
• Започна голема дебата за авторски права
– Дела “сирачиња”
– Како да се овозможи пристап
– Одбрана со фер употреба

This slide is taken from the presentation by Michael A. Keller at ECDL 2006
Оригинални принципи
• Ако е легално возможно, да се дигитализира
секоја книга (9 мил.) од Stanford библиотеката
– Во моментов до 1963 год.
• Партнерски библиотеки (*подоцна додадени)
– University of Michigan (слична на Stanford)
– Harvard (јавен домен, можеби > 1 мил.)
– NYPL (јавен домен, необични колекции)
– Oxford - Bodleian (пред 1885, ~ 1 мил. наслови)
– University of California (слична на Stanford >6M)
– Други ќе следат

This slide is taken from the presentation by Michael A. Keller at ECDL 2006
Намени
• Дигитална презервација
• Останати пребарувања и истражувања
– Суптилно пребарување
– Таксономија и асоцијативно пребарување
– Поврзување според цитати
– Подобра навигација
• Дигитализиран книги од различни извори во
корист на нови истражувања; комбинирани
со статии, податочни множества, итн. За
податочно рударење и други намени

This slide is taken from the presentation by Michael A. Keller at ECDL 2006
Некои заклучоци
• Google Books
– Е проект за индексирање, не објавување
– Овозможува поголем пристап до содржините на
книгите со пребарување по клучен збор
– На издавачите им нуди глобален пазар
– Дополнителни услуги на корисниците
• На библиотеките учесници нуди
– Дигитализирани копии на книгите од нивните
полици за презервација
– Нови можности за услуги на читателите
– Нови можности за истражувања на факултетите
и студентите
This slide is taken from the presentation by Michael A. Keller at ECDL 2006
Google statement
• “Many of the books in Google Book Search come from authors and
publishers who participate in our Partner Program. For these books,
our partners decide how much of the book is browsable -- anywhere
from a few sample pages to the whole book.

• For books that enter Book Search through the Library Project, what
you see depends on the book's copyright status. We respect copyright
law and the tremendous creative effort authors put into their work. If
the book is in the public domain and therefore out of copyright, you
can page through the entire book and even download it and read it
offline. But if the book is under copyright, and the publisher or author
is not part of the Partner Program, we only show basic information
about the book, similar to a card catalog, and, in some cases, a few
snippets -- sentences of your search terms in context. The aim of
Google Book Search is to help you discover books and learn where to
buy or borrow them, not read them online from start to finish. It's like
going to a bookstore and browsing - with a Google twist.”

http://books.google.com/support/bin/answer.py?answer=43729&topic=9259&hl=en
Имплементација на ДБ:
Greenstone
• Софтвер соодветен за градење одржување и
дистрибуција на ДБ содржини
• Обемен, open-source
• Развиен од New Zealand Digital Library Project на
University of Waikato
• Партнери:
– UNESCO
– Human Info NGO, Belgium
– NCSI, Bangalore; UCT, Cape Town;
Dakar, Senegal; Almaty, Kazakhstan; …
– ТИ!
Greenstone терминологија
• Библиотека може да вклучува повеќе
колекции со информации, секоја
креирана според потребите на
корисниците.
• Колекција се содржи од неколку
(типично илјадници или милиони)
документи.
Greenstone терминологија
• Документи се основна единица од која
се градат колекциите; може да имаат
внатрешна структура, алтернативна
презентација или дополнителни фајлови.
Документите може да содржат текст,
слики, звук или видео; колекциите може
да вклучуваат различни типови на
документи.
• Метаподатоци се библиографски
информации на секој документ.
Greenstone особини
• Open Source Philosophy • Full-text mirroring
• Interfacing & Content • Text Level Penetration
Delivery via Web
• Data Compression
• Multi S/W Platform
• Password protection
• Multi Lingual Support
• Multi Formats • Administrative
Functions
• Structured Metadata in
XML using DC • Concurrent & Dynamic
Content Development
• Metadata Extraction
• Uniform Presentation
• Searching & Browsing
• Plug-ins for Documents • Publishing on CDROMs
• International Presence
Greenstone особини
• Easy Installation
• Easy Maintenance
• Content Development (3 alternate ways)
• Predominantly GLI now - since (V. 2.41)
• Hierarchy Structure
• Interface Customization
– Front Page Design, Header for the Digital Library,
Collection Icon, Cover Images
• Collection Configuration (Collect.cfg) File
• Scalability, Flexibility
• Interoperability (Crosswalk), OAI Compliance
• Lifeline : Listserv / E-Group / Archives
Референци
• How to Build a Digital Library, I.H Witten, D.
Bainbridge,D.M.Nichols (Morgan Kaufmann, 2009) –
Chapter 1
• Digital Libraries, William Y. Arms (MIT Press, 2000) –
Chapter 1
Вовед во XML
Extensible Markup Language
Што е XML

• XML е кратенка за eXtensible Markup


Language.
• Означувачки јазик кој се употребува за
описни информации за документ.
• Таговите се додаваат во документот за да
овозможат дополнителни информации.
• HTML таговите му кажуваат на прелистувачот
како да прикаже документ.
• XML даваат идеја што значат некои од
податоците.
Предности на XML

• XML е текст (Unicode) базиран.


–Зазема малку простор.
–Ефикасно може да биде трансформиран.
• Еден XML документ може различно да се
прикажува на различни медиуми.
–Html, видео, CD, DVD,
• XML документите може да бидат модуларни.
Може да се реискористуваат делови.
Пример на HTML документ

<html>
<head><title>Example</title></head.
<body>
<h1>This is an example of a page.</h1>
<h2>Some information goes here.</h2>
</body>
</html>
Пример на XML документ

<?xml version=“1.0”/>
<address>
<name>Alice Lee</name>
<email>alee@aol.com</email>
<phone>212-346-1234</phone>
<birthday>1985-03-22</birthday>
</address>
Разлика меѓу HTML и XML

• HTML имаат фиксно значење кое


прелистувачите го знаат.
• XML таговите за различни за различни
примери, и корисниците знаат што
значат.
• HTML таговите се користат за приказ.
• XML таговите се користат да опишат
документи и податоци.
XML Правила

• Таговите се затвораат со аглести


загради.
• Таговите доаѓаат во парови: отворен и
затворен таг.
• Таговите мора соодветно да бидат
вгнездени.
–<name><email>…</name></email> не е дозволено.
–<name><email>…</email><name> е.
• Таговите кои немаат затворен таг
завршуваат со ‘/’.
–<br /> е html пример.
Уште XML правиле

• Таговите се case sensitive.


–<address> не е исто со <Address>
• XML не е дозволен како дел од таг.
• Таговите не смеат да содржат ‘<‘ или ‘&’.
• Таговите ги следат Java правилата за
именување. Мора да почнат со буква и не
смеат да содржат празно место.
• Документите мора да имаат еден корен таг
кој го започнува документот.
XML пример повторно
<?xml version=“1.0”/>
<address>
<name>Alice Lee</name>
<email>alee@aol.com</email>
<phone>212-346-1234</phone>
<birthday>1985-03-22</birthday>
</address>
• Ознаките за податоците ја прикажуваат намената.
• Обичен текстуален документ не е толку јасен.
Alice Lee
alee@aol.com
212-346-1234
1985-03-22
• Последната линија изгледа како датум, но за што?
Проширен пример
<?xml version = “1.0” ?>
<address>
<name>
<first>Alice</first>
<last>Lee</last>
</name>
<email>alee@aol.com</email>
<phone>123-45-6789</phone>
<birthday>
<year>1983</year>
<month>07</month>
<day>15</day>
</birthday>
</address>
XML документите се дрва

address

name email phone birthday

first last year month day


XML Дрва

• XML документ има еден јазол за корен.


• Генерално N-арно подреден дрво.
–Секој јазел родител може да има
произволен број деца.
–Децата се подредени и може да имаат
братчиња/сестричиња.
• Вообичаено се употребува preorder
изминување за добивање информации
од дрвото.
Валидност

• Добро формиран документ има дрво


структура и ги следи сите XML правила.
• При соодветна примена може да се додадат
повеќе правила или во DTD (document type
definition) или во шема.
• Многу специјализирани DTDа и шеми се
креирани за да опишат конкретни области.
• DTDа прво се развиени, па не се толку
опширни како шемите.
Document Type Definitions

• DTD ја опишува дрво структурата на


документот и нешто за податоците.
• Постојат два податочни типови, PCDATA
иCDATA.
–PCDATA е парсирани податоци од
карактери.
–CDATA е податоци од карактери, не се
парсира .
• DTD одредува колку пати може да се
појави даден јазол, и како се
подредуваат децата.
DTD пример за адреса

<!ELEMENT address (name, email, phone, birthday)>


<!ELEMENT name (first, last)>
<!ELEMENT first (#PCDATA)>
<!ELEMENT last (#PCDATA)>
<!ELEMENT email (#PCDATA)>
<!ELEMENT phone (#PCDATA)>
<!ELEMENT birthday (year, month, day)>
<!ELEMENT year (#PCDATA)>
<!ELEMENT month (#PCDATA)>
<!ELEMENT day (#PCDATA)>
Шеми

• Шемите само по себе се XML документи.


• Стандардизирани се по DTDа и нудат повеќе
информации за документот.
• Содржат типови на податоци вклучувајќи
string, decimal, integer, boolean, date, и time.
• Ги делат елементите во едноставни и
комплексни типови.
• Ја одредуваат структурата на дрвото и колку
деца може секој јазол да има.
Шема пример за адреса
<?xml version="1.0" encoding="ISO-8859-1" ?>
<xs:schema
xmlns:xs="http://www.w3.org/2001/XMLSchema">
<xs:element name="address">
<xs:complexType>
<xs:sequence>
<xs:element name="name"
type="xs:string"/>
<xs:element name="email" type="xs:string"/>
<xs:element name="phone"
type="xs:string"/>
<xs:element name="birthday"
type="xs:date"/>
</xs:sequence>
</xs:complexType>
</xs:element>
</xs:schema>
Објаснување на пример шшемата
<?xml version="1.0" encoding="ISO-8859-1" ?>
• ISO-8859-1, Latin-1, е исто како и UTF-8 во првите 128
карактери.
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema">
• www.w3.org/2001/XMLSchema содржи шема стандарди.
<xs:element name="address">
<xs:complexType>
• Ова кажува дека address е комплексен тип на елемент.
<xs:sequence>
• Ова кажува дека следните елементи формираат секвенца и
мора да дојдат во прикажаниот редослед.
<xs:element name="name" type="xs:string"/>
• Ова кажува дека елементот name мора да биде string.
<xs:element name="birthday" type="xs:date"/>
• Ова кажува дека елементот birthday е датум. Датумите се
секогаш во форма yyyy-mm-dd.
XSLT
Extensible Stylesheet Language Transformations

• XSLT се употребува за трансформација на


еден xml документ во друг, често html
документ.
• Програма зема како влез еден xml документ и
произведува како излез друг.
• Ако излезниот документ е во html, може да
биде прикажам во веб прелистувач.
Style Sheet за трансформација на примерот

<?xml version="1.0" encoding="ISO-8859-1"?>


<xsl:stylesheet version="1.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:template match="address">
<html><head><title>Address
Book</title></head>
<body>
<xsl:value-of select="name"/>
<br/><xsl:value-of select="email"/>
<br/><xsl:value-of select="phone"/>
<br/><xsl:value-of
select="birthday"/>
</body>
</html>
</xsl:template>
</xsl:stylesheet>
Резултат од трансформацијата

Alice Lee
alee@aol.com
123-45-6789
1983-7-15
Референци

• Elliotte Rusty Harold, Processing XML with


Java, Addison Wesley, 2002.
• Elliotte Rusty Harold and Scott Means,
XML Programming, O’Reilly & Associates,
Inc., 2002.
• W3Schools Online Web Tutorials,
http://www.w3schools.com.
Метаподатоци
Содржина

• Метаподатоци и карактеристики
• Библиографски метаподатоци
• Метаподатоци за мултимедија

4
Содржина

• Метаподатоци и карактеристики
• Библиографски метаподатоци
• Метаподатоци за мултимедија

4
Цели на библиографски систем

• Да се овозможи на корисникот да најде


книга ако го знае авторот, насловот или
областа
• Да прикаже што содржи библиотеката
за даден автор, на дадена тема, или за
даден тип
• Да помогне при изборот на книга
базирано на изданието (библиографски)
или карактерот (литературен или по
тема)
4
Метаподатоци

• Критични за сите форми на организирани


дигитални содржини
• Средство за организација на дигитални
библиотеки
• Претставуваат структурирани информации за
даден дигитален ресурс
• Информацијата е “структурирана” ако може
да се разбира и управува со нејзе, без притоа
да се разбира содржината
Метаподатоци

• Постојат повеќе пристапи да се


класифицираат метаподатоците, во зависност
од изворот, намената, целната група и
форматот
• Во ДБ, значаен е изворот на метаподатоците,
т.е. од каде доаѓаат
• Пр. Ако знаеме дека авторот на еден word
документ е Трпе Николоски, постојат две
можности: или човек ја има доделено
вредноста или комп. програма го има
одредено идентитетот на авторот
Метаподатоци
• Податоци доделени од човек – човек го
прегледува дигиталниот документ и доделува
дадена вредност на даден метаподаточен
елемент
–Личност (најчесто библиотекар) може да
консултира други личности или документи во
процесот
• Податоци доделени од компјутер – комп.
програма го процесира дигиталниот документ
(со споредба со други документи или со
употреба на оддалечени ресурси) и доделува
дадена вредност на даден метаподаточен
елемент
Метаподатоци
• Ако податокот е роден дигитално (на пр. word
документ или дигитална камера)
метаподатоците се вградени во документот во
моментот на креирање
• Вградените метаподатоци вообичаено се
извлекуваат од дигиталните објекти
• За специфичен библиотечен систем
метаподатоците може да бидат превземени од
надворешен извор (иако во даден момент
потекнуваат од човек)
• Многу формати на фајлови содржат вградени
метаподатоци
Типови според функции
• Административни – за раководење со
ресурсите, пр. како авторски права
• Описни – за опис на ресурсите (како на
следната слика)
• Презервациски – пр. како акции за
зачувување на запис
• Технички – пр. како податочни формати или
употребена компресија
• За употреба – пр. како за следење на
однесувањето на корисникот
Пример за картичка од каталог
на книга
Содржина

• Метаподатоци и карактеристики
• Библиографски метаподатоци
• Метаподатоци за мултимедија

4
Библиографија
• Во овој контекст: историски или систематски
опис на книги, нивните автори, авторски
права, печатење, публикација, изданија итн...
Библиографски метаподатоци
• MARC
• MARCXML
• Dublin Core: DC
• Qualified Dublin Core
• MODS
• BibTeX
• EndNote
MARC
• MARC - machine-readable cataloging
• Стандард развиен во доцните 60ти од
Henriette Avram
• Обемен и детален стандард
• Креирање на MARC запис за публикација е
мачен подвиг кој се управува со детално
множество на правила и упатства наречено
Anglo-American Cataloging Rules (AACR2R)
AACR2R упатство
• Правилата се поделени во 2 дела
• Дел 1: највеќе се однесува на опис на
документи
• Дел 2: се однесува на опис на работата
–Пр. Наслови, Униформни наслови, Референци
–Кај Наслови се опишува како да се напишат
имињата на луѓето, географските имиња, правила
за употреба на големи букви, скратеници итн...
Пример метаподатоци за книга
Пример MARC податоци за
истата книга
MARC записи
• Се зачувуваат како колекција од означени
полиња во доста комплексен формат
• Многу од полињата содржат
идентификациски кодови
–Пр. Полето 008 содржи податочни елементи со
фиксна големина како извор на каталогизација и
јазик на кој е напишана книгата
MARC записи
• Многу од полињата со променлива содржина
содржат подполиња означени со a,b,c итн...
секое со свое значење
–Пр. Полето 100 е името на авторот, додека
подполињата вклучуваат стандардна форма на
името, сите имиња и датуми
–Пр. Полето 260 го опишува печатењето, а неговите
подполиња го даваат местото на печатење,
издавачот и датумот
• Некои полиња може да се јават повеќе пати
–Како на пр. Полето 650
Значење на MARC полиња
Поле Значење
1 Control number uniquely identifying the record
5 Date and time that the record was last modified
8 Fixed fields
10 Library of Congress control number
15 National Bibliographic number
35 System control number
40 Cataloging source
50 Library of Congress classification
82 Dewey classification
100 Main entry—personal name
260 Imprint: place of publication, publisher, date
300 Physical description
500 General note
504 Bibliography note
650 Subject entry
650 Subject entry
906,
985, Tags in the 900 range are reserved for local use, and are used by vendors,
991 systems, or individual libraries to exchange additional data
MARC
• Правилата и деталното форматирање на
MARC стандардот овозможува записите да се
разменуваат меѓу различни системи за
библиотеки
• Наместо да се креира нов запис за книга, се
креира еднаш и потоа се споделува
• Пр. WorldCat каталогот на Online Computer
Library Center содржи повеќе од 125 милиони
записи од 112 земји
MARC комуникациски формат
MARC комуникациски формат
MARCXML
• Презентација на MARC податоци со XML
• Кодовите се претставени на вредности на
атрибути во datafield елементите
• Во овие елементи subfield ги претставуваат
подполињата
Пример за MARCXML запис (1)
<?xml version="1.0" encoding="UTF-8"?>
<record xmlns="http://www.loc.gov/MARC21/slim" ...>
<leader>00965cam a22002414a 4500</leader>
<controlfield tag="001">12791256</controlfield>
<controlfield tag="005">20071130191532.0</controlfield>
<controlfield tag="008">020529s2003 cau 000 0 eng </controlfield>
<datafield tag="035" ind1=" " ind2=" ">
<subfield code="a">(DLC) 2002107327</subfield> </datafield>
...
Пример за MARCXML запис (2)
<datafield tag="010" ind1=" " ind2=" ">
<subfield code="a"> 2002107327</subfield> </datafield>
<datafield tag="020" ind1=" " ind2=" ">
<subfield code="a">1558607900 (alk. paper)</subfield>
</datafield>
<datafield tag="042" ind1=" " ind2=" ">
<subfield code="a">pcc</subfield> </datafield>
<datafield tag="100" ind1="1" ind2=" ">
<subfield code="a">Witten, Ian H.</subfield> </datafield>
<datafield tag="245" ind1="1" ind2="0">
<subfield code="a">How to build a digital library /</subfield>
<subfield code="c">Ian H. Witten, David Bainbridge.</subfield>
</datafield>
<datafield tag="260" ind1=" " ind2=" ">
<subfield code="a">San Francisco, CA :</subfield>
<subfield code="b">Morgan Kaufmann Publishers,</subfield>
<subfield code="c">c2003.</subfield> </datafield>
...
</record>
Dublin Core
• Множество од метаподаточни елементи
дизајнирано специфично за употреба од
страна на “не-специјалисти”
• Наменет за опис на електронски материјали
(како на пр. Веб страници)
• Многу поедноставен од MARC
• Се состои само од 15 елементи (за разлика од
неколкуте стотици кои ги содржи MARC) и
секој елемент може да биде употребен
повеќекратно
Dublin Core елементи
Елемент Опис
Title The name given to the resource by the creator or publisher
The person or organization primarily responsible for the intellectual content of the
Creator resource
Subject The topic of the resource
Description A textual description of the content of the resource
Publisher The entity responsible for making the resource available
A person or organization (other than the Creator) who is responsible for making
Contributor significant contributions to the intellectual content of the resource
Date A date associated with the creation or availability of the resource
Type The nature or genre of the content of the resource
Format The physical or digital manifestation of the resource
Identifier An unambiguous reference that uniquely identifies the resource within a given context
Source A reference to a second resource from which the present resource is derived
Language The language of the intellectual content of the resource
Relation A reference to a related resource, and the nature of its relationship
Coverage Spatial locations and temporal durations characteristic of the content of the resource
Rights Information about rights held in the resource
Dublin Core
• Се употребува генералниот израз ресурс за
се што може да биде опишано – слики,
илустрации, филмови, анимации, симулации
итн... како и текстуални документи
Пример за Dublin Core запис
<?xml version="1.0" encoding="UTF-8"?>
<srw_dc:dc xmlns:srw_dc="info:srw/schema/1/dc-schema"
xmlns="http://purl.org/dc/elements/1.1/"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="info:srw/schema/1/dc-schema
http://www.loc.gov/z3950/agency/zing/srw/dc-schema.xsd">
<title>How to build a digital library /</title>
<creator>Witten, Ian H.</creator>
<type>text</type>
<publisher>San Francisco, CA : Morgan Kaufmann
Publishers,</publisher>
<date>c2003.</date>
<language>eng</language>
<identifier>http://www.loc.gov/catdir/description/els031/2002107327
.html</identifier>
<identifier>http://www.loc.gov/catdir/toc/els031/2002107327.html</i
dentifier>
<identifier>URN:ISBN:1558607900 (alk. paper)</identifier>
</srw_dc:dc>
Qualified Dublin Core
• Проширување на Dublin Core
• Две форми на квалификација се додадени:
–element refinement
–encoding schemes
• Секој елемент може да биде дорафиниран
или доквалифициран
–Пр. Елементот Date може да биде дорафиниран
како date created, date valid, date available, date
issued, или date modified
• Encoding schemes ги дефинираат дозволените
рангови на вредностите на елементите
Qualified Dublin Core
Qualified Dublin Core
Metadata Object Description Schema: MODS

• Metadata Object Description Schema (MODS) е


библографски XML-базиран формат и
преставува подмножество од MARC
Пример за MODS запис (1)
<?xml version="1.0" encoding="UTF-8"?>
<mods xmlns="http://www.loc.gov/mods/v3" ...>
<titleInfo>
<title>How to build a digital library</title></titleInfo>
<name type="personal">
<namePart>Witten, Ian H.</namePart>
<role><roleTerm type="text"
authority="marcrelator">creator</roleTerm></role>
</name>
<typeOfResource>text</typeOfResource>
<originInfo>
<place><placeTerm type="code"
authority="marccountry">cau</placeTerm></place>
<place><placeTerm type="text">San Francisco, CA</placeTerm></place>
<publisher>Morgan Kaufmann Publishers</publisher>
<dateIssued>c2003</dateIssued><dateIssued
encoding="marc">2003</dateIssued>
<issuance>monographic</issuance></originInfo>
<language>
<languageTerm type="code" authority="iso639-
2b">eng</languageTerm></language>
Пример за MODS запис (2)
<physicalDescription>
<form authority="marcform">print</form>
<extent>518 p. ; 24 cm.</extent> </physicalDescription>
<relatedItem type="series">
<titleInfo><title>Morgan Kaufmann series in multimedia information and
systems</title>
</titleInfo></relatedItem>
<identifier type="isbn">1558607900 (alk. paper)</identifier>
<identifier
type="uri">http://www.loc.gov/catdir/toc/els031/2002107327.html</identif
ier>
<relatedItem type="otherVersion">
<location>
<url displayLabel="Table of contents">
http://www.loc.gov/catdir/toc/els031/2002107327.html</url></location>
</relatedItem>
<recordInfo>
<descriptionStandard>aacr2</descriptionStandard>
<recordCreationDate encoding="marc">020529</recordCreationDate>
<recordChangeDate encoding="iso8601">20071130191532.0</recordChangeDate>
</recordInfo> </mods>
BibTeX

• Се употребува во научни и технички области


• Секој запис започнува со @ и типот на
записот. Индивидуалните полиња се во
формат name=value, одделени со запирка

Пример:
@book{863700,
author = {Ian H. Witten and Bainbridge, David},
title = {How to Build a Digital Library},
year = {2003},
isbn = {1558607900},
publisher = {Elsevier Science Inc.},
address = {New York, NY, USA},
}
EndNote

• За генерална употреба (пр. интегриран so


word)
• Се форматира линија по линија и записите се
одделени со празна линија. Секоја линија
започнува со клучен збор за информацијата
која линијата ја содржи
Пример:
%0 Book
%1 863700
%A Ian H. Witten
%A David Bainbridge
%T How to Build a Digital Library
%D 2003
%@ 1558607900
%P 552
%I Elsevier Science Inc.
EndNote
клучни
зборови
Содржина

• Метаподатоци и карактеристики
• Библиографски метаподатоци
• Метаподатоци за мултимедија

4
Метаподатоци за мултимедија
• Метаподатоци за слики
• Метаподатоци за аудио
• Метаподатоци за видео
• Метаподатоци за мултимедија
Метаподатоци за слики
• Дел од форматите на слики вклучуваат некои
метаподатоци
–Пр. GIF и PNG вклучуваат висина и ширина, бр на
битови по пиксел, PNG специфицира
репрезентација на боја и може да зачувува
стрингови како метаподатоци, JPEG дефинира
хоризонтална и вертикална резолуција
• TIFF
• EXIF, XMP/IPTC, и MIX
TIFF
• Tagged Image File Format (TIFF)
• Направен во 80тите
• Adobe е денес сопственик
• Еден TIFF фајл може да содржи повеќе слики
• Опширни описни метаподатоци (за секоја слика)
• Содржи информации за:
–Должина и ширина на слика
–Тип на употребени компресии
–Име и број на страна (за слики на повеќе страни)
–Метрики поврзани со спецификација на боја
–Итн...
Дел од TIFF таговите
Димензии Должина и ширина на слика (во пиксели)
Мерка на резолуција (none, inch, cm)
X и Y резолуција (пиксели во една резолуциска единица)
Боја Фотометричка интерпретација (црно-на-бело или бело-на-црно)
Битови по примерок (1 за bilevel, 4 до 8 за grayscale)
Семплови во пиксел (за RGB): обично по 3
Мапа на бои (за palette-color): табела на бои
Компресија За bilevel: некомпресирана, пакувана во бајти, CCITT компресија,
byte-oriented run-length кодирање
Други: некомпресирана, byte-oriented run-length кодирање
Локација на Број на редови по лента, offset на лентата, бр. бајтови по лента
податоци
Опционални Име на документ, Име на страна (обично бр. на страна),
полиња Креатор, Опис на слика (слободен текст), софтверска програма
која ја генерирала сликата, датум и време на креирање,
компјутер на кој е креирана, марка и модел на опрема со кој е
скенирана сликата (ако е скенирана)
TIFF формат
TIFF метаподатоци пример
TIFF метаподатоци пример
(ЕXIF рамка)
EXIF, XMP/IPTC, и MIX

• Exchangeable Image File Format (EXIF) –


стандард за вградување технички
метаподатоци за слики, го користат многу
произведувачи на фотоапарати и го
поддржуваа многу софтвери за обработка на
слики
• EXIF метаподатоците може да бидат вградени
во TIFF, JPEG и PNG слики
• EXIF метаподатоците се добиваат од
последната апликација што ја зачувала
сликата
Запис на EXIF метаподатоци (1)
Запис на EXIF метаподатоци (2)
EXIF, XMP/IPTC, и MIX
• Extensible Metadata Platform (XMP) е креиран
од Adobe за вградување метаподатоци во
слики и PDF документи
• XMP вредностите се изразуваат со XML со
употреба на дел од RDF
• Флексибилен модел – пр. дозволува
структурни метаподатоци да се дефинираат
независно за различни страници во
документот
• Се вградуваат во фајловите во сериализиран
Packet. Мехнизмите зависат од форматот на
фајлот
EXIF, XMP/IPTC, и MIX

• Метаподатоци може да се изразуваат во


различни шеми и да се додаваат нови шеми
(пр. надворешни DublinCore и EXIF или
внатрешни)
• Може да се употребува на различни типови
на формати како GIF, PNG, JPEG, JPEG 2000,
Photoshop, MP3, MPEG-4, HTML и WAV
• IPTC Photo Metadata 2008 стандардот е
имлементиран како XMP шема
EXIF, XMP/IPTC, и MIX

• Metadata for Images in XML (MIX) стандард кој


(како EXIF) опишува технички (наместо
дескриптивни) метаподатоци
• Опишува карактеристики како резолуција на
скенер, изложеност на камера, софтвер итн...
Дел MIX документ за фотографија (1)
Дел MIX документ за фотографија (2)
Аудио метаподатоци
• Иако често се употребуваат надворешни
шеми (како DublinCore), некои формати
содржат метаподатоци
• MP3 – ID3 (IDentify an MP3) тагови,
опционални
• ID3v2 може да содржи текст, слики и
технички податоци. Се поставуваат на
почетокот на фајлот во вид на рамки (пр.
композитор, должина, авторски права итн..)
• WAV е форма на RIFF фалј кој се содржи од
chunks, типот INFO chunk содржи
метаподатоци
Видео метаподатоци
• Често користените формати како AVI, MPEG-4,
Flash, или Ogg овозможуваат вградени
метаподатоци
• MPEG-4 е произлезен од Apple и има
метаподатоци (како и аудио AAC форматот) со
тагирање со користење на генеричкиот user-
data (“udta”) атом
• MPEG-2 нема поддршка за текстуални
метаподатоци
Видео метаподатоци
• Material Exchange Format (MXF) е нов формат
кој може да содржи многу типови на податоци
за видео, независно од платформата. Се
базира на клучеви (пр. Titles:MainTitle).
Мултимедијални метаподатоци MPEG-7
• Поранешно наречен multimedia content
description interface
• Опишува мултимедијални содржини
• Аудиовизуелни материјали како слики, 3Д
модели, аудио, говор, видео и нивна
комбинација
• Има широк обем на користење
Мултимедијални метаподатоци MPEG-7
• Се базира на 4 компоненти:
–Descriptors ,
–Description Schemes,
–Description Definition
–Language,
–Systems Tools
Мултимедијални метаподатоци MPEG-7
• Descriptors - low-level карактеристики, како
квалитет на содржина (пр. од статистички
модел на амплитуда на сигнал до
фрекферција, емоционална содржина, модел
на ефект на звук итн...)
• Постојат различни дескриптори за аудио,
визулени и мултимедијални податоци
Мултимедијални метаподатоци MPEG-7
• Description Schemes – специфицираат типови
на дескриптори и нивната релација со други
шеми. Се користи Description Definition
Language (DDL).
• Заедно со Descriptors го генерираат описот
• MPEG-7 описите можат да бидат внесени
рачно или автоматски (како на следниот пр.)
• Некои особини (како боја и текстура) може
автоматски да се добијат, додека други (како
опис на сцена) не може
Пример на MPEG-7 опис
Мултимедијални метаподатоци MPEG-21
• MPEG-21 е широк и амбициозен стандард кој
ги поврзува креаторите на мултимедија со
потрошувачите заради контрола на содржина
(т.е. да спречи нелегално споделување на
содржини)
• Се базира на два концепти:
–Дигитален запис (видео или музички албум и
метаподатоци) – дефиниран со Digital Item
Declaration (DID)
–Корисничка интеракција со записот - Rights
Expression Language (во XML) дефинира права за
употреба на ресурс при дадени услови
Референци

• How to Build a Digital Library, I.H Witten,


D. Bainbridge,D.M.Nichols (Morgan
Kaufmann, 2009) – Глава 6.1-6.4
Работа со текстуални документи
Содржина

• Презентација на текстуални документи


• Слики со текст
• Web документи: HTML, CSS и XSL
• PostScript и PDF
Содржина

• Презентација на текстуални
документи
• Слики со текст
• Web документи: HTML, CSS и XSL
• PostScript и PDF
ASCII

• ASCII (American Standard Code for


Information Interchange) преставува
множество од карактери (т.е. Нивни
вредности) за стандардизирана
презентација на текст
• Секој код – 7 бита
• Кодовите 0-32: Контролни
• Кодовите 48-57: Цифри
• Кодовите 65-90: Големи букви
• Кодовите 97-122: Мали букви
Дел од ASCII табелата
ASCII

• Проблем со останатите јазици


• Проширувања: Употреба на кодовите
128-255 за non-Roman карактери
• Пр. ISO 8859-1 – Проширување за
западно-европски земји
• Пр. ISO 8859-5 – Проширување за
кирилични писма
• За не-европски јазики (како Hebrew и
кинески) ASCII не е релевантен
ISO 8859-5
Unicode

• Наследник на ASCII
• Главна цел: Преставување на текст од
јазици од целиот свет
• Unicode е унивезален – секој документ
со било кое постоечко множество од
карактери може да биде мапирано во
Unicode
• Популарен метод за презентација на
Unicode – UTF-8 – шема на кодирање со
варијабилна должина
Обичен текст
• Текстуален документ се содржи од низа
од карактери кои се интерпретираат на
стандарден начин: од лево кон десно,
од горе кон доле
• Не постои заглавје (header) кое кажува
кое множество од карактери се
употребува
• При употреба на 8-битен ISO ASCII и
употреба на истиот документ на
различни апликации или компјутери
карактерите во ранг 128-255 може да не
се прикажат точно
Обичен текст

• Се форматира на едноставен начин (т.е.


со употреба на нови линии – line breaks)
–Параграфите се одделуваат со 2
последователни нови реда
–Табулација се употребува за
интендација
–Се употребува фонт со фиксна должина
–Нагласување на текст со _ или * (Пр.
_вака_ или *вака*)
Обичен текст
• Различни системи различно означуваат
нова линија (line break)
–ASCII кодот 10 – LF (line-feed) го носи
документот една линија погоре но се чува
позицијата
–ASCII кодот 10 – CR (carriage-return) враќа
на лева маргина
–Windows: Нова линија се креира со
употреба прво на CR па LF
–Unix и Apple: прво LF па CR
• Денешните програми ги кријат овие
разлики
Индексирање

• Пребарувањето е една од основните


фукнции која ги разликува ДБ од
обичните библиотеки
• Може да се пребаруваат дадени
зборови, множество од зборови или
низа од зборови
• Индексирањето отсекогаш
овозможувало пребарување на даден
збор
Пример за индекс за зборот search во
Библијата
Индексирање

• Целосно индексирање на документи


дава за секој збор ја дава позицијата
каде тој збор се појавил низ
документите
• Обемен индекс кој може да пристапи до
сите документи кои задоволуваат
дадено пребарување и голема
податочна структура
• Основна намена е да овозможи за даден
израз листа каде се појавува заедно во
бројот на појавувања
Индексирање

• Не сите зборови се индексираат


• Некои зборови како на, од, до итн (или
на англиски of, the, и and) не се
индексираат и се нарекуваат стоп
зборови
• Stemming и case-folding
Индексирање

• Генерално се базира на одделување на


зборови (т.е. карактери меѓу кои има
празни места)
• Но... Некои јазици (како Кинески и
Јапонски) се пишуваат без користење на
празни места!!!
Содржина

• Презентација на текстуални документи


• Слики со текст
• Web документи: HTML, CSS и XSL
• PostScript и PDF
Слики со текст

• Во дигиталните библиотеки обичниот


текст вообичаено се креира со
дигитализација на хартиени документи
• Дигитализацијата се извршува во две
фази:
–1. Скенирање
–2. Препознавање на карактери со OCR
• Втората фаза е потребна за креирање
на индекс
Процес на дигитализација
Слики со текст

• OCR технологијата често има проблеми


со странски имиња и зборови, чудни
фонтови или не латинични карактери,
мали фонтови, дамки, математички
формули, текстови во колони каде
колоните се блиску, слики (особено
оние кои содржат текст), табели,
фусноти, итн...
• Често се врши мануелен преглед на
скенираните содржини
Слики со текст

• OCR вклучува 6 чекори:


1. Добивање на слика
2. Чистење
3. Анализа на страница
4. Препознавање
5. Проверка
6. Зачувување
Слики со текст

• Потенцијални проблеми:
–Букви од други азбуки (повеќе јазици во
еден документ)
–Мали/големи букви (пр. ß во германската
азбука постои само како мала буква)
–Сличности меѓу симболи (o, 0, O, и Q)
–Форматирања (italic, bold, small capitals,
subscript, superscript)
–Стилизирани букви
Harnerstein<>Hamerstein

https://www.dutchgenealogy.nl/search-for-common-ocr-errors/
couple<>troupe
Содржина

• Презентација на текстуални документи


• Слики со текст
• Web документи: HTML, CSS и XSL
• PostScript и PDF
Web документи: HTML

• HTML (Hypertext Markup Language) е


основниот формат за документи кај
WWW
• Многу често документите во ДБ се
претставуваат со HTML
–Ги отстранува потешкотиите на обичниот
текст (како нова линија, параграф и
користени карактери)
Web документи: CSS и XSL

• Cascading style sheets (CSS) ја дефинира


презентацијата (изгледот) на
документот
• Паралелно се развиваше и extensible
stylesheet language (XSL) – иста намена
со CSS но во XML
Метаподатоци за HTML

• <meta> тагот овозможува метаподатоци


за HTML (не се прикажуваат на страната)

• Пр. Метаподатоци на страната на курсот


на moodle
<meta http-equiv="Content-Type" content="text/html;
charset=utf-8" />
<meta name="keywords" content="moodle, Course:
Дигитални библиотеки-2016/2017/L" />
Метаподатоци за HTML

• <meta> тагот најчесто се користи за


спецификација на опис на страната
(содржина), клучни зборови, автор,
датум на последна промена итн...
Содржина

• Презентација на текстуални документи


• Слики со текст
• Web документи: HTML, CSS и XSL
• PostScript и PDF
PostScript и PDF

• Page Description Languages


• PostScript и PDF служат за опис на
страници независно од уредот каде ќе
бидат употребени
• За креирање на ДБ од ваков тип на
документи потребно е да се знаат
форматите и што може да биде
направено со нив (пр. за креирање на
индекс, екстракција на слики и сл.)
Основи на PostScript

• PostScript се содржат од низа на


инструкции за исцртување (вклучувајќи
и како да се исцртаат букви од даден
фонт)
• Инструкциите се од следен тип:
–Оди на точка (x,y) и нацртај права линија
или пак крива линија со дадена дебелина
–Прикажи карактер од даден фонт на дадена
позиција со дадена големина
–Прикажи слика (може скалирана и/или
ротирана за дадена вредност)
Основи на PostScript

• PostScript се содржат од низа на


инструкции за исцртување (вклучувајќи
и како да се исцртаат букви од даден
фонт)
• Инструкциите се од следен тип:
–Големина на страница
–Отсекување на слики (кои не ги собира)
–Премин на следна страна
Основи на PostScript

• PostScript е повеќе од формат за


документи, програмирачки јазик е
• Затоа еден PostScript документ може да
се нарекува и PostScript програма. Се
печати или прикажува со користење на
PostScript interpreter
• Кога се интерпретира PostScript описот
се конвертира во матрица од точки и
пиксели (со рендерирање)
Основи на PostScript

• PostScript е page-based, т.е. елементите


се исцртуваат едне по еден додека не се
наиде на оператор showpage
• И текстуалните карактери се сметаат за
графички примитиви
Графички компоненти на PostScript
Пример и резултат на PostScript
Екстракција на текст од PostScript

• Карактерите кои треба да се појават на


страната се во загради
• Текстот се пишува во сегменти и
некогаш зборот може да се најде во
повеќе делови
• Се додава код на почетокот на
документот и кога се интерпретира
текстот се става во фајл, наместо
матрица од пиксели
Екстракција на текст од PostScript

Postscript Изваден
документ текст
Основи на PDF

• Portable Document Format (PDF)


• Наследник на PostScript, за да ги
подобри недостатоците
• И PDF е page-based и исцртува секвенца
од графички примитиви
• Ги има истите графички елементи
Основи на PDF

• PDF не е програмирачки јазик, формат е

• Се воведува структура на документот

• Овозможува случаен пристап до


страница, содржината е хиерархиски
структурирана и може да се навигира во
документот
Основна структура на PDF
Структура на PDF
Структура на PDF

• PDF фајлот е поделен во 4 секции:


–Header – првата линија, ја идентификува
верзија на PDF (пр. %PDF-1.6)
–Objects – најголемиот дел од фајлот,
наведени во форма: <num> <num> obj …
endobj
–Cross-references: со бројки ја дава
позицијата на секој објект како byte offset
од почетокот на документот
–Trailer: кажува кој е корен на граф
структурата
PDF верзија на PostScript примерот
Мрежа од објекти во PDF
PDF логичка структура
Основи на PDF

• Рендериран PDF документ се добива со


изминување на граф структурата
• Секој објект има идентификатор
• Cross-reference делот обезбедува
случаен пристап со било кој објект
• За да се рендерира документ со почнува
од крајот (од trailer-от се гледа каде е
cross-reference, а од таму каде
почнуваат објектите)
Структура на PDF

• Постојат 2 начина на генерирање:


– non-linear (not "optimized") – зазема помал
простор на диск, но е побавен за пристап
бидејќи податоците за креирање на
страница се насекаде низ фајлот
– linear ("optimized") – се нарекуваат и "web
optimized“ бидејќи овозможуваат да бидат
читани во web browser со помош на plug-in
без да се чека да се симне целиот документ
Безбедност во PDF

• PDF има 4 карактеристики поврзани со


безбедност на информациите:
– енкрипција
– DRM (управување со дигитални авторски
права)
–phoning home
–редакција
Метаподатоци за PDF

• Два типа на метаподатоци:


–Document Information Dictionary –
множество од парови клуч/вредност за
автори, наслов, датуми на креирање и
менување итн... Се зачувуваат во
опционалниот Info trailer на фајлот
–Metadata Streams – дозволуваат
доделување на метаподатоци на било кој
stream (пр. Информации за вградени слики)
Референци

• How to Build a Digital Library, I.H Witten,


D. Bainbridge,D.M.Nichols (Morgan
Kaufmann, 2009) – Глава 4
Работа со мултимедија
Содржина

• Компресија и трансформација
• Аудио
• Слики
Компресија и трансформација

• Аналогната форма на мултимедијата


доведува до големи фајлови
• Решение: компресија и трансформација
• Техниките за компресија ја намалуваат
големината на документот без загуба на
значајни информации
• Избор на техника:
–Големина на компресирана содржина
–Потребно време за компресија и
декомпресија
Компресија и трансформација

• Типови компресија:
–Без загуба (Соодветна за текст, се користи
во PostScript, PDF итн)
–Со загуба (Се користи за мултимедија, иако
во некои случаи, пр. медицински слики, не
е соодветна)
Техники на компресија без загуба

• Основни техники на компресија без


загуба:
–Хуфманово кодирање
–Аритметичко кодирање
• Се базираат на следниот принцип:
кодирање на често појавуваните
симболи со најмал можен број битови
• Не употребуваат однапред позната
кодна табела, туку ја генерираат
Техники на компресија без загуба

• Хуфманово кодирање генерира табела


на симболи за еден фајл или група на
фајлови и ја доставува пред да почне
кодирањето
• Аритметичко кодирање ја модифицира
иницијалната табела на симболи во
текот на кодирањето
• Двете техники даваат компресија
блиску до оптималната според
фрекфенцијата на појавување на
симболите
Техники на компресија со загуба

• Наједноставен пример е квантизација –


поделба на можните рангови на делови
и доделување вредност на секој од нив
• Пр. Заокружување на амплитудата на
аудио сигнал на најблиските 8 бита
• Квантизација може да се примени и на
вектори – пр. Вектори од аудио или
слики
Техники на трансформација

• Основни техники на трансформација


кои резултираат со компресија со
загуба:
–Фуриеви трансформации
–Дискретни косинус трансформации
–Wavelets
Фуриеви трансформации

• Процес на трансформација на
временско-базиран сигнал во домен од
фреквенции (со последователно
пробување на синусни бранови и
забележување на поклопувања)
• Оските x и y ги прикажуваат
фреквенцијата и амплитудата
• Со пресметка на инверзна фуриева
трансформација се добива оргиналниот
сигнал
Фуриеви трансформации
Две ноти средно C и А
Фуриеви трансформации
Фуриеви трансформации
50ms од популарна песна со вокали и музика
Фуриеви трансформации
Содржина

• Компресија и трансформација
• Аудио
• Слики
Аудио

• Аналогни сигнали кои се дискретизи-


раат за компјутерско преставување
• Рани формати: WAV, AIFF, AU
• Едноставни и релативно големи во
споредба со денешните формати
• Почнуваат со заглавје (header) во кој е
запишана ратата на примерок (sample
rate) и детали за дискретизација, а
потоа следуваат податоците
Аудио - WAV

• Waveform Audio File Format е пример на


Resource Interchange File Format (RIFF)
методот за зачувување на податоците
во “chunks” – секој фајл се зачувува
низа од парчиња, соодветни на логичка
единица информација или сирови
податоци
• Секое парче започнува со 8 бајти
информација – тип на парче и големина
Аудио - WAV

• Заглавјето покрај sample rate, број на


канали и битови по канал, вклучува и
која техника на компресија е употребена
• Дефинира типови на елементи, како fmt
(информациите од заглавјето) и data
(содржината)
Аудио - WAV

• Како дериват на RIFF WAV фајловите


може да бидат означувани со
метаподатоци во INFO “парчето”
–Пр. Title, Artist, и Genre
Аудио - WAV

http://soundfile.sapp.org/doc/WaveFormat/
MPEG Аудио – MP3 и слични

• MPEG ја компресира аудио снимката со


користење на техника со загуба каде
документот се намалува на 1/12 од
оригиналот
• Го користи феноменот на акустично
маскирање – човечкиот слушен систем
не може да ги перцепира елементите со
ниско-појасни фреквенции во близина
на високо-појасни фреквенции
–Овие фреквенции може да се кодираат со
помалку битови или воопшто да не се
кодираат
MPEG Аудио – MP3 и слични
MPEG Аудио – MP3 и слични

• Сличен е феноменот на темпорално


маскирање – не се слушаат слабите
(тивките) елементи кои се појавуваат до
силните (гласните)
• MPEG стандардот прецизно го дефинира
декодерот, но не и кодерот
• Дефинира 3 различни шеми за
компресија, наречени слоеви, за аудио
компресии
• Најкористен е MPEG Слојот III, познат
како MP3
MP3 кодирање

• Може да се избере колку информација


ќе се задржи во текот на кодирањето и
компресијата – bit rate (број на битови
во секунда енкодирани во MP3 фајлот)
• bit rate варира од 96 до 320 Kbps
–128 Kbps резултира со квалитет на звук на
радио
• MP3 за компресија користи 3 основни
слоја, следува опис на првиот (Слој 1),
другите два го засилуваат првиот
http://computer.howstuffworks.com/mp31.htm
MP3 кодирање
• Сигналот се дели на 32 опсези, според
однапред одредени рангови од
фрекфенции, не се еднакви
• Се групираат по 12 примероци од 32та
опсези (вкупно 384 подопсези)
• Секој опсег се трансформира кој се
анализира за кандидати за компресија
• Се трансформира со користење на
Модифицирана дискретна косинус
трансформација (Слој 3)
• Па коефициентите се квантизираат и
кодираат
MP3 кодирање

https://cs.stanford.edu/people/eroberts/courses/soco/projects/data-compression/lossy/mp3/layer_coding.htm
MP3 структура

https://xjaphx.wordpress.com/2011/06/28/a-quick-study-on-mp3-
file-structure/

http://www.beaglebuddy.com/content/pages/javadocs/index.html?com/beaglebuddy/id3/v23/ID3v23TagHeader.html
MP3 метаподатоци

• ID3 v1 (на сликата на слајдот погоре,


фиксен 128 бајти) и v2

http://ample.sourceforge.net/developers.shtml
Пост MP3 формати - AAC, Ogg Vorbis

• Advanced Audio Coding (AAC, се користи


од Apple) и Ogg Vorbis постигнуваат
подобра компресија од mp3 или подобар
квалитет при иста големина
• Се фокусираат на ублажување на
непожелните аудио артефакти при
кодирање со помали bit rates
Пост MP3 формати - FLAC

• Free Lossless Audio Codec (FLAC)


• Намалува 30%-50% за музика, повеќе
за говор
• Отворен формат
• Сепак резултатните документи се доста
поголеми од MP3
Аудио дигитална библиотека
Содржина

• Компресија и трансформација
• Аудио
• Слики
Слики

• Матрица од пиксели
• Формати кои користат компресија без
загуба - GIF, PNG
• Формати кои користат компресија со
загуба - JPEG
• Формати кои работат и на двата
начина- TIFF, JPEG 2000
–Често се користат за дигитални библиотеки
• Слики дефинирани на структуриран
начин - scalable vector graphics (SVG)
GIF

• Graphics Interchange Format (GIF)


• Секој пиксел се претставува со 8 бита
или помалку
• Кодовите за пикселите може да бидат
grayscale вредност или индекс во lookup
табела, наречена мапа на бои (color
map)
• Мапата на бои може да содржи до 256
различни бои со 24-битна
спецификација (8 бита за секоја од
основните бои)
GIF

• Една вредност од 256те бои е


резервирана за транспарентност
• Мапата на бои се креира за секоја слика
поединечно и се зачувува како префикс
на таа слика
• Низите од по 8 бита се компресираат со
LZW
• Може да содржи една слика или повеќе
(давајќи анимација)
• Поради патент на LZW (кој истече во
2004) се појави нов формат- PNG
GIF

https://en.wikipedia.org/wiki/GIF
PNG

• Нуди подобра компресија бидејќи


сликата ја гледа дво-димензионално
• Дефинира филтери кои се применуваат
пред компресија
–Филтер хоризонтално растојание – го
одзема пикселот од претходниот до него(на
ниво на бајти)
–Филтер вертикално растојание – го одзема
пикселот од претходниот над него
–Филтер просечно растојание – го одзема
пикселот од просекот на соседите до него и
над него
PNG

• Кодерот дефинира како и кои филтри ќе


се употребуваат
• Се користи на gzip (поточно DEFLATE)
компресија
• 10%-30% помали слики од GIF
• Пикселите не мора да се 8 бита – може да
се земаат од 256 битна палета, но може да
бидат до 16 бита за grayscale или 48 бита
за боја
• Вклучува gamma корекција – компензира
за разлики во приказ на бои на монитори
GIF и PNG - метаподатоци

• GIF
–Содржи секции како Comment Extension,
Plain Text Extension, и Application Extension
• PNG
–Exif
JPEG

• Joint Photographic Experts Group (JPEG)


• Вклучува и принцип на работа без
загуба, но многу ретко се користи
• Процес на кодирање:
–Сликите се делат на 8х8 пиксел блокови
–Секој блок се трансформира (дискретна
косинус трансформација)
–Па се применува хуфманово кодирање
• Може да контролира колку бита по
пиксел ќе се користат
JPEG – кодирање и декодирање
JPEG – Разлика со 0.1, 0.2 и 1
бит/пиксел
TIFF и JPEG 2000

• JPEG 2000 за разлика од JPEG користи


дискретна wavelet трансформација
• Дозволува делови од слика да се
реконструираат без да се декомресира
целиот фајл
• Нуди и транспарентност и презентација
во повеќе резолуции
• Користи EXIF тагови за метаподатоци
(кодирани во XML)
Разлика меѓу JPEG и JPEG 2000
TIFF и JPEG 2000

• TIFF започнува како формат за црно-


бели слики, но сега има доста опции:
–Grayscale и слики во боја
–Различни шеми на компресија
–Различни модели за бои
–Слоеви или повеќе страници во еден фајл
–integer, floating point и комплексни броеви
за претставување пиксели
• Поради последната опција нуди
прецизност за медицински и научни
слики
TIFF и JPEG 2000

• Tagged Image File Format (TIFF)


• Се базира на нотација на тагови
• Поради својата обемност (и големиот
декодер) се нарекува и “Thousands of
Image File Formats”
Дел од TIFF таговите
Димензии Должина и ширина на слика (во пиксели)
Мерка на резолуција (none, inch, cm)
X и Y резолуција (пиксели во една резолуциска единица)
Боја Фотометричка интерпретација (црно-на-бело или бело-на-црно)
Битови по примерок (1 за bilevel, 4 до 8 за grayscale)
Семплови во пиксел (за RGB): обично по 3
Мапа на бои (за palette-color): табела на бои
Компресија За bilevel: некомпресирана, пакувана во бајти, CCITT компресија,
byte-oriented run-length кодирање
Други: некомпресирана, byte-oriented run-length кодирање
Локација на Број на редови по лента, offset на лентата, бр. бајтови по лента
податоци
Опционални Име на документ, Име на страна (обично бр. на страна),
полиња Креатор, Опис на слика (слободен текст), софтверска програма
која ја генерирала сликата, датум и време на креирање,
компјутер на кој е креирана, марка и модел на опрема со кој е
скенирана сликата (ако е скенирана)
ДБ со слики
Растерски vs Векторски слики

• Растерската графика/слики
употребуваат пиксели во боја или
блокови за да креираат слика
–Бидејќи се изградени од фиксен број
пиксели не може лесно да се промени
нивната големина
• Векторска графика/слики се креираат со
употреба на математички формули и со
нивно користење исцртуваат слика
–Лесно може да менуваат големина
Растерски vs Векторски слики

https://modassicmarketing.com/understanding-image-file-types
SVG

• Scalable Vector Graphics (SVG)


• Се рендерира како слика, но се
изразува во XML (како PostScript и PDF)
• Вклучува и аудио и видео можности
• W3 стандарден формат за слики во
векторски формат
Пример SVG – рендериран и XML
Пример SVG – рендериран
и XML
Пример SVG – рендериран и XML
EPS

• Encapsulated PostScript (EPS)


• PostScript документ кој опишува слика
или цртеж
• Може да содржи 2D вектор графика,
bitmap слики или текст
EPS –дел од дефиниција и
рендериран
Референци

• How to Build a Digital Library, I.H Witten,


D. Bainbridge, D.M.Nichols (Morgan
Kaufmann, 2009) – Глава 5.1-5.3
Работа со мултимедија (2)
Содржина

• Видео
• Хетерогени мултимедијални елементи
• Музика
Видео

• Три важни концепти за видео се:


–Containers – мултимедиски container
комбинира и синхронизира различни
медиски протоци (streams) во еден
документ
–Кодеци – ја содржат шемата на компресија
на форматот на container-от
–Streaming – начин на пренос на содржината
преку мрежа или интернет прелистувач
(Web browser)
• Доминантен стандард - MPEG
Containers

• Container е метаподаточен формат чија


спецификација опишува како различни
податочни и метаподаточни елементи
заедно постојат во еден компјутерски
документ
• Container документот се употребува за
да се идентификуваат и
преплетат/синхронизираат различните
податочни типови (пр. аудио и видео
потоци, преводи, информации за делови
и метаподатоци)
Кодеци

• Потребни се најмалку 24 frames во


секунда за човечкото око да не го
забележи трепкањето
• Дополнително, ратите на семплови за
аудио се движат од 8 kHz за квалитет за
телефонски разговор до 44.1 kHz за
квалитет за ЦД музика
• Поради големината на податоците
видео форматите употребуваат
компресија
Кодеци

• Видео документите се кодирани кога се


зачувуваат или пренесуваат и кога се
отвораат се декодираат. Соодветната
функција на coder/decoder се нарекува
codec
• Аудио и видео компонентите различно
се управуваат
• Минатиот час учевме за
кодирање/декодирање на звук
Кодеци

• Видео кодеците ја користат просторната


и временската поврзаност меѓу низите
од сликите за да кодираат
• Повеќето од компресиите кои се
користат се со загуба
• Повеќето кодеци се асиметрични, т.е.
потребно им е различно време за
кодирање и декодирање
MPEG

• Множество од формати:
–MPEG-1
–MPEG-2 јадро
–MPEG-4
–MPEG-7 – вклучува метаподатоци
–MPEG-21 – поддржува животен циклус на
мултимедијални информации
• Произлегува од истата група која
работела на JPEG форматот и
употребува дел од овие концепти
MPEG

• Пред да се кодира видео во MPEG боите


се трансформираат во Y'CbCr (Y'=Luma,
Cb=Chroma Blue, Cr=Chroma Red).
–Luma – светлина се зачувува посебно од
Chroma (бои) кои понатаму се делат црвени и
плави компоненти. Бојата се подсемплира во
4:2:0 т.е. Се редицура по една половина
вертикално и хоризонтално на една
четвртина од видеото
Y'CbCr
MPEG-1

• Дизајниран за слики во боја со


резолуција 352 x 240 пиксели, 30 фрејма
во секунда и звук со ЦД квалитет
• Може да биде декомпресиран со
користење на 512 KB меморија
(соодветно за раните 90ти)
• Може да се содржи само од слики или
само од звук
MPEG-1

• Се содржи од пет делови:


–Системи
–Видео
–Аудио
–Тестирање
–Софтвер
• MPEG го презентира видеото како низа
од графички фрејмови (frames) кои се
процесираат во поток од битови
(bitstream)
MPEG-1

• Фрејмовите не мора да се во
оригиналниот редослед како сликите во
видеото и има три типа:
–Intra (I-frame) – фиксна точка во низата од
слики, користи само просторна поврзаност,
генерално го следи JPEG (дискретна
косинусна трансформација на 8х8 блокови,
вредности кодирани со Хуфманов код итн.)
MPEG-1

• Фрејмовите не мора да се во
оригиналниот редослед како сликите во
видеото и има три типа:
–Predicted (P-frame) – ги кодира разликите
меѓу фрејмовите (временска поврзаност –
темпорална кохерентност), а користи и
просторна поврзаност. Се компресираат со
употреба на предвидувања на движење на
16х16 блокови во каналот на осветлувањето
(luminance - Y)
MPEG-1

• Фрејмовите не мора да се во
оригиналниот редослед како сликите во
видеото и има три типа:
–Bidirectional (B-frame) – се базира на
претходен фрејм (I или P), следен или
просек од двата
• I-frame овозможува случаен пристап (ги
содржи сите информации за конструкција
на слика)
MPEG-1
MPEG-1

• Group of Pictures (GOP) - множество од


фрејмови од еден I-фрејм до следен
MPEG-1 граници
MPEG-2

• Основа за DVD видео


• Може да се транспортира низ мрежа
склона на грешки (употребува пакети со
фиксна големина)
• Поддржува interlaced слики (соодветно
за broadcast) и аудио со повеќе канали
• Има дополнителни 5 дела покрај
основните 5 од MPEG-1
Interlacing

• Метод за кодирање на слики со кој


личност која ја делумно ја има примено
сликата гледа деградирана копија од
целата слика

Adam7 interlacing
MPEG-4

• Се разликува од минатите
• Дизајниран за мрежи со мала ширина
на опсег (како мобилни комуникации)
• Се дополнува со слики, синтетички
генерирани графика и звук и текст
• Се базира на објекти наместо на
сигнали
• Се содржи од над 20 делови!
Останати MPEG

• MPEG-7 и MPEG-21 се споменуваат во


предавање 02
• MPEG-7 овозможува дефиниција на
метаподатоци
• MPEG-21 е широк стандард кој ги
поврзува креаторите на мултимедија со
потрошувачите заради контрола на
содржина
Други формати

• AVI и ASF од Microsoft – се базира на


RIFF структура (како WAV), во header-от
се опишува кој кодек да се користи,
голема листа на кодеци
• QuickTime од Apple – целосна
програмибилна околина, голема листа
на кодеци
• FLV од Adobe – мала листа на кодеци,
Flash plug-in, порано YouTube
Ogg Theora

• Не користи патенти
• Како MPEG-4 дизајниран е за low bit-rate
кодирања за употреба на Web
• Исти принципи со MPEG
–Не користи B frame-ви
• Базиран на VP3 видео кодек
Употреба на мултимедија во ДБ

• Како се врши пребарување и


прегледување?
• Како да се пристапат различни делови
од документот?
• Што значи да обезбедиш кратка
содржина? Колку прецизно ова може да
биде изведено?
Употреба на мултимедија во ДБ

• Дигитализација: lossy vs lossless

• Софтвер за преглед(replay) на
материјалот + bandwidth
Видео дигитална библиотека
Содржина

• Видео
• Хетерогени мултимедијални
елементи
• Музика
Rich Media

• Концепт:
–Хетерогени мултимедијални елементи
просторно компонирани
–Временски синхронизирани со
–Можност интерактивно да одговараат на
корисничка акција
• SVG од минатиот час
• PowerPoint презентација може да не се
смета бидејќи не е интегрирана со веб
технологии
Rich Media

• SMIL (Synchronized Multimedia


Integration Language) - W3C –
мултимедијалните елементи може да
бидат комбинирани (аудио, видео ,
текст, SVG)
• Flash – најпознат формат, SWF документ
дефинира изглед, интеракција и
комуникација
Flash

• Web browser plug-in технологија


• Инструкциите за приказ и дефиниции
(тагови) може да се преплетуваат и
апликацијата може да го прикаже
документот без целосно да биде симнат
• Компресија на ниво на таг
• Структура на SWF документ
Содржина

• Видео
• Хетерогени мултимедијални елементи
• Музика
Музика

• Musical Instrument Digital Interface –


MIDI е комуникациски протокол
• Нотација на временски настани кои
електронскиот уред ги употребува за да
генерира музички звуци
• Се надополнува со Standard MIDI file
format (SMF) кој го одржува MIDI
Manufacturers Association
MIDI

• Основни компоненти:
–header,
–траки,
–канали и
–настани

• Една трака (link) може да има до 16


канали на информации (секој може
наменет/рутиран за посебен уред)
Музика

• MIDI пренесува пораки за настани кои


специфицираат нотација, pitch и
гласност, контролни сигнали за
параметри како volume, vibrato, итн... И
такт сигнали кои поставуваат и
синхронизираат темпо меѓу различни
уреди
• Пораките се пренесуваат преку MIDI
кабел до уредите кои треба да се
контролираат
Музика

• Header-от дефинира дали се работи


само за една трака, повеќе траки во
исто време или повеќе траки една по
друга и како дефинираните настани
временски се мапираат
• Header-от и траките ја претставуваат
основната структура на песната
Музичка дигитална библиотека
Музичка дигитална библиотека
Музичка дигитална библиотека
Референци

• How to Build a Digital Library, I.H Witten,


D. Bainbridge, D.M.Nichols (Morgan
Kaufmann, 2009) – Глава 5.4-5.6

You might also like