Professional Documents
Culture Documents
Predavanja ALL PDF
Predavanja ALL PDF
библиотеки
Дигитална библиотека
• Неформална дефиниција на дигитална
библиотека е управувана колекција од
информации, со соодветни придружни сервиси,
каде информациите се зачувани во дигитални
формати и може да бидат пристапени преку
мрежа.
• Wm Arms, Digital Libraries, 1999
• Фокусирана колекција од дигитални објекти,
вклучувајќи текст, видео, и аудио, вклучувајќи и
методи за пристап and извлекување објекти,
како и за селекција, организација и одржување
на колекцијата. --
• Witten and Bainbridge, How to Build a Digital
Library 2010
Дигитална библиотека
• Не само книги
– уметност, филмови, звучни записи,
ботанички примероци, култулорошки
објекти…
– WWW – “анархичен хаос”
• дигитална библиотека≠
“дигитализирана библиотека”
Дигитална библиотека
• Две основни улоги:
– Корисник- пребарува и прелистува
колекции
– Библиотекар- овозможува соодветни
организациски структури и ги
одржува ефективно
Историја на библиотеките
• Steles – поставена од Song династијата
(1100 ПНЕ), 2,000 гравирани камени
плочи, 2-3 m високи, содржат поени,
приказни, или историски записи
• Средновековните манастирски и
универзитетски библиотеки содржеле
книги врзани со синџир во јавни
простории за читање
• 19ти век – патроните го прегледуваат
каталогот и избираат книги, кои им се
предаваат преку шалтер
Историја на библиотеките
• 20ти век – им се дозволува на
читателите да прегледуваат низ
полиците и самите да избираат
содржини (библиотеки со отворен
пристап)
• Денес – на праг на дигитални
библиотеки
Рани технолошки соништа -
Мemex
• Визијата на Vannevar Bush (1945)
• Michael A. Keller
– Ida M. Green University Librarian at
Stanford,
– Director of Academic Information
Resources,
– Publisher of HighWire Press, and
– Publisher of the Stanford University Press:
• “Едно добро дело заслужува друго;
така Google Book Search проектот е
добар за сите".
Google Books демо
This slide is taken from the presentation by Michael A. Keller at ECDL 2006
Оригинални принципи
• Ако е легално возможно, да се дигитализира
секоја книга (9 мил.) од Stanford библиотеката
– Во моментов до 1963 год.
• Партнерски библиотеки (*подоцна додадени)
– University of Michigan (слична на Stanford)
– Harvard (јавен домен, можеби > 1 мил.)
– NYPL (јавен домен, необични колекции)
– Oxford - Bodleian (пред 1885, ~ 1 мил. наслови)
– University of California (слична на Stanford >6M)
– Други ќе следат
This slide is taken from the presentation by Michael A. Keller at ECDL 2006
Намени
• Дигитална презервација
• Останати пребарувања и истражувања
– Суптилно пребарување
– Таксономија и асоцијативно пребарување
– Поврзување според цитати
– Подобра навигација
• Дигитализиран книги од различни извори во
корист на нови истражувања; комбинирани
со статии, податочни множества, итн. За
податочно рударење и други намени
This slide is taken from the presentation by Michael A. Keller at ECDL 2006
Некои заклучоци
• Google Books
– Е проект за индексирање, не објавување
– Овозможува поголем пристап до содржините на
книгите со пребарување по клучен збор
– На издавачите им нуди глобален пазар
– Дополнителни услуги на корисниците
• На библиотеките учесници нуди
– Дигитализирани копии на книгите од нивните
полици за презервација
– Нови можности за услуги на читателите
– Нови можности за истражувања на факултетите
и студентите
This slide is taken from the presentation by Michael A. Keller at ECDL 2006
Google statement
• “Many of the books in Google Book Search come from authors and
publishers who participate in our Partner Program. For these books,
our partners decide how much of the book is browsable -- anywhere
from a few sample pages to the whole book.
• For books that enter Book Search through the Library Project, what
you see depends on the book's copyright status. We respect copyright
law and the tremendous creative effort authors put into their work. If
the book is in the public domain and therefore out of copyright, you
can page through the entire book and even download it and read it
offline. But if the book is under copyright, and the publisher or author
is not part of the Partner Program, we only show basic information
about the book, similar to a card catalog, and, in some cases, a few
snippets -- sentences of your search terms in context. The aim of
Google Book Search is to help you discover books and learn where to
buy or borrow them, not read them online from start to finish. It's like
going to a bookstore and browsing - with a Google twist.”
http://books.google.com/support/bin/answer.py?answer=43729&topic=9259&hl=en
Имплементација на ДБ:
Greenstone
• Софтвер соодветен за градење одржување и
дистрибуција на ДБ содржини
• Обемен, open-source
• Развиен од New Zealand Digital Library Project на
University of Waikato
• Партнери:
– UNESCO
– Human Info NGO, Belgium
– NCSI, Bangalore; UCT, Cape Town;
Dakar, Senegal; Almaty, Kazakhstan; …
– ТИ!
Greenstone терминологија
• Библиотека може да вклучува повеќе
колекции со информации, секоја
креирана според потребите на
корисниците.
• Колекција се содржи од неколку
(типично илјадници или милиони)
документи.
Greenstone терминологија
• Документи се основна единица од која
се градат колекциите; може да имаат
внатрешна структура, алтернативна
презентација или дополнителни фајлови.
Документите може да содржат текст,
слики, звук или видео; колекциите може
да вклучуваат различни типови на
документи.
• Метаподатоци се библиографски
информации на секој документ.
Greenstone особини
• Open Source Philosophy • Full-text mirroring
• Interfacing & Content • Text Level Penetration
Delivery via Web
• Data Compression
• Multi S/W Platform
• Password protection
• Multi Lingual Support
• Multi Formats • Administrative
Functions
• Structured Metadata in
XML using DC • Concurrent & Dynamic
Content Development
• Metadata Extraction
• Uniform Presentation
• Searching & Browsing
• Plug-ins for Documents • Publishing on CDROMs
• International Presence
Greenstone особини
• Easy Installation
• Easy Maintenance
• Content Development (3 alternate ways)
• Predominantly GLI now - since (V. 2.41)
• Hierarchy Structure
• Interface Customization
– Front Page Design, Header for the Digital Library,
Collection Icon, Cover Images
• Collection Configuration (Collect.cfg) File
• Scalability, Flexibility
• Interoperability (Crosswalk), OAI Compliance
• Lifeline : Listserv / E-Group / Archives
Референци
• How to Build a Digital Library, I.H Witten, D.
Bainbridge,D.M.Nichols (Morgan Kaufmann, 2009) –
Chapter 1
• Digital Libraries, William Y. Arms (MIT Press, 2000) –
Chapter 1
Вовед во XML
Extensible Markup Language
Што е XML
<html>
<head><title>Example</title></head.
<body>
<h1>This is an example of a page.</h1>
<h2>Some information goes here.</h2>
</body>
</html>
Пример на XML документ
<?xml version=“1.0”/>
<address>
<name>Alice Lee</name>
<email>alee@aol.com</email>
<phone>212-346-1234</phone>
<birthday>1985-03-22</birthday>
</address>
Разлика меѓу HTML и XML
address
Alice Lee
alee@aol.com
123-45-6789
1983-7-15
Референци
• Метаподатоци и карактеристики
• Библиографски метаподатоци
• Метаподатоци за мултимедија
4
Содржина
• Метаподатоци и карактеристики
• Библиографски метаподатоци
• Метаподатоци за мултимедија
4
Цели на библиографски систем
• Метаподатоци и карактеристики
• Библиографски метаподатоци
• Метаподатоци за мултимедија
4
Библиографија
• Во овој контекст: историски или систематски
опис на книги, нивните автори, авторски
права, печатење, публикација, изданија итн...
Библиографски метаподатоци
• MARC
• MARCXML
• Dublin Core: DC
• Qualified Dublin Core
• MODS
• BibTeX
• EndNote
MARC
• MARC - machine-readable cataloging
• Стандард развиен во доцните 60ти од
Henriette Avram
• Обемен и детален стандард
• Креирање на MARC запис за публикација е
мачен подвиг кој се управува со детално
множество на правила и упатства наречено
Anglo-American Cataloging Rules (AACR2R)
AACR2R упатство
• Правилата се поделени во 2 дела
• Дел 1: највеќе се однесува на опис на
документи
• Дел 2: се однесува на опис на работата
–Пр. Наслови, Униформни наслови, Референци
–Кај Наслови се опишува како да се напишат
имињата на луѓето, географските имиња, правила
за употреба на големи букви, скратеници итн...
Пример метаподатоци за книга
Пример MARC податоци за
истата книга
MARC записи
• Се зачувуваат како колекција од означени
полиња во доста комплексен формат
• Многу од полињата содржат
идентификациски кодови
–Пр. Полето 008 содржи податочни елементи со
фиксна големина како извор на каталогизација и
јазик на кој е напишана книгата
MARC записи
• Многу од полињата со променлива содржина
содржат подполиња означени со a,b,c итн...
секое со свое значење
–Пр. Полето 100 е името на авторот, додека
подполињата вклучуваат стандардна форма на
името, сите имиња и датуми
–Пр. Полето 260 го опишува печатењето, а неговите
подполиња го даваат местото на печатење,
издавачот и датумот
• Некои полиња може да се јават повеќе пати
–Како на пр. Полето 650
Значење на MARC полиња
Поле Значење
1 Control number uniquely identifying the record
5 Date and time that the record was last modified
8 Fixed fields
10 Library of Congress control number
15 National Bibliographic number
35 System control number
40 Cataloging source
50 Library of Congress classification
82 Dewey classification
100 Main entry—personal name
260 Imprint: place of publication, publisher, date
300 Physical description
500 General note
504 Bibliography note
650 Subject entry
650 Subject entry
906,
985, Tags in the 900 range are reserved for local use, and are used by vendors,
991 systems, or individual libraries to exchange additional data
MARC
• Правилата и деталното форматирање на
MARC стандардот овозможува записите да се
разменуваат меѓу различни системи за
библиотеки
• Наместо да се креира нов запис за книга, се
креира еднаш и потоа се споделува
• Пр. WorldCat каталогот на Online Computer
Library Center содржи повеќе од 125 милиони
записи од 112 земји
MARC комуникациски формат
MARC комуникациски формат
MARCXML
• Презентација на MARC податоци со XML
• Кодовите се претставени на вредности на
атрибути во datafield елементите
• Во овие елементи subfield ги претставуваат
подполињата
Пример за MARCXML запис (1)
<?xml version="1.0" encoding="UTF-8"?>
<record xmlns="http://www.loc.gov/MARC21/slim" ...>
<leader>00965cam a22002414a 4500</leader>
<controlfield tag="001">12791256</controlfield>
<controlfield tag="005">20071130191532.0</controlfield>
<controlfield tag="008">020529s2003 cau 000 0 eng </controlfield>
<datafield tag="035" ind1=" " ind2=" ">
<subfield code="a">(DLC) 2002107327</subfield> </datafield>
...
Пример за MARCXML запис (2)
<datafield tag="010" ind1=" " ind2=" ">
<subfield code="a"> 2002107327</subfield> </datafield>
<datafield tag="020" ind1=" " ind2=" ">
<subfield code="a">1558607900 (alk. paper)</subfield>
</datafield>
<datafield tag="042" ind1=" " ind2=" ">
<subfield code="a">pcc</subfield> </datafield>
<datafield tag="100" ind1="1" ind2=" ">
<subfield code="a">Witten, Ian H.</subfield> </datafield>
<datafield tag="245" ind1="1" ind2="0">
<subfield code="a">How to build a digital library /</subfield>
<subfield code="c">Ian H. Witten, David Bainbridge.</subfield>
</datafield>
<datafield tag="260" ind1=" " ind2=" ">
<subfield code="a">San Francisco, CA :</subfield>
<subfield code="b">Morgan Kaufmann Publishers,</subfield>
<subfield code="c">c2003.</subfield> </datafield>
...
</record>
Dublin Core
• Множество од метаподаточни елементи
дизајнирано специфично за употреба од
страна на “не-специјалисти”
• Наменет за опис на електронски материјали
(како на пр. Веб страници)
• Многу поедноставен од MARC
• Се состои само од 15 елементи (за разлика од
неколкуте стотици кои ги содржи MARC) и
секој елемент може да биде употребен
повеќекратно
Dublin Core елементи
Елемент Опис
Title The name given to the resource by the creator or publisher
The person or organization primarily responsible for the intellectual content of the
Creator resource
Subject The topic of the resource
Description A textual description of the content of the resource
Publisher The entity responsible for making the resource available
A person or organization (other than the Creator) who is responsible for making
Contributor significant contributions to the intellectual content of the resource
Date A date associated with the creation or availability of the resource
Type The nature or genre of the content of the resource
Format The physical or digital manifestation of the resource
Identifier An unambiguous reference that uniquely identifies the resource within a given context
Source A reference to a second resource from which the present resource is derived
Language The language of the intellectual content of the resource
Relation A reference to a related resource, and the nature of its relationship
Coverage Spatial locations and temporal durations characteristic of the content of the resource
Rights Information about rights held in the resource
Dublin Core
• Се употребува генералниот израз ресурс за
се што може да биде опишано – слики,
илустрации, филмови, анимации, симулации
итн... како и текстуални документи
Пример за Dublin Core запис
<?xml version="1.0" encoding="UTF-8"?>
<srw_dc:dc xmlns:srw_dc="info:srw/schema/1/dc-schema"
xmlns="http://purl.org/dc/elements/1.1/"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="info:srw/schema/1/dc-schema
http://www.loc.gov/z3950/agency/zing/srw/dc-schema.xsd">
<title>How to build a digital library /</title>
<creator>Witten, Ian H.</creator>
<type>text</type>
<publisher>San Francisco, CA : Morgan Kaufmann
Publishers,</publisher>
<date>c2003.</date>
<language>eng</language>
<identifier>http://www.loc.gov/catdir/description/els031/2002107327
.html</identifier>
<identifier>http://www.loc.gov/catdir/toc/els031/2002107327.html</i
dentifier>
<identifier>URN:ISBN:1558607900 (alk. paper)</identifier>
</srw_dc:dc>
Qualified Dublin Core
• Проширување на Dublin Core
• Две форми на квалификација се додадени:
–element refinement
–encoding schemes
• Секој елемент може да биде дорафиниран
или доквалифициран
–Пр. Елементот Date може да биде дорафиниран
како date created, date valid, date available, date
issued, или date modified
• Encoding schemes ги дефинираат дозволените
рангови на вредностите на елементите
Qualified Dublin Core
Qualified Dublin Core
Metadata Object Description Schema: MODS
Пример:
@book{863700,
author = {Ian H. Witten and Bainbridge, David},
title = {How to Build a Digital Library},
year = {2003},
isbn = {1558607900},
publisher = {Elsevier Science Inc.},
address = {New York, NY, USA},
}
EndNote
• Метаподатоци и карактеристики
• Библиографски метаподатоци
• Метаподатоци за мултимедија
4
Метаподатоци за мултимедија
• Метаподатоци за слики
• Метаподатоци за аудио
• Метаподатоци за видео
• Метаподатоци за мултимедија
Метаподатоци за слики
• Дел од форматите на слики вклучуваат некои
метаподатоци
–Пр. GIF и PNG вклучуваат висина и ширина, бр на
битови по пиксел, PNG специфицира
репрезентација на боја и може да зачувува
стрингови како метаподатоци, JPEG дефинира
хоризонтална и вертикална резолуција
• TIFF
• EXIF, XMP/IPTC, и MIX
TIFF
• Tagged Image File Format (TIFF)
• Направен во 80тите
• Adobe е денес сопственик
• Еден TIFF фајл може да содржи повеќе слики
• Опширни описни метаподатоци (за секоја слика)
• Содржи информации за:
–Должина и ширина на слика
–Тип на употребени компресии
–Име и број на страна (за слики на повеќе страни)
–Метрики поврзани со спецификација на боја
–Итн...
Дел од TIFF таговите
Димензии Должина и ширина на слика (во пиксели)
Мерка на резолуција (none, inch, cm)
X и Y резолуција (пиксели во една резолуциска единица)
Боја Фотометричка интерпретација (црно-на-бело или бело-на-црно)
Битови по примерок (1 за bilevel, 4 до 8 за grayscale)
Семплови во пиксел (за RGB): обично по 3
Мапа на бои (за palette-color): табела на бои
Компресија За bilevel: некомпресирана, пакувана во бајти, CCITT компресија,
byte-oriented run-length кодирање
Други: некомпресирана, byte-oriented run-length кодирање
Локација на Број на редови по лента, offset на лентата, бр. бајтови по лента
податоци
Опционални Име на документ, Име на страна (обично бр. на страна),
полиња Креатор, Опис на слика (слободен текст), софтверска програма
која ја генерирала сликата, датум и време на креирање,
компјутер на кој е креирана, марка и модел на опрема со кој е
скенирана сликата (ако е скенирана)
TIFF формат
TIFF метаподатоци пример
TIFF метаподатоци пример
(ЕXIF рамка)
EXIF, XMP/IPTC, и MIX
• Презентација на текстуални
документи
• Слики со текст
• Web документи: HTML, CSS и XSL
• PostScript и PDF
ASCII
• Наследник на ASCII
• Главна цел: Преставување на текст од
јазици од целиот свет
• Unicode е унивезален – секој документ
со било кое постоечко множество од
карактери може да биде мапирано во
Unicode
• Популарен метод за презентација на
Unicode – UTF-8 – шема на кодирање со
варијабилна должина
Обичен текст
• Текстуален документ се содржи од низа
од карактери кои се интерпретираат на
стандарден начин: од лево кон десно,
од горе кон доле
• Не постои заглавје (header) кое кажува
кое множество од карактери се
употребува
• При употреба на 8-битен ISO ASCII и
употреба на истиот документ на
различни апликации или компјутери
карактерите во ранг 128-255 може да не
се прикажат точно
Обичен текст
• Потенцијални проблеми:
–Букви од други азбуки (повеќе јазици во
еден документ)
–Мали/големи букви (пр. ß во германската
азбука постои само како мала буква)
–Сличности меѓу симболи (o, 0, O, и Q)
–Форматирања (italic, bold, small capitals,
subscript, superscript)
–Стилизирани букви
Harnerstein<>Hamerstein
https://www.dutchgenealogy.nl/search-for-common-ocr-errors/
couple<>troupe
Содржина
Postscript Изваден
документ текст
Основи на PDF
• Компресија и трансформација
• Аудио
• Слики
Компресија и трансформација
• Типови компресија:
–Без загуба (Соодветна за текст, се користи
во PostScript, PDF итн)
–Со загуба (Се користи за мултимедија, иако
во некои случаи, пр. медицински слики, не
е соодветна)
Техники на компресија без загуба
• Процес на трансформација на
временско-базиран сигнал во домен од
фреквенции (со последователно
пробување на синусни бранови и
забележување на поклопувања)
• Оските x и y ги прикажуваат
фреквенцијата и амплитудата
• Со пресметка на инверзна фуриева
трансформација се добива оргиналниот
сигнал
Фуриеви трансформации
Две ноти средно C и А
Фуриеви трансформации
Фуриеви трансформации
50ms од популарна песна со вокали и музика
Фуриеви трансформации
Содржина
• Компресија и трансформација
• Аудио
• Слики
Аудио
http://soundfile.sapp.org/doc/WaveFormat/
MPEG Аудио – MP3 и слични
https://cs.stanford.edu/people/eroberts/courses/soco/projects/data-compression/lossy/mp3/layer_coding.htm
MP3 структура
https://xjaphx.wordpress.com/2011/06/28/a-quick-study-on-mp3-
file-structure/
http://www.beaglebuddy.com/content/pages/javadocs/index.html?com/beaglebuddy/id3/v23/ID3v23TagHeader.html
MP3 метаподатоци
http://ample.sourceforge.net/developers.shtml
Пост MP3 формати - AAC, Ogg Vorbis
• Компресија и трансформација
• Аудио
• Слики
Слики
• Матрица од пиксели
• Формати кои користат компресија без
загуба - GIF, PNG
• Формати кои користат компресија со
загуба - JPEG
• Формати кои работат и на двата
начина- TIFF, JPEG 2000
–Често се користат за дигитални библиотеки
• Слики дефинирани на структуриран
начин - scalable vector graphics (SVG)
GIF
https://en.wikipedia.org/wiki/GIF
PNG
• GIF
–Содржи секции како Comment Extension,
Plain Text Extension, и Application Extension
• PNG
–Exif
JPEG
• Растерската графика/слики
употребуваат пиксели во боја или
блокови за да креираат слика
–Бидејќи се изградени од фиксен број
пиксели не може лесно да се промени
нивната големина
• Векторска графика/слики се креираат со
употреба на математички формули и со
нивно користење исцртуваат слика
–Лесно може да менуваат големина
Растерски vs Векторски слики
https://modassicmarketing.com/understanding-image-file-types
SVG
• Видео
• Хетерогени мултимедијални елементи
• Музика
Видео
• Множество од формати:
–MPEG-1
–MPEG-2 јадро
–MPEG-4
–MPEG-7 – вклучува метаподатоци
–MPEG-21 – поддржува животен циклус на
мултимедијални информации
• Произлегува од истата група која
работела на JPEG форматот и
употребува дел од овие концепти
MPEG
• Фрејмовите не мора да се во
оригиналниот редослед како сликите во
видеото и има три типа:
–Intra (I-frame) – фиксна точка во низата од
слики, користи само просторна поврзаност,
генерално го следи JPEG (дискретна
косинусна трансформација на 8х8 блокови,
вредности кодирани со Хуфманов код итн.)
MPEG-1
• Фрејмовите не мора да се во
оригиналниот редослед како сликите во
видеото и има три типа:
–Predicted (P-frame) – ги кодира разликите
меѓу фрејмовите (временска поврзаност –
темпорална кохерентност), а користи и
просторна поврзаност. Се компресираат со
употреба на предвидувања на движење на
16х16 блокови во каналот на осветлувањето
(luminance - Y)
MPEG-1
• Фрејмовите не мора да се во
оригиналниот редослед како сликите во
видеото и има три типа:
–Bidirectional (B-frame) – се базира на
претходен фрејм (I или P), следен или
просек од двата
• I-frame овозможува случаен пристап (ги
содржи сите информации за конструкција
на слика)
MPEG-1
MPEG-1
Adam7 interlacing
MPEG-4
• Се разликува од минатите
• Дизајниран за мрежи со мала ширина
на опсег (како мобилни комуникации)
• Се дополнува со слики, синтетички
генерирани графика и звук и текст
• Се базира на објекти наместо на
сигнали
• Се содржи од над 20 делови!
Останати MPEG
• Не користи патенти
• Како MPEG-4 дизајниран е за low bit-rate
кодирања за употреба на Web
• Исти принципи со MPEG
–Не користи B frame-ви
• Базиран на VP3 видео кодек
Употреба на мултимедија во ДБ
• Софтвер за преглед(replay) на
материјалот + bandwidth
Видео дигитална библиотека
Содржина
• Видео
• Хетерогени мултимедијални
елементи
• Музика
Rich Media
• Концепт:
–Хетерогени мултимедијални елементи
просторно компонирани
–Временски синхронизирани со
–Можност интерактивно да одговараат на
корисничка акција
• SVG од минатиот час
• PowerPoint презентација може да не се
смета бидејќи не е интегрирана со веб
технологии
Rich Media
• Видео
• Хетерогени мултимедијални елементи
• Музика
Музика
• Основни компоненти:
–header,
–траки,
–канали и
–настани