You are on page 1of 273

DEPARTAMENTO DE SISTEMAS DE INFORMAO

ESCOLA DE ENGENHARIA UNIVERSIDADE DO MINHO

PRESERVAO DE LONGA DURAO DE


INFORMAO DIGITAL NO CONTEXTO DE UM
ARQUIVO HISTRICO

Jos Miguel Arajo Ferreira

TESE DE DOUTORAMENTO

Tese submetida Escola de Engenharia da Universidade do Minho para obteno do grau de Doutor em
Tecnologias e Sistemas de Informao, na especialidade de Sociedade da Informao,
sob a orientao da Professora Doutora Ana Alice Baptista e
Professor Doutor Jos Carlos Ramalho.

Guimares, Maio de 2009


AUTORIZADA A REPRODUO INTEGRAL DESTA TESE APENAS PARA EFEITOS DE
INVESTIGAO, MEDIANTE DECLARAO ESCRITA DO INTERESSADO, QUE A TAL SE
COMPROMETE;

Universidade do Minho, __________/______/______


Assinatura: ______________________________________________________________

ii
minha filha...
...que brinque para sempre nos confins do firmamento...

Aos meus pais...


... por estarem presentes no momento em que mais precisei deles...

iii
iv
AGRADECIMENTOS

Foram vrias as pessoas que directa ou indirectamente contriburam para o desenvolvimento


desta tese. A essas pessoas gostaria de prestar a minha homenagem, agradecendo-lhes todo o
apoio e disponibilidade concedidos ao longo destes quatro anos.

Em primeiro lugar, gostaria de agradecer Professora Arminda Manuela Gonalves do


Departamento de Matemtica para a Cincia e Tecnologia da Universidade do Minho por me
ter levado pela mo atravs do mundo da estatstica no-paramtrica; ao Professor Eduardo
Severino do Departamento de Estatstica e Investigao Operacional da Faculdade de Cincias
da Universidade de Lisboa pela ajuda fundamental na parametrizao e planeamento de
experincias; ao Professor Zhou Wang do Departamento de Engenharia Electrotcnica e
Computadores da Universidade de Waterloo no Canad, pela ajuda preciosa em torno do
clculo de similaridade de imagens; ao Professor Andreas Rauber da Universidade Tcnica de
Viena na ustria, pelas conversas de caf em torno de preservao digital e investigao em
geral; ao engenheiro Duarte Duque pela ajuda fundamental na escrita e interpretao de
formalismos matemticos; ao Doutor Pedro Gabriel Ferreira, colega, confidente e amigo, por
ter desbravado o caminho espinhoso de um doutoramento dando o exemplo para tantos
outros; aos alunos, agora Engenheiros, Nuno Gonalves, Rui Rodrigues, Samuel Cordeiro,
Rick Gomes, Victor da Costa Pinheiro, Ricardo Gomes de Faria por terem materializado tudo
aquilo que no tive tempo de desenvolver sozinho; aos Engenheiros Rui Castro e Lus Faria
por serem os melhores programadores do pas e por me terem ajudado a optimizar muitos dos
componentes que descrevo nesta tese; aos tcnicos da Direco-Geral de Arquivos, Dr.
Francisco Barbedo, Dra. Ceclia Henriques e Dr. Lus Corujo por pacientemente me terem
ensinado a ver o mundo atravs dos olhos de um arquivista; Marta por me ter aturado ao
longo destes anos todos e por me ter ajudado a depurar o texto que d corpo a esta tese.

Finalmente, gostaria de agradecer aos meus orientadores, sem os quais este trabalho nunca
teria sido possvel. Professora Ana Alice Baptista, filsofa da computao, mulher de ideias
elevadas, que tantas vezes exigiu que o meu crebro se colocasse em bicos-de-ps; e ao
Professor Jos Carlos Ramalho, rico em experincias, tecnlogo por excelncia, com o mais
apurado sentido prtico da vida; a ambos, o meu mais sincero obrigado por me terem deixado
crescer intelectualmente a seu lado.

A todas estas pessoas, o meu mais sincero obrigado!

Miguel Ferreira

v
vi
RESUMO

PRESERVAO DE LONGA-DURAO DE INFORMAO DIGITAL NO CONTEXTO DE UM


ARQUIVO HISTRICO

Ao longo do sculo XX, a humanidade assistiu massificao generalizada das tecnologias


digitais. Estas encontram-se presentes em todos os quadrantes do mundo civilizado e
suportam grande parte da actividade humana. Actividades to dispares como consultar as
horas ou planear uma misso espacial a Marte so, hoje em dia, inteiramente suportadas por
tecnologias digitais.

A expanso das tecnologias digitais conduziu inevitavelmente a um aumento da produo de


informao digital. Este tipo de informao acarreta consigo um problema que coloca em risco
a sua acessibilidade a longo-prazo. Este tipo de material, embora possa ser copiado infinitas
vezes sem perder qualidade, requer a presena de um contexto tecnolgico, hardware e/ou
software, para que possa ser interpretado de forma inteligvel por um ser humano. Esta
dependncia torna-o vulnervel rpida obsolescncia a que a tecnologia est sujeita, dado que
nem sempre os novos desenvolvimentos garantem a compatibilidade com tecnologias
precedentes.

No sentido de mitigar o problema da obsolescncia tecnolgica e garantir o acesso continuado


informao digital foram apontadas diversas estratgias de preservao de informao digital,
como por exemplo: a emulao, a migrao de formatos e o encapsulamento. Apesar dos
inmeros progressos verificados neste domnio, continua a existir um vazio assinalvel no que
diz respeito automatizao de estratgias de preservao. Paralelamente, questes
relacionadas com a autenticidade dos materiais, a validao de estratgias de preservao e a
necessidade, sempre crescente, de reduzir custos assumem particular destaque na lista de
preocupaes dos profissionais da cincia da informao.

Este projecto de investigao visa atenuar o conjunto de problemas previamente enumerados,


dando especial nfase automatizao de processos de preservao baseados em migrao de
formatos. De forma a dar resposta a esta necessidade, foi desenvolvida uma Arquitectura
Orientada ao Servio (SOA) capaz de auxiliar organizaes e/ou indivduos na implementao
de intervenes de preservao. O sistema desenvolvido constitudo por um conjunto de
componentes, fisicamente distribudos, que so capazes de realizar o seguinte conjunto de
actividades: executar aces de preservao baseadas em migrao de formatos (converso);
determinar a quantidade de informao, propriedades significativas e funcionalidades perdidas

vii
durante uma migrao (controlo de qualidade); produzir relatrios que possam ser utilizados
como metainformao de preservao e que documentam a interveno de preservao
(autenticidade); e fornecer sugestes de formatos de destino e/ou servios de converso que
maximizem a satisfao da entidade-cliente (seleco de alternativas de migrao).

O sistema desenvolvido foi avaliado no que diz respeito sua capacidade de produzir
recomendaes de alternativas de migrao capazes de satisfazer os requisitos de preservao
manifestados por uma entidade-cliente. A avaliao incidiu ainda sobre a capacidade
demonstrada pelo sistema em aferir o nvel de degradao incorrido num objecto digital
durante uma migrao de formato, especialmente no que toca a propriedades significativas de
carcter subjectivo.

O sistema foi avaliado recorrendo a coleces de teste constitudas por imagens matriciais em
diferentes formatos. Os resultados obtidos demonstram que o sistema capaz de determinar
eficazmente a similaridade grfica entre imagens, apresentando valores de correlao
superiores a 0.81 entre as opinies produzidas por avaliadores humanos e mtodos
automticos de clculo de similaridade. No que toca capacidade do sistema em determinar o
nvel de deteriorao da metainformao embebida nas imagens, este apresentou valores de
correlao acima dos 0.96 entre os valores produzidos pela mtrica de J a c c a r d e os valores
de referncia associados coleco de teste.

As experincias realizadas em torno do sistema de recomendao permitiram concluir que os


servios de migrao sugeridos por este componente (tendo por base informao recolhida a
partir de migraes anteriores) possuem um elevado nvel de correlao com as
recomendaes ideais calculadas para cada objecto digital pertencente coleco de teste. Os
testes realizados resultaram em valores de correlao compreendidos entre 0.68 e 0.85 com um
erro de preciso mximo de 34.9%.

Os principais contributos desta investigao so: a capacidade de preservar objectos digitais


recorrendo a converso de formatos sem que haja necessidade de implementar complexos
sistemas de migrao; a capacidade de obter relatrios detalhados sobre a migraes realizadas
permitindo, assim, documentar todo o processo de preservao e deste modo assegurar a
autenticidade dos materiais; e a possibilidade de comparar diferentes alternativas de migrao e
identificar de forma objectiva qual destas a mais adequada para satisfazer as necessidades de
uma organizao.

viii
ABSTRACT

LONG-TERM PRESERVATION OF DIGITAL INFORMATION IN THE CONTEXT OF A HISTORICAL


ARCHIVE

During the second half of the 20th century, mankind has passively witnessed the worldwide
proliferation of digital technologies. These technologies are currently present in every aspect
of todays civilized life and natively support a great deal of human activities. Distinct actions
such as telling the time or planning a mission to Mars are now entirely supported by digital
technologies. This growth has been accompanied by an overwhelming expansion of digital
information.

Digital information has a lot of advantages over traditional analogue information. However, it
carries a structural problem that may hinder its accessibility in the long run. Digital
information requires the presence of a technological environment (hardware and/or software)
in order to be adequately rendered for human consumption. This technological dependency
makes it vulnerable to the rapid evolution of digital technologies as well as technological
ruptures caused by non-retrocompatible developments.

To insure the continuous access to digital information, several strategies have been proposed:
emulation, format migration, encapsulation, etc. However, there is still a great deal of work to
be done in what concerns making these processes more automatic and user-friendly.
Moreover, issues regarding the authenticity of digital materials have always been a concern for
information science professionals.

This thesis aims at solving the previously outlined issues, focusing especially on the
automation of migration-based preservation strategies. In order to accomplish this goal, we
have developed a Service Oriented Architecture (SOA) specially designed to assist cultural
heritage institutions in the implementation of preservation interventions. The proposed SOA
delivers a recommendation service and a method to carry out complex format migrations. The
recommendation service is supported by three evaluation components that assess the quality
of every migration intervention in terms of its performance, suitability of involved formats and
data loss. The proposed system is also able to produce preservation metadata that can be used
by any client institution to document preservation interventions and retain objects
authenticity.

ix
The system has been evaluated in what concerns its ability to produce suggestions of migration
services that maximize the preservation requirements of any given client institution. The
evaluation process also focused the systems ability to determine the level of degradation
imposed to a digital object during a migration process, especially in what concerns its
subjective significant properties, i.e., pixel correctness and embedded metadata.

The system was evaluated using datasets of raster images encoded in several formats. The
results of this research show that the proposed system is capable of effectively calculating the
similarity between digital images, revealing a correlation value superior to 0.81 between
automatic similarity algorithms and the mean opinions scores provided by human evaluators.
In what concerns the systems ability to determine the level of degradation occurred in the
image metadata, the system showed correction values above 0.96 while using a modified
version of the J a c c a r d s i m i l a r i t y m e t r i c .

The recommendation system showed a level of correlation of 0.68 to 0.85 (with a maximum
precision of 34.9%) when suggestions based on previously executed migrations were
compared with the ideal rankings of migration services calculated specifically for a given
object.

The main contributions of this research are: the ability to preserve digital information using a
format migration strategy without having to deploy complex migration systems; the ability to
obtain detailed migration reports that document the entire preservation intervention which can
be used as preservation metadata to ensure information authenticity; and the possibility of
comparing and assessing different migration options and objectively choose the one that
maximises the satisfaction of a client institution.

x
CONTEDO

INTRODUO ....................................................................................................................................1
1.1 Estratgias de preservao digital........................................................................................... 2
1.2 Motivao ................................................................................................................................... 4
1.3 Objectivos e contributos.......................................................................................................... 5
1.4 Organizao da tese.................................................................................................................. 8

PRESERVAO DIGITAL ................................................................................................................11


2.1 A anatomia de um objecto digital ........................................................................................ 14
2.2 O modelo de referncia OAIS.............................................................................................. 18
2.3 Estratgias de preservao digital......................................................................................... 21
2.3.1 Preservao de tecnologia ........................................................................................... 22
2.3.2 Refrescamento............................................................................................................... 23
2.3.3 Emulao........................................................................................................................ 23
2.3.4 Migrao/converso .................................................................................................... 26
2.3.5 Encapsulamento............................................................................................................ 32
2.3.6 Pedra de Roseta digital................................................................................................. 33
2.4 Directrios de formatos......................................................................................................... 34
2.5 Autenticidade ........................................................................................................................... 37
2.6 Metainformao de preservao........................................................................................... 40
2.6.1 PREMIS ......................................................................................................................... 40
2.7 Consideraes finais ............................................................................................................... 44

AUTOMATIZAO DE PROCESSOS DE MIGRAO ...................................................................49


3.1 Actividades inerentes a um processo de migrao............................................................ 50
3.1.1 Seleco de uma alternativa de migrao.................................................................. 50
3.1.2 Converso de materiais................................................................................................ 51
3.1.3 Controlo de qualidade.................................................................................................. 52
3.2 Migrao em ambientes distribudos................................................................................... 52
3.3 Cenrio de preservao.......................................................................................................... 54
3.4 Servios de preservao ......................................................................................................... 56
3.4.1 Identificador de formatos............................................................................................ 58
3.4.2 Conversores ................................................................................................................... 59
3.4.3 Controlo de qualidade.................................................................................................. 60
3.4.4 Notificador de obsolescncia...................................................................................... 61
3.4.5 Seleccionador de estratgias de migrao................................................................. 62
3.5 Cenrio revisto......................................................................................................................... 65
3.6 Consideraes finais ............................................................................................................... 68

CRIB PLATAFORMA DE SERVIOS DE PRESERVAO .........................................................71


4.1 Viso geral ................................................................................................................................ 72
4.2 Core preservation services..................................................................................................... 75
xi
4.2.1 Identificao de formatos............................................................................................ 76
4.2.2 Seleco de estratgias de migrao........................................................................... 77
4.2.3 Migrao de formatos e controlo de qualidade....................................................... 80
4.2.4 Servios adicionais ........................................................................................................ 82
4.3 Service Registry........................................................................................................................ 83
4.4 Format Identifier..................................................................................................................... 88
4.5 Migration Broker..................................................................................................................... 89
4.5.1 Disponibilidade ............................................................................................................. 92
4.5.2 Estabilidade.................................................................................................................... 92
4.5.3 Dbito ............................................................................................................................. 93
4.5.4 Custo de utilizao........................................................................................................ 94
4.5.5 Taxa de crescimento em bytes.................................................................................... 95
4.5.6 Taxa de crescimento em nmero de ficheiros......................................................... 96
4.6 Object Evaluator ..................................................................................................................... 96
4.6.1 Classes de objectos .....................................................................................................102
4.6.2 Taxionomias de avaliao..........................................................................................105
4.6.3 Extractores de valores de propriedades..................................................................109
4.6.4 Funes de similaridade.............................................................................................109
4.7 Format Evaluator..................................................................................................................110
4.7.1 Ganho de preservao ...............................................................................................115
4.7.2 Implicao ....................................................................................................................116
4.7.3 Negao ........................................................................................................................116
4.7.4 Razo.............................................................................................................................117
4.8 Migration Advisor .................................................................................................................118
4.8.1 Algoritmo de recomendao.....................................................................................122
4.9 Consideraes finais .............................................................................................................126
4.9.1 Limitaes ....................................................................................................................128

METODOLOGIA E AVALIAO .................................................................................................. 133


5.1 Avaliao do Object Evaluator...........................................................................................134
5.1.1 Protocolo experimental..............................................................................................136
5.1.2 Propriedade significativa: conformidade grfica...................................................137
5.1.3 Propriedade significativa: metainformao embebida .........................................154
5.2 Avaliao do Migration Advisor.........................................................................................162
5.2.1 Caracterizao da coleco de teste.........................................................................165
5.2.2 Seleco de caminhos de converso........................................................................167
5.2.3 Treino e teste do sistema...........................................................................................168
5.2.4 Resultados ....................................................................................................................170
5.3 Consideraes finais .............................................................................................................171

IMPLEMENTAES DO CRIB..................................................................................................... 175


6.1 Planets .....................................................................................................................................175
6.2 RODA.....................................................................................................................................177

CONCLUSES E TRABALHO FUTURO........................................................................................181

xii
7.1 Sntese...................................................................................................................................... 181
7.2 Concluses e discusso ........................................................................................................ 183
7.3 Contributos ............................................................................................................................ 191
7.4 Trabalho futuro ..................................................................................................................... 193

APNDICES ....................................................................................................................................197
8.1 Ferramentas de extraco de propriedades...................................................................... 197
8.1.1 Image IO ...................................................................................................................... 198
8.1.2 ExifTool 7.15............................................................................................................... 198
8.1.3 Microsoft Office Word 2003.................................................................................... 199
8.1.4 OpenOffice.org Writer 2.2........................................................................................ 200
8.1.5 PDFBox........................................................................................................................ 200
8.2 Taxionomia geral de avaliao............................................................................................ 202
8.3 Funes de similaridade....................................................................................................... 203
8.3.1 Similaridade numrica................................................................................................205
8.3.2 Similaridade vectorial ................................................................................................. 206
8.3.3 Similaridade textual..................................................................................................... 207
8.3.4 Similaridade entre conjuntos..................................................................................... 210
8.3.5 Similaridade de XML ................................................................................................. 211
8.3.6 Similaridade grfica..................................................................................................... 212
8.4 Teste no-paramtrico de Wilcoxon.................................................................................. 218
8.5 Validao cruzada.................................................................................................................. 219
8.6 Licena de uso e distribuio do CRiB ............................................................................. 221

ANEXOS ..........................................................................................................................................223
9.1 Interpretao de valores-P................................................................................................... 223

xiii
xiv
LISTA DE FIGURAS

Figura Pgina

Figura 1 Cassete de vdeo Betamax. .................................................................................................. 12


Figura 2 Cassete de vdeo VHS.......................................................................................................... 12
Figura 3 Disquete de 3.5 polegadas................................................................................................... 13
Figura 4 Leitor de disquetes de 3.5 polegadas................................................................................. 13
Figura 5 Cadeia de interpretao desde o nvel fsico at ao nvel conceptual. ......................... 16
Figura 6 Diferentes nveis de abstraco de um objecto digital................................................... 16
Figura 7 Objecto digital observado a diferentes nveis de abstraco......................................... 18
Figura 8 Modelo de referncia Open Archival Information System (OAIS)............................ 19
Figura 9 Classificao das diferentes estratgias de preservao digital...................................... 22
Figura 10 Exemplo de um cenrio de emulao............................................................................. 25
Figura 11 Degradao do objecto digital ao longo de sucessivas migraes............................. 30
Figura 12 Migrao a-pedido. ............................................................................................................. 30
Figura 13 Migrao distribuda baseada em Servios Web. .......................................................... 31
Figura 14 Pedra de Roseta................................................................................................................... 33
Figura 15 Verificao da qualidade de uma migrao atravs de canonizao.......................... 40
Figura 16 Entidades presentes no Dicionrio de Dados PREMIS. ............................................ 41
Figura 17 Diferentes representaes para a mesma entidade intelectual.................................... 42
Figura 18 Arquitectura de um sistema de preservao. ................................................................. 57
Figura 19 Exemplo de rvore-objectivo........................................................................................... 63
Figura 20 Processo de seleco de estratgias de preservao. .................................................... 65
Figura 21 Arquitectura geral da plataforma CRiB. ......................................................................... 73
Figura 22 Interface do componente Core Preservation Services................................................. 76
Figura 23 Diagrama de classes das mensagens trocadas pelo CRiB............................................ 76
Figura 24 Diagrama de sequncia da identificao de formatos.................................................. 77
Figura 25 Diagrama de classes de uma representao. .................................................................. 77
Figura 26 Diagrama de sequncia relativo seleco de uma alternativa de migrao............ 78
Figura 27 Mensagens envolvidas na seleco de uma alternativa de migrao......................... 79
Figura 28 Diagrama de sequncia do processo de converso. ..................................................... 80

xv
Figura 29 Diagrama de classes associadas ao processo de converso......................................... 81
Figura 30 Outros mtodos disponibilizados pelo CRiB................................................................ 83
Figura 31 Relaes entre entidades que descrevem um servio de converso.......................... 84
Figura 32 Arquitectura detalhada do Service Registry.................................................................... 86
Figura 33 Mtodos disponibilizados pelo Service Registry........................................................... 87
Figura 34 Mtodos disponibilizados pelo Format Identifier. ....................................................... 88
Figura 35 Arquitectura detalhada do Migration Broker................................................................. 89
Figura 36 Mtodos disponibilizados pelo Migration Broker. ....................................................... 90
Figura 37 Mensagens trocadas pelo Migration Broker. ................................................................. 90
Figura 38 Interface comum a todos os servios de converso..................................................... 91
Figura 39 Caminho de migrao com baixa estabilidade............................................................... 93
Figura 40 Clculo do tempo de migrao......................................................................................... 94
Figura 41 Clculo do custo de utilizao de uma migrao composta. ...................................... 94
Figura 42 Arquitectura detalhada do Object Evaluator................................................................. 98
Figura 43 Arquitectura detalhada do comparador de objectos conceptuais.............................. 99
Figura 44 Mtodos disponibilizados pelo Object Evaluator. ....................................................101
Figura 45 Mensagens trocadas pelo Object Evaluator.................................................................102
Figura 46 Taxionomia de avaliao de imagens matriciais..........................................................106
Figura 47 Taxionomia de avaliao de documentos de texto.....................................................108
Figura 48 Arquitectura do Format Evaluator................................................................................111
Figura 49 Diagrama de classes associadas ao Format Evaluator. ..............................................112
Figura 50 Clculo do benefcio de migrao..................................................................................114
Figura 51 - Diagrama de sequncia do processo de recomendao. ............................................120
Figura 52 Arquitectura do Migration Advisor...............................................................................121
Figura 53 Diagrama de classes e mensagens trocadas pelo Migration Advisor.......................122
Figura 54 Arquitectura geral do motor de recomendao...........................................................122
Figura 55 Clculo de pontuao de um caminho de migrao. ................................................123
Figura 56 Exemplo de normalizao de taxionomia pesada segundo uma escala Likert
de 1 a 5..............................................................................................................................123
Figura 57 Agregao de resultados e clculo de pontuao........................................................126
Figura 58 Screenshot da aplicao utilizada para comparar imagens............................................144
Figura 59 Projeces de MOS com (a) RMSE, (b) UQI, (c) SSIM e (d) CBM.......................149

xvi
Figura 60 Conjunto de imagens com RMSE0.96 e valores de UQI, SSIM e CBM
distintos............................................................................................................................. 153
Figura 61 Teste do sistema de recomendao............................................................................... 165
Figura 62 Plato e os servios de migrao do CRiB..................................................................... 177
Figura 63 Interface grfica do Repositrio de Objectos Digitais Autnticos.......................... 178
Figura 64 Taxionomia geral de avaliao........................................................................................ 202
Figura 65 Algoritmo da distncia de Levenshtein......................................................................... 208
Figura 66 Definio formal de imagem matricial.......................................................................... 212
Figura 67 Classes de mtricas de similaridade grfica.................................................................. 213
Figura 68 Deteco de (1) contornos, (2) texturas e (3) regies planas usando uma
mscara de Sobel............................................................................................................. 217
Figura 69 Diagrama de processamento da mtrica CBM............................................................ 218
Figura 70 Exemplo do mtodo de validao cruzada com 4 dobras........................................ 221

xvii
xviii
LISTA DE TABELAS

Tabela Pgina

Tabela 1 Possveis estratgias de preservao por nvel de abstraco....................................... 47


Tabela 2 Elementos de metainformao sobre a organizao que desenvolveu o servio
de converso...................................................................................................................... 85
Tabela 3 Elementos de metainformao que descrevem servios de converso...................... 85
Tabela 4 Elementos de metainformao que descrevem a localizao do servio................... 86
Tabela 5 Elementos de metainformao que descrevem os contactos de uma
organizao. ....................................................................................................................... 86
Tabela 6 Exemplo de uma taxionomia de avaliao de documentos de texto........................ 100
Tabela 7 Exemplo de uma taxionomia de avaliao de objectos udio.................................... 100
Tabela 8 Formatos suportados pelo CRiB..................................................................................... 102
Tabela 9 Propriedades associadas a imagens matriciais............................................................... 107
Tabela 10 Propriedades associadas a documentos de texto........................................................ 109
Tabela 11 Caractersticas tcnicas avaliadas pelo Format Evaluator......................................... 113
Tabela 12 Clculo da funo Gain................................................................................................... 115
Tabela 13 Clculo da funo Implication....................................................................................... 116
Tabela 14 Clculo da funo Not. ................................................................................................... 117
Tabela 15 Clculo de desempenho mdio de um caminho de migrao.................................124
Tabela 16 Normalizao de desempenho mdio de um caminho de migrao...................... 125
Tabela 17 Avaliaes produzidas por intervenientes humanos. ................................................ 145
Tabela 18 MOS e desvio-padro aps remoo de valores discrepantes.................................147
Tabela 19 Avaliaes produzidas pelos algoritmos RMSE, UQI, SSIM e CBM.................... 148
Tabela 20 Valores de similaridade ajustados aos valores de MOS. ........................................... 150
Tabela 21 Desempenho dos vrios algoritmos de clculo de similaridade de imagem......... 151
Tabela 22 Tipos de falhas na metainformao embebida que podero ocorrer durante
uma converso de formatos.......................................................................................... 155
Tabela 23 Coleco de teste utilizada na experincia com metainformao embebida......... 156
Tabela 24 Resultados produzidos pelos mtodos XML Diff e Jaccard.................................... 158
Tabela 25 Desempenho dos dois mtodos de clculo de similaridade de metainformao
embebida. ......................................................................................................................... 159

xix
Tabela 26 Resultados produzidos pelo mtodo de Jaccard modificado...................................161
Tabela 27 Desempenho dos dois mtodos de clculo de similaridade de metainformao
embebida. .........................................................................................................................162
Tabela 28 Descrio das coleces de imagens utilizadas na avaliao do componente
Migration Advisor...........................................................................................................166
Tabela 29 Caminhos de converso utilizados na avaliao do Migration Advisor.................167
Tabela 30 Dados relativos ao treino e teste do componente Migration Advisor. ..................168
Tabela 31 Resultados da validao cruzada efectuada ao Migration Advisor..........................170
Tabela 32 Caractersticas da nova coleco de teste de cardinalidade 10.................................171
Tabela 33 Resultados da validao cruzada efectuada ao Migration Advisor com a nova
coleco de teste de cardinalidade 10..........................................................................171
Tabela 34 Propriedades extradas e formatos suportados pela biblioteca Java Image I/O..198
Tabela 35 Propriedades extradas e formatos suportados pela ferramenta ExifTool...........199
Tabela 36 Propriedades extradas pela ferramenta Microsoft Office Word 2003 ..................199
Tabela 37 Propriedades extradas pela ferramenta OpenOffice.org Writer 2.2......................200
Tabela 38 Propriedades extradas pela ferramenta PDFBox......................................................201
Tabela 39 Mtricas utilizadas para comparar imagens matriciais..............................................204
Tabela 40 Mtricas utilizadas para comparar documentos de texto........................................205
Tabela 41 Resultados da aplicao do teste de Wilcoxon para comparao de mdias.........219

xx
LISTA DE EQUAES

Equao Pgina

Equao 1 Mean Opinion Score (MOS).............................................................................................. 146


Equao 2 Taxa de valores no-discrepantes. ............................................................................... 151
Equao 3 Coeficiente de Similaridade de Jaccard....................................................................... 157
Equao 4 Exemplo da aplicao do coeficiente de Jaccard...................................................... 160
Equao 5 Definio da funo first e verso modificada do mtodo de Jaccard.................. 161
Equao 6 Nmero de converses mediante o tamanho da coleco de teste....................... 168
Equao 7 Relao entre similaridade e distncia......................................................................... 203

xxi
xxii
LISTA DE FRMULAS

Frmula Pgina

Frmula 1 Disponibilidade. ................................................................................................................ 92


Frmula 2 Estabilidade........................................................................................................................ 93
Frmula 3 Dbito de converso ........................................................................................................ 93
Frmula 4 Taxa de crescimento em bytes de representaes convertidas................................. 95
Frmula 5 Taxa de crescimento em nmero de ficheiros............................................................. 96
Frmula 6 Ratio. ................................................................................................................................. 117
Frmula 7 Exemplo de aplicao da funo Ratio....................................................................... 118
Frmula 8 Normalizao de pesos.................................................................................................. 124
Frmula 9 Normalizao de vectores de desempenho................................................................ 125
Frmula 10 Definio matemtica de distncia. ........................................................................... 203
Frmula 11 Definio matemtica de similaridade. ..................................................................... 204
Frmula 12 Distncia proporcional.................................................................................................205
Frmula 13 Similaridade proporcional. .......................................................................................... 206
Frmula 14 Similaridade euclidiana.................................................................................................206
Frmula 15 Igualdade textual relaxada. .......................................................................................... 209
Frmula 16 Mtrica de comparao de cadeias de caracteres de Jaro...................................... 209
Frmula 17 Similaridade de Jaro-Winkler. ..................................................................................... 210
Frmula 18 Coeficiente de similaridade de Jaccard...................................................................... 211
Frmula 19 Funo first. .................................................................................................................... 211
Frmula 20 Coeficiente de similaridade de Jaccard modificado................................................ 211
Frmula 21 Normalized Root Mean Squared Error (NRMSE). ............................................... 214
Frmula 22 Universal Image Quality Index (UQI) de uma componente de cor. .................. 215
Frmula 23 Frmulas auxiliares ao clculo de UQI..................................................................... 215
Frmula 24 Valor global de UQI..................................................................................................... 215
Frmula 25 Frmulas auxiliares ao clculo de SSIM. .................................................................. 216
Frmula 26 Structural Similarity (SSIM) de uma componente de cor...................................... 216
Frmula 27 Valor de SSIM que combina as quatro componentes de cor............................... 216

xxiii
Frmula 28 Valor global de SSIM que combina os valores de SSIM das M janelas
amostradas........................................................................................................................217
Frmula 29 Diferena entre as avaliaes subjectivas e os valores objectivos........................219
Frmula 30 Formulao de hipteses.............................................................................................219

xxiv
GLOSSRIO

Arquitectura Orientada ao Servio. Arquitectura de software onde vrios componentes


disponibilizam recursos computacionais aos restantes participantes da rede sob a forma de
servios independentes, invocveis de forma normalizada atravs de um protocolo comum
(ver Servio Web).

Arquivo. Organizao responsvel por gerir, descrever, armazenar e garantir acesso a


informao.

ASCII. American Standard Code for Information Interchange. Conjunto de cdigos capaz de
representar letras, dgitos e outros smbolos, amplamente utilizado por computadores na troca
e armazenamento de informao textual.

Autenticao. Processo responsvel por assegurar que um utilizador, servio ou recurso


exactamente aquele que se prope ser (i.e., comprovao de identificao).

CD-ROM. Compact Disc Read-Only Memory. Suporte fsico de armazenamento baseado em


tecnologia ptica.

Comunidade de interesse. Conjunto identificvel de consumidores de informao de um


dado repositrio ou arquivo.

Converso. Ver Migrao.

Digitalizao. Processo responsvel pela transformao de informao analgica em


informao digital.

Disco rgido. Suporte de armazenamento de informao digital baseado em tecnologia


magntica.

DVD. Digital Versatile Disk. Suporte fsico de armazenamento baseado em tecnologia ptica.
Fisionomicamente semelhante a um CD-ROM mas com uma capacidade de armazenamento
vrias vezes superior.

Emulador. Software capaz de reproduzir o comportamento de uma plataforma de hardware


e/ou software numa outra que de outro modo seria incompatvel.

xxv
Encapsulamento. Preservar, juntamente com um objecto digital, toda a informao
necessria e suficiente para permitir o futuro desenvolvimento de conversores, visualizadores
ou emuladores que garantam o acesso informao veiculada. Esta informao poder
consistir, por exemplo, numa descrio formal e detalhada do formato do objecto preservado.

Estratgia de preservao digital. Abordagem tcnica que garante o acesso continuado


informao existente em formatos digitais (ver Migrao, Emulador ou Encapsulamento).

Flash-drive. Dispositivo que combina uma memria flash com uma interface USB,
vulgarmente utilizado para armazenar informao digital. Este dispositivo tambm
vulgarmente conhecido por pen-drive.

GIF. Graphics Interchange Format. Formato matricial para representao de imagens digitais.

Ingesto. Processo ou componente responsvel pela recepo de material de arquivo.

Internet. Rede global de comunicao baseada no protocolo TCP/IP.

Java. Linguagem de programao orientada ao objecto desenvolvida na dcada de 90.


Contrariamente s linguagens de programao convencionais, que so compiladas para cdigo
nativo, a linguagem Java compilada para bytecode, ou seja, cdigo que executado por uma
mquina virtual.

JPEG. Joint Photographic Experts Group. Formato matricial para representao de imagens
digitais.

Material digital. Conjunto de informao ou objectos digitais.

Metadados. Ver Metainformao.

Metainformao. Informao utilizada para descrever um determinado objecto ou recurso.

Migrao. Transferncia peridica de material digital de uma configurao de


hardware/software para outra, ou de uma gerao de tecnologia para outra subsequente.

Objecto digital. Todo e qualquer objecto de informao que possa ser representado atravs
de uma sequncia de dgitos binrios (bitstream). Documentos de texto, fotografias digitais,
diagramas vectoriais, bases de dados, sequncias de vdeo e udio, modelos de realidade virtual,

xxvi
pginas Web e jogos ou aplicaes de software so apenas alguns exemplos do que pode ser
considerado um objecto digital.

Objecto nado-digital. Objecto criado recorrendo apenas a ferramentas ou processos digitais,


ou seja, objecto digital que no passou por um processo de digitalizao.

PDF. Portable Document Format. Formato digital vulgarmente utilizado para representar
documentos de texto com formatao e estrutura.

Pixel. Abreviatura de picture element. O mais pequeno elemento de informao visual que faz
parte de uma imagem digital.

PNG. Portable Network Graphics. Formato matricial para representao de imagens digitais.

Preservao digital. Conjunto de actividades ou processos responsveis por garantir o acesso


continuado e a longo-prazo a informao e restante patrimnio cultural existente em formatos
digitais.

Propriedade significativa. Caracterstica tcnica ou atributo que caracteriza um objecto


digital considerada relevante para efeitos de preservao.

Refrescamento. Processo que consiste na cpia de informao de um suporte fsico de


armazenamento para outro do mesmo tipo.

Repositrio digital. Sistema de informao responsvel por gerir e armazenar informao


digital.

Service Oriented Architecture (SOA). Ver Arquitectura Orientada ao Servio.

TARGA. Truevision TGA. Formato matricial utilizado para representar imagens digitais.

TIFF. Tagged Image File Format. Formato matricial vulgarmente utilizado para representar
imagens digitais.

Web Service. Forma de trocar informao onde so utilizados protocolos de ligao e


formatos de mensagens normalizados baseados em XML/SOAP. De modo a facilitar a
descoberta de servios, estes so geralmente publicados em directrios, vulgarmente
designados por UDDI (Universal Description, Discovery and Integration).

xxvii
xxviii
SIGLAS E ACRNIMOS

AHDS. Arts and Humanities Data Service.

ASCII. American Standard Code for Information Interchange.

CBM. Content-Based Image Quality Metric

CD-ROM. Compact Disc Read-Only Memory.

CRiB. Conversion and Recommendation of Digital Object Formats.

DGARQ. Direco-Geral de Arquivos

DVD. Digital Versatile Disk.

Exif. Exchangeable image file format

GIF. Graphics Interchange Format.

HTTPS. Hypertext Transfer Protocol over Secure Socket Layer

IIM. Information Interchange Model

IPTC. International Press Telecommunications Council

ITU. International Telecommunication Union

JPEG. Joint Photographic Experts Group.

KFCV. k-fold cross-validation

MAE. Mean Absolute Error

MOS. Mean Opinion Score

MSE. Mean Squared Error

NMSE. Normalized Mean Squared Error

xxix
OAIS. Open Archival Information System.

PDF. Portable Document Format.

Planets. Preservation and Long-term Access through Networked Services

Planets. Preservation And Long-Term Access Through Networked Services.

PNG. Portable Network Graphics.

PREMIS. Preservation Metadata: Implementation Strategies.

RMSE. Root Mean Squared Error

ROAR. Registry of Open Access Repositories

RODA. Repositrio de Objectos Digitais Autnticos

SOA. Service Oriented Architecture.

SSIM. Structured Similarity

TIFF. Tagged Image File Format.

TOM. Typed Objects Model.

UNO. Universal Network Object.

UQI. Universal Image Quality Index.

URL. Uniform Resource Locator

VHS. Video Home System

WS-BPEL. Web services Business Process Execution Language

XMP. Extensible Metadata Platform

xxx
Captulo 1
Introduo
Ao longo da segunda metade do sculo XX, a humanidade assistiu massificao generalizada
das tecnologias digitais. Estas encontram-se presentes em todos os quadrantes do mundo
civilizado e suportam grande parte da actividade humana. Actividades to dispares como
consultar as horas ou planear uma misso espacial a Marte so, hoje em dia, inteiramente
suportadas por tecnologias desta natureza. Esta expanso foi desde logo acompanhada por um
aumento da produo de informao digital.

Um estudo realizado pela consultora IDC1 revela que a produo de informao digital tem
vindo a sofrer um aumento com caractersticas exponenciais. Em 2007, o universo digital foi
estimado em 281 Exabytes de informao (i.e., mil milhes de Gigabytes), ou seja, cerca de 45
Gigabytes por cada pessoa existente no planeta. Em 5 anos, prev-se que esse valor seja 10
vezes superior (Gantz et al., 2008).

Sero certamente variadas as razes que conduziram adopo massificada de ferramentas


digitais. No entanto, a qualidade dos produtos resultantes da sua explorao, aliada facilidade
da sua disseminao, foram factores importantes que explicam a adopo generalizada deste

1 http://www.idc.com

1
tipo de ferramentas e o aumento crescente de informao digital (Teixeira, Ferreira, &
Verhaegh, 2003).

Apesar das inmeras vantagens que decorrem da utilizao de informao digital, importante
realar que esta acompanhada de um problema estrutural que coloca em risco a sua
longevidade. Este tipo de material, embora possa ser copiado infinitas vezes sem perder
qualidade, requer a presena de um contexto tecnolgico, hardware e/ou software, para que
possa ser apresentado de forma inteligvel a um ser humano. Esta dependncia tecnolgica
torna-o particularmente vulnervel rpida obsolescncia a que a tecnologia est sujeita (Chen,
2001).

Designa-se, assim, por p r e s e r v a o d i g i t a l o conjunto de actividades ou processos


responsveis por garantir o acesso continuado, a longo-prazo, informao e restante
patrimnio cultural existente em formatos digitais (Webb, 2003). Neste contexto, designa-se
por o b j e c t o d i g i t a l todo e qualquer objecto de informao que possa ser representado
atravs de uma sequncia de dgitos binrios2 (Thibodeau, 2002). Documentos de texto,
fotografias digitais, diagramas vectoriais, bases de dados, sequncias de vdeo e udio, modelos
de realidade virtual, pginas Web, jogos e aplicaes de software so apenas alguns exemplos
do que pode ser considerado um objecto digital.

1.1 Estratgias de preservao digital


Ao longo dos ltimos anos tm vindo a ser propostas diversas estratgias no sentido de
minimizar o impacto da obsolescncia tecnolgica no acesso informao digital. Segundo
Lee et al., as vrias estratgias de preservao de informao digital podem ser agrupadas em
trs classes fundamentais: emulao, encapsulamento e migrao (Lee, Slattery, Lu, Tang, &
McCrary, 2002).

A e m u l a o consiste na utilizao de um software especial, designado e m u l a d o r , capaz de


reproduzir o comportamento de uma plataforma de hardware e/ou software numa outra,
partida incompatvel. O recurso a emuladores possibilita a interpretao dos objectos digitais
num ambiente tecnolgico semelhante quele em que foram criados, ainda que tratando-se de
um ambiente virtual (Rothenberg, Commission on Preservation and Access, & Council on
Library and Information Resources, 1999). A grande vantagem desta abordagem est na

2 Esta definio suficientemente lata para acomodar tanto, informao que nasceu num contexto tecnolgico digital (objectos
nado-digitais), como informao digital obtida a partir de suportes analgicos (objectos digitalizados).

2
capacidade de reproduzir com elevado grau de fidelidade a funcionalidade e apresentao do
objecto original (Lee et al., 2002; Rothenberg et al., 1999). O recurso a emuladores est
geralmente associado preservao de objectos digitais complexos3 dotados de propriedades
dinmicas e/ou interactivas como caso das aplicaes de software.

A estratgia de e n c a p s u l a m e n t o consiste em preservar, juntamente com o objecto digital,


toda a informao necessria e suficiente para suportar o futuro desenvolvimento de
conversores, visualizadores ou emuladores. Esta informao poder consistir, por exemplo,
numa especificao formal e detalhada do formato associado ao objecto preservado. Raymond
Lorie prope uma variante desta estratgia onde esta especificao formal substituda por
uma aplicao de software compilada para uma m q u i n a v i r t u a l u n i v e r s a l , e.g. Java
Virtual Machine (Raimond A. Lorie, 2002). Esta aplicao tem como finalidade apresentar
uma viso lgica do objecto, possibilitando desta forma, uma navegao simples atravs das
suas propriedades.

A m i g r a o consiste na () transferncia peridica de material digital de uma dada


configurao de hardware/software para uma outra, ou de uma gerao de tecnologia para
outra subsequente (Task Force on Archiving of Digital Information, Commission on
Preservation and Access, & Research Libraries Group, 1996). Num contexto de migrao, ao
contrrio das estratgias anteriormente descritas, os objectos digitais no so conservados nos
seus formatos originais. Esta estratgia tem como objectivo fundamental preservar o contedo
intelectual do objecto e no a estrutura utilizada para o representar. A migrao recorre a
software de converso para transformar os objectos codificados em formatos obsoletos em
objectos cujos formatos so compatveis com as plataformas tecnolgicas mais actuais. A
principal vantagem desta abordagem consiste na possibilidade de um utilizador convencional
ser capaz de interpretar os objectos digitais preservados sem necessidade de artefactos
adicionais para alm do software existente no seu computador pessoal. No entanto, a aplicao
desta estratgia pode resultar na perda de propriedades essenciais do objecto digital. Isto deve-
se, sobretudo, a incompatibilidades existentes entre os formatos de partida e chegada ou
utilizao de conversores incapazes de realizar devidamente as tarefas a que se propem.

Apesar da existncia de diversas estratgias de preservao digital, nenhuma delas foi at ao


momento devidamente validada ou universalmente aceite (Rauch & Rauber, 2004). A escolha

3 Objectos digitais complexos so geralmente constitudos por vrios subcomponentes que podero, inclusivamente, estar
distribudos por vrios ns de processamento, i.e., servidores. Um exemplo deste tipo de objectos so pginas Web que so
constitudas por texto, imagens, vdeos, ligaes a outras pginas, etc.

3
de qualquer uma das alternativas expostas necessita geralmente que diversos factores sejam
tomados em considerao, como por exemplo: as caractersticas da coleco que se pretende
preservar, a satisfao dos potenciais utilizadores da informao ou os custos associados ao
processo de preservao (Rauch & Rauber, 2004).

Rauch e Rauber desenvolveram um mtodo de avaliao capaz de comparar e seleccionar


alternativas de preservao de acordo com as necessidades individuais de cada organizao
preservadora (Rauch, Pavuza, Strodl, & Rauber, 2005; Rauch & Rauber, 2004). O seu trabalho
baseado em conceitos de A n l i s e d e U t i l i d a d e , um mtodo originalmente
desenvolvido para auxlio tomada de deciso em projectos complexos nos domnios da
construo civil e economia (Weirich et al., 2001). O mtodo resulta na ordenao de vrias
alternativas de preservao de acordo com os requisitos especficos manifestados pela entidade
preservadora, facilitando deste modo a identificao da estratgia e parmetros associados mais
adequados num dado contexto organizacional.

1.2 Motivao
O problema geral da obsolescncia tecnolgica afecta todos aqueles que lidam com
informao digital. Afecta indivduos que acumulam toda uma vida de memrias
materializadas em fotografias, msicas e filmes codificados em formatos digitais (Teixeira et al.,
2003). Afecta organizaes que produzem no seu dia-a-dia grandes volumes de informao,
muita desta vital para o exerccio da sua actividade. Afecta as instituies de ndole cultural,
como arquivos, bibliotecas e museus, onde se comeam a dar os primeiros passos na
incorporao de artefactos digitais com elevado valor patrimonial ou com imposies legais
que determinam a sua reteno e preservao a longo-prazo.

Mesmo aqueles que no manipulam directamente informao digital dependem desta no seu
dia-a-dia. A televiso que chega a suas casas suportada por formatos digitais, assim como a
msica que consomem, os seus registos fiscais e financeiros, as fotografias e outdoors que vem
na rua, as conversas ao telemvel, os raios-X e registos clnicos mantidos pelo seu mdico de
famlia, at mesmo os livros que lem confortavelmente na praia ou no sof j existiram, de
uma forma ou outra, em formato digital.

tambm de realar o aumento de informao cientfica publicada em formatos digitais, assim


como o aumento do nmero de repositrios responsveis pela sua conservao (Brody, 2005;
Ferreira, Saraiva, Rodrigues, & Baptista, 2008). Este facto refora a ideia de que as questes
relacionadas com a preservao de informao digital devero ser encaradas de uma forma

4
concertada sendo necessrio a elaborao de mecanismos que facilitem, sistematizem e
validem os processos que lhe so inerentes (C. A. Lynch, 2003).

Apesar dos progressos sentidos no domnio da preservao digital, continua a existir um vazio
assinalvel no que diz respeito automatizao de estratgias de preservao (Ross &
Hedstrom, 2005). Em paralelo, questes relacionadas com a autenticidade dos objectos
digitais, a validao das actuais estratgias de preservao e a necessidade, sempre crescente, de
reduzir os custos da sua implementao assumem particular destaque na lista de preocupaes
dos profissionais envolvidos em processos de preservao de materiais digitais (Ross &
Hedstrom, 2005). Este trabalho de investigao visa contribuir para a soluo destes
problemas, dando especial nfase automatizao dos processos de preservao baseados em
migrao.

Neste projecto prope-se modelar e desenvolver uma arquitectura de software baseada em


servios, capaz de assistir organizaes e indivduos na seleco e execuo de estratgias de
preservao baseadas em migrao. A arquitectura proposta incorporar tambm mecanismos
de controlo de qualidade que garantam, de forma prtica e eficaz, a autenticidade dos materiais
preservados. Adicionalmente, as estratgias de migrao sugeridas pela arquitectura procuraro
maximizar a satisfao dos utilizadores da informao preservada e ir ao encontro das polticas
de preservao definidas pela entidade preservadora.

1.3 Objectivos e contributos


Neste projecto de doutoramento procurou-se identificar e desenvolver o conjunto mnimo de
servios que facilitassem a implementao transversal de estratgias de preservao digital
baseadas em migrao, garantindo o cumprimento dos seguintes requisitos:

A execuo da estratgia de migrao deve prescindir de interveno humana;

Os objectos preservados devero permanecer a u t n t i c o s 4 independentemente das


intervenes de preservao a que forem sujeitos;

As aces de preservao exercidas sobre os objectos devero maximizar a satisfao


dos seus potenciais utilizadores e as polticas da entidade responsvel pela conservao
dos mesmos.

4 Ver discusso sobre Autenticidade na seco 2.5 na pgina 37.

5
importante referir que a implementao de uma estratgia de migrao pressupe a
realizao de um conjunto mnimo de actividades, nomeadamente, a seleco de uma
estratgia de migrao de entre um conjunto alargado de opes disponveis, a converso dos
materiais e a avaliao dos resultados obtidos numa perspectiva de controlo de qualidade.

A questo de investigao que norteou este trabalho foi:

Qual o conjunto de servios que permite implementar, de forma transversal e automtica, todos os
processos inerentes migrao de objectos digitais num contexto de preservao digital, sem que
haja prejuzo da sua autenticidade?

De forma a dar resposta questo de investigao apresentada, foi desenvolvida uma


Arquitectura Orientada ao Servio (SOA) capaz de auxiliar organizaes e indivduos na
implementao de intervenes de preservao baseadas em migrao. A arquitectura
desenvolvida constituda por um conjunto de componentes fisicamente distribudos que
permitem realizar o seguinte conjunto de actividades:

Oferecer um conjunto alargado de servios de migrao de formatos (converso);

Disponibilizar um mecanismo de controlo de qualidade baseado em critrios pr-


estabelecidos que permite aferir o nvel de servio prestado por cada conversor
(controlo de qualidade);

Produzir relatrios de migrao que possam ser utilizados para documentar a


interveno de preservao (autenticidade);

Fornecer sugestes de formatos de destino e/ou conversores que maximizem a


satisfao da organizao ou individuo (seleco).

A arquitectura que resultou deste trabalho permite a qualquer entidade-cliente realizar o


conjunto de actividades previamente enunciado, bastando para tal invocar remotamente os
servios disponibilizados.

Os principais contributos desta investigao so:

Para entidades carentes de preservao digital

A capacidade de preservar os seus objectos digitais atravs da converso de formatos


sem que haja necessidade de implementar localmente complexos sistemas de migrao;
6
A capacidade de obter relatrios detalhados sobre a migrao realizada permitindo,
assim, documentar todo o processo de preservao e deste modo assegurar a
autenticidade dos materiais;

A possibilidade de comparar diferentes alternativas de migrao e identificar de forma


objectiva qual destas a mais adequada para satisfazer as suas necessidades
organizacionais;

A possibilidade de determinar, para cada objecto digital, o conjunto de propriedades


significativas que no foram devidamente preservadas no processo de migrao.

Para a indstria de software

A possibilidade de vender as suas aplicaes de converso atravs da plataforma de


servios desenvolvida;

A capacidade de avaliar de forma objectiva a qualidade das suas aplicaes atravs de


uma plataforma provida de dezenas de critrios de avaliao;

A possibilidade de comparar o desempenho das suas aplicaes com o desempenho de


centenas de outras numa arena imparcial que favorece a concorrncia;

Um modelo de avaliao de mecanismos de migrao/exportao que poder vir a ser


implementado por aplicaes de software com suporte para mltiplos formatos e que
permite ao utilizador identificar os formatos mais adequados para armazenar objectos
produzidos nessa aplicao.

Para investigadores em preservao

A identificao e caracterizao dos diferentes servios e componentes funcionais que


possibilitam a implementao de estratgias de preservao baseadas em migrao sem
que haja prejuzo da autenticidade dos materiais;

A recolha e desenvolvimento de funes de similaridade adequadas a diferentes tipos


de dados que permitem aferir de forma objectiva a degradao incorrida ao nvel das
propriedades significativas dos objectos digitais devido migrao de formatos;

7
O acesso a um modelo de arquitectura e respectiva implementao capaz de avaliar o
desempenho de uma migrao segundo mltiplos critrios, nomeadamente:
performance operacional, aptido dos formatos envolvidos e quantificao da
informao perdida durante uma interveno de preservao.

importante referir que todas as experincias de validao realizadas em torno da arquitectura


proposta tiveram como base objectos pertencentes classe i m a g e n s m a t r i c i a i s .

1.4 Organizao da tese


Este documento est organizado em 7 captulos:

O primeiro captulo, Introduo, apresenta uma viso geral sobre a investigao desenvolvida.
efectuada uma introduo temtica da preservao digital onde so descritas,
sucintamente, as principais estratgias de preservao propostas pela comunidade cientfica.
Neste captulo so ainda apresentadas as motivaes que conduziram ao desenvolvimento
desta tese, a questo de investigao que a norteou e os contributos que dela resultaram.

O segundo captulo descreve todo o trabalho que serviu de base investigao realizada, i.e., o
estado da arte. Nele so abordados temas como: o conceito de objecto digital, de preservao
digital, o modelo de referncia OAIS, estratgias de preservao digital, directrios de
formatos, critrios para a autenticidade, metainformao de preservao e modelos de
avaliao de estratgias de preservao.

O captulo seguinte consiste num enquadramento terico que facilita a compreenso das
diferentes fases inerentes a um processo de migrao. Este captulo apresenta um cenrio de
preservao que permite identificar algumas das principais dificuldades com que um
profissional da rea se debate, servindo de ponto de partida para a identificao de um
conjunto de servios considerados indispensveis para que seja possvel automatizar processos
de preservao baseados em migrao. ainda descrito em detalhe um conjunto de
ferramentas que permitem implementar os servios de preservao previamente identificados.

O quarto captulo introduz o CRiB, a plataforma de servios de preservao proposta nesta


tese. Partindo de uma viso geral da sua arquitectura, so apresentados todos os componentes
lgicos que a constituem, bem como todos os detalhes da sua implementao. ainda neste
captulo que so apresentadas as taxionomias de avaliao utilizadas durante o processo de
controlo de qualidade e recomendao de estratgias de preservao.

8
O quinto captulo dedicado metodologia de validao dos componentes desenvolvidos.
Nele so apresentadas todas as experincias realizadas em torno da plataforma e que
demonstram a sua adequabilidade aos fins a que se prope.

O sexto captulo apresenta e descreve dois projectos com relevncia nacional e internacional
que adoptaram a plataforma de servios que ir ser apresentada ao longo desta tese.

A tese termina com um conjunto de consideraes finais, contributos e apontamentos sobre


trabalho futuro.

9
10
Captulo 2
Preservao digital
Desde a inveno da escrita que existe uma manifesta preocupao em torno da preservao
de artefactos que resultam de processos intelectuais e criativos do ser humano (Proena &
Lopes, 2004). A preservao desses artefactos permite que geraes futuras sejam capazes de
compreender e contextualizar a histria e a cultura dos seus povos (Lee et al., 2002). Os
museus, as bibliotecas e os arquivos tm assumido, neste contexto, um papel determinante
responsabilizando-se pela sua preservao e conservao.

Nos dias que correm, uma parte significativa da produo intelectual realizada com o auxlio
de ferramentas digitais. A simplicidade com que o material digital pode ser criado e
disseminado atravs das modernas redes de comunicao e a qualidade dos resultados obtidos
so factores determinantes na adopo deste tipo de ferramentas.

Apesar das inmeras vantagens inerentes sua utilizao, o material digital acarreta um
problema estrutural que coloca em risco a sua longevidade. Embora um documento digital
possa ser copiado infinitas vezes sem qualquer perda de qualidade, este exige a presena de um
contexto tecnolgico para que possa ser interpretado por um ser humano. Esta dependncia
tecnolgica torna-o particularmente vulnervel rpida obsolescncia a que geralmente a
tecnologia est sujeita (Ferreira, Baptista, & Ramalho, 2005).

11
O curso da histria tem revelado inmeros exemplos fatdicos de obsolescncia tecnolgica.
Na dcada de 70, a multinacional japonesa Sony introduziu um formato de vdeo designado
Betamax (Figura 1). Comparativamente ao comum VHS5 (Figura 2), a cassete Betamax era de
menores dimenses e oferecia uma qualidade de imagem superior. O pico da sua popularidade
foi atingido em 1983 quando cerca de um tero do mercado de vdeo domstico era dominado
por este formato (IEEE History Center; Nayak & Ketteringham, 1994; Shiraishi, 1985).

Figura 1 Cassete de vdeo Betamax.

Apesar do seu sucesso comercial, o facto de a Sony no facilitar o licenciamento de produo a


terceiros foi decisivo para que ocorresse uma viragem radical no mercado dos pequenos
electrodomsticos e os consumidores adoptassem massivamente o formato VHS. Em pouco
tempo, o formato Betamax desapareceu do mercado europeu e norte-americano, sendo hoje
em dia muito difcil encontrar um dispositivo capaz de apresentar o contedo armazenado
numa dessas cassetes (Nayak & Ketteringham, 1994).

Figura 2 Cassete de vdeo VHS.

Um exemplo mais recente de obsolescncia tecnolgica, desta vez no domnio digital, reporta-
se ao uso das populares disquetes de 3.5 polegadas (Figura 3). Em Maro de 2003, o fabricante
Dell Computer Corporation anunciou que os seus computadores deixariam de integrar

5 Video Home System.

12
dispositivos de leitura para este tipo de suporte (Figura 4). Vrios fabricantes seguiram de
imediato o seu exemplo (Kenney, McGovern, Entlich, Kehoe, & Olsen, 2003).

Figura 3 Disquete de 3.5 polegadas.

Actualmente, ainda possvel adquirir dispositivos capazes de ler disquetes de 3.5 polegadas.
No entanto, o mercado inclina-se rapidamente para o uso de DVD e flash-drives.

Figura 4 Leitor de disquetes de 3.5 polegadas.

importante salientar que a obsolescncia tecnolgica no se manifesta apenas ao nvel dos


suportes fsicos. Toda a informao digital tem necessariamente de respeitar as regras lgicas
de um formato. Isto permite s aplicaes de software abrir e processar adequadamente a
informao armazenada. medida que o software vai evoluindo, tambm os formatos por ele
suportados vo sendo alvo de actualizao.

bastante comum encontrar aplicaes de software capazes de carregar os ficheiros


produzidos por verses anteriores da mesma aplicao. No entanto, essa capacidade raramente
vai para alm das duas verses precedentes (Kenney et al., 2003).

No mundo actual, onde cada vez mais organizaes dependem da informao digital que
produzem, torna-se premente a implementao de tcnicas e de polticas concertadas que vo
no sentido de garantir a perenidade e a acessibilidade a este tipo de informao.

Designa-se, assim, por P r e s e r v a o D i g i t a l o conjunto de actividades ou processos


responsveis por garantir o acesso continuado a longo-prazo informao e restante
patrimnio cultural existente em formatos digitais (Webb, 2003). A preservao digital consiste
na capacidade de garantir que a informao digital permanece acessvel, interpretvel e

13
autntica na presena de uma plataforma tecnolgica diferente daquela que fora inicialmente
utilizada no momento da sua criao.

Foram muitas as iniciativas que ajudaram a construir a base de conhecimento que hoje suporta
o domnio cientfico da preservao digital. Dessas iniciativas resultaram ideias, conceitos e
estratgias que levaram discusso e ao reconhecimento universal deste problema. Neste
captulo pretende-se descrever as mais relevantes iniciativas no domnio da preservao digital,
bem como contextualizar os principais conceitos que orientam a linha de pensamento que
alicera esta tese.

Este captulo est organizado da seguinte forma: a seco 2.1 introduz o conceito de objecto
digital; na seco 2.2 introduzida alguma da terminologia que ser utilizada ao longo da tese
socorrendo-se para tal do modelo de referncia OAIS; na seco 2.3 so descritas as principais
estratgias de preservao apontadas pela comunidade cientfica; na seco 2.4 so descritas as
iniciativas mais relevantes no domnio dos directrios de formatos; a seco 2.5 aborda
questes relacionadas com autenticidade e introduz o conceito de propriedade significativa
realando a sua importncia na elaborao de polticas de preservao; a seco 2.6 explora a
importncia da utilizao de normas de metainformao como forma de dar suporte s
actividades de preservao digital, dando especial nfase ao dicionrio de dados PREMIS; o
captulo termina, na seco 2.7, com um sumrio e uma reflexo final que tm como objectivo
relacionar os diferentes conceitos e iniciativas apresentadas ao longo do captulo.

2.1 A anatomia de um objecto digital


Um o b j e c t o d i g i t a l define-se como todo e qualquer objecto de informao que possa ser
representado atravs de uma sequncia de dgitos binrios6 (Thibodeau, 2002). Esta definio
suficientemente abrangente para acomodar tanto informao nascida num contexto
tecnolgico digital (objectos nado-digitais) como informao digital obtida a partir de suportes
analgicos (objectos digitalizados).

Alguns exemplos elucidativos de objectos digitais so: documentos de texto, fotografias


digitais, diagramas vectoriais, bases de dados, sequncias de udio/vdeo, modelos de realidade
virtual, pginas Web e aplicaes de software.

6 Do ingls bit stream.

14
De modo a promover a compreenso e o enquadramento das diferentes estratgias de
preservao que sero descritas ao longo deste captulo, torna-se fundamental considerar e
analisar os diferentes nveis a que os objectos digitais podem ser interpretados.

Para que um ser humano seja capaz de decifrar um objecto digital, h um conjunto de
transformaes que devero ocorrer. Um objecto digital comea por ser um objecto fsico, i.e.,
um conjunto de smbolos ou sinais inscritos num suporte fsico (e.g. disco rgido, CD, DVD,
disquete, memria-flash, etc.).

O suporte fsico define o domnio dos smbolos a utilizar. Considere-se o seguinte exemplo:
uma fotografia digital pode ser inscrita numa vasta gama de suportes fsicos, no entanto, os
smbolos ou sinais fsicos utilizados para a representar num CD-ROM diferem
substancialmente dos utilizados para a representar num disco rgido (Thibodeau, 2002). No
primeiro exemplo, os smbolos utilizados so essencialmente pequenos orifcios reflectores
dispostos em espiral sobre uma base de policarbonato. No segundo, so utilizados padres
magnticos sobre um prato metlico. Independentemente do suporte utilizado, a fotografia
exactamente a mesma.

O objecto fsico constitui aquilo que, geralmente, o hardware capaz de interpretar (Figura 6).
O hardware assume aqui a responsabilidade de transformar os smbolos inscritos no suporte
fsico num conjunto de dados que o software capaz de manipular. Esse conjunto de dados
encontra-se organizado segundo as regras decretadas pelo software utilizado na criao do
objecto digital. Essas regras ou estruturas de dados constituem aquilo que vulgarmente se
designa por f o r m a t o de um objecto digital (Thibodeau, 2002). Essas estruturas constituem o
nvel de abstraco l g i c o ou s i n t c t i c o do objecto digital.

O software assume a responsabilidade de preparar o o b j e c t o l g i c o para que este possa


ser devidamente apresentado a um receptor humano. Nesta fase, os sinais digitais manipulados
no interior do computador so transformados em sinais analgicos que sero veiculados at ao
receptor humano atravs de um perifrico de sada (Figura 5).

A imagem que posteriormente se forma na mente do receptor constitui o que vulgarmente se


designa por um o b j e c t o c o n c e p t u a l ou o b j e c t o s e m n t i c o (Figura 6).

Os objectos semnticos assumem formas ou concepes familiares aos seres humanos, i.e.,
formas que existem no mundo real e que lhes so conhecidas, como livros, filmes ou
fotografias. Do ponto de vista do ser humano, o objecto conceptual constitui aquilo que deve
ser preservado.

15
Figura 5 Cadeia de interpretao desde o nvel fsico at ao nvel
conceptual.

No obstante, cada ser humano acaba por fazer uma interpretao individual do objecto
recebido. Essa interpretao ser aqui designada por o b j e c t o e x p e r i m e n t a d o ( Figura 6).
Apesar de teoricamente ser possvel captar e preservar o objecto experimentado, nenhuma das
estratgias de preservao apresentadas ao longo deste captulo iro abordar seriamente esta
questo.

Figura 6 Diferentes nveis de abstraco de um objecto digital.

16
De modo anlogo, quando um ser humano assume o papel de emissor (ou produtor de
informao), este mesmo conjunto de transformaes realizado, mas em sentido reverso.
Nesta situao, o objecto conceptual que ganhou forma no crebro do emissor codificado
numa linguagem passvel de ser comunicada (e.g. linguagem verbal, linguagem grfica, msica,
etc.). Essa linguagem poder ento ser transmitida a um receptor ou armazenada num suporte
fsico adequado sua reteno, passando inevitavelmente por um processo intermdio de
codificao que permite transformar a linguagem humana em cdigos passveis de serem
processados por um computador ou outro qualquer dispositivo digital.

Numa situao ideal, o objecto conceptual formado na mente do emissor ser igual ao objecto
conceptual concebido pelo receptor. Somente nessa situao a comunicao poder ser
considerada perfeita.

A preservao digital responsvel por garantir que a comunicao entre um emissor e um


receptor possvel, no s atravs do espao, mas tambm atravs do tempo. Trata-se
tambm de um problema de interoperabilidade, no entre sistemas contemporneos, mas
entre sistemas de pocas distintas.

Para que a preservao de um objecto digital seja possvel, necessrio assegurar que todos os
nveis de abstraco anteriormente descritos (i.e., fsico e lgico) se mantenham acessveis e
interpretveis. Se a cadeia de interpretao que permite elevar um objecto desde o nvel fsico
at ao nvel conceptual for interrompida, a comunicao deixa de ser possvel e o objecto
perder-se- para sempre (Oltmans, Diessen, & Wijngaarden, 2004; Werf, 2002).

Segundo uma outra perspectiva, um dado objecto conceptual pode ser representado de
diversas formas, ou seja, este pode ser codificado em diferentes formatos lgicos, e cada um
destes ser inscrito em vrios suportes fsicos sem qualquer prejuzo da mensagem veiculada
(Hofman, 2002a). Voltando ao exemplo anterior, possvel conceber que uma fotografia
digital possa ser codificada em diversos formatos distintos, como TIFF, JPEG ou PNG, e
cada um destes possa ser armazenado em diferentes suportes fsicos distintos, e.g. DVD, disco
rgido, memria-flash, cartes perfurados, entre outros. (Figura 7).

17
Figura 7 Objecto digital observado a diferentes nveis de
abstraco.

O enquadramento do conceito objecto digital sob uma perspectiva semitica, i.e., recorrendo a
diferentes nveis de abstraco, facilita a compreenso das diversas estratgias de preservao
que sero apresentadas ao longo deste captulo.

2.2 O modelo de referncia OAIS


Em 1990, o Consultative Comitee for Space Data Systems (CCSDS) iniciou um esforo
conjunto com a International Organization for Standardization (ISO) com o objectivo de
desenvolver um conjunto de normas capazes de regular o armazenamento a longo-prazo de
informao digital produzida no mbito de misses espaciais.

Deste esforo nasceu o modelo de referncia OAIS (Open Archival Information System), um
modelo conceptual que visa identificar os componentes funcionais que devero fazer parte de
um sistema de informao dedicado preservao digital, bem como as suas interfaces
internas e externas e os objectos de informao trocados no seu interior (Consultative
Committee for Space Data Systems, 2002; B. F. Lavoie, 2004). O modelo foi aprovado como
uma norma internacional ISO em 2003 ISO Standard 14721:2003 (Consultative Committee
for Space Data Systems, 2002).

18
Um dos contributos mais notveis desta iniciativa foi a definio de uma terminologia prpria
que viria a facilitar a comunicao entre os diversos intervenientes envolvidos na preservao
de objectos digitais (Saramago, 2004). importante referir que ao longo desta tese a
terminologia utilizada segue o modelo de referncia OAIS.

A Figura 8 ilustra os diferentes componentes funcionais, bem como os pacotes de informao


trocados no interior de um repositrio digital compatvel com o modelo de referncia OAIS.

?
Planeamento de preservao

Informao Gesto de dados Informao


descritiva
?
Pacote de descritiva

Consumidor
Pacote de
Informao de
Produtor

Informao de
Submisso
Disseminao

Ingesto Acesso

Pacote de
Informao Pacote de
de Arquivo Repositrio Informao
de Arquivo
de dados

Administrao

Administrador

Figura 8 Modelo de referncia Open Archival Information System


(OAIS).

O P r o d u t o r dever ser entendido como a entidade externa ao repositrio que se


responsabiliza pela submisso de novo material no repositrio. Este material aqui
representado pelo P a c o t e d e I n f o r m a o d e S u b m i s s o 7 ( S I P ) .

Durante o processo de submisso, designado neste contexto por I n g e s t o , o repositrio


responsvel por verificar a integridade da informao recebida. Ainda nesta fase, produzida
e/ou validada toda a I n f o r m a o D e s c r i t i v a que ir suportar a descoberta e localizao
do material arquivado. Em paralelo so efectuadas todas as transformaes necessrias de

7 Do ingls Submission Information Package (SIP).

19
modo a tornar o SIP apto para preservao a longo-prazo. Deste processo resulta um P a c o t e
d e I n f o r m a o d e A r q u i v o 8 (AIP), ou seja, uma estrutura de dados que ser em ltima
instncia mantida e efectivamente preservada pelo repositrio.

O componente de ingesto assume, assim, o importante papel de servir de interface entre o


repositrio OAIS e os vrios produtores de informao (B. F. Lavoie, 2004).

A In f o r m a o D e s c r i t i v a , vulgarmente designada por metainformao, pode ser


fornecida pelo produtor ou gerada no interior do repositrio. Esta informao
posteriormente armazenada e gerida pelo componente G e s t o d e D a d o s 9. Este
componente dever, para alm de guardar a informao descritiva, permitir estabelecer
relaes entre a metainformao descritiva e o material preservado (i.e., AIP), efectuar
pesquisas sobre a metainformao e produzir relatrios sobre os contedos do repositrio.

Por sua vez, o material a preservar (i.e., o A I P ) armazenado no R e p o s i t r i o d e


D a d o s 10. Para alm de guardar os objectos digitais, este componente responsvel por gerir
a hierarquia de armazenamento, garantir que os objectos no so adulterados pelo suporte
fsico de armazenamento, efectuar verificaes de integridade ao nvel lgico e oferecer
funcionalidades de salvaguarda e recuperao de dados em situao de desastre, e.g. RAID,
cpias de segurana, etc.

O componente P l a n e a m e n t o d e P r e s e r v a o responsvel pela definio de polticas


de preservao e de planos de contingncia que garantam que o material arquivado permanece
acessvel e de acordo com os requisitos de qualidade e autenticidade exigidos pela sua
comunidade de interesse11. Este componente ainda responsvel por monitorizar o ambiente
externo ao repositrio por forma a detectar modificaes no panorama tecnolgico vigente ou
nos requisitos dos seus utilizadores que possam influenciar a forma como os objectos digitais
devero ser preservados ou disseminados. Mediante a situao, este servio poder
desencadear eventos de preservao no interior do repositrio. da responsabilidade deste

8 Do ingls Archival Information Package (AIP).


9 Do ingls Data Management.
10 Do ingls Archival Storage.
11 Tambm conhecido por p o p u l a o p o t e n c i a l m e n t e u t i l i z a d o r a . de notar que o conceito de
c o m u n i d a d e d e i n t e r e s s e dever ser entendido no seu sentido mais lato. Trata-se de um conceito por vezes
associado a centros de documentao e bibliotecas especializadas, como o caso de certas bibliotecas universitrias (e.g.
Biblioteca de Fsica da Universidade do Minho em que a comunidade de interesse so os estudantes e professores de matrias
ligadas Fsica). Em bibliotecas de carcter geral, como bibliotecas pblicas ou nacionais, e na generalidade dos arquivos este
conceito no aplicvel ou apenas o ser se se considerar que a comunidade de interesse coincide com a totalidade da
populao.

20
componente, por exemplo, a elaborao de estratgias de preservao e a definio dos
formatos mais adequados para disseminar o material arquivado (Consultative Committee for
Space Data Systems, 2002; B. F. Lavoie, 2004). importante referir que as funes associadas
a este componente so vulgarmente desempenhadas por pessoas especializadas em tecnologia
e preservao digital.

O componente A c e s s o estabelece a ponte entre o repositrio e a sua comunidade de


interesse, i.e., o conjunto de potenciais C o n s u m i d o r e s de material custodiado. Este
componente responsvel por facilitar a descoberta e localizao dos objectos digitais, bem
como preparar os mesmos para entrega ao consumidor. A informao entregue ao
consumidor sob a forma de P a c o t e s d e I n f o r m a o d e D i s s e m i n a o 12, ou DIP.
de realar que os P a c o t e s d e I n f o r m a o d e D i s s e m i n a o podero ser
diferentes dos P a c o t e s d e I n f o r m a o d e A r q u i v o , ou seja, a informao entregue
ao consumidor poder ser um subconjunto da informao arquivada ou uma verso
transformada da mesma (ver Migrao/converso na pgina 26) (Consultative Committee for
Space Data Systems, 2002; B. F. Lavoie, 2004).

Por ltimo, o componente A d m i n i s t r a o responsvel pelas operaes de manuteno


dirias do repositrio. Entre estas encontram-se: a parametrizao do sistema, monitorizao
dos seus processos, a execuo de planos de preservao, etc. Este componente interage com
todos os restantes de modo a assegurar o correcto funcionamento dos mesmos (B. F. Lavoie,
2004).

2.3 Estratgias de preservao digital


Ao longo da ltima dcada tm vindo a ser propostas inmeras estratgias no sentido de
solucionar o problema da obsolescncia tecnolgica. Segundo Lee et al. estas estratgias
podem ser agrupadas em trs classes fundamentais: emulao, migrao e encapsulamento
(Lee et al., 2002).

Thibodeau, por sua vez, organiza as diferentes estratgias num mapa bidimensional
posicionando no seu extremo esquerdo as estratgias centradas na preservao do objecto
fsico e/ou lgico13 e no extremo oposto as estratgias centradas na preservao do objecto
conceptual (Figura 9). No eixo vertical as vrias estratgias so dispostas mediante o seu grau

12 Do ingls Dissemination Information Package (DIP).


13 Tambm designada na literatura por p r e s e r v a o d e t e c n o l o g i a .

21
de especificidade, i.e., se so estratgias apenas aplicveis a uma dada classe de objectos digitais
ou se se tratam de estratgias genricas, passveis de ser administradas a qualquer classe de
objectos digitais (Thibodeau, 2002).

Aplicao
Refrescamento
genrica

Encapsulamento
Maquina Virtual
Universal

Pedra de Rosetta

Normalizao/
Emulao Canonizao

Preservao de Migrao
Aplicao tecnologia
especfica

Preservao do Preservao do
objecto fsico/lgico objecto conceptual

Figura 9 Classificao das diferentes estratgias de preservao


digital.

2.3.1 Preservao de tecnologia


Uma das primeiras estratgias de preservao apresentadas consiste na conservao do
contexto tecnolgico utilizado originalmente na concepo dos objectos digitais que se
pretendem preservar. Esta estratgia consiste, essencialmente, na conservao e manuteno
de todo o hardware e software necessrios correcta apresentao dos respectivos objectos
digitais (Bearman, 1987; Hendley, 1998; Swade, 1998; Task Force on Archiving of Digital
Information et al., 1996). Na prtica, esta estratgica consiste na criao de museus de
tecnologia.

Nesta estratgia, o foco no se centra na preservao do objecto conceptual, mas sim na


preservao do objecto tal como este foi criado, ou seja, na sua forma mais original. Os
impulsionadores desta estratgia consideram-na a nica suficientemente capaz de assegurar
que os objectos digitais so experimentados de forma fidedigna, i.e., que a sua autenticidade
no comprometida (Lee et al., 2002).

Contudo, a histria da computao tem vindo a demonstrar que qualquer plataforma


tecnolgica, mesmo a mais popular, acaba inevitavelmente por se tornar obsoleta, acabando
frequentemente por desaparecer sem deixar rasto (Hendley, 1998). Estratgias baseadas na
conservao de tecnologia introduzem ainda dificuldades acrescidas ao nvel da gesto do
22
espao fsico, manuteno e custo de operao, tornando-as inadequadas para aplicao a
longo-prazo (Lee et al., 2002). Outras desvantagens associadas a este tipo de estratgias tm
que ver com o facto de o acesso informao ficar confinado a apenas alguns locais fsicos do
globo e com condicionalismos adicionais no que diz respeito reutilizao de informao
(Rothenberg et al., 1999).

2.3.2 Refrescamento
Um objecto digital torna-se persistente no momento em que inscrito num suporte fsico de
armazenamento (e.g. disquete, disco rgido, CD-ROM). Garantir a integridade do suporte
fundamental para que a informao nele armazenada possa ser correctamente interpretada. Se
o suporte fsico se deteriorar ou se se tornar obsoleto a ponto de deixarem de existir
perifricos capazes de o ler, ento a informao nele armazenada perder-se- de forma
irremedivel (Hendley, 1998).

O r e f r e s c a m e n t o consiste na transferncia de informao de um suporte fsico de


armazenamento para outro geralmente mais actual, antes que o primeiro se deteriore ou se
torne irremediavelmente obsoleto (Bearman, 1989; Hendley, 1998; Task Force on Archiving
of Digital Information et al., 1996; Woodyard, 1998).

O r e f r e s c a m e n t o no constitui uma estratgia de preservao per se. Em vez disso, dever


ser considerado um pr-requisito para o sucesso de qualquer estratgia de preservao (Besser,
2001). A frequente verificao de integridade dos suportes fsicos, assim como o seu
refrescamento peridico so actividades vitais num contexto de preservao digital.

2.3.3 Emulao
As estratgias de emulao baseiam-se na utilizao de um software especial, designado
E m u l a d o r , capaz de reproduzir o comportamento de uma plataforma de hardware e/ou
software, numa outra que de outra forma seria incompatvel (Rothenberg et al., 1999). A
grande vantagem desta abordagem est na capacidade de preservar, com um elevado grau de
fidelidade, as caractersticas e as funcionalidades do objecto digital original (Lee et al., 2002).

Tal como acontece em estratgias de preservao baseadas na pr e s e r v a o d e


t e c n o l o g i a , as tcnicas de e m u l a o centram-se na preservao do objecto lgico no
alterando o seu formato original. No entanto, este tipo de estratgias no padece de alguns dos
problemas geralmente associados criao de museus de tecnologia, como por exemplo, o
desgaste do hardware e a escassez de peas para substituio.

23
Existem, fundamentalmente, dois tipos de emuladores: emuladores de sistemas operativos e
emuladores de hardware. Os primeiros focam-se na reproduo de um sistema operativo
permitindo a execuo de diversas aplicaes no contexto de um nico emulador. Um
exemplo deste tipo de emuladores o Wine14, um emulador que permite executar aplicaes
desenvolvidas na plataforma Windows em ambientes Unix. O segundo tipo de emuladores
visa mimar o comportamento de uma plataforma de hardware, possibilitando que vrios
sistemas operativos e correspondentes aplicaes possam ser executados no contexto de um
nico emulador (Granger, 2000; Thibodeau, 2002). Apesar de mais versteis, este tipo de
emuladores obriga instalao de um sistema operativo completo, assim como todas as
aplicaes necessrias ao correcto funcionamento ou interpretao do objecto digital.
Exemplos deste tipo de emuladores so: VMware Workstation (VMWare, 1998) e o Parallels
Desktop (Parallels, 1995), muito utilizados actualmente para virtualizar mquinas, i.e., permitir
que vrias mquinas virtuais (i.e., baseadas em software e no hardware) possam ser executas
concorrentemente sobre um mesmo sistema operativo de base. Existem tambm vrios
emuladores de plataformas consideradas obsoletas, e.g. ZX Spectrum (Davidson & Pollard,
2005), Nintendo NES (Krijgsman, 2005), entre outras.

Rothenberg, um dos principais promotores deste tipo de abordagens, defende um modelo


terico capaz de emular plataformas actuais em computadores do futuro. O modelo consiste
na conservao do objecto digital original, juntamente com todo o software necessrio sua
execuo/apresentao (incluindo o sistema operativo), e na criao de uma especificao
abstracta da plataforma de hardware que suporta a execuo desse software. Essa especificao
abstracta dever ser escrita numa linguagem independente da plataforma e ser suficientemente
rica para que um emulador possa ser construdo automaticamente num qualquer computador
do futuro (Rothenberg et al., 1999).

Hendley considera que a emulao apenas deveria ser utilizada em contextos onde a
comunidade de interesse valoriza a preservao do ambiente tecnolgico original ou ainda em
situaes em que os objectos digitais no so passveis de ser convertidos para formatos mais
actuais (Hendley, 1998). Outros autores consideram potencialmente arriscado confiar no
software original como forma de preservar objectos digitais, uma vez que este pode ser alvo de
vrus ou portador de bugs que podero, no futuro, resultar em perdas substanciais de
informao (Thibodeau, 2002; Waugh, Wilkinson, Hills, & Dell'oro, 2000).

14 http://www.winehq.org/

24
importante realar que a criao de especificaes capazes de descrever transversalmente
plataformas de hardware no uma tarefa simples de concretizar. Geralmente, implica recorrer
a mo-de-obra altamente especializada, o que por si s poder constituir um obstculo
considervel para a maioria das organizaes (Granger, 2000; Heslop, Davis, & Wilson, 2002;
Thibodeau, 2002). Para alm do disposto, a criao de especificaes imprecisas ou
incompletas poder impossibilitar a construo futura dos respectivos emuladores
(Holdsworth & Wheatley, 2001). tambm importante salientar que, com o tempo, o prprio
emulador ir sofrer de obsolescncia, havendo ento necessidade de o converter para uma
nova plataforma ou desenvolver um novo emulador capaz de emular o primeiro (Thibodeau,
2002).

Figura 10 Exemplo de um cenrio de emulao.

O uso de emuladores parte tambm do pressuposto pouco sustentado de que os utilizadores


do futuro sero capazes de operar adequadamente aplicaes e sistemas operativos h muito
desaparecidos. Por exemplo, no ser razovel assumir que num futuro prximo os
utilizadores possuam a aptido necessria para enfrentar as adversidades do sistema operativo
MS-DOS (Microsoft Corporation, 1981), nem to pouco que estes tero a disponibilidade
suficiente para ganhar essa capacidade apenas com o objectivo de consumir um objecto digital
produzido nesse ambiente tecnolgico.

25
A Figura 10 apresenta um cenrio de emulao onde um jogo de computador est a ser
executado por um emulador de ZX Spectrum, que por sua vez est a ser executado por um
emulador de Windows sobre Mac OS X.

Apesar dos problemas apresentados, as estratgias de emulao continuam a assumir um papel


importante na preservao de objectos digitais. Determinados tipos de objectos, especialmente
aqueles dotados de caractersticas dinmicas e/ou interactivas, podero exigir o recurso a
emuladores como nica forma de garantir uma apresentao fidedigna (Woodyard, 2000). As
estratgias de emulao so particularmente relevantes em contextos em que os objectos que
se pretendem preservar se tratam de aplicaes de software, tal como acontece actualmente
com um nmero crescente de jogos de computador considerados de valor histrico
assinalvel.

2.3.4 Migrao/converso
A M i g r a o ou C o n v e r s o consiste na () transferncia peridica de material digital de
uma dada configurao de hardware/software para uma outra, ou de uma gerao de
tecnologia para outra subsequente (Task Force on Archiving of Digital Information et al.,
1996).

Os objectos digitais so constitudos por elementos de estrutura e elementos de informao. O


formato de um objecto digital constitui a estrutura pela qual os elementos de informao se
encontram organizados. Neste contexto, a migrao pode ser vista como o processo
responsvel pela reorganizao dos elementos de informao que constituem um objecto
numa nova estrutura (Lawrence, Kehoe, Rieger, Walters, & Kenney, 2000).

Ao contrrio das estratgias de preservao j apresentadas, mais focadas na cristalizao do


objecto digital no seu formato original, as estratgias baseadas em migrao centram-se na
procura de formatos alternativos para representar o mesmo contedo intelectual que constitui
o objecto digital. Tratam-se de estratgias orientadas preservao do objecto conceptual que
desvalorizam a preservao do objecto lgico e/ou fsico original (Russell, 2000).

A migrao tem como principal objectivo garantir que os objectos digitais permanecem
compatveis com tecnologias actuais. Deste modo, um consumidor comum capaz de
interpretar esses objectos sem ter de recorrer a artefactos menos convencionais, como por
exemplo, emuladores. No entanto, os processos de migrao acarretam algumas desvantagens
que devero ser consideradas. Neste tipo de estratgias existe uma grande probabilidade de
algumas das propriedades que constituem os objectos digitais no serem correctamente

26
transferidas para o formato de destino adoptado (Hedstrom, 2001; Heslop et al., 2002). Isto
deve-se, sobretudo, a incompatibilidades estruturais entre os formatos de origem e destino ou
utilizao de conversores com pouca capacidade de realizar adequadamente as tarefas a que
se propem (Ferreira, Baptista, & Ramalho, 2006a; Lawrence et al., 2000; Rauber &
Aschenbrenner, 2001).

Adicionalmente, no espectvel que uma estratgia de migrao possa resolver


permanentemente os problemas de preservao. O formato de destino encontra-se, tambm
este, sob constante ameaa de obsolescncia, o que significa que ser apenas uma questo de
tempo at que uma nova migrao tenha de ser ministrada. No obstante, a migrao de
longe a estratgia de preservao mais aplicada, tanto em contextos institucionais como no
domnio domstico (Lee et al., 2002).

Existem diversas variantes de migrao que podero ser consideradas: migrao para suportes
analgicos, actualizao de verses, converso para formatos concorrentes, normalizao,
migrao a-pedido e migrao distribuda.

Migrao para suportes analgicos


A migrao para suportes analgicos consiste na converso de objectos para suportes no
digitais com o intuito de aumentar a sua longevidade (Task Force on Archiving of Digital
Information et al., 1996). Esta estratgia consiste, essencialmente, na reproduo de um
objecto digital em papel, microfilme ou qualquer outro suporte analgico de longa durao e
concentrar os esforos de preservao em torno do novo suporte.

Esta estratgia, no entanto, apenas pode ser aplicada a objectos digitais que possuam uma
representao aproximada em suportes analgicos, como por exemplo, documentos de texto
ou imagens. Objectos interactivos e/ou dinmicos ficam automaticamente excludos deste tipo
de estratgias.

Actualizao de verses
bastante comum encontrar aplicaes de software capazes de abrir ou importar objectos
digitais produzidos por verses anteriores da mesma aplicao. Essas aplicaes permitem
geralmente gravar os objectos importados no formato produzido pela nova aplicao. Esta
operao designa-se por a c t u a l i z a o d a v e r s o do formato.

A a c t u a l i z a o d e v e r s e s , possivelmente, a estratgia de preservao mais utilizada


pela generalidade dos utilizadores. Essencialmente, consiste em actualizar os materiais digitais
27
produzidos por um determinado software, recorrendo a uma verso mais actual do mesmo
(Thibodeau, 2002).

Converso para formatos concorrentes


O processo e actualizao de verses geralmente assegurado pela organizao que
desenvolveu uma dada aplicao de software. A qualidade da migrao depende, assim, da
capacidade dos importadores fornecidos pelo fabricante do software e do grau de
retrocompatibilidade oferecido pelo novo formato.

Idealmente, um fabricante asseguraria que todos os atributos presentes numa dada verso de
um formato estariam disponveis na verso que o substitui. No entanto, independentemente
do sucesso econmico de um fabricante ou produto de software, os formatos encontram-se
constantemente sujeitos a descontinuidade (Thibodeau, 2002). Uma forma de garantir que os
objectos digitais sobrevivem a este tipo de rupturas tecnolgicas consiste em convert-los para
formatos associados a uma linha de produtos concorrente.

Certos formatos no so dependentes de qualquer aplicao de software. Isso permite que


aplicaes distintas sejam capazes de abrir e manipular objectos codificados nesses formatos,
tal como acontece com grande parte dos formatos de imagem, como por exemplo, o JPEG, o
TIFF ou o PNG.

Normalizao
A n o r m a l i z a o t em como objectivo simplificar o processo de preservao atravs da
reduo do nmero de formatos distintos que se encontram num repositrio de objectos
digitais (Lee et al., 2002; Thibodeau, 2002). Um nmero controlado de formatos permite que
uma estratgia de preservao seja aplicada de forma transversal a um grande nmero de
objectos digitais. A aplicao deste tipo de polticas de ingesto introduz uma reduo
generalizada dos custos de preservao, facilitando a gesto e a aplicao de eventos de
preservao (Hofman, 2001).

Considere-se um exemplo. Existe um leque alargado de opes no que diz respeito a formatos
para representao de imagens bidimensionais (e.g. BMP, GIF, JPEG, PNG, TARGA). Se
durante o processo de ingesto todas as imagens digitais forem convertidas para um nico
formato, futuras intervenes ao nvel da sua preservao podero ser realizadas de forma
mais simples e, consequentemente, mais econmica.

28
A escolha do formato de normalizao um factor determinante para o sucesso desta
estratgia. Sempre que possvel, devero ser escolhidos formatos reconhecidos pela
comunidade de interesse e baseados em normas internacionais abertas (Heslop et al., 2002).
Isto poder evitar futuras complicaes ao nvel dos direitos de autor e a necessidade de
pagamento de royalties (Ayre & Muir, 2004). Paralelamente, o formato de normalizao dever
ser suficientemente rico para que as caractersticas fundamentais dos vrios formatos possam
ser devidamente incorporadas.

A normalizao promove, tambm, a interoperabilidade entre sistemas distintos. Ao serem


utilizados formatos abertos e independentes da plataforma, diferentes configuraes de
hardware e software sero capazes de os interpretar (Howel, 2004; Thibodeau, 2002).

A normalizao de formatos pode ser implementada de diversas formas. Determinados


repositrios procedem converso automtica dos objectos depositados para formatos nicos
de preservao. Outros, definem polticas de arquivo que limitam os formatos em que aceitam
informao, o que significa que cabe aos produtores de informao a tarefa de converter os
seus objectos digitais para os formatos estipulados (Hedstrom, 1998; Hodge & Frangakis,
2004). O argumento que suporta a segunda abordagem assenta no pressuposto de que os
produtores de informao sero as entidades mais adequadas para avaliar a qualidade da
converso efectuada.

Migrao a-pedido
O sucesso de uma migrao depende, fundamentalmente, da qualidade dos conversores
utilizados e da capacidade apresentada pelo formato de destino em acomodar o conjunto de
propriedades do formato de partida. Poder-se- assumir que sempre que efectuada uma
migrao, os objectos digitais resultantes so de alguma forma diferentes dos objectos de
partida. Ao fim de algumas converses sucessivas, os objectos preservados podero ser
substancialmente diferentes dos objectos originais (Figura 11). Para combater este fenmeno
surgiu uma estratgia designada por m i g r a o a - p e d i d o (Mellor, Wheatley, & Sergeant,
2002).

Neste tipo de migrao, ao invs das converses serem aplicadas ao objecto mais actual, estas
so sempre aplicadas ao objecto original (Figura 12). Deste modo, se de uma dada converso
resultar um objecto substancialmente diferente do original, numa futura converso o problema
poder ser resolvido recorrendo a um conversor de melhor qualidade ou a um formato de
destino mais adequado.

29
Figura 11 Degradao do objecto digital ao longo de sucessivas
migraes.

Esta abordagem possui como principal vantagem o facto de, uma vez construdo o mdulo de
descodificao do conversor (i.e., o mdulo capaz de ler as propriedades do formato de
origem), apenas ser necessrio desenvolver o codificador especfico para cada formato de
sada. No obstante, ser necessrio suportar ao longo do tempo um conjunto alargado de
conversores de modo a garantir a capacidade de transformar os objectos armazenados nos
seus formatos originais para formatos que sirvam adequadamente as necessidades dos seus
consumidores.

Figura 12 Migrao a-pedido.

Migrao distribuda
Os mais recentes desenvolvimentos no contexto da migrao introduzem arquitecturas
distribudas de conversores (Figura 13). Neste tipo de migrao, existe um conjunto de
servios de converso que se encontram acessveis atravs da rede ou da Internet e que
podero ser invocados remotamente recorrendo a um pequeno mdulo de software ou
aplicao-cliente.

Existem actualmente vrias iniciativas que visam o desenvolvimento deste tipo de conversores.
O Typed Objects Model (TOM) implementa um sistema distribudo de conversores suportado
por uma taxionomia de tipos e formatos de objectos que recorre a agentes mediadores para
descobrir e executar converses entre formatos (Ockerbloom, 1998).

30
No Lister Hill National Center for Biomedical Communications (LHNCBC) foi desenvolvido
um Web service que converte cinquenta formatos distintos para PDF. Para alm do servio
disponibilizado, o LHNCBC oferece uma aplicao designada MyMorph que permite a
qualquer utilizador tirar partido do servio publicado (Walker & Thoma, 2003, 2004, 2005).

Hunter e Choudhury do um passo em frente no seu projecto PANIC propondo uma rede de
servios de converso suportada por uma descrio semntica que possibilita a sua descoberta
e invocao automtica por agentes de software (Hunter & Choudhury, 2004, 2005, 2006).

Figura 13 Migrao distribuda baseada em Servios Web.

Este tipo de migrao apresenta algumas vantagens face s estratgias de migrao mais
convencionais, nomeadamente:

A utilizao de servios de converso permite esconder as especificidades de cada


conversor e da plataforma que o suporta;
A criao de servios redundantes assegura a fiabilidade do sistema perante
situaes de ruptura parcial;
A existncia de mltiplos caminhos de migrao permite soluo resistir ao
desaparecimento gradual de parte dos conversores;
Este tipo de abordagem compatvel com uma srie de variantes de migrao,
como por exemplo, n o r m a l i z a o e m i g r a o a - p e d i d o ;
A criao de uma rede global de conversores poder conduzir a uma reduo
generalizada dos custos de preservao. Pequenas e grandes organizaes podero
amortizar o seu investimento no desenvolvimento de conversores, publicando-os na
rede de servios e cobrando uma pequena taxa pela sua utilizao.

31
Apesar das vantagens apresentadas, a migrao distribuda poder no ser uma soluo
adequada a todos os contextos de utilizao. Um repositrio de informao digital pode
facilmente conter milhares de itens, atingindo nveis de armazenamento na ordem dos
Terabytes. Transferir atravs da Internet um volume de informao desta natureza acarreta
custos que podero ser impeditivos para muitas organizaes. Para alm disso, requisitos em
termos de largura de banda, segurana dos dados e tempo de transferncia podero ser
factores determinantes para o insucesso de estratgias desta natureza.

2.3.5 Encapsulamento
Por vezes no fcil determinar o valor intrnseco de determinados objectos digitais. Podero
passar-se muitos anos at que a comunidade de consumidores revele um particular interesse
por uma determinada coleco de objectos (Heminger & Robertson, 2004). Durante esse
tempo, o material custodiado poder nunca ser consultado. Neste tipo de cenrios, estratgias
de preservao que carecem de uma diligncia contnua (e.g. migrao) podero revelar-se
demasiado onerosas. As solues baseadas em e n c a p s u l a m e n t o procuram resolver este
problema, mantendo os objectos digitais inalterados at ao momento em que se tornam
efectivamente necessrios.

A estratgia de e n c a p s u l a m e n t o consiste em preservar, juntamente com o objecto digital,


toda a informao necessria e suficiente para permitir o futuro desenvolvimento de
conversores, visualizadores ou emuladores. Esta informao poder consistir, por exemplo,
numa descrio formal e detalhada do formato do objecto preservado (Digital Preservation
Testbed, 2001).

O Formato Universal de Preservao15 (UPF) trata-se de uma iniciativa que visa criar um

formato normalizado e auto-descritivo para armazenar informao digital. Este formato


independente da aplicao, do sistema operativo e do suporte fsico utilizados na criao do
objecto digital (T. Shepard & MacCarn, 1998, 1999).

Raymond Lorie prope uma alternativa a esta estratgia substituindo a especificao formal
por uma aplicao de software compilada para uma m q u i n a v i r t u a l u n i v e r s a l , por
exemplo, para a Java Virtual Machine (Raymond A. Lorie, 2001; Raimond A. Lorie, 2002).
Esta aplicao na realidade um descodificador16 e tem como finalidade apresentar uma viso
lgica do objecto digital permitindo, deste modo, uma navegao simples atravs das suas

15 Do ingls Universal Preservation Format.


16 Do ingls decoder.

32
propriedades. Lorie argumenta que a mquina virtual universal suficientemente simples para
que possa ser implementada em qualquer arquitectura de hardware futura.

2.3.6 Pedra de Roseta digital


O povo egpcio deixou uma infindvel quantidade de vestgios da sua presena na Terra. Entre
estes encontram-se as famosas pirmides de Giz17 e inmeras peas de arte. Muitos destes
artefactos eram adornados com hierglifos. Apesar de estes existirem h mais de 5000 anos, s
a partir do sculo XIX que foi possvel decifrar o seu significado. Tudo aconteceu em 1799
quando um grupo de soldados franceses descobriu no delta do Nilo um bloco de granito que
ficou conhecido como a Pedra de Roseta (Figura 14). Nela encontrava-se escrito em trs
lnguas distintas, egpcio hieroglfico, egpcio cursivo e grego clssico, um decreto emitido em
196 a.C. por Ptolomeu V Epifnio. Em 1822 o palegrafo francs Jean-Franois Champollion
descodificou a verso egpcia do texto recorrendo aos seus conhecimentos de grego clssico,
um idioma bem conhecido dos historiadores da poca (Wikipedia contributors, 2005). Esta
descoberta conduziu descodificao de inmeros outros textos egpcios encontrados nos
mais variados locais e suportes (e.g. monumentos, rochas, papiros).

Figura 14 Pedra de Roseta.

Heminger e Robertson propem a utilizao de uma estratgia semelhante para recuperar


objectos digitais para os quais no existe informao suficiente sobre o seu formato (Heminger
& Robertson, 2004). Nesta estratgia, em vez de se preservar as regras que permitem
descodificar o objecto digital, so reunidas amostras de objectos que sejam representativas do

17 Giz ou Guiza, nome mais prximo do original.

33
formato que se pretende recuperar. Estas amostras devero existir num formato que possa ser
directamente interpretado pelo ser humano. Trata-se do conjunto de referncia, i.e., a verso
grega do decreto inscrito na Pedra de Roseta. Com esta informao seria possvel inferir as
regras necessrias para traduzir/converter o objecto original para um qualquer formato
contemporneo (Heminger & Robertson, 1998; Thibodeau, 2002).

Um exemplo de aplicao desta estratgia consiste em imprimir em papel um conjunto


representativo de documentos de texto juntamente com a sua representao binria. No
futuro, as regras necessrias para interpretar e migrar os objectos para um novo formato
poderiam ser inferidas, comparando os documentos impressos com a sua representao
binria (Thibodeau, 2002).

Trata-se sobretudo de uma ferramenta de a r q u e o l o g i a d i g i t a l e no propriamente de


uma estratgia slida para preservao de objectos digitais (Heminger & Robertson, 2004).
Esta apenas dever ser considerada em situaes em que todos os outros esforos de
preservao fracassaram.

2.4 Directrios de formatos


Uma das formas de minimizar a ansiedade de todos os profissionais envolvidos na preservao
de objectos digitais consiste na criao de directrios centralizados de informao tcnica
sobre formatos digitais. Esta informao inclui, por exemplo, a identificao dos produtores
de um dado formato, a sua data de criao, informao sobre as aplicaes que o suportam,
especificaes tcnicas, grau de obsolescncia, entre outros.

Para alm de disponibilizar este tipo informao, os directrios de formatos podero prestar
servios avanados de apoio preservao digital. Por exemplo, um directrio de formatos
poder disponibilizar servios ou ferramentas para deteco e identificao de formatos e
promover o uso de vocabulrios controlados para os seus descritores. Poder ainda fornecer
especificaes tcnicas sobre formatos que permitam a qualquer instituio desenvolver
descodificadores, bem como disponibilizar um conjunto de informaes relevantes de apoio s
actividades de preservao digital, como por exemplo, informao sobre a cota de mercado de
um dado formato, tendncias de utilizao ou produzir recomendaes quanto aos formatos
mais apropriados para preservao a longo-prazo.

Existem actualmente diversas iniciativas que visam a implementao de directrios deste tipo.
Alguns exemplos so: os Mime Media Types (Freed & Borenstein, 1996), o PRONOM (UK

34
National Archives, 2002), o Global Digital Format Registry (Abrams & Seaman, 2003) e o
projecto Typed Object Model (Ockerbloom, 1998).

Actualmente, o sistema de identificao de formatos mais utilizado o MIME Media Types


(Freed & Borenstein, 1996). Este sistema amplamente utilizado na Internet para especificar
as regras de codificao/descodificao de documentos anexados a mensagens de correio
electrnico e para identificar os formatos de dados trocados entre servidores Web e browsers.
No obstante, este sistema no possui a granularidade necessria para identificar de forma
unvoca todos os formatos existentes. Por exemplo, as vrias verses da famlia PDF, desde a
verso 1.2 1.7, PDF/X da verso 1 3 e PDF/A, so todas elas identificadas atravs do
mesmo descritor: a p p l i c a t i o n / p d f .

O PRONOM Technical Registry18 uma iniciativa dos Arquivos Nacionais do Reino Unido
que visa a concentrao de informao tcnica sobre software e formatos associados
(Darlington, 2003; UK National Archives, 2002). O modelo de dados que suporta o
PRONOM incorpora vrios elementos de informao, tais como: descritores de formatos,
identificadores nicos de formato, esquemas de codificao de caracteres19, algoritmos de
compresso, sistemas operativos de suporte, hardware especfico e ligaes para outras fontes
de informao. O PRONOM disponibiliza ainda uma ferramenta de identificao de formatos
de nvel local o Droid (UK National Archives, 2005). O Droid uma pequena aplicao
multiplataforma que permite identificar o formato de um objecto digital recorrendo base de
dados de informao disponibilizada pelo PRONOM.

O Global Digital Format Registry20 (GDFR) apresenta-se como uma alternativa aos actuais
MIME Media Types, introduzindo um mecanismo de identificao de formatos mais preciso e
rigoroso. O GDFR possui, ainda, como objectivo a reunio de informao sobre a sintaxe e
semntica dos diversos formatos digitais por ele reconhecidos. A sua criao est a cargo de
um grupo de trabalho internacional, constitudo por membros de diversas bibliotecas e
arquivos nacionais, assim como bibliotecas acadmicas, num total de 18 instituies (Abrams
& Seaman, 2003).

O projecto Typed Object Model21 (TOM) assenta no pressuposto de que todos os formatos
digitais podem ser vistos como objectos (i.e., possuidores de propriedades e mtodos) e, como

18 http://www.nationalarchives.gov.uk/PRONOM/
19 Do ingls encoding.
20 http://hul.harvard.edu/gdfr/
21 http://tom.library.upenn.edu/

35
tal, ser possvel construir uma arquitectura baseada em herana, capaz de descrever a
estrutura de cada formato, as suas instncias e as relaes existentes entre os mesmos
(Ockerbloom, 1998). Este projecto introduz uma taxionomia classificativa de formatos e um
sistema distribudo de conversores baseado em agentes mediadores. Apesar da sua
complexidade e riqueza, no se antev que o TOM possa vir a tornar-se uma norma de facto no
contexto dos directrios de formatos, uma vez que a sua utilizao meramente residual.

Para alm das iniciativas anteriormente descritas existem outras que tambm merecem ser
mencionadas. A Biblioteca do Congresso disponibiliza um conjunto de pginas Web com
informao sobre formatos e seus variantes22 (Brown, 2008). Apesar de apenas reunir
informao sobre um conjunto reduzido de formatos, a informao disponibilizada
extremamente rica, incluindo informao descritiva sobre o formato, caractersticas tcnicas,
relaes com outros formatos, documentao produzida pelo fabricante e informao
especifica sobre a sua preservao.

Na Universidade de Maryland foi desenvolvido um projecto designado FOCUS23 (Format


Curation Service) que tem como objectivo servir de prova de conceito de um directrio de
formatos global baseado em tecnologias Web, tais como o LDAP e Web services. O directrio
foi desenhado de modo a suportar uma vasta gama de servios, incluindo: identificao de
formatos, verificao de integridade, disponibilizao de aplicaes de visualizao, migrao,
caracterizao de formatos, entre outros (Brown, 2008; Geremew, Song, & J. JaJa, 2006).
Infelizmente, a partir de Janeiro de 2008 o servio de demonstrao deste projecto deixou de
estar disponvel.

O Digital Curation Centre (DCC) tambm tem vindo a desenvolver o seu prprio directrio
de formatos o Representation Information Registry Repository24 (RIRR). Este directrio tem
como principal objectivo implementar e estender o modelo de dados de informao de
representao definido pela norma OAIS (Brown, 2008). Futuros desenvolvimentos em torno
desta iniciativa so esperados no mbito do projecto CASPAR25.

22 http://www.digitalpreservation.gov/formats/
23 http://www.umiacs.umd.edu/research/adapt/focus/
24 http://registry.dcc.ac.uk/omar/
25 http://www.casparpreserves.eu/

36
2.5 Autenticidade
O conceito de a u t e n t i c i d a d e est longe de ser consensual entre os profissionais da
preservao. Este poder assumir significados consideravelmente diferentes consoante a
comunidade que o manipula. Para um historiador um objecto autntico se a sua identidade e
integridade no forem comprometidas (i.e., se o objecto for original) e, no menos importante,
se o objecto for verdadeiro (Cullen, 2000). Na perspectiva de um arquivista, a autenticidade de
um objecto no pressupe que este seja verdadeiro. Um arquivista preocupa-se, sobretudo,
com a prova que um documento poder constituir. Este poder conter incorreces, erros ou
at falsidades, mas isso no invalida a sua importncia como testemunho de que algo
aconteceu (Hirtle, 2000). Um documento falsificado, por exemplo, pode ser considerado
autntico uma vez que constitui prova de que algum falsificou um documento (Hofman,
2002b).

Definies mais abrangentes de autenticidade giram em torno de conceitos como autenticao,


integridade, completude, veracidade, validade, conformidade com o original, significncia e
adequabilidade ao fim a que se destina (Rothenberg, 2000).

Em termos genricos, o conceito de autenticidade traduz-se na capacidade de descrever os


elementos diplomticos que permitem evidenciar que um dado objecto autntico. Trata-se da
identificao do porqu, do quando, do onde e do por quem de um objecto digital
(Hofman, 2002a). A autenticidade num contexto digital tem que ver com a capacidade de se
conseguir demonstrar que um objecto digital aquilo que se prope ser (Authenticity Task
Force, 2002; Hofman, 2001; B. Lavoie & Gartner, 2005; C. Lynch, 2000; MacNeil et al., 2001;
Millar, 2004). Para atingir esse objectivo fundamental documentar convenientemente a
provenincia do objecto, contextualizar a sua criao e existncia, descrever a sua histria
custodial e atestar que a sua integridade no foi comprometida, i.e., provar que o conjunto de
propriedades que se consideram essenciais interpretao do objecto no foram adulteradas
ao longo do tempo (Diessen & Werf-Davelaar, 2002; B. Lavoie & Gartner, 2005). Num
contexto digital, autenticidade no tem tanto que ver com o demonstrar que um objecto
original, mas sim, que est conforme o original.

Os problemas associados determinao da autenticidade de um objecto no esto limitados


documentao digital. Na idade mdia, por exemplo, a reproduo de livros era realizada
manualmente. Cada cpia de um livro apresentava, frequentemente, um conjunto de
diferenas face ao original. A maior parte dessas diferenas resultavam de infelizes erros de
transcrio. No entanto, no seriam raras as vezes em que escrives mais perspicazes
introduziam deliberadamente melhorias durante o processo de transcrio do documento
37
(Akester, 2004). No contexto digital, os problemas relacionados com a autenticidade so em
tudo semelhantes aos do mundo analgico. Contudo, a simplicidade com que alteraes
podem ser introduzidas, a rapidez com que estas podem ser disseminadas e a dificuldade
inerente sua deteco tornam este problema sensivelmente mais complexo.

No contexto analgico, o contedo e o suporte so geralmente duas entidades inseparveis. As


propriedades fsicas que caracterizam o suporte fornecem, geralmente, pistas suficientes para
que a autenticidade do seu contedo possa ser aferida (Hofman, 2002b). No mundo digital
este tipo de pistas no existe. O ambiente tecnolgico propcio introduo de
modificaes, provocando um clima generalizado de desconfiana em relao autenticidade
deste tipo de material (Akester, 2004; P. Graham, 2000; C. Lynch, 2000; MacNeil et al., 2001).

As estratgias de preservao de informao no domnio analgico manifestam-se, sobretudo,


pela tentativa de conservar o suporte inalterado durante o mximo de tempo possvel. No
contexto digital, a preservao do suporte ou da sequncia de bits que constitui o objecto, no
condio suficiente para garantir que a informao permanece acessvel, reutilizvel e
autntica ao longo do tempo (The Cedars Project Team, 2001). Preservar informao digital
consiste, por vezes, em modificar ou transformar deliberadamente o objecto fsico ou lgico
que veicula a mensagem (ver Migrao/converso na pgina 26). Para que essas modificaes
no perturbem a mensagem, fundamental definir quais as propriedades da mensagem que
devero ser conservadas durante o processo de transformao.

Paralelamente, a informao no um conceito ou substncia concreta. Esta materializa-se


atravs de um processo de interpretao que transforma um conjunto de smbolos em algo
com significado (Diessen, 1997). A interpretao desse significante est sujeita a influncias
adicionais. O hardware e o software que servem de mediadores nesse processo podem diferir
substancialmente de consumidor para consumidor (Diessen & Werf-Davelaar, 2002). Neste
contexto, a definio de e s s n c i a 26 de um objecto digital de extrema importncia, pois
caracteriza o conjunto de propriedades que devero ser mantidas e preservadas de forma
intacta para que o objecto possa ser considerado autntico, ou seja, de acordo com o original
(Hofman, 2002b).

O conjunto de p r o p r i e d a d e s s i g n i f i c a t i v a s , i.e., aquelas que definem a e s s n c i a do


objecto, no universal nem to pouco absoluto. A sua definio dever ter em conta a
natureza da organizao responsvel pela preservao, as caractersticas da coleco e, acima

26 P r o p r i e d a d e s s i g n i f i c a t i v a s e e s s n c i a d e u m o b j e c t o d i g i t a l so duas expresses vulgarmente


utilizadas para representar o mesmo conceito.

38
de tudo, os requisitos e exigncias da sua comunidade de interesse (Beagrie et al., 2002;
Hofman, 2002b). A definio das propriedades significativas de um objecto digital influencia
directamente a forma como este dever ser preservado. Quanto maior for o nmero de
propriedades significativas, maiores sero os requisitos relativamente infra-estrutura
tecnolgica necessria para suportar a sua preservao (Rusbridge, 2003; The Cedars Project
Team, 2001).

Embora desejvel, a definio de um conjunto de propriedades significativas para cada objecto


digital existente num repositrio no economicamente vivel. Torna-se, assim, necessria a
criao de polticas de preservao que exprimam, para cada classe de objectos, o conjunto das
propriedades significativas que sero asseguradas pelo repositrio (Rusbridge, 2003).

A ttulo de exemplo, considere-se uma biblioteca responsvel por preservar artigos cientficos
(o repositrio institucional da Universidade do Minho, por exemplo). Se a sua poltica de
preservao apenas especificar a propriedade significativa: preservao do c o n t e d o
t e x t u a l dos artigos cientficos depositados; ento, estes estaro a ser adequadamente
preservados, se se mantiverem apenas os caracteres ASCII27 que os constituem. Se por outro
lado a poltica de preservao especificar propriedades significativas adicionais como a
d i s p o s i o d o t e x t o n a p g i n a ou a sua f o r m a t a o em termos de pargrafos e
tipos de letra, ento a preservao dos caracteres ASCII deixa de ser suficiente, passando a ser
necessrio recorrer a formatos mais complexos, como por exemplo o PDF.

Ainda neste contexto surge o conceito de c a n o n i z a o . Lynch apresenta-o como uma


forma de avaliar o sucesso de uma migrao (C. Lynch, 1999). O formato cannico tem como
objectivo representar de forma unvoca as c a r a c t e r s t i c a s e s s e n c i a i s de uma classe de
objectos digitais. O formato cannico especifica a ordem e a estrutura das propriedades que
constituem os objectos digitais e assume valores por omisso para as propriedades que no
possuem valores associados. O mtodo funciona comparando os objectos cannicos obtidos a
partir dos objectos originais e convertidos (Figura 15). Por exemplo, se se considerar dois
objectos digitais, o original e o convertido, poder-se- afirmar que o objecto convertido
preserva as caractersticas essenciais do objecto original se os objectos cannicos obtidos a
partir destes forem iguais (C. Lynch, 1999).

27 American Standard Code for Information Interchange. Trata-se de um conjunto de cdigos capaz de representar letras,
dgitos e outros smbolos, amplamente utilizado por computadores para troca de informao textual.

39
Figura 15 Verificao da qualidade de uma migrao atravs de
canonizao.

2.6 Metainformao de preservao


A m e t a i n f o r m a o d e p r e s e r v a o tem como objectivo descrever e documentar os
processos e actividades relacionados com a preservao dos materiais digitais. A
metainformao de preservao responsvel por reunir, junto do material custodiado,
informao detalhada sobre a sua provenincia, autenticidade, actividades de preservao,
ambiente tecnolgico e condicionantes legais (B. Lavoie & Gartner, 2005).

No que diz respeito p r o v e n i n c i a , a metainformao de preservao procura descrever a


histria custodial dos materiais, i.e., o caminho percorrido por estes desde a sua criao at
sua incorporao no repositrio (B. Lavoie & Gartner, 2005). Esta assume tambm a
responsabilidade de garantir a a u t e n t i c i d a d e dos mesmos. Para tal, agrega um conjunto de
metainformao que descreve detalhadamente as actividades desenvolvidas no interior do
repositrio, especialmente aquelas que interagem directamente com os objectos digitais
custodiados (B. Lavoie & Gartner, 2005).

A metainformao de preservao serve tambm para descrever o a m b i e n t e


t e c n o l g i c o necessrio correcta execuo e apresentao dos objectos digitais (i.e.,
hardware, sistemas operativos e software) (B. Lavoie & Gartner, 2005).

2.6.1 PREMIS
O modelo de referncia OAIS constituiu um ponto de partida para a discusso em torno da
necessidade de criar um conjunto de elementos de metainformao capazes de dar suporte s
actividades relacionadas com a preservao digital (Consultative Committee for Space Data
Systems, 2002; B. Lavoie & Gartner, 2005). Desde o seu aparecimento que diversas
instituies tm vindo a propor dicionrios de metainformao que reflectem as necessidades
individuais dos projectos em que esto ou estiveram envolvidas (Lupovici & Masans, 2000;

40
National Library of Australia, 1999; The Cedars Project Team, 2002). Em 2002, o consrcio
Online Computer Library Center e Research Libraries Group (OCLC/RLG) compilou o
conhecimento resultante desses projectos num nico documento onde se destacam as diversas
classes de informao que devero estar presentes num esquema de metainformao de
preservao (OCLC/RLG Preservation Metadata Working Group, 2002).

Em 2003, a OCLC/RLG constituiu um segundo grupo de trabalho designado PREMIS


(PREservation Metadata: Implementation Strategies) com o objectivo de continuar o
desenvolvimento deste esquema de metainformao. O grupo de trabalho foi constitudo por
um comit internacional com mais de trinta especialistas em preservao digital. Deste
trabalho resultou o Dicionrio de Dados PREMIS28, um documento que identifica e descreve
um conjunto bsico de elementos de metainformao de suporte preservao digital, bem
como um conjunto de recomendaes quanto forma como estes devero ser utilizados no
contexto de um arquivo digital (PREMIS Working Group, 2005).

Figura 16 Entidades presentes no Dicionrio de Dados PREMIS.

O Dicionrio de Dados PREMIS identifica cinco componentes fundamentais: e n t i d a d e s


i n t e l e c t u a i s , a g e n t e s , e v e n t o s , o b j e c t o s e d i r e i t o s 29 (Figura 16).

Uma e n t i d a d e i n t e l e c t u a l um conjunto coerente de informao que pode ser


identificado e descrito como uma unidade. Um livro, uma fotografia ou uma base de dados
so exemplos do que pode ser considerado uma e n t i d a d e i n t e l e c t u a l .

28 Do ingls PREMIS Data Dictionary.


29 Do ingls Intellectual Entities, Agents, Events, Objects e Rights.

41
Uma e n t i d a d e i n t e l e c t u a l pode conter outras entidades intelectuais no seu interior. Um
stio Web, por exemplo, pode ser constitudo por vrias pginas Web e cada uma destas ser
composta por um conjunto de imagens. Cada uma dessas pginas pode ser vista como uma
entidade intelectual. De modo anlogo, cada uma das suas imagens pode ser considerada uma
entidade intelectual por si s. Tudo depende da granularidade a que se pretende estabelecer o
conceito.

Entidade intelectual
(Livro electrnico)

representada por

Representao 1 Representao 2 Representao 3

XML DOC PDF

TIFF 1
...
TIFF 2

Figura 17 Diferentes representaes para a mesma entidade


intelectual.

importante realar que uma entidade intelectual pode estar associada a mais do que uma
representao. Um livro electrnico, por exemplo, pode ser representado de vrias formas,
como por exemplo: atravs de conjunto de imagens em formato TIFF e um ficheiro XML que
descreve a sequncia correcta de apresentao das mesmas, atravs de um documento Word
ou em formato PDF. A entidade intelectual30 que descreve cada uma das representaes
sempre a mesma, apesar da sua manifestao fsica variar significativamente (Figura 17).

A entidade a g e n t e descreve qualquer pessoa, organizao ou aplicao de software envolvida


num evento de preservao. Por sua vez, um e v e n t o agrega informao sobre as aces de
preservao realizadas em torno de um o b j e c t o (e.g. verificao de integridade, migrao,

30 De notar o paralelismo entre o conceito de entidade intelectual e objecto conceptual.

42
rastreio de vrus, etc.). O registo das aces de preservao, especialmente aquelas que tm
como finalidade modificar o objecto digital, considerado uma actividade fundamental para a
manuteno e conservao da autenticidade dos materiais arquivados.

A entidade o b j e c t o responsvel por descrever o conjunto de representaes, ou


manifestaes fsicas, de uma entidade intelectual. Um o b j e c t o pode ainda ser dividido em
trs subtipos: r e p r e s e n t a o , f i c h e i r o ou s e q u n c i a d e b i t s 31. Uma
r e p r e s e n t a o um conjunto de ficheiros com metainformao estrutural associada. Este
conjunto de ficheiros permite a apresentao de um objecto conceptual de forma completa.

Um fi c h e i r o um conjunto ordenado de bits reconhecido por um sistema operativo. Um


fi c h e i r o pode assumir propriedades como: tamanho, data de criao/modificao,
permisses de acesso, etc. Por ltimo, uma s e q u n c i a d e b i t s um conjunto de dados
coeso e com particular interesse para efeitos de preservao e que pode ser identificado e
extrado do interior de um ficheiro, e.g. a faixa de udio num ficheiro de vdeo.

A entidade di r e i t o s rene informao sobre os direitos de propriedade intelectual e


permisses associadas ao objecto e/ou a g e n t e .

O dicionrio de dados acompanhado de um conjunto de esquemas XML que auxiliam a


utilizao e promovem a implementao do PREMIS. Apesar de os esquemas publicados no
terem sido criados para ser utilizados de forma escrupulosa, a sua existncia facilita a
implementao do dicionrio de dados por quem desenvolve repositrios digitais.

Em Maro de 2008, o comit responsvel pela manuteno do dicionrio de dados PREMIS


(i.e., PREMIS Maintenance Activity) publicou uma nova verso do documento com as
seguintes revises (Guenther et al., 2008; B. F. Lavoie, 2008):

A seco de d i r e i t o s foi inteiramente revista e expandida de forma a suportar mais


detalhe e oferecer maior aplicabilidade;
Foram adicionados mais atributos relacionados com propriedades significativas e
informao de preservao;
Foram includos mecanismos que permitem expandir e personalizar o dicionrio de
dados.

31 Do ingls Representation, File e Bitstream.

43
Para alm das alteraes anteriormente descritas foram ainda efectuadas pequenas revises do
documento no que toca qualidade da documentao e exemplos fornecidos, estrutura do
documento e especificao dos formatos a utilizar, nomeadamente, para designar datas (B. F.
Lavoie, 2008).

2.7 Consideraes finais


Este captulo teve como objectivo descrever e contextualizar as principais actividades que tm
vindo a ser realizadas internacionalmente no domnio da preservao digital. O captulo
comea por definir p r e s e r v a o d i g i t a l e introduzir o conceito de o b j e c t o d i g i t a l .
Este apresentado sob uma perspectiva semitica, sendo feita uma anlise dos diferentes
nveis de abstraco a que pode ser conisderado: fsico, lgico e conceptual. Esta viso
multidimensional do objecto digital promove uma melhor compreenso e enquadramento das
diferentes estratgias de preservao apresentadas ao longo do captulo.

De seguida foi apresentado o modelo de referncia OAIS (Open Archival Information


System), uma norma internacional que visa a identificao dos principais componentes
funcionais e objectos de informao presentes num sistema de arquivo com aspiraes de
preservao a longo-prazo. O modelo de referncia serviu sobretudo para introduzir alguma
da terminologia utilizada ao longo desta tese. Foram tambm descritas e contextualizadas as
principais estratgias de preservao que tm vindo a ser propostas pela comunidade cientfica,
bem como as mais relevantes iniciativas no que toca a directrios de formatos.

O captulo termina com uma breve discusso sobre a u t e n t i c i d a d e , salientando-se a


importncia do conceito de p r o p r i e d a d e s i g n i f i c a t i v a na elaborao de polticas de
preservao. Paralelamente, procurou-se realar a necessidade da utilizao de metainformao
como meio para assegurar a autenticidade dos materiais custodiados, dando especial nfase ao
Dicionrio de Dados PREMIS.

O amadurecimento do domnio cientfico da preservao digital levou a que duas estratgias


de preservao ganhassem maior destaque: a migrao e a emulao. No ser inadequado
afirmar que durante algum tempo se assistiu a uma batalha ideolgica entre aqueles que
defendiam a utilizao das estratgias de migrao e os que eram a favor de estratgias
baseadas em emulao. Esta discusso teve origem em questes relacionadas com a
autenticidade dos materiais no domnio digital.

Em estratgias derivadas da migrao, assume-se que os objectos digitais iro ser alvo de
modificaes sucessivas ao longo do tempo. Determinadas migraes podero mesmo originar
44
perdas substanciais de informao. Para os defensores da emulao, assumir de antemo que a
informao que se procura preservar ser sistematicamente adulterada ao longo do tempo
viola os pressupostos mais elementares da preservao (Rothenberg et al., 1999).

Esta questo, no entanto, no est confinada ao domnio digital. Na arquivstica tradicional, h


quem defenda que a preservao do material no seu estado original dever ser considerada
como a nica medida de sucesso. H, no entanto, quem opte por transferir os seus materiais
para suportes menos volumosos, como por exemplo o microfilme, tomando uma deciso
explcita pela poupana de espao em detrimento da originalidade (B. F. Lavoie & Dempsey,
2004). O material digital, no entanto, possui caractersticas que fazem com que estas questes
acabem por ser, em boa medida, amplificadas. O material digital estruturalmente mais
complexo que o seu equivalente analgico. Diferentes tipos de informao podem ser
combinados num nico objecto (e.g. texto, vdeo, som) e este, pode ainda, exibir caractersticas
dinmicas e/ou interactivas. Para alm disso, pode facilmente ser modificado, desconstrudo e
recombinado de formas inovadoras usando o software adequado (B. F. Lavoie & Dempsey,
2004).

No obstante, a preocupao obstinada pela originalidade tem vindo a diminuir medida que
aumenta a compreenso generalizada sobre os processos de preservao. Comea-se a difundir
a ideia de que o foco da preservao no dever estar na reteno do objecto fsico original,
mas na conservao da experincia sensorial que produzida por esse objecto (Heslop et al.,
2002).

Neste contexto, Burkel questiona-se sobre o papel da tecnologia no processo de interpretao


de informao digital () as entradas e sadas de qualquer sistema digital so na forma de
linguagens humanas. A tecnologia e as suas linguagens prprias apenas asseguram um
processamento mais eficiente dessa informao no interior do computador (Burkel, 2003).

Reforando esta ideia, Thibodeau argumenta que no futuro, tal como hoje, os consumidores
desejaro servir-se das tecnologias mais modernas ou daquelas que melhor conhecem para
manipular mais eficientemente a informao que necessitam. A opo por uma estratgia de
emulao poder conduzir ao incumprimento desta necessidade bsica (B. F. Lavoie &
Dempsey, 2004; Thibodeau, 2002).

A batalha ideolgica m i g r a o v e r s u s e m u l a o tem, assim, tendncia a esgotar-se.


Instala-se o reconhecimento generalizado de que diferentes estratgias de preservao devero
ser implementadas dependendo do contexto especfico da organizao preservadora e do tipo
de objectos a preservar (Waters, 2002). A seleco de estratgias de preservao deve ter em
45
conta factores diversos, como: as caractersticas intrnsecas dos objectos, o custo de
implementao e manuteno, os interesses do arquivo ou da sua comunidade de interesse.
Para diversos autores este ltimo ponto de extrema importncia. A informao ter pouca
utilidade se no for preservada e disseminada de acordo com as necessidades da sua
comunidade de interesse (Bennett, 1997; Hedstrom, 1998; B. F. Lavoie & Dempsey, 2004).

A tendncia actual vai no sentido de combinar um conjunto de tcnicas como o refrescamento


automtico de suportes, a normalizao para formatos de preservao durante o processo de
ingesto, a conservao do objecto original (como salvaguarda e para fins arqueolgicos) e
migrao a-pedido para adaptar os formatos de preservao a formatos mais adequados sua
disseminao (Thibodeau, 2002). Os objectos digitais predominantemente dinmicos ou
interactivos so geralmente preservados nos seus formatos originais e apresentados recorrendo
a tcnicas de emulao (Hodge & Frangakis, 2004).

Apesar do aparecimento de ferramentas de software que auxiliam o processo de arquivo e


preservao (e.g. OCLC Digital Archive32, DSpace33, LOCKSS34, Fedora35, Eprints36,
PANDAS37, DIAS38, JHove39, Droid40, Xena41, etc) existe ainda uma escassez assinalvel no
que toca a produtos comerciais com capacidades de preservao (Hodge & Frangakis, 2004).
Isto faz com que cada organizao se sinta de certa forma responsvel pelo desenvolvimento
do seu prprio sistema de preservao, bem como pela definio e implementao de polticas
de preservao adequadas.

A definio de uma poltica de preservao envolve, geralmente, todas as facetas de um


arquivo. Implica a criao de polticas de avaliao e seleco de materiais, a identificao de
esquemas de metainformao apropriados (e.g. descritiva, tcnica, estrutural e de preservao),
a definio de estratgias de preservao adequadas a cada classe de objectos digitais, a criao
de planos de sucesso (para a eventualidade da organizao detentora cessar a sua actividade),
a utilizao de modelos sustentveis de financiamento, entre outros.

32 http://www.oclc.org/digitalarchive/
33 http://www.dspace.org
34 http://www.lockss.org
35 http://www.fedora.info
36 http://www.eprints.org/software/
37 http://pandora.nla.gov.au/pandas.html
38 http://www-5.ibm.com/nl/dias/
39 http://hul.harvard.edu/jhove/
40 http://www.nationalarchives.gov.uk/aboutapps/pronom/droid.htm
41 http://sourceforge.net/projects/xena

46
Uma poltica de preservao dever descrever claramente as estratgias adoptadas para
assegurar a preservao dos materiais em cada um dos nveis de abstraco a que estes podem
ser considerados, i.e., fsico, lgico e conceptual, mas tambm a nveis superiores, como o
social, o econmico e o organizacional (Ambacher et al., 2007; Beagrie et al., 2002; Digital
Curation Centre & DigitalPreservationEurope, 2007).

A Tabela 1 enumera algumas das possveis estratgias que podero ser utilizadas para preservar
cada um dos nveis de abstraco anteriormente descritos.

Nvel de abstraco Estratgias a aplicar


Acondicionamento adequado dos suportes fsicos, utilizao de
Fsico suportes de longa durao, salas de preveno contra desastres naturais,
etc.
Lgico Refrescamento, backup, replicao local e/ou remota, etc.
Conceptual Migrao, emulao, encapsulamento, etc.
O sistema de preservao dever ser capaz de impedir ou de corrigir a
ocorrncia de erros provocados por operadores ou atacantes externos,
Social
e.g. implementao de mecanismos de undo, registo de actividades,
autenticao e gesto de permisses, etc.
Definio de modelos de financiamento sustentveis. As despesas com
Econmico a preservao devero fazer parte dos oramentos de base das
organizaes.
Definio de planos de sucesso que garantam a sobrevivncia dos
Organizacional materiais face eventual cessao de actividade por parte da
organizao detentora.

Tabela 1 Possveis estratgias de preservao por nvel de abstraco.

No obstante, e para alm da definio de uma poltica de preservao e do estabelecimento


de estratgias de preservao adequadas, fundamental adoptar um sistema de arquivo digital,
i.e., um repositrio capaz de albergar os objectos, bem como facilitar a implementao dessas
polticas e respectivas estratgias de preservao. O recurso a um repositrio digital facilita a
gesto dos objectos, bem como a sua localizao, ambas operaes fundamentais em qualquer
sistema de arquivo.

At data, nenhum dos principais repositrios digitais (e.g. DSpace, Fedora, Eprints) oferece
funcionalidades que permitam a implementao de polticas de preservao de forma
transversal, nem to pouco suportam esquemas de metainformao de preservao, essenciais
para garantir a autenticidade dos materiais custodiados. No entanto, oferecem j a capacidade
de armazenar, organizar, descrever e disseminar esses materiais. Ser portanto espectvel que a
curto prazo estas plataformas comecem a incorporar funcionalidades de preservao que
permitam garantir o acesso a longo-prazo aos materiais digitais custodiados.

47
48
Captulo 3
Automatizao de processos de
migrao
Apesar dos progressos ocorridos ao longo dos ltimos anos no domnio da preservao digital,
continua a existir um vazio assinalvel no que diz respeito automatizao dos processos que
lhe so inerentes (Ross & Hedstrom, 2005). Mais ainda, vrios problemas permanecem por
resolver, como por exemplo: como garantir que os materiais digitais permanecem autnticos
aps sucessivas intervenes de preservao; como validar formalmente o sucesso de uma
interveno; ou, como melhorar os processos de preservao no sentido de se conseguir uma
reduo generalizada dos custos de preservao?

Todas as intervenes de preservao envolvem escolhas. Os recursos disponveis nas


organizaes so finitos, muitas das vezes escassos, pelo que qualquer interveno de
preservao carece de uma fase de anlise e planeamento. fundamental assegurar que os
requisitos da organizao, da coleco de objectos digitais e da comunidade de interesse so
satisfeitos, mesmo na presena de condicionantes estruturais, por vezes, difceis de contornar.
Estas condicionantes podero manifestar-se de diversas formas: falta de capacidade tcnica,
oramentos limitados, imposies legais, equipamento insuficiente, restries de tempo,
espao, formao, etc. (Rauch & Rauber, 2004).

49
Neste contexto, as estratgias de preservao baseadas em migrao no so diferentes das
restantes. Uma anlise detalhada dos objectivos, meios para os alcanar e resultados obtidos
fundamental para que uma estratgia de migrao possa ser considerada bem sucedida.

Neste captulo pretende-se descrever o conjunto de actividades que geralmente est associado
implementao de uma estratgia de migrao, nomeadamente: a seleco de uma alternativa
de migrao, a sua execuo e controlo de qualidade dos resultados obtidos.

A seco 3.1 comea por descrever detalhadamente cada uma dessas actividades. A seco 3.2
apresenta um conjunto de argumentos que realam as vantagens inerentes utilizao de
sistemas distribudos na implementao deste tipo de estratgias. A seco 3.3 apresenta um
cenrio onde se evidenciam o tipo de problemas de preservao que geralmente emergem num
contexto organizacional. O mesmo cenrio utilizado na seco 3.4 para ilustrar de que forma
uma arquitectura de servios de preservao poder facilitar a implementao automtica de
uma estratgia de migrao. Ainda nesta seco, para cada um dos servios identificados
apresentada uma lista de ferramentas, produtos e/ou servios desenvolvidos por terceiros que
podero ser utilizados para suportar o seu funcionamento. A seco 3.5 reproduz o cenrio
apresentado na seco 3.3, salientando a forma como os servios de preservao previamente
identificados facilitariam o desenvolvimento e implementao de estratgias de preservao. O
captulo termina, na seco 3.6, com um sumrio e uma reflexo sobre os conceitos e
temticas abordadas ao longo do captulo.

3.1 Actividades inerentes a um processo de migrao


A implementao de uma estratgia de migrao pressupe a realizao de um conjunto
mnimo de actividades. Entre estas encontram-se a seleco de uma alternativa de migrao
adequada ao problema de preservao em questo, execuo da respectiva alternativa e a
anlise e avaliao dos resultados obtidos de modo a aferir a qualidade da seleco efectuada,
i.e., controlo de qualidade (Ferreira, 2005; Ferreira et al., 2006a).

3.1.1 Seleco de uma alternativa de migrao


A s e l e c o d e u m a a l t e r n a t i v a d e m i g r a o consiste sobretudo na obteno de
uma resposta para duas questes fundamentais, nomeadamente:

Qual o formato de destino que dever ser utilizado para acomodar as propriedades
essenciais do objecto original?

50
Que conversor, ou cadeia de conversores, apresenta maior aptido para realizar essa
transformao?

do interesse da entidade responsvel pela preservao que a melhor combinao entre


formato de destino e conversores a utilizar seja seleccionada, i.e., aquela que garante a
preservao do maior nmero de propriedades significativas do objecto original, ao menor
custo possvel.

O custo dever ser entendido sob uma perspectiva multidimensional, i.e., factores como a
velocidade de converso, preo do software, complexidade da implementao, abertura dos
formatos envolvidos, o seu nvel de adopo e todos os restantes custos de operao devero
ser considerados de forma concertada durante esta fase de preparao.

A actividade de s e l e c o d e u m a a l t e r n a t i v a d e m i g r a o particularmente
complexa em contextos onde poder existir um elevado nmero de opes no que toca a
formatos e aplicaes de converso. Este , alis, o caso num ambiente de migrao distribuda
como aquele que descrito na seco 2.3.4 na pgina 30 (Ferreira, Baptista, & Ramalho, 2007).

3.1.2 Converso de materiais


A c o n v e r s o d e m a t e r i a i s tem que ver com a reestruturao dos elementos de
informao que os constituem segundo as regras de um novo formato (Lawrence et al., 2000).
No contexto de uma organizao, a tarefa converso pode ser realizada de duas formas
distintas: adquirindo software capaz de realizar a converso pretendida ou desenvolvendo
conversores especficos adequados ao problema de migrao em questo.

Em ambos os casos, o processo de converso implica custos para a organizao e a sua


implementao requer, geralmente, a presena de intervenientes humanos, em especial durante
a fase de preparao da actividade e, posteriormente, durante a fase de controlo de qualidade
(Becker, Ferreira et al., 2008; Ferreira, Baptista, & Ramalho, 2006b).

A velocidade de converso tambm um factor determinante. Repositrios detentores de um


elevado nmero de objectos digitais podero requerer um tempo de converso
suficientemente longo para que haja preocupao com a durabilidade dos suportes fsicos que
os sustm (Halem et al., 1999; Hedstrom, 2001). Por exemplo, se se considerar a migrao de
um conjunto de objectos na ordem dos 100 Terabytes e assumindo que cada Megabyte
demoraria 2 segundos a converter, a migrao da totalidade dos objectos iria estender-se ao

51
longo de aproximadamente 7 anos, tempo suficiente para que os suportes fsicos de
armazenamento se tornassem obsoletos.

3.1.3 Controlo de qualidade


Aps uma converso fundamental avaliar os resultados obtidos, i.e., verificar em que medida
os objectos que resultaram da converso satisfazem os requisitos definidos a priori pela
entidade preservadora. Este processo consiste, usualmente, na anlise e comparao dos
objectos que resultaram da migrao com os objectos originais, tendo por base o conjunto de
propriedades significativas definido previamente pela entidade preservadora (Hofman, 2002b;
Rusbridge, 2003). Este conjunto de propriedades significativas constitui o nvel de
compromisso assumido pela organizao no que toca preservao dos materiais digitais.

Aps a converso, uma avaliao abaixo das expectativas poder implicar a seleco de uma
nova alternativa de migrao e a repetio de todo o processo de converso (Ferreira et al.,
2006a). Esta actividade de c o n t r o l o d e q u a l i d a d e , devido s suas caractersticas e ao
facto de ser frequentemente realizada por profissionais qualificados, considerada morosa e
extremamente dispendiosa (Rauch, Pavuza et al., 2005). Ao longo desta tese procurar-se-
mitigar estes dois problemas implementando mecanismos automticos de controlo de
qualidade em processos de migrao.

3.2 Migrao em ambientes distribudos


Numa seco anterior, foi possvel constatar como redes distribudas de conversores podero
contribuir para um aumento da flexibilidade na implementao de estratgias de migrao (ver
Migrao distribuda, na seco 2.3.4, na pgina 30).

Qualquer agente de software capaz de invocar servios remotos, como por exemplo Web
services, estar automaticamente habilitado a realizar converses entre formatos sem que haja
necessidade de adquirir ou implementar localmente solues especficas de converso.
Paralelamente, a utilizao de servios remotos dotados de redundncia assegura a fiabilidade
do sistema perante situaes de ruptura parcial da rede e a existncia de mltiplos caminhos de
converso confere a este tipo de solues uma longevidade superior comparativamente a
estratgias de migrao mais convencionais.

Uma tendncia recente no domnio da preservao digital dirige-se no sentido da criao de


arquitecturas de servios que facilitem a implementao de estratgias de preservao

52
(Hitchcock, Brody, Hey, & Carr, 2007). Este tipo de arquitecturas designam-se genericamente
por arquitecturas orientadas ao servio.

Uma ar q u i t e c t u r a o r i e n t a d a a o s e r v i o 42 ou SOA um sistema baseado em


software cujas funes se encontram distribudas atravs de diferentes componentes de acordo
com os processos de negcio que implementam. Estas funes podem ser acedidas a partir da
rede e utilizadas na construo de sistemas cada vez mais complexos (Erl, 2005).

Num ambiente SOA no h limitaes de interoperabilidade, nomeadamente ao nvel dos


sistemas operativos, linguagens de programao e/ou outras tecnologias de suporte
(Newcomer & Lomow, 2005). Os servios comunicam entre si trocando mensagens em
formatos neutros que podero servir, tanto para transportar dados, como para coordenar os
diferentes servios cooperantes (SOA Reference Model TC, 2008). Alguns dos princpios
fundamentais que governam este tipo de arquitecturas so (Balzer, 2004):

Granularidade, modularidade e capacidade de reutilizao a lgica de negcio


encontra-se dividida em mdulos simples e atmicos de forma a promover a sua
reutilizao em contextos distribudos;

Possibilidade de composio os servios so desenvolvidos de forma a


possibilitar a sua composio (i.e., invocao e execuo em sequncia);

Interoperabilidade os servios so baseados em normas de forma a promover a


sua interoperabilidade funcional e informacional;

Autonomia cada servio responsvel pela sua prpria lgica de negcio;

Auto-descrio um servio no carece de documentao extra para alm daquela


que lhe intrnseca para que possa ser utilizado eficazmente.

Os Web services, como tecnologia de suporte implementao de SOA, ganharam aceitao


generalizada por parte da indstria, sobretudo devido ao facto de se basearem em normas
internacionais abertas promovidas por entidades independentes como a W3C (World Wide

42 Do ingls Service Oriented Architecture (SOA).

53
Web Consortium)43. No entanto, outras tecnologias concorrentes podero ser utilizadas para
implementar o mesmo conceito, tais como: Jini44, CORBA45 ou REST46 (Fielding, 2000).

3.3 Cenrio de preservao


Num ambiente organizacional existe uma srie de problemas que so comuns ocorrer e que
requerem o uso de ferramentas e conhecimentos especficos da rea da preservao para que
possam ser eficazmente solucionados. O cenrio que se segue pretende ser ilustrativo quanto a
este tipo de ocorrncias. Este cenrio apresenta um gestor de informao que deparado com
a necessidade de preservar uma coleco de objectos digitais e expe o tipo de dificuldades
que geralmente emergem deste tipo de contextos (Ferreira et al., 2006b):

Num dado momento, uma empresa de dimenso mdia decide que todos os relatrios
tcnicos produzidos no decurso da sua actividade devero estar acessveis a todos os
seus colaboradores distncia de um clique. Para tal, foi contratado um gestor de
informao cuja funo seria implementar e administrar um repositrio digital com o
objectivo de preservar e dar acesso aos mesmos atravs da Intranet da empresa.

Todos os relatrios existentes at data de implementao do repositrio haviam sido


elaborados com recurso ao Microsoft Word 95. medida que o tempo foi passando,
novas verses da aplicao Word comearam a ser exploradas no interior da
organizao. Paralelamente, alguns colaboradores mais adeptos do movimento open-
source comearam a utilizar a ferramenta OpenOffice para produzir os seus relatrios
tcnicos. Consequentemente, o nmero de formatos existentes no repositrio
aumentou a ponto de se tornar impossvel consultar transversalmente o conjunto de
relatrios de um dado projecto sem que houvesse necessidade de instalar software
adicional para os poder visualizar.

Para agravar ainda mais a situao, o responsvel pelo repositrio verificou que
existiam vrios relatrios cuja extenso no lhe era familiar, dificultando assim a
identificao da aplicao adequada sua visualizao. Paralelamente, a Microsoft
anuncia que a nova verso do seu pacote de aplicaes Office no ir suportar o
formato Word 95.

43 http://www.w3.org
44 http://www.jini.org
45 http://www.corba.org/
46 http://www.ics.uci.edu/~fielding/pubs/dissertation/rest_arch_style.htm

54
O responsvel pela administrao do repositrio digital conclui de que algo teria de ser
feito no sentido de homogeneizar os contedos do repositrio. Primeiro, decide
realizar um levantamento de todos os formatos existentes no repositrio. Olhando
para a extenso dos ficheiros foi possvel determinar qual a aplicao que fora utilizada
na sua criao. No entanto, para determinar a verso da mesma teria que ser
encontrada uma estratgia mais eficaz.

O gestor do repositrio decidiu ento investigar quais os mecanismos que poderiam


ser utilizados para identificar o formato dos objectos custodiados. Aps alguma
pesquisa, encontra uma srie de pequenas aplicaes que proclamavam ser capazes de
identificar o formato de um ficheiro confrontando-o com uma base de dados de magic
numbers47 e cabealhos predefinidos.

Aps produzir uma listagem com os formatos existentes no repositrio, o responsvel


procedeu identificao daqueles que estavam em risco de se tornarem obsoletos mais
rapidamente. Aps alguma pesquisa descobriu um guia que definia critrios que
permitiam apurar o risco incorrido ao conservar objectos em determinados formatos.
Esse guia chamava-se Risk Management of Digital Information: a file format investigation
(Lawrence et al., 2000).

No entanto, a realizao de uma anlise de risco para todos os formatos existentes no


repositrio revelou-se uma tarefa demasiado morosa, pelo que o funcionrio optou
por confiar no seu instinto e optou por converter todos os relatrios para a ltima
verso do Microsoft Word, baseado no pressuposto de que o documento Word era,
efectivamente, o formato mais abundante no repositrio.

Para realizar essa tarefa, o gestor do repositrio necessitou de adquirir um conjunto de


aplicaes de converso. Algumas das converses necessrias no puderam ser
realizadas directamente, i.e., foi necessrio converter para um formato intermdio e
depois utilizar outra aplicao para realizar a migrao para o formato designado.

Aps o processo de migrao, o funcionrio inspeccionou alguns dos relatrios


convertidos e constatou que a aparncia dos mesmos no era exactamente igual dos
originais. Em alguns casos a paginao havia sido alterada fazendo com que os ndices

47 Tratam-se de pequenas sequncias de bytes geralmente encontradas no incio de um ficheiro que permitem determinar o seu
formato.

55
includos nos documentos ficassem desactualizados. Noutros casos, certas imagens
haviam perdido detalhe, o que dificultava consideravelmente a sua compreenso.

Foi necessrio informar os utilizadores do repositrio que aqueles documentos haviam


sido convertidos e que, devido a esse facto, as suas propriedades significativas haviam
sido adulteradas. No entanto, especificar quais propriedades e o nvel de degradao
que cada relatrio havia sofrido revelou-se uma tarefa demasiado penosa para uma
pessoa s. Tornou-se evidente que seria necessrio encontrar algo que permitisse
automatizar e simplificar todo esse processo.

3.4 Servios de preservao


Uma anlise atenta ao cenrio apresentado permite identificar um conjunto de funcionalidades
que devero fazer parte de um sistema capaz de prestar servios de preservao. O
desenvolvimento do conjunto de servios identificados permite automatizar os processos de
preservao que garantem o acesso continuado informao custodiada num repositrio
digital. Entre estes, encontram-se os seguintes servios:

Servio de identificao de formatos responsvel por determinar o formato de


um dado objecto digital e tambm por verificar a integridade lgica dos mesmos (i.e.,
verificar se a codificao de um objecto respeita a sintaxe do formato identificado);
Servio de seleco de estratgias de migrao responsvel por determinar e
sugerir estratgias de migrao adequadas s necessidades da instituio preservadora e
sua comunidade de interesse (i.e., formato de destino e a aplicao de converso);
Servio de converso servio responsvel pela migrao de formatos;
Servio de controlo de qualidade - servio que determina quais os atributos do
objecto original que no foram devidamente preservados durante o processo de
migrao;
Servio de notificao de obsolescncia servio que verifica e disponibiliza
informao sobre os formatos que esto em risco de se tornar obsoletos no interior de
um repositrio.

A Figura 18 apresenta uma viso geral de uma arquitectura que disponibiliza o conjunto de
servios previamente identificados. A figura encontra-se dividida em duas partes fundamentais:
o cliente (em cima) e o provedor de servios (em baixo).

56
Figura 18 Arquitectura de um sistema de preservao.

A parte da figura referente ao cliente fornece exemplos de aplicaes que podero tirar partido
dos servios disponibilizados por esta plataforma. Entre estes encontram-se repositrios
digitais (e.g. DSpace48, Eprints49, Fedora50), aplicaes-cliente baseadas na consola ou
aplicaes desenvolvidas para a Web. Os exemplos apresentados pretendem ser ilustrativos e
no prescritivos, i.e., qualquer aplicao capaz de invocar um servio remoto poder tirar
partido das funcionalidades disponibilizadas por uma plataforma com estas caractersticas.

Na camada inferior da figura encontra-se a plataforma de servios, assim como todos os


componentes que a constituem. Cada um destes responsvel por uma tarefa especfica e
funciona de forma independente dos restantes. Esta abordagem permite que cada componente
possa ser administrado por uma entidade distinta, facilitando ainda a distribuio da carga por
vrios servidores. No obstante, os vrios componentes podero colaborar entre si em torno
de um objectivo comum. Fazem-no trocando mensagens e invocando mutuamente os servios
disponibilizados por cada um dos componentes.

48 http://www.dspace.org
49 http://www.eprints.org
50 http://www.fedora-commons.org/

57
As seces que se seguem descrevem detalhadamente cada um dos servios identificados na
Figura 18 e apresentam algumas ferramentas capazes de implementar os conceitos que lhes so
subjacentes.

3.4.1 Identificador de formatos


O componente Id e n t i f i c a d o r d e f o r m a t o s , tal como o nome indica, um servio que
permite determinar o formato de um objecto digital.

Organizaes que tenham como misso preservar objectos digitais tero de ser capazes de
verificar e monitorizar a integridade lgica dos seus objectos sem necessidade de interveno
humana, i.e., devero ser capazes de reconhecer o formato de um objecto e verificar se este
est de acordo com o formato identificado. Um servio de identificao de formatos
fundamental no cumprimento deste requisito.

Uma vantagem que advm da utilizao de um servio com estas caractersticas tem que ver
com o facto de os objectos digitais serem identificados de acordo com um nico vocabulrio.
O uso transversal de um vocabulrio controlado para designar formatos garante a
interoperabilidade lexical entre todos os componentes da plataforma e torna a orquestrao de
tarefas um processo simples e harmonioso.

Existem vrias solues capazes de suportar a construo de um servio com estas


caractersticas. Entre estas destacam-se as seguintes:

JHOVE51 software desenvolvido conjuntamente pela JSTOR52 e pela Biblioteca da


Universidade de Harvard53, especialmente desenhado para identificar e caracterizar
formatos digitais. Na prtica, o JHOVE mais do que um identificador de formatos.
Esta aplicao capaz de extrair metainformao tcnica a partir de diversos formatos
digitais. A principal desvantagem desta aplicao que apenas suporta onze formatos
distintos, nomeadamente: AIFF, WAVE, ASCII, HTML, PDF, XML, UTF-8, GIF,
JPEG, JPEG 2000 e TIFF.

Droid54 (Digital Record Object Identification) software desenvolvido pelos Arquivos


Nacionais do Reino Unido55, os criadores do directrio de formatos PRONOM (ver

51 http://hul.harvard.edu/jhove/
52 http://www.jstor.org/
53 http://hul.harvard.edu/
54 http://droid.sourceforge.net

58
Directrios de formatos na pgina 34), foi desenhado especificamente para identificar
formatos digitais. Esta ferramenta permite processar sequencialmente vrios objectos e
produz designaes de formato que congregam o nome e a verso do mesmo. As
principais vantagens desta ferramenta advm do facto de esta suportar centenas de
formatos distintos e da sua base de dados de formatos estar em constante crescimento.
As actualizaes desta aplicao so realizadas automaticamente durante o arranque da
mesma.

Unix f i l e 56 comando que acompanha as distribuies de sistemas operativos


Unix/Linux que permite identificar o formato de ficheiros atravs da linha de
comandos. O comando f i l e , apesar de no ser multiplataforma como as duas
aplicaes anteriores, oferece uma velocidade de processamento inigualvel e
apresenta suporte para uma elevada quantidade de formatos.

FILExt57 (The File Extension Source) trata-se de um stio Web que rene
informao sobre formatos tendo por base a extenso que geralmente associada ao
formato em causa. O portal disponibiliza um servio de pesquisa por extenso e
fornece informaes como: nome da aplicao de leitura/produo do formato
identificado e o seu fabricante, M i m e T y p e s associados ao formato, magic numbers e
hiperligaes para descarregar aplicaes de leitura.

3.4.2 Conversores
O componente designado por C o n v e r s o r e s representa os servios que permitem efectuar
transformaes entre formatos (Figura 18). Os c o n v e r s o r e s podero ser utilizados para
construir conversores mais complexos, recorrendo composio de servios.

Vrios exemplos de servios de converso foram j apresentados na seco Migrao


distribuda na pgina 30, nomeadamente, o TOM (Ockerbloom, 1998, 2003), o MyMorph
(Walker & Thoma, 2003, 2004, 2005) e o PANIC (Hunter & Choudhury, 2003). Para alm
destes, existem outros exemplos que, apesar de no terem sido idealizados como servios com
fins de preservao, nem to pouco implementarem os requisitos necessrios para que possam
ser considerados SOA, poderiam ser utilizados eficazmente para suportar uma rede de servios
de converso. Entre estes, destacam-se os seguintes:

55 http://www.nationalarchives.gov.uk/
56 http://darwinsys.com/file/
57 http://www.filext.com

59
Media-convert58 trata-se de um stio Web que oferece aos seus utilizadores a
capacidade de efectuar converses entre dezenas de formatos: vdeo, documentos de
texto, folhas de clculo, udio, imagem matricial, imagem vectorial e apresentaes
multimdia. Os objectos a converter so enviados para o stio Web atravs de um
HTTP-POST e os resultados da converso so descarregados pelo browser acedendo
a um URL. O stio Web suportado financeiramente por publicidade.

Zamzar59 trata-se de um stio Web em tudo semelhante ao anterior, diferindo apenas


no mtodo de retorno dos objectos convertidos. Neste caso, o URL onde se
encontram os objectos convertidos no se encontra imediatamente disponvel. Ao
invs disso, o URL enviado para o cliente por correio-electrnico. O modelo de
financiamento que suporta este stio baseado numa subscrio mensal que quanto
mais elevada, melhor a qualidade de servio fornecido, tanto em termos de velocidade
de processamento, como em volume de dados suportado.

3.4.3 Controlo de qualidade


O servio designado por C o n t r o l a d o r d e q u a l i d a d e tem como misso detectar perdas
de informao nos objectos digitais que resultam das migraes efectuadas. Este componente
dever ser capaz de comparar os objectos digitais submetidos a migrao com as suas verses
convertidas e produzir um relatrio evidenciando detalhadamente as diferenas detectadas.
Esse relatrio permite documentar a interveno de preservao e determinar o nvel de
qualidade associado interveno realizada. Com base nesta informao possvel determinar
quais os conversores que prestam o melhor servio de converso, i.e., determinar aqueles que
garantem a conservao do maior nmero de propriedades significativas do objecto digital
original.

Neste contexto h sobretudo uma iniciativa que merece ser destacada:

XCEL/XCDL o XCEL (eXtensible Characterisation Extraction Language) um dialecto


XML que permite definir regras para extraco de propriedades de objectos digitais
codificados num dado formato digital. Uma vez criado o documento XCEL de um
formato, este processado, conjuntamente com um objecto digital, por uma aplicao
designada Extractor. O Extractor interpreta as regras definidas pelo documento XCEL e
produz um documento XCDL (eXtensible Characterisation Definition Language) que

58 http://media-convert.com/
59 http://www.zamzar.com/

60
comporta, numa linguagem abstracta e uniformizada, as propriedades extradas do
objecto digital. Os documentos XCDL produzidos a partir de dois objectos em
formatos distintos podem ser comparados e as suas diferenas facilmente detectadas
(Becker, Rauber, Heydegger, Schnasse, & Thalle, 2008). O principal obstculo
encontrado nesta abordagem encontra-se no processo de criao de documentos
XCEL. Para determinados formatos, estes documentos so extremamente complexos
e a elaborao dos mesmos requer geralmente a colaborao do produtor do formato.
At ao momento este projecto apenas produziu especificaes XCEL para os
formatos TIFF e PNG.

3.4.4 Notificador de obsolescncia


O servio de N o t i f i c a o d e o b s o l e s c n c i a responsvel por informar as entidades-
cliente que determinados formatos se encontram em risco de se tornar obsoletos. Este servio
deve ser consultado regularmente pela entidade cliente de modo a determinar quais os
objectos presentes no seu repositrio que podero vir a tornar-se inacessveis devido a
alteraes significativas no panorama tecnolgico vigente ou devido existncia de
determinadas caractersticas consideradas inadequadas num contexto de preservao (Ferreira
et al., 2006a). Vrias iniciativas podero servir de base construo de um servio com estas
caractersticas:

O relatrio Risk Management of Digital Information: A File Format Investigation apresenta os


resultados de um estudo que procura medir o impacto que a migrao pode ter na
integridade dos objectos digitais e quais os riscos incorridos ao manter objectos em
determinados formatos (Lawrence et al., 2000);

A metodologia INFORM procura prever a durabilidade de formatos digitais


identificando um conjunto de caractersticas que podero inviabilizar o acesso
informao, como por exemplo, DRM60, algoritmos de compresso, encriptao,
assinaturas digitais, dependncia de hardware e software especfico, etc. (Stanescu,
2004);

A DigiCULT61 e a Digital Preservation Coalition62 publicam periodicamente relatrios


que procuram identificar as principais tendncias no uso de tecnologias. Apesar destes

60 Digital Rights Management


61 http://www.digicult.info/pages/techwatch.php
62 http://www.dpconline.org/graphics/reports/

61
relatrios no terem como principal objectivo alertar a comunidade para os formatos
que se esto a tornar obsoletos, estes podero, em boa medida, servir de base para
precaver este tipo de ocorrncias.

Existem tambm vrios servios na Web especializados em monitorizar o lanamento


de novas verses de software. Apesar deste tipo de servios no estar especialmente
vocacionado para detectar novos formatos, na maioria dos casos o lanamento de uma
nova verso de um software motivo suficiente para que haja preocupao com a
obsolescncia dos formatos associados s suas verses precedentes. Exemplos deste
tipo de servios so: o VersionTracker63 e o SUMo64;

Uma iniciativa liderada pelos Arquivos Nacionais da Austrlia e pela Australian


Partnership for Sustainable Repositories65 elaborou um sistema chamado AONS66
(Automatic Obsolescence Notification Service) que cumpre escrupulosamente os
objectivos identificados para este componente, i.e., providenciar um servio que
notifica entidades detentoras de objectos digitais de que determinados formatos esto
em vias de se tornar obsoletos e que portanto devem desenvolver-se diligncias no
sentido de se preservar os objectos codificados nesses formatos. O AONS recolhe
informao sobre formatos digitais a partir de vrios parceiros, nomeadamente o
PRONOM (Darlington, 2003; UK National Archives, 2002, 2005) e a iniciativa
LCSDF da Biblioteca do Congresso (Library of Congress, 2004a), e constri a sua
prpria base de dados de formatos. Posteriormente, monitoriza essa base de dados em
busca de formatos para os quais existam novas verses, formatos com pouco suporte
aplicacional, formatos proprietrios ou formatos que apenas so suportados por
software obsoleto. Repositrios (por agora, apenas DSpace e Fedora) podero registar
as suas coleces de objectos e esperar notificaes quando algum dos seus formatos
se encontrar em risco de obsolescncia (Curtis, Koerbin, Raftos, Berriman, & Hunter,
2007; Pearson, 2008).

3.4.5 Seleccionador de estratgias de migrao


O componente S e l e c c i o n a d o r d e e s t r a t g i a s d e m i g r a o tem como principal
objectivo identificar os servios de converso mais adequados para resolver um problema de
preservao especfico.

63 http://www.versiontracker.com
64 http://www.kcsoftwares.com/?sumo
65 http://www.apsr.edu.au
66 http://www.apsr.edu.au/aons2 e http://sourceforge.net/projects/aons/

62
Os conversores disponveis na rede podero ser mais ou menos aptos dependendo dos
requisitos da entidade-cliente. Para identificar o servio de converso mais adequado,
necessrio confrontar os requisitos enumerados pelo cliente com as caractersticas do
conversor e encontrar a melhor combinao possvel.

Rauch e Rauber desenvolveram um mtodo capaz de comparar e seleccionar alternativas de


preservao tendo em conta as necessidades individuais de cada entidade preservadora (Rauch,
Pavuza et al., 2005; Rauch & Rauber, 2004). O seu trabalho baseado em conceitos de
A n l i s e d e U t i l i d a d e (Weirich et al., 2001), um mtodo originalmente desenvolvido para
auxiliar a tomada de deciso em projectos complexos no domnio da engenharia civil e
economia.

Figura 19 Exemplo de rvore-objectivo.

O mtodo desenvolvido segue o seguinte protocolo:

1) Inicialmente construda uma r v o r e - o b j e c t i v o onde so reunidos e organizados


hierarquicamente os vrios critrios que sero utilizados para aferir o grau de
adequabilidade de uma estratgia de preservao (Figura 19);

63
2) Numa segunda fase so associadas unidades de medida a cada um desses critrios, e.g.
milmetro, segundo, Mb/s, Euro, etc.;

3) Num terceiro passo reunido um conjunto representativo de objectos digitais que ser
utilizado para testar cada uma das alternativas de preservao;

4) A quarta fase consiste na seleco de um conjunto de alternativas que podero ser


utilizadas para preservar a coleco de objectos de teste. Estas alternativas sero
comparadas e ordenadas de acordo com a sua capacidade de satisfazer os critrios de
avaliao reunidos;

5) No quinto passo cada uma das alternativas executada face ao conjunto de objectos
de teste. O resultado de cada interveno ento avaliado luz dos vrios critrios que
constituem a rvore-objectivo (Figura 20 1);

6) No sexto passo os resultados das avaliaes so normalizados, i.e., transformados em


unidades numricas comparveis (Figura 20 2);

7) No stimo so atribudos pesos a cada um dos critrios que constituem a rvore-


objectivo. Os pesos atribudos representam as preferncias de preservao de quem
est a avaliar as alternativas e iro determinar a estratgia mais adequada (Figura 20
3);

8) O passo oito consiste na agregao de valores parciais e totais obtidos a partir das
experincias realizadas (Figura 20 4);

9) Finalmente, todas as alternativas so ordenadas mediante o grau de adequao que


apresentam face aos requisitos manifestados pela entidade-cliente.

importante realar que a construo da rvore-objectivo , por si s, uma tarefa complexa,


morosa e que geralmente requer o envolvimento de profissionais da rea tecnolgica,
arquivstica, produtores de informao e respectivos consumidores.

Rauch e Rauber tm promovido a construo de rvores-objectivo para diversas classes de


objectos digitais atravs da realizao de workshops no seio de organizaes detentoras de
informao digital. Durante esses workshops, um conjunto de pessoas convidado a sugerir
critrios de avaliao que consideram importantes no sentido de garantir a preservao de um

64
dado conjunto de objectos digitais. Estes critrios so ento organizados em classes e
subclasses de forma constituir uma rvore-objectivo semelhante apresentada na Figura 19.

Figura 20 Processo de seleco de estratgias de preservao.

A rvore-objectivo da Figura 19 descreve um conjunto de critrios para a avaliao de


estratgias para a preservao de documentos de texto. Nela podemos encontrar critrios
relativos ao processo de preservao (e.g. disponibilidade, estabilidade, dbito, custo, etc.), aos
formatos envolvidos na preservao (e.g. cota de mercado, nvel de suporte, se se trata de um
formato normalizado, etc.) e critrios relacionados com os objectos propriamente ditos (e.g.
contedo textual, dimenses da pgina, n de pginas, etc.).

Este ltimo conjunto de critrios pode ser entendido como o conjunto das propriedades
significativas associadas a uma respectiva classe de objectos digitais, neste caso documentos de
texto (Ferreira et al., 2006a).

3.5 Cenrio revisto


O cenrio apresentado anteriormente permitiu identificar os vrios servios de preservao
necessrios para implementar uma estratgia de migrao de forma transversal e automtica.
Assumindo a existncia de uma infra-estrutura capaz de disponibilizar os servios descritos, o
mesmo cenrio poderia ser reescrito da seguinte forma:

65
Num dado momento, uma empresa de dimenso mdia decide que todos os relatrios
tcnicos produzidos no decurso da sua actividade devero estar acessveis a todos os
seus colaboradores distncia de um clique. Para tal, foi contratado um gestor de
informao cuja funo seria implementar e administrar um repositrio digital de
informao com o objectivo de preservar e dar acesso aos mesmos atravs da Intranet
da empresa.

Todos os relatrios existentes at data de implementao do repositrio haviam sido


elaborados com recurso ao Microsoft Word 95. medida que o tempo foi passando,
novas verses da aplicao Word comearam a ser exploradas no interior da
organizao. Paralelamente, alguns colaboradores mais adeptos do movimento open-
source comearam a utilizar a ferramenta OpenOffice para produzir os seus relatrios
tcnicos. Consequentemente, o nmero de formatos existentes no repositrio
aumentou a ponto de se tornar impossvel consultar transversalmente o conjunto de
relatrios de um dado projecto sem que houvesse necessidade de instalar software
especfico para os poder visualizar.

Para agravar ainda mais a situao, o responsvel pelo repositrio verificou que
existiam vrios relatrios cuja extenso no lhe era familiar, dificultando assim a
identificao da aplicao adequada sua visualizao. Paralelamente, a Microsoft
anuncia que a nova verso do seu pacote de aplicaes Office no ir suportar o
formato Word 95.

O responsvel pela gesto do repositrio digital conclui que algo teria de ser feito no
sentido de homogeneizar os contedos do repositrio. Assim, desenvolve uma
pequena aplicao capaz de interagir com os servios fornecidos pela plataforma de
preservao que se encontra acessvel atravs da Internet. A aplicao comea por
enviar os objectos cuja extenso desconhecida para o servio designado
I d e n t i f i c a d o r d e f o r m a t o s . De seguida, a aplicao-cliente consulta o servio
de N o t i f i c a o d e o b s o l e s c n c i a com a finalidade de determinar quais os
formatos que se encontram em risco de se tornar obsoletos. O servio invocado
determina que existe um formato no repositrio que se encontra em vias de se tornar
obsoleto e que devero ser desencadeadas medidas preventivas ao nvel da sua
preservao.

A fim de determinar qual a estratgia de migrao mais adequada para preservar esses
documentos, a aplicao desenvolvida pelo gestor invoca um servio disponibilizado

66
pela plataforma que devolve uma lista de critrios relevantes para efeitos de avaliao e
controlo de qualidade (i.e., o S e l e c c i o n a d o r d e e s t r a t g i a s d e m i g r a o ).
O colaborador passa a atribuir pesos a cada um desses critrios tendo em considerao
os requisitos de preservao definidos pela sua organizao. Entre estes encontram-se
itens como: preservao do contedo textual, preservao da apresentao grfica do
documento, custo de migrao (/converso), velocidade de converso (Kb/s), etc.

O gestor do repositrio decide que o contedo textual e a apresentao grfica dos


documentos so propriedades importantes e que portanto devero ser preservados a
todo o custo. Os restantes critrios foram menos valorizados, pelo que, o peso que
lhes foi atribudo foi expressivamente inferior.

O servio remoto, aps receber as preferncias manifestadas pelo gestor, responde


com uma listagem de formatos para os quais os documentos Word 95 podero ser
convertidos. Estes formatos maximizam os requisitos de preservao manifestados
pelo funcionrio. Entre estes formatos encontram-se o PDF, Word 2003 e
OpenOffice 2. O formato PDF foi apontado pelo sistema como sendo o mais
favorvel.

O gestor decide adoptar a sugesto fornecida pelo sistema e requisita uma lista de
possveis servios de converso capazes de realizar a respectiva converso. Baseado
nos pesos previamente atribudos pelo gestor, o sistema remoto sugere um servio de
converso, que embora no seja gratuito, garante resultados de elevada qualidade. O
gestor passa ento a enviar os seus documentos para o sistema remoto, invocando o
servio de C o n v e r s o disponvel, e d incio ao processo de migrao dos seus
objectos digitais.

Aps cada migrao, a aplicao-cliente recebe uma verso PDF do documento


tcnico submetido a converso e um registo de metainformao produzido pelo
servio de C o n t r o l o d e q u a l i d a d e que poder ser utilizado para documentar a
interveno de preservao. Nesse registo encontra-se informao variada como uma
descrio do servio de migrao utilizado, a data e a hora da converso e o nvel de
degradao incorrido em cada uma das propriedades significativas do documento
original.

Depois de realizar os mesmos passos para os restantes formatos existentes no


repositrio, o gestor do repositrio constata que o PDF quase sempre sugerido
como o formato mais adequado para preservar os relatrios tcnicos armazenados no
67
repositrio. O funcionrio decide, ento, elaborar uma poltica de ingesto onde
recomendado que todos os relatrios tcnicos sejam convertidos para PDF antes de
serem submetidos ao repositrio.

O gestor do repositrio desenvolveu tambm os mecanismos necessrios para que o


repositrio pudesse consultar regularmente o servio de notificao de obsolescncia
de formatos. Assim, saberia de imediato se algum dos formatos que mantm no seu
repositrio se encontra em risco de se tornar obsoleto e passa a poder agir em
conformidade e de forma antecipada.

3.6 Consideraes finais


Este captulo teve como principal objectivo apresentar o conjunto mnimo de servios
considerados essenciais para a implementao transversal de estratgias de preservao
baseadas em migrao num contexto organizacional.

O captulo comea por descrever as trs actividades fundamentais que geralmente


acompanham um processo de migrao, nomeadamente: a seleco de uma alternativa de
migrao, a execuo da respectiva converso e a anlise dos resultados obtidos (i.e., controlo
de qualidade).

O captulo continua com uma definio de arquitectura orientada ao servio (SOA) e com a
apresentao deste tipo de plataformas como sendo adequadas a contextos de preservao,
evidenciando as vantagens que advm da sua utilizao.

Ainda neste captulo, apresentado um problema de preservao que foi solucionado de duas
formas distintas. No primeiro caso, a inexistncia de uma plataforma de servios de auxilio
preservao obrigou a que a generalidade das actividades de preservao fossem realizadas
manualmente pelo gestor de um repositrio digital; no segundo, a presena de uma plataforma
de servios de preservao viabiliza a automatizao de processos e simplifica todo o processo
administrativo.

O primeiro cenrio serve tambm de ponto de partida para a apresentao de um conjunto de


servios considerados fundamentais no que diz respeito automatizao de processos de
migrao. Entre estes encontram-se os seguintes: um servio de identificao de formatos, um
servio que permite identificar as alternativas de migrao mais adequadas para solucionar o
problema de preservao especfico de um cliente, um servio capaz de realizar converses de
formatos, um servio de controlo de qualidade e um servio de notificao de obsolescncia.

68
Para cada um dos servios apresentados procurou-se seleccionar um conjunto de ferramentas
e/ou tecnologias capazes de dar suporte sua implementao. Estas ferramentas serviram de
base para o desenvolvimento do CRiB, uma arquitectura orientada ao servio que disponibiliza
um conjunto de funcionalidades que permitem implementar de forma transversal e automtica
estratgias de preservao baseadas em migrao. Esta plataforma descrita, em detalhe, no
captulo que se segue.

69
70
Captulo 4
CRiB Plataforma de servios de
preservao
O captulo anterior procurou evidenciar de que forma uma arquitectura baseada em servios
poderia facilitar a implementao de estratgias de preservao, especialmente aquelas
baseadas na migrao de formatos. Na presena de uma arquitectura deste tipo, qualquer
indivduo ou instituio com capacidade para invocar servios remotos passa a poder
implementar os seus prprios processos de preservao, construdos a partir dos servios
disponibilizados.

No captulo anterior foram identificados vrios servios de preservao, bem como possveis
formas de os implementar. Entre estes, encontram-se um notificador de obsolescncia, um
identificador de formatos, um conjunto de conversores de formatos, um mdulo de controlo
de qualidade e um componente capaz de auxiliar o cliente na escolha da alternativa de
migrao mais adequada resoluo do seu problema de preservao.

Este captulo introduz a plataforma CRiB67, uma arquitectura orientada ao servio que procura
implementar os conceitos e servios anteriormente descritos. As seces que se seguem

67 CRiB um acrnimo que deriva da expresso Conversion and Recommendation of Digital Object Formats.

71
descrevem de forma detalhada como cada um destes servios foi desenvolvido e quais as suas
dependncias funcionais.

O captulo encontra-se organizado da seguinte forma: a seco 4.1 apresenta uma viso geral
da arquitectura desenvolvida, descrevendo sucintamente os componentes e servios por ela
implementados; a seco 4.2 descreve em detalhe o componente C R i B C o r e
P r e s e r v a t i o n S e r v i c e s que tem como misso servir de interface entre a plataforma de
servios e os seus utilizadores. Esta seco apresenta, ainda, as mensagens trocadas entre
ambos os intervenientes e um conjunto de diagramas de sequncia que facilita a compreenso
de todo o processo de interaco. As seces 4.3, 4.4, 4.5, 4.6, 4.7 e 4.8 descrevem em detalhe
os restantes componentes do sistema, nomeadamente o S e r v i c e R e g i s t r y , o F o r m a t
Identifier, o Migration Broker, o Object Evaluator, o Format Evaluator e
o M i g r a t i o n A d v i s o r ; o captulo termina, na seco 4.9, com um sumrio e algumas
consideraes finais relativamente ao trabalho realizado.

4.1 Viso geral


O CRiB trata-se de uma arquitectura orientada ao servio que tem como objectivo auxiliar
tanto instituies, como utilizadores individuais, na implementao de estratgias de
preservao baseadas em migrao. O conjunto de servios disponibilizados por esta
plataforma permite a qualquer entidade cliente implementar de forma transversal e automtica
todas as tarefas subjacentes preservao de objectos digitais.

A Figura 21 apresenta a arquitectura geral da plataforma de servios CRiB. Esta, encontra-se


divida em trs camadas: a camada de aplicao (application layer), a lgica de negcio (business
layer) e a camada de dados e/ou fontes de informao (data layer).

Na camada de aplicao podem ver-se exemplos de aplicaes-cliente semelhantes s j


apresentadas no modelo abstracto da Figura 18. Entre estes encontram-se repositrios digitais
de mbito geral como o DSpace, o Fedora Commons ou o Eprints, e algumas aplicaes
especficas como o repositrio RODA (Barbedo et al., 2007; Faria et al., 2007; Portuguese
National Archives & University of Minho, 2006; Ramalho, Ferreira, Castro et al., 2007;
Ramalho, Ferreira, Faria, & Castro, 2007) ou a aplicao Plato do projecto Planets (Becker,
Ferreira et al., 2008; Becker, Kulovits, Rauber, & Hofman, 2008).

A camada de negcio (business layer) identifica os principais componentes responsveis por


realizar todos os servios disponibilizadas pelo CRiB. O componente C R i B C o r e
P r e s e r v a t i o n S e r v i c e s serve de mediador entre as aplicaes-cliente e o resto dos

72
componentes do sistema. Para alm disso, tambm responsvel por orquestrar todas as
mensagens trocadas no interior do sistema garantindo, deste modo, o correcto funcionamento
da arquitectura (Ferreira et al., 2006b).

Figura 21 Arquitectura geral da plataforma CRiB.

O componente F o r m a t I d e n t i f i e r disponibiliza um servio de identificao de formatos


que poder ser invocado por uma aplicao-cliente.

O componente S e r v i c e R e g i s t r y oferece um conjunto de mtodos que permite registar e


localizar servios de migrao disponibilizados atravs da plataforma. Este servio ainda
capaz de descobrir converses compostas calculando no momento do pedido o fecho
transitivo entre os diferentes servios de converso registados.

O acesso aos conversores registados na plataforma realizado atravs do componente


M i g r a t i o n B r o k e r . E s t e componente responsvel por efectuar duas operaes
fundamentais: executar os processos de converso (quer estes sejam individuais ou compostos)
e medir a performance computacional dos mesmos (Becker, Ferreira et al., 2008; Ferreira,
2006a; Ferreira et al., 2005, 2006b, 2007).

73
O componente O b j e c t E v a l u a t o r responsvel pelo controlo de qualidade, ou seja, cabe
a este componente a tarefa de detectar possveis perdas de informao incorridas durante o
processo de migrao (Becker, Ferreira et al., 2008; Ferreira, 2006a; Ferreira et al., 2005, 2006b,
2007).

O componente F o r m a t E v a l u a t o r fornece informao tcnica sobre os formatos


suportados pela plataforma e permite determinar quais os formatos que possuem o conjunto
de caractersticas mais propcio para preservar informao durante longos perodos de tempo.

A informao disponibilizada pelo F o r m a t E v a l u a t o r , combinada com a informao


produzida pelo O b j e c t E v a l u a t o r e pelo M i g r a t i o n B r o k e r , permite ao componente
M i g r a t i o n A d v i s o r determinar qual a estratgia de migrao mais adequada para resolver
um determinado problema de preservao. Este componente produz uma lista de servios de
migrao que garantem entidade-cliente a melhor soluo em termos de performance,
conservao das propriedades significativas dos objectos digitais e aptido dos formatos para
reter informao por longos perodos de tempo (Becker, Ferreira et al., 2008; Ferreira, 2006a;
Ferreira et al., 2005, 2006b, 2007).

Para dar suporte aos componentes anteriormente descritos, o CRiB recorre a alguns servios
de informao. Estes encontram-se representados na camada inferior da Figura 21 designada
por data layer. O D r o i d 68, utilizado pelo F o r m a t I d e n t i f i e r , fornece o motor de
identificao de formatos; o j U D D I 69 implementa funcionalidades de registo e descoberta de
servios e utilizado pelo componente S e r v i c e R e g i s t r y ; o F o r m a t K n o w l e d g e
B a s e materializa uma base de dados com informao relevante sobre os formatos suportados
e alimenta o componente F o r m a t E v a l u a t o r ; e o E v a l u a t i o n s R e p o s i t o r y
armazena todos os relatrios produzidos pelos componentes responsveis pelo de controlo de
qualidade, nomeadamente o F o r m a t E v a l u a t o r , O b j e c t E v a l u a t o r e M i g r a t i o n
B r o k e r , e d suporte ao motor de recomendao implementado pelo M i g r a t i o n
A d v i s o r (Becker, Ferreira et al., 2008; Ferreira, 2006a; Ferreira et al., 2005, 2006b, 2007).

de realar que os componentes F o r m a t K n o w l e d g e B a s e e E v a l u a t i o n s


R e p o s i t o r y foram totalmente desenvolvidos no mbito deste projecto. Os restantes
componentes associados data layer, Droid e UDDI, foram desenvolvidos por terceiros e
encontram-se descritos nas seces 3.4.1 e 4.3, respectivamente.

68 Ver seco 3.4.1 na pgina 58.


69 Ver seco 4.3 na pgina 83.

74
importante referir que a tecnologia que suporta os servios descritos neste captulo
baseada em Web services, ou seja, toda a comunicao realizada entre as aplicaes-cliente e a
plataforma CRiB, assim como todas as mensagens trocadas no seu interior so asseguradas por
protocolos abertos baseados em XML/SOAP (S. Graham et al., 2002; Newcomer & Lomow,
2005; W3C, 2002).

4.2 Core preservation services


O CRiB disponibiliza um conjunto de servios de preservao teis a qualquer instituio, ou
indivduo, com um problema especfico de preservao. Para melhor compreender de que
forma uma instituio poder utilizar os servios disponibilizados, apresentado um conjunto
de diagramas que descrevem as sequncias de interaco que modelam a comunicao entre o
cliente e o sistema, as suas interfaces aplicacionais e os objectos trocados.

importante referir que cada um dos subcomponentes que constituem o sistema pode ser
acedido directamente de forma independente dos restantes. No entanto, o componente C R i B
C o r e P r e s e r v a t i o n S e r v i c e s ( i.e., a interface aplicacional do sistema70) simplifica o
workflow no interior do CRiB, desdobrando cada pedido do cliente num conjunto de
mensagens que sero resolvidas ordenadamente pelos restantes subcomponentes do sistema.

A interface aplicacional disponibilizada pelo CRiB encontra-se ilustrada na Figura 22. Aqui
encontram-se representadas as vrias funes que permitem ao utilizador realizar tarefas
como: identificao de formatos (i.e., i d e n t i f y F o r m a t ), seleco de estratgias de migrao
(i.e., g e t E v a l u a t i o n C r i t e r i a e g e t R e c o m m e n d a t i o n ), migrao de formatos com
controlo de qualidade associado (i.e., c o n v e r t ) e alguns servios adicionais que facilitam a
explorao do sistema e a obteno de informaes relevantes para o cliente (i.e., g e t
SupportedSourceFormats, getSupportedTargetFormats, getMigration
Paths e getConverterMetadata).

70 Do ingls Application Programming Interface (API).

75
Figura 22 Interface do componente Core Preservation Services.

As estruturas de dados trocadas durante a invocao dos servios enumerados encontram-se


representadas no diagrama de classes da Figura 23.

Figura 23 Diagrama de classes das mensagens trocadas pelo CRiB.

Cada um dos servios anteriormente apresentados descrito com maior detalhe nas seces
subsequentes.

4.2.1 Identificao de formatos


Para identificar o formato de uma representao digital, um cliente apenas necessita de invocar
o mtodo remoto designado i d e n t i f y F o r m a t , enviando a respectiva representao como
argumento do mesmo. Aps analisar a representao submetida, o sistema responde com o
nome e verso do formato detectado ou com o termo U n k n o w n F o r m a t , caso este no
seja reconhecido pelo sistema (Figura 24).

76
Figura 24 Diagrama de sequncia da identificao de formatos.

A representao enviada como argumento segue a estrutura da mensagem


R e p r e s e n t a t i o n O b j e c t descrita no diagrama de classes da Figura 25. Esta estrutura segue
o modelo definido no Dicionrio de dados PREMIS para descrever uma representao digital.
Segundo este modelo uma r e p r e s e n t a o d i g i t a l composta por um ou mais
f i c h e i r o s , e um ficheiro composto por um ou mais b i t s t r e a m s , i.e., sequncias de bits
(Guenther et al., 2008; PREMIS Working Group, 2005).

Figura 25 Diagrama de classes de uma representao.

A estrutura F i l e O b j e c t possui, ainda, um atributo adicional designado f i l e n a m e , que tem


como objectivo identificar o ficheiro veiculado pela estrutura. Este atributo facilita a
identificao de formatos e permite preservar os nomes originais dos ficheiros que constituem
a representao.

4.2.2 Seleco de estratgias de migrao


Aps identificar o formato da representao que se pretende preservar, possvel proceder
seleco de um conjunto de alternativas de migrao consideradas aptas para resolver o
problema de preservao da instituio-cliente. Todas as alternativas conhecidas pelo sistema
so avaliadas e ordenadas mediante o nvel de aptido demonstrado em resolver o problema
especfico do cliente.

77
Para que o servio seja capaz de ordenar as alternativas de migrao de acordo com a sua
aptido, este necessita de conhecer os requisitos especficos do cliente. Assim, numa primeira
iterao, o cliente invoca o mtodo g e t E v a l u a t i o n C r i t e r i a de modo a obter a lista de
critrios de avaliao que so suportados para uma dada classe de objectos. Este processo
encontra-se ilustrado na Figura 26. A Figura 27 apresenta os objectos trocados entre o sistema
e o cliente.

Os critrios de avaliao suportados pelo CRiB no dependem do formato, mas sim da classe
de objectos a que o formato pertence. Por exemplo, um objecto pertencente classe
d o c u m e n t o s d e t e x t o avaliado luz de um conjunto especfico de critrios, enquanto
que um objecto pertencente classe i m a g e n s m a t r i c i a i s avaliado por um conjunto de
critrios completamente distinto. O CRiB trata de identificar automaticamente a classe de
objectos a partir do formato indicado.

Figura 26 Diagrama de sequncia relativo seleco de uma


alternativa de migrao.

Ao receber a lista de critrios de avaliao fornecida pelo CRiB (i.e.,


W e i g h t e d C r i t e r i o n [ ] ), o cliente dever associar um peso ou importncia a cada um dos
critrios constituintes. Os pesos atribudos pelo cliente so, efectivamente, a sua manifestao
de preferncias ou, por outras palavras, a formalizao do seu problema especfico de
preservao. Por exemplo, nesta fase o cliente poder informar o sistema que considera a

78
velocidade de converso um critrio da mxima importncia, enquanto que o custo da mesma
no dever ser considerado decisivo.

Os pesos atribudos a cada um dos critrios de avaliao devero pertencer ao conjunto [0, 1],
com 0 a representar um critrio considerado pouco relevante e 1 a representar um critrio com
elevada influncia na deciso final. O sistema capaz de analisar trs categorias distintas de
critrios71:

Critrios associados ao processo de migrao (e.g. disponibilidade, custo, dbito, etc.);


Critrios relacionados com aspectos tcnicos dos formatos envolvidos na migrao
(e.g. abertura do formato, quota de mercado, facilidade de descodificao, etc.);
Critrios associados ao prprio objecto digital (e.g. contedo, apresentao grfica,
framerate, n de cores, n de pginas, etc.).

Figura 27 Mensagens envolvidas na seleco de uma alternativa de


migrao.

Uma vez atribudos os pesos por parte do cliente, este dever invocar o mtodo
g e t R e c o m m e n d a t i o n , enviando a lista de critrios previamente pesados e indicando o
formato dos objectos que pretende preservar (Figura 26).

O servio passa ento a ser capaz de identificar as alternativas de migrao mais aptas para
satisfazer as suas necessidades de preservao e devolve ao cliente uma lista de caminhos de
migrao qual este poder recorrer, bem como a pontuao atribuda a cada um destes. A
lista devolvida , efectivamente, a recomendao produzida pelo sistema. O cliente livre de
seleccionar qualquer uma das opes sugeridas.

71 O conjunto global de critrios de avaliao suportados pelo CRiB encontra-se descrito em detalhe na seco 4.6.2,
Taxionomias de avaliao, na pgina 105.

79
4.2.3 Migrao de formatos e controlo de qualidade
Aps obter uma recomendao, o cliente poder invocar qualquer um dos caminhos de
migrao sugeridos pelo sistema de forma a migrar os seus objectos para o formato de destino
recomendado. O CRiB disponibiliza um mtodo, convenientemente designado c o n v e r t ,
que permite realizar esta operao.

Para que possa ser utilizado, este mtodo necessita de saber qual o caminho de migrao a
executar, i.e., M i g r a t i o n P a t h , e a representao que se pretende converter, i.e.,
R e p r e s e n t a t i o n O b j e c t (Figura 28). O mtodo remoto trata de compor todos os servios
de converso e executar a respectiva migrao, avaliando, em simultneo, a performance da
mesma.

importante referir que a lista de pontos de acesso includos numa mensagem do tipo
M i g r a t i o n P a t h funciona como um identificador nico para um dado conversor composto.
O CRiB ir procurar na sua lista de servios se existe alguma converso composta pelos
pontos de acesso fornecidos. Se no existir, este ir devolver ao cliente uma excepo,
identificando claramente o problema detectado. Caso contrrio, o CRiB trata de invocar todos
os servios de migrao necessrios para satisfazer o pedido do cliente.

Figura 28 Diagrama de sequncia do processo de converso.

Aps terminar a converso requisitada pelo cliente, o CRiB desencadeia um conjunto de


aces de controlo de qualidade ao nvel da performance dos conversores utilizados, aptido

80
dos formatos envolvidos na converso e capacidade apresentada pelos conversores em
preservar as propriedades significativas dos objectos submetidos a converso. Estas aces so
realizadas pelos componentes M i g r a t i o n B r o k e r 72, F o r m a t E v a l u a t o r 73 e O b j e c t
E v a l u a t o r 74, respectivamente.

Os resultados destas aces de controlo de qualidade so reunidos numa estrutura de dados


designada M i g r a t i o n R e p o r t (Figura 29). Esta estrutura contm informao suficiente
para documentar a interveno de preservao. Esta inclui detalhes sobre os conversores
utilizados durante a migrao (e.g. nome, descrio, produtor, etc.), a data e hora da
interveno, os formatos envolvidos, a lista de critrios que foram avaliados pelo sistema, bem
como os resultados dessa avaliao.

Estes relatrios permitem informar os futuros consumidores da informao que modificaes


foram introduzidas nas suas propriedades significativas. Ao consultar esta informao, o
consumidor ser capaz de aferir o grau de fidelidade apresentado pelo objecto preservado em
relao sua representao original. Este relatrio serve assim para verificar a autenticidade
das representaes intervencionadas.

Figura 29 Diagrama de classes associadas ao processo de


converso.

Para alm do disposto, o relatrio produzido permite entidade preservadora aferir a


qualidade da interveno, expondo de forma objectiva o nvel de degradao introduzido pelo

72 Este componente encontra-se descrito em detalhe na seco 4.5 na pgina 89.


73 Este componente encontra-se descrito em detalhe na seco 4.6 na pgina 96.
74 Este componente encontra-se descrito em detalhe na seco 4.7 na pgina 110.

81
processo de migrao e permitindo mesma determinar se a interveno realizada satisfaz os
seus requisitos mnimos de qualidade.

Aps a converso, tambm devolvida ao cliente uma estrutura de dados contendo a nova
representao digital (i.e., o objecto convertido). Ambas as estruturas descritas, i.e., o relatrio
de qualidade e a nova representao, so encapsuladas numa mensagem designada
M i g r a t i o n R e s u l t (Figura 29).

Aps receber o resultado da migrao (i.e., M i g r a t i o n R e s u l t ), o cliente dever desenvolver


localmente duas aces fundamentais: gravar a nova representao no seu sistema de
armazenamento e, no caso de pretender reter metainformao de preservao, anexar o
relatrio de migrao metainformao de preservao que acompanha os seus objectos
digitais.

4.2.4 Servios adicionais


Para alm dos servios de preservao anteriormente descritos, o CRiB disponibiliza um
conjunto de mtodos remotos que facilitam a descoberta de servios de converso (Figura 30).
Entre estes, encontra-se um mtodo que permite descobrir quais os formatos de origem
suportados pelo CRiB, i.e., a partir de que formatos existem conversores registados no CRiB
este mtodo designa-se por g e t S u p p o r t e d S o u r c e F o r m a t s .

Ainda neste contexto, possvel conhecer, para um dado formato, quais os formatos de
destino disponveis na plataforma g e t S u p p o r t e d T a r g e t F o r m a t s .

Para conhecer os conversores disponveis entre dois formatos, o cliente poder invocar o
mtodo g e t M i g r a t i o n P a t h s . O sistema, ir devolver todos os caminhos de migrao
disponveis entre os dois formatos desejados. Este pedido poder resultar numa lista
relativamente extensa de caminhos de migrao. Para determinar qual o caminho de migrao
mais adequado, o cliente dever invocar o mtodo g e t R e c o m m e n d a t i o n descrito
anteriormente na seco 4.2.2.

82
Figura 30 Outros mtodos disponibilizados pelo CRiB.

Adicionalmente, o componente C o r e P r e s e r v a t i o n S e r v i c e s disponibiliza um mtodo


que permite ao cliente conhecer melhor um dado servio de migrao
g e t C o n v e r t e r M e t a d a t a . Este mtodo permite obter informao variada, como: o nome
e descrio do servio, formatos suportados, custo de utilizao e dados relativos entidade
produtora do servio, entre outros (Figura 30).

As seces que se seguem descrevem detalhadamente cada um dos subcomponentes do


sistema que permitem, em conjunto, realizar as tarefas anteriormente descritas,
disponibilizadas pelo C R I B C o r e P r e s e r v a t i o n S e r v i c e s .

4.3 Service Registry


O componente S e r v i c e R e g i s t r y tem como principal objectivo reunir informao sobre
os diversos servios de converso existentes na rede. Esta informao d suporte localizao
e invocao desses mesmos servios e permite aos clientes obter informao detalhada sobre
os agentes de software que intervieram em processos de migrao.

83
O S e r v i c e R e g i s t r y tem como base a norma U n i v e r s a l D e s c r i p t i o n , D i s c o v e r y
a n d I n t e g r a t i o n , vulgarmente designada por UDDI (OASIS, 2005). A norma UDDI
resulta de uma iniciativa aberta conduzida por um grupo de representantes da indstria (e.g.
Ariba, IBM e Microsoft) e actualmente suportada pela O r g a n i z a t i o n f o r t h e
A d v a n c e m e n t o f S t r u c t u r e d I n f o r m a t i o n S t a n d a r d s (OASIS)75. Nascida em
2000, esta norma assegura o registo, publicao e pesquisa de informao sobre servios
disponibilizados na Web, seus produtores e a forma como podem ser invocados por uma
qualquer aplicao-cliente. Estas informaes encontram-se organizadas em trs unidades
semnticas designadas B u s i n e s s E n t i t y , S e r v i c e E n t i t y e B i n d i n g E n t i t y ,
respectivamente (S. Graham et al., 2002). As relaes existentes entre cada uma destas
entidades encontram-se ilustradas na Figura 31.

O componente S e r v i c e R e g i s t r y implementado no C R i B , na prtica, suportado por


um servidor de UDDI designado Apache jUDDI76. O jUDDI trata-se de um servidor open-
source desenvolvido pela A p a c h e S o f t w a r e F o u n d a t i o n 77 que implementa a norma
UDDI verso 2.0 (Bryan et al., 2002).

Figura 31 Relaes entre entidades que descrevem um servio de


converso.

O UDDI foi estendido no mbito do CRiB no sentido de suportar alguns atributos de


informao complementares, considerados fundamentais para descrever servios de migrao.
Entre estes, encontram-se: o s o u r c e F o r m a t , t a r g e t F o r m a t e c o s t (Tabela 3). A

75 http://www.oasis-open.org
76 http://ws.apache.org/juddi/
77 http://www.apache.org/

84
incluso dos dois primeiros elementos permite a identificao e localizao imediata de
servios de converso tomando por base os formatos que suportam. Para alm disso,
possibilita a deteco de migraes compostas atravs da combinao de formatos de destino
e formatos de partida. O ltimo elemento permite associar um custo de utilizao, em
unidades monetrias, a cada servio de converso.

Neste contexto, importante referir que, para que seja possvel identificar e executar
converses compostas, fundamental que aos atributos s o u r c e F o r m a t e t a r g e t F o r m a t
sejam associados valores obtidos a partir de um vocabulrio controlado. No caso do CRiB, os
valores utilizados so baseados nos descritores de formato produzidos pelo Droid (ver Format
Identifier na pgina 88).

Cada servio de converso adicionado ao S e r v i c e R e g i s t r y descrito pelos atributos


apresentados na Tabela 2, Tabela 3, Tabela 4 e Tabela 5.

Business Entity
Elemento descritivo Obrigatoriedade Descrio
Nome da organizao que desenvolveu o servio de
name Obrigatrio
converso.
description Opcional Descrio da organizao.
Contacto dos responsveis pela criao e
contacts Opcional
manuteno do servio (ver Tabela 5).

Tabela 2 Elementos de metainformao sobre a organizao que


desenvolveu o servio de converso.

Service Entity
Elemento descritivo Obrigatoriedade Descrio
name Obrigatrio Nome do servio de converso.
description Opcional Descrio do servio de converso.
sourceFormat Obrigatrio Formato de origem da converso (baseado num
vocabulrio controlado).
targetFormat Obrigatrio Formato de destino da converso (baseado num
vocabulrio controlado).
cost Obrigatrio O custo de execuo do conversor em unidades
monetrias.
bindingTemplates Obrigatrio Informao sobre a localizao do servio (ver
Binding Templates).
businessEntity Obrigatrio Informao sobre a organizao que desenvolveu o
servio (ver Business Entity).

Tabela 3 Elementos de metainformao que descrevem servios


de converso.

85
Binding Templates
Elemento descritivo Obrigatoriedade Descrio
description Opcional Descrio do localizador de servio.
accessPoint Obrigatrio Endereo onde reside o servio.
Protocolo de acesso ao servio (e.g. mailto, http,
URLType Obrigatrio
https, ftp, fax, phone, other).

Tabela 4 Elementos de metainformao que descrevem a


localizao do servio.

Contacts
Elemento descritivo Obrigatoriedade Descrio
description Opcional Descrio do contacto.
personName Obrigatrio Nome da pessoa responsvel.
phone Opcional Telefone do responsvel.
email Opcional Endereo de correio-electrnico do responsvel.
address Opcional Morada do responsvel.

Tabela 5 Elementos de metainformao que descrevem os


contactos de uma organizao.

O jUDDI utilizado pelo S e r v i c e R e g i s t r y para armazenar a informao que descreve os


servios de migrao. A comunicao entre estes dois componentes realizada atravs de
mensagens XML/SOAP. Para facilitar a comunicao foi utilizada uma biblioteca designada
UDDI4J78 que facilita a construo e envio dessas mensagens (Figura 32).

Service
Registry

XML/SOAP

MySQL

Figura 32 Arquitectura detalhada do Service Registry.

O componente S e r v i c e R e g i s t r y disponibiliza todos os mtodos definidos pela norma


UDDI e complementa-os com mtodos especificamente desenvolvidos para manipular
servios de converso. A Figura 33 ilustra os principais mtodos disponibilizados por este
componente.

78 http://uddi4j.sourceforge.net/

86
Figura 33 Mtodos disponibilizados pelo Service Registry.

Os mtodos g e t _ a u t h T o k e n e d i s c a r d _ a u t h T o k e n so herdados da classe


U D D I P r o x y que acompanha a biblioteca U D D 4 J e permitem que um cliente se
autentique e, subsequentemente, termine uma sesso e trabalho num servidor de UDDI. Os
mtodos s a v e _ b u s i n e s s e s a v e _ s e r v i c e oferecem a capacidade de registar novos
produtores e servios de migrao no directrio de servios, respectivamente.

Os restantes mtodos oferecem funcionalidades bsicas de consulta de servios de converso,


como por exemplo: identificar todos os formatos de partida suportados (i.e.,
f i n d a l l _ s o u r c e F o r m a t s ), todos os formatos de destino para os quais existem
conversores registados (i.e., f i n d a l l _ t a r g e t F o r m a t s ), todos os caminhos de migrao
entre dois formatos (i.e., f i n d a l l _ m i g r a t i o n P a t h s ), consultar o custo de invocao de
um dado servio (i.e., g e t C o s t ), recolher toda a metainformao descritiva de um dado
servio (i.e., g e t C o n v e r t e r M e t a d a t a ), determinar o formato de partida e de chegada de
um dado servio ou caminho de migrao (i.e., g e t S o u r c e F o r m a t , g e t T a r g e t F o r m a t ,
getSourceFormatByMigrationPath e getTargetFormatByMigrationPath,
respectivamente) e, ainda, um mtodo que permite obter toda a metainformao armazenada
no S e r v i c e R e g i s t r y (i.e., g e t A l l C o n v e r t i o n S e r v i c e s I n f o ).

87
4.4 Format Identifier
O CRiB incorpora tambm um servio de identificao de formatos. Este servio assegurado
pelo componente F o r m a t I d e n t i f i e r e baseado no D r o i d 79, um software
desenvolvido pelos Arquivos Nacionais do Reino Unido, os responsveis pelo directrio de
formatos PRONOM80.

A interface do F o r m a t I d e n t i f i e r disponibiliza dois mtodos remotos que se distinguem


apenas pelos argumentos que recebem (Figura 34). Um, recebe um
R e p r e s e n t a t i o n O b j e c t , i.e., um conjunto de f i c h e i r o s compostos por s e q u n c i a s
b i n r i a s que definem uma representao digital (e.g. uma pgina Web constituda por um
ficheiro HTML e vrias imagens em formato JPEG); o outro recebe apenas uma sequncia de
bits, facilitando assim a transmisso de representaes constitudas apenas por um ficheiro.

Figura 34 Mtodos disponibilizados pelo Format Identifier.

A designao de formato devolvida pelo mtodo i d e n t i f y F o r m a t segue a seguinte


estrutura:

designao de formato [, version verso do formato]

A parte referente verso do formato opcional, sendo apenas includa quando a verso do
mesmo positivamente identificada. Seguem-se alguns exemplos de designaes de formato
produzidas por este componente:

Tagged Image File Format, version 3

79 Ver seco 3.4.1, na pgina 58.


80 Ver seco 2.4, na pgina 49.

88
JPEG File Interchange Format, version 1.02
Microsoft Word for Windows Document, version 97-2003
Graphics Interchange Format, version 1989a
JPEG 2000

importante referir que estas designaes de formato so utilizadas no preenchimento dos


atributos s o u r c e F o r m a t e t a r g e t F o r m a t dos descritores de servios de migrao
armazenados no S e r v i c e R e g i s t r y 81, garantindo deste modo a interoperabilidade
terminolgica entre os diversos componentes do sistema.

4.5 Migration Broker


Sempre que solicitada uma migrao ao CRiB, cabe ao componente M i g r a t i o n B r o k e r
invocar os servios de converso necessrios para realizar a respectiva migrao. Este
componente tem como responsabilidade compor os servios de converso requeridos e
coordenar todo o processo de forma a torn-lo transparente para o utilizador. Na prtica, o
M i g r a t i o n B r o k e r garante que todo o processo de migrao executado de forma
atmica do ponto de vista dos restantes componentes do sistema, independentemente do
nmero de servios que forem necessrios para a concretizar (Figura 35).

Figura 35 Arquitectura detalhada do Migration Broker.

A interface apresentada pelo M i g r a t i o n B r o k e r encontra-se ilustrada na Figura 36. Este


componente disponibiliza dois mtodos fundamentais: o mtodo c o n v e r t , que transforma
uma representao num novo formato, recorrendo, se necessrio, a uma sequncia de servios

81 Para mais informao sobre o componente Service Registry, consulte seco 4.3 na pgina 83.

89
de migrao (i.e., M i g r a t i o n P a t h ); e, tratando-se este de um componente capaz de realizar
avaliaes quanto ao desempenho de um caminho de migrao, um mtodo designado
g e t E v a l u a t i o n C r i t e r i a que permite ao cliente conhecer os critrios de avaliao
implementados por este componente.

importante referir que todos os componentes do CRiB dotados de capacidades de avaliao


implementam a interface E v a l u a t o r (Figura 36). Esta interface garante aos actores externos
a capacidade de conhecer os critrios de avaliao suportados pelo componente para um dado
formato ou classe de objectos digitais.

Figura 36 Mtodos disponibilizados pelo Migration Broker.

As mensagens trocadas entre uma aplicao-cliente e o M i g r a t i o n B r o k e r encontram-se


representadas na Figura 37.

Figura 37 Mensagens trocadas pelo Migration Broker.

90
Para que um servio de migrao possa ser utilizado pelo M i g r a t i o n B r o k e r e,
consequentemente, pelos clientes do CRiB, este dever respeitar uma interface predefinida.
Esta interface define um mtodo que todos os servios de migrao devero implementar o
mtodo c o n v e r t . Este mtodo recebe como parmetro a representao que se pretende
converter e tem como objectivo devolver uma representao desse objecto num novo
formato. A interface genrica de um servio de converso e alguns exemplos de conversores
encontram-se ilustrados na Figura 38.

Figura 38 Interface comum a todos os servios de converso.

importante referir que um dado servio de migrao poder encontrar-se fisicamente


localizado em qualquer parte do globo. Para que possa ser integrado na rede de servios de
migrao disponibilizada pelo CRiB, este apenas necessita de estar acessvel atravs da Internet
via XML/SOAP e de respeitar a interface definida. Servios que no respeitem estas duas
condies, quer porque se baseiam em protocolos diferentes, quer porque simplesmente
respeitam interfaces incompatveis, podem ser integrados recorrendo a proxies.

Um proxy um componente de software que permite traduzir um protocolo num outro


inicialmente incompatvel. A Figura 35 apresenta um exemplo de um servio de converso que
opera sobre um protocolo diferente do XML/SOAP e que foi integrado no CRiB por meio de
um proxy. Durante o desenvolvimento do CRiB foram testados proxies que permitiam integrar
os servios de converso criados no mbito do projecto T y p e d O b j e c t M o d e l 82 (TOM)
com os restantes servios de migrao integrados no CRiB. O TOM utiliza um protocolo

82 O projecto TOM encontra-se descrito na seco Directrios de formatos na pgina 34.

91
prprio para realizar as suas converses compostas, no entanto, disponibiliza um conjunto de
bibliotecas que permitem a qualquer programador tirar partido dos servios que disponibiliza.

Para alm de efectuar converses compostas, o M i g r a t i o n B r o k e r responsvel por


avaliar a performance de cada caminho de converso. As avaliaes realizadas por este
componente permitem determinar quais os caminhos de migrao que oferecem melhor
qualidade de servio segundo mltiplos critrios, nomeadamente: disponibilidade, estabilidade,
dbito, custo de utilizao, taxa de crescimento em bytes e taxa de crescimento em nmero de
ficheiros (Ferreira et al., 2007). Cada um destes critrios descrito em detalhe nas seces
subsequentes.

4.5.1 Disponibilidade
A d i s p o n i b i l i d a d e 83 definida como a probabilidade de um servio se encontrar acessvel
e operacional no momento em que requisitado (Jiang & Schulzrinne, 2003).

A d i s p o n i b i l i d a d e de um servio de converso calculada dividindo o nmero de vezes


que este foi invocado com sucesso, pelo nmero total de vezes que foi invocado
(independentemente do sucesso da sua invocao) (Jiang & Schulzrinne, 2003; Zeng,
Benatallah, Dumas, Kalagnanam, & Sheng, 2003) Frmula 1.

# successful invocations
availability =
# invocations

Frmula 1 Disponibilidade.


Um servio de converso com baixa d i s p o n i b i l i d a d e um servio que nem sempre est
acessvel no momento em que necessrio. Em processos de migrao que envolvam vrias
centenas de representaes, a indisponibilidade momentnea de um servio de converso
poder atrasar ou at mesmo inviabilizar todo o processo de migrao.

4.5.2 Estabilidade
A e s t a b i l i d a d e 84 definida como a probabilidade de um servio de converso ser capaz de
concluir com sucesso as tarefas a que se prope. Por outras palavras, a estabilidade representa
a capacidade de um servio no falhar durante a sua execuo (i.e., o seu nvel de tolerncia a

83 Do ingls availability.
84 Do Ingls stability. Zeng et al. designam este conceito por Confiabilidade (do ingls Reliability).

92
falhas). Esta, calculada dividindo o nmero de converses bem sucedidas pelo nmero total
de converses requisitadas (Zeng et al., 2003).

# successful conversions
stability =
# conversion requests

Frmula 2 Estabilidade.

Este critrio de avaliao particularmente importante quando se efectua composio de


servios. O primeiro servio da composio pode operar em perfeitas condies, mas um dos
servios intermdios poder falhar recorrentemente. Isto significa que esse caminho de
migrao tem elevada disponibilidade mas uma estabilidade reduzida (Figura 39).

Figura 39 Caminho de migrao com baixa estabilidade.

4.5.3 Dbito
O d b i t o 85 mede a quantidade de trabalho que um servio de converso capaz de realizar
por unidade de tempo (Menasc, 2002) Frmula 3. A carga imposta a um conversor, i.e., o
trabalho a realizar, determinado pelo tamanho em bytes do objecto digital submetido a
converso. Trata-se obviamente de uma simplificao, uma vez que o tempo de converso de
um objecto digital no depende exclusivamente do seu comprimento em bytes. A
complexidade do prprio objecto influencia significativamente o tempo necessrio para a sua
converso. No obstante, a simplificao introduzida constitui um ponto de partida
considerado razovel.

object length
throughput =
migration time

Frmula 3 Dbito de converso

85 Do Ingls throughput.

93
Foi tambm efectuada uma simplificao no que diz respeito medio do tempo de
migrao. A arquitectura proposta pelo CRiB impossibilita a medio individual do tempo de
transmisso e do tempo efectivamente gasto em converso. Esta limitao deve-se ao facto de
este critrio ser avaliado por um agente externo aos conversores utilizados, i.e., o M i g r a t i o n
B r o k e r (Zeng et al., 2003). Devido a esse facto, estes dois elementos temporais so
considerados conjuntamente, ou seja, o tempo de migrao medido a partir do momento em
que a representao enviada para o primeiro conversor, at ao momento em que a nova
representao recebida por este componente (Figura 40).
!
!
t transmisso + t converso + t transmisso + t converso + t transmisso = t migrao
!

!
Servio de Servio de
converso converso
A-B B-C

Representao Representao
(Formato A) (Formato C)

Figura 40 Clculo do tempo de migrao.

4.5.4 Custo de utilizao


O c u s t o d e u t i l i z a o diz respeito ao valor, em unidades econmicas, que uma
organizao ter que despender para tirar partido de um determinado servio de converso
(Zeng et al., 2003). O c u s t o definido por um valor constante a cobrar por cada invocao
de servio.

O c u s t o de uma converso composta calculado atravs do somatrio dos vrios custos


individuais associados a cada servio de converso que compe o caminho de migrao
(Figura 41).
!
!

C1 C2 Ctotal = C1 + C2

Servio de Servio de
converso converso
A-B B-C

Representao Representao
(Formato A) (Formato C)

Figura 41 Clculo do custo de utilizao de uma migrao


composta.

94
A introduo deste critrio de avaliao tem como objectivo estimular o desenvolvimento de
conversores, uma vez que estes podero ser publicados e vendidos atravs da plataforma de
servios de preservao. Apesar do modelo econmico apresentado ser demasiado simplista
para que possa ser posto em prtica de forma efectiva, este poder constituir uma ferramenta
importante no sentido de determinar em que medida o custo pode influenciar decises
tomadas a favor ou contra determinadas alternativas de migrao.

4.5.5 Taxa de crescimento em bytes


Em cenrios de preservao onde se manipulam grandes volumes de informao, o custo de
armazenamento uma varivel de extrema importncia. O custo de um sistema de
armazenamento com algumas dezenas de Terabytes poder facilmente ultrapassar a fasquia de
um milho de euros e este valor no inclui os custos de manuteno, electricidade,
refrigerao, administrao, etc.

A dimenso das representaes digitais influencia directamente as necessidades de


armazenamento de uma organizao e, indirectamente, os custos de preservao. O
M i g r a t i o n B r o k e r faz uma anlise contnua da razo existente entre a dimenso em bytes
das representaes submetidas a migrao e a dimenso das representaes que resultam dessa
actividade.

Para um dado caminho de migrao possvel determinar se as representaes resultantes iro


exigir mais ou menos espao de armazenamento que as representaes originais. Isto permite
planear com maior detalhe uma interveno de preservao e garantir que existe espao de
armazenamento suficiente para acomodar as novas representaes.

A taxa de crescimento em bytes de uma dada representao submetida a converso calculada


pela Frmula 4.

source representation length


outcome _ length _ ratio =
target representation length

Frmula 4 Taxa de crescimento em bytes de representaes


convertidas.

A frmula apresentada valoriza a reduo do tamanho das representaes aps a sua
converso, i.e., representaes finais de menores dimenses produzem valores mais elevados
deste critrio de avaliao. Isto significa que valores superiores a 1 representam efectivamente
uma reduo do tamanho das representaes aps converso.

95
4.5.6 Taxa de crescimento em nmero de ficheiros
Do mesmo modo que a dimenso das representaes influencia o custo de armazenamento e
preservao, o nmero de ficheiros que as constituem influencia directamente a capacidade da
sua gesto. A decomposio de objectos digitais complexos nas suas partes constituintes uma
abordagem de preservao amplamente utilizada (Hunter & Choudhury, 2006), no entanto,
quanto maior for o nmero de ficheiros associados a uma representao, maior ser a
dificuldade ao nvel da gesto do armazenamento, descrio tcnica dos seus constituintes e
gesto dos relacionamentos existentes entre os diversos ficheiros.

O M i g r a t i o n B r o k e r foi dotado de funcionalidades que permitem medir a taxa de


crescimento de uma representao no que diz respeito ao nmero de ficheiros. A Frmula 5
permite calcular essa taxa de crescimento.

source representation number of files


outcome _ number _ files_ ratio =
target representation number of files

Frmula 5 Taxa de crescimento em nmero de ficheiros.


Tal como acontece com a frmula de clculo da taxa de crescimento em bytes, este critrio
valoriza a reduo dos seus valores. O critrio foi invertido de modo a que taxas de
crescimento inferiores a 1 pudessem ser consideradas mais benficas para efeitos de
preservao.

4.6 Object Evaluator


O componente O b j e c t E v a l u a t o r tem como misso determinar o nvel de degradao
infligido a uma representao digital durante um processo de migrao. Este objectivo
alcanado, calculando as diferenas entre a representao submetida a migrao e a
representao que resulta da mesma.

Aps uma migrao, a representao resultante comparada com a representao original


luz de um conjunto preestabelecido, mas extensvel, de critrios de avaliao. Estes critrios,
designados, neste contexto, por propriedades significativas, identificam o subconjunto de
atributos que constituem a representao digital e para os quais existe um compromisso
institucional no sentido da sua preservao. Estes atributos caracterizam a essncia da
representao digital e qualificam-na como uma entidade intelectual inteligvel (ver seco
sobre Autenticidade na pgina 37).

96
O processo de avaliao levado a cabo pelo O b j e c t E v a l u a t o r tem, sobretudo, dois
objectivos:

Documentar a interveno de preservao atravs da produo de relatrios com


informao detalhada sobre as propriedades significativas que no foram devidamente
preservadas durante o processo de migrao (i.e., controlo de qualidade);
Alimentar o E v a l u a t i o n s R e p o s i t o r y para suportar o auxlio tomada de
deciso quanto aos formatos e servios de migrao mais adequados para preservar
uma dada coleco de objectos digitais (i.e., seleco de uma estratgia de migrao).

Os relatrios de qualidade produzidos pelo O b j e c t E v a l u a t o r baseiam-se na entidade


E v e n t o s includa no dicionrio de dados PREMIS (Caplan et al., 2005; Guenther et al.,
2008; PREMIS Working Group, 2005). Esta entidade semntica regista todas as aces
desenvolvidas em torno de um objecto digital e , em grande parte, responsvel por assegurar
a autenticidade dos materiais preservados. Nela so reunidos elementos descritivos como: tipo
de evento (e.g. migrao), data e hora de ocorrncia, descrio detalhada da aco, informao
sobre o sucesso da interveno e informao sobre o agente de software responsvel pela sua
realizao.

O segundo objectivo alcanado, avaliando o desempenho mdio de cada servio de


migrao, particularmente no que diz respeito a perdas de informao. Os resultados dessas
avaliaes so enviados ao utilizador e, simultaneamente, armazenados num repositrio de
dados designado E v a l u a t i o n s R e p o s i t o r y . Isto permite ao componente M i g r a t i o n
A d v i s o r identificar as alternativas de migrao que melhor se adequam s necessidades da
entidade-cliente (ver seco sobre o componente Migration Advisor na pgina 118).

importante referir que o O b j e c t E v a l u a t o r no o responsvel pelo registo dos


resultados no repositrio de avaliaes, mas sim o componente que o invoca. Na arquitectura
apresentada, esse componente o C o r e P r e s e r v a t i o n S e r v i c e s , o servio que
coordena todos os processos de preservao que ocorrem no interior do CRiB.

A arquitectura interna do O b j e c t E v a l u a t o r encontra-se caracterizada em detalhe na


Figura 42. Aps obter duas representaes digitais (i.e., a representao original e uma verso
convertida), o componente comea por extrair os valores das propriedades significativas
includas em ambas as representaes. Para tal, pressupe-se a existncia de um descodificador
para cada formato suportado, i.e., um componente de software que auxilia no processo de
extraco destes valores. Este componente permite transformar as sequncias de bits que

97
constituem uma representao numa estrutura lgica onde os valores das suas propriedades
podem ser facilmente inspeccionados de forma automtica.

Figura 42 Arquitectura detalhada do Object Evaluator.

importante referir que o extractor de valores de propriedades significativas , ele prprio,


um servio que poder ser construdo custa de outros servios acessveis, local ou
remotamente. Isto particularmente importante quando existem formatos que so
dependentes de uma plataforma tecnolgica e apenas podem ser descodificados no contexto
tecnolgico correspondente. Por exemplo, o descodificador mais apto para extrair
propriedades de documentos Word o software Microsoft Word. Uma vez que esta aplicao
no existe em ambientes Linux (i.e., o sistema operativo que suporta a generalidade dos
servios do CRiB), o extractor de propriedades para o formato Word teve de ser desenvolvido
num ambiente Windows e, posteriormente, invocado pelo O b j e c t E v a l u t a t o r .

98
Aps a extraco dos valores das propriedades significativas, estes so guardados numa
estrutura de dados neutra que facilita a sua manipulao. Essa estrutura trata-se, efectivamente,
do objecto conceptual, i.e., aquele que carrega a semntica da representao digital mas que
desprovido de caractersticas tcnicas especficas de um dado formato (ver seco A anatomia
de um objecto digital na pgina 14).

Uma vez obtidos os objectos conceptuais, possvel calcular as diferenas entre duas
instncias e assim determinar o nvel de degradao incorrido durante a migrao. A
comparao de objectos conceptuais assegurada por subcomponentes comparadores
especficos para cada classe de objectos digitais, i.e., C o m p a r a t o r (Figura 43).

O subcomponente responsvel por comparar as propriedades que constituem os objectos


conceptuais implementa uma funo de similaridade para cada tipo de propriedade (Figura 43).
Por exemplo, para determinar o nvel de similaridade entre dois documentos de texto em
termos do seu contedo textual necessrio recorrer a uma funo de similaridade capaz de
comparar cadeias de caracteres. Por outro lado, para determinar a similaridade grfica entre
duas imagens ser necessria uma funo capaz de comparar matrizes de cor.

Os resultados obtidos aps a aplicao das funes de similaridade pertencem ao domnio [0,
1], com o valor 1 a representar o valor mximo de similaridade (i.e., igualdade), e 0 a mxima
distncia entre dois valores possveis (i.e., a desigualdade mxima). O conjunto de valores
produzidos pelas vrias funes de similaridade iro fazer parte do relatrio de controlo de
qualidade (i.e., E v a l u a t i o n R e p o r t ). Este relatrio determina o nvel de similaridade
existente entre duas representaes digitais e identifica objectivamente os critrios analisados e
os nveis de similaridade obtidos para cada um deles.

Figura 43 Arquitectura detalhada do comparador de objectos


conceptuais.

99
As propriedades significativas avaliadas durante o processo de controlo de qualidade
dependem da classe de objectos digitais em anlise. Por exemplo, objectos pertencentes
classe d o c u m e n t o s d e t e x t o so avaliados luz de propriedades como: nmero de
pginas, apresentao grfica do documento, dimenses de pgina, etc. (Tabela 6).

Critrio Descrio
appearance::static_page::pages::size Dimenses da pgina
appearance::static_page::pages::layout Organizao vrios elementos grficos na pgina
appearance::static_page::pages::numbering Nmero de pginas do documento
appearance::static_page::pages::headline Cabealho das pginas
appearance::static_page::pages::footline Rodap das pginas
appearance::static_page::pages::break A pgina quebra junto do mesmo texto
appearance::static_page::pages::margins Tamanho das margens da pgina em milmetros
appearance::static_page::letters::size Tamanho de letra
appearance::static_page::letters::special_characters Apresentao e validade dos caracteres

Tabela 6 Exemplo de uma taxionomia de avaliao de documentos


de texto.

Contudo, objectos pertencentes classe de objectos u d i o so avaliados segundo um


conjunto de critrios completamente distinto, tais como: resoluo, volume mdio, nvel de
rudo, durao, etc. (Tabela 7).

Critrio Descrio
appearance::audio::quality::resolution Largura de banda em bits/amostra
appearance::audio::quality::drop_out Pequenos momentos de silncio no som
appearance::audio::quality::level Volume do som
appearance::audio::quality::sample_rate Frequncia de amostragem
appearance::audio::quality::compression_rate Grau de compresso do ficheiro de som
appearance::audio::funcionality::stereo Se o som mono ou estreo
appearance::audio::funcionality::dolby_surround Se o ficheiro suporta a tecnologia dolby surround
appearance::audio::funcionality::speed_variance Descreve se h variaes na velocidade reproduo do som

Tabela 7 Exemplo de uma taxionomia de avaliao de objectos


udio.

No mbito deste trabalho foram definidas taxionomias de avaliao para as classes


d o c u m e n t o s d e t e x t o e i m a g e n s m a t r i c i a i s . Para efeitos de prova de conceito
apenas foram realizadas experincias em torno da classe i m a g e n s m a t r i c i a i s .

Os mtodos disponibilizados pelo O b j e c t E v a l u a t o r encontram-se caracterizados na


Figura 44. O componente disponibiliza dois mtodos fundamentais, o mtodo c o m p a r e ,
que dadas duas representaes e respectivos formatos capaz de determinar o nvel de

100
similaridade entre ambas as representaes, e o mtodo g e t E v a l u a t i o n C r i t e r i a 86, que
devolve os critrios que o componente capaz de analisar para uma dada classe de objectos.

O mtodo c o m p a r e utiliza a informao sobre os formatos das representaes para que se


possa invocar os respectivos extractores de valores de propriedades.

Figura 44 Mtodos disponibilizados pelo Object Evaluator.

O conjunto de mensagens suportadas por este componente encontra-se ilustrado na Figura 45.
de notar que o relatrio de avaliao (i.e., M i g r a t i o n R e p o r t ) produzido pelo O b j e c t
E v a l u a t o r inclui a propriedade M i g r a t i o n P a t h . No entanto, esta no preenchida pelo
mesmo, uma vez que o nico componente que tem conhecimento do caminho de migrao
previamente executado o M i g r a t i o n B r o k e r . A propriedade existe porque todos os
componentes avaliadores produzem relatrios com a mesma estrutura.

As seces que se seguem descrevem as classes de objectos suportadas pelo CRiB, os critrios
de avaliao que lhes so subjacentes, os extractores de valores de propriedades e as funes
de similaridade associadas.

86 Tratando-se de um servio que realiza avaliaes no contexto da plataforma CRiB, este implementa a interface Evaluator.

101
Figura 45 Mensagens trocadas pelo Object Evaluator.

4.6.1 Classes de objectos


O CRiB oferece suporte para duas classes de objectos distintas: d o c u m e n t o s d e t e x t o e
i m a g e n s m a t r i c i a i s . A Tabela 8 enumera os formatos suportados pelo CRiB para cada
uma destas classes.

Classe de objectos Formatos associados


JPEG File Interchange Format, version 1.00
JPEG File Interchange Format, version 1.01
JPEG File Interchange Format, version 1.02
Tagged Image File Format, version 3
Portable Network Graphics, version 1.0
Portable Network Graphics, version 1.1
Graphics Interchange Format, version 1989a
Imagens matriciais Graphics Interchange Format, version 1987a
Raw JPEG Stream
Windows Bitmap, version 3.0
Exchangeable Image File Format (Compressed), version 2.1
Exchangeable Image File Format (Compressed), version 2.2
Exchangeable Image File Format (Uncompressed), version 2.1
Exchangeable Image File Format (Uncompressed), version 2.2
JPEG 2000
Microsoft Word for Windows Document, version 97-2003
Portable Document Format, version 1.4
Rich Text Format, version 1.0
Documentos de texto Rich Text Format, version 1.4
Rich Text Format, version 1.6
Rich Text Format, version 1.7
OpenDocument Text Format, version 1.0
Tabela 8 Formatos suportados pelo CRiB.

Em termos arquitecturais, o CRiB est preparado para suportar um nmero arbitrrio de


classes e formatos. No entanto, as restries temporais a que um projecto de doutoramento
est sujeito levaram a que apenas fosse possvel integrar um nmero limitado de classes e

102
formatos. As razes que levaram escolha das classes i m a g e n s m a t r i c i a i s e
d o c u m e n t o s d e t e x t o encontram-se resumidas de seguida.

Imagens matriciais
Vrias instituies, especialmente as de cariz cultural, como os arquivos e as bibliotecas,
recorrem frequentemente transferncia de suporte como forma de preservar os seus
materiais analgicos. A preservao destes materiais assegurada, limitando o seu
manuseamento pelo pblico em geral, fornecendo como alternativa uma representao do
mesmo num outro formato ou suporte.

Um dos suportes mais utilizados neste tipo de contextos o microfilme. Porm, a digitalizao
tem vindo a afirmar-se como uma tecnologia com vantagens acrescidas ao nvel da facilidade
de reproduo e disseminao. Neste contexto, os esforos de preservao deixam de estar
centrados unicamente no material analgico, passando tambm a estar focados na preservao
dos seus equivalentes digitais.

O Arquivo Distrital do Porto87, por exemplo, disponibiliza aos seus utentes um servio de
digitalizao a-pedido de todos os itens includos no seu acervo (Ferreira, 2006b; Ferreira &
Ramalho, 2004a, 2004b, 2004c; Ramalho, Ferreira, Ferros, Lima, & Sousa, 2006). As
reprodues digitais requisitadas so descritas e arquivadas, recorrendo a um sistema de
Gesto de Objectos Digitais desenvolvido especificamente com essa finalidade (Ramalho et al.,
2006). Este sistema tambm responsvel por colocar em linha verses de baixa resoluo
dessas reprodues, permitindo ao utente pr-visualizar e, posteriormente, adquirir as mesmas
atravs de um balco electrnico tambm disponvel atravs do portal do Arquivo (Sousa,
Ferros, Ramalho, & Lima, 2007). A preservao dessas reprodues , para o Arquivo Distrital
do Porto, uma actividade crtica no suporte ao seu negcio.

Outro fenmeno relevante o aparecimento de cmaras fotogrficas digitais. Estas foram


colocadas no mercado em 1990 pela Logitech e desde ento a sua adopo no tem parado de
aumentar (Wikipedia contributors, 2007). Gigantes como a Nikon j anunciaram o abandono
progressivo da produo de cmaras fotogrficas analgicas e o alinhamento dos seus planos
de marketing na promoo dos seus produtos digitais (Musgrove, 2006).

Os utilizadores deste tipo de equipamentos, quer sejam amadores ou profissionais, so


responsveis pela produo e armazenamento de uma grande quantidade de imagens em

87 http://www.adporto.pt

103
formatos digitais88. Exemplo disso so os vrios acervos de imagens existentes na Web, como
por exemplo, o Flickr89, o Picasa Web Albums90 ou o Kodak Gallery91, dedicados
fundamentalmente publicao de fotografias por parte de um pblico amador. No obstante,
existe tambm um grande nmero de stios Web dedicados publicao e venda de imagens
de cariz profissional. Exemplos disso so os servios de venda de imagens Shutterstock92,
Dreamstime93, Stockxpert94, 123RF95 e iStockPhoto96.

Para reforar um pouco mais a importncia deste tipo de objectos digitais, uma consulta aos
perfis de preservao publicados pelo R e g i s t r y o f O p e n A c c e s s R e p o s i t o r i e s 97
(ROAR) permite concluir que, logo aps aos documentos de texto, as imagens (em formato
JPEG e TIFF) so as classes de objectos mais prevalecentes nos repositrios institucionais98
actualmente implementados (University of Southampton, 2007).

Houve, portanto, duas razes fundamentais que conduziram escolha desta classe de objectos
para integrao na plataforma CRiB. A primeira, teve que ver com a elevada ubiquidade deste
tipo de material. Uma estratgia de preservao deve preocupar-se em primeiro lugar com os
materiais mais prevalecentes (isto, falta de mtrica mais eficaz na identificao de prioridades
relativamente a que objectos preservar). A segunda razo, teve que ver com a simplicidade do
ponto de vista tcnico inerente ao processamento deste tipo de objectos. Optou-se por encetar
o desenvolvimento da plataforma de servios com uma classe de objectos sobre a qual
houvesse documentao suficiente e ferramentas disponveis capazes de os processar
eficazmente.

Documentos de texto
Uma anlise aos perfis de preservao publicados pelo projecto ROAR permitiu concluir que
os d o c u m e n t o s d e t e x t o so claramente a classe de objectos digitais mais prevalecente

88 Apesar de, na sua grande maioria, as cmaras digitais guardarem fotografias em formato JPEG, muito comum,
especialmente em contextos profissionais, a gravao de imagens em formatos RAW que so diferentes consoante o
fabricante.
89 http://www.flickr.com
90 http://picasaweb.google.com
91 http://www.kodakgallery.com
92 http://www.shutterstock.com
93 http://www.dreamstime.com
94 http://www.stockxpert.com
95 http://www.123rf.com
96 http://www.istockphoto.com
97 http://roar.eprints.org/
98 Em Janeiro de 2008 haviam sido includos nesta estatstica 968 repositrios.

104
nos repositrios digitais actualmente existentes (University of Southampton, 2007). Este tipo
de repositrios responsvel por arquivar e preservar todo o tipo de material que seja produto
intelectual de uma dada organizao (Sarmento, Baptista, & Ramos, 2005). A grande maioria
destes repositrios mantida por organizaes de carcter acadmico, como universidades ou
centros de investigao e neles podemos encontrar documentos diversos como artigos,
monografias, relatrios tcnicos, teses, dissertaes, entre outros (Ferreira et al., 2008).

Retornando ao argumento da prevalncia e ubiquidade, os d o c u m e n t o s d e t e x t o foram


eleitos como a segunda classe de objectos a considerar durante o desenvolvimento do CRiB.
Os documentos de texto acarretam complexidade adicional na medida em que so compostos
por texto, imagens, formatao, disposio grfica, entre outros; tornando-os
consideravelmente mais difceis de preservar.

4.6.2 Taxionomias de avaliao


A criao de taxionomias de avaliao de objectos digitais, i.e., conjuntos de propriedades
significativas que tm como objectivo avaliar a qualidade de uma migrao ou, por outras
palavras, determinar o nvel de degradao incorrido durante uma migrao, no uma tarefa
simples de concretizar (Ferreira & Baptista, 2005). Rauch e Rauber tm vindo a desenvolver
esforos no sentido de reunir conjuntos de critrios de avaliao em torno de vrias classes de
objectos digitais. Este processo compreende a organizao de pequenos eventos, semelhantes
a workshops, onde especialistas de diversas reas analisam conjuntos representativos de objectos
digitais, codificados em diferentes formatos, com o propsito de identificar um conjunto
comum de propriedades com relevncia num contexto de preservao digital (Rauch, 2004;
Rauch, Krottmaier, & Tochtermann, 2007; Rauch, Pavuza et al., 2005; Rauch & Rauber, 2004;
Rauch, Rauber et al., 2005). O A r t s a n d H u m a n i t i e s D a t a S e r v i c e (AHDS) e a
Biblioteca do Congresso tm vindo a publicar relatrios com informao tcnica sobre
diferentes classes de objectos digitais e onde se pode encontrar um nmero assinalvel de
propriedades consideradas relevantes num contexto de avaliao de estratgias de preservao
(Arts and Humanities Data Service, 2006; Library of Congress, 2004b).

As taxionomias de avaliao suportadas pelo O b j e c t E v a l u a t o r foram construdas


tomando como base a bibliografia existente. De todos os critrios identificados foram
seleccionados apenas aqueles que seriam passveis de ser extrados e avaliados
automaticamente por componentes de software. Todos os critrios que careciam de
interveno humana para que pudessem ser avaliados foram excludos durante o
desenvolvimento deste componente.

105
Outras fontes de informao relevantes para a construo destas taxionomias de avaliao
foram: o documento Assessing the Durability of Formats in a Digital Preservation
Environment (Stanescu, 2004) e a Wikipedia99 onde se pode encontrar uma quantidade
assinalvel de informao tcnica sobre formatos e as vrias aplicaes de software que os
suportam.

Imagens matriciais
A taxionomia de avaliao utilizada pelo O b j e c t E v a l u a t o r para determinar o nvel de
degradao incorrido durante a migrao de um objecto pertencente classe i m a g e n s
m a t r i c i a i s encontra-se ilustrada na Figura 46.

1. page count
content completeness
2. pixel correctness

3. width
resolution
4. height

Object appearance
(raster images)
5. model
color
6. depth

context 7. metadata

structure compression 8. method

Figura 46 Taxionomia de avaliao de imagens matriciais.

99 http://www.wikipedia.org

106
As propriedades presentes na taxionomia previamente apresentada encontram-se descritas em
detalhe na Tabela 9.

ID Critrio de avaliao Descrio


Avalia se o nmero de pginas que constituem uma imagem
1 Nmero de pginas
no foi alterado durante a migrao.
Nvel de similaridade existente entre os pxeis que compem
uma dada imagem e os pxeis de uma outra, vulgarmente
2 Conformidade grfica designada por original. No caso de imagens compostas por
mltiplas pginas, a comparao realizada pgina-a-pgina e
um valor de similaridade global calculado.
Critrio que determina se a largura da imagem em pxeis foi
3 Largura
preservada.
Critrio que determina se a altura da imagem em pxeis foi
4 Altura
preservada.
O modelo de cor (color model) trata-se de um modelo
matemtico que descreve a forma como as cores so
5 Modelo de cor codificadas num dado formato de imagem (e.g. RGB, sRGB,
HSL, HSV, YUV, CMYK). Este critrio procura determinar se
o modelo de cor foi preservado durante a migrao.
A profundidade de bits (color depth) determina o nmero de bits
utilizado para representar a cor de um pixel (Wikipedia
6 Profundidade de cor contributors, 2006a). Este critrio determina se a profundidade
de bits de uma imagem foi modificada pelo processo de
migrao.
Vrios formatos de imagem suportam metainformao
7 Metainformao embebida embebida. Este critrio avalia se numa migrao a
metainformao de uma imagem foi preservada.
Certos formatos de imagem suportam compresso. Esta pode
introduzir perdas de informao (lossy compression) ou
preservarem todos os pormenores da imagem original (lossless
compression). Alguns exemplos de compresso sem perdas so:
Run-length encoding e LZW. Exemplos de algoritmos de
8 Mtodo de compresso
compresso que introduzem perdas so: reduo de cores;
Chroma subsampling e Fractal compression (Wikipedia
contributors, 2006b). Este critrio procura determinar se o
mtodo de compresso se manteve inalterado durante o
processo de migrao.

Tabela 9 Propriedades associadas a imagens matriciais.

Documentos de texto
A Figura 47 apresenta a taxionomia de avaliao utilizada pelo O b j e c t E v a l u a t o r para
determinar o nvel de degradao incorrido durante a converso de d o c u m e n t o s d e
texto.

107
1. page count

2. image count

3. character count
content completeness
4. Word count

5. line count

6. character correctness

Object context 7. metadata 8. left


(text documents)

9. bottom
margins
10. top

11. right
12. width

appearance page 13. height

14. layout

15. background color


style
16. font faces

Figura 47 Taxionomia de avaliao de documentos de texto.

As propriedades apresentadas na taxionomia previamente apresentada encontram-se descritas


em detalhe na Tabela 10.

ID Critrio de avaliao Descrio


Este critrio avalia se o nmero de pginas do documento foi
1 Nmero de pginas
preservado.
Critrio que determina se o nmero de imagens contidas numa
2 Nmero de imagens
imagem foi preservado durante a migrao.
Este critrio avalia se o nmero de caracteres que constitui o
3 Nmero de caracteres
documento foi preservado.
Este critrio avalia se o nmero de palavras que constitui o
4 Nmero de palavras
documento foi preservado.
Este critrio avalia se o nmero de linhas e pargrafos que constitui o
5 Nmero de linhas
documento foi preservado.
Determina o nvel de conformidade entre os caracteres existentes no
Conformidade dos documento convertido em relao aos caracteres do documento
6
caracteres original. Este critrio responsvel pode determinar se ocorreu
degradao do texto que constitui o documento.
Certos documentos de texto carregam consigo metainformao. Este
7 Metainformao embebida critrio procura determinar se essa metainformao foi devidamente
preservada durante uma migrao de formatos.
Determina se as dimenses da margem esquerda do documento
foram preservadas. Este critrio calculado pgina-a-pgina e um
8 Margem esquerda
valor de similaridade global obtido atravs da mdia dos valores
parciais.
Determina se as dimenses da margem inferior do documento foram
9 Margem inferior preservadas. Este critrio calculado pgina-a-pgina e um valor de
similaridade global obtido atravs da mdia dos valores parciais.

108
Determina se as dimenses da margem superior do documento
foram preservadas. Este critrio calculado pgina-a-pgina e um
10 Margem superior
valor de similaridade global obtido atravs da mdia dos valores
parciais.
Determina se as dimenses da margem direita do documento foram
11 Margem direita preservadas. Este critrio calculado pgina-a-pgina e um valor de
similaridade global obtido atravs da mdia dos valores parciais.
Determina se a largura do documento em milmetros foi preservada.
12 Largura de pgina Este critrio calculado pgina-a-pgina e um valor de similaridade
global obtido calculando a mdia dos valores parciais.
Determina se a altura do documento em milmetros foi preservada.
13 Altura de pgina Este critrio calculado pgina-a-pgina e um valor de similaridade
global obtido calculando a mdia dos valores parciais.
Determina se a disposio grfica dos elementos em cada pgina foi
14 Conformidade grfica
devidamente preservada durante a converso.
15 Cor de fundo Determina se a cor de fundo do documento foi preservada.
Verifica se a coleco de tipos de letra utilizada no documento
16 Tipos de letra
convertido igual coleco usada no documento original.

Tabela 10 Propriedades associadas a documentos de texto.

4.6.3 Extractores de valores de propriedades


O O b j e c t E v a l u a t o r acompanhado de um conjunto de subcomponentes capazes de
extrair os valores de propriedades significativas de objectos digitais. Estes subcomponentes
podem facilmente ser estendidos para suportar novas propriedades e/ou formatos.

Cada um dos valores das propriedades anteriormente descritas extrado de uma


representao digital, recorrendo a um subcomponente deste tipo. Estes designam-se
genericamente por P r o p e r t y E x t r a c t o r s .

Os P r o p e r t y E x t r a c t o r s fazem uso de bibliotecas e ferramentas externas que permitem


descodificar os formatos suportados e obter os valores das propriedades que os constituem.
Para mais informaes sobre os extractores de valores de propriedades implementados pelo
CRiB consulte-se o Apndice 8.1 na pgina 197.

4.6.4 Funes de similaridade


Os valores associados a uma dada propriedade significativa so caracterizados por um tipo de
dados e por uma interpretao do que significa preservar essa propriedade. Para determinar se
uma propriedade se manteve inalterada ao longo do tempo necessrio comparar os valores
extrados da representao original com os valores da representao convertida. Para comparar
estes valores recorre-se a f u n e s d e s i m i l a r i d a d e .

Cada propriedade significativa deve ser comparada atravs de uma funo de similaridade
especfica. Por exemplo, para determinar se o comprimento em bytes de uma representao se

109
manteve inalterado durante um processo de migrao no suficiente verificar se o seu
comprimento igual ao comprimento da representao convertida. fundamental utilizar
uma mtrica que respeite as relaes de proporcionalidade entre ambos os valores e que, ao
mesmo tempo, tenha em considerao a dimenso das suas grandezas. Uma representao que
tenha passado de 100 Kilobytes para 150 Kilobytes foi alvo de um aumento de 50%. No
entanto, uma representao que tenha crescido de 100 Megabytes para 120 Megabytes sofreu
apenas um aumento de 20%. No obstante, no primeiro caso a diferena absoluta foi de 50
Kilobytes, enquanto que no segundo foi de 20 Megabytes, um valor cerca de 410 vezes
superior ao do primeiro exemplo.

Todas as funes de similaridade utilizadas durante o desenvolvimento do CRiB encontram-se


descritas em detalhe no Apndice 8.3 na pgina 203.

4.7 Format Evaluator


O componente F o r m a t E v a l u a t o r tem como misso fornecer informao tcnica sobre
os formatos digitais suportados pela plataforma CRiB. Esta informao permite ao
componente M i g r a t i o n A d v i s o r determinar quais os formatos que apresentam o
conjunto de caractersticas mais favorvel para preservar uma dada classe de objectos digitais.

Por exemplo, considere-se uma representao codificada num formato que requer o
pagamento royalties aquando da sua produo e/ou utilizao. Agora, imagine-se um formato
para o qual esta representao poderia ser convertida, livre deste tipo de encargos. A realizao
dessa migrao traria benefcios significativos no que diz respeito aos custos de preservao
desta representao. Formatos que requerem o pagamento de royalties so geralmente maus
candidatos a formatos de preservao devido aos custos inerentes sua utilizao. Estes custos
podero tornar-se incomportveis a longo-prazo.

Se por outro lado se equacionar uma migrao de um formato no-comprimido para um


formato comprimido, sendo que o novo formato baseado em algoritmos de compresso
com perdas (e.g. JPEG), ento poder-se-ia assumir que se estaria a diminuir a capacidade de
preservar adequadamente a respectiva representao. O uso de algoritmos de compresso com
perdas so contra-indicados em contextos de preservao, pois degradam irremediavelmente
os objectos digitais e torna-os mais vulnerveis a corrupo involuntria (i.e., a modificao de
um nico bit implica geralmente danificao da totalidade do objecto). A assumpo de que a
realizao desta migrao iria diminuir as capacidades de preservao do objecto digital pode
ser efectuada sem que haja necessidade de consumar a respectiva converso. As caractersticas
inerentes aos formatos envolvidos na migrao so suficientes para se aferir se a realizao da
110
respectiva converso iria trazer benefcios ou prejuzos no que toca capacidade de preservar
objectos digitais a longo-prazo.

Figura 48 Arquitectura do Format Evaluator.

O componente F o r m a t E v a l u a t o r suportado por uma base de dados designada


F o r m a t K n o w l e d g e B a s e ( Figura 48) . Esta base de dados baseada em XML e pode
ser livremente consultada no stio Web do projecto100.

De futuro, outras fontes de informao podero ser integradas, permitindo ao F o r m a t


E v a l u a t o r obter informao continuamente actualizada sobre o estado de cada formato
digital. Por exemplo, o servio T r e n d s da Google (Google, 2006) permite determinar a
popularidade de um termo de pesquisa ao longo do tempo. Recorrendo a este servio
possvel calcular a popularidade instantnea de um dado formato e qual a sua tendncia ao
longo do tempo. Formatos com uma tendncia negativa de popularidade so menos desejveis
num contexto de preservao, pois teme-se que num futuro prximo haja necessidade de
migrar os objectos codificados nesse formato para um outro mais reconhecido pela sua
comunidade de interesse.

Outro servio externo que poder vir a tornar-se compatvel com o F o r m a t E v a l u a t o r


o P R O N O M T e c h n i c a l R e g i s t r y (ver Directrios de formatos na pgina 34). Este
servio rene um conjunto alargado de informao tcnica sobre formatos digitais. No
entanto, para poder ser utilizado pelo F o r m a t E v a l u a t o r fundamental que essa
informao possa ser consultada atravs de uma interface remota, por exemplo, via
XML/SOAP, algo que no acontece actualmente.

100 http://crib.dsi.uminho.pt

111
Figura 49 Diagrama de classes associadas ao Format Evaluator.

A Figura 49 apresenta o diagrama de classes associadas ao F o r m a t E v a l u a t o r , bem como


todas as mensagens trocadas por este componente. Tal como acontecia com os restantes
componentes avaliadores, existe um mtodo, designado g e t E v a l u a t i o n C r i t e r i a , que
permite ao cliente conhecer os vrios critrios de avaliao suportados pelo servio.

O componente disponibiliza ainda um mtodo designado c o m p a r e que realiza


efectivamente o trabalho de avaliao de formatos. Ao contrrio do mtodo com o mesmo
nome includo no O b j e c t E v a l u a t o r , este apenas recebe como parmetro as designaes
dos dois formatos que se pretendem comparar. O resultado uma lista de caractersticas
tcnicas com o nvel de benefcio que se obteria se se realizasse a respectiva converso entre os
dois formatos.

O benefcio determinado, aplicando funes de clculo de benefcio aos valores


apresentados pelas caractersticas de cada formato. Todas as caractersticas tcnicas suportadas
pelo F o r m a t E v a l u a t o r encontram-se descritas na Tabela 11.

Caracterstica tcnica Descrio


Se o formato amplamente aceite ou simplesmente um formato de nicho. A
quota de mercado tambm conhecida como grau de adopo. A adopo
Quota de mercado refere-se ao grau de utilizao do formato por parte dos criadores primrios,
disseminadores e/ou utilizadores dos recursos de informao. Um elevado nvel
de adopo considerado favorvel para fins de preservao.
O nvel de suporte tcnico dado pelo criador oficial do formato. Um elevado
Nvel de suporte tcnico
nvel de suporte prefervel num contexto de preservao.
Se o formato foi publicado por uma organizao oficial de normalizao.
uma norma
Formatos normalizados so preferveis aos no normalizados.
Se a especificao do formato pode ser inspeccionada/verificada de forma
Especificao aberta
independente. O uso de formatos abertos fortemente recomendado em

112
contextos de preservao.
Se o formato suporta qualquer tipo de compresso. Formatos no comprimidos
Suporta compresso
so geralmente preferidos pela comunidade dedicada preservao digital.
Se o formato suporta exclusivamente um tipo de compresso que provoca
Apenas suporta compresso
perda de informao ou deteriorao do objecto original. Os esquemas de
com perdas de informao
compresso com perda so grandemente desaconselhados.
Se o formato oferece funcionalidades de transparncia. Este critrio especfico
de determinado tipo de formatos (p. ex. imagens de mapa de bits). Se o formato
Suporta transparncia
de origem contm funcionalidades de transparncia, o formato de destino deve
ter tambm suporte para essa propriedade.
Se o formato contem metainformao embebida. O formato de destino deve
Metainformao embebida ter capacidade de incluir/acomodar a metainformao embebida do formato de
partida.
Se a utilizao ou produo do formato requer o pagamento de royalties ou taxas
Royalties (taxas de utilizao)
de utilizao. Existe preferncia por formatos livres de royalties.
Se existem aplicaes cujo cdigo pode ser inspeccionado/verificado de forma
Cdigo-aberto independente. A existncia de aplicaes de cdigo aberto amplamente
recomendada.
Se as revises aos formatos incluem suporte para as verses anteriores. A
Retro-compatvel
retrocompatibilidade uma caracterstica desejvel.
Se as especificaes do formato esto bem documentadas. O sistema favorece a
Nvel de documentao
existncia de formatos bem documentados.
Se existem formatos concorrentes ou similares. A existncia de formatos
Existem formatos
concorrentes torna um formato mais atractivo para preservao, uma vez que a
concorrentes
informao poder ser mais facilmente convertida.
Se possvel a utilizao de Gesto de Direitos Digitais (DRM), encriptao ou
Implementa DRM assinaturas digitais. Desaconselha-se a existncia de qualquer tipo de
funcionalidade que possa constituir obstculo no acesso informao.
Qual a frequncia de reviso de um formato desde a sua publicao inicial. Este
critrio definido de acordo com a seguinte frmula: nmero de revises /
Frequncia de actualizao (ano actual ano de disponibilizao). Os formatos estveis so preferenciais.
Se a frequncia de revises muito grande, o arquivo poder ter dificuldade em
acompanhar o ritmo das mesmas.
Se o formato permite a incluso de extenses, tais como seces executveis ou
Permite extenses marginais caractersticas marginalmente suportadas. Desaconselha-se a utilizao de
formatos que suportam tais funcionalidades.
Quantos anos passaram desde que o formato foi disponibilizado oficialmente.
Idade Os formatos de longa durao tm geralmente preferncia sobre formatos
novos e pouco estabelecidos.
Complexidade inerente codificao: legibilidade por parte de um ser humano
Interpretao/descodificao
recorrendo a um editor do texto simples. Tm preferncia os formatos que
transparente
podem ser facilmente inspeccionados e/ou interpretados.
Se existem vrias entidades que produzem leitores/visualizadores. Para
Vrios produtores de
finalidades de preservao no se deve apostar em leitores produzidos somente
aplicaes de leitura
por uma nica entidade.
Se o formato pode ser lido/interpretado por diversas aplicaes informticas.
Vrias aplicaes de leitura Para finalidades da preservao no se deve apostar em formatos que apenas
podem ser lidos/visualizados por uma aplicao especfica.
Se o cdigo fonte da aplicao de leitura pode ser inspeccionada/verificada de
Aplicaes de leitura em
forma independente. A existncia de leitores/visualizadores em cdigo aberto
cdigo-aberto
uma caracterstica altamente desejvel.
Se a aplicao de leitura/visualizao pode ser executada ou tem verses para
Existem
vrias outras plataformas (por exemplo, sistemas operativos ou hardware). A
leitores/visualizadores para
existncia de aplicaes executveis em plataformas concorrentes uma
vrias plataformas
caracterstica altamente desejvel num contexto de preservao.

Tabela 11 Caractersticas tcnicas avaliadas pelo Format Evaluator.

113
Considere-se, ainda, o seguinte exemplo. Uma instituio pretende preservar uma coleco de
imagens codificadas em formato JPEG 1.02 que resultaram de um recente projecto de
digitalizao. A instituio deseja saber qual o formato mais adequado para garantir o acesso
continuado a esses objectos. Ao mesmo tempo, pretende que o formato escolhido minimize o
nmero de intervenes de preservao necessrias no futuro. Por outras palavras, a
instituio pretende conhecer o formato de preservao mais adequado para suster as
representaes que perfazem a sua coleco. O componente F o r m a t E v a l u a t o r pode ser
consultado para obter esta informao.

Comparison results

Criteria JPEG TIFF JP2 Comparison Function JPEG>TIFF JPEG>JP2


Market share Very high high low Ratio 0.75 0.25
Support level high high high Ratio 1.0 1.0
Is standard yes no yes Gain 0.0 1.0
Open specification yes yes yes Gain 1.0 1.0
Compression support yes yes yes Not(TargetBoolValue) 0.0 0.0
Lossy compression only yes no no Not(TargetBoolValue) 1.0 1.0
Transparency Support no yes yes Implication 1.0 1.0
Format Knowledge Base

Embedded metadata yes yes yes Implication 1.0 1.0


Royalty free yes yes yes Gain 1.0 1.0
Open source yes yes yes Gain 1.0 1.0
Backward compatible yes yes no Gain 1.0 0.0
Documentation level high high high Ratio 1.0 1.0
Competing formats yes yes yes Gain 1.0 1.0
DRM support no no yes Not(TargetBoolValue) 1.0 0.0
Update frequency 3/12 6/26 1/6 1/Ratio 13/12 3/2
Custom extensions no yes yes Not(TargetBoolValue) 0.0 0.0
Life time 12 26 6 Ratio 26/12 6/12
Transparent decoding high medium medium Ratio 2/3 2/3
Multiple reader producers yes yes yes Gain 1.0 1.0
Multiple readers yes yes yes Gain 1.0 1.0
Open source reader yes yes yes Gain 1.0 1.0
Multiplatform reader yes yes yes Gain 1.0 1.0

User assigned weight = 1/22


Label Value
Evaluation results (!) = 0.893 0.768
Yes 1.00
No 0.00

Unexisting 0.00
Low 0.25
Medium 0.50
High 0.75
Very High 1.00

Figura 50 Clculo do benefcio de migrao.

O componente compara sempre dois formatos, o formato de partida e um potencial formato


de destino e determina o benefcio em termos de preservao que se obteria se se realizasse
essa converso. A Figura 50 ilustra como esse clculo realizado. Nela, pode encontrar-se uma

114
anlise do benefcio que se obteria ao converter as digitalizaes do formato JPEG 1.02 para
TIFF 6 e JPEG 2000, respectivamente. A figura apresenta, ainda, as caractersticas
apresentadas por cada um destes formatos, obtidas a partir da F o r m a t K n o w l e d g e
B a s e , as funes de clculo de benefcio utilizadas e o resultado final dessa avaliao.
importante referir que no exemplo apresentado foi atribudo o mesmo nvel de importncia a
todas as caractersticas avaliadas.

Observando a figura possvel concluir que o formato TIFF 6 foi considerado mais benfico
do que o JPEG 2000 para preservar a coleco de objectos originalmente em formato JPEG
1.02. Isto deve-se, sobretudo, ao facto de o formato TIFF se apresentar como um formato
mais prevalecente e maduro que o JPEG 2000, ou seja, apresentou maiores nveis de q u o t a
d e m e r c a d o 101 e uma i d a d e 102 substancialmente superior.

O F o r m a t E v a l u a t o r recorre a quatro funes de clculo de benefcio para comparar as


caractersticas tcnicas de dois formatos distintos: g a n h o d e p r e s e r v a o 103,
i m p l i c a o 104, n e g a o 105 e r a z o 106. Cada uma destas funes encontra-se descrita ao
longo das seces que se seguem.

4.7.1 Ganho de preservao


A funo g a n h o d e p r e s e r v a o , ou g a i n , procura quantificar o benefcio em termos
de capacidade de preservao que se obtm ao converter uma representao para um novo
formato. O g a n h o d e p r e s e r v a o calculado de acordo com a Tabela 12.

Criterionsource Criteriontarget Gain


0 0 0.5
0 1 1
1 0 0
1 1 1

Tabela 12 Clculo da funo Gain.

Esta funo valoriza a adopo de formatos que introduzam caractersticas favorveis


preservao. Por exemplo, se um formato for dotado de uma especificao aberta (i.e., O p e n
S p e c i f i c a t i o n source= 1), algo considerado positivo num contexto de preservao, mas, no

101 Market share.


102 Life time.
103 Gain.
104 Implication.
105 Not.
106 Ratio.

115
entanto, o formato de destino no possuir esta caracterstica (i.e., O p e n
S p e c i f i c a t i o n target= 0), ento o resultado produzido por esta funo ser um valor
pejorativo de 0. Se, por outro lado, ambos os formatos possurem essa caracterstica, uma
potencial converso entre estes no iria piorar a sua aptido para preservar objectos digitais, ou
seja, o ganho de preservao seria de 1. Todavia, por contraposio com o exemplo anterior,
se um formato no possuir uma dada caracterstica favorvel preservao e o formato de
destino tambm no a possuir, ento o valor de g a n h o d e p r e s e r v a o ser de 0.5,
reforando a ideia de que apesar de no se estar a perder uma caracterstica tcnica favorvel,
se esta tivesse sido introduzida pelo novo formato estar-se-ia a beneficiar mais em termos de
preservao do objecto digital.

4.7.2 Implicao
A funo i m p l i c a o , ou i m p l i c a t i o n , bastante semelhante anterior. No entanto,
apenas desvaloriza converses onde uma dada caracterstica existente no formato de partida
no suportada no formato de destino. A tabela de verdade associada a esta funo encontra-
se definida na Tabela 13.

Criterionsource Criteriontarget Implication


0 0 1
0 1 1
1 0 0
1 1 1

Tabela 13 Clculo da funo Implication.

Exemplos de propriedades avaliadas atravs desta funo so: s u p o r t e p a r a


t r a n s p a r n c i a ou m e t a i n f o r m a o e m b e b i d a . Neste contexto, o facto de um dado
formato de destino no suportar uma dada caracterstica no diminui nem aumenta a sua
aptido para preservar objectos digitais. O novo formato apenas seria desfavorvel se o
formato de partida fosse dotado dessa caracterstica. Nesse caso, haveria propriedades da
representao original que no seriam suportadas pelo formato de preservao. Todos os
restantes casos no so considerados prejudiciais.

4.7.3 Negao
A n e g a o , ou n o t , uma funo que apenas tem em considerao as caractersticas do
formato de destino, i.e., indiferente s propriedades apresentadas pelo formato de partida. O
facto de um formato de destino possuir ou no determinada propriedade suficiente para tirar

116
ilaes quanto ao benefcio introduzido pela sua utilizao. A tabela de verdade associada a
esta funo encontra-se definida na Tabela 14.

Criterionsource Criteriontarget Not


0 0 1
0 1 0
1 0 1
1 1 0

Tabela 14 Clculo da funo Not.

Se um formato de destino, por exemplo, suportar exclusivamente compresso com perdas,


implementar DRM ou permitir extenses no normalizadas, no necessrio analisar as
caractersticas do formato de partida para concluir que o formato de destino possui
caractersticas que so consideradas desfavorveis para reteno a longo-prazo.

4.7.4 Razo
A funo r a z o , ou r a t i o , distingue-se das anteriores na medida em que no baseada
numa tabela de verdade. Na realidade, esta funo calcula a razo existente entre o valor de
uma caracterstica existente no formato de partida e o mesmo valor no formato de destino
correspondente.

Criterion target
Ratio(Criterion source ,Criterion target ) =
Criterion source

Frmula 6 Ratio.

A ttulo de exemplo, partindo do pressuposto que um formato com um elevado nvel de
prevalncia preferido face a um formato de nicho pouco utilizado, a funo r a t i o permite
determinar o benefcio obtido ao converter uma representao de um destes formatos para o
outro.

O exemplo apresentado na Frmula 7 demonstra o benefcio obtido ao converter uma


representao em formato JPEG 2000 para TIFF 6 e vice-versa.

117
MarketShareJPEG 2000 = low = 0.25
MarketShareTIFF 6 = high = 0.75

0.75
Ratio(MarketShareJPEG 2000 , MarketShareTIFF 6 ) = 3.0
0.25
0.25
Ratio(MarketShareTIFF 6 , MarketShareJPEG 2000 ) = 0.33
0.75

Frmula 7 Exemplo de aplicao da funo Ratio.



Nota: os valores utilizados neste exemplo so meramente ilustrativos e foram obtidos da tabela
apresentada na Figura 50.

4.8 Migration Advisor


O M i g r a t i o n A d v i s o r um servio capaz de processar as avaliaes produzidas pelos
componentes anteriormente descritos e, a partir destas, sugerir alternativas de migrao
adequadas resoluo de um problema especfico de preservao. Uma entidade-cliente pode
manifestar os seus requisitos de preservao atribuindo pesos ou importncias aos critrios de
avaliao suportados pelos componentes avaliadores. Os critrios pesados so comunicados
plataforma no momento em que a recomendao requisitada ao sistema.

Sempre que, no contexto do CRiB, efectuada uma converso, so realizadas trs avaliaes
distintas por parte dos componentes M i g r a t i o n B r o k e r , O b j e c t E v a l u a t o r e
F o r m a t E v a l u a t o r . Cada um destes componentes responsvel por aferir o desempenho,
susceptibilidade a perdas de informao e aptido tcnica para a preservao dos servios de
migrao utilizados. O M i g r a t i o n B r o k e r , por exemplo, foca-se na avaliao do processo
de migrao. Durante a sua avaliao, considera critrios como o dbito do servio de
migrao, a sua disponibilidade, estabilidade, taxa de crescimento em bytes das representaes
submetidas a converso, entre outros (ver seco 4.5).

Por sua vez, o O b j e c t E v a l u a t o r mede o nvel de degradao infligido s representaes


durante o processo de migrao. Foca-se, sobretudo, nos objectos e nas suas propriedades
intrnsecas e no apenas no processo de migrao. Este componente verifica se determinadas
propriedades consideradas significativas (e.g. nmero de pginas, largura e altura de pgina,
tipos de letra, etc.) se mantiveram intactas durante o processo de converso (ver seco 4.6).

O F o r m a t E v a l u a t o r , tal como o nome indica, faz uma anlise dos formatos envolvidos
na converso, comparando as suas caractersticas tcnicas e calculando o benefcio que se

118
obteria em termos de capacidade de preservao se se realizasse uma dada converso entre
dois formatos. Exemplos de caractersticas tcnicas consideradas por este componente so a
quota de mercado de um dado formato, o seu nvel de suporte e abertura, existncia de
software multiplataforma, etc. (ver seco 4.7).

O conjunto integral de critrios suportados pela plataforma designa-se por t a x i o n o m i a


g e r a l d e a v a l i a o ( ver apndice 8.2 na pgina 202) . Esta taxionomia composta por
critrios relacionados com o desempenho do processo de migrao (M i g r a t i o n B r o k e r ),
propriedades significativas dos objectos digitais (O b j e c t E v a l u a t o r ) e caractersticas
tcnicas dos formatos envolvidos (F o m a t E v a l u a t o r ). O M i g r a t i o n A d v i s o r
combina os relatrios de avaliao produzidos por cada um destes componentes com os pesos
atribudos pela entidade-cliente e ordena todas as alternativas de migrao de acordo com a sua
capacidade de satisfazer as preferncias manifestadas. A Figura 52 apresenta a arquitectura
geral do M i g r a t i o n A d v i s o r .

A Figura 51 apresenta o diagrama de sequncia que descreve todo o processo de


recomendao. Este processo conduzido da seguinte forma: o cliente comea por informar o
sistema sobre qual o formato que pretende preservar e o M i g r a t i o n A d v i s o r responde
com a t a x i o n o m i a g e r a l d e a v a l i a o associada ao formato respectivo (mtodo
g e t E v a l u a t i o n C r i t e r i a ). Uma vez na posse da taxionomia de avaliao, a entidade-
cliente deve atribuir pesos a cada um dos critrios que a constituem, manifestando desta forma
as suas preferncias e requisitos de preservao. Nesta fase, o cliente poder especificar, por
exemplo, que considera o dbito um factor importante a ter em conta, pois gostaria que a
migrao da sua coleco de objectos fosse realizada da forma mais expedita possvel. Em
contrapartida, pode definir que o custo de converso um factor pouco relevante, pois deseja
obter o melhor nvel de performance e qualidade possvel independentemente dos custos
envolvidos. Adicionalmente, o utilizador poder estipular que os objectos submetidos a
migrao no devero sofrer qualquer tipo de degradao introduzida pelo processo de
migrao.

119
CRiB Core
Preservation Evaluations
Migration Advisor Repository
Client Services

getEvaluationCriteria
(String formatName) getEvaluationCriteria
(String formatName)

criteria
criteria (WeightedCriterion[])
(WeightedCriterion[])

weightCriteria()

getRecommendation
(String formatName, getRecommendation
WeightedCriterion[] (String formatName,
criteria) WeightedCriterion[] getMigrationPaths
criteria) (String formatName)

migrationPaths
(MigrationPath[])

average
(MigrationPath migrationPath,
String criterionName)

value
(double)

rankAlternatives()

recommendation
(RankingItem[])
recommendation
(RankingItem[])

Figura 51 - Diagrama de sequncia do processo de recomendao.

Aps processar as preferncias manifestadas pelo cliente, o sistema capaz de determinar qual
a alternativa de migrao mais adequada ao seu contexto especfico de preservao. Para tal, o
M i g r a t i o n A d v i s o r determina, para cada critrio, o comportamento esperado que cada
um dos vrios caminhos de migrao poder oferecer. Este clculo efectuado consultando a
informao armazenada no E v a l u a t i o n s R e p o s i t o r y , uma base de dados que acumula
todos os relatrios de avaliao produzidos pelos vrios componentes avaliadores ao longo do
tempo. Para um dado critrio, o comportamento esperado de um caminho de migrao
determinado, analisando a conduta e desempenho de um subconjunto de todas as migraes
passadas.

120
Client

Weighted Recommendation
Criteria

Migration
Advisor

Migration
Reports

Migration Migration Evaluations Migration Format


Broker Report Report Evaluator
Repository

Migration
Report

Object
Evaluator

Figura 52 Arquitectura do Migration Advisor.

Para alm da lista ordenada de caminhos de migrao, o M i g r a t i o n A d v i s o r informa o


cliente sobre a pontuao atribuda a cada um dos caminhos de migrao (i.e., score). Isto
garante ao cliente um nvel superior de controlo e segurana no momento da deciso sobre
que caminho de migrao tomar.

A Figura 53 apresenta o diagrama de classes e mensagens associadas ao componente


M i g r a t i o n A d v i s o r . O mtodo g e t E v a l u a t i o n C r i t e r i a permite ao cliente conhecer
a taxionomia geral de avaliao. O cliente dever pesar cada um dos critrios includos na
taxionomia, definindo o valor do atributo w e i g h t , e devolv-la ao M i g r a t i o n A d v i s o r ,
invocando o mtodo g e t R e c o m m e n d a t i o n . Como resposta, o utilizador ir receber uma
lista de caminhos de migrao, ordenados pelo seu grau de adequabilidade aos requisitos
manifestados.

121
Figura 53 Diagrama de classes e mensagens trocadas pelo
Migration Advisor.

4.8.1 Algoritmo de recomendao


O algoritmo de recomendao que suporta o M i g r a t i o n A d v i s o r baseado no mtodo
de Anlise de Utilidade descrito na seco 3.4.5, pgina 62. Este algoritmo recebe como
parmetros duas estruturas necessrias ao clculo da recomendao: a t a x i o n o m i a g e r a l
d e a v a l i a o , previamente pesada pelo utilizador, e o conjunto de todos os relatrios de
migrao associados a cada um dos caminhos de migrao conhecidos pelo CRiB, i.e.,
caminhos para os quais existem relatrios de migrao registados no E v a l u a t i o n s
R e p o s i t o r y (Figura 54).

Figura 54 Arquitectura geral do motor de recomendao.

O processo de recomendao passa essencialmente por quatro fases distintas: 1) normalizao


dos pesos da t a x i o n o m i a g e r a l d e a v a l i a o , 2) clculo do desempenho mdio de
cada caminho de migrao, 3) normalizao dos desempenhos mdios e 4) agregao de
resultados e atribuio de pontuao final a cada alternativa de migrao (Figura 55). Cada uma
destas fases encontra-se descrita nas seces que se seguem.

122
Figura 55 Clculo de pontuao de um caminho de migrao.

Normalizao de pesos
O algoritmo de recomendao exige que o somatrio dos pesos atribudos a cada nvel da
taxionomia de avaliao seja igual a 1. No entanto, nada na estrutura de dados fornecida ao
cliente impe esse invariante. O estabelecimento dessa restrio na estrutura de dados
colocaria dificuldades ao nvel da atribuio dos pesos, sendo necessrio a construo de uma
interface grfica de auxlio ao utilizador que verificasse esse invariante e o ajudasse na definio
dos mesmos.

Na abordagem seguida, o utilizador livre de atribuir os pesos que achar mais convenientes,
no estando limitado a uma escala predefinida. Por exemplo, para cada critrio o utilizador
poder atribuir pesos de acordo com uma escala Likert de 1 a 5 (Figura 56).

O processo de normalizao responsabiliza-se por reajustar os pesos atribudos pelo utilizador,


preservando a sua importncia relativa e garantindo o invariante imposto pelo algoritmo de
recomendao.

3 3/3

Normalizao de pesos
2 5 2/7 5/7

2 1 5 2 4 2/8 1/8 5/8 2/6 4/6

Figura 56 Exemplo de normalizao de taxionomia pesada


segundo uma escala Likert de 1 a 5.

O algoritmo de normalizao de pesos encontra-se definido na Frmula 8 onde w i representa


o peso atribudo pelo utilizador ao i-nsimo critrio de um dado nvel da t a x i o n o m i a
g e r a l d e a v a l i a o e w i , o seu valor normalizado. w i calculado
dividindo o peso

123


atribudo pelo utilizador pelo somatrio de todos os pesos existentes num dado nvel da
taxionomia.

wi
w i = n
i=1
wi

Frmula 8 Normalizao de pesos.


importante realar que em taxionomias cujos pesos j respeitem o invariante, o processo de
normalizao no produz alteraes nos pesos atribudos pelo utilizador.

Clculo de desempenho mdio de um caminho de migrao


O M i g r a t i o n A d v i s o r capaz de determinar o desempenho mdio exibido por cada um
dos caminhos de migrao. O clculo do desempenho mdio baseia-se na anlise dos
relatrios de migrao acumulados ao longo do tempo no E v a l u a t i o n s R e p o s i t o r y .

Para determinar o desempenho mdio de um caminho de migrao calculada a mdia dos


valores aferidos para cada um dos critrios de avaliao. A Tabela 15 apresenta os valores reais
de 5 avaliaes ( V1 V5 ) efectuadas a um caminho de migrao que faz parte da rede de
conversores includa no CRiB. Para facilitar a interpretao, apenas foram includos trs
critrios de cada tipologia de avaliadores.

O vector M resultante passa a representar o desempenho mdio do respectivo caminho de


migrao.

Avaliaes Mdia
! n

Tipo Critrio V1 V2 V3 V4 V5 M=
i=1
Vi
n
Dbito 6.86818 2.33179 7.18863 9.56329 12.21235 7.632848
Processo Estabilidade 1 1 1 1 1 1
Taxa de crescimento em bytes
1.40623
1.40623
1.42928
1.40623
1.42928
1.41545
Conformidade grfica 0.99192 0.99192 0.99118 0.9919 0.99118 0.99162
Objecto Largura 1 1 1 1 1 1
Altura 1 1 1 1 1 1
Idade 0.57142 0.57142 0.57142 0.57142 0.57142 0.57142
Formato Quota de mercado 0.00196 0.00196 0.00196 0.00196 0.00196 0.00196
Especificao aberta 1 1 1 1 1 1

Tabela 15 Clculo de desempenho mdio de um caminho de


migrao.

124
Normalizao do desempenho mdio
Uma vez obtidos os vectores de desempenho mdio para os vrios caminhos de migrao
registados no sistema, procede-se normalizao dos valores associados a cada critrio. A
normalizao tem como objectivo tornar os diversos valores mdios comparveis, fazendo-os
pertencer a uma escala comum. Este processo de normalizao fundamental, pois h
critrios que no so balizados superiormente, e.g. dbito de converso, taxa de crescimento
em bytes, idade de um formato, etc. Este processo faz com que todos os valores recolhidos
pelos componentes avaliadores se situem numa escala compreendida entre 0 e 1.

Os vectores de desempenho mdio so normalizados segundo a Frmula 9. A aplicao desta


frmula faz com que os valores mximos registados assumam o valor 1 e os valores mnimos,
o valor 0. Todos os valores situados entre ambos os extremos so distribudos linearmente ao
longo do intervalo.

M ij min(M j )
N ij =
max(M j ) min(M j )

Frmula 9 Normalizao de vectores de desempenho.



A Tabela 16 apresenta o resultado da aplicao de um procedimento de normalizao sobre
cinco caminhos de migrao distintos M1,..., M 5 .

Vectores de desempenho mdio Vectores normalizados


Tipo Critrio M1 M2 M3 M4 M5 N1 N2 N3 N4 N5
Dbito 7.630 6.344 5.333 8.423 4.544 0.796 0.464 0.203 1.000 0.000
Estabilidade 1.000 0.700 1.000 1.000 0.860 1.000 0.000 1.000 1.000 0.533
Processo
Taxa de crescimento em
1.410 7.570 0.230 0.802 3.63 0.161 1.000 0.000 0.078 0.463
bytes

Conformidade grfica
0.990
1.000
0.732
1.000
1.000
0.963 1.000
0.000 1.000 1.000
Objecto Largura 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
Altura 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
Idade 0.570 1.571 2.000 0.444 0.857 0.081 0.724 1.000 0.000 0.265
Formato Quota de mercado 0.002 0.0103 0.588 0.009 0.300 0.000 0.014 1.000 0.012 0.509
Especificao aberta 1.000 0.000 1.000 1.000 0.000 1.000 0.000 1.000 1.000 0.000

Tabela 16 Normalizao de desempenho mdio de um caminho


de migrao.

Agregao de resultados e clculo de pontuao final (scor e)


Aps a normalizao dos vectores de desempenho, procede-se agregao de resultados e ao
clculo da pontuao final associada a cada caminho de migrao. A pontuao define a ordem
pela qual os vrios caminhos de migrao sero apresentados na recomendao. Pontuaes
125
elevadas representam caminhos de migrao com maior aptido para satisfazer os requisitos de
preservao manifestados pelo utilizador.

O processo de agregao de resultados comea pela hierarquizao dos vectores de


desempenho, transformando-os em rvores compatveis com a t a x i o n o m i a g e r a l d e
a v a l i a o pesada pelo utilizador. De seguida, os pesos normalizados atribudos pelo
utilizador so multiplicados pelas folhas da rvore de desempenho normalizada, associada a
cada caminho de migrao. Aps a multiplicao, os resultados so adicionados e agregados
no elemento ascendente na taxionomia de avaliao. O processo recursivamente aplicado at
se obter uma pontuao final para o respectivo caminho de migrao (Figura 57). Este
processo repetido para cada caminho de migrao.

Taxionomia de avaliao pesada Desempenho mdio de um caminho de migrao Agregao de clculo de pontuao final

3/3

2/7 5/7 ! = + 7/16 2/6

2/8 1/8 5/8 2/6 4/6 2/3 2/4 1/2 1 0 1/6 1/16 5/24 2/6 0

Figura 57 Agregao de resultados e clculo de pontuao.

Aps obter uma pontuao para cada um dos caminhos de migrao, possvel construir um
ranking com as alternativas mais adequadas para preservar uma dada coleco de objectos. O
ranking constitui a recomendao produzida pelo M i g r a t i o n A d v i s o r e que
efectivamente enviada ao cliente. Este poder optar pelo caminho de migrao com a
pontuao mais elevada ou qualquer um dos outros caminhos apresentados, conhecendo de
antemo as vantagens e desvantagens inerentes a essa tomada de deciso.

4.9 Consideraes finais


Este captulo teve como principal objectivo descrever detalhadamente a plataforma CRiB, uma
arquitectura orientada ao servio que disponibiliza um conjunto de servios de preservao
capaz de auxiliar instituies e indivduos na implementao de estratgias de preservao
baseadas em migrao.

126
O captulo comea por fornecer uma viso geral sobre a arquitectura desenvolvida, expondo
exemplos de aplicaes-cliente que podero tomar partido dos servios disponibilizados e
identificando objectivamente os componentes que a constituem. Nesta fase, so ainda
identificadas todas as fontes de informao que suportam esses mesmos componentes.

Tratando-se de uma arquitectura orientada ao servio, qualquer entidade-cliente livre de


aceder e utilizar directamente os servios que melhor podero satisfazer as suas necessidades.
No obstante, o CRiB acompanhado de um componente designado C o r e P r e s e r v a t i o n
S e r v i c e s que serve de interface entre as aplicaes-cliente e todos os componentes que
constituem o sistema. Este componente introduz um conjunto de 8 mtodos que facilitam a
realizao de tarefas complexas. Estes mtodos so:

i d e n t i f y F o r m a t um mtodo que permite identificar o formato de uma dada


representao;
g e t E v a l u a t i o n C r i t e r i a um mtodo que, dado um formato, permite conhecer
quais os critrios de controlo de qualidade suportados pela plataforma (i.e., a
t a x i o n o m i a g e r a l d e a v a l i a o );
g e t R e c o m m e n d a t i o n um mtodo que permite ao cliente conhecer as
alternativas de migrao mais adequadas para resolver o seu problema especfico de
preservao;
c o n v e r t um mtodo que realiza migraes de formatos, recorrendo se necessrio
composio de servios de converso;
g e t S u p p o r t e d S o u r c e F o r m a t s um mtodo que devolve uma lista de
formatos, para os quais existem conversores registados na plataforma;
g e t S u p p o r t e d T a r g e t F o r m a t s um mtodo que devolve os formatos para os
quais uma dada representao poder ser convertida;
g e t M i g r a t i o n P a t h s um mtodo que disponibiliza o conjunto de caminhos de
migrao entre dois formatos;
g e t C o n v e r t e r M e t a d a t a um mtodo que permite obter informao detalhada
sobre um dado conversor registado na plataforma.

Para alm da descrio dos mtodos disponibilizados pelo C o r e P r e s e r v a t i o n


S e r v i c e s , foi tambm includa neste captulo uma descrio das estruturas de dados por estes
manipuladas e os diagramas de sequncia que caracterizam os procedimentos de interaco
entre os clientes e a plataforma.
127
O captulo continua com uma descrio detalhada de todos os subcomponentes que
constituem a plataforma, expondo todas as suas estruturas de dados, interfaces aplicacionais e
ferramentas de suporte. Estes componentes so, designadamente:

S e r v i c e R e g i s t r y um componente que tem como misso armazenar


informao sobre os vrios servios de migrao registados na plataforma. Este
componente baseia-se na norma UDDI e estende-a de modo a suportar
metainformao especfica para este tipo de servios.
F o r m a t I d e n t i f i e r um componente que permite determinar o formato de uma
representao digital. Este componente baseia-se na ferramenta Droid desenvolvida
pelos Arquivos Nacionais do Reino Unido;
M i g r a t i o n B r o k e r um componente responsvel por encapsular a composio
de servios de migrao e avaliar o seu desempenho de execuo;
O b j e c t E v a l u a t o r um componente responsvel pode determinar o nvel de
degradao incorrido ao nvel das propriedades significativas que constituem um
objecto digital durante um processo de migrao. Para tal, recorre a um conjunto de
extractores de propriedades e funes de similaridade que permitem quantificar as
diferenas existente entre o objecto que foi submetido a migrao e a nova
representao que resultou deste processo;
F o r m a t E v a l u a t o r um componente que analisa caractersticas tcnicas de dois
formatos e determina o benefcio em termos da capacidade para preservao a longo-
prazo que se obteria ao realizar uma migrao entre ambos os formatos;
M i g r a t i o n A d v i s o r um componente que processa o histrico de avaliaes
produzidas pelos trs componentes anteriormente descritos e produz um ranking de
alternativas de migrao que melhor podero resolver um determinado problema de
preservao. Este componente baseia-se no mtodo de Anlise de Utilidade.

4.9.1 Limitaes
Apesar dos desenvolvimentos realizados, existe um sem-nmero de melhorias que poderiam
ser introduzidos na plataforma e que fariam com que esta se tornasse mais segura, verstil,
eficiente e precisa. Os pargrafos que se seguem procuram descrever e apontar o caminho para
alguns desses desenvolvimentos.

O componente S e r v i c e R e g i s t r y utilizado tanto para armazenar metainformao


descritiva sobre os vrios servios de migrao acessveis a partir do CRiB, como para calcular
128
os caminhos de migrao existentes entre quaisquer dois formatos. O mtodo utilizado para
calcular os caminhos de migrao baseado num algoritmo exaustivo que explora todas as
rotas existentes no grafo de migrao at encontrar o conjunto de caminhos possveis entre os
dois vrtices desejados. Isto faz com que o clculo dos caminhos de migrao demore, por
vezes, vrios segundos, dependendo da dimenso da rede de migrao.

Uma forma de optimizar este processo seria estender o componente S e r v i c e R e g i s t r y de


forma a calcular o fecho transitivo da rede de migrao durante o registo de um novo servio
de migrao, guardando para cada par de formatos um conjunto pr-calculado de caminhos de
migrao prontos a ser utilizados. Outra forma de acelerar este processo seria utilizar um
motor de orquestrao de servios107 baseado numa linguagem de orquestrao como a W e b
s e r v i c e s B u s i n e s s P r o c e s s E x e c u t i o n L a n g u a g e 108 ( W S - B P E L ) . Este tipo de
tecnologia permite definir fluxos de execuo de Web services, ou seja, permite criar novos
servios baseados na composio de servios pr-existentes e gerir todo o processo de
execuo dos mesmos de forma transparente para o utilizador. Esta tecnologia poderia
tambm ser utilizada para substituir o componente M i g r a t i o n B r o k e r na sua funo de
compositor de servios, no entanto, esta teria de ser estendida para suportar mtricas de
avaliao de desempenho.

Ainda em relao aos servios de migrao, o modelo de negcio introduzido na plataforma


baseia-se numa arena onde programadores podero registar e vender os seus servios de
migrao e onde clientes podero tomar partido daqueles que lhes oferecem melhor qualidade
de servio ao menor preo. A plataforma CRiB age apenas como intermedirio, prestando
servios de localizao e controlo de qualidade. As avaliaes de controlo de qualidade
realizadas pela plataforma so utilizadas para informar os clientes sobre que migraes
oferecem melhor qualidade de servio.

O modelo de negcio suportado actualmente pela plataforma baseia-se na atribuio de um


valor fixo a cada servio de migrao que ser cobrado ao cliente durante a invocao do
mesmo. Este modelo de negcio, porm, demasiado simplista para que possa ser posto em
prtica de forma eficaz. Futuramente sero estudados novos modelos de negcio mais
elaborados, baseados, por exemplo, na dimenso das representaes digitais a converter, na
complexidade dos objectos (e.g. nmero de pginas, nmero de tabelas, nmero de imagens,
nmero de cores, resoluo), descontos de quantidade, etc.

107 Um exemplo deste tipo de motores o Apache ODE disponvel em http://ode.apache.org/


108 http://docs.oasis-open.org/wsbpel/2.0/

129
No modelo apresentado, os provedores de servios de migrao so responsveis pela
implementao distribuda dos mesmos. Isto incorpora uma falha fundamental que poder
inviabilizar a utilizao de uma arquitectura com estas caractersticas em determinados
contextos de aplicao. Esta falha tem que ver com a confidencialidade dos dados. Os servios
de migrao podem operar sobre protocolos seguros como o H y p e r t e x t T r a n s f e r
P r o t o c o l sobre S e c u r e S o c k e t L a y e r (H T T P S ), assegurando deste modo que os
dados trocados entre o cliente e a plataforma intermdia, e entre esta e os provedores de
servio no so susceptveis de inspeco por terceiros. No entanto, difcil garantir a
idoneidade dos provedores de servio que obtero, necessariamente, acesso aos dados a
converter. Uma forma de combater este problema seria estabelecer contratos de prestao de
servio que garantissem a confidencialidade e segurana dos dados por parte dos provedores
de servios de migrao. Esses contratos seriam estabelecidos no momento do registo de um
servio de migrao na plataforma. No obstante, estes contratos seriam apenas baseados na
confiana mtua, pois complexo implementar mecanismos de monitorizao e certificao
dos processos desenvolvidos do lado do provedor de servio. Formas mais criativas na rea do
direito e da segurana de dados tero que ser investigadas no sentido de mitigar este problema.

Ainda neste contexto, importante salientar que a transferncia de grandes quantidades de


dados atravs da rede, nomeadamente, atravs da Internet ainda uma operao
excessivamente pesada. O tempo de trnsito dos dados pode facilmente exceder o seu tempo
de migrao, fazendo com que uma soluo centralizada oferea vantagens considerveis ao
nvel da performance de converso. No obstante, o CRiB tanto pode ser implementado de
forma distribuda, atravs da Internet, como de forma centralizada na rede do prprio cliente.
Na presena de redes locais na ordem dos Gigabits esta alternativa torna-se mais apelativa.
Refira-se ainda que a implementao local da plataforma CRiB acarreta a vantagem adicional
de resolver o problema da segurana dos dados.

Outro aspecto que poderia ser melhorado a forma como o dbito de uma migrao
calculado. Neste momento este parmetro determinado, dividindo o comprimento em bytes
da representao a converter pelo tempo de migrao. No entanto, o tempo de converso no
est directamente relacionado com o comprimento da representao. Representaes com
contedos marcadamente complexos (e.g. um documento com muitas tabelas e imagens)
podero demorar mais tempo a converter do que representaes bastante maiores em termos
de tamanho, mas de complexidade inferior. Trabalho futuro poder centrar-se na identificao
dos factores que influenciam directamente o tempo de converso atravs da anlise detalhada
das propriedades geralmente associadas a uma dada classe de objectos ou formatos.

130
No que toca ao F o r m a t I d e n t i f i e r , necessrio referir que se poderia enriquecer os
resultados que produz se se utilizasse uma combinao de vrias ferramentas de identificao
de formatos como o Unix file ou o JHove. No entanto, seria necessrio criar mapeamentos
entre os descritores de formatos utilizados por cada uma destas ferramentas de modo a
assegurar a sua coerncia e o controlo das designaes utilizadas.

Ainda neste contexto, de referir que o projecto R e g i s t r y o f O p e n A c c e s s


R e p o s i t o r i e s 109 (R O A R ) utiliza descritores de formatos semelhantes aos produzidos pelo
CRiB, diferindo apenas no facto de a verso do formato ser apresentada entre parnteses aps
a designao do mesmo, e.g. Portable Document Format (1.3), ao invs de separada pela expresso
, version como acontece no CRiB, e.g. Portable Document Format, version 1.3.

Em relao ao O b j e c t E v a l u a t o r , importante referir que o clculo de similaridade entre


dois objectos digitais pode ser afectado pela qualidade dos extractores de propriedades que
acompanham este componente. O objectivo do clculo de similaridade determinar se houve
perdas de informao durante o processo de migrao de um objecto digital. Ao extrair valores
de propriedades de dois objectos em formatos distintos recorrendo a extractores
manifestamente diferentes, poder incorrer-se precisamente no problema que procura evitar,
ou seja, os extractores de propriedades podero comportar-se de forma errnea e introduzir
anomalias nas propriedades extradas, o que iria influenciar a avaliao realizada. No
obstante, os erros introduzidos pelos extractores de propriedades podero ser considerados
constantes ao longo de todas as avaliaes realizadas por este componente, ao passo que os
erros introduzidos pelo processo de migrao variam consoante o caminho de migrao
tomado. Isso faz com que o componente permanea imparcial no que toca s avaliaes
realizadas, mantendo a relao de ordem entre os vrios caminhos de migrao utilizados.

Ainda neste contexto, importante referir que os critrios de avaliao suportados pelos vrios
componentes avaliadores (i.e., M i g r a t i o n B r o k e r , O b j e c t E v a l u a t o r e F o r m a t
E v a l u a t o r ) foram desenvolvidos como add-ons plataforma, o que significa que o
desenvolvimento e a instalao de novos critrios de avaliao podem ser realizados de forma
simples, sem que haja necessidade de reprogramao da plataforma.

No que diz respeito ao M i g r a t i o n A d v i s o r alguns dos possveis melhoramentos futuros


passam pela optimizao do processo de clculo de desempenho mdio dos vrios caminhos
de migrao recorrendo a tcnicas de Data warehousing, por exemplo, armazenando valores

109 http://roar.eprints.org/

131
acumulados ao invs de os calcular sempre que so requeridos (Caldeira, 2008; Kimball &
Ross, 2002). Neste momento, o desempenho mdio calculado realizando um conjunto de
questes M i g r a t i o n K n o w l e d g e B a s e , o que, dependendo do nmero de avaliaes
armazenadas e do nmero de caminhos de migrao registados, poder ser uma tarefa bastante
complexa e demorada.

Para alm da optimizao de processos, seria profcuo a realizao de um estudo recorrendo a


tcnicas de anlise de sensibilidade (Saltelli, 2004; Stanley & Stewart, 2002). Este estudo teria
como objectivo verificar em que medida pequenas perturbaes nos pesos atribudos por parte
das entidades-cliente taxionomia geral de avaliao poderiam influenciar as recomendaes
produzidas pelo M i g r a t i o n A d v i s o r .

Para concluir, a plataforma proposta beneficiaria com um aumento dos critrios de avaliao
suportados, bem como de formatos reconhecidos. Para alm do disposto, a adio de novas
classes de objectos digitais tornaria a plataforma mais apta para recomendar estratgias de
migrao. Adicionalmente, esta deveria ser melhorada para implementar mecanismos de
controlo de qualidade que suportassem migraes de formato entre classes de objectos
distintas.

132
Captulo 5
Metodologia e avaliao
Ao longo do captulo anterior foram apresentados, em detalhe, todos os componentes que
compem a plataforma CRiB, um sistema capaz de assistir organizaes e indivduos na
seleco e execuo de intervenes de preservao baseadas em migrao .

Este trabalho teve como principal objectivo aferir se seria possvel automatizar os processos
inerentes preservao de objectos digitais recorrendo a estratgias de migrao.

A implementao de uma estratgia de migrao pressupe o desenvolvimento de trs


actividades fundamentais, nomeadamente: a seleco de uma alternativa de migrao adequada
aos objectivos da entidade preservadora e aos objectos digitais que se pretendem preservar, a
converso dos materiais propriamente dita, e a avaliao e controlo de qualidade da respectiva
interveno. O CRiB disponibiliza um conjunto de servios suportados por componentes de
software que tm como objectivo implementar cada uma destas actividades. Esses
componentes so, respectivamente, o M i g r a t i o n A d v i s o r , o M i g r a t i o n B r o k e r e o
Object Evaluator.

Este captulo tem como misso descrever a metodologia utilizada durante a validao destes
componentes, bem como as concluses que da resultaram. importante referir que o
componente M i g r a t i o n B r o k e r no foi validado. Este componente apresenta apenas dois
133
estados possveis de execuo: sucesso ou insucesso. Os casos de insucesso ocorrem quando
os servios de migrao foram incapazes de completar uma dada tarefa de converso. Os
restantes dois componentes, dada a sua complexidade, exigiram um maior rigor e esforo de
validao.

Este captulo est organizado da seguinte forma: a seco 5.1 descreve detalhadamente as
experincias realizadas em torno do componente O b j e c t E v a l u a t o r e a seco 5.2
apresenta a metodologia e os processos de avaliao desenvolvidos em torno do M i g r a t i o n
A d v i s o r . Em ambas as seces so ainda apresentados os protocolos experimentais
adoptados, a caracterizao das coleces de objectos de teste utilizados ao longo da
experincia, os detalhes dos estudos comparativos realizados e uma seco de resultados e
concluses.

5.1 Avaliao do Object Evaluator


O componente O b j e c t E v a l u a t o r tem como misso identificar e quantificar o nvel de
degradao introduzido nos objectos digitais durante um processo de migrao. Este tipo de
ocorrncias deve-se sobretudo ao facto de as aplicaes de converso no incorporarem todas
as funcionalidades necessrias correcta transformao dos valores das propriedades que
constituem o objecto de partida ou simplesmente porque existem incompatibilidades entre os
formatos de partida e os formatos de destino.

O modo de funcionamento do O b j e c t E v a l u a t o r baseia-se na extraco dos valores das


propriedades significativas pertencentes aos objectos digitais submetidos a migrao e aos seus
equivalentes convertidos, e no consequente clculo da similaridade entre estes. Uma converso
pode ser considerada bem sucedida se os valores das propriedades associadas a um objecto
digital no sofreram alteraes durante a converso. Minimizar a degradao destes valores
tem como consequncia fundamental a melhoraria da qualidade da interveno de preservao
e a garantia da integridade dos objectos a longo-prazo. O propsito do O b j e c t E v a l u a t o r
, precisamente, controlar a qualidade da migrao efectuada, determinando o nvel de
degradao incorrido nessas propriedades e registando os resultados dessa avaliao para
efeitos de documentao do processo de migrao.

As propriedades significativas analisadas durante o processo de controlo de qualidade


dependem sobretudo da classe dos objectos digitais. Por exemplo, a comparao de dois
objectos pertencentes classe d o c u m e n t o s d e t e x t o poder envolver propriedades
como o tamanho da pgina, apresentao grfica do documento, nmero de pginas, margens,
tipos de letra, cores, etc. No entanto, se os objectos pertencerem classe u d i o , as
134
propriedades significativas a analisar seriam consideravelmente diferentes, e.g. resoluo,
volume, nvel mdio de rudo, durao, etc110.

Ainda neste contexto, importante referir que existem dois tipos de propriedades
significativas: propriedades de carcter objectivo e propriedades de carcter subjectivo.
Considere-se o seguinte exemplo. A largura e altura (em pixel) de uma imagem so
propriedades marcadamente objectivas, i.e., tratam-se de propriedades que podero facilmente
ser extradas e comparadas por um qualquer processo automtico baseado em software. O
mais rudimentar dos visualizadores de imagens, por exemplo, capaz de ler e apresentar a
largura e altura de uma imagem desde que o seu formato seja reconhecido pela aplicao.
Calcular a similaridade entre duas propriedades com estas caractersticas um processo,
geralmente, simples, no levantando grandes dvidas relativamente aos resultados obtidos.

No entanto, h um conjunto de propriedades que devido s suas caractersticas se tornam


difceis de comparar automaticamente. Por exemplo, se se pedir a dois intervenientes humanos
para quantificar o nvel de similaridade percepcionado entre duas imagens parecidas (porm
no iguais), possvel constatar que a taxa de concordncia entre ambos os avaliadores, apesar
de elevada, no inteiramente consensual. Isto significa que certas propriedades so
caracterizadas por uma certa subjectividade, o que torna consideravelmente mais complexo o
clculo de similaridade recorrendo a processos automticos.

A avaliao do componente O b j e c t E v a l u a t o r teve como principal objectivo aferir o


nvel de concordncia existente entre os valores de similaridade produzidos por este
componente e os valores de similaridade produzidos por intervenientes humanos. A avaliao
deste componente contemplou a realizao de um conjunto de experincias com foco nas
propriedades significativas do domnio das i m a g e n s m a t r i c i a i s consideradas subjectivas,
i.e., c o n f o r m i d a d e g r f i c a e m e t a i n f o r m a o e m b e b i d a .

importante realar que as experincias realizadas em torno do O b j e c t E v a l u a t o r apenas


incluram formatos pertencentes mesma classe de objectos. Apesar de ser possvel, em teoria,
realizar converses entre formatos pertencentes a classes de objectos distintas, este tipo de
cenrios foi deliberadamente remetido para trabalho futuro. Entre classes distintas, o nmero
de propriedades significativas comparveis mais reduzido (trata-se da interseco dos
conjuntos de propriedades significativas de cada classe de objectos), o que implica o estudo de

110 Para uma listagem completa das propriedades significativas suportadas pelo O b j e c t E v a l u a t o r , consulte a seco
4.6.2 na pgina 105.

135
formas eficazes de lidar com informao incompleta. Ou seja, de estratgias capazes de
determinar que valores de similaridade devero ser considerados quando uma determinada
propriedade apenas est associada a um dos objectos em comparao. No limite, os conjuntos
de propriedades significativas associados a cada classe de objectos podero ser disjuntos,
impossibilitando o clculo adequado de similaridade.

Para ilustrar este ponto, considere-se o seguinte exemplo. possvel admitir que a verso
sonorizada de um livro111 possa ser interpretada como uma representao, ou manifestao,
alternativa da sua verso textual, mais convencional. possvel tambm imaginar um processo
capaz de converter uma instncia textual dessa obra na sua verso sonorizada, destinada por
exemplo ao consumo por invisuais112. Este cenrio representativo de uma converso entre
formatos pertencentes a classes de objectos distintas: d o c u m e n t o s d e t e x t o e
d o c u m e n t o s u d i o . Como j havia sido referido anteriormente, o conjunto de
propriedades significativas associadas a cada uma destas classes difere consideravelmente, o
que torna o clculo automtico de similaridade bastante complexo ou at mesmo impraticvel.

As seces que se seguem descrevem detalhadamente as experincias realizadas em torno do


componente O b j e c t E v a l u a t o r de modo a aferir a sua capacidade em avaliar o nvel de
degradao introduzido em propriedades significativas de carcter subjectivo.

5.1.1 Protocolo experimental


No seu conjunto, as experincias realizadas em torno do O b j e c t E v a l u a t o r tiveram como
objectivo aferir com que preciso este componente seria capaz de calcular a similaridade entre
valores de propriedades significativas consideradas subjectivas extrados a partir de objectos
digitais em formatos distintos. A exactido e preciso do O b j e c t E v a l u a t o r foram
determinadas comparando os valores por ele produzidos com valores produzidos por um
conjunto de avaliadores humanos, sendo estes considerados os valores de referncia.

Assim, as experincias realizadas em torno deste componente seguiram o seguinte protocolo:

1. Construo de uma coleco de teste cada experincia realizada obrigou


construo de uma coleco de teste constituda por um conjunto alargado de objectos
digitais. Cada coleco de teste foi preparada de modo a incluir as propriedades que se

111 Hoje em dia bastante comum encontrar no mercado livros sonorizados em udio, algo que vulgarmente se designa por
audio book.
112 As verses mais actuais do software Acrobat Reader j so capazes de sonorizar um documento de texto ao activar uma

opo chamada Read Out Loud.

136
pretendiam avaliar e de forma a conter objectos em diversos formatos, mas
pertencentes mesma classe de objectos digitais.

2. Avaliao manual da coleco de teste todos os objectos pertencentes s


coleces de teste foram avaliados manualmente por um conjunto de intervenientes
humanos. As mtricas utilizadas e o nmero de pessoas envolvidas na avaliao
dependeram da propriedade significativa em causa. As avaliaes realizadas por
humanos designam-se vulgarmente por avaliaes subjectivas (Bistrm, 2005;
Telecommunication Standardization Sector of ITU, 2004).

3. Avaliao automtica da coleco de teste esta actividade , em tudo, semelhante


actividade descrita no ponto anterior. No entanto, realiza-se atravs de processos
automticos, neste caso recorrendo ao componente O b j e c t E v a l u a t o r . Este tipo
de avaliaes designa-se vulgarmente por avaliaes objectivas, isto apesar das
propriedades sob avaliao serem marcadamente subjectivas (Bistrm, 2005;
Telecommunication Standardization Sector of ITU, 2004).

4. Estudo comparativo dos resultados realizao de um estudo comparativo entre as


avaliaes produzidas pelo O b j e c t E v a l u a t o r e as avaliaes realizadas pelo
conjunto de avaliadores humanos. Este estudo permitiu quantificar a capacidade do
O b j e c t E v a l u a t o r em determinar correctamente a similaridade entre propriedades
subjectivas (por comparao com a mesma avaliao realizada por humanos).

De modo a avaliar os resultados produzidos pelo componente O b j e c t E v a l u a t o r foi


constituda uma coleco de teste composta exclusivamente por i m a g e n s m a t r i c i a i s .
Aps uma anlise das propriedades significativas associadas a esta classe de objectos digitais
(ver seco 4.6.2 na pgina 106), foram consideradas para efeitos de avaliao as seguintes
propriedades: c o n f o r m i d a d e g r f i c a e m e t a i n f o r m a o e m b e b i d a , as nicas
dotadas de caractersticas marcadamente subjectivas.

5.1.2 Propriedade significativa: conformidade grfica


Num contexto de migrao poder ocorrer deteriorao do contedo grfico de um objecto
digital. A propriedade c o n f o r m i d a d e g r f i c a diz respeito determinao do grau de
semelhana, real ou percepcionada, entre o contedo grfico de um objecto convertido e de
um outro considerado original.

137
As seces que se seguem procuram determinar experimentalmente a capacidade do
componente O b j e c t E v a l u a t o r em aferir o nvel de c o n f o r m i d a d e g r f i c a
existente entre duas imagens matriciais.

Ao longo desta experincia foram avaliados quatro algoritmos de similaridade de imagem,


nomeadamente, o Normalized Root Mean Squared Error (Shrestha, O'Hara, & Younan,
2005), o Universal Image Quality Index (Z. Wang & Bovik, 2002), o Structural Similarity Index
Metric (Z. Wang, Bovik, Sheikh, & Simoncelli, 2004) e o Content-Based Image Quality Metric
(Gao, Wang, & Li, 2005).

Caracterizao da coleco de teste


Nos mtodos clssicos da estatstica, quanto maior for a dimenso da amostra mais fiveis
sero as concluses que dela se podem extrair. Usualmente a dimenso determinada a partir
de critrios pr-estabelecidos tais como a minimizao dos custos de amostragem, a
minimizao da varincia do estimador de um certo parmetro de interesse, entre outros. No
caso concreto desta experincia, a dimenso da amostra foi definida de modo a que o tempo
necessrio sua avaliao por parte de um interveniente humano no excedesse os 30
minutos, temendo que o desgaste fsico do avaliador pudesse comprometer a qualidade dos
resultados. Aps algumas interaces experimentais, o nmero a que se chegou foi o de uma
amostra de tamanho 30, i.e., cada avaliao teria uma durao mdia de 1 minuto.

A coleco de teste utilizada para determinar a capacidade do O b j e c t E v a l u a t o r em


calcular a c o n f o r m i d a d e g r f i c a entre duas imagens digitais foi constituda por 10
imagens base a partir das quais foram criadas 3 derivadas com diferentes nveis de deformao
(totalizando 40 imagens). Entre as deformaes introduzidas encontravam-se artefactos de
compresso, a alterao de cores e a alterao do nmero de bits de cor que constituam a
imagem.

As derivadas includas na coleco de teste foram geradas segundo parmetros de converso


aleatrios. Esta opo teve como objectivo maximizar a diversidade das deformaes
existentes na coleco de teste.

importante referir que deformaes como redimensionamento (i.e., alterao da largura ou


altura), o corte de imagens e deformaes que vo para alm da mera converso de formatos
(e.g. aplicao de filtros ou introduo manual de artefactos) no fizeram parte da lista de
alteraes introduzidas. Este tipo de deformaes so capturadas por outras propriedades
significativas como a l a r g u r a e a a l t u r a da imagem.

138
A cada avaliador foi pedido que comparasse cada uma das 10 imagens originais com as 3
derivadas previamente produzidas e atribuir uma classificao de 0 a 10 de acordo com o grau
de similaridade percepcionado (variando qualitativamente entre o Totalmente diferentes e o
Iguais). No total, cada interveniente humano seria responsvel por avaliar 30 pares de
imagens.

As dez imagens utilizadas nesta experincia podem ser agrupadas em seis categorias distintas:
1) manuscrito digitalizado, 2) pgina de jornal digitalizada, 3) cartaz colorido digitalizado, 4)
fotografia digital, 5) cartoon digital, e 6) desenho digitalizado.

As tabelas que se seguem descrevem detalhadamente o conjunto completo de imagens que


constituam a coleco de teste utilizada nesta experincia.

Imagem Cdigo Descrio Dimenses

Imagem digitalizada de um livro manuscrito em formato


Original 01-00 3481x2448
TIFF 256 tons de cinzento (modo indexado).

Derivada 1 01-01 Imagem convertida para formato GIF 256 cores.

Imagem convertida para formato JPEG com um nvel de


Derivada 2 01-02 compresso de 5 (0 qualidade mnima, 12 qualidade
mxima).
Imagem convertida para formato JPEG 2000 com um nvel
Derivada 3 01-03 de compresso de 5 (1 qualidade mnima, 100 qualidade
mxima).

Imagem Cdigo Descrio Dimenses


Pgina de jornal digitalizada em escala de cinzentos em
Original 02-00 2313x3414
formato TIFF.
Imagem convertida para formato JPEG com um nvel de
Derivada 1 02-01 compresso de 2 (0 qualidade mnima, 12 qualidade
mxima).
Imagem convertida para formato JPEG com um nvel de
Derivada 2 02-02 compresso de 10 (0 qualidade mnima, 12 qualidade
mxima).
Imagem convertida para formato JPEG 2000 com um nvel
Derivada 3 02-03 de compresso de 90 (1 qualidade mnima, 100 qualidade
mxima).

139
Imagem Cdigo Descrio Dimenses

Original 03-00 Poster digitalizado em formato TIFF com 24 bits de cor. 685x1404

Derivada 1 03-01 Imagem convertida para formato GIF 256 cores.

Imagem convertida para formato JPEG com um nvel de


Derivada 2 03-02
compresso de 10 (0 qualidade mnima, 12 qualidade mxima)

Imagem convertida para formato JPEG 2000 com um nvel de


Derivada 3 03-03
compresso de 1 (1 qualidade mnima, 100 qualidade mxima).

Imagem Cdigo Descrio Dimenses


Fotografia digital tirada com uma Canon 350D em
Original 04-00 3456x2304
formato JPEG.
Derivada 1 04-01 Imagem convertida para formato PNG comprimido.

Derivada 2 04-02 Imagem convertida para formato GIF 256 cores.

Imagem convertida para formato JPEG com um nvel


Derivada 3 04-03 de compresso de 2 (0 qualidade mnima, 12
qualidade mxima).

140
Imagem Cdigo Descrio Dimenses
Fotografia digital tirada com uma FinePixA101 em
Original 05-00 1280x960
formato JPEG.
Derivada 1 05-01 Imagem convertida para formato GIF 256 cores.

Imagem convertida para formato JPEG com um nvel


Derivada 2 05-02 de compresso de 1 (0 qualidade mnima, 12
qualidade mxima).

Derivada 3 05-03 Imagem convertida para formato TIFF, 24 bits de cor.

Imagem Cdigo Descrio Dimenses


Fotografia digital tirada com uma Olympus C150 em
Original 06-00 1600x1200
formato JPEG.
Imagem convertida para formato JPEG com um nvel
Derivada 1 06-01 de compresso de 7 (0 qualidade mnima, 12
qualidade mxima).

Derivada 2 06-02 Imagem convertida para formato GIF 256 cores.

Imagem convertida para formato JPEG com um nvel


Derivada 3 06-03 de compresso de 1 (0 qualidade mnima, 12
qualidade mxima).

141
Imagem Cdigo Descrio Dimenses
Fotografia digital tirada com uma Olympus C150 em
Original 07-00 1600x1200
formato JPEG.
Imagem convertida para formato JPEG com um nvel
Derivada 1 07-01 de compresso de 10 (0 qualidade mnima, 12
qualidade mxima).

Derivada 2 07-02 Imagem convertida para formato TIFF, 24 bits de cor.


Derivada 3 07-03 Imagem convertida para formato GIF 256 cores.

Imagem Cdigo Descrio Dimenses


Fotografia digital tirada com uma Olympus FE110 em
Original 08-00 1600x1200
formato JPEG.
Imagem convertida para formato JPEG com um nvel
Derivada 1 08-01 de compresso de 10 (0 qualidade mnima, 12
qualidade mxima).

Derivada 2 08-02 Imagem convertida para formato GIF 256 cores.

Imagem convertida para formato JPEG com um nvel


Derivada 3 08-03 de compresso de 1 (0 qualidade mnima, 12
qualidade mxima).

Imagem Cdigo Descrio Dimenses


Original 09-00 Cartoon em formato GIF 256 cores com transparncia. 901x1117
Imagem convertida para formato JPEG com um nvel de
Derivada 1 09-01 compresso de 1 (0 qualidade mnima, 12 qualidade
mxima).
Derivada 2 09-02 Imagem convertida para formato PNG comprimido.

Derivada 3 09-03 Imagem convertida para formato TIFF, 24 bits de cor.

142
Imagem Cdigo Descrio Dimenses

Original 10-00 Desenho digitalizado em formato JPEG. 1034x1455

Imagem convertida para formato JPEG com um nvel de


Derivada 1 10-01 compresso de 9 (0 qualidade mnima, 12 qualidade
mxima).

Derivada 2 10-02 Imagem convertida para formato GIF 256 cores.

Imagem convertida para formato JPEG com um nvel de


Derivada 3 10-03 compresso de 5 (0 qualidade mnima, 12 qualidade
mxima).

Avaliao manual
O I n t e r n a t i o n a l T e l e c o m m u n i c a t i o n U n i o n ( I T U ) com a ajuda do V i d e o
Q u a l i t y E x p e r t s G r o u p tem vindo a emitir a normas e recomendaes sobre como se
devero processar experincias na rea da medio da qualidade de sequncias de vdeo
(Telecommunication Standardization Sector of ITU, 2004). Estas recomendaes so tambm
utilizadas na definio de guies de procedimentos para a avaliao e comparao de
algoritmos de compresso de imagem com perdas (e.g. JPEG, JPEG 2000). Estas mesmas
recomendaes serviram de base para a construo do guio de procedimentos utilizado ao
longo desta experincia.

De acordo com o ITU este tipo de experincias dever ser realizado com o maior nmero
possvel de intervenientes humanos de modo a minimizar a variabilidade das avaliaes
subjectivas produzidas. Estudos semelhantes foram realizados com grupos de avaliadores na
ordem das 25 pessoas (Telecommunication Standardization Sector of ITU, 2004; Z. Wang et
al., 2004). No entanto, devido a restries de tempo e disponibilidade de participantes, esta
experincia foi conduzida com apenas 15 pessoas, i.e., o nmero mnimo de pessoas
recomendado pelo ITU (Telecommunication Standardization Sector of ITU, 2004).

Os voluntrios que participaram nesta experincia possuam formao de nvel superior,


tratando-se sobretudo de alunos de mestrado e de doutoramento, no especialistas no
tratamento de imagem, com idades compreendidas entre os 25 e os 50 anos. Nove eram do
sexo masculino e seis eram do sexo feminino. Os avaliadores recrutados possuam formao
em reas variadas como Cincias Sociais, Educao, Engenharia Electrnica e Informtica.
143
Todos os participantes foram sentados confortavelmente em frente a um ecr a uma distncia
que variava entre os 25 e os 40 cm. Foi-lhes fornecida uma aplicao113 que facilitava a
visualizao simultnea de duas imagens, incorporando ainda funcionalidades como ampliao
da rea de visualizao e navegao sincronizada em ambas as imagens (Figura 58). Todos os
participantes utilizaram a mesma aplicao e o mesmo ecr. Este tipo de avaliao designa-se
por Simultaneous Double Stimulus for Continuous Evaluation (SDSCE) devido ao facto de as duas
imagens serem apresentadas ao avaliador em simultneo e no em instantes separados.

Figura 58 Screenshot da aplicao utilizada para comparar imagens.

Antes de dar incio avaliao da coleco de teste, os participantes receberam instrues


detalhadas sobre como a avaliao se iria processar e foi-lhes fornecido um conjunto de
imagens de exemplo para que se pudessem ambientar ao tipo de avaliaes que se iriam seguir.
Esse conjunto de imagens era constitudo por 10 pares de imagens com deformaes
semelhantes s introduzidas na coleco de teste. Esta fase teve como objectivo explicar aos
participantes o tipo de avaliaes que iriam realizar e, em simultneo, permitir que estes se
familiarizassem com o software de visualizao. Esta actividade teve uma durao mdia de 5
minutos por participante.

Cada participante foi ento convidado a observar os vrios pares de imagens que compunham
a coleco de teste, sem quaisquer restries de tempo, podendo ainda ampliar e reduzir as
respectivas imagens, bem como posicionar a janela de visualizao na rea da imagem

113 A aplicao utilizada na experincia chamava-se Adobe Lightroom.

144
desejada. Aps cada observao, foi-lhes pedido que quantificassem o nvel de similaridade
percepcionado entre ambas as imagens numa escala linear de 0 a 10 (i.e., de Totalmente
diferentes a Iguais).

Aps reunir as classificaes dos 15 intervenientes aos 30 pares de imagens, estas foram
agrupadas num nico valor designado por M e a n O p i n i o n S c o r e ou, simplesmente, MOS
(Tabela 17). O valor de MOS representa a mdia das classificaes atribudas por todos os
avaliadores a cada par de imagens (Petrov, Vatolin, Parshin, & Titarenko, 2006;
Telecommunication Standardization Sector of ITU, 2004; Z. Wang et al., 2004). A tabela inclui
tambm o desvio-padro verificado.

Avaliaes subjectivas
Valor-P
Par
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 MOS Kolmogorov-
k
Smirnov
1 10 10 10 9 10 10 10 10 10 10 10 10 10 9 10 9.87 0.35 0.001
2 9 6 8 9 10 8 9 8 9 8 9 10 8 8 10 8.60 1.06 0.473
3 6 7 6 5 8 7 7 8 7 6 6 9 7 7 8 6.93 1.03 0.538
4 7 6 6 8 8 7 8 8 5 6 7 8 7 6 8 7.00 1.00 0.347
5 8 9 10 10 10 8 9 9 8 9 10 9 9 8 10 9.07 0.80 0.510
6 9 9 10 10 10 10 9 10 9 10 9 10 10 9 10 9.60 0.51 0.023
7 6 8 10 6 10 7 7 7 7 5 8 10 8 5 10 7.60 1.76 0.718
8 8 9 10 5 9 9 9 8 8 7 9 10 9 6 10 8.40 1.45 0.262
9 8 10 10 9 10 10 10 9 10 8 9 10 10 5 10 9.20 1.37 0.093
10 10 10 10 10 10 10 9 9 10 10 10 10 10 9 10 9.80 0.41 0.002
11 5 6 8 7 7 7 6 8 6 8 7 8 7 6 8 6.93 0.96 0.587
12 6 7 10 4 6 8 7 7 7 7 5 9 6 7 8 6.93 1.49 0.489
13 6 7 10 8 7 7 8 7 9 8 7 10 9 6 7 7.73 1.28 0.306
14 7 4 7 3 5 5 6 4 7 5 4 7 7 5 6 5.47 1.36 0.558
15 8 9 10 9 9 10 10 6 9 10 9 10 10 8 10 9.13 1.13 0.293
16 8 9 9 8 10 10 8 5 9 8 7 10 9 7 9 8.40 1.35 0.556
17 7 8 8 5 8 8 9 4 8 8 8 9 8 8 6 7.47 1.41 0.026
18 6 5 7 3 5 6 6 3 6 5 4 7 6 9 5 5.53 1.55 0.704
19 7 8 8 8 9 9 8 5 7 8 8 9 9 10 9 8.13 1.19 0.282
20 8 9 9 7 9 9 10 5 10 10 10 10 10 10 10 9.07 1.44 0.185
21 6 4 6 4 5 4 6 4 5 5 4 7 6 7 6 5.27 1.10 0.497
22 10 9 10 10 9 10 10 7 9 10 9 10 10 9 10 9.47 0.83 0.064
23 7 7 7 3 5 6 7 5 7 9 6 8 6 7 6 6.40 1.40 0.578
24 7 5 6 5 5 7 6 5 8 5 5 7 8 5 6 6.00 1.13 0.197
25 8 7 6 4 6 6 6 5 8 7 7 8 8 8 7 6.73 1.22 0.675
26 10 10 10 10 10 10 10 7 10 10 10 10 10 9 10 9.73 0.80 0.001
27 10 10 10 9 9 10 10 8 9 10 10 10 10 10 10 9.67 0.62 0.006
28 10 10 10 10 10 10 10 7 9 10 10 10 10 10 10 9.73 0.80 0.001
29 10 10 9 9 10 10 10 7 9 10 10 10 10 10 10 9.60 0.83 0.100
30 9 9 8 8 7 8 8 6 9 8 7 8 9 10 8 8.13 0.99 0.322

Tabela 17 Avaliaes produzidas por intervenientes humanos.

O valor MOS encontra-se definido formalmente na Equao 1. N representa o nmero de


participantes envolvidos na avaliao (i.e., N = 15 ), k o ndice do par de imagens avaliado e
classificaoi,k o valor de similaridade atribudo pelo avaliador i ao par de imagens k .



145
1 N
MOSk = classificaoi,k
N i=1

Equao 1 Mean Opinion Score (MOS).

importante referir que a generalidade das classificaes produzidas pelos vrios avaliadores a
cada par de imagens segue uma distribuio normal como se pode ver pelos valores-P > 0.01
obtidos a partir do teste de normalidade K o l m o g o r o v - S m i r n o v 114. As avaliaes que no
seguem a distribuio normal so aquelas cujo valor mdio se situa demasiado perto da
pontuao mxima, impedindo, deste modo, a formao da curva em forma de sino
caracterstica desta distribuio. Esses valores encontram-se assinalados a negrito na Tabela 17.

Aps calcular o valor de MOS para cada par de imagens, foram eliminadas as classificaes
discrepantes, tambm conhecidas por outliers. Ouliers so observaes que no obedecem ao
padro do conjunto de dados ao qual pertencem (Silva, 2004). Por outras palavras, quando
uma observao, ou neste caso, avaliao, se afasta significativamente das restantes
considerada discrepante ou saliente115. A ocorrncia de tal observao poder dever-se a
mltiplos factores, no entanto, no contexto desta experincia deduziu-se que o aparecimento
destas classificaes se deveu a desconcentraes momentneas por parte dos avaliadores.

Assim, as classificaes no pertencentes ao conjunto [ MOS 2 , MOS + 2 ] 116 foram


retiradas da matriz de avaliao, produzindo, deste modo, um novo conjunto de valores de
MOS e reduzindo o desvio-padro mdio em cerca de 20% (Telecommunication
Standardization Sector of ITU, 2004).

A matriz de avaliao obtida aps remoo das classificaes discrepantes apresentada na


Tabela 18.

114 Em estatstica, o teste de normalidade de Kolmogorov-Smirnov utilizado para determinar se uma varivel aleatria,
representada por uma amostra de valores, segue uma distribuio normal.
115 Outras tradues possveis para o termo outlier so anormal, suspeito ou discordante.
116 O clculo do intervalo de valores considerados no discrepantes assume que a amostra segue uma distribuio normal, algo

que foi previamente demonstrado pelo teste de Kolmogorov-Smirnov.

146
Par Discrepantes
MOS
k removidos
1 2 10.00 0.00
2 1 8.79 0.80
3 0 6.93 1.03
4 0 7.00 1.00
5 0 9.07 0.80
6 0 9.60 0.51
7 0 7.60 1.76
8 1 8.64 1.15
9 1 9.50 0.76
10 0 9.80 0.41
11 0 6.93 0.96
12 1 6.71 1.27
13 0 7.73 1.28
14 0 5.47 1.36
15 1 9.36 0.74
16 1 8.64 1.01
17 1 7.71 1.07
18 1 5.29 1.27
19 1 8.36 0.84
20 1 9.36 0.93
21 0 5.27 1.10
22 1 9.64 0.50
23 1 6.64 1.08
24 0 6.00 1.13
25 1 6.93 1.00
26 1 9.93 0.27
27 1 9.79 0.43
28 1 9.93 0.27
29 1 9.79 0.43
30 1 8.29 0.83

Tabela 18 MOS e desvio-padro aps remoo de valores


discrepantes.

Avaliao automtica
Aps recolher os valores de similaridade atribudos pelos avaliadores humanos, o mesmo
procedimento foi repetido, mas desta vez recorrendo s capacidades de avaliao do
componente O b j e c t E v a l u a t o r . Este foi preparado para suportar quatro algoritmos
distintos de clculo de similaridade entre imagens, nomeadamente:

1. Normalized Root Mean Squared Error NRMSE (Shrestha et al., 2005);


2. Universal Image Quality Index UQI (Z. Wang & Bovik, 2002);
3. Structural Similarity Index Metric SSIM (Z. Wang et al., 2004);
4. Content-Based Image Quality Metric CBM (Gao et al., 2005).

147
Os quatro algoritmos implementados encontram-se descritos em detalhe no Apndice 8.3.6 na
pgina 212.

As avaliaes produzidas por estes quatro algoritmos pertencem ao conjunto [0, 1] , onde 1
significa que duas imagens so iguais e 0 que estas so totalmente diferentes. Uma classificao
de 0 apenas acontece quando as imagens comparadas so inversas, i.e., uma o negativo da
outra, situao em que se verifica a distncia mxima entre duas componentes
de cor.

Uma vez que os valores de MOS previamente recolhidos se encontravam numa escala
diferente desta, i.e., [0, 10] , estes foram divididos por 10 de modo a torn-los compatveis
com as avaliaes produzidas pelos algoritmos.

As avaliaes
produzidas pelos quatro algoritmos, bem como os valores de MOS
normalizados encontram-se resumidos na Tabela 19.

# Par (k) MOS/10 RMSE UQI SSIM CBM


1 1.000 1.000 1.000 1.000 1.000
2 0.879 0.983 0.866 0.984 0.936
3 0.693 0.975 0.744 0.969 0.877
4 0.700 0.967 0.922 0.992 0.970
5 0.907 0.996 0.922 1.000 0.998
6 0.960 0.998 0.861 1.000 0.999
7 0.760 0.980 0.768 0.973 0.896
8 0.864 0.992 0.928 0.996 0.983
9 0.950 0.995 0.953 0.998 0.993
10 0.980 0.993 0.784 0.996 0.985
11 0.693 0.987 0.632 0.987 0.947
12 0.671 0.987 0.581 0.993 0.974
13 0.773 0.988 0.849 0.986 0.946
14 0.547 0.983 0.670 0.978 0.916
15 0.936 0.997 0.992 0.999 0.998
16 0.864 0.988 0.765 0.987 0.949
17 0.771 0.988 0.867 0.989 0.955
18 0.529 0.980 0.643 0.977 0.909
19 0.836 0.995 0.920 0.997 0.989
20 0.936 0.997 0.986 1.000 0.998
21 0.527 0.980 0.703 0.977 0.907
22 0.964 0.994 0.983 0.999 0.994
23 0.664 0.978 0.867 0.982 0.927
24 0.600 0.967 0.815 0.972 0.891
25 0.693 0.980 0.714 0.993 0.973
26 0.993 1.000 1.000 1.000 1.000
27 0.979 1.000 1.000 1.000 1.000
28 0.993 0.995 0.975 0.999 0.996
29 0.979 0.996 0.983 1.000 0.998
30 0.829 0.989 0.802 0.993 0.970

Tabela 19 Avaliaes produzidas pelos algoritmos RMSE, UQI,


SSIM e CBM.

148
A Figura 59 apresenta o conjunto de projeces que permitem analisar graficamente a
correlao existente entre os valores de MOS e os valores produzidos pelos vrios algoritmos
analisados.

(a) (b)

(c) (d)

Figura 59 Projeces de MOS com (a) RMSE, (b) UQI, (c) SSIM e
(d) CBM.

Para efeitos de avaliao, o ITU recomenda que os valores produzidos pelos algoritmos de
clculo de similaridade sejam ajustados aos valores de MOS antes de se realizar uma anlise
comparativa. Este processo permite calibrar o algoritmo de similaridade mediante o tipo de
imagem que se est a avaliar, fazendo com que este passe a produzir valores de similaridade
mais prximos dos valores de MOS. Aps o ajuste, os valores produzidos pelos algoritmos de
similaridade tornam-se mais previsveis e menos errticos (Telecommunication Standardization
Sector of ITU, 2004; Z. Wang & Bovik, 2002).

Recorrendo ao mtodo dos mnimos quadrados, foram determinados os parmetros


necessrios para aplicar a regresso linear aos valores produzidos pelos algoritmos
(Telecommunication Standardization Sector of ITU, 2004). Os valores ajustados por regresso
linear foram obtidos aplicando a frmula y = mx + b , onde y representa o novo valor
ajustado, x os valores a ajustar e m e b os parmetros da funo de ajuste.

A Tabela 20 apresenta os valores produzidos


pelos algoritmos
ajustados aos valores de MOS.


149
RMSE UQI SSIM CBM
# Par (k) MOS/10 m=13.426 m=0.946 m=12.541 m=3.187
b=-12.454 b=0.011 b=-11.606 b=-2.252
1 1.000 0.972 0.958 0.935 0.935
2 0.879 0.741 0.831 0.728 0.730
3 0.693 0.639 0.715 0.544 0.544
4 0.700 0.535 0.884 0.840 0.838
5 0.907 0.914 0.884 0.929 0.929
6 0.960 0.949 0.826 0.933 0.933
7 0.760 0.702 0.738 0.601 0.602
8 0.864 0.866 0.890 0.881 0.880
9 0.950 0.910 0.913 0.913 0.914
10 0.980 0.879 0.753 0.888 0.887
11 0.693 0.804 0.609 0.771 0.766
12 0.671 0.797 0.561 0.844 0.852
13 0.773 0.812 0.815 0.765 0.763
14 0.547 0.738 0.646 0.662 0.668
15 0.936 0.938 0.950 0.928 0.928
16 0.864 0.810 0.736 0.774 0.772
17 0.771 0.814 0.832 0.793 0.791
18 0.529 0.702 0.620 0.648 0.644
19 0.836 0.902 0.882 0.901 0.900
20 0.936 0.937 0.945 0.929 0.929
21 0.527 0.706 0.677 0.642 0.638
22 0.964 0.894 0.941 0.917 0.918
23 0.664 0.677 0.831 0.709 0.703
24 0.600 0.528 0.783 0.581 0.589
25 0.693 0.703 0.687 0.848 0.850
26 0.993 0.972 0.958 0.935 0.935
27 0.979 0.972 0.958 0.935 0.935
28 0.993 0.906 0.934 0.924 0.924
29 0.979 0.916 0.942 0.929 0.929
30 0.829 0.825 0.770 0.843 0.840

Tabela 20 Valores de similaridade ajustados aos valores de MOS.

Estudo comparativo
Na sequncia do anteriormente exposto, procedeu-se a uma anlise comparativa das avaliaes
produzidas pelos intervenientes humanos (i.e., MOS) e as avaliaes produzidas por cada um
dos algoritmos propostos: RMSE, UQI, SSIM e CBM. O objectivo deste estudo foi identificar
qual dos quatro algoritmos seria capaz de produzir valores de similaridade mais prximos da
opinio mdia de um conjunto de intervenientes humanos (MOS).

O ITU combinou quatro documentos produzidos pelo Video Quality Experts Group
(VQEG) e produziu um guia com recomendaes para a elaborao de estudos de qualidade
na rea da compresso de vdeo. O documento produzido pelo ITU estabelece procedimentos
e mtricas a utilizar na avaliao de diferentes algoritmos de compresso recorrendo a mtodos
objectivos (algoritmos) e subjectivos (pessoas).

150
Seguindo as recomendaes do ITU, o desempenho de cada um dos algoritmos foi
determinado recorrendo a trs critrios distintos (Telecommunication Standardization Sector
of ITU, 2004):

1. Preciso capacidade do algoritmo em produzir classificaes prximas das


classificaes subjectivas humanas. Este critrio determinado calculando o
coeficiente de c o r r e l a o d e P e a r s o n entre as classificaes produzidas por
cada um dos algoritmos e o MOS (Mtrica m1).
2. Monotonia grau de concordncia entre o modelo de previso automtico (i.e., os
valores produzidos pelos algoritmos) e as magnitudes relativas das classificaes
subjectivas atribudas pelos humanos. Esta mtrica obtida calculando a c o r r e l a o
d e S p e a r m a n entre os valores produzidos por cada um dos algoritmos e o MOS
(Mtrica m2).
3. Consistncia capacidade de produzir previses precisas ao longo de toda a
experincia realizada. Esta mtrica obtida calculando a taxa de valores no-
discrepantes produzidos pelos algoritmos, i.e., non-outlier ratio (Mtrica m3). A taxa de
valores no-discrepantes calculada recorrendo Equao 2, onde um valor no-
discrepante aquele que pertence ao conjunto [ MOS 2 , MOS + 2 ] e N simboliza o
nmero total de avaliaes.

# no discrepantes

Taxa de no discrepantes =
N

Equao 2 Taxa de valores no-discrepantes.


Resultados
A Tabela 21 apresenta os resultados obtidos aps a aplicao de cada uma das mtricas
anteriormente descritas ao conjunto de avaliaes produzidas pelos algoritmos considerados.

Correlao de Correlao de Percentagem de Pontuao


Algoritmos
Pearson Spearman no-discrepantes
comparados m1 m2 m3
(Mtrica m 1 ) (Mtrica m 2 ) (Mtrica m 3 )
MOS-RMSE 0.817 0.854 0.900 0.6279
MOS-UQI 0.779 0.779 0.870 0.5280
MOS-SSIM 0.807 0.840 0.870 0.5898
MOS-CBM 0.807 0.840 0.870 0.5898

Tabela 21 Desempenho dos vrios algoritmos de clculo de


similaridade de imagem.

151
A pontuao final foi determinada multiplicando os resultados produzidos por cada uma das
mtricas utilizadas. importante referir que os resultados produzidos pelas trs mtricas
utilizadas pertenciam ao conjunto [0, 1] .

Os resultados obtidos nesta experincia so em boa medida surpreendentes. Todos os


algoritmos revelaram uma elevada aptido para determinar o nvel de conformidade grfica
existente entre duas imagens. Em boa verdade, qualquer um dos quatro algoritmos poderia ser
utilizado pelo O b j e c t E v a l u a t o r , pois serviria adequadamente o seu propsito. Tal j
havia sido demonstrado pelo teste preliminar de Wilcoxon apresentado no Apndice 8.4. Este
teste estatstico teve como objectivo verificar se a distribuio das avaliaes automticas era
estatisticamente semelhante aos valores de MOS recolhidos.

A pontuao final obtida para cada um dos algoritmos foi muito semelhante, no entanto, o
algoritmo que apresentou os melhores resultados, em todas as mtricas utilizadas, foi o RMSE.
Este resultado contradiz um conjunto de publicaes que, recorrendo a estudos semelhantes,
concluem que os algoritmos UQI, SSIM e CBM (por ordem crescente) produzem melhores
resultados que o simples RMSE (Gao et al., 2005; Y. Wang, 2006; Z. Wang & Bovik, 2002; Z.
Wang et al., 2004).

Os algoritmos UQI, SSIM e CBM pertencem classe de algoritmos baseados no sistema visual
humano117. Este tipo de algoritmos pondera diferentes componentes da imagem geralmente
associados viso humana durante a sua anlise de similaridade. Entre estes encontram-se a
luminosidade, o contraste e a estrutura da imagem. Os algoritmos mais simples como o RMSE
so agnsticos em relao generalidade desses parmetros e limitam-se a calcular
matematicamente a distncia cromatogrfica entre os diferentes pixel das imagens.

Os resultados contraditrios que foram obtidos podero ser justificados pelo tipo de coleco
de teste utilizada. Os estudos realizados em torno dos algoritmos UQI, SSIM e CBM foram
efectuados sobre coleces de teste que continham deformaes profundas provocadas pela
aplicao de filtros como rudo, blur ou mudanas radicais de cor e no pela introduo de
tnues artefactos de compresso. Este tipo de algoritmos muito eficaz na deteco de erros
estruturais acentuados como os que se podem ver na Figura 60. Acontece que as deformaes
comummente introduzidas por aplicaes de converso no so desta natureza, mas sim
caracterizadas pelo aparecimento de subtis artefactos de compresso ou alterao muito ligeira
de cores devido a limitaes do formato de destino.

117 Do ingls Human Visual System (HVS).

152
Figura 60 Conjunto de imagens com RMSE0.96 e valores de
UQI, SSIM e CBM distintos.

Sugama et al. salientam ainda a influncia do tamanho da imagem nas avaliaes subjectivas
por seres humanos. Sugama et al. argumentam que quanto menores forem as imagens sob
avaliao, maiores sero os valores de similaridade atribudos pelos humanos, resultando em
valores de MOS mais elevados.

A coleco de teste utilizada nesta experincia era composta por imagens cuja resoluo
variava entre o 1 Megapixel e os 8,5 Megapixel. Em todas as restantes experincias (Gao et al.,
2005; Z. Wang & Bovik, 2002; Z. Wang et al., 2004), as coleces de teste eram compostas por
imagens na ordem dos 0.3 Megapixel. Esse facto, por si s, poder ter influenciado
significativamente os resultados, lanando um novo olhar sobre a eficcia deste tipo de
algoritmos perante imagens de grandes dimenses.

Para concluir, o RMSE revelou ser o algoritmo mais preciso na deteco da conformidade
grfica entre duas imagens. As vantagens da utilizao deste algoritmo transcendem a sua

153
preciso. O RMSE tambm o algoritmo mais simples de implementar e o que apresenta
melhor performance computacional.

5.1.3 Propriedade significativa: metainformao embebida


Um nmero considervel de formatos de imagem contemplam a possibilidade de se
transportar, juntamente com a informao que constitui a imagem, um conjunto de elementos
de informao que tm como objectivo descrever e caracterizar a imagem veiculada. Esses
elementos de informao e a informao grfica que constitui a imagem encontram-se
armazenados num nico objecto digital. Devido a este facto, estes elementos de informao
descritiva designam-se por metainformao embebida118.

O formato TIFF, por exemplo, oferece a possibilidade de adicionar quaisquer elementos de


metainformao a uma imagem codificada neste formato. No contexto do formato TIFF,
estes elementos so designados por private tags (Adobe Developers Association, 1992).

Apesar de no existir propriamente uma norma universal que defina o conjunto de elementos
de metainformao passveis de serem utilizados na descrio de uma imagem, existem
algumas especificaes, criadas sobretudo por gigantes da indstria do processamento de
imagem, que procuram introduzir alguma padronizao no sentido de garantir a
interoperabilidade entre aplicaes de edio de imagem.

A especificao Exif (Exchangeable image file format), apesar de no ser governada por
nenhuma organizao de normalizao, introduziu alguma regulamentao no que diz respeito
a metainformao descritiva associada a imagens matriciais, sobretudo nos formatos de
imagem JPEG e TIFF (Technical Standardization Committee on AV & IT Storage Systems
and Equipment, 2002). A especificao Exif define um conjunto de atributos descritivos que
procuram cobrir um largo espectro de casos de utilizao. Entre estes encontram-se:

Atributos que descrevem a data e a hora da aquisio da imagem;


Atributos relacionados com o dispositivo de captura de imagem, tais como, orientao,
nome do dispositivo, fabricante, abertura, velocidade de disparo, distncia focal, modo
de medio de luz, velocidade do sensor (ISO), etc.;
Informao de autoria e direitos de autor;
Atributos de georreferenciao.

118 Do ingls embedded metadata.

154
A Adobe Systems Incorporated introduziu em 2001 um dialecto XML, designado Extensible
Metadata Platform ou simplesmente XMP, que permite armazenar vrios tipos de
metainformao no interior de determinados formatos digitais, apenas especificando a sintaxe
que dever ser utilizada e no os elementos descritivos que podero ser utilizados (Adobe
Systems Incorporated, 2004). O XMP segue a sintaxe do dialecto RDF (RDF Core Working
Group, 2004) e poder ser embebido em diversos formatos, tais como: TIFF, JPEG, JPEG
2000, GIF, PNG, HTML, PDF, AI (Adobe Illustrator), SVG/XML, PSD (Adobe
Photoshop), PostScript e EPS. O XMP ainda compatvel com o conjunto de atributos
descritivos criado pelo I n t e r n a t i o n a l P r e s s T e l e c o m m u n i c a t i o n s C o u n c i l
designado por I P T C I n f o r m a t i o n I n t e r c h a n g e M o d e l (IIM), mais conhecido por
I P T C h e a d e r s (International Press Telecommunications Council, 2004), e tambm com a
norma Exif. A norma IPTC IIM define um conjunto de atributos que tm como objectivo
descrever objectos produzidos e trocados entre agncias noticiosas. Este inclui tambm
imagens, especialmente fotografias (Newspaper Association of America & International Press
Telecommunications Council, 1999).

Para alm dos elementos descritivos que podero ser embebidos em imagens digitais, h ainda
uma srie de atributos de carcter tcnico que so exclusivos de determinados formatos. Estes
elementos so geralmente armazenados junto dos restantes atributos descritivos.

Tipo de falha Descrio Exemplo


Um atributo do objecto de Este tipo de falha comum quando se efectuam converses entre
Eliminao partida no existe no objecto um formato que suporta determinados atributos descritivos e um
destino formato que no os suporta, e.g. TIFF para BMP.
Um atributo do objecto de Certos conversores modificam alguns atributos embebidos nas
partida existe no objecto imagens. Um exemplo tpico deste tipo de falha ocorre no
Modificao destino, mas no foi atributo Application do Exif. O conversor utilizado geralmente
correctamente transferido, i.e., introduz a sua marca neste elemento para identificar a aplicao
diferente do original que gerou a nova imagem.
Certas imagens transportam atributos tcnicos especficos do
formato em que se encontram. Ao converter para certos
formatos, estes atributos so automaticamente preenchidos pela
Um atributo do objecto destino aplicao conversora. Nesta tese parte-se do pressuposto de que a
Insero
no existe no objecto de partida introduo de atributos descritivos durante o processo de
migrao prejudicial autenticidade do objecto pois desrespeita
o original e poder introduzir informao que no verdadeira ou
de acordo com o original.

Tabela 22 Tipos de falhas na metainformao embebida que


podero ocorrer durante uma converso de formatos.

A experincia descrita nesta seco tem como objectivo determinar a capacidade do


componente O b j e c t E v a l u a t o r em detectar e quantificar a deteriorao ao nvel da
metainformao embebida, ocorrida durante um processo de converso entre formatos. Neste

155
contexto, possvel identificar trs tipos de falhas possveis: eliminao, modificao e
insero. Estas encontram-se descritas em detalhe na Tabela 22.

Caracterizao da coleco de teste


Para realizar esta experincia foi constituda uma coleco de teste composta por trinta novos
pares de imagens contendo metainformao embebida e um nmero arbitrrio de falhas dos
trs tipos anteriormente descritos.

Para preparar a coleco de teste recorreu-se a uma aplicao profissional de gesto de


imagens designada Adobe Bridge. Esta aplicao permite editar os atributos das imagens
definidos pelas seguintes normas: IPTC IIM (Legacy e Core), Exif, GPS e Camera Raw. As
imagens includas na coleco de teste encontravam-se codificadas em diversos formatos,
nomeadamente, TIFF, JPEG 2000, BMP, JPG, GIF e PNG. A Tabela 23 resume os formatos
e a percentagem de modificaes introduzidas em cada par de imagens da coleco de teste.

Formato Formato # atributos # atributos % atributos no


# Par (k)
original destino preenchidos modificados modificados
1 TIFF TIFF 18 5 0.722
2 TIFF JPEG 2000 18 5 0.722
3 TIFF BMP 18 18 0.000
4 TIFF JPG 14 3 0.786
5 TIFF GIF 11 11 0.000
6 TIFF JPEG 2000 14 4 0.714
7 TIFF TIFF 38 8 0.789
8 TIFF JPEG 38 16 0.579
9 TIFF PNG 38 38 0.000
10 JPEG TIFF 29 10 0.655
11 JPEG JPEG 29 11 0.621
12 JPEG TIFF 21 3 0.857
13 JPEG TIFF 25 5 0.800
14 JPEG JPEG 2000 24 3 0.875
15 JPEG TIFF 25 5 0.800
16 JPEG JPEG 35 5 0.857
17 JPEG TIFF 37 8 0.784
18 JPEG JPEG 35 5 0.857
19 JPEG JPEG 27 2 0.926
20 JPEG TIFF 27 1 0.963
21 JPEG TIFF 27 1 0.963
22 JPEG JPEG 42 16 0.619
23 JPEG TIFF 41 15 0.634
24 JPEG JPEG 53 29 0.453
25 TIFF JPEG 12 5 0.583
26 TIFF TIFF 9 6 0.333
27 TIFF TIFF 22 19 0.136
28 JPEG JPEG 10 6 0.400
29 JPEG TIFF 11 6 0.455
30 JPEG JPEG 10 3 0.700

Tabela 23 Coleco de teste utilizada na experincia com


metainformao embebida.

156
A percentagem de atributos no modificados apresentada na Tabela 23 representa o nvel de
similaridade percepcionado entre duas imagens da coleco de teste.

Avaliao automtica
Aps a preparao da coleco de teste e do clculo da percentagem de elementos de
metainformao que no sofreram alteraes, i.e., o nvel de similaridade detectado
manualmente para a propriedade significativa m e t a i n f o r m a o e m b e b i d a , procedeu-se
avaliao automtica da coleco de teste.

Foram testados dois mtodos diferentes de extrair metainformao das imagens e


subsequentemente duas formas de comparar essa mesma informao. O primeiro mtodo
extrai o documento XMP embebido no interior das imagens. Uma vez que o XMP baseado
em XML, foi utilizado um mtodo de clculo de similaridade entre documentos XML
designado X M L D i f f 119 desenvolvido na Universidade de Sannio (Canfora, Cerulo, &
Scognamiglio, 2004).

O segundo mtodo de extraco utilizado recorre a uma aplicao designada E x i f T o o l 120


que devolve os atributos encontrados no interior da imagem sob a forma de um conjunto de
pares do tipo atributo/valor (Harvey, 2003). Para calcular a similaridade entre os conjuntos de
propriedades extrados recorreu-se ao mtodo designado C o e f i c i e n t e d e S i m i l a r i d a d e
d e J a c c a r d 121 (Jaccard, 1901; Tan, Steinbach, & Kumar, 2005). Esta mtrica amplamente
utilizada para calcular a similaridade entre dois conjuntos de elementos (Xiao, Wang, Lin, &
Yu, 2008).

O C o e f i c i e n t e d e S i m i l a r i d a d e d e J a c c a r d obtido dividindo o nmero de


elementos pertencentes interseco dos dois conjuntos comparados pelo nmero de
elementos pertencentes sua reunio (Equao 3).

A B
J(A,B) =
A B

Equao 3 Coeficiente de Similaridade de Jaccard.

119 Para mais informaes sobre este algoritmo de similaridade, consulte o Apndice 8.3.5 na pgina 211.
120 Para mais informaes sobre esta ferramenta, consulte o Apndice 8.1.2 na pgina 198.
121 Para mais informaes sobre este algoritmo de similaridade, consulte o Apndice 8.3.4 na pgina 210.

157
Os resultados produzidos por ambas as abordagens encontram-se resumidos na Tabela 24.
Um valor de 1 significa que dois conjuntos so iguais, enquanto que um valor de 0 significa
que os dois conjuntos no possuem qualquer elemento em comum.

% atributos
# Par (k) XML Diff Jaccard
no alterados
1 0.722 0.789 0.591
2 0.722 0.750 0.522
3 0.000 0.017 0.000
4 0.786 1.000 0.786
5 0.000 0.027 0.000
6 0.714 0.936 0.714
7 0.789 0.818 0.738
8 0.579 0.631 0.585
9 0.000 0.008 0.000
10 0.655 0.905 0.545
11 0.621 0.968 0.625
12 0.857 0.873 0.680
13 0.800 0.807 0.606
14 0.875 0.800 0.724
15 0.800 0.807 0.625
16 0.857 0.858 0.795
17 0.784 0.818 0.636
18 0.857 0.858 0.795
19 0.926 0.848 0.767
20 0.963 0.952 0.867
21 0.963 0.952 0.867
22 0.619 0.767 0.538
23 0.634 0.717 0.532
24 0.453 0.783 0.406
25 0.583 0.844 0.538
26 0.333 0.367 0.300
27 0.136 0.533 0.125
28 0.400 0.613 0.364
29 0.455 0.738 0.385
30 0.700 0.912 0.636

Tabela 24 Resultados produzidos pelos mtodos XML Diff e


Jaccard.

Estudo comparativo
Aps reunidos os valores de similaridade produzidos pelos dois mtodos analisados, X M L
D i f f e C o e f i c i e n t e d e S i m i l a r i d a d e d e J a c c a r d , procedeu-se a um estudo
comparativo com o objectivo de determinar qual dos dois algoritmos apresentava o melhor
desempenho na deteco de falhas na metainformao embebida.

Para efeitos de avaliao, foram utilizadas trs mtricas distintas:

158
1. Preciso capacidade demonstrada pelo algoritmo de similaridade para quantificar o
nvel de falhas introduzidas na coleco de teste. Este critrio foi determinado
calculando o coeficiente de c o r r e l a o d e P e a r s o n entre os valores produzidos
por cada um dos algoritmos considerados e a percentagem de atributos no
modificados, i.e., valores de referncia (Mtrica m1);
2. Monotonia grau de concordncia entre os valores produzidos pelos algoritmos de
similaridade e as magnitudes relativas dos valores de referncia. Esta mtrica foi obtida
calculando a c o r r e l a o d e S p e a r m a n (Mtrica m2);
3. Erro mdio um modelo de previso tanto mais eficiente quanto menor for o erro
por este apresentado em relao ao valor real utilizado como referncia (Fernandes,
1999). Esta mtrica obtida recorrendo M d i a d o Q u a d r a d o d o E r r o
(Mtrica m4).

Resultados
A Tabela 25 apresenta os resultados da aplicao das mtricas anteriormente descritas aos
valores produzidos pelos dois algoritmos analisados.

Correlao de Correlao de Mdia do


Mtodos
Pearson Spearman Quadrado do Erro
comparados
(Mtrica m 1 ) (Mtrica m 2 ) (Mtrica m 4 )
Referncia-xmldiff 0.886 0.713 0.028
Referncia-Jaccard 0.978 0.917 0.010

Tabela 25 Desempenho dos dois mtodos de clculo de


similaridade de metainformao embebida.

Ao observar a Tabela 25 conclui-se que, na globalidade das mtricas consideradas, o


desempenho do mtodo de J a c c a r d foi superior ao do X M L D i f f .

Apesar do elevado desempenho demonstrado por ambos os mtodos, foi importante explorar
as razes que levaram a que estes no apresentassem um comportamento irrepreensvel, i.e.,
que os resultados da sua avaliao no tenham sido mais prximos do valor mximo admitido.
primeira vista nada impedia que ambos os mtodos fossem capazes de quantificar
exactamente a percentagem de falhas introduzidas na metainformao embebida das imagens
analisadas.

No caso do mtodo X M L D i f f , esta anlise foi difcil de realizar. O algoritmo pondera trs
critrios distintos na sua anlise de similaridade: contedo, estrutura e posicionamento dos
elementos de informao no interior das rvores XML comparadas. Apesar do XML sob

159
avaliao ser morfologicamente simples, quando foi comparado com o documento XML de
referncia, apresentou uma correlao inferior a 0.90. Para compreender as razes que levaram
este algoritmo a apresentar uma correlao inferior a 1, seria necessrio inspeccionar os seus
processos internos. No entanto, uma vez que o mtodo de Jaccard apresentava de antemo
nveis de desempenho superiores, optou-se por investir mais tempo no aprofundamento de
conhecimento sobre este mtodo em detrimento do primeiro.

No caso do mtodo Jaccard, o motivo que levou a que fossem obtidos nveis de correlao
inferiores a 1, teve que ver com os dados em si. A similaridade de Jaccard, est preparada para
operar sobre conjuntos de elementos. Acontece que os elementos pertencentes aos conjuntos
avaliados eram compostos por pares do tipo atributo/valor. A reunio de conjuntos
compostos por elementos deste tipo produzia um resultado errneo na presena de elementos
que possuam o mesmo nome de atributo mas valores distintos.

Considere-se o seguinte exemplo onde se calcula o coeficiente de Jaccard entre dois conjuntos,
A e B , constitudos por pares de elementos do tipo (atributo, valor), com ai a representar o
nome do atributo e v i a representar o seu valor associado (Equao 4).


A = {(a1,v1 ),(a2 ,v 2 ),(a3 ,v 3 )}

B = {(a1,v1 ),(a2 ,v 2 ),(a3 ,v 4 )}

A B {(a1,v1),(a2,v 2 )} 2
J(A,B) = = =
A B {(a1,v1 ),(a2 ,v 2 ),(a3 ,v 3 ),(a3 ,v 4 )} 4

Equao 4 Exemplo da aplicao do coeficiente de Jaccard.


Como se pode constatar, apesar do atributo a3 existir em ambos os conjuntos, este
contabilizado duas vezes aps a reunio de conjuntos. Esta abordagem est matematicamente
correcta uma vez que (a3 ,v 3 ) (a3 ,v 4 ) , no entanto, no ajustada ao domnio de aplicao.

Assim, props-se a seguinte alterao ao C o e f i c i e n t e d e J a c c a r d e a introduo de uma
nova funo designada first que opera sobre conjuntos de pares, transformando-os em

conjuntos de elementos singulares constitudos apenas pelo primeiro elemento de cada par. A
funo first e a verso modificada do C o e f i c i e n t e d e J a c c a r d encontram-se definidas
na Equao 5.

160
first(S) = { x} : (x, y) S

A B
J (A,B) =
first(A) first(B)

Equao 5 Definio da funo first e verso modificada do


mtodo de Jaccard.

A aplicao da nova mtrica ao conjunto de dados conduziu aos resultados apresentados na
Tabela 26. Para efeitos de comparao foram novamente representados os valores produzidos
pelos anteriores mtodos analisados.

% atributos Jaccard
# Par (k) XML Diff Jaccard
no alterados modificado
1 0.722 0.789 0.591 0.722
2 0.722 0.750 0.522 0.667
3 0.000 0.017 0.000 0.000
4 0.786 1.000 0.786 0.786
5 0.000 0.027 0.000 0.000
6 0.714 0.936 0.714 0.714
7 0.789 0.818 0.738 0.795
8 0.579 0.631 0.585 0.615
9 0.000 0.008 0.000 0.000
10 0.655 0.905 0.545 0.600
11 0.621 0.968 0.625 0.645
12 0.857 0.873 0.680 0.773
13 0.800 0.807 0.606 0.714
14 0.875 0.800 0.724 0.778
15 0.800 0.807 0.625 0.714
16 0.857 0.858 0.795 0.838
17 0.784 0.818 0.636 0.718
18 0.857 0.858 0.795 0.838
19 0.926 0.848 0.767 0.821
20 0.963 0.952 0.867 0.929
21 0.963 0.952 0.867 0.929
22 0.619 0.767 0.538 0.651
23 0.634 0.717 0.532 0.595
24 0.453 0.783 0.406 0.481
25 0.583 0.844 0.538 0.583
26 0.333 0.367 0.300 0.333
27 0.136 0.533 0.125 0.136
28 0.400 0.613 0.364 0.400
29 0.455 0.738 0.385 0.455
30 0.700 0.912 0.636 0.700

Tabela 26 Resultados produzidos pelo mtodo de Jaccard


modificado.

A aplicao do conjunto de mtricas de avaliao de desempenho previamente descritas ao


novo mtodo de clculo de similaridade (i.e., Jaccard) veio demonstrar que as modificaes
efectuadas ao coeficiente de Jaccard vieram melhorar significativamente o seu desempenho
161
Tabela 27). Apesar de continuar a no apresentar um desempenho perfeito, encontra-se agora
muito prximo deste.

Correlao de Correlao de Mdia do


Mtodos
Pearson Spearman Quadrado do Erro
comparados
(Mtrica m 1 ) (Mtrica m 2 ) (Mtrica m 4 )
Referncia-XML Diff 0.886 0.713 0.028
Referncia-Jaccard 0.978 0.917 0.010
Referncia-Jaccard 0.991 0.960 0.002

Tabela 27 Desempenho dos dois mtodos de clculo de


similaridade de metainformao embebida.

Os casos em que se verificou que os valores produzidos pelo mtodo de Jaccard no


coincidiram com os valores de referncia foram analisados manualmente. Estes diferiam,
sobretudo, devido a algumas funcionalidades includas na aplicao utilizada durante a
construo da coleco de teste (i.e., Adobe Bridge) que no se encontravam na ferramenta de
extraco de metainformao das imagens (i.e., E x i f T o o l ). Por exemplo, um dado par de
imagens apresentava os seguintes valores para o atributo D a t e T i m e O r i g i n a l :
2003:11:25 12:59:58Z e 2003:11:25 12:59:58. A primeira, inclui informao sobre fuso
horrio, representada pela letra Z no final do componente representativo da hora. A letra
Z indica que aquela data/hora pertence ao fuso horrio da zona Z, ou seja, ao referencial
horrio que coincide com o GMT (Tempo Mdio de Greenwich). A ferramenta ExifTool
assinalou correctamente a diferena existente entre a metainformao embebida em ambas as
imagens, no entanto, Adobe Bridge assumiu o fuso horrio GMT no caso omisso, fazendo
com que ambas as datas/horas fossem consideradas iguais.

Houve, ainda, outros exemplos de assumpo automtica de valores por parte da aplicao
Adobe Bridge. Por exemplo, quando o valor do atributo Sharpness omisso, esta assume o
valor Normal. O mesmo acontece com o atributo White Balance que, quando omisso,
definido como Auto. A aplicao ExifTool no assume quaisquer valores por omisso.
Limita-se a extrair a metainformao encontrada no interior das imagens. Se um dado atributo
no existe numa imagem, retornado o valor nulo e no um outro valor por omisso.

Apesar das falhas detectadas, considerou-se que o desempenho do mtodo de Jaccard


suficientemente elevado para ser utilizado no contexto do O b j e c t E v a l u a t o r .

5.2 Avaliao do Migration Advisor


Sempre que realizada uma converso no contexto do CRiB, produzido um relatrio que
descreve a aptido para preservao do caminho de migrao utilizado. Esse relatrio inclui

162
informao sobre a performance do processo de migrao, o grau de degradao incorrido ao
nvel das propriedades significativas dos objectos digitais e a adequabilidade dos formatos
envolvidos para efeitos de preservao digital.

Estes relatrios so armazenados e posteriormente utilizados pelo componente M i g r a t i o n


A d v i s o r para determinar o caminho de migrao mais apto para preservar uma dada classe
de objectos digitais. O componente tem em considerao o desempenho demonstrado por
cada caminho de migrao e os requisitos particulares de cada utilizador.

H utilizadores, por exemplo, que valorizam mais a conservao das propriedades


significativas e menos a performance de converso. Essas escolhas influenciam a ordem pela
qual os diferentes caminhos de converso so ordenados e sugeridos ao utilizador.

Cada utilizador pode manifestar as suas preferncias atribuindo pesos aos critrios de avaliao
suportados pelo CRiB (ver seco 4.6.2 na pgina 105). Com base nessa informao e no
conjunto de relatrios de avaliao produzidos automaticamente pelo sistema, possvel
determinar, de entre dezenas de alternativas, qual o formato de destino e o caminho de
converso mais favorveis para preservar uma dada coleco de objectos digitais.

Para validar a eficcia deste sistema de recomendao foi utilizada uma tcnica de validao
designada k - f o l d c r o s s - v a l i d a t i o n . Esta tcnica consiste em particionar um conjunto de
dados de teste em k partes de igual dimenso. Das k partes, k-1 so utilizadas para treinar o
sistema, enquanto que a partio remanescente utilizada para o testar. O processo de
validao consiste em verificar se o sistema capaz de recomendar correctamente o conjunto
de dados de teste, baseando-se apenas nos dados utilizados para treino. O processo repetido
k vezes, alternando a partio de teste. No final, calculada a mdia dos resultados obtidos em
cada uma das k avaliaes realizadas (Witten & Frank, 2005). Mais informao sobre esta
tcnica de validao encontra-se disponvel no Apndice 8.5 na pgina 219.

A validao do componente M i g r a t i o n A d v i s o r seguiu o seguinte protocolo


experimental:

1. Construo de uma coleco de teste para realizar a experincia foi necessrio


construir uma coleco de objectos de treino/teste suficientemente grande e
heterognea para que o treino do sistema pudesse ser considerado eficaz. Todos os
objectos includos na coleco de teste teriam obrigatoriamente de ser do mesmo
formato.

163
2. Seleco de conversores antes de se dar incio ao processo de avaliao do sistema
de recomendao foi identificado um subconjunto relevante de caminhos de
converso a considerar durante a experincia. Este subconjunto de caminhos de
converso teve como invariante o formato de partida, uma vez que este teria
necessariamente que coincidir com o formato dos objectos que compunham a
coleco de teste.

3. Particionamento da coleco de teste o conjunto de objectos de teste foi dividido


em 10 parties construdas aleatoriamente (i.e., 10-fold cross-validation). Em cada
iterao foram utilizados 90% dos objectos para treinar o sistema e 10% para testar as
suas recomendaes. O processo de avaliao foi composto por 10 iteraes (10 folds),
fazendo-se alternar as parties de treino/teste. A avaliao final do sistema consistiu
no clculo da mdia dos resultados obtidos em cada uma das 10 iteraes.

4. Treino do sistema o treino do sistema consistiu na converso de todos os objectos


pertencentes partio de treino, recorrendo a todos os caminhos de migrao
seleccionados no ponto 1, e armazenando no E v a l u a t i o n s R e p o s i t o r y os
relatrios produzidos pelos vrios componentes de avaliao, i.e., M i g r a t i o n
B r o k e r , O b j e c t E v a l u a t o r e F o r m a t E v a l u a t o r . Os relatrios de
avaliao constituem a matria-prima que permite ao sistema produzir recomendaes.

5. Teste do sistema aps o treino do sistema, a sua preciso foi determinada


comparando as recomendaes produzidas pelo M i g r a t i o n A d v i s o r (com base
nos relatrios de migrao coleccionados durante o treino) com a alternativa de
migrao que efectivamente apresentou melhor qualidade de servio. Esta alternativa
foi determinada, a-pedido, para cada um dos objectos que constitua a coleco de
teste. Isto consistiu em converter cada um dos objectos de teste recorrendo a todas as
alternativas de migrao disponveis na plataforma, avaliar cada uma das converses
efectuadas e identificar, de entre estas, qual a melhor opo. Posteriormente, o ranking
ideal de opes foi comparado com o ranking recomendado pelo sistema. Um conjunto
de mtricas de comparao de rankings foi utilizado para aferir a preciso e a exactido
do sistema de recomendao. Nas experincias realizadas foi atribudo o mesmo peso
a todos os critrios da taxionomia geral de avaliao.

164
Figura 61 Teste do sistema de recomendao.

A Figura 61 apresenta os vrios passos que compuseram o processo de avaliao do


componente M i g r a t i o n A d v i s o r . O processo comea por recorrer ao E v a l u a t i o n s
R e p o s i t o r y para obter os vrios relatrios de migrao armazenados durante a fase de
treino do sistema. Depois, utilizando essa informao, o M i g r a t i o n A d v i s o r determina
para cada formato qual o ranking das melhores alternativas de migrao, i.e., aquelas que
garantem o maior nvel de preservao. De seguida, um dado objecto digital convertido
recorrendo a cada uma das alternativas de migrao disponveis na plataforma. Durante estas
converses so tambm produzidos, porm no armazenados, relatrios de avaliao que
relatam o desempenho de cada um dos caminhos de migrao utilizados. Esses relatrios so,
ento, utilizados para produzir um novo ranking, o ranking ideal das opes de migrao. Para
avaliar a qualidade das recomendaes produzidas pelo M i g r a t i o n A d v i s o r , o ranking
recomendado comparado com o ranking ideal. O valor que da resultar determina a
performance do sistema de recomendao.

5.2.1 Caracterizao da coleco de teste


Um dos formatos de imagem mais utilizados o J P E G F i l e I n t e r c h a n g e F o r m a t . O
elevado nvel de compresso caracterstico deste formato torna-o adequado a transferncias de
dados atravs da Internet. Este facto levou os construtores de Web browsers a adopt-lo e a
torn-lo num dos formatos mais disseminados do mundo. A recente adeso ao JPEG por
parte dos fabricantes de mquinas fotogrficas digitais veio fortalecer ainda mais a sua
prevalncia sobre todos os restantes formatos de imagem.

Um estudo estatstico realizado sobre material publicado em repositrios digitais de Acesso-


livre mostra que o JPEG claramente o formato de imagem mais utilizado para veicular
informao de carcter grfico. Logo de seguida encontra-se o T a g g e d I m a g e F i l e
F o r m a t , vulgarmente conhecido por TIFF (University of Southampton, 2007).

165
Acontece que o formato JPEG possui uma caracterstica que o debilita como formato de
preservao. Apesar de ser um formato amplamente disseminado, o que deve ser visto com
uma vantagem, o mtodo de compresso que implementa introduz deformaes na
informao grfica que constitui a imagem. Neste contexto, procurou-se determinar qual o
formato alternativo mais adequado para preservar imagens originalmente produzidas em
formato JPEG. Esta experincia serviu tambm o propsito de avaliar o componente
M i g r a t i o n A d v i s o r e a sua capacidade de recomendar opes de migrao.

Para dar inicio experincia, foi reunido um conjunto de imagens em formato JPEG 1.02.
Estas imagens foram recolhidas junto de repositrios digitais (sobretudo repositrios
institucionais) efectuando pesquisas atravs das suas interfaces OAI-PMH. O projecto
P r e s e r v da University of Southampton foi de extrema importncia neste processo, pois
permitiu obter ligaes directas para todos os objectos digitais de um dado formato
partilhados atravs deste tipo de repositrios (University of Southampton, 2007).

Junto destes repositrios foram recolhidas 8071 imagens em formato JPEG num total de 7.3
GB. A partir destas imagens foram criados subconjuntos de cardinalidade 10, 20, 50 e 100.
Cada um destes subconjuntos foi utilizado para treinar e testar o sistema de recomendao
recorrendo ao mtodo de validao cruzada descrito anteriormente. As imagens pertencentes a
cada um destes conjuntos foram seleccionadas aleatoriamente a partir do conjunto inicial de
8071 imagens. Este plano de treino teve como objectivo verificar se um aumento da
cardinalidade da coleco de treino resultaria num aumento da preciso e/ou exactido do
sistema de recomendao.

Cada um dos subconjuntos de objectos digitais utilizados durante o treino/teste do sistema


encontra-se descrito na Tabela 28.

Dimenso das imagens (Kb)


# Descrio da coleco Min Max Mdia
Fotografias obtidas a partir de cmaras digitais ilustrando
10 869 1263 1053 149
monumentos e peas museolgicas.
Fotografias a preto e branco digitalizadas, fotografias digitais de
20 15 1274 925 353
interiores de igrejas, fotografias digitais de exteriores.
Fotografias a preto e branco digitalizadas, fotografias digitais de
50 peas museolgicas, fotografias digitais de vitrais, monumentos, 11 1278 945 378
pinturas e iluminuras.
Fotografias a preto e branco digitalizadas, fotografias digitais de
100 peas museolgicas, fotografias digitais de vitrais, monumentos, 16 1278 996 324
pinturas, iluminuras e cartazes.

Tabela 28 Descrio das coleces de imagens utilizadas na


avaliao do componente Migration Advisor.

166
5.2.2 Seleco de caminhos de converso
Para dar incio avaliao do sistema de recomendao foi necessrio seleccionar um
subconjunto dos vrios caminhos de migrao passveis de ser utilizados na respectiva
experincia. Uma vez que os objectos includos na coleco de teste se tratavam de imagens
em formato JPEG File Interchange Format 1.02, os conversores seleccionados teriam
obrigatoriamente de suportar este formato.

Entre os caminhos de converso testados encontrava-se o C o n v e r s o r - i d e n t i d a d e , i . e . ,


um pseudo-conversor que no efectua qualquer tipo de transformao nos objectos digitais,
mas que fora os mesmos a serem avaliados pelos componentes M i g r a t i o n B r o k e r ,
F o r m a t E v a l u a t o r e O b j e c t E v a l u a t o r . Este conversor especial utilizado para
avaliar o risco incorrido em manter os objectos digitais no seu formato original (i.e., no
realizar qualquer migrao).

Ao utilizar o C o n v e r s o r - i d e n t i d a d e , os nicos critrios que sero efectivamente


avaliados so aqueles que dizem respeito s caractersticas tcnicas do formato uma vez que a
performance de converso sempre mxima (os objectos no chegam a ser convertidos, logo,
vence a todas alternativas no que toca ao desempenho de converso) e no h perda de
informao (os objectos resultantes da converso so iguais aos objectos de partida).

A Tabela 29 descreve os caminhos de converso utilizados na experincia realizada.

Caminho de converso Formato de chegada Descrio


Servio de converso suportado pela aplicao
[JPG2TIF] Tagged Image File Format, version 3
ImageMagick.
Servio de converso suportado pela aplicao
[JPG2JP2] JPEG 2000
ImageMagick.
Servio de converso suportado pela aplicao
[JPG2PNG] Portable Network Graphics, version 1.0
ImageMagick.
Servio de converso suportado pela aplicao
[JPG2BMP] Windows Bitmap, version 3.0
ImageMagick.
Servio de converso suportado pela aplicao
[JPG2TIF_2] Tagged Image File Format, version 3
"sam2p".
Servio de converso suportado pela composio
[JPG2BMP] > [BMP2TIF] Tagged Image File Format, version 3 dos servios de migrao JPG2BMP e BMP2TIF
anteriormente descritos.
A converso identidade permite ao sistema de
recomendao avaliar o potencial em termos de
Conversor-identidade JPEG File Interchange Format 1.02
preservao a longo-prazo de no realizar qualquer
converso, i.e., avaliar o risco da no migrao.

Tabela 29 Caminhos de converso utilizados na avaliao do


Migration Advisor.

167
Aps cada converso, todos servios de migrao, assim como formatos e objectos envolvidos
foram avaliados pelos componentes do CRiB responsveis pelo controlo de qualidade e os
resultados dessas avaliaes foram armazenados no E v a l u a t i o n s R e p o s i t o r y .

importante referir que estas avaliaes foram realizadas por caminho de migrao e no por
converso individual, i.e., no caso de migraes compostas por mais do que um conversor (e.g.
JPG-BMP seguido de BMP-TIF) as avaliaes foram efectuadas entre os objectos/formatos
de partida e os objectos/formatos de chegada (i.e., entre JPEG e TIF). Os objectos/formatos
intermdios (i.e., BMP) no foram avaliados. Em suma, uma migrao composta por vrios
conversores vista pelo sistema como uma converso atmica.

5.2.3 Treino e teste do sistema


O sistema de recomendao foi testado recorrendo ao mtodo de validao cruzada com
K = 10 (10 folds). Foram utilizadas quatro coleces de teste distintas com cardinalidade 10, 20,
50 e 100 com o objectivo de verificar se um aumento da cardinalidade da coleco de treino
resultaria num aumento da preciso e/ou exactido do sistema de recomendao.

A Tabela 30 apresenta o nmero de converses efectuadas para treinar/testar o sistema tendo


em considerao cada uma das coleces de teste. A tabela apresenta ainda os tempos de
converso e avaliao dos objectos em questo.

N de Tempo Tempo mdio


# (minutos/objecto)
converses (horas)
10 600 06h06 0.55
20 1200 11h03 0.55
50 3000 27h03 0.54
100 6000 58h02 0.58

Tabela 30 Dados relativos ao treino e teste do componente


Migration Advisor.

O nmero de converses efectuadas para uma dada coleco de teste descrito pela Equao
6, onde n representa a cardinalidade da coleco de teste, M o nmero de conversores
utilizados e K o nmero de parties utilizadas na validao cruzada. Neste caso concreto,
M = 6 (o conversor identidade no foi contabilizado uma vez que no possui tempo de
converso) e K = 10 .

c(n) = n M K

Equao 6 Nmero de converses mediante o tamanho da
coleco de teste.

168
Quando o M i g r a t i o n A d v i s o r questionado, este devolve uma lista ordenada (i.e.,
ranking) com as alternativas de migrao mais favorveis para preservar a longo-prazo um dado
formato digital tendo em considerao todas as avaliaes realizadas no passado pelo sistema.
A ordenao das alternativas depende dos pesos atribudos pelo utilizador aos critrios
suportados pelo sistema. Nas experincias realizadas neste contexto foi atribudo o mesmo
peso a cada critrio que constitui a t a x i o n o m i a g e r a l d e a v a l i a o .

Em termos gerais, um sistema de recomendao pode ser avaliado em termos da sua exactido
e da sua preciso.

As mtricas de e x a c t i d o tm como funo medir empiricamente a proximidade existente


entre um ranking de itens produzido por um sistema de recomendao e o ranking de itens
tomado como referncia (Herlocker, Konstan, Terveen, & Riedl, 2004). As mtricas de
exactido preocupam-se com a ordem dos itens e no com a pontuao que cada um desses
itens apresenta no ranking.

As mtricas de p r e c i s o , por sua vez, procuram determinar se um sistema de recomendao


capaz de prever a pontuao que um dado item ir receber no ranking de referncia, i.e.,
comparam a pontuao prevista para um item do ranking com a pontuao real desse item
(Herlocker et al., 2004).

Existem diversas mtricas que podero ser utilizadas para determinar a e x a c t i d o de um


sistema de recomendao, tais como: a correlao de Pearson, a correlao de Spearman ou a
correlao de Kendall Tau (Herlocker et al., 2004). A correlao de Pearson permite
determinar se existe uma relao linear entre a pontuao prevista de um dado item no ranking
(i.e., a pontuao do item no ranking recomendado) e a pontuao real que esse item deveria
assumir (i.e., a pontuao do item no ranking de referncia). As correlaes de Spearman e
Kendall Tau so correlaes entre rankings, i.e., permitem determinar em que medida dois
rankings so concordantes independentemente das pontuaes assumidas por cada um dos
itens que os constituem (i.e., comparam a posio de cada item no ranking e no as suas
pontuaes). A correlao de Kendall Tau superior de Spearman no que toca
comparao de rankings onde existem empates nas pontuaes dos seus itens (Herlocker et al.,
2004).

As principais vantagens deste tipo de mtricas so: facilitar a comparao de sistemas de


recomendao que possuam escalas de pontuao distintas, serem bem conhecidas da
comunidade cientfica e permitirem obter um valor nico de avaliao balizado entre dois
valores, geralmente -1 e 1.
169
Para determinar a p r e c i s o de um sistema de recomendao podero ser utilizadas mtricas
como a M e a n A b s o l u t e E r r o r ( M A E ) ou alguma das suas variantes: M e a n
Squared Error (MSE), Root Mean Squared Error (RMSE) e Normalized
M e a n S q u a r e d E r r o r ( N M S E ) (Herlocker et al., 2004).

A MSE e a RMSE diferem da MAE por elevarem o erro ao quadrado antes de o agrupar, o
que significa que erros superiores iro penalizar mais a avaliao final. A NMSE normaliza os
resultados tendo em considerao o domnio dos valores de entrada, permitindo desta forma
que os resultados obtidos possam ser comparados com os resultados de outras experincias
(Goldberg, Roeder, Gupta, & Perkins, 2001).

O M i g r a t i o n A d v i s o r foi avaliado quanto sua exactido segundo as mtricas de


correlao de Pearson, Spearman e Kendall Tau; e quanto sua preciso segundo o
Normalized Mean Squared Error (NMSE).

5.2.4 Resultados
Os resultados obtidos aps o treino do sistema com as coleces de teste anteriormente
descritas encontram-se resumidos na Tabela 31.

Exactido Preciso
# Pearson Spearman Kendall Tau NMSE
10 0.869 0.918 0.829 0.197
20 0.828 0.832 0.729 0.223
50 0.682 0.817 0.731 0.276
100 0.757 0.852 0.754 0.254

Tabela 31 Resultados da validao cruzada efectuada ao Migration


Advisor.

Os resultados demonstram que a qualidade geral das recomendaes produzidas pelo


M i g r a t i o n A d v i s o r elevada. Todas as coleces de teste utilizadas no treino do sistema
resultaram em nveis de correlao superiores a 0.68, sendo na sua maioria superiores a 0.8. O
erro de preciso mximo verificado foi de 28%.

A coleco de teste que apresentou melhores resultados foi, curiosamente, a mais pequena, i.e.,
a coleco de cardinalidade 10. Este facto adveio de um enviesamento imprevisto pelos
prprios objectos digitais que constituram a coleco. importante relembrar que as
coleces de treino/teste foram construdas aleatoriamente a partir de objectos recolhidos
junto de repositrios internacionais. Por coincidncia, a coleco de teste de cardinalidade 10
era constituda por um conjunto de objectos cujas dimenses possuam pouca variabilidade,

170
i.e., o desvio-padro em relao mdia das dimenses era cerca de metade do desvio
apresentado pelas restantes coleces de teste. Para determinar a validade desta hiptese,
preparou-se manualmente uma coleco de teste constituda por objectos manifestamente
diferentes. A nova coleco de teste de cardinalidade 10 encontra-se descrita na Tabela 32.

Dimenso das imagens (Kb)


# Descrio Min Max Mdia
Fotografias tiradas com cmaras digitais de paisagens, interiores e peas
102 museolgicas, fotografias a cores e preto e branco, posters e pginas de 7 1264 488 482
jornal digitalizadas.

Tabela 32 Caractersticas da nova coleco de teste de


cardinalidade 10.

Os resultados obtidos aps nova experincia encontram-se resumidos na Tabela 33. Como se
pode observar, o novo conjunto de resultados corrobora a hiptese levantada. Ao aumentar a
variabilidade da coleco de teste, a qualidade das recomendaes diminuiu. Na primeira
experincia realizada, os objectos utilizados no treino do sistema eram demasiado semelhantes,
fazendo com que o sistema de recomendao fosse incapaz de generalizar, ou seja, sofresse de
um fenmeno vulgarmente conhecido por overfitting (Tetko, Livingstone, & Luik, 1995).

Aumentar o nmero de objectos de treino e, consequentemente, a variabilidade das suas


propriedades fez com que o sistema de recomendao se tornasse mais genrico, i.e., menos
preciso, no entanto mais capaz de produzir recomendaes adequadas a um maior nmero de
situaes distintas.

Exactido Preciso
# Pearson Spearman Kendall Tau NMSE
102 0.553 0.639 0.600 0.349

Tabela 33 Resultados da validao cruzada efectuada ao Migration


Advisor com a nova coleco de teste de cardinalidade 10.

5.3 Consideraes finais

Este captulo teve como principal objectivo descrever os processos de avaliao desenvolvidos
em torno do CRiB e dos seus componentes. Estes processos de avaliao incidiram
especialmente sobre os componentes O b j e c t E v a l u a t o r e M i g r a t i o n A d v i s o r , uma
vez que so estes que apresentam o maior nmero de contributos cientficos e tecnolgicos.

171
No que diz respeito avaliao do O b j e c t E v a l u a t o r , esta teve como principal objectivo
aferir em que medida este componente capaz de determinar o nvel de degradao sofrido
por um objecto digital durante a sua migrao. Uma vez que os resultados produzidos por este
componente influenciam directamente as recomendaes efectuadas pelo M i g r a t i o n
A d v i s o r , tornou-se fundamental garantir que o primeiro produz resultados vlidos, de modo
a permitir a avaliao eficaz do segundo.

O O b j e c t E v a l u a t o r capaz de determinar o nvel de degradao sofrido por um objecto


digital convertido, comparando-o com o original e calculando o nvel de similaridade existente
entre ambos. O clculo de similaridade efectuado luz de um conjunto diversificado de
critrios. Alguns desses critrios so caracterizados por um elevado nvel de subjectividade, i.e.,
a sua avaliao varia consoante o interveniente que procura determinar a respectiva
similaridade.

Entre os vrios critrios suportados por este componente, especialmente no que diz respeito a
migraes entre formatos de imagem matricial, foram seleccionados dois critrios
manifestamente subjectivos: c o n f o r m i d a d e grfica e metainformao
e m b e b i d a . As funes de similaridade associadas a estes dois critrios foram avaliadas
segundo um protocolo experimental bem definido e um conjunto de mtricas de avaliao.

A avaliao do M i g r a t i o n A d v i s o r teve como principal objectivo determinar a


capacidade apresentada por este componente em produzir rankings de caminhos de migrao
(i.e., recomendaes) adequados preservao de um dado formato digital. Estes rankings
foram produzidos tendo em considerao os requisitos manifestados por uma entidade-cliente
e os relatrios de migrao acumulados ao longo do tempo no E v a l u a t i o n s R e p o s i t o r y .
Os rankings recomendados por este componente foram construdos com base no histrico de
migraes e comparados com os rankings ideais, calculados a-pedido para um conjunto de
objectos digitais de teste.

Para avaliar a qualidade dos rankings produzidos por este componente recorreu-se a um
mtodo de validao designado 10-fold cross-validation. Este mtodo consiste em particionar uma
coleco de teste em 10 partes iguais, utilizar 9 dessas partes para treinar o sistema e a parte
remanescente para testar o mesmo. Este procedimento foi repetido ao longo de 10 iteraes,
fazendo-se variar a partio de teste ao longo da coleco. Os vrios rankings foram ento
comparados segundo um conjunto de mtricas distintas, nomeadamente: as correlaes de
Pearson, Spearman e Kendall Tau e Normalized Mean Squared Error.

172
As avaliaes efectuadas a ambos os componentes revelaram valores elevados de desempenho.
No caso do O b j e c t E v a l u a t o r , este mostrou ser capaz de determinar eficazmente a
similaridade grfica entre duas imagens, apresentando valores de correlao acima dos 0.81
entre as opinies produzidas por avaliadores humanos e os mtodos automticos de clculo de
similaridade. No que toca capacidade para quantificar a deteriorao ao nvel da
metainformao embebida, este componente apresentou valores de correlao acima dos 0.96
quando comparada a mtrica de J a c c a r d com os valores de referncia associados
respectiva coleco de teste.

No caso do M i g r a t i o n A d v i s o r , as experincias realizadas revelaram que as


recomendaes produzidas por este componente possuem um elevado nvel de qualidade. As
vrias coleces de teste utilizadas durante o treino do sistema resultaram em nveis de
correlao superiores a 0.68 com erros de preciso inferiores a 28%.

173
174
Captulo 6
Implementaes do CRiB
Ao longo do seu desenvolvimento, o projecto CRiB suscitou o interesse de algumas equipas
tcnicas que lideram projectos na rea da preservao digital. O interesse manifestado por
estas equipas levou a que, em Novembro de 2007, a plataforma fosse disponibilizada de forma
gratuita e em cdigo-aberto para utilizao com fins educacionais e/ou de investigao122.
Desde ento, alguns projectos de I&D tm vindo a adoptar a plataforma CRiB, integrando-a
com os seus prprios sistemas e aperfeioando-a de modo a produzir servios mais eficientes e
adequados aos seus contextos de utilizao.

Este captulo descreve alguns dos projectos que usam actualmente os servios disponibilizados
pelo CRiB ou que construram servios inspirados nas funcionalidades oferecidas por esta
plataforma.

6.1 Planets
O Planets123 (Preservation and Long-term Access through Networked Services) trata-se de um
projecto de quatro anos co-financiado pela Unio Europeia no mbito do 6 Programa

122 Ver licena de uso e distribuio no Apndice 8.6, na pgina 221.


123 http://www.planets-project.eu/

175
Quadro que tem como objectivo o desenvolvimento de servios e ferramentas que facilitem o
acesso continuado a informao de mbito cultural e cientfico (Farquhar & Hockx-Yu, 2007).

O projecto Planets teve incio em Junho de 2006 e composto pelos seguintes parceiros
institucionais: Biblioteca Nacional da Gr-Bretanha, Biblioteca Nacional dos Pases Baixos,
Biblioteca Nacional Austraca, Biblioteca Real da Dinamarca, Biblioteca Estatal da Dinamarca,
Arquivos Nacionais dos Pases Baixos, Arquivo Nacional da Inglaterra, Gales e Reino Unido,
Arquivos Federais da Sua, Universidade de Colnia, Universidade de Freiburg, Universidade
de Glasgow, Universidade Tcnica de Viena, Centros de Investigao Austracos, IBM,
Microsoft Research Limited e a Tessella Support Services.

O projecto subdivide-se em vrias linhas de investigao em torno da preservao digital, tais


como: caracterizao de objectos digitais, desenvolvimento de servios de preservao,
planeamento de preservao, entre outros (Farquhar & Hockx-Yu, 2007). De uma dessas
linhas de investigao resultou uma aplicao designada Plato124 (Preservation Planning Tool).
Esta ferramenta permite a um utilizador planear uma interveno de preservao, testando um
conjunto de aces de preservao pr-definidas contra uma amostra de objectos da coleco
que se pretende preservar. A ferramenta executa as vrias aces de preservao sobre a
amostra fornecida e apresenta os resultados ao utilizador. A ferramenta avalia
automaticamente um conjunto de critrios objectivos, definidos para a classe de objectos
correspondente e oferece ao utilizador a possibilidade de associar manualmente um nvel de
satisfao ou qualidade aos restantes critrios considerados subjectivos. Baseada nessa
informao, a ferramenta produz uma lista das estratgias adequadas para preservar a coleco
de objectos pretendida (Becker, Ferreira et al., 2008; Becker, Kulovits et al., 2008).

O Plato integra na sua lista de aces de preservao o conjunto global de servios de


migrao disponibilizados pelo CRiB (Becker, Ferreira et al., 2008). A Figura 62 apresenta um
dos ecrs da ferramenta Plato onde pode ver-se um excerto dos servios disponibilizados pelo
CRiB e a forma como estes podem ser seleccionados pelo utilizador durante o processo de
teste das diferentes estratgias de preservao.

Actualmente, o trabalho desenvolvido em torno desta ferramenta centra-se na integrao de


servios de caracterizao de objectos digitais, servios de anlise e gesto de riscos e
desenvolvimento proactivo de relatrios de apoio tomada de deciso no contexto do
planeamento de preservao digital (Becker, Ferreira et al., 2008). Alguns destes servios

124 http://www.ifs.tuwien.ac.at/dp/plato/

176
podero eventualmente vir a ser construdos a partir de funcionalidades incorporadas no
CRiB.

Figura 62 Plato e os servios de migrao do CRiB.

6.2 RODA
A Direco-Geral de Arquivos125 (DGARQ) assume na sua misso institucional a
responsabilidade pela identificao e preservao de documentao de valor histrico como
meio de garantir e fomentar a memria individual e colectiva nacional. Em paralelo, as
iniciativas do Governo Electrnico determinam que a Administrao Pblica dever, cada vez
mais, basear a sua actividade em processos de negcio electrnicos com o intuito de agilizar e
assegurar um servio mais rpido, completo e transparente para o cidado. Este cenrio
evidencia um aumento da produo de informao digital, informao esta que, de acordo
com a misso da DGARQ, dever ver assegurado o seu valor evidencial atravs da garantia da
sua autenticidade (Barbedo et al., 2007).

125 http://www.dgarq.gov.pt

177
No sentido de suportar a incorporao e gesto de informao de arquivo produzida em
formatos electrnicos a DGARQ empenhou-se ao longo dos ltimos anos em desenvolver
processos, ferramentas e recursos capazes de dar resposta s necessidades de preservao da
informao digital produzida pela Administrao Pblica, cuja conservao continuada seja
considerada importante do ponto de vista patrimonial (Barbedo et al., 2007).

Neste contexto nasce o projecto RODA (Repositrio de Objectos Digitais Autnticos), um


projecto que visa a promoo da preservao digital a nvel nacional atravs do portal
RODA126 e o desenvolvimento de uma soluo tecnolgica, ultimada na construo de um
repositrio digital capaz de incorporar, descrever e dar acesso a todo o tipo de informao
digital produzida no contexto da Administrao Pblica nacional (Ramalho et al., 2008). A
Figura 63 apresenta a interface grfica do RODA.

Figura 63 Interface grfica do Repositrio de Objectos Digitais


Autnticos.

Os servios disponibilizados pelo CRiB so utilizados de forma transversal no mbito do


projecto RODA. O servio de identificao de formatos utilizado pelo RODA durante o

126 http://roda.dgarq.gov.pt

178
processo de ingesto, de modo a determinar qual a aco de preservao a aplicar no sentido
de normalizar os formatos recepcionados. Os servios de migrao so utilizados tanto para
normalizar os objectos para formatos de preservao como na transformao destes para
formatos mais leves e adequados ao consumo atravs da Web. Os servios de avaliao de
migrao (i.e., O b j e c t E v a l u a t o r ) so tambm utilizados para descrever o sucesso ou
insucesso de uma migrao e produzir metainformao de preservao em formato PREMIS
(Ramalho et al., 2008).

Ao contrrio do que acontece com a ferramenta Plato, cujo acesso aos servios do CRiB
efectuado de forma remota atravs da Internet, o RODA implementa o CRiB na sua rede
local. Isto garante a segurana e a privacidade dos dados e acelera todo processo de
transferncia de informao entre os componentes distintos do sistema.

Durante a implementao local do CRiB, a equipa de desenvolvimento do RODA identificou


algumas linhas adicionais de desenvolvimento que tornariam os servios disponibilizados pelo
CRiB consideravelmente mais eficientes. Assim, ao invs dos objectos digitais serem
transportados no interior de mensagens SOAP, estes passaram a ser referenciados atravs de
um URL, permitindo, deste modo, a utilizao de protocolos mais eficientes para transferir as
representaes (e.g. HTTP ou FTP) e evitar todo um conjunto de operaes de codificao e
descodificao para Base64 (Josefsson, 2006).

179
180
Captulo 7
Concluses e trabalho futuro
Este captulo tem como objectivo apresentar um conjunto de concluses que resultaram deste
trabalho de investigao.

O captulo comea com uma sntese do trabalho realizado, qual se segue uma enumerao
das principais concluses que dele foram retiradas. Segue-se uma apresentao dos contributos
mais relevantes e um conjunto de linhas de trabalho a realizar no futuro.

7.1 Sntese
A obsolescncia tecnolgica um problema que afecta organizaes e indivduos num mundo
cada vez mais digitalizado. Com o aumento da desmaterializao e o crescimento acentuado
da pegada tecnolgica associada a cada individuo, a preservao digital passa a ser relevante,
no apenas para quem se preocupa com a salvaguarda de informao de conservao
permanente, mas tambm para todos aqueles que consomem e produzem informao digital
no seu dia-a-dia e da qual dependem grande parte dos seus processos de negcio, lazer,
comunicao, memria, etc.

Ao longo desta tese abordaram-se vrias temticas relacionadas com a preservao digital.
Foram tambm tocadas diversas reas cientficas na demanda por uma soluo tecnolgica que
permitisse atenuar a ansiedade dos profissionais responsveis por gerir informao digital.
181
Deste processo resultou um conjunto de ferramentas que facilita a implementao de
estratgias de preservao de informao digital baseadas em migrao de formatos.

Ainda neste contexto, procurou-se evidenciar a necessidade de encontrar e implementar


mecanismos capazes de auxiliar organizaes e indivduos na realizao de tarefas anexas
preservao digital. Foi tambm argumentado que esses mecanismos deveriam ser,
simultaneamente, adaptveis s necessidades da entidade preservadora, tanto em termos de
oramento como em termos de qualidade de servio, e reduzir ao mximo a necessidade de
interveno humana sem que houvesse prejuzo da autenticidade dos materiais a preservar.

Este conjunto de objectivos pode ser resumido numa nica questo de investigao:

Qual o conjunto de servios que permite implementar, de forma transversal e automtica, todos os
processos inerentes migrao de objectos digitais num contexto de preservao digital, sem que
haja prejuzo da sua autenticidade?

De forma a dar resposta a esta questo de investigao foi construdo um sistema, baseado
numa arquitectura orientada ao servio, composto por um conjunto de servios independentes
que quando invocados de forma orquestrada permitem dar resposta aos objectivos
previamente delineados.

Assim, em jeito de resenha, poder-se- descrever os contedos desta tese da seguinte forma: a
tese comea com uma introduo problemtica da preservao digital, onde so abordados
temas como o conceito de objecto digital, o modelo de referncia OAIS, estratgias de
preservao digital, directrios de formatos, critrios para a autenticidade, metainformao de
preservao e modelos de avaliao de estratgias de preservao.

A tese continua, em espiral, com um enquadramento terico que facilita a compreenso das
diferentes etapas de um processo de migrao, estratgia de preservao adoptada ao longo
desta tese para efeitos de prova de conceito. ainda apresentado um cenrio de preservao
que facilita a identificao das principais dificuldades com as quais um profissional da rea da
gesto de informao se debate, servindo assim de ponto de partida para a identificao do
conjunto mnimo de servios que garante a automatizao de processos de preservao
baseados em migrao. ainda descrito, em detalhe, um conjunto de ferramentas que permite
implementar servios de preservao e que serviu de base para a construo do sistema
apresentado nesta tese.

182
Num captulo subsequente apresentado o CRiB, um sistema baseado em servios que
procura dar resposta questo de investigao previamente enunciada. Ainda nesse captulo,
so apresentadas as taxionomias de avaliao utilizadas pelos processos de controlo de
qualidade e recomendao implementados pelo CRiB.

Aps a descrio do sistema, apresentada a metodologia de avaliao dos seus componentes


e as experincias realizadas em torno da plataforma que permitiram aferir a sua adequabilidade
aos objectivos propostos.

Seguiu-se, ainda, uma breve descrio dos projectos RODA e Planets, de relevncia nacional e
internacional, respectivamente, que adoptaram partes da plataforma CRiB ao longo dos seus
desenvolvimentos.

7.2 Concluses e discusso


Em boa medida as principais concluses a retirar deste trabalho foram j expostas e discutidas
ao longo de captulos anteriores. No obstante, esta seco apresenta um compndio de todas
essas notas conclusivas.

Tomando como base a questo de investigao previamente enunciada, pode-se concluir que o
seguinte conjunto de servios suficiente para implementar procedimentos automticos de
preservao (nesta fase, baseados exclusivamente em migrao de formatos) que operem
transversalmente sobre coleces de objectos digitais:

Servio de identificao de formatos fundamental para a obteno de um


mapa dos formatos que constituem a coleco de objectos a preservar.
Mediante esta informao poder-se- tomar decises quanto melhor
estratgia de preservao a tomar. No contexto do CRiB, este servio foi
implementado pelo componente F o r m a t I d e n t i f i e r ;

Servio de notificao de obsolescncia servio necessrio para garantir a


automatizao dos processos de preservao. Este servio monitoriza
permanentemente o contexto tecnolgico vigente e determina o nvel de
obsolescncia de um dado formato e os riscos associados sua conservao.
Numa situao de ruptura tecnolgica eminente, informa o sistema de
preservao que dever iniciar uma interveno de preservao. Este
componente no foi desenvolvido no mbito deste projecto uma vez que j se

183
encontrava em desenvolvimento pela Biblioteca Nacional da Austrlia
AONS (Curtis et al., 2007; Pearson, 2008);

Servio de converso de formatos servio responsvel pela execuo de


aces de preservao. No contexto desta tese apenas foram exploradas
alternativas de preservao baseadas na migrao de formatos. O CRiB
implementa uma rede de servios de migrao que podem ser invocados de
forma individual ou composta e que asseguram a converso entre dezenas de
formatos recorrendo a centenas de caminhos de migrao alternativos. O
componente responsvel pela gesto da rede de servios de migrao designa-
se, neste contexto, por S e r v i c e R e g i s t r y e o componente responsvel por
executar as respectivas converses intitula-se M i g r a t i o n B r o k e r ;

Servio de controlo de qualidade os conversores no so todos iguais e as


converses no so sempre perfeitas. Este servio responsvel por aferir a
qualidade de uma converso e subsequentemente do conversor ou conversores
utilizados. No contexto do CRiB, este servio assegurado por trs
componentes distintos: o M i g r a t i o n B r o k e r , responsvel pelo controlo de
qualidade ao nvel da performance de migrao, o F o r m a t E v a l u a t o r ,
responsvel por aferir o ganho em termos de capacidade de preservao que se
obteria se se realizasse uma converso entre dois formatos e, finalmente, o
O b j e c t E v a l u a t o r , responsvel por determinar o grau de degradao
incorrido ao nvel das propriedades significativas que constituem o objecto
digital que se pretende preservar;

Servio de auxlio seleco de estratgias de converso um objecto,


formato ou classe de objectos pode ser convertido para um grande nmero de
formatos distintos. Uma migrao pode ser realizada recorrendo a uma
multitude de ferramentas de converso. Este servio permite identificar, de
entre todas as opes reconhecidas pelo sistema, qual a que garante o maior
nvel de satisfao da entidade preservadora. O CRiB materializa este conceito
atravs do seu componente M i g r a t i o n A d v i s o r , i . e . , um servio de
recomendao de alternativas de migrao que tem em considerao factores
como performance, adequabilidade dos formatos a preservao a longo-prazo
e conservao de propriedades significativas.

184
Para alm da identificao dos servios necessrios implementao transversal e automtica
de estratgias de preservao, foi tambm fundamental assegurar que estes eram capazes de
garantir a autenticidade dos materiais. A verificao desta premissa foi alcanada de duas
formas distintas. O recurso ao M i g r a t i o n A d v i s o r garante que, num dado instante, uma
interveno de preservao ser implementada recorrendo melhor alternativa de migrao
conhecida pelo sistema. O M i g r a t i o n A d v i s o r analisa todas as migraes realizadas no
passado e determina qual o caminho de migrao que maximiza a conservao das
propriedades significativas do objecto que se pretende preservar. O caminho recomendado
pelo M i g r a t i o n A d v i s o r procura ainda suprir os requisitos da entidade preservadora ao
nvel do custo, performance e adequabilidade dos formatos envolvidos para preservao a
longo-prazo.

O CRiB tem ainda outra medida de salvaguarda no que toca autenticidade dos materiais.
Aps uma migrao, o objecto digital resultante comparado com o objecto submetido a
migrao. Dessa comparao resulta um relatrio onde se incluem todas as propriedades
significativas do objecto original que foram testadas e informao sobre o nvel de degradao
detectado. Este relatrio constitui, efectivamente, o que geralmente se designa por
metainformao de preservao, i.e., metainformao que documenta todas as intervenes de
preservao a que um dado objecto foi sujeito e qual o efectivo resultado de cada uma dessas
intervenes. A conservao deste relatrio junto da metainformao que acompanha o
objecto digital , por si s, condio suficiente para garantir a autenticidade dos materiais
preservados. importante referir que a conservao deste relatrio garante a autenticidade dos
materiais e no a preservao dos mesmos da forma mais adequada.

No sentido de atestar a viabilidade do CRiB como uma possvel materializao dos objectivos
delineados para este trabalho, foram implementados processos de validao para os principais
componentes que constituem o sistema.

A questo de investigao reala a necessidade de existncia de servios capazes de


implementar automtica e transversalmente estratgias de preservao baseadas em migrao.
Como foi visto ao longo desta tese, a implementao de uma estratgia de migrao pressupe
o desenvolvimento de trs actividades fundamentais: a seleco de uma alternativa de
migrao, a converso dos materiais propriamente dita e o controlo de qualidade da respectiva
converso. O CRiB disponibiliza um conjunto de servios suportados por componentes de
software que tm como misso materializar cada uma destas actividades. Esses componentes
so, respectivamente, o M i g r a t i o n A d v i s o r , o M i g r a t i o n B r o k e r e o O b j e c t
E v a l u a t o r . Nesta tese foram desenvolvidas experincias no sentido de validar cada um

185
destes componentes, exceptuando o M i g r a t i o n B r o k e r . Este componente no foi
validado uma vez que apenas apresentava dois estados possveis de execuo: sucesso (a
converso resultou num novo objecto digital) ou insucesso (a converso falhou e no
devolveu qualquer objecto). Os casos de insucesso decorrem da submisso de objectos
corrompidos ou no compatveis com os conversores utilizados, ou a falhas na rede que
impeam a comunicao entre os vrios componentes do sistema. Os restantes dois
componentes, dada a sua complexidade, exigiram um nvel superior de rigor ao longo da sua
avaliao.

O O b j e c t E v a l u a t o r tem como misso determinar o nvel de degradao incorrido


durante um processo de migrao ao nvel das propriedades significativas de um objecto. Os
resultados produzidos por este componente so utilizados pelo M i g r a t i o n A d v i s o r na
identificao dos servios de migrao que maximizam a conservao de propriedades
significativas de uma dada classe de objectos. Este componente funciona comparando o
objecto que resultou de uma migrao com o objecto original do qual este foi derivado e
determinando o nvel de similaridade existente ao nvel das suas propriedades significativas.

A avaliao do O b j e c t E v a l u a t o r foi realizada apenas no domnio das i m a g e n s


m a t r i c i a i s . Foram seleccionadas duas propriedades significativas consideradas subjectivas:
c o n f o r m i d a d e g r f i c a e m e t a i n f o r m a o e m b e b i d a . Foram ainda analisadas
vrias funes de similaridade para cada uma destas propriedades, nomeadamente: RMSE,
UQI, SSIM e CBM.

Para cada propriedade seleccionada foi construda uma coleco de teste constituda por
objectos digitais em diversos formatos pertencentes classe escolhida (i.e., i m a g e n s
m a t r i c i a i s ). A coleco de teste foi avaliada manualmente por um conjunto de
intervenientes humanos e, posteriormente, pelos algoritmos automticos de clculo de
similaridade. Os resultados produzidos por ambos foram ento comparados recorrendo a um
conjunto de mtricas comummente utilizadas neste tipo de avaliaes (para mais detalhes,
consultar a Seco 5.1 na pgina 134).

Este componente revelou ser capaz de determinar eficazmente a similaridade grfica entre
duas imagens, apresentando valores de correlao superiores a 0.81 entre as opinies
produzidas pelos avaliadores humanos e os mtodos automticos de clculo de similaridade
analisados. No que toca capacidade para quantificar a deteriorao ao nvel da
metainformao embebida, este componente apresentou valores de correlao acima dos 0.96

186
quando comparada a mtrica de J a c c a r d com os valores de referncia associados
respectiva coleco de teste.

A avaliao do M i g r a t i o n A d v i s o r , por sua vez, teve como principal objectivo


determinar a sua capacidade para produzir rankings de caminhos de migrao (i.e.,
recomendaes de servios de migrao) que maximizassem a qualidade da preservao
baseando-se exclusivamente no seu conhecimento de migraes realizadas anteriormente. O
conceito de q u a l i d a d e dependeria, obviamente, dos requisitos manifestados pela entidade-
cliente que invocou o servio de recomendao.

Para avaliar a qualidade dos rankings produzidos por este componente recorreu-se a um
mtodo de validao designado 10-fold cross-validation. O sistema de recomendao foi treinado
efectuando centenas de converses entre formatos distintos e acumulando os relatrios de
avaliao numa base de conhecimento. Cada converso realizada permitia ao sistema
reconhecer os servios de migrao que exibiam melhor qualidade de servio em termos de
preservao. Os rankings produzidos com base em migraes passadas foram ento
comparados com os rankings ideais, i.e., aqueles que efectivamente maximizavam a qualidade da
converso para um dado objecto digital. Para determinar o ranking ideal, todos os objectos
pertencentes coleco de teste foram convertidos recorrendo a todos os servios de
migrao conhecidos pelo sistema.

Os rankings ideais e os rankings baseados em migraes passadas foram comparados recorrendo


a um conjunto de mtricas frequentemente utilizadas na comparao de rankings: correlao de
Pearson, Spearman e Kendall Tau e Normalized Mean Squared Error. Na avaliao deste
componente foram utilizadas coleces de treino/teste de cardinalidade 10, 20, 50 e 100.

As experincias realizadas em torno do M i g r a t i o n A d v i s o r revelaram que as


recomendaes baseadas em migraes passadas possuem um elevado nvel de correlao com
os rankings ideais dos objectos digitais includos nas coleces de teste. Os testes realizados
resultaram em valores de correlao compreendidos entre 0.68 e 0.85 com um erro de preciso
mximo de 34.9%.

Com base nos resultados obtidos, conclui-se que o CRiB responde de forma aceitvel
questo de investigao definida no incio desta investigao. A prova de conceito aqui
apresentada permite concluir que possvel materializar um conjunto de servios capazes de
implementar de forma automtica processos de migrao de objectos digitais sem haja
prejuzo da sua autenticidade.

187
importante referir que, para que o CRiB possa ser implementado de forma eficaz e prtica,
necessrio que os objectos digitais se encontrem acessveis plataforma de servios. Isso
implica a existncia de um agente ou componente de software responsvel por desencadear os
processos de preservao a partir do ambiente onde os objectos se encontram residentes. Esse
agente dever consultar periodicamente o servio de notificao de obsolescncia e mediante a
resposta obtida desencadear medidas reactivas junto dos restantes servios do CRiB.

Adicionalmente, para garantir a autenticidade dos materiais, fundamental a existncia de um


sistema de gesto de informao capaz de associar metainformao de preservao (e tambm
de outros tipos) aos objectos intervencionados. No domnio organizacional, o recurso a
repositrios digitais facilita esta tarefa uma vez que o ambiente onde os objectos residem
incorpora, de base, as funcionalidades necessrias para suprir esta necessidade.

No domnio domstico, estes requisitos so mais difceis de reunir uma vez que os sistemas
operativos no os satisfazem de forma natural. Uma soluo vivel no domnio domstico
consiste no desenvolvimento de uma aplicao que corre em segundo plano (tal como um
antivrus) e que tem como objectivo monitorizar o estado de obsolescncia dos objectos
digitais presentes no sistema. Quando um objecto digital marcado como estando num
formato em vias de se tornar obsoleto so desencadeados mecanismos automticos de
migrao e produo de metainformao de preservao que so geridos automaticamente por
este agente de software. Esta aplicao poder tambm responsabilizar-se por efectuar cpias
de segurana de objectos modificados para suportes fsicos externos127.

H ainda dois aspectos relacionados com o CRiB que no foram devidamente trabalhados e
que merecem alguma discusso. Estes so: desempenho e segurana. A comunicao entre os
vrios componentes do CRiB efectuada atravs de Web services. Esta tecnologia apresenta
algumas vantagens quando comparada com outras tecnologias de comunicao entre
processos. Entre as principais vantagens encontra-se o facto de se basearem em normas
suportadas por organismos internacionais, terem um elevado nvel de adopo por parte da
indstria de software e sobretudo por permitirem a interoperabilidade entre linguagens de
programao, sistemas operativos e arquitecturas de hardware128.

127 A verso 10.5 do sistema operativo Mac OS X acompanhada de um aplicao chamada Time Machine que efectua
automaticamente cpias de segurana dos ficheiros modificados durante a utilizao do sistema.
128 H relatos de incompatibilidade entre algumas plataformas, mas que podero ser evitados recorrendo a boas prticas de

programao durante o desenvolvimento de Web services.

188
Apesar das suas considerveis vantagens, os Web services carecem de muita largura de banda,
o que geralmente resulta em tempos de transmisso excessivamente longos. Isto deve-se ao
facto de as mensagens trocadas serem codificadas em XML/SOAP que, por ser auto-
descritivo, tambm demasiado verboso. Uma implementao prtica do CRiB necessitaria,
portanto, de alguma optimizao ao nvel da comunicao, como alis j comeou a ser
realizada durante a adaptao do mesmo ao projecto RODA (ver Seco 6.2 na pgina 177).
Contudo, de realar a vulgarizao de redes Gigabit e fibra ptica, assim como o exponencial
aumento da largura de banda no acesso Internet. Com o tempo, o evoluir destas tecnologias
ir gradualmente mitigar este problema.

No que diz respeito segurana, o CRiB abre caminho para um vasto leque de
desenvolvimentos adicionais. Num contexto de preservao a segurana dos dados
absolutamente fundamental. O modelo descentralizado defendido nesta tese, em que vrios
intervenientes competem numa arena comum pela prestao de servios de migrao, propicia
ainda mais o problema da segurana dos dados. O modelo apresentado permite que terceiros
manipulem os dados que se pretendem preservar, o que poder constituir um risco
integridade conceptual do objecto preservado. O CRiB incorpora mecanismos de controlo de
qualidade que minimizam esse risco. Contudo, no sentido de se construir um ambiente de
mtua confiana em torno da plataforma, seria fundamental definirem-se contratos entre os
diversos intervenientes, i.e., prestadores de servio, intermedirios e entidades-cliente. Esses
contratos devero incorporar variados aspectos relacionados com servio prestado, detalhando
procedimentos e parmetros ao nvel da segurana e manipulao de dados, confidencialidade,
responsabilidades assumidas, garantias e mecanismos de monitorizao e/ou fiscalizao.

No que toca segurana dos dados durante a transmisso, deve acrescentar-se que os Web
services podem operar sobre protocolos HTTP/SSL (Hypertext Transfer Protocol/Secure
Socket Layer) minimizando, assim, o risco de inspeco por terceiros.

Outro ponto que merece ser alvo de discusso o da obsolescncia da prpria plataforma de
preservao. Como natural, chegar um momento em que o sistema apresentado deixar de
possuir as condies necessrias para poder operar eficazmente. O CRiB, como qualquer
outro sistema informtico, depende do bom funcionamento de vrios elementos,
inclusivamente daqueles que constituem a sua infra-estrutura tecnolgica (e.g. hardware,
sistemas operativos, linguagens de programao, tecnologias de comunicao, etc.). Esses
elementos so suportados por diversos fabricantes e fornecedores de servio que podero a
qualquer momento ser alvo de ruptura institucional (e.g. falncia, aquisio por terceiros,
cessao de suporte dos seus produtos, entre outros). Esta situao colocaria em risco a

189
viabilidade da plataforma de servios aqui apresentada. O CRiB procura mitigar este problema
recorrendo a tecnologias abertas amplamente utilizadas pela comunidade de desenvolvimento
de tecnologias de informao:

Hardware o CRiB foi desenvolvido e testado em arquitecturas de hardware baseadas


no x86, a arquitectura de hardware comercialmente mais bem sucedida da histria.
Adicionalmente, os componentes centrais do CRiB foram desenvolvidos em Java, o
que significa que so executados por uma mquina virtual dotada do seu prprio
instruction set, no estando dependentes de uma arquitectura de hardware especfica. O
CRiB pode funcionar harmoniosamente em qualquer arquitectura de hardware e/ou
sistema operativo para a qual exista uma implementao da Java Virtual Machine.
importante referir que a especificao da Java Virtual Machine aberta129 e que existem
actualmente implementaes para plataformas to diversas como a Solaris SPARC,
Sun Java Desktop System, Linux (todas as distribuies), Windows 98, Windows ME,
Windows 2000 (SP4+), Windows XP (SP1 SP2), Vista, Windows 2003, bem como
para uma srie de dispositivos mveis.

Sistema operativo o CRiB um sistema distribudo onde cada um dos seus


componentes pode ser executado num n de processamento distinto. Cada um desses
ns pode possuir o seu prprio sistema operativo desde que possua uma
implementao da mquina virtual Java. A maioria dos componentes que constituem o
CRiB foram testados em sistemas operativos Linux. No entanto, alguns dos servios
de migrao incorporados foram desenvolvidos para plataformas Windows devido ao
facto de se basearem em aplicaes de software que apenas existiam neste sistema
operativo.

Linguagens de programao O CRiB foi desenvolvido em Java, uma linguagem de


programao bem conhecida da comunidade de desenvolvimento e cuja especificao
pode ser publicamente inspeccionada130. Esta linguagem foi inicialmente desenvolvida
pela Sun Microsystems131, no entanto, devido ao facto de a sua especificao ser aberta,
existem j vrias dezenas de implementaes paralelas que apresentam optimizaes
especficas para certas arquitecturas de hardware.

129 http://java.sun.com/docs/books/jvms/
130 http://java.sun.com/docs/books/jls/
131 http://www.sun.com/

190
Tecnologias de comunicao A comunicao entre os diversos componentes do
sistema foi implementada recorrendo a Web services. Esta tecnologia define um
conjunto de protocolos que permite a transferncia de informao entre diferentes
componentes ou aplicaes, independentemente da linguagem de programao ou da
infra-estrutura tecnolgica que os suporta. Os Web services funcionam sobre o
protocolo HTTP (Hypertext Transfer Protocol com ou sem SSL), um protocolo
amplamente utilizado e que serve de base World Wide Web.

O CRiB dever ser visto como um componente externo ao ambiente de preservao onde
residem os objectos digitais cujo acesso se deseja continuado. Este sistema tem apenas como
objectivo a prestao de servios de preservao e poder ser encarado sob uma perspectiva de
outsourcing aplicacional. O desaparecimento do CRiB no coloca em risco os objectos digitais,
apenas os servios que facilitam a implementao de estratgias de preservao.

Para alm do disposto, o sistema apresentado ao longo desta tese deve ser visto como um
modelo e no como um produto. Todos os seus componentes poderiam ter sido
desenvolvidos recorrendo a tecnologias inteiramente distintas das que foram adoptadas.

As tecnologias adoptadas no mbito deste projecto foram aquelas que apresentavam um nvel
de maturidade superior e que facilitavam a rpida prototipagem. Simultaneamente, estas
tecnologias permitiram o desenvolvimento de sistemas interoperveis e multiplataforma. Neste
contexto, importante referir que o problema que a preservao digital se prope resolver
pode ser visto como um problema de interoperabilidade. Um problema de interoperabilidade,
no entre sistemas contemporneos (interoperabilidade no espao), mas entre sistemas que
ainda no foram desenvolvidos (interoperabilidade no tempo). Para que um sistema de
preservao possa ser considerado eficaz, este deve ser interopervel pelo menos com os
sistemas que lhe so contemporneos.

7.3 Contributos
Esta tese rene em si um conjunto de contributos que so considerados relevantes para
diferentes contextos de aplicao. Estes foram agrupados de acordo com o pblico a que se
destinam:

Contributos para entidades carentes de preservao digital

191
A implementao de mecanismos de controlo de qualidade que permitem aferir de
forma automtica a quantidade de informao e/ou funcionalidades perdidas durante
um processo de migrao;

Capacidade de preservar objectos digitais recorrendo a tcnicas de converso de


formatos sem que haja necessidade de implementar localmente complexos sistemas de
migrao;

A capacidade de obter relatrios com detalhes tcnicos sobre o resultado de uma


migrao, permitindo assim documentar uma interveno de preservao e deste
modo assegurar a autenticidade dos materiais intervencionados;

A possibilidade de comparar diferentes alternativas de migrao e identificar, de forma


objectiva, qual destas a mais adequada para satisfazer as suas necessidades
organizacionais.

Contributos para a indstria de software

A possibilidade de disponibilizar e/ou vender aplicaes de converso atravs da infra-


estrutura de servios desenvolvida;

A capacidade de avaliar de forma objectiva a qualidade geral de aplicaes de


converso recorrendo a dezenas de critrios de avaliao;

A possibilidade de comparar o desempenho de aplicaes de converso com o


desempenho de centenas de outras numa arena imparcial que favorece a concorrncia;

Um modelo para a avaliao de migraes que poder ser implementado em aplicaes


de software dotadas de capacidade de exportao de dados para vrios formatos. Esta
funcionalidade permite ao utilizador identificar os formatos de exportao mais
adequados para armazenar objectos produzidos no mbito de uma dada aplicao;

A agregao de um conjunto de mtricas de similaridade de imagens e a sua traduo


para a linguagem de programao Java.

Contributos para a investigao em preservao digital

192
A publicao de uma reviso de literatura em lngua portuguesa que inclui uma
introduo aos principais conceitos e estratgias relevantes no domnio da preservao
digital. Esta reviso de literatura foi publicada em livro e disponibilizada na Internet
em acesso livre132 - Ferreira, Miguel - "Introduo preservao digital : conceitos,
estratgias e actuais consensos". Guimares : Escola de Engenharia da Universidade
do Minho, 2006. ISBN 978-972-8692-30-8.

A identificao e caracterizao de diferentes servios e componentes funcionais que


possibilitam a implementao de estratgias de preservao baseadas em migrao sem
que haja prejuzo da autenticidade dos materiais;

A modelao e desenvolvimento de uma arquitectura orientada ao servio capaz de


avaliar o desempenho de uma migrao segundo mltiplos critrios, nomeadamente:
performance operacional, aptido dos formatos envolvidos e quantificao da
informao perdida durante a interveno de preservao;

A recolha e desenvolvimento de funes de similaridade adequadas a diferentes tipos


de propriedades que permitem aferir, de forma objectiva, o nvel de degradao
incorrido ao nvel das propriedades significativas de um objecto digital durante uma
migrao de formatos.

7.4 Trabalho futuro


Cada desafio conquistado ao longo desta tese abriu portas para novos desenvolvimentos.
Tendo conscincia do imenso trabalho que ficou por realizar, seguem-se algumas linhas de
trabalho futuro.

O sistema actual pode ser profundamente melhorado se for adicionado suporte para:
mais formatos de objectos digitais, mais propriedades significativas e a possibilidade de
efectuar migraes entre formatos pertencentes a classes distintas (e.g. migrao de
documentos de texto para imagens matriciais);

Ao longo deste trabalho foi possvel constatar que, regra geral, os conversores no
possuem um comportamento constante, ou seja, conforme as caractersticas do

132 O livro Introduo preservao digital Conceitos, estratgias e actuais consensos foi at data descarregado mais de
8000 vezes, maioritariamente por pessoas oriundas do Brasil, Portugal, Argentina, Estados Unidos, Espanha, Peru, Angola e
Uruguai.

193
objecto a processar estes apresentam diferentes nveis de performance computacional.
Seria importante realizar um estudo no sentido de se apurar que factores influenciam
de forma directa o tempo de converso de objectos digitais em diferente formatos;

Investigar mtodos e tecnologias que permitam incorporar na arquitectura de servios


outras estratgias de preservao para alm da migrao, como por exemplo,
emulao. Este ponto envolve o desenvolvimento de mecanismos que permitam a
execuo remota de aces de preservao no baseadas em migrao, a reunio de
critrios de qualidade adequados estratgia de preservao adoptada e a
implementao de mecanismos capazes de extrair e comparar critrios que garantam a
avaliao da sua qualidade;

Actualmente, o componente M i g r a t i o n A d v i s o r produz recomendaes com


base nos dados recolhidos a partir de todas as migraes efectuadas no passado. Seria
interessante investigar se a implementao de um mecanismo de esquecimento,
onde apenas seriam consideradas as converses mais recentes, poderia resultar no
melhoramento efectivo da qualidade das recomendaes. Este mecanismo garantiria
que as recomendaes eram calculadas com base nas converses realizadas mais
recentemente;

Estudar formas de garantir a segurana dos dados num ambiente distribudo onde os
vrios intervenientes tm a capacidade de ler e manipular a informao que se
pretende preservar, havendo assim um potencial risco sua integridade;

Actualmente, o CRiB recomenda servios de migrao com base no formato do


objecto que se pretende preservar. Como trabalho futuro seria fundamental dotar o
CRiB de capacidade para analisar os constituintes internos dos objectos digitais de
forma a identificar com maior rigor qual o servio de migrao mais adequado sua
converso. O mesmo se aplica ao componente responsvel pelo controlo de qualidade
ao nvel das propriedades significativas, i.e., o O b j e c t E v a l u a t o r . Este deveria ser
capaz de, por exemplo, comparar uma a uma as imagens contidas num documento de
texto com as imagens existentes na sua verso original;

No sistema actual, a entidade-cliente precisa de especificar os seus requisitos de


preservao para que o sistema seja capaz de recomendar um conjunto de migradores
adequado s suas preferncias. Esta actividade realizada atribuindo pesos
taxonomia geral de avaliao apresentada pelo sistema no momento que antecede a
recomendao de servios de migrao. Seria interessante desenvolver um estudo no
194
sentido de identificar quais os perfis de preservao mais comuns entre as mais
diversas entidades-cliente. Alternativamente, o componente M i g r a t i o n
K n o w l e d g e B a s e poderia guardar as taxonomias pesadas pelas vrias entidades-
cliente e usar essa informao para automaticamente determinar o perfil do utilizador
comum;

Desenvolver um estudo no sentido de determinar quais os formatos de preservao


recomendados para as duas classes de objectos digitais suportadas pelo CRiB, i.e.,
documentos de texto e imagens matriciais;

Implementar um mecanismo que permitisse ao CRiB obter feedback por parte dos seus
utilizadores de modo aferir o seu nvel de satisfao face s recomendaes e
migraes realizadas. Este mecanismo poderia ser utilizado para melhorar as
recomendaes produzidas pelo M i g r a t i o n A d v i s o r ;

Testar o sistema com um motor de orquestrao de servios (e.g. WS-BPEL) de modo


a optimizar a seleco e execuo de fluxos de Web services (permite optimizar a
execuo de converses compostas);

Actualmente, o CRiB calcula a qualidade de uma migrao tendo por base um


caminho de migrao completo. No entanto, durante um processo de migrao um
objecto digital pode ser alvo de diversas converses intermdias. Seria interessante
desenvolver um estudo no sentido de aferir se a qualidade associada a uma migrao
composta igual ao somatrio da qualidade das suas converses intermdias. Este
estudo abriria portas para a criao de uma lgebra capaz de prever o comportamento
de redes de conversores;

Estudar novos modelos de negcio capazes de sustentar a manuteno e o


desenvolvimento da plataforma que sejam, simultaneamente, apelativos para
produtores de servios de preservao e seus consumidores.

195
196
Captulo 8
Apndices
Este captulo inclui todos os apndices considerados necessrios para garantir a completude
desta tese. O captulo est organizado da seguinte forma: a seco 8.1 descreve as ferramentas
e bibliotecas utilizadas pelo componente O b j e c t E v a l u a t o r na extraco de propriedades
significativas de objectos digitais; a seco 8.2 apresenta um exemplo de uma T a x i o n o m i a
g e r a l d e a v a l i a o ; a seco 8.3 descreve formalmente e em detalhe as funes de
similaridade utilizadas para comparar propriedades extradas a partir de objectos digitais; a
seco 8.4 descreve o teste no-paramtrico de Wilcoxon; a seco 8.5 descreve genericamente
o mtodo de validao cruzada; e finalmente, a seco 8.6 apresenta a licena de uso e
distribuio da plataforma CRiB.

8.1 Ferramentas de extraco de propriedades


Este apndice apresenta as bibliotecas e ferramentas utilizadas pelo componente O b j e c t
E v a l u a t o r na extraco de propriedades significativas a partir de objectos digitais.

197
8.1.1 Image IO
A biblioteca I m a g e I / O 133 que acompanha a linguagem de programao Java desde a sua
verso 1.4 constitui uma plataforma extensvel que facilita a interpretao e manipulao de
imagens matriciais. Esta biblioteca foi utilizada pelo componente extractor de propriedades
que acompanha o O b j e c t E v a l u a t o r para obter o valor de certas propriedades contidas
em imagens de diversos formatos.

A Tabela 34 enumera as diferentes propriedades extradas e formatos suportados por esta


biblioteca.

Classe Propriedade Formatos suportados


Nmero de pginas Tagged Image File Format, version 3
Portable Network Graphics, version 1.0
Conformidade grfica Portable Network Graphics, version 1.1
Largura Windows Bitmap, version 3.0
Imagens JPEG File Interchange Format 1.00
Altura
matriciais JPEG File Interchange Format 1.01
Modelo de cor JPEG File Interchange Format 1.02
Graphics Interchange Format, version 1987a
Profundidade de cor
Graphics Interchange Format, version 1989a
Mtodo de compresso JPEG 2000

Tabela 34 Propriedades extradas e formatos suportados pela


biblioteca Java Image I/O.

8.1.2 ExifTool 7.15


O ExifTool134 trata-se de uma ferramenta independente da plataforma que permite ler e editar
metainformao embebida em imagens, ficheiros de udio e sequncias de vdeo. Esta
ferramenta suporta vrias normas de metainformao como o EXIF, GPS, IPTC, XMP, JFIF,
GeoTIFF, ICC Profile, Photoshop IRB, FlashPix, AFCP e ID3 assim como, metainformao
especfica de alguns fabricantes de cmaras digitais tais como Canon, Casio, FujiFilm, HP,
JVC/Victor, Kodak, Leaf, Minolta/Konica-Minolta, Nikon, Olympus/Epson,
Panasonic/Leica, Pentax/Asahi, Ricoh, Sanyo, Sigma/Foveon and Sony.

Esta ferramenta foi utilizada pelo O b j e c t E v a l u a t o r para extrair a metainformao


embebida em imagens matriciais. A Tabela 35 enumera os formatos de imagem suportados
por esta ferramenta.

133 http://java.sun.com/javase/6/docs/technotes/guides/imageio
134 http://www.sno.phy.queensu.ca/~phil/exiftool/

198
Classe Propriedade Formatos suportados
Tagged Image File Format, version 3
Portable Network Graphics, version 1.0
Portable Network Graphics, version 1.1
Windows Bitmap, version 3.0
Imagens Metainformao JPEG File Interchange Format 1.00
matriciais embebida JPEG File Interchange Format 1.01
JPEG File Interchange Format 1.02
Graphics Interchange Format, version 1987a
Graphics Interchange Format, version 1989a
JPEG 2000

Tabela 35 Propriedades extradas e formatos suportados pela


ferramenta ExifTool.

8.1.3 Microsoft Office Word 2003


O Microsoft Word135 um processador de texto da Microsoft, criado originalmente em 1983
por Richard Brodie, destinado a computadores IBM PC baseados no sistema operativo DOS.
Actualmente, esta aplicao acompanha o pacote de software Microsoft Office136.

Esta ferramenta utiliza internamente um modelo de dados abstracto que permite manipular
programaticamente documentos de texto em formato Word. Este modelo abstracto designa-se
por W o r d O b j e c t M o d e l 137. O Microsoft Office Word, atravs do W o r d O b j e c t
M o d e l , foi utilizado pelo CRiB para extrair as propriedades que acompanham documentos
de texto nos formatos Word e RTF. A Tabela 36 enumera as propriedades e os formatos
suportados por esta ferramenta.

Classe Propriedade Formatos suportados


Nmero de pginas
Nmero de imagens
Conformidade grfica
Margem esquerda
Margem inferior Microsoft Word for Windows Document, version 97-2003
Margem superior Rich Text Format, version 1.0
Documentos
Margem direita Rich Text Format, version 1.4
de texto
Largura de pgina Rich Text Format, version 1.6
Altura de pgina Rich Text Format, version 1.7
Cor de fundo
Tipos de letra
Metainformao embebida
Disposio grfica

Tabela 36 Propriedades extradas pela ferramenta Microsoft Office


Word 2003

135 http://office.microsoft.com/en-us/word/
136 http://office.microsoft.com
137 http://msdn.microsoft.com/en-us/library/kw65a0we(VS.80).aspx

199
8.1.4 OpenOffice.org Writer 2.2
O Writer um processador de texto multiplataforma, originalmente desenvolvido pela Sun
Microsystems138, que se encontra disponvel em cdigo-aberto. Esta aplicao compatvel
com um grande nmero de processadores de texto concorrentes como por exemplo o
Microsoft Word e o Corel WordPerfect. Actualmente, a aplicao acompanha o pacote de
software OpenOffice.org139.

O OpenOffice.org Writer disponibiliza uma interface que permite manipular os seus


documentos a partir de uma aplicao externa. Essa interface designa-se por U n i v e r s a l
N e t w o r k O b j e c t ( U N O ) 140. O CRiB tirou partido desta interface para extrair os valores
das propriedades significativas existentes em objectos no formato OpenDocument (Tabela
37).

Classe Propriedade Formatos suportados


Nmero de pginas
Nmero de imagens
Conformidade de caracteres
Margem esquerda
Margem inferior
Margem superior
Documentos
Margem direita OpenDocument Text Format, version 1.0
de texto
Largura de pgina
Altura de pgina
Cor de fundo
Tipos de letra
Metainformao embebida
Disposio grfica

Tabela 37 Propriedades extradas pela ferramenta OpenOffice.org


Writer 2.2.

8.1.5 PDFBox
A PDFBox141 trata-se de uma biblioteca Java que permite criar e manipular documentos PDF.
Esta biblioteca foi utilizada para extrair as propriedades includas na Tabela 38 a partir de
documentos PDF.

138 http://www.sun.com
139 http://www.openoffice.org/
140 http://api.openoffice.org/docs/java/ref/overview-summary.html
141 http://www.pdfbox.org/

200
Classe Propriedade Formatos suportados
Nmero de pginas
Nmero de imagens
Conformidade de caracteres
Margem esquerda
Margem inferior
Margem superior
Documentos
Margem direita Portable Document Format, version 1.4
de texto
Largura de pgina
Altura de pgina
Cor de fundo
Tipos de letra
Metainformao embebida
Disposio grfica

Tabela 38 Propriedades extradas pela ferramenta PDFBox.

201
8.2 Taxionomia geral de avaliao
Availability

Stability

Throughput
Process
Cost

Outcome size

Outcome file count

page count

image count

character count
content completeness
Word count

line count

character correctness
left
General
Evaluation Object context metadata
(text documents) bottom
Taxonomy margins
top

width
right
appearance page height

layout Market Share


background color

style font faces


Support level

Is standard

Open specification

Compression support

Lossy compression only

Transparency support

Embedded metadata

Royalty free

Open source

Backwards compatible

Documentation level

Competing formats

DRM support

Update frequency
Technical Format
Custom extensions

Life time

Transparent decoding

Multiple reader producers

Multiple readers

Open source reader

Multiplatform reader

Figura 64 Taxionomia geral de avaliao.

202
8.3 Funes de similaridade
O conceito de similaridade diz respeito proximidade, real ou percepcionada, existente entre
dois conceitos ou representaes mentais. Estes conceitos so, geralmente, representados por
pontos no espao e a sua similaridade est directamente relacionada com a distncia a que
estes pontos se encontram nesse espao (R. N. Shepard, 1962).

Existem diversas mtricas que permitem determinar a distncia entre dois conceitos. A
definio formal de uma funo de clculo de distncia descrita pela Frmula 10, onde M
representa o tipo de dados dos conceitos a analisar.

dM : M M +

Frmula 10 Definio matemtica de distncia.


Uma mtrica deste tipo deve obedecer ao seguinte conjunto de condies:

d(x, y) 0 a distncia entre dois conceitos limitada inferiormente;

d( x, y) = 0 sse x = y a distncia entre dois conceitos zero se e s se os dois

conceitos forem iguais;

a distncia entre o conceito x e o conceito y igual distncia entre


d( x, y) = d( y, x)
o conceito y e o conceito x (i.e., simetria);

a distncia entre dois pontos sempre a menor distncia


d( x, z) d( x, y) + d( y, z)
entre ambos os pontos.

A distncia muitas vezes utilizada para determinar a similaridade entre dois conceitos. A
Equao 7 estabelece a relao entre distncia e similaridade.

1
similaridade =
1+ distncia

Equao 7 Relao entre similaridade e distncia.

203
Uma funo de similaridade pode ser definida formalmente pela Frmula 11, onde M
representa o tipo de dados do conceito que se pretende comparar.

sM : M M [0,1]

Frmula 11 Definio matemtica de similaridade.


Tal como acontecia com a d i s t n c i a , a s i m i l a r i d a d e tambm deve obedecer a um
conjunto bem definido de condies, nomeadamente:

s(x, y) 1 a similaridade entre dois conceitos limitada superiormente;

s(x, y) = 1 sse x = 1 a similaridade entre dois conceitos igual a 1 se e s se os dois


conceitos forem iguais;

s(x, y) = s(y, x) a funo de similaridade simtrica.

A Tabela 39 e a Tabela 40 enumeram as diversas propriedades significativas avaliadas no


contexto do CRiB e quais as mtricas utilizadas na sua comparao.

Critrio de avaliao Tipo de dados Mtrica de comparao


Nmero de pginas Numrico Proportional Similarity
NRMSE Similarity
UQI Similarity
Conformidade grfica Matriz de cor
SSIM Similarity
CBM Similarity
Largura Numrico Proportional Similarity
Altura Numrico Proportional Similarity
Modelo de cor Textual Relaxed String Equality
Profundidade de cor Numrico Proportional Similarity
Property Set Similarity
Metainformao embebida XML
XML Diff
Mtodo de compresso Textual Relaxed String Equality
Tabela 39 Mtricas utilizadas para comparar imagens matriciais.

As seces que se seguem descrevem o conjunto de funes de similaridade utilizadas no


mbito do CRiB, em particular pelo componente O b j e c t E v a l u a t o r . Estas encontram-se
organizadas por categorias de acordo com o tipo de dados que manipulam: numrico,
vectorial, textual, conjuntos, XML ou informao grfica do tipo matricial.

204
Critrio de avaliao Tipo de dados Mtrica de comparao
Nmero de pginas Numrico Proportional Similarity
Nmero de imagens Numrico Proportional Similarity
Conformidade de caracteres Textual Jaro Winkler String Similarity
Margem esquerda Numrico Proportional Similarity
Margem inferior Numrico Proportional Similarity
Margem superior Numrico Proportional Similarity
Margem direita Numrico Proportional Similarity
Largura de pgina Numrico Proportional Similarity
Altura de pgina Numrico Proportional Similarity
NRMSE Similarity
UQI Similarity
Disposio grfica Matriz de cor
SSIM Similarity
CBM Similarity
Cor de fundo Vectorial Euclidean distance
Tipos de letra Textual Relaxed String Equality
Property Set Similarity
Metainformao embebida XML
XML Diff
Tabela 40 Mtricas utilizadas para comparar documentos de
texto.

8.3.1 Similaridade numrica


A similaridade numrica serve para comparar quantidades ou valores absolutos. Este tipo de
mtricas amplamente utilizado pela plataforma CRiB para comparar propriedades extradas
de objectos digitais caracterizadas por valores numricos, como: largura, altura, comprimento
em bytes, nmero de caracteres, etc.

Proportional Similarity
A mtrica P r o p o r t i o n a l S i m i l a r i t y , ou similaridade proporcional, definida custa da
distncia proporcional. Esta distncia, tal como o nome indica, procura determinar a diferena
entre dois valores numricos, porm, tem em considerao o nvel de grandeza dos mesmos.
Por exemplo, a distncia entre 3 e 5 igual a 2; o mesmo acontece com os valores 1003 e
1005. No obstante, no primeiro exemplo, o valor 5 66.6% superior ao valor 3, enquanto
que no segundo, o valor 1005 apenas 0.0019% superior que 1003.

A distncia proporcional encontra-se definida na Frmula 12.

0 , a=b

ProportionalDistance(a, b) = a b
, ab
max(a,b)

Frmula 12 Distncia proporcional.

205
A similaridade proporcional determinada aplicando a Equao 7 frmula de clculo da
distncia proporcional.

1
ProportionalSimilarity(a,b) =
1+ ProportionalDistance(a, b)

Frmula 13 Similaridade proporcional.


Esta mtrica utilizada para determinar o nvel de degradao sofrido por um objecto digital
durante uma converso em propriedades significativas como: nmero de pginas, largura e
altura, profundidade de cor, dimenses de margens, etc. (ver Tabela 39 e Tabela 40 para uma
lista completa das propriedades significativas analisadas por esta mtrica).

8.3.2 Similaridade vectorial


A similaridade vectorial utilizada na comparao de vectores. A noo comum de vector a
de um objecto com tamanho, direco e sentido, que implementa as operaes de adio e
multiplicao por nmeros reais . Genericamente, um vector pode ser considerado uma
sequncia de valores reais sendo representado da seguinte forma: V = (v1 v 2 , ..., v n ) .

Similaridade Euclidiana
A similaridade euclidiana permite determinar a semelhana entre dois vectores numricos.
Formalmente, sejam P = ( p1 , p2 ,..., pn ) e Q = (q1 ,q2 ,...,qn ) dois vectores de comprimento n, a
n
distncia euclidiana entre ambos definida pela frmula i=1
( pi qi ) 2 .

A similaridade euclidiana (Frmula 14) determinada custa da distncia, aplicando a


transformao definida anteriormente na Equao 7.

1
EuclideanSimilarity(P,Q) = n
1+ i=1
( pi qi ) 2

Frmula 14 Similaridade euclidiana.



Esta mtrica de similaridade utilizada no mbito do CRiB para comparar cores. Um cor
definida computacionalmente como um vector de quatro elementos. Trs destes definem a
intensidade das cores vermelho, verde e azul (i.e., RGB) e o quarto que define a transparncia

206
do ponto de cor (i.e., Alfa), e.g. C = (r, g, b, a) . Os valores de cada um dos elementos do
vector um nmero natural pertencente ao conjunto [0, 254].


8.3.3 Similaridade textual
A similaridade textual142 tem como misso determinar a proximidade existente entre duas
cadeias de caracteres (Navarro, 2001). Por exemplo, as palavras toca e foca podem ser
consideradas sintacticamente semelhantes na medida em que diferem entre si apenas numa
letra.

Este tipo de mtricas amplamente utilizado em contextos de recuperao de informao


como motores de pesquisa ou sistemas de gesto de bases de dados. So tambm muito
frequentes na deteco de fraude, anlise de dados biomtricos, sistemas de deteco de plgio,
alinhamento de ontologias, anlise de ADN, data mining, data cleansing, etc (Cohen, Ravikumar,
& Fienberg, 2003; Navarro, 2001; Soukoreff & MacKenzie, 2001).

Distncia de Levenshtein
A distncia de Levenshtein um algoritmo que permite quantificar as diferenas existentes
entre duas cadeias de caracteres. Esta medida de distncia contabiliza o nmero de operaes
de insero, eliminao e/ou substituio que so necessrias para transformar uma cadeia de
caracteres numa segunda (Levenshtein, 1965). Por exemplo, a distncia de Levenshtein entre
os termos automovel e automveis 4, devido a:

1. Substituio de o por
2. Eliminao de l
3. Insero de i
4. Insero de s

O algoritmo da distncia de Levenshtein encontra-se definido na Figura 65. A medida de


similaridade correspondente pode ser obtida aplicando a frmula de transformao
introduzida na seco 8.2.

142 Tambm conhecido por string matching that allows errors ou approximate string matching.

207
O CRiB faz uso de uma biblioteca open-source designada SimMetrics143 que implementa um
conjunto alargado de algoritmos de similaridade, incluindo a distncia de Levenshtein.

1 int LevenshteinDistance(char s[1..m], char t[1..n])


2 // d is a table with m+1 rows and n+1 columns
3 declare int d[0..m, 0..n]
4
5 for i from 0 to m
6 d[i, 0] := i
7
8 for j from 0 to n
9 d[0, j] := j
10
11 for i from 1 to m
12 for j from 1 to n
13 {
14 if s[i] = t[j] then
15 cost := 0
16 else
17 cost := 1
18
19 d[i, j] := minimum(
20 d[i-1, j] + 1, // deletion
21 d[i, j-1] + 1, // insertion
22 d[i-1, j-1] + cost // substitution
23 )
24 }
25
26 return d[m, n]

Figura 65 Algoritmo da distncia de Levenshtein.

Relaxed String Equality


A funo R e l a x e d S t r i n g E q u a l i t y utilizada pelo CRiB para determinar se duas
cadeias de caracteres podem ser consideradas iguais, apesar de no o serem na sua totalidade.

A funo define um nvel de similaridade T a partir do qual duas cadeias de caracteres so


consideradas iguais. A funo definida custa da similaridade de Levenshtein de acordo com
a Frmula 15. O valor de T definido por omisso 0.7.

Esta mtrica utilizada pelo componente O b j e c t E v a l u a t o r para determinar se os tipos


de letra includos em documentos de texto podem ser considerados iguais. A utilizao desta
mtrica torna-se necessria, pois determinados formatos utilizam a designaes ligeiramente
diferentes para designar o mesmo tipo de letra. Por exemplo, o formato PDF utiliza
designaes como TimesNewRomanPSMT para designar o tipo de letra que o Word
interpreta como Times New Roman.

143 http://sourceforge.net/projects/simmetrics/

208
0, LevenshteinSimilarity(s,v) < T
RelaxedStringEquality(s, v, T) =
1, LevenshteinSimilarity(s,v) T

Frmula 15 Igualdade textual relaxada.



Esta mtrica tambm utilizada para determinar se os modelos de cor e os mtodos de
compresso de duas imagens matriciais podem ser considerados iguais.

Jaro Winkler String Similarity


O algoritmo da distncia de Levenshtein utiliza uma matriz de caracteres com largura e altura
iguais ao comprimento das duas cadeias de caracteres que devero ser comparadas, i.e., se se
pretender determinar a similaridade entre dois documentos de 10 pginas (aproximadamente
45.000 caracteres), isto iria exigir a construo de uma matriz com aproximadamente
45.000 45.000 clulas. Cada uma destas clulas seria ocupada por um caracter, algo que
necessita de pelo menos 1 byte para que pudesse ser armazenado em memria. Isto resultaria
numa matriz de tamanho 45.000 45.000 1 bytes, ou seja, aproximadamente 1.9 Gigabytes,
tornando a utilizao deste algoritmo incomportvel para a maioria dos documentos e
computadores actuais.

Para comparar o contedo textual de dois documentos de texto, foi utilizada, em alternativa, a
mtrica de Jaro Winkler (Winkler, 1999). Esta mtrica estende a mtrica de Jaro anteriormente
publicada (Jaro, 1989, 1995). Dadas duas cadeias de caracteres s1 e s2 a similaridade de Jaro
definida pela Frmula 16 onde m representa o nmero de caracteres comuns entre s1 e s2
(localizados sensivelmente na mesma posio144) e t o nmero de transposies145 necessrias
para que s1 se transforme em s2 .

1 m m + m t
Jaro(s1,s2 ) = +
3 s1 s2 m

Frmula 16 Mtrica de comparao de cadeias de caracteres de


Jaro.

144 Para determinar se dois caracteres esto sensivelmente na mesma posio utilizada uma janela de tamanho 3.
145 Uma transposio uma troca de lugar entre dois membros da mesma sequncia de caracteres.

209
Por exemplo, a similaridade de Jaro entre os termos toca e foca determinada da seguinte
forma:

s1 = toca e s2 = foca (cadeias de caracteres comparadas)


s1 = 4 e s2 = 4 (comprimento das cadeias de caracteres)
m = 3 (nmero de caracteres em comum)
t= 0 (nmero de transposies que transformam s1 em s2)
1 3 3 3 0

Jaro(s1,s2 ) = + + = 0.833 (valor de similaridade de Jaro)


3 4 4 3

A similaridade de Jaro-Winkler difere da mtrica de Jaro pelo facto de atribuir valores


superiores a cadeias de caracteres que partilham a mesma sequncia inicial (Winkler, 1999).
Assim, seja P o comprimento do prefixo comum entre s1 e s2 e P = max(P,4) , a
similaridade de Jaro-Wikler definida pela Frmula 17.

P
JaroWinkler(s1 , s2 ) = Jaro(s1 , s2 ) + (1Jaro(s1 , s2 ))
10

Frmula 17 Similaridade de Jaro-Winkler.



Esta mtrica utilizada no contexto do CRiB para determinar a similaridade textual entre dois
documentos de texto.

8.3.4 Similaridade entre conjuntos


Existem vrias mtricas que permitem determinar a similaridade entre dois conjuntos. Este
tipo de mtricas , tradicionalmente, utilizado em contextos de data cleansing para detectar
mltiplas representaes da mesma entidade (Arasu, Ganti, & Kaushik, 2006; Hadjieleftheriou,
Chandel, Koudas, & Srivastava, 2008).

Property Set Similarity


Uma das mtricas de comparao de conjuntos mais utilizada designa-se por C o e f i c i e n t e
d e S i m i l a r i d a d e d e J a c c a r d 146 (Jaccard, 1901; Tan et al., 2005). Esta mtrica calcula a
similaridade entre dois conjuntos, dividindo o nmero de elementos que compem a

146 Esta mtrica tambm conhecida por Jaccard Index e Jaccard Similarity.

210
interseco dos dois conjuntos pelo nmero de elementos de constituem a sua reunio
(Frmula 18). O contradomnio da funo definido pelo intervalo [0, 1].

AB
JaccardSimilarity(A, B) =
AB

Frmula 18 Coeficiente de similaridade de Jaccard.



Esta mtrica foi modificada pelo autor desta tese de modo a adequ-la comparao de
conjuntos de pares ordenados do tipo (atributo, valor). A modificao consistiu na introduo
de uma funo first que, dado um conjunto de pares ordenados, produz um novo conjunto
constitudo apenas pelo primeiro elemento de cada par (Frmula 19).

X = {(a1, v1 ), (a2 , v 2 ), ..., (an , v n )}


first(X) = {a1, a2 , ..., v n }

Frmula 19 Funo first.


O C o e f i c i e n t e d e S i m i l a r i d a d e d e J a c c a r d foi ento enriquecido com a nova
funo resultando na Frmula 20. A nova mtrica foi designada P r o p e r t y S e t
Similarity.

A B
PropertySetSimilarity(A, B) =
first(A) first(B)

Frmula 20 Coeficiente de similaridade de Jaccard modificado.



Esta mtrica foi utilizada no contexto do CRiB para determinar a similaridade entre a
metainformao embebida em dois objectos digitais distintos.

8.3.5 Similaridade de XML


Os documentos XML assumem actualmente uma grande relevncia no contexto da
representao de informao e publicao electrnica. Existe uma linha de investigao que se
dedica ao desenvolvimento de mtricas de similaridade para documentos XML. Este tipo de
mtricas utilizado em contextos de recuperao de informao, sistemas de controlo de
verses (e.g. CVS, SVN), data warehousing (para gesto de ndices) e classificao automtica de
documentos, clustering, etc. (Tekli, Chbeir, & Yetongnon, 2006).

211
XML Diff
A mtrica de similaridade X M L D i f f desenvolvida pela Universidade de Sannio147 tem
como objectivo determinar a proximidade sintctica entre dois documentos XML (Canfora et
al., 2004). Esta mtrica combina trs caractersticas fundamentais durante o processo de
comparao de documentos XML, nomeadamente:

Similaridade estrutural os documentos comparados devero apresentar a mesma


estrutura;
Similaridade de contedo os documentos devem possuir o mesmo contedo textual;
Similaridade posicional o contedo textual dos documentos deve encontrar-se nas
mesmas posies da rvore documental.

O algoritmo original foi ligeiramente modificado pelo autor de modo a suportar contedos
armazenados em atributos e no apenas em elementos.

Esta mtrica foi utilizada para determinar o nvel de similaridade existente entre
metainformao extrada a partir de objectos digitais.

8.3.6 Similaridade grfica


Uma imagem matricial definida por uma matriz de M N pontos coloridos (Figura 66).
Cada um destes pontos constitudo por trs componentes de cor vermelho, verde e azul, e
um quarto componente representando a transparncia global do ponto, i.e.,
Cxy = (r, g, b, a) .

C11 CM1


C1N CMN

Figura 66 Definio formal de imagem matricial.


Existe um vasto conjunto de mtricas que podero ser utilizadas no clculo de similaridade
entre duas imagens. Estas tm aplicao em variados domnios como: remoo de imagens

147 http://www.unisannio.it/

212
duplicadas, recuperao de informao, optimizao de algoritmos de compresso, controlo de
qualidade, clustering, etc.

As mtricas de comparao de imagens podem ser divididas em duas categorias: mtricas


objectivas e mtricas subjectivas. As primeiras utilizam clculos matemticos para determinar o
nvel de similaridade entre duas imagens. As segundas recorrem a um conjunto de avaliadores
humanos que efectuam a respectiva comparao e atribuem uma classificao ao grau de
similaridade percepcionado (Bistrm, 2005).

Acontece que, o uso de pessoas na realizao deste tipo de avaliaes impossibilita a


automatizao destes processos e torna a avaliao demasiado onerosa, tanto em termos de
tempo como em termos de dinheiro. Por outro lado, o uso de mtricas objectivas nem sempre
produz resultados suficientemente precisos e/ou ajustados realidade. Dependendo da
aplicao, as avaliaes produzidas por mtodos objectivos podem no se correlacionar
inteiramente com as percepes dos avaliadores humanos (Bistrm, 2005; Z. Wang et al.,
2004).

Mtricas de
similaridade grfica

Objectivas Subjectivas

Sistema Visual
Clssicas
Humano (HVS)

Figura 67 Classes de mtricas de similaridade grfica.

As mtricas objectivas podem ainda ser divididas em duas classes distintas: mtricas objectivas
clssicas ou mtricas baseadas no sistema visual humano148. A primeira classe de mtricas
considera apenas as caractersticas matemticas que so intrnsecas imagem. A segunda,
procura incorporar no seu modelo de avaliao itens que so prprios da percepo humana.
Esta abordagem tem como objectivo tornar estes algoritmos mais parecidos com as avaliaes
subjectivas (Z. Wang & Bovik, 2002).

148 Do ingls Human Visual System (HVS).

213
Normalized Root Mean Squared Error
Uma das tcnicas de comparao de imagens mais utilizadas designa-se por Root Mean
Squared Error (RMSE). Este mtodo consiste no clculo da mdia das distncias euclidianas
verificadas entre cada ponto de cor que constitui cada uma das imagens comparadas (Shrestha
et al., 2005; L. W. Wang, Zhang, & Feng, 2005; Z. Wang et al., 2004).

A Frmula 21 define formalmente esta mtrica, onde u e v representam duas imagens de


tamanho M N , sendo u(x, y,i) e v(x, y,i) o valor da intensidade da componente de cor i
na posio x e y em cada uma das imagens. As funes max(u,v,i) e min(u,v,i) determinam
os valores de intensidade mximo e mnimo da componente de cor i encontrados em ambas as
imagens u e v.

M N
2
RMSE(u,v,i) = u(x, y,i) v(x, y,i)
x=1 y=1

1 4 RMSE(u,v,i)
NRMSE(u,v) =
4 i=1 max(u,v,i) min(u,v,i)

Frmula 21 Normalized Root Mean Squared Error (NRMSE).



A mtrica NRMSE uma medida de distncia. Para se tornar numa medida de similaridade
necessrio aplicar a Equao 7 anteriormente apresentada.

Esta mtrica utilizada no contexto do CRiB para determinar o nvel de degradao grfica
sofrido por um objecto digital durante a sua migrao, ou seja, corresponde propriedade
c o n f o r m i d a d e g r f i c a tanto em i m a g e n s m a t r i c i a i s como em d o c u m e n t o s d e
texto.

Universal Quality Index


A mtrica Universal Image Quality Index (UQI) pertence classe de algoritmos que incorpora
caractersticas do sistema visual humano na sua avaliao de similaridade. Este algoritmo tem
em considerao aspectos como luminncia, contraste e estrutura das imagens comparadas (Z.
Wang & Bovik, 2002).

A mtrica UQI encontra-se definida formalmente na Frmula 22 onde u e v representam


duas imagens na sua forma vectorial (ao invs de matricial), i.e., u = ( ui i = 1,2,...,N ) e

214


v = (v i i = 1,2,...,N ) , com ui e v i a representar os pontos de cor que constituem ambas as
imagens sob a forma ui = ( r,g,b,a) e v i = ( r, g, b, a) .

2u v 2
UQIi (u,v) = 2 2
2 u v 2 uv
(u ) + (v ) u + v u v

Frmula 22 Universal Image Quality Index (UQI) de uma


componente de cor.

1 N 1 N
u= ui
N i=1
v= vi
N i=1
(Mdia)

1 N 1 N
u2 = (ui u )2
N 1 i=1
v2 = (v i v )2
N 1 i=1
(Varincia)

1 N
uv = (ui u )(v i v )
N 1 i=1
(Covarincia)

Frmula 23 Frmulas auxiliares ao clculo de UQI.


Por uma questo de clareza, a formulao de UQI apresentada na Frmula 22 apenas se aplica
a uma das quatro componentes de cor que constitui cada uma das imagens comparadas. A
mesma frmula dever ser aplicada separadamente a cada uma das componentes de cor, sendo
o valor global de UQI obtido a partir do valor mdio dos UQIi parciais (Frmula 24).

1 4
UQI = UQIi (u,v)
4 i=1

Frmula 24 Valor global de UQI.


Esta mtrica utilizada no contexto do CRiB para determinar o nvel de degradao grfica
sofrido por um objecto digital durante a sua migrao, ou seja, corresponde propriedade
c o n f o r m i d a d e g r f i c a tanto em i m a g e n s m a t r i c i a i s como em d o c u m e n t o s d e
texto.

Structural Similarity
A mtrica designada por Structured Similarity (SSIM) procura generalizar os conceitos
incorporados na mtrica UQI tornando esta mtrica mais flexvel e, ao mesmo tempo,
configurvel. A nova mtrica continua a combinar os conceitos de luminncia, contraste e
estrutura, mas incorpora constantes na sua formulao, nomeadamente C1 , C2 e C3 , que

215

evitam que o algoritmo se comporte de forma instvel na presena de imagens com
determinadas caractersticas, como por exemplo, imagens com grandes superfcies da mesma
cor (Z. Wang et al., 2004) Frmula 25.

2u v + C1
l(u,v) = (Luminncia)
(u ) 2 + (v ) 2 + C1

2 u v + C2
c(u,v) = (Contraste)
u2 + v2 + C2

uv + C3
s(u,v) = (Estrutura)
u v + C3

Frmula 25 Frmulas auxiliares ao clculo de SSIM.


O novo algoritmo recebe ainda como parmetros o peso que cada um dos conceitos
anteriormente mencionados (i.e., luminncia, contraste e estrutura) ter na apreciao global de
similaridade, i.e., , e (Frmula 26).


SSIM i (u,v) = [ l(u,v)] [c(u,v)] [ s(u,v)]

Frmula 26 Structural Similarity (SSIM) de uma componente de
cor.

Tal como acontecia no clculo de UQI, a frmula de SSIMi apenas considera uma das quatro
componentes de cor que constituem as imagens. Para obter uma apreciao global de SSIM
necessrio, em primeiro lugar, calcular a mdia dos valores de SSIM obtidos para cada uma das
quatro componentes de cor (Frmula 27).

1 4
SSIM(u,v) = SSIM i (u,v,i)
4 i=1

Frmula 27 Valor de SSIM que combina as quatro componentes


de cor.

Para alm do disposto, esta mtrica aplicada no imagem completa mas apenas a um
conjunto aleatrio de janelas gaussianas de raio 11 pixel (Z. Wang et al., 2004). O valor global

216
de similaridade obtido calculando a mdia dos valores de SSIM resultantes da aplicao do
algoritmo a cada uma das M janelas previamente recolhidas (Frmula 28).

1 M
MSSIM(u,v) = SSIM(u,v)
M j=1

Frmula 28 Valor global de SSIM que combina os valores de


SSIM das M janelas amostradas.

Esta mtrica utilizada no contexto do CRiB para determinar o nvel de degradao grfica
sofrido por um objecto digital durante a sua migrao, ou seja, corresponde propriedade
c o n f o r m i d a d e g r f i c a tanto em i m a g e n s m a t r i c i a i s como em d o c u m e n t o s d e
texto.

Content-Based Image Quality Metric


A mtrica designada por C o n t e n t - B a s e d I m a g e Q u a l i t y M e t r i c ( C B M ) estende a
mtrica SSIM anteriormente descrita na medida em que, para alm de considerar propriedades
como luminncia, contraste e estrutura, considera tambm os contornos, texturas e regies
planas das imagens comparadas (Gao et al., 2005). O algoritmo comea por particionar as
imagens nestas trs componentes recorrendo a uma mscara de Sobel, processo descrito
detalhadamente em (Duda & Hart, 1973; Li, Chen, Chi, & Lu, 2004; Sobel & Feldman, 1968)
Figura 68.

Figura 68 Deteco de (1) contornos, (2) texturas e (3) regies


planas usando uma mscara de Sobel.

Aps o particionamento das imagens, o algoritmo CBM recorre mtrica SSIM para
determinar a similaridade em cada uma destas componentes extradas. Finalmente o valor final
de CBM obtido calculando a mdia dos valores de SSIM obtidos (Figura 69).

217
Figura 69 Diagrama de processamento da mtrica CBM.

Esta mtrica utilizada no contexto do CRiB para determinar o nvel de degradao grfica
sofrido por um objecto digital durante a sua migrao, ou seja, corresponde propriedade
c o n f o r m i d a d e g r f i c a tanto em i m a g e n s m a t r i c i a i s como em d o c u m e n t o s d e
texto.

8.4 Teste no-paramtrico de Wilcoxon


Com o objectivo de determinar qual dos vrios algoritmos de similaridade grfica estudados
apresentava melhores resultados, foi realizado o teste de hipteses no-paramtrico de
Wilcoxon. Com base neste teste foi possvel comparar estatisticamente duas amostras
independentes e determinar se estas poderiam ser consideradas equivalentes, i.e., se a mdia da
primeira amostra era estatisticamente equivalente mdia da segunda amostra 1 = 2 .

O teste de Wilcoxon uma alternativa no-paramtrica ao teste t-Student, geralmente utilizado


na comparao de mdias. A diferena fundamental entre o testet-Student e o teste de
Wilcoxon reside no facto de o primeiro assumir que as observaes seguem uma distribuio
Normal enquanto que o segundo no faz qualquer tipo de assumpo relativamente
distribuio subjacente.

Este teste de hipteses permite determinar se a distribuio das avaliaes automticas


estatisticamente semelhante das avaliaes produzidas pelos avaliadores humanos, e no qual
dos algoritmos apresenta o melhor desempenho quando comparado com os valores de MOS.
O teste pode ser visto como uma verificao rpida da elegibilidade de uma dada amostra, ou
seja, permite rejeitar um algoritmo de similaridade sem ter de realizar uma anlise profunda do
seu desempenho.

Assim, considerando que dk representa a diferena entre as medies de similaridade


produzidas pelos humanos (Xk) e por cada um dos algoritmos objectivos (Yk) Frmula 29.

218
dk = X k Yk , para k = 1,2,...,30

Frmula 29 Diferena entre as avaliaes subjectivas e os valores


objectivos.

Tem-se como hiptese nula verificar se as distribuies de ambos os processos de avaliao se


encontram simetricamente distribudas em torno de uma mdia comum . Por outras
palavras, pretende-se descobrir se a diferena entre ambas as mdias de ambas as medies
igual a zero.

H 0 : = 0 (Hiptese nula)
H1 : 0 (Hiptese alternativa)

Frmula 30 Formulao de hipteses.


Antes de aplicar o teste de Wilcoxon, procedeu-se ao ajuste dos valores objectivos produzidos
pelos algoritmos recorrendo regresso linear. Os valores ajustados utilizados no teste
paramtrico apresentam-se na Tabela 20 na pgina 150.

Amostras Wilcoxon
Valor-P > 0.05 Concluso
comparadas Valor-P
MOS-RMSE 0.629 Sim No h evidncia suficiente para rejeitar H0
MOS-UQI 0.781 Sim No h evidncia suficiente para rejeitar H0
MOS-SSIM 0.845 Sim No h evidncia suficiente para rejeitar H0
MOS-CBM 0.861 Sim No h evidncia suficiente para rejeitar H0

Tabela 41 Resultados da aplicao do teste de Wilcoxon para


comparao de mdias.

Os resultados do teste de Wilcoxon encontram-se resumidos na Tabela 41. Considerando um


grau de confiana de 95% ( = 0.05), possvel concluir que no h evidncias suficientes
para se rejeitar a hiptese nula. Assim, uma vez que todos os algoritmos apresentam uma
relao suficientemente forte com as avaliaes humanas, partiu-se para a aplicao das trs
mtricas previamente descritas de modo a determinar qual dos algoritmos apresentava o
melhor desempenho. O conjunto de experincias realizado nesse sentido encontra-se descrito
na seco 5.1.2 na pgina 137.

8.5 Validao cruzada


A validao cruzada ou cross-validation foi aplicada pela primeira vez por Seymour Geisser, um
profissional de estatstica cujos trabalhos incidiram sobre a anlise de mtodos estatsticos de
previso. A validao cruzada um mtodo estatstico prtico que toma por base uma amostra

219
de dados subdividida em vrias parties: umas so usadas para treinar o sistema e as restantes
para o testar. Dentro deste mtodo podemos encontrar vrias variantes:

Camilo Oliveira na sua tese de mestrado descreve o holdout validation como um dos
mtodos mais utilizados, sendo tambm designado por teste de clculo simples, em
que se divide o conjunto de dados em dois subconjuntos, designados por conjunto de
treino e de teste. Este autor considera que um mtodo de clculo pessimista
porque s uma parte dos dados utilizada para treino (Oliveira, 2001);

O mtodo random subsampling ou validao cruzada com subamostragem aleatria,


consiste na separao de um nmero de elementos de treino de forma aleatria. Numa
segunda experincia, separa-se o mesmo nmero de exemplos, mas desta feita em
posies excludentes. Repete-se esta separao em todas as experincias que possam
existir (Oliveira, 2001);

O mtodo K-fold cross-validation consiste em dividir um conjunto de amostras de


tamanho N em K parties mutuamente excludentes e de igual tamanho (Oliveira,
2001). Das K partes, K-1 sero utilizadas para treinar o sistema, enquanto que a
restante ser utilizada para o testar. O processo repetido K vezes. Em cada repetio
ensaia-se e valida-se o modelo. No final ser calculada a mdia dos resultados obtidos
em cada uma das K validaes realizadas (Kohavi, 1995).

Leave-one-out cross-validation, um mtodo de validao cruzada deixando apenas um


individuo de fora para testar o sistema. Neste caso, K=N onde o nmero de partes
igual ao nmero de elementos do conjunto original. Por exemplo, para um conjunto
de dados com N exemplos, executa-se N experincias. Para cada uma delas, utiliza-se
N-1 indivduos de treino e apenas um reservado para teste (Oliveira, 2001). Segundo
Ron Kohavi, este mtodo excelente, quase imparcial, mas a sua desvantagem reside
na sua alta varincia (Kohavi, 1995);

O esquema seguinte apresenta um exemplo K-fold cross-validation, utilizando 4 dobras (Oliveira,


2001)

220
Figura 70 Exemplo do mtodo de validao cruzada com 4
dobras.

8.6 Licena de uso e distribuio do CRiB


CRiB | Conversion and Recommendation of Digital Object Formats
Copyright(c) 2008 Miguel Ferreira <mferreira@dsi.uminho.pt>
All Rights Reserved.

This software was developed with the Department of Information Systems


of the University of Minho, Portugal, under the supervision
of Ana Alice Baptista <analice@dsi.uminho.pt> and Jos Carlos Ramalho
<jcr@di.uminho.pt>.
----------------------------------------------------------------------
Permission to use, copy, or modify this software and its documentation
for educational and research purposes only and without fee is hereby
granted, provided that this copyright notice and the original authors'
names appear on all copies and supporting documentation. This program
shall not be used, rewritten, or adapted as the basis of a commercial
software or hardware product without first obtaining permission of the
authors. The authors make no representations about the suitability of
this software for any purpose. It is provided "as is" without express
or implied warranty.

THE NAME AND TRADEMARKS OF COPYRIGHT HOLDERS MUST ALWAYS BE INCLUDED


OR ASSOCIATED TO ANY ADVERTISING, PUBLICITY OR DISTRIBUTION OF THIS
SOFTWARE AND ITS DOCUMENTATION. TITLE TO COPYRIGHT THIS SOFTWARE AND
ANY ASSOCIATED DOCUMENTATION WILL AT ALL TIMES REMAIN WITH THE
COPYRIGHT HOLDERS.
---------------------------------------------------------------------
This software is part of the CRiB platform. The CRiB is a Service
Oriented Architecture (SOA) designed to assist cultural heritage
institutions in the implementation of migration-based preservation
interventions. The CRiB works by assessing the quality of distinct
conversion services to produce recommendations of optimal migration
strategies. The recommendations produced by the system take into
account the specific preservation requirements of each client
institution.

For additional information, please refer to the following papers and


Web sites:

- Ferreira, M., Baptista, A. A., & Ramalho, J. C. (2007). An


intelligent decision support system for digital preservation.
International Journal on Digital Libraries, 6(4), 295-304.

221
- Ferreira, M., Baptista, A. A. & Ramalho, J. C. (2006). A Foundation
for Automatic Digital Preservation. Ariadne(48).

- CRiB homepage: http://crib.dsi.uminho.pt

- Author homepage: http://www.dsi.uminho.pt/~ferreira


----------------------------------------------------------------------
Kindly report any suggestions or corrections to mferreira@dsi.uminho.pt

222
Captulo 9
Anexos

9.1 Interpretao de valores-P


Valor-p prximo de 0 Um indicador de que a hiptese nula falsa.
Valor-p prximo de 1 No h evidncia suficiente para rejeitar a hiptese nula.
Normalmente considera-se um valor p de 0,05 como o patamar para avaliar a hiptese
nula. Se o valor p for inferior a 0,05 pode-se rejeitar a hiptese nula. Caso contrrio,
no existe evidncia que permita rejeitar a hiptese nula (o que no significa
automaticamente que seja verdadeira). Em situaes de maior exigncia usado um
valor p inferior a 0,05, geralmente 0,01.

223
224
REFERNCIAS

Abrams, S. L., & Seaman, D. (2003). Towards a global digital format registry. Paper presented at the
World Library and Information Congress: 69th IFLA General Conference and
Council.

Adobe Developers Association. (1992). TIFF revision 6.0. Mountain View, USA: Adobe
Systems Incorporated.

Adobe Systems Incorporated. (2004). XMP Specification. San Jose, USA: Adobe Systems
Incorporated.

Akester, P. (2004). Internet law - authenticity of works. Authorship and authenticity in


cyberspace. Computer Law & Security Report, 20(6).

Ambacher, B., Ashley, K., Berry, J., Brooks, C., Dale, R. L., Flecker, D., et al. (2007).
Trustworthy Repositories Audit & Certification: Criteria and Checklist: OCLC & CRL.

Arasu, A., Ganti, V., & Kaushik, R. (2006). Efficient Exact Set-Similarity Joins. Paper presented at
the International Conference on Very Large Data Bases, Seul, Korea.

Arts and Humanities Data Service. (2006). AHDS Repository Policies and Procedures.
Retrieved 2006-11-12, from http://ahds.ac.uk/preservation/ahds-preservation-
documents.htm

Authenticity Task Force. (2002). Requirements for Assessing and Maintaining the Authenticity of
Electronic Records. Vancouver, Canada: InterPARES Project.

Ayre, C., & Muir, A. (2004). The Right to Preserve - The Rights Issues of Digital Preservation.
D-Lib Magazine, 10(3).

Balzer, Y. (2004). Improve your SOA project plans - Strong governance principles ensure a
successful outcome. Retrieved 2004-12-12, from http://www-
128.ibm.com/developerworks/webservices/library/ws-improvesoa/

Barbedo, F., Corujo, L., Faria, L., Castro, R., Ferreira, M., & Ramalho, J. C. (2007). RODA:
Repositrio de Objectos Digitais Autnticos. Paper presented at the 9 Congresso Nacional
de Bibliotecrios, Arquivistas e Documentalistas, Ponta Delgada, Portugal.

Beagrie, N., Bellinger, M., Dale, R., Doerr, M., Hedstrom, M., Jones, M., et al. (2002). Trusted
Digital Repositories: Attributes and Responsibilities (Report): Research Libraries Group &
Online Computer Library Center.

Bearman, D. (1987). Collecting Software: A New challenge for Archives & Museums (No. 1): Archival
Informatics.

225
Bearman, D. (1989). Archival Methods (Techical Report No. 1). Pittsburgh: Archives and
Museum Informatics.

Becker, C., Ferreira, M., Kraxner, M., Rauber, A., Baptista, A. A., & Ramalho, J. C. (2008).
Distributed Preservation Services: Integrating Planning and Actions. Paper presented at the
European Conference on Research and Advanced Technology for Digital Libraries
(ECDL'08), Aarhus, Denmark.

Becker, C., Kulovits, H., Rauber, A., & Hofman, H. (2008). Plato: A Service Oriented Decision
Support System for Preservation Planning. Paper presented at the Joint Conference on
Digital Libraries (JCDL), Pittsburgh, Pennsylvania, USA.

Becker, C., Rauber, A., Heydegger, V., Schnasse, J., & Thalle, M. (2008). A Generic XML
Language for Characterising Objects to Support Digital Preservation. Paper presented at the
Symposium on Applied Computing (SAC), Cear, Brazil.

Bennett, J. C. (1997). A Framework of Data Types and Formats, And Issues Affecting the Long Term
Preservation of Digital Material (Report No. 50). West Yorkshire, UK: British Library
Research and Innovation Centre.

Besser, H. (2001). Digital Preservation of Moving Image Material? The Journal of the Association
of Moving Image Archivists, 1(2), 39-55.

Bistrm, J. (2005). Comparing Video Codec Evaluation Methods for Handheld Digital TV (No.
21548C). Helsinki: Helsinki University of Technology.

Brody, T. (2005). Growth of Institutional Archives over Time. Retrieved 2005-12-12, from
http://archives.eprints.org/index.php?action=analysis

Brown, A. (2008). Representation Information Registries (White Paper No. IST-2006-033789 -


PC/3-D7). London, UK: National Archives.

Bryan, D., Draluk, V., Ehnebuske, D., Glover, T., Hately, A., Husband, Y. L., et al. (2002).
UDDI Version 2.04 API Specification: OASIS.

Burkel, R. (2003). The Role of Microfilm in Information Management. Information Management


Journal, 37(1), 58-65.

Caldeira, C. P. (2008). Data Warehousing: Conceitos e Modelos com Exemplos Prticos: Edies Slabo.

Canfora, G., Cerulo, L., & Scognamiglio, R. (2004). Measuring XML document similarity: a case
study for evaluating information extraction systems. Paper presented at the 10th International
Symposium on Software Metrics, Chicago, Illinois, USA.

Caplan, P., Guenther, R., Dale, R., Lavoie, B., Barnum, G., Blair, C., et al. (2005). Data
Dictionary for Preservation Metadata (Final report): PREMIS Working Group
(OCLC/RLG).

226
Chen, S.-S. (2001). The Paradox of Digital Preservation. IEEE Computer, 34(3), 24-28.

Cohen, W. W., Ravikumar, P., & Fienberg, S. E. (2003). A Comparison of String Distance Metrics
for Name-Matching Tasks. Paper presented at the Information Integration on the Web
(IIWeb), Acapulco, Mexico.

Consultative Committee for Space Data Systems. (2002). Reference Model for an Open Archival
Information System (OAIS) - Blue Book. Washington: National Aeronautics and Space
Administration.

Cullen, C. T. (2000). Authentication of Digital Objects: Lessons from a Historian's Research.


In Authenticity in a Digital Environment. Washington, DC: Council on Library and
Information Resources.

Curtis, J., Koerbin, P., Raftos, P., Berriman, D., & Hunter, J. (2007). AONS - An obsolescence
detection and notification service for Web archives and digital repositories New Review
of Hypermedia and Multimedia, 13(1), 39-53.

Darlington, J. (2003). PRONOM - A Practical Online Compendium of File Formats. RLG


DigiNews, 7(5).

Davidson, A., & Pollard, A. (2005). Jasper - ZX Spectrum Emulator. Retrieved 2005-12-02,
from http://www.spectrum.lovely.net/

Diessen, R. J. v. (1997). Model Driven Object-Oriented Development of Systems: A


Behavioural-Oriented Approach. Hilversum, The Netherlands.

Diessen, R. J. v., & Werf-Davelaar, T. v. d. (2002). Authenticity in a digital environment (Report


No. 2). Amesterdam, The Netherlands: Koninklijke Bibliotheek & IBM.

Digital Curation Centre, & DigitalPreservationEurope. (2007). Digital Repository Audit Method
Based on Risk Assessment (DRAMBORA). Glasgow.

Digital Preservation Testbed. (2001). Migration: Context and Current Status (White Paper). The
Hague.

Duda, R. O., & Hart, P. E. (1973). Pattern Classification and Scene Analysis: John Wiley & Sons
Inc.

Erl, T. (2005). Service-oriented Architecture: Concepts, Technology and Design: Upper Saddle River:
Prentice Hall PTR.

Faria, L., Castro, R., Ferreira, M., Ramalho, J. C., Barbedo, F., & Corujo, L. (2007). RODA -
Repository of Authentic Digital Objects. Paper presented at the International Workshop on
Database Preservation, National e-Science Centre, Edinburgh, Scotland.

227
Farquhar, A., & Hockx-Yu, H. (2007). Planets: Integrated Services for Digital Preservation.
International Journal of Digital Curation, 2(2).

Fernandes, E. (1999). Estatstica Aplicada: Servios de Reprografia e Publicaes da


Universidade do Minho.

Ferreira, M. (2005). Automatic Evaluation of Migration Quality in Distributed Networks of Converters.


Paper presented at the Doctoral Consorcium of the 9th European Conference on
Research and Advanced Technology for Digital Libraries (ECDL), Vienna, Austria.

Ferreira, M. (2006a). Automatic Evaluation of Migration Quality in Distributed Networks of


Converters. Bulletin of the IEEE Technical Committee on Digital Libraries (TCDL), 2(2).

Ferreira, M. (2006b). Trs anos depoisuma reflexo sobre o projecto DigitArq. In Disciplina
de Seminrio da Licenciatura em Cincia da Informao da Faculdade de Letras da
Universidade do Porto (Ed.). Porto, Portugal.

Ferreira, M., & Baptista, A. A. (2005). The use of Taxonomies as a way to achieve Interoperability and
improved Resource Discovery in DSpace-based Repositories. Paper presented at the XATA -
XML: Aplicaes e Tecnologias Associadas, Vila Verde, Braga, Portugal.

Ferreira, M., Baptista, A. A., & Ramalho, J. C. (2005). Avaliao Automtica de Migrao em Redes
Distribudas de Conversores. Paper presented at the Conferncia da Associao Portuguesa
de Sistemas de Informao (CAPSI), Bragana, Portugal.

Ferreira, M., Baptista, A. A., & Ramalho, J. C. (2006a). A Foundation for Automatic Digital
Preservation. Ariadne(48).

Ferreira, M., Baptista, A. A., & Ramalho, J. C. (2006b). CRiB: A service oriented architecture for
digital preservation outsourcing. Paper presented at the XATA - XML: Aplicaes e
Tecnologias Associadas, Portalegre, Portugal.

Ferreira, M., Baptista, A. A., & Ramalho, J. C. (2007). An intelligent decision support system
for digital preservation. International Journal on Digital Libraries, 6(4), 295-304.

Ferreira, M., & Ramalho, J. C. (2004a). Aquisio e Armazenamento de Metainformao no Contexto


de um Arquivo. Paper presented at the XATA - XML: Aplicaes e Tecnologias
Associadas, Faculdade de Engenharia da Universidade do Porto, Portugal.

Ferreira, M., & Ramalho, J. C. (2004b). DigitArq - Creating and Managing a Digital Archive. Paper
presented at the ICCC/IFIP International Conference on Electronic Publishing,
Braslia, Brazil.

Ferreira, M., & Ramalho, J. C. (2004c). DigitArq: Creating a Historical Digital Archive. Paper
presented at the 5 Conferncia da Associao Portuguesa de Sistemas de Informao,
Lisboa.

228
Ferreira, M., Saraiva, R., Rodrigues, E., & Baptista, A. A. (2008). Carrots and Sticks - Some
ideas on how to create a successful institutional repository. D-Lib Magazine, 14(1/2).

Fielding, R. T. (2000). Architectural Styles and the Design of Network-based Software Architectures.
University of California, Irvine.

Freed, N., & Borenstein, N. (1996). Multipurpose Internet Mail Extensions (MIME) Part Two: Media
Types (RFC No. 2046).

Gantz, J. F., Chute, C., Manfrediz, A., Minton, S., Reinsel, D., Schlichting, W., et al. (2008). The
Diverse and Exploding Digital Universe: IDC.

Gao, X., Wang, T., & Li, J. (2005). A Content-Based Image Quality Metric. Springer-Verlag
Lecture notes in Computer Science, 3642(2005), 231-240.

Geremew, M., Song, S., & J. JaJa. (2006). Using Scalable and Secure Web Technologies to Design a
Global Digital Format Registry Prototype: Architecture, Implementation, and Testing. Paper
presented at the IS&T Archiving, Ottawa, Canada.

Goldberg, K., Roeder, T., Gupta, D., & Perkins, C. (2001). Eigentaste: Constant Time
Collaborative Filtering Algorithm. Information Retrieval, 4(2), 133-151.

Google. (2006). Google Trends. Retrieved 2008-04-21, from http://www.google.com/trends

Graham, P. (2000). Issues in Digital Archiving. In R. Pilette & P. Banks (Eds.), Preservation:
Issues and Planning. Chicago: IL: American Library Association.

Graham, S., Simeonov, S., Boubez, T., Davis, D., Daniels, G., Nakamura, Y., et al. (2002).
Building Web Services with Java: Making Sense of XML, SOAP, WSDL and UDDI: Sams
Publishing.

Granger, S. (2000). Emulation as a Digital Preservation Strategy. D-Lib Magazine, 6(10).

Guenther, R., Caplan, P., Lavoie, B., Bordwell, S., Brandt, O., Clifton, G., et al. (2008).
PREMIS Data Dictionary for Preservation Metadata version 2.0. Washington DC, USA:
Library of Congress.

Hadjieleftheriou, M., Chandel, A., Koudas, N., & Srivastava, D. (2008). Fast Indexes and
Algorithms for Set Similarity Selection Queries. Paper presented at the International
Conference on Data Engineering, Cancun, Mexico.

Halem, M., F., S., Palm, N., Salmon, E., Raghavan, S., & Kempster, L. (1999). Technology
Assessment of High Capacity Data Storage Systems: Can We Avoid A Data Survivability Crisis?
Greenbelt, MD: Earth and Space Data Computing Division, NASA Goddard Space
Flight Center.

229
Harvey, P. (2003). ExifTool by Phil Harvey. Retrieved 2008-01-25, from
http://www.sno.phy.queensu.ca/~phil/exiftool/

Hedstrom, M. (1998). Digital Preservation: A time bomb for digital libraries. Computers and the
Humanities, 31, 189-202.

Hedstrom, M. (2001). Digital Preservation: Problems and Prospects. Digital Library Network
(DLnet)(20).

Heminger, A. R., & Robertson, S. B. (2004). A Delphi Assessment of the Digital Rosetta Stone Model.
Paper presented at the 37th Annual Hawaii International Conference on System
Sciences (HICSS'04), Big Island, Hawaii.

Hendley, T. (1998). Comparison of Methods & Costs of Digital Preservation (No. 106). West
Yorkshire: British Library Research and Innovation Center.

Herlocker, J. L., Konstan, J. A., Terveen, L. G., & Riedl, J. T. (2004). Evaluating Collaborative
Filtering Recommender Systems. ACM Transactions on Information Systems, 22(1), 5--53.

Heslop, H., Davis, S., & Wilson, A. (2002). An Approach to the Preservation of Digital
Records. Camberra, Australia: National Archives of Australia.

Hirtle, P. B. (2000). Archival Authenticity in a Digital Age. In Authenticity in a Digital


Environment. Washington, DC: Council on Library and Information Resources.

Hitchcock, S., Brody, T., Hey, J. M. N., & Carr, L. (2007). Digital Preservation Service
Provider Models for Institutional Repositories - Towards Distributed Services. D-Lib
Magazine, 13(5/6).

Hodge, G., & Frangakis, E. (2004). Digital Preservation and Permanent Access to Scientific Information:
The State of the Practice (Report No. 2004-3: Rev. 05/04): International Council for
Scientific and Technical Information & CENDI.

Hofman, H. (2001). How to keep digital records understandable and usable through time? Paper
presented at the Long-Term Preservation of Electronic Records, Paris, France.

Hofman, H. (2002a). A global issue: preservation of digital objects. Paper presented at the Korean
Association of Archives Management, Seoul, Korea.

Hofman, H. (2002b). Can Bits and Bytes be Authentic? Preserving the Authenticity of Digital Objects.
Paper presented at the International Federation of Library Associations Conference,
Glasgow.

Holdsworth, D., & Wheatley, P. (2001). Emulation, Preservation and Abstraction. DigiNews,
Research Library Group, 5(4).

230
Howel, A. G. (2004). Preserving Digital Information: Challenges and Solutions: Victorian Academic
Libraries, Victorian university libraries and State Library of Victoria.

Hunter, J., & Choudhury, S. (2003). Implementing Preservation Strategies for Complex Multimedia
Objects. Paper presented at the Seventh European Conference on Research and
Advanced Technology for Digital Libraries (ECDL'03), Trondheim, Sr-Trndelag,
Norway.

Hunter, J., & Choudhury, S. (2004). A Semi-Automated Digital Preservation System based on Semantic
Web Services. Paper presented at the Joint ACM/IEEE Conference on Digital Libraries
(JCDL'04).

Hunter, J., & Choudhury, S. (2005). Preservation webservices Architecture for Newmedia and
Interactive Collections (PANIC). Retrieved 2005-12-12, from
http://metadata.net/newmedia/

Hunter, J., & Choudhury, S. (2006). PANIC: an integrated approach to the preservation of
composite digital objects using Semantic Web services. International Journal on Digital
Libraries, 6(2), 174-183.

IEEE History Center. Development of VHS, a World Standard for Home Video Recording,
1976. Retrieved 2008-05-25, from
http://www.ieee.org/web/aboutus/history_center/vhs.html

International Press Telecommunications Council. (2004). IPTC Metadata for XMP. Retrieved
2008-01-24, from http://www.iptc.org/IPTC4XMP/

Jaccard, P. (1901). tude comparative de la distribution florale dans une portion des Alpes et
des Jura. Bulletin del la Socit Vaudoise des Sciences Naturelles, 37, 547-579.

Jaro, M. A. (1989). Advances in record-linkage methodology as applied to matching the 1985


census of Tampa, Florida. Journal of the American Statistical Association, 84, 414-420.

Jaro, M. A. (1995). Probabilistic linkage of large public health data files. Statistics in Medicine, 14,
491-498.

Jiang, W., & Schulzrinne, H. (2003). Assessment of VoIP service availability in the current Internet.
Paper presented at the Passive & Active Measurement Workshop, San Diego, CA.

Josefsson, S. (2006). The Base16, Base32, and Base64 Data Encodings. RFC 4648 Retrieved
2008-08-17, from http://tools.ietf.org/html/rfc4648

Kenney, A. R., McGovern, N. Y., Entlich, R., Kehoe, W. R., & Olsen, E. (2003). Digital
Preservation Management. Implementing Short-term Strategies for Long-term Problems, 2009-
03-12, from http://www.library.cornell.edu/iris/tutorial/dpm/

231
Kimball, R., & Ross, M. (2002). The data warehouse toolkit : the complete guide to dimensional modeling
(2nd ed.). New York: Wiley.

Kohavi, R. (1995). A study of Cross-Validation and Bootstrap for accuracy estimation and
model selection. International Joint Conferences on Artificial Intelligence, 2, 1137-1145.

Krijgsman, G. (2005). Emulator Zone. Retrieved 2005-12-09, from http://www.emulator-


zone.com

Lavoie, B., & Gartner, R. (2005). Technology Watch Report - Preservation Metadata (No. 05-01):
Online Computer Library Center Inc., Oxford University Library Services and Digital
Preservation Coalition.

Lavoie, B. F. (2004). The Open Archival Information System Reference Model: Introductory Guide
(Technology Watch Report No. Watch Series Report 04-01). Dublin, USA: Digital
Preservation Coalition.

Lavoie, B. F. (2008). PREMIS With a Fresh Coat of Paint - Highlights from the Revision of
the PREMIS Data Dictionary for Preservation Metadata. D-Lib Magazine, 14(5/6).

Lavoie, B. F., & Dempsey, L. (2004). Thirteen Ways of Looking at... Digital Preservation. D-
Lib Magazine, 10(7/8).

Lawrence, G. W., Kehoe, W. R., Rieger, O. Y., Walters, W. H., & Kenney, A. R. (2000). Risk
Management of Digital Information: A file format investigation. Washington, DC: Council on
Library and Information Resources.

Lee, K.-H., Slattery, O., Lu, R., Tang, X., & McCrary, V. (2002). The State of the Art and
Practice in Digital Preservation. Journal of Research of the National Institute of Standards and
Technology, 107(1), 93-106.

Levenshtein, V. I. (1965). Binary codes capable of correcting deletions, insertions, and


reversals. Soviet Physics Doklady, 10(1966), 707-710.

Li, J., Chen, G., Chi, Z., & Lu, C. (2004). Image coding quality assessment using fuzzy integrals
with a three-component image model. IEEE Transactions on Fuzzy Systems, 1(12), 99-
106.

Library of Congress. (2004a). Sustainability of Digital Formats - Planning for Library of


Congress Collections. Retrieved 2008/06/18, from
http://www.digitalpreservation.gov/formats

Library of Congress. (2004b). Sustainability of Digital Formats - Planning for Library of


Congress Collections. Retrieved 2008-06-18, from
http://www.digitalpreservation.gov/formats

232
Lorie, R. A. (2001). Long Term Preservation of Digital Information. Paper presented at the First
ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL'01), Roanoke, Virginia,
USA.

Lorie, R. A. (2002, July 13-17 2002). A Methodology and System for Preserving Digital Data. Paper
presented at the Second ACM/IEEE-CS Joint Conference on Digital Libraries
(JCDL'02), Portland, Oregon.

Lupovici, C., & Masans, J. (2000). Metadata for the Long Term Preservation of Electronic Publications
(No. 2). The Hague, The Netherlands: NEDLIB Consortium.

Lynch, C. (1999). Canonicalization: A Fundamental Tool to Facilitate Preservation and


Management of Digital Information. D-Lib Magazine, 5(9).

Lynch, C. (2000). Authenticity and Integrity in the Digital Environment: An Exploratory


Analysis of the Central Role of Trust. In Authenticity in a Digital Environment.
Washington, DC: Council on Library and Information Resources.

Lynch, C. A. (2003). Institutional Repositories: Essential Infrastructure for Scholarship in


Digital Age. ARL Bimonthly Report(226).

MacNeil, H., Wei, C., Duranti, L., Gilliland-Swetland, A., Guercio, M., Hackett, Y., et al.
(2001). Authenticity Task Force Report. Vancouver, Canada: InterPARES Project.

Mellor, P., Wheatley, P., & Sergeant, D. M. (2002). Migration on Request, a Practical Technique for
Preservation. Paper presented at the ECDL '02: 6th European Conference on Research
and Advanced Technology for Digital Libraries, London, UK.

Menasc, D. A. (2002). QoS Issues in Web Services. IEEE Internet Computing, 6(6), 72-75.

Microsoft Corporation. (1981). MS-DOS (Version 1.0) [Operating System].

Millar, L. (2004). Authenticity of electronic records: a report prepared for UNESCO and the International
Council on Archives. London, UK: International Council on Archives.

Musgrove, M. (2006, January 12). Nikon Says It's Leaving Film-Camera Business. The
Washington Post, p. D01. Retrieved 2007-12-12, from
http://www.washingtonpost.com/wp-
dyn/content/article/2006/01/11/AR2006011102323.html

National Library of Australia. (1999). Preservation Metadata for Digital Collections. Retrieved
2005-12-12, from http://www.nla.gov.au/preserve/pmeta.html

Navarro, G. (2001). A guided tour to approximate string matching. ACM Computing Surveys,
33(1), 31-88.

233
Nayak, P. R., & Ketteringham, J. M. (1994). The VCR: A Miracle at JVC Be Very Polite and
Gentle, Breakthroughs! : Pfeiffer & Company.

Newcomer, E., & Lomow, G. (2005). Understanding SOA with Web Services: Addison Wesley.

Newspaper Association of America, & International Press Telecommunications Council.


(1999). Information Interchange Model Version No. 4.1. Windsor, UK.

OASIS. (2005). Universal Description, Discovery and Integration (UDDI). Retrieved 2008-
04-21, from http://www.uddi.org/

Ockerbloom, J. M. (1998). Mediating Among Diverse Data Formats. Unpublished PhD Thesis,
Carnegie Mellon University, Pittsburg.

Ockerbloom, J. M. (2003). TOM Conversion Service. Retrieved 2006-12-10, from


http://tom.library.upenn.edu/convert/

OCLC/RLG Preservation Metadata Working Group. (2002). A Metadata Framework to Support


the Preservation of Digital Objects. Dublin, USA: OCLC Online Computer Library Center,
Inc.

Oliveira, C. (2001). Classificao de imagens colectadas na web. Universidade Federal de Minas


Gerais, Belo Horizonte.

Oltmans, E., Diessen, R. J. v., & Wijngaarden, H. v. (2004). Preservation Functionality in a Digital
Archive. Paper presented at the Joint ACM/IEEE Conference on Digital Libraries
(JCDL'04).

Parallels. (1995). Parallels Desktop Web site. Retrieved 2006-10-12, from


http://www.parallels.com

Pearson, D. (2008). AONS II: continuing the trend towards preservation software 'Nirvana'.
New Technology of Library and Information Service(1), 42-49.

Petrov, O., Vatolin, D., Parshin, A., & Titarenko, A. (2006). MSU Subjective Comparison of
Modern Video Codecs. Moscow, Russia: CS MSU GRAPHICS & MEDIA LAB VIDEO
GROUP.

Portuguese National Archives, & University of Minho. (2006). RODA Web site. Retrieved
2006-04-21, from http://portal.roda.dgarq.gov.pt

PREMIS Working Group. (2005). Data dictionary for preservation metadata: final report of the
PREMIS Working Group (Final report). Dublin, Ohio, USA: OCLC Online Computer
Library Center & Research Libraries Group.

Proena, A., & Lopes, S. (2004). Digital Preservation (Monography). Covilh: Departamento de
Informtica da Universidade da Beira Interior.

234
Ramalho, J. C., Ferreira, M., Castro, R., Faria, L., Barbedo, F., & Corujo, L. (2007). XML e
Preservao Digital. Paper presented at the XATA - XML: Aplicaes e Tecnologias
Associadas, FCUL, Lisboa, Portugal.

Ramalho, J. C., Ferreira, M., Faria, L., & Castro, R. (2007). Relational Database Preservation through
XML modelling. Paper presented at the Extreme Markup Languages, Montral, Qubec,
Canada.

Ramalho, J. C., Ferreira, M., Faria, L., Castro, R., Barbedo, F., & Corujo, L. (2008). RODA and
CRiB - A Service-Oriented Digital Repository. Paper presented at the International
Conference on Preservation of Digital Objects (iPRES), London, UK.

Ramalho, J. C., Ferreira, M., Ferros, L., Lima, M. J. P., & Sousa, A. (2006). Digitarq 2 - Nova
arquitectura aplicacional para gesto de Arquivos Definitivos. Paper presented at the 2nd
International Conference on Enterprise Archives, Seixal, Portugal.

Rauber, A., & Aschenbrenner, A. (2001). Part of Our Culture is Born Digital - On Efforts to
Preserve it for Future Generations. TRANS - On-line Journal for Cultural Studies., 10.

Rauch, C. (2004). Preserving Digital Entities - A Framework for Choosing and Testing Preservation
Strategies. Unpublished Master Thesis, Vienna University of Technology, Vienna.

Rauch, C., Krottmaier, H., & Tochtermann, K. (2007). File-Formats for Preservation: Evaluating the
Long-Term Stability of File-Formats. Paper presented at the International Conference on
Electronic Publishing, Vienna, Austria.

Rauch, C., Pavuza, F., Strodl, S., & Rauber, A. (2005). Evaluating preservation strategies for audio and
video files. Paper presented at the DELOS Digital Repositories Workshop, Heraklion,
Crete.

Rauch, C., & Rauber, A. (2004). Preserving Digital Media: Towards a Preservation Solution Evaluation
Metric. Paper presented at the International Conference on Asian Digital Libraries,
Shanghai, China.

Rauch, C., Rauber, A., Hofman, H., Bogaarts, J., Vedegem, R., Pavuza, F., et al. (2005). A
Framework for Documenting the Behaviour and Funcionality of Digital Objects and Preservation
Strategies. Glasgow: DELOS Network of Excellence.

RDF Core Working Group. (2004). Resource Description Framework (RDF): W3C.

Ross, S., & Hedstrom, M. (2005). Preservation research and sustainable digital libraries.
Internation Journal on digital Libraries, 5(4), 317-324.

Rothenberg, J. (2000). Preserving Authentic Digital Information. In Authenticity in a Digital


Environment. Washington, DC: Council on Library and Information Resources.

235
Rothenberg, J., Commission on Preservation and Access, & Council on Library and
Information Resources. (1999). Avoiding technological quicksand: finding a viable technical
foundation for digital preservation: a report to the Council on Library and Information Resources.
Washington, DC: Council on Library and Information Resources.

Rusbridge, A. (2003). Migration on Request (4th Year Project Report): University of Edinburgh -
Division of Informatics.

Russell, K. (2000). Digital Preservation and the CEDARS Project Experience. Paper presented at the
International Conference on Preservation and Long Term Accessibility of Digital
Materials, York, England.

Saltelli, A. (2004). Sensitivity analysis in practice : a guide to assessing scientific models. Hoboken, NJ:
Wiley.

Saramago, M. d. L. (2004). Metadados para preservao digital e aplicao do modelo OAIS. Paper
presented at the VIII Congresso da BAD, Estoril, Portugal.

Sarmento, F., Baptista, A. A., & Ramos, I. (2005). Estudo de comportamento de investigadores face
utilizao de um Repositrio Institucional. Paper presented at the Conferncia da Associao
Portuguesa de Sistemas de Informao (CAPSI), Bragana, Portugal.

Shepard, R. N. (1962). The analysis of proximities: Multidimensional scaling with an unknown


distance function. Psychometrika, 27(2), 125-140.

Shepard, T., & MacCarn, D. (1998). The Universal Preservation Format: Background and
Fundamentals. Paper presented at the Sixth DELOS Workshop, Tomar, Portugal.

Shepard, T., & MacCarn, D. (1999). The Universal Preservation Format: A Recommended Practice for
Archiving Media and Electronic Records. Boston.

Shiraishi, Y. (1985). History of Home Videotape Recorder Development. SMPTE Journal,


94(12), 1257-1263.

Shrestha, B., O'Hara, C. G., & Younan, N. H. (2005). JPEG2000: Image Quality Metrics. Paper
presented at the American Society for Photogrammetry and Remote Sensing
Baltimore, USA.

Silva, F. R. (2004). Uma abordagem para deteco de outliers em dados categricos. Universidade
Estadual de Campinas Campinas, Brasil.

SOA Reference Model TC. (2008). Reference Architecture for Service Oriented Architecture Version 1.0:
OASIS.

Sobel, I., & Feldman, G. (1968). A 3x3 Isotropic Gradient Operator for Image Processing. In
Stanford Artificial Project (Ed.). Stanford.

236
Soukoreff, R. W., & MacKenzie, I. S. (2001). Measuring errors in text entry tasks: an application of the
Levenshtein String Distance Statistic. Paper presented at the ACM Conference on Human
Factors in Computing Systems, New York.

Sousa, A. n., Ferros, L. M., Ramalho, J. C., & Lima, M. J. P. d. (2007). Consulta Real em Ambiente
Virtual: implementao de uma sala de referncia e leitura virtual num arquivo. Paper presented
at the Congresso Nacional de Bibliotecrios, Arquivistas e Documentalistas, Aores,
Portugal.

Stanescu, A. (2004). Assessing the Durability of Formats in a Digital Preservation


Environment. D-Lib Magazine, 10(11).

Stanley, L. G. D., & Stewart, D. L. (2002). Design sensitivity analysis : computational issues of sensitivity
equation methods. Philadelphia: Society for Industrial and Applied Mathematics.

Swade, D. (1998). Preserving Software in an Object-Centred Culture. In E. Higgs (Ed.), In


History and Electronic Artefacts (pp. 195-206). Oxford: Clarendon Press.

Tan, P.-N., Steinbach, M., & Kumar, V. (2005). Introduction to Data Mining: Addison Wesley.

Task Force on Archiving of Digital Information, Commission on Preservation and Access, &
Research Libraries Group. (1996). Preserving digital information: report of the Task Force on
Archiving of Digital Information. Washington, D.C.: Commission on Preservation and
Access.

Technical Standardization Committee on AV, & IT Storage Systems and Equipment. (2002).
Exchangeable image file format for digital still cameras: Exif Version 2.2 (No. JEITA CP-
3451): Japan Electronics and Information Technology Industries Association.

Teixeira, D., Ferreira, M., & Verhaegh, V. (2003). An Integrated Framework for Supporting Photo
Viewing Activities in Home Environments. Paper presented at the European Symposium on
Ambient Intelligence, Eindhoven, The Netherlands.

Tekli, J., Chbeir, R., & Yetongnon, K. (2006). Semantic and Structure Based XML Similarity: The
XS3 Prototype. Paper presented at the International Conference on Management of
Data, Delhi, India.

Telecommunication Standardization Sector of ITU. (2004). Objective perceptual assessment of video


quality: Full reference television. Geneva, Switzerland: International Telecommunication
Union (ITU).

Tetko, I. V., Livingstone, D. J., & Luik, A. I. (1995). Neural network studies, 1. Comparison of
overfitting and overtraining. Journal of Chemical Information and Computer Sciences, 35(5),
826-833.

The Cedars Project Team. (2001). The Cedars Project Report. UK: Consortium of University
Research Libraries.

237
The Cedars Project Team. (2002). Cedars Guide to Preservation Metadata: The Cedars Project.

Thibodeau, K. (2002). Overview of Technological Approaches to Digital Preservation and Challenges in


Coming Years. Paper presented at the The State of Digital Preservation: An
International Perspective, Washington D.C.

UK National Archives. (2002). PRONOM - The file format registry. Retrieved 2008-04-21,
2008, from http://www.nationalarchives.gov.uk/pronom/

UK National Archives. (2005). Droid: Digital Record Object Identification (Version 1.0)
[Format detector]. Surrey: UK National Archives.

University of Southampton. (2007). Registry of Open Access Repositories (ROAR). Retrieved


2007-11-22, from http://roar.eprints.org/

VMWare. (1998). VMWare Workstation Web site. Retrieved 2006-10-11, from


http://www.vmware.com/

W3C. (2002). Web Services Activity. Retrieved 2008-06-21, from


http://www.w3.org/2002/ws/

Walker, F. L., & Thoma, G. R. (2003). A SOAP-Based Tool for User Feedback and Analysis. Paper
presented at the InfoToday, Medford N.J., USA.

Walker, F. L., & Thoma, G. R. (2004). A Web-Based Paradigm for File Migration. Paper presented
at the IS&T's 2004 Archiving Conference, San Antonio, Texas, USA.

Walker, F. L., & Thoma, G. R. (2005). Image Preservation Through PDF/A. Paper presented at
the IS&T's 2005 Archiving Conference, Washington, D.C., USA.

Wang, L. W., Zhang, Y., & Feng, J. F. (2005). On the Euclidean distance of images. Ieee
Transactions on Pattern Analysis and Machine Intelligence, 27(8), 1334-1339.

Wang, Y. (2006). Survey of Objective Video Quality Measurements (No. WPI-CS-TR-06-02).


Massachusetts, USA: EMC Corporation Hopkinton.

Wang, Z., & Bovik, A. C. (2002). A universal image quality index. Ieee Signal Processing Letters,
9(3), 81-84.

Wang, Z., Bovik, A. C., Sheikh, H. R., & Simoncelli, E. P. (2004). Image Quality Assessment:
From Error Visibility to Structural Similarity. IEEE TRANSACTIONS ON IMAGE
PROCESSING, 13(4), 600-612.

Waters, D. (2002). Good Archives Make Good Scholars: Reflections on Recent Steps Toward the Archiving
of Digital Information. Paper presented at the The State of Digital Preservation: An
International Perspective, Washington D.C.

238
Waugh, A., Wilkinson, R., Hills, B., & Dell'oro, J. (2000). Preserving Digital Information Forever.
Paper presented at the Fifth ACM Conference on Digital Libraries, San Antonio,
Texas.

Webb, C. (2003). Guidelines for the Preservation of Digital Heritage: United Nations Educational
Scientific and Cultural Organization - Information Society Division.

Weirich, P., Skyrms, B., Adams, E. W., Binmore, K., Butterfield, J., Diaconis, P., et al. (2001).
Decision Space: Multidimensional Utility Analysis. Cambridge.

Werf, T. v. d. (2002). Our digital heritage: how authentic should it be? Paper presented at the
Victorian Association for Library Automation Inc., Melbourne.

Wikipedia contributors. Jean-Franois Champollion. Retrieved 2005-01-23, from


http://en.wikipedia.org/wiki/Jean-Fran%E7ois_Champollion

Wikipedia contributors. (2005). Rosetta Stone. 2005, from


http://en.wikipedia.org/wiki/Rosetta_stone

Wikipedia contributors. (2006a). Color depth. Retrieved 2008-04-21, from


http://en.wikipedia.org/w/index.php?title=Color_depth&oldid=86738648

Wikipedia contributors. (2006b). Image compression. Retrieved 2008-04-21, from


http://en.wikipedia.org/w/index.php?title=Image_compression&oldid=83896661

Wikipedia contributors. (2007). Digital camera. Retrieved 13 December 2007 12:24 UTC,
from http://en.wikipedia.org/w/index.php?title=Digital_camera&oldid=177619169

Winkler, W. E. (1999). The state of record linkage and current research problems. Wachington, DC,
USA: U.S. Bureau of the Census.

Witten, I. H., & Frank, E. (2005). Data Mining: Practical Machine Learning Tools and Techniques
(Second ed.): Morgan Kaufmann.

Woodyard, D. (1998). Farewell my Floppy: a strategy for migration of digital information.


Electronic Preservation Retrieved 2009-01-05, from
http://www.nla.gov.au/nla/staffpaper/valadw.html

Woodyard, D. (2000). Digital Preservation: The Australian Experience. Paper presented at the Third
Conference Digital Library: Positioning the Fountain of Kowledge, Malaysia.

Xiao, C., Wang, W., Lin, X., & Yu, J. X. (2008). Efficient Similarity Joins for Near Duplicate
Detection. Paper presented at the WWW 2008, Beijing, China.

Zeng, L., Benatallah, B., Dumas, M., Kalagnanam, J., & Sheng, Q. Z. (2003). Quality Driven
Web Services Composition. Paper presented at the 12th International Conference on the
World Wide Web (WWW), Budapest, Hungary.

239
240
NDICE REMISSIVO

A D
Acesso, 21 Data warehousing, 131
actualizao de verses, 27 diagramas vectoriais, xxvi, 14
Agente, 42 Digital Curation Centre, 36
agentes, 30, 31, 36, 41, 83 direitos, 41, 43
Anlise de Utilidade, 63 disco rgido, 15, 17, 23
aplicaes, xxvii, 13, 14, 24, 25, 27, 34 disponibilidade, 65, 79, 92, 143
arqueologia digital, 34 disquete, 15, 23
rvore-objectivo, 63, 64, 65 Documentos de texto, xxvi, 14
ASCII, 39 DVD, xxv, xxix, 13, 15, 17
udio, xxvi, 14, 100
autenticidade, 37, 38, 40, 43, 44 E
emulao, 23
B emulador, 23, 24, 25
bases de dados, xxvi, 14 encapsulamento, 21, 32
Biblioteca do Congresso, 36, 62, 105 Entidade Intelectual, 41
entidades intelectuais, 41
C estabilidade, 65, 92, 93
canonizao, 39 Evento, 42
caractersticas essenciais, 39 eventos, 41
CCSDS, 18 exactido, 169
CD, xxv, xxix, 15, 23 extractor de propriedades, 97
Coeficiente de Similaridade de Jaccard,
F
157, 158, 210, 211
comunidade de interesse, 21 Ficheiro, 43
controlo de qualidade, viii, 5, 6, 8, 50, 51, formato, 15
52, 67, 68, 71, 74, 75, 80, 81, 97, 99, 100, formato cannico, 39
127, 129, 132, 133, 134, 168, 183, 184, formato de preservao, 29
185, 189, 194, 213 Formato Universal de Preservao, 32
conversores, viii, xxvi, 3, 6, 27, 29, 30, 31, fotografias digitais, xxvi, 14
32, 36, 51, 52, 59, 60, 63, 71, 73, 80, 81, funes de similaridade, 7, 99, 128, 172,
82, 87, 91, 94, 95, 124, 127, 155, 164, 186, 193, 197
167, 168, 184, 186, 193
correlao de Pearson, 151, 159, 169, 170, G
187 Global Digital Format Registry, 35
correlao de Spearman, 151, 159, 169
custo, 23, 46, 51, 65, 67, 79, 83, 85, 87, 92,
94, 95, 96
custo de utilizao, 83, 85, 92, 94
241
H N
hardware, xxv, xxvi, 15, 22, 23, 24, 25, 26, normalizao, 27, 28, 29, 31, 46
29, 33, 38, 40
HTTPS, xxix, 130 O
Hypertext Transfer Protocol sobre Secure OAIS, 18, 19, 20, 40, 44
Socket Layer. See HTTPS Object Evaluator, 96, 134
Objecto, 43
I objecto conceptual, 15, 17, 21, 22, 26
incorporao, 19, 40 objecto digital, xxvi, xxvii, 2, 3, 8, 14, 15,
informao, xxv, xxvi, xxvii, 13, 14, 18, 19, 17, 18, 23, 24, 26, 27, 32, 33, 37, 38, 39,
20, 21, 23, 24, 26, 29, 32, 33, 34, 35, 38, 43, 44, 79, 93, 94, 182
40, 41, 42, 43, 44, 45, 46 objecto experimentado, 16
Ingesto, xxvi, 19 objecto fsico, 15, 21, 38, 45
Internet, xxvi, 30, 32, 35, 66, 91, 130, 165, objecto lgico, 15
179, 189, 192 objecto semntico, 15
ISO, 18 objectos, 41
objectos conceptuais, 99
J objectos digitais, xxvi, 15, 21, 22, 24, 26,
Java Virtual Machine, 32 27, 28, 29, 32, 33, 34, 39, 44, 46, 64
JPEG, xxvi, xxix, 17, 28 OCLC/RLG, 41

L P
LDAP, 36 Pacotes de Informao de Disseminao,
21
M PDF, xxvii, xxx, 31, 35, 39, 42, 58, 67, 155,
200, 208, See Portable Document
mquina virtual universal, 32 Format
Mdia do Quadrado do Erro, 159, 162 Pedra de Rosetta, 33, 34
metainformao de preservao, 40 Planeamento de Preservao, 20
migrao, 21, 26, 27, 28, 29, 30, 31, 32, 39, PNG, xxvii, xxx, 28
44, 45, 46 polticas, 20, 29, 39, 44, 46
migrao a-pedido, 27, 29, 31, 46 populao potencialmente utilizadora, 20
migrao para suportes analgicos, 27 Portable Document Format, xxvii, xxx, 102,
Migration Advisor, 72, 74, 97, 110, 118, 131, 201
119, 120, 121, 122, 124, 126, 128, 131, preciso, 169
132, 133, 134, 162, 163, 164, 165, 166, PREMIS, xxx, 14, 40, 41, 43, 44, 77, 97,
167, 168, 169, 170, 171, 172, 173, 184, 179
185, 186, 187, 194, 195 preservao digital, vii, xxvi, 2, 5, 8, 13, 14,
Migration Broker, 89 17, 18, 21, 23, 26, 34, 40, 41, 49, 182
Migration Knowledge Base, 132, 194 propriedades significativas, 38, 39, 65, 97,
MIME, 35 99, 100, 134, 135, 136, 163
Mime Media Types, 34, 35 provenincia, 40

242
R submisso, 19
suporte fsico, xxvii, 15, 17, 23, 32
realidade virtual, xxvi, 14
refrescamento, 23 T
repositrio, 19, 21, 28, 32, 39, 40
Repositrio de Dados, 20 taxionomia de avaliao, 100, 119
Representao, 43 Thibodeau, 21, 45
Representation Information Registry TIFF, xxvii, xxx, 17, 28
Repository, 36 TOM, 30, 35, 91, See Types Object Model
royalties, 29, 110, 113 Typed Objects Model, 30

S V
Sequncia de bits, 43 vdeo, xxvi, 12, 45
Service Registry, 83, 84
Servios, 31 W
similaridade, 99, 101, 107, 108, 109, 110, Web, xxv, xxvii, 14
134, 135, 136, 139, 145, 147, 149, 150, Web service, 31
151, 152, 157, 158, 159, 160, 162, 203, Web services, xxx, 36, 52, 53, 75, 129, 188,
204, 205, 207, 208, 211, 218 189, 190, 195
software, xxv, xxvi, xxvii, 13, 15, 22, 23, 24, Word Object Model, 199
26, 27, 28, 29, 31, 32, 35, 38, 40, 42, 46 WS-BPEL, xxx, 129, 195

243

You might also like