You are on page 1of 16

Garantir a longevidade da Informação Digital

por Jeff Rothenberg

RAND 1700 Main Street Santa Monica, CA 90407 310/393-0411 e-mail (Internet): jeff@rand.org

Revisão: 22 de fevereiro de 1999

Documentos digitais estão substituindo o papel na revolução mais dramática de manutenção de registros desde oinvenção da imprensa. É a geração atual desses documentos condenada a ser perdida para sempre?

Nota: este artigo é uma versão ampliada do artigo "Garantir a longevidade de Documentos Digitais"que apareceu em 1995 a edição de janeiro da revista Scientific American (Vol. 272, N º 1, p. 42-7). Na data acima, esta revisão pode ser encontrada em http://www.clir.org/programs/otheractiv/ensuring.pdf

rev: 980327

Assegurar a longevidade da Página de Informação Digital Jeff Rothenberg-1 de 18

1

outros casos de perda possível observar no relatório incluem centenas de rolos de fita do Departamento de Saúde e Serviços Humanos. O conteúdo histórico e valor de muitos registros governamentais. organizacionais.Garantir a longevidade da Informação Digital por Jeff Rothenberg Revisão: 22 de fevereiro de 1999 Nota: este artigo é uma versão ampliada do artigo "Garantir a longevidade de Documentos Digitais" que apareceu em 1995 a edição de janeiro da revista Scientific American (Vol. parece haver poucos casos documentados de perda de equívocos. jurídicos. N º 1. Apesar de algumas informações sobre estas fitas foi aparentemente ilegível. Até à data. as terras públicas da Comissão de Revisão da Lei. os arquivos da Comissão Nacional sobre o Abuso de maconha e drogas. A importância histórica de muitos de nossos digital documentos. financeiros e técnicos. perda de informações sobre o formato. e parece que nada insubstituível foi perdido (já que os retornos censo-primas eram guardados em microfilme). mas os nossos documentos digitais são muito mais frágeis do que o papel. pelo menos. Eles encontram uma carta datada de 1995 e um CD-ROM (disco compacto). o registro de todo o período atual da história está em perigo. de 1990. mas isso pode simplesmente refletir o fato de que os documentos ou dados que são reconhecidos como importantes. Esses casos exemplificam todos os modos de perda discutidos neste artigo: deterioração física dos meios de comunicação. Relatório da Casa 101-978). exceto em filmes antigos. S. que não pode considerar suficientemente importante para justificar poupança pode tornar-se aparentes somente muito tempo depois que eles se tornaram ilegíveis. 42-7). Um dos melhores da publicidade casos preocupações U. e até mesmo se eles podem de alguma forma encontrar uma unidade de disco adequado. No entanto. e os meus netos (que ainda não nasceram) estão a explorar o sótão da minha casa (como Ainda Unbought). p. que são rapidamente substituindo seus equivalentes em papel. tem uma importância histórica única. Outras fontes sugerem que os dados científicos que está em risco semelhante. a maior parte foi copiado com sucesso em mídias mais recentes. enquanto eles ainda são recuperáveis são os mais prováveis a serem preservados. Meus netos estão compreensivelmente animado. Combate Área arquivo contendo Casualty POW MIA e informações para o Vietnã guerra. O que temos já perdeu? Embora existam alguns bem documentado. 2 . e muitos outros. tão grande como o introdução de impressão. Esta foi originalmente armazenados em fitas digitais que tornaram-se obsoletas mais rápido do que o esperado. mas eles nunca viram um CD antes. e na indisponibilidade de software. como eles irão executar o software necessário para interpretar as informações no disco? Como podem ler o meu obsoleto documento digital? Esse cenário de dúvidas o futuro do nosso computador baseado em documentos digitais. obsolescência de hardware. O ano é 2045. este caso representa um triz e é citada com destaque na Câmara dos Representantes 1990 Relatório Tirar um byte da história: a preservação do arquivo de registros de computador federal (novembro 6. Comissão do presidente na Fazenda Escola. 272. É amplamente aceito que a tecnologia da informação é revolucionar os nossos conceitos de documentos e registros em uma reviravolta. ea Comissão Nacional de Defesa do Consumidor Finanças. codificação ou compressão de arquivos. casos indiscutíveis de importantes documentos digitais ou dados que foram irremediavelmente perdidas. a evidência anedótica abunda. se não da própria escrita. Em fato. como a NASA e fitas antigas registros insubstituível de numerosos experimentos idade ungracefully na ausência de financiamento para copiá-los para novas mídias. informações do Censo de 1960. científicos bancos de dados e documentos pessoais podem ser irremediavelmente perdidas para as gerações futuras se não tomar medidas para preservá-los. A atual geração de documentos digitais. informações herbicida necessária para analisar o impacto do Agente Laranja. portanto. A carta de reivindicações que o disco contém um documento que fornece a chave para obter a minha fortuna (ainda não adquiridos).

assimprovando o seu próprio ponto. e isso dá vida a ti. eles apenas se tornar ilegível Meus netos dilema revela alguns problemas fundamentais em matéria de armazenagem digital. Um fluxo de bits podem ser armazenados de diferentes maneiras em diferentes suportes. E Sommers locação tem muito curto uma data:Algum tempo muito quente o olho do céu brilha. em vez disso um disco magnético. E cada faire faire do declínio há algum tempo. o que parece seguro para assumir permanecerá compreensível por centenas de anos [ver Figura 1]. Recuperando um fluxo de bits de sua representação física em alguma mídia requer um dispositivo de hardware. Se o CD óptica meu sótão. eterna para grow'st tu tempo. mesmo admitindo que os meus netos ainda reconhecer a informação digital que écodificados na forma binária e que o fluxo de bits destinados podem ser recuperados do meio. a tentativa de lê-lo provavelmente seria um desperdício de tempo. encadeadas em seqüência [veja a Figura 3]. 3 . nem a sua tendência lemming-como direção obsolescência compreendem o pior dos problemas dos meus netos. em que a "montar" esse meio. Enquanto os homens podem respirar ou os olhos podem ver. As últimas décadas têm testemunhado a desaparecimento de inúmeras formas de armazenamento digital. E muitas vezes é a sua tez de ouro dimm'd. ou mudar de rumo untrim'd naturezas:Mas. ou outros. que Como Shakespeare de forma tão eloquente notas no dístico do famoso soneto 18. O conteúdo de mídia digital mais evaporar muito antes de palavras escritas em papel de alta qualidade. Um programa especial (Chamado de "driver de dispositivo") também é necessário para fazer este dispositivo acessível por um determinado computador do sistema. é a carta que será de cinquenta imediatamente inteligível anos a partir de agora. Para entender o que isso acarreta. a palavra impressa tem um tipo deimortalidade que poucas outras coisas podem reivindicar. A palavra "presente" na última linha referese ao soneto de si mesmo. pois eles são substituídos por novos meios de comunicação ou formatos incompatíveis [veja a Figura 2 e Fotos 1]. Diferentes meios de comunicação podem armazenar uma dada seqüência de bits de maneira diferente.Então. a mídia física no qual ele está armazenado estão longe de ser eterna. vida longa e isso.Nem a posse solta que tu ow'st faire. A carta possui a qualidade invejável de ser legível sem máquinas. bem como especial "controller" um circuito que pode recuperar as informações armazenadas no meio-se magnético. Isso levou a minha observação que o digital Informações dura para sempre ou cinco anos. Nós vamos usar o "fluxo de bits" para significar uma seqüência. de acordo com as propriedades físicas dos meios de comunicação e de vários convenções. eterna a tua Sommer não deve desaparecer. Eles devem não apenas extrair o conteúdo do disco que deve também interpretá-la corretamente. A informação digital pode ser armazenado em qualquer meio físico que pode gravar dígitos (como os 0s e 1s que chamamos de "bits"). No entanto. Nem a morte brag wandr'st tu na sua sombra. como um disco unidade. No entanto. Apesar da tão propalada imortalidade da informação digital (decorrentes de sua capacidade de ser copiado perfeitamente). devemos examinar a natureza de armazenamento digital. ferramentas especiais ou conhecimento que não o Inglês.Pouco velha córregos nunca morrem. nem a fragilidade física dos suportes digitais. Quando em linhas. sem a carta explicativa. Devo te comparar a um dia de verão? Tu és mais linda e mais temperado: Windes Rough fazer tremer os brotos de Maie. A fluxo de bits é simplesmente um fluxo de dígitos binários. apesar de sua reprodutibilidade tornar a informação digital teoricamente invulnerável a estragos do tempo. Ironicamente. óptico. não teriam nenhuma razão para pensar que o disco no meu sótão foi pena decifrar. e muitas vezes eles se tornam obsoletos unusably muito mais cedo. destina-se significativo de bits (Que pode não ser a mesma que a seqüência em que eles aparecem em alguma mídia de armazenamento). o que ocorrer primeiro. não o disco digital. Em primeiro lugar. Por acaso.

demótica. descendente de Ptolomeu.A versão moderna e digital do dístico teria que ser algo como o seguinte: Enquanto o fluxo magnético sobre este disco não tenha sido perturbada. vida longa e isso. enquanto a segunda. Desde o terceiro entrega é em grego.. pode fornecer a chave para decifrar os scripts perdido egípcia) foi visualmente aparentes com o tenente francês (Pierre François Xavier Bouchard). que contém interpretações equivalente a um texto único em três scripts. uma das quais. que pode ser visto no Museu Britânico. que estava no comando do time que descobriu a pedra. Então. e enquanto os seres humanos conservam o tamanho apropriado e unidades de disco. O primeiro Destes. enquanto outros relatam que muitas vezes falha em um ou dois anos. Médio vida física prática 5-59 anos 20-30 anos 5-10 anos AVG. um formato particular de um dado meio pode ser Espera-se que se tornam obsoletos no prazo máximo de cinco anos. não tinha sido utilizado desde o quarto século dC. A mídia de armazenamento digital mostrado ao redor da réplica já nãopermaneçam legíveis para 1/100th enquanto a Pedra de Roseta. No entanto. e enquanto eles ainda podem encontrar ou recriar o ambiente de computação necessárias para executar o software.. e contanto que eles tenham acesso ao software que codificam a estrutura do arquivo e códigos de caracteres utilizados no fluxo de bits do documento. o filho de um dos generais de Alexandre. o Rosetta Preservação de Stone é directamente imputável ao facto de a sua importação (ou seja.) Além de ser perfeitamente legíveis depois de quase 22 séculos. data de 196 aC e consiste de um decreto real emitido no primeiro aniversário da coroação de Ptolomeu V (Os governantes do Egito durante o Período Ptolomaico foram Macedónia grega. a Pedra de Roseta desde que a chave para interpretar os scripts do antigo Egito. Figura 1: soneto imortal de Shakespeare. 18 e seu equivalente digital Há uma controvérsia considerável sobre o tempo de vida física dos meios de comunicação: por exemplo. . que representa a uso de grego neste documento oficial. tempo até obsoletos 5 anos 5 anos 5 anos óptico (CD) fita digital magnética do disco Figura 2: O meio é a mensagem de curta duração A peça central dessa foto é uma réplica em escala 1 / 3 do Rosetta Stone. uma vez que em qualquer dado momento. sendo grego. que consistia em três versões o mesmo texto. A original. velocidade e enquanto eles têm controladores de hardware e drivers de dispositivo de software capaz de ler os bits a partir deste disco. fazendo do antigo Egito indecifrável por mais de 13 séculos. Descoberta no Egito em 1799 por um Esquadrão de demolição militar francês. hieroglífica. vida física é raramente incluem como fator limitante. alguns afirmam que a fita terá a duração de 200 anos. 4 . e enquanto eles ainda podem respirar ou ver. tinha sido a última utilizado no século 5 dC.

seleção números em 4 dígitos. porque um fluxo de bits dado pode representar quase tudo. seguido de uma verificação no número com zero indicando um depósito.00 $100. ou seja.00 $350. e em quantidades de 11 dígitos.00 $100.00 $ 50. depósitos em 0000. as entradas acima tornar-se: 04059400000000005000000000050000 04269403140000001000000000040000 04279400000000000500000000045000 11039403150000001000000000035000 5 . que é uma seqüência de entradas.00 $450. Data 4/5/94 4/26/94 4/27/94 11/3/94 chk/dep depósito Montante chk# 314 depósito chk# 315 $500. Para compreender este fluxo.00 Balanço $500. seguido por uma quantidade de transações. Como podem as gerações futuras interpretar corretamente a nossa parte córregos? Imagine que todos os números em um extrato mensal de conta corrente foram amarradas juntas sem pontuação ou espaçamento para distinguir entre os números dos cheques. você precisaria para saber o seu formato. um número do cheque. datas ou os valores em dólares de cheques.00 $400. Você também precisa saber onde cada peça começa e termina. e uma quantidade. 0 ou 1). Note que a mudança do comprimento do fluxo ou reorganizar de forma alguma atrapalha com o seu significado. Um fluxo de bits é simplesmente um fluxo de dígitos em que cada dígito é binários (ou seja. O resultado seria um "fluxo dígito" decimal contendo todas as informações importantes na declaração.Cor Foto por Jeff Rothenberg deve ser interpretada. ainda que de forma decididamente ilegível. quantos dígitos compreendem uma data. por exemplo. seguido por um balanço intermediário.00 Removendo todos os espaços e pontuação e as datas de traduzir em 6 dígitos (DDMMAA). cada uma composta por uma série de peças. de um inteiro para uma matriz de pontos em uma imagem de estilo pontilhista [veja a Figura 4]. depósitos ou saldos. tais como data. Isso não é simples.

sim” não. como um inteiro. etc Caracter “U” Integer som . um número de ponto flutuante. Nos esquemas atuais. sim. por exemplo. que podem consistir de comprimento fixo de pedaços de informação (chamados de "bytes"). Os 8 bits destaque no fluxo de bits mostrado abaixo pode ser interpretada de muitas maneiras. Para extrair comprimento fixo de bytes de um fluxo de bits (assim. que por sua vez pode representar números diferentes de caracteres. 6 . um código de caracteres simples.Concatenando essas entradas produz o fluxo de dígitos decimais seguintes: 04059400000000005000000000050000042694031400000 01000000000040000042794000000000005000000000450 0011039403150000001000000000035000 Um fluxo de bits é simplesmente um fluxo de dígitos em que cada dígito é 0 ou 1. codificar uma "chave" inteiro no início do fluxo de bits. Por exemplo. não. um fluxo de bits tem a estrutura implícita de que não pode ser representado explicitamente no fluxo de bits em si.“21” bit stream 010111000000001010100000000100000111101110 número real “1. em princípio.. os bytes são normalmente 7 ou 8 bits de comprimento. o que representa o comprimento de cada byte [veja a Figura 6]. Poderíamos. cada qual representa um código para um único caractere [veja a Figura 5]. Mas um fluxo de bits não pode incluir informação suficiente para descrever como deve ser interpretado. não.3125” imagem bitmap lógica “não. uma imagem. sim Figura 4: um fluxo de bits pode representar qualquer coisa Bytes de comprimento diferentes permitem que diferentes faixas de códigos. Figura 3: O que é um fluxo de bits? Compondo este problema. um som. letras maiúsculas. não. "analisar" que em sua partes constituintes) é preciso saber o comprimento de um byte. Por exemplo. um bitmap lógica. se um fluxo de bits representa uma seqüência de caracteres alfabéticos caracteres. Considerando que a 8-bit bytes proporcionar mais liberdade. os bytes de 6 bits fornecer códigos apenas o suficiente para representar sem adornos.

Para interpretar cada byte. mas se tentarmos identificar o esquema de codificação de codificação de um "código identificador" no bit fluxo em si. devemos anotar nosso armazenamento digital médio. Além disso. No entanto. 7 . E mesmo depois de um fluxo de bits é analisado corretamente. Destinado chave de 4 bits ( valor de 0111 = 7) Fluxo bit : Destina-se 7-bit data bytes 011111000000001010100000000100000111101110 Não intencional chave 5 bits (valor de 01111 = 15) Não intencional 15 bit data byte Figura 6: Fluxos de bit não podem ser auto-explicativas No entanto. como em puxar-se por É um próprio esforço). esquemas de compressão (que reduzem o comprimento de bit córregos. de byte byte da amostra Intervalo de códigos caracteres representáveis 6 bits 8 bits 000101 00000101 0-63 0-255 {letras maiúsculas + alguns dígitos pontuação} {letras minúsculas superior + dígitos pontuação + "controle" caracteres +elementos gráficos} Os 4 bits no início deste fluxo de bits são destinados a ser lido como o inteiro "chave" 7. Em nosso cenário. não há nenhuma maneira de contar a partir do fluxo de bits se o tempo inteiro chave é. precisamos de outro código identificador para nos dizer como ler o primeiro código identificador! Mais uma vez devemos bootstrap este processo. este valor inteiro chave deve-se ser representado por um byte de algum tempo. uma maneira de fazer algo sem ajuda de qualquer fonte externa. significando que o bytes restantes no fluxo de bits são cada 7 bits. Como pode um leitor interpretar a chave sem saber quanto tempo é? Precisamos de uma outra chave para explicar como interpretar a primeira tecla! Os cientistas da computação descrever tais problemas recursivos como exigindo uma "bootstrap" (isto é. para reduzir o custo de armazenar e transmitir-los) e esquemas de criptografia (que codificá-los para a privacidade) faz pouco fluxos bastante difícil analisar [veja a Figura 7]. A fim de proporcionar um tal de bootstrap. é preciso saber o esquema de codificação ele usa. No entanto. isso leva a um problema semelhante ao de uma chave de codificação para especificar o comprimento de cada byte em um fluxo de bits. a carta que acompanha o disco deve cumprir esse papel. decodificação parece simples: nós simplesmente interpretar cada byte de acordo para o código apropriado.Comprim. gostaríamos de concluir erroneamente que os bytes restantes a cada 15 bits de comprimento. nós enfrentar um outro problema: se o fluxo resultante de bytes representa uma seqüência de números ou caracteres alfabéticos. fornecendo anotações facilmente legível. com informações facilmente legível que explica como ler. se estivéssemos a ler erroneamente os primeiros 5 bits do fluxo de bits como a chave (em vez dos 4 primeiros).

etc. arquivos em geral contêm elementos relacionados logicamente. Programas de processamento de texto embed especiais informações sobre o formato de seus documentos para descrever a tipografia. codificação runlength" substitui cada seqüência de 0s (000 . 1:9 resultando bytes de 5 bits: 00110. Por exemplo. cada executado no pouco original fluxo mostrado pode ser representado por um byte de 5 bits cujo primeiro bit especifica se o prazo é de 0s ou 1s e cujos restantes 4 bits especifica a duração de uma corrida (de até 15 bits). composto de ponteiros para outros lugares dentro do fluxo de bits ou padrões a ser correspondido. layout e estrutura (identificação títulos.1 Subseção 1. 11001 comprimido fluxo de bits: 00110111100110111001 (20 bits) Figura 7: Compactando um fluxo de bits É tudo no programa No entanto. Este esquema é mais apropriada para dados que contém longas seqüências de 0s e 1s. 01101. Este pode reduzir o tamanho de um fluxo de bits sem perder nenhuma informação.) O fluxo de bits em um documento arquivo pode representar estruturas muito mais complexas do que seqüências de bytes de comprimento fixo. bem como de texto. "Hipermídia" programas de uso embutido Os documentos digitais podem codificar estrutura. Por exemplo.) Programas de planilha eletrônica inserir fórmulas especificando relações entre as células em seus documentos. e n é o comprimento da pista) produz: seqüência de séries: 0:6. (estrutura de exibição de documentos impressos similares e de referência cruzada. um documento pode consistir de múltiplassubseções em seções: Seção 1 Subseção 1. indicando quantos bits 0 estiveram presentes no dado "run" (à semelhança de 1s). tais como imagens digitais. (Vários documentos são armazenados em arquivos separados em um único meio digital.2 8 . Os documentos digitais são normalmente guardados como "arquivos" de informações: as coleções de bits correspondente ao bit que representam fluxos de documentos específicos.) [Figura 8]. Além de ter estrutura complexa. por simplicidade. inserir informações especiais que é significativa apenas para o software que os criou... 0:13.Como um exemplo simples de compressão de um fluxo de bits sem perda ". muitos documentos. em quais os números de página são usados como ponteiros. mas fisicamente separados que estão ligados a umas das outras por referências cruzadas internas. fluxo de bits original: 000000111111111111110000000000000111111111 (14 bits) uma série de 6 0 bits uma serie de 14 bits 1 Representando cada execução do fluxo de bits original como um par de b: n (onde b é 0 ou 1 para indicar oconteúdo da execução. Em particular. 11110. seções. o problema é mais profundo que isso. 0) por uma contagem. capítulos. enquanto nomes de seção ou referências outros conteúdos requerem o leitor a busca de texto especificado. pode assumir uma correspondência de um-para-um entre os arquivos e documentos. 1:14.

arquivos de documentos são os programas. que transcendem as limitações do impresso página. incluindo todos os aspectos da representação de um fluxo de bits. Sem isso o autor do programa ou algum equivalente em software de visualização do documento é mantido refém crítico para sua própria codificação. consistindo de instruções e dados que só pode ser interpretada pelo software apropriado. gráficos. informação e estrutura. como "codificação" (embora este termo é usado frequentemente mais estrita). um arquivo de documento não é um documento em si mesmo: ele apenas descreve um documento que passa a existir somente quando o arquivo é "correr" pelo programa que o criou.1 Figura 8: Estrutura do Documento informações para identificar e links de texto. À medida que descobrem as vantagens de documentos digitais. exceto quando eles são interpretados pelo o software que os criou. implica que os não-linear. 9 . Como os documentos se tornam mais complexos do que simples fluxos de caracteres alfabéticos. Os bits em cada arquivo de documento são significativas apenas para o programa que criou esse arquivo. no entanto. mas. Com efeito.2 Bytes no arquivo: Contagem de bytes: sec1 002 018 1 5 8 031 11 ---14 textofl.1 misc subsec 1. nenhuma das quais é necessariamente mais "correta" do que qualquer outro.2 31 "Hipertexto" documentos pode consistir de elementos que estão ligados entre si para formar múltiplas alternativas seqüências. documentos multimédia serão cada vez mais predominante. Na medida em que nós criamos de documentos digitais deste tipo. tal como o seu comprimento byte. pelo menos enquanto o nosso paixão dura. Isso pode ser parcialmente resultado de nossa paixão com a novidade da tecnologia da informação. caractere códigos. estamos chegando a confiar mais e mais pesadamente sobre os recursos do meio digital. que será impossível o acesso sem software apropriado. imagens. multi-mídia. Isto é.1 18 ---27 textofl. Por conveniência. uma determinado elemento pode aparecer como uma subseção de várias seções diferentes (fazendo os ponteiros no seu fluxo de bits ainda mais essencial para a compreensão de sua estrutura): Seção 1 Seção 2 Subseção 1. torna-se cada vez mais sentido pensar neles como existente em todas. vamos nos referir a toda a informação embutida deste espécie. sons e informações temporais em arbitrariamente formas complexas.Isso pode ser representado por um fluxo de bits que contém ponteiros (ptr1 e ptr2) que dão a contagem de bytes em que cada subseção começa: Da subseção Nome da seção ptr1 ptr2 misc subsec 1. Em um documento deste tipo.1 Subseção X Subseção 2.

se a pessoa precisa ler um documento complexo como o seu autor visto que. Para ler o arquivo de documentos armazenados no CD-ROM no meu sótão. mas deve ser visto por meio do software apropriado. pode-se ter pouca escolha mas para executar o software que o criou. Mas. tentando "decifrar" a estrutura eo significado de um arquivo de documento arbitrária. bem? Se podemos transformar uma planilha em uma tabela. se o documento é mais complexo do que isso. meus netos têm portanto. mas quais são as suas chances de encontrar esse programa daqui a cinqüenta anos? Se eu incluir uma cópia do programa no próprio CD-ROM. o leitor-alvo de um arquivo digital é um computador programa. não é inerente ao arquivo em si. portanto. Incluindo uma cópia do sistema operacional no CD-ROM pode ajudar. muitas vezes desloca títulos ou legendas ou elimina-los completamente. Quanto disto posso guardar no CD-ROM. mas é ingênuo acreditar que qualquer codificação de documento no entanto natural que Parece-nos hoje. mas o hardware do computador requeridas por esse sistema operacional já há muito se tornaram obsoletas. pelo menos parcialmente interpretar a codificação do arquivo de documento? Em alguns casos esta pode ser suficiente. Documentos digitais. Eles não podem ser "realizou-se a luz". Isso é apenas uma perda de estrutura. não um ser humano.Suponha que os meus netos conseguem ler o fluxo de bits destinados a partir do CD-ROM. uma abordagem de força bruta. O significado de um arquivo. o significado que isto tem no língua do seu leitor-alvo. em vez de subsumir-los. ou é suficiente para executar algumas semelhantes programa que possa. A fim compreender um arquivo. depois de tentativa e erro experimentação pode decodificar o documento como um fluxo de texto. ou não está em sua forma original. saber qual o programa criou o arquivo. muitas vezes com perdas irritante de formato. mas em todo o conjunto de hardware e software que permitiu que o programa seja executado. Mas o conteúdo pode ser sutil: tradução de um formato de processamento de texto para outro. Uma vez que esses padrões são artefatos do algoritmo de formatação do meu software de processamento de texto. ou seja. temos de preservar o pouco fluxos de documentos digitais. ou não interferir no conteúdo. têm a característica de ser desencorajador dependentes do software. Só em seguida. e até mesmo conteúdo. Colaborador autores e editoras já estão confundidos por uma coleção confusa e em constante mudança de formatos de arquivos incompatíveis documento que deve ser traduzido para trás e para frente. que muitas vezes abandonam seus antecessores. A necessidade de atualizar as informações digitais. Isso requer a cópia da bits em uma mídia nova para preservar a sua existência física e copiá-los para novas formas de meios para garantir a sua acessibilidade. por exemplo. copiando-o para novas meios de 10 . dificilmente terá sucesso. Finalmente. para torná-lo tão auto-suficiente quanto possível? Que tipo de digital Rosetta Stone posso deixar de fornecer a chave para compreender o conteúdo do meu disco? O que podemos fazer para garantir que o digital documentos que estamos a criar não será perdido para o futuro? O que é um autor que fazer? Como primeiro passo. A revolução da tecnologia da informação cria continuamente novos paradigmas. como eles podem interpretar a codificação do arquivo de documento no disco? Se o documento é um simples seqüência de bytes de comprimento fixo que representa os caracteres alfabéticos. Infelizmente. suprimindo assim as fórmulas que relacionam as células da tabela para o outro. temos mantido a sua conteúdo? Como um exemplo extremo. eles irão enfrentar o problema real: sem a ajuda de mais longe da minha carta de acompanhamento. eles ainda devem encontrar o software do sistema operacional que permite que o programa seja executado em um computador adequado. eles não aparecem em um impresso ou publicado versão deste trabalho: eles só serão visíveis quando a versão digital original é visto usando o software que o criou. Se "ler" um documento significa simplesmente ser capaz de extrair o seu conteúdo. suponha que o documento em meu sótão explica que minha sorte pode ser encontrados a partir de um mapa do tesouro representado por padrões visuais da palavra-inter e espaçamento entre linhas inter-nos a versão digital deste papel. estrutura. mais do que o significado desta frase é inerente à sua caracteres ou palavras. continuará a ser lido pelo software futuro por muito tempo. devemos saber o que significa o seu conteúdo. Um documento digital depende não apenas o programa específico que o criou. armazenadas no CD. então poderemos ser capazes de evitar a execução do software original que criou o documento. É necessárias para executar o software específico que criou um documento.

Infelizmente. As primeiras tentativas de traduzir documentos em formulários padrão. enquanto o segundas tentativas para estender a longevidade dos sistemas para que os documentos permanecem legíveis com seu software original. cientistas.) Copiar o texto na sua língua original. Isso parece tentador. assim como em um número de conhecimentos científicos e lavouras comerciais. ser traduzida sem perda em uma forma aceitável para qualquer outro RDBMS. já que o meio no qual está escrito tem uma vida útil limitada. A tradução é atraente porque evita a necessidade de reter o conhecimento do texto original da linguagem. foram traduzidos em uma repetição trivial do mesmo texto. traduzindo-a em novos formatos. RDBMSs mais comercial distinguir se uns dos 11 . Isso contornar a necessidade de manter o capacidade para executar o software original que criou um documento. às vezes chamado de "migração") tem sido reconhecida no campo das ciências e da literatura biblioteca de arquivos. (Em casos extremos. A ilusão de que as normas de dar uma resposta Na superfície. embora pergaminho ou comprimidos última pedra visivelmente mais longo do que os discos magnéticos. qualquer banco de dados relacional produzido por qualquer RDBMS pode. A única ruptura nessa cadeia pode tornar digital informações inacessíveis curto do esforço heróico. copiar o bit fluxos de documentos digitais. a tradução pode destruir completamente o conteúdo. por outro lado. exigindo uma compromisso significativo. Além disso. sem esforço adicional considerável. Assim como com o sistema digital documentos. ao transcrevê-lo. Da mesma forma. pode parecer preferível a tradução de documentos digitais em formulários que pode ser garantido para ser lido no futuro. Um formulário padrão relacional poderia ser estabelecida. existem duas estratégias para lidar com documentos digitais. e com a norma proporcionaria legibilidade de todos os tempos. Os defensores desta abordagem citar o modelo de banco de dados relacional (desenvolvido pela EF Codd em 1970) como um exemplo paradigmático. Como um monge analfabeto obedientemente copiar o texto em uma língua perdida. às vezes é necessário para atualizar um texto antigo. os quais receberam atenção por arquivistas. assim.comunicação (e. biblioteca e outros preocupados com a preservação dos registros. embora a definição matemática formal do modelo de banco de dados relacional leva todos RDBMSs para fornecer recursos de linha de base equivalente. Isso equivale a salvar o "fluxo de bits"do texto original. Não só cada tradução perder informações. mas poucos estudiosos que louvar seus antepassados para esta abordagem. Isso requer um esforço contínuo: o acesso futuro depende de uma cadeia ininterrupta das migrações. com um tempo de ciclo curto o suficiente para evitar que materiais de tornar-se fisicamente ilegíveis ou obsoletos antes de serem copiados. possivelmente. mas a tradução faz com que seja impossível determinar se informação foi perdida. Como todos os sistemas de gerenciamento de banco de dados relacional (RDBMS) implementar esse mesmo subjacente modelo. garante que nada será perdido. ao traduzir um dicionário. Em primeiro lugar. mas é falho em dois aspectos fundamentais. porque o original é descartada. mas perdem o seu significado. Preservação de documentos digitais é análoga à preservação antigos textos escritos. os ciclos de migração pode precisar de ser tão frequentes como a cada poucos anos. desta forma é necessária mas não suficiente. Um texto antigo pode ser preservada em uma de duas maneiras: ou copiando-o na sua língua original ou traduzi-la em qualquer linguagem é atual no momento da transcrição. Dada a actual falta de robustez e velocidade de evolução dos meios de comunicação. independente de sistema. Imagine alguns equivocada arqueólogo ter cegamente traduziu todos os três cópias do texto sobre a Pedra de Roseta em Inglês no momento em que foi descoberto e descartando a original: uma correspondência de valor inestimável entre as línguas seria. migração pode salvar os bits. assumindo que o conhecimento da língua original é mantida junto com o texto. em princípio. nem abordagem promete uma solução completa. e todos os bancos de dados relacionais pode ser traduzido em forma. Arquivos representada usando Esse padrão pode ser copiado para as novas mídias como necessário.

Se todos os primeiros versões do Homer foi descartada após traduzi-los. e traduzindo para trás é freqüentemente impossível. Se um formulário de banco de dados relacional padrão de Procusto foram instituídos em vigor bancos de dados relacionais. apenas como bancos de dados relacionais estão agora a ser drasticamente reestruturada para fazer uso de novas orientado ao objeto modelos. Infelizmente. No entanto. cada uma com um relativamente curto período de vida (no ordem de um ou dois ciclos de migração). esta quebra quando um documento deixa de ser utilizado na negócios em andamento da organização que a possui. E novos paradigmas não sempre subsumir os seus antecessores: eles representam mudanças revolucionárias no que entendemos por documentos. A falsa promessa de "migração" Na ausência de normas de longo prazo para cada tipo de documento digital. composto objetos). Finalmente. A incompatibilidade de formatos de arquivo de processamento de palavra é um notório exemplo. Em teoria. Os processadores de texto. que têm mais ou menos equivalente força expressiva e semântica. é sugerido que uma variação dessa abordagem ocorre naturalmente. traduzir um documento em um padrão (ou seqüência de normas) mantém um caminho de volta para o original. Muitos anteriormente. nem é apenas um artefato de diferenciação no mercado ou de concorrência entre produtos proprietários. planilhas e hipermídia programas de cada um criar documentos com variação muito maior na capacidade expressiva e formato de bancos de dados relacionais. sem perdas. O modelo de banco de dados relacional fornece um bom exemplo. à excepção gerenciamento de banco de dados relacional é ainda um candidato apropriado para a normalização de longo prazo. Pelo contrário. este exige que cada tradução ser reversível. o modelo de banco de dados relacional. a tradução de documentos antigos para novos tipos de formulários.outros justamente por oferecer recursos que estendem o padrão relacional modelo de formas não-padrão. com as limitações da abordagem relacional tornam-se aparentes. mas os compostos problema de perda de informações. uma vez que se adapta às necessidades emergentes dos utilizadores. os documentos digitais são ainda evoluindo tão rapidamente que as mudanças de paradigma periódicos são inevitáveis. Antigo documentos nem sempre pode ser traduzida em novos paradigmas de forma significativa. o que raramente acontece. conforme necessário. é uma conseqüência direta da evolução natural da informação tecnologia. 12 . Nenhum outro tipo de documento digital chega perto de ter como uma base formal em que a erigir um padrão. a fim de permaneçam legíveis). traduzindo para trás novamente. o modelo relacional está rapidamente dando lugar a um modelo de banco de dados orientado a objetos (que representa entidades como estruturado. bancos de dados relacionais são menos passíveis de padronização do que parecem. Esta evolução não é nem acidental nem indesejável: é a marca da tecnologia da informação que se desenvolve a um ritmo acelerado. porque é praticamente único. pois poucas organizações podem justificar o custo de Tradução de documentos que não usa mais. haveria pouca esperança de reconstruí-las. Portanto. Além disso. Ao manter a descrição de cada padrão usado na seqüência de traduções (onde essas descrições se teriam de ser traduzidos em padrões sucessivos. As mudanças de paradigma deste tipo podem tornar extremamente difícil. programas gráficos. pois os documentos que estão em uso contínuo dentro das organizações são traduzidas em novos formatos. Nenhum aplicativo comum.. Além disso. Os dados salvos em formato relacional pode muito bem tornar-se inacessível como sistemas de banco de dados relacional dar lugar a sistemas orientados a objetos. A abordagem de tradução sucessivas evita a necessidade de normas final. uma vez que cada tradução pode introduzir novas perdas. se não insignificante. ele ainda pode ser possível para traduzir um documento para as normas sucessivas. Ao contrário da antiga Grécia e Inglês. "hierárquico" bancos de dados tiveram que ser completamente redesenhado para se adaptar ao modelo relacional. muitos deles perdem muito de sua riqueza . não constitui um exemplo paradigmático. Às vezes. a abordagem de tradução sofre de uma falha fatal. os estudiosos futuro poderá reconstruir o documento original. Por definição. mudanças de paradigma não necessariamente fornecer compatibilidade ascendente.

Isso é muitas vezes a única forma de garantir que um destinatário será capaz de ler um documento (assumindo que o hardware necessário está disponível). mas eles ainda não estão no horizonte. pois o momento da revolução da tecnologia da informação deriva diretamente da atração de novas capacidades. Qualquer tentativa de forçar os usuários a resolver para limitações artificiais impostas por essas normas seria inútil. quando ciência da informação repousa sobre uma base mais segura. ou de qualquer forma modificar a codificação do fluxo de bits. 13 . Esta é um ressurgimento do problema de tradução discutido acima. Seria presunçoso imaginar que nós estamos prontos para enumerar os tipos mais importantes de aplicações digitais. Suponha que poderíamos descrever a sua comportamento de alguma forma independente de sistema e salvar essa descrição ao invés do próprio software. que o designer do fluxo de bits não poderia ter previsto. O campo é muito novo para ter desenvolvido uma compreensão. Em teoria. é teoricamente viável. A fim de recriar acomportamento de um programa arbitrário. mas as normas ainda não oferecem uma solução para nosso problema. Arquivos de software (domínio público) livres já estão proliferando no Internet.) Embora seja possível projetar fluxos de bits cuja semântica é imune a qualquer transformações esperadas deste tipo.Embora a definição de normas final para documentos digitais pode ser uma meta admirável. é prematura. Byting a bala A alternativa para traduzir um documento digital é para vê-lo usando o software que o criou. Embora esta seja uma tarefa difícil. se ponteiros internos em um documento composto de contagem de bits. Se essas mudanças são inevitável. e muito menos a propor que nós estamos prontos para circunscrever as suas capacidades através da padronização deles. royalties e restrições para programas proprietários podem expirar quando esses programas se tornam obsoletos. comprimir ou criptografar dados. a migração deve ser realizada com extremo cuidado para garantir que os seus fluxos de bits não são modificados de qualquer forma que afeta seu interpretação. ciência da informação ainda não métodos produzidos para descrever o comportamento do software na profundidade necessária para esta abordagem. aceitação formal das formas que os seres humanos manipular a informação. mas muito mais difícil do que. As gerações futuras poderiam interpretar a descrição salva do software para recriar seu comportamento. (Encontrar todos estes ponteiros em uma documento e adaptá-las para dar conta da contagem de bits alterado é análoga à. já que esses programas são onipresentes. eventualmente. a descrição só faz sentido do comportamento detalhado de um programa (na maioria dos casos) é o próprio programa. a leitura do documento. Embora isso pareça promissora. Na sua ausência. Não é incomum para salvar e distribuir documentos digitais. Se os documentos digitais e seus programas estão a ser salvas. Copiando bit streams não deve inadvertidamente alterar o tamanho do byte. que seria invalidado por qualquer transformação que mudou o número de bits no fluxo. pois os programas e seus arquivos de dados podem ser corrompidos pela mínima alteração. introduzir bits adicionais. assim. em que a sua semântica pode ter invocado. o "Ano de 2000 " problema de encontrar todos os números de dois dígitos em um programa que representam anos. inverter a ordem dos bits. Isso requer salvar arquivos digitais de documentos e programas que os criaram. não há actualmente pouca escolha mas para executá-lo. surgir. formal. que descrevem os programas em termos de interações com os humanos na realização de tarefas de processamento de informação podem. isso pode não exigir que realmente executar o software. Por exemplo. Além disso. não é suficiente para gravar informações suficientes para interpretar a codificação final: um deve também gravar informações suficientes sobre cada transformação como para permitir a reconstrução da codificação original do fluxo de bits. Tecnologia da informação ainda está na inclinação mais acentuada da sua curva de aprendizado. e com sorte de direitos autorais. juntamente com as devidas software de visualização e às vezes até mesmo uma cópia da versão apropriada do sistema operacional necessárias para executar o software. bem como todos os software necessário para executar esses programas. os ciclos de migração futura pode introduzir inesperado transformações. em muitos casos. Pode tornar viável a definição de normas de longo prazo de documentos digitais em algum momento no futuro. é necessária apenas para se referir à aplicação apropriada e software do sistema. Formalismos de alto nível comportamental desta espécie. tornando-os disponíveis para o acesso futuro histórico documentos.

Se a transformação é inevitável. A única maneira para iniciar este processo é incluir facilmente legível 14 . cuja conteúdo é preservado na íntegra. Isso pode exigir acesso especificações guardado para o desejado hardware. conforme necessário. No entanto. por exemplo. mas só será legível se elas migraram para a nova mídia. Alternativamente. desde que os registros não podem ser esperados para sobreviver com sua mídia original. uma vez que a maioria dos computadores novos emulado antes de serem produzidas (como parte do processo de concepção e avaliação) machineindependent especificações para emuladores podem ser derivadas dessas existentes específica da máquina emuladores. Obsoletos programas para esses processadores estão sendo copiados para a mídia atual por métodos engenhosos. sem perda. Como podemos correr hardware obsoleto? Devemos ainda mostrar como podemos preservar o hardware necessário para executar o software para visualizar uma digital documento. que começou a ocorrer espontaneamente em um contexto improvável. em primeiro lugar. Será um desafio sério para encapsular pouco córregos desta forma e garantir que eles mantêm as informações necessárias contextual de uma forma que continua a ser facilmente legível no futuro. se houver. a interpretação de um fluxo de bits depende de saber como ele foi codificado.Emuladores. O esforço de projetar. programas que imitam o comportamento do hardware pode ser criado para tomar o lugar de hardware obsoleto. Uma abordagem óbvia é tentar manter os computadores na condição de trabalho muito tempo depois eles se tornam obsoletos. Felizmente. e um fluxo de bits não podem ser totalmente auto-descrição. Nos seis anos desde que me sugeriu esta abordagem. Quanto tempo é que podemos esperar para manter os sistemas em condições operacionais atuais? Vinte anos? Cinquenta? Além disso. informação facilmente legível associados a cada envelope deverá descrever o seu conteúdo e sua história de transformação. os futuros usuários devem ser capazes de perguntar a seus computadores para gerar emuladores para sistemas obsoletos na demanda. Juntando tudo Como vimos. os fluxos de bits devem ser consideradas entidades inviolável. e estes programas são executados em emulação em computadores modernos.dealmente. construir e manter essas interfaces. O processo de migração elimina a necessidade de preservar dispositivos de armazenamento como disco unidades. uma vez que qualquer descrição que se representa no fluxo de bits deve também ser interpretada. Grupos de rede especial interesse está a criar e emuladores de compartilhamento de processadores de vídeo obsoletos jogo e no início de computadores pessoais. rapidamente tornar-se proibitivo. tanto para o cálculo e para entrada e saída. deve ser reversível. selado no virtual "envelopes". como um digitalização de sinais de áudio gerados por dispositivos improvisados que lêem meio obsoleto. e até a idade de circuitos eletrônicos como "dopantes"que fazem de silício em um útil semi-condutores e vestígios de metal que conecta os componentes em cada chip e difusa "migrar" dentro de sua carcaça. para permitir que um computador de 1960 do vintage para ler dados de um CD-ROM. Estas especificações devem ser guardados em formato digital formulário que será lido pelos futuros geradores de emulador (seja humano ou máquina). mas este hardware não poderia ter existido. não é necessário para preservar hardware físico para poder rodar softwares obsoletos. o custo da reparação ou substituí-las (e de reter os conhecimentos necessários para fazê-lo) rapidamente superam a demanda para a manutenção de qualquer determinado computador. apesar de um certo charme inegável atribuível à sua estratégia tecnológica bravata-presente é inútil a longo prazo: mecânico componentes falham. as especificações para emuladores poderiam ser salvos diretamente. mas de sistemas e software de aplicação ainda depende de hardware. Na verdade uma série de museus especializados e "Retrocomputing" informal clubes estão tentando fazer isso. utilizando computadores antigos para ler os registros antigos que exigir a criação de interfaces de hardware de propósito especial entre cada computador antigo e cada novo geração de mídia de armazenamento. Assumindo que os computadores futuros serão ordens de grandeza mais poderosa que a nossa. Como componentes de desgaste. se as especificações detalhadas para sua concepção e construção não tinha também existia.

mas isso não pode acontecer no tempo para salvar o geração atual desses documentos. ao traduzir a sua contextuais informações necessárias. OS orig. Leitura atual documentos digitais em um futuro não será fácil. Temos de garantir que os ambientes de hardware necessário para executar este software são descritos em detalhe suficiente para permitir a sua futura emulação.anotação com todos os documentos digitais. documento de preservar e pouco fluxos de programa na íntegra. como é que as informações contidas na carta foram preservados? Uma unidade de armazenamento no ano 2045 pode ser a bit streams de milhares de CDs. Temos de desenvolver padrões de conduta para as anotações de codificação de motivos para o arranque do interpretação de documentos digitais que são salvos em formulários não padronizados. A carta que acompanha o disco no meu sótão serve esse propósito. codificados com os padrões desenvolvidos para bootstrap salvar anotações. qualquer anotação deve-se ser armazenados digitalmente. SW runs orig. a ciência da informação podem desenvolver modelos de processamento de informação humana e computacional que permita digital os documentos sejam armazenados de forma independente de sistema. Devemos salvar essas especificações como documentos digitais. Se todos esses fatores vêm juntos. HW Descrição Intérprete orig. HW "corridas" em emulação drivers de mídia Orig. É preciso desenvolver técnicas para salvar o pouco fluxos de documentos software-dependentes e seus associados sistemas e softwares aplicativos. HW descrição Corrente HW OS´ executado Orig. Da mesma forma. HW emulação Orig. eles devem permitir obsoletos digital documentos a serem lidos. temos de agir rapidamente e decisivamente. Mesmo que cada disco tinha uma letra associada fornecendo o contexto necessário. Em Entretanto. juntamente com o seu fluxo de bits associados. para que possam ser lidos sem software especial (para que não sejamos forçados recursivamente para emular um sistema a fim de aprender a imitar o outro). se quisermos ajudar a nossos descendentes leia nossa documentos. meios de armazenamento de longa duração pode vir a fazer migração menos urgentes (o custo da migração pode motivar a aceitação de tais meios. Sempre bit streams migrar para novas mídias. substituindo o nosso apetite para um melhor desempenho). Devemos associar contextual informações com os nossos documentos digitais para fornecer proveniência. a fim de servir como um iniciador. mas deve ser codificado em um formato digital que é mais legível do que o fluxo de bits em si. explicando como interpretar os seus bits. Este é um papel ideal para os padrões: um padrão simples de texto deve ser capaz de informações suficientes para permitir que codificam motivos interpretar um fluxo de bits encapsulados. OS runs Corrente OS` (Migração) mídias intactas Drives+ lógicos para a mídia mídia física acessível mídia. temos de assegurar a migração sistemática e contínua dos documentos digitais em novas mídias. suas anotações devem ser traduzidas de sua forma anterior a qualquer norma é atual no momento da migração. logicamente acessível documento legível! Figura 9: Uso de emulação para ler um documento digital obsoleto 15 . bem como anotações xplicativas em um formulário que pode ser traduzido em sucessivas normas de modo a permanecer legível. mas não há nenhum sinal de que isso aconteça ainda. como ilustrado na Figura 9. mas se o disco tinha sido copiado para novas mídia. Eventualmente. SW orig. Finalmente. como isso poderia ser realizado junto com o fluxo de bits de cada disco? Claramente.

Archives and Museum Informatics Technical Report no. eles tendem a ser vistos pelos nossos descendentes como artefatos valiosos do alvorecer da era da informação. House of Representatives Committee on Government Operations. April 16-18. Number 1). ed. que os documentos digitais estamos criando atualmente são os primeira geração de uma forma radicalmente nova de manutenção de registros. Paul. 1990 (House Report 101-978).” Margaret Hedstrom.Conclusão Além de ter valor pragmático óbvio.computer. St. pp. by the Minnesota Historical Society. “Understanding Electronic Incunabula: A Framework for Research on Electronic Records. Como tal. mas se tiver sorte. 13. eles devem ser capazes de gerar um emulador que irá exibir o documento. corremos o risco de perda substancial prática. Archives and Museum Informatics. NOAA Complex. MD. 12-23. The American Archivist. executando o software original.html Taking a byte out of history: the archival preservation of federal computer records. a informação sobre os seus cinqüenta anos de idadeCD não migrou para a mídia mais recente. Onde ficam os meus netos? Por hipótese. “Text and Technology: Reading and Writing in the Electronic Age. 24-29. The American Archivist. Research Issues in Electronic Records. Se não estamos dispostos a fazer este investimento.C. ou podem ser criativo o suficiente para construir um. 6. “Ensuring the Longevity of Digital Documents. pp. Desejo-lhes sorte Pequena bibliografia Archival Management of Electronic Records. D. published for the National Historical Publications and Records Commission. Temos de investir pensamento cuidadoso e esforço significativo. ela ainda pode ser lido por alguns unidade de disco existente. Se eu incluir todos os sistemas necessários e aplicação de software no disco. pp.org/conferen/meta96/rothenberg_paper/ieee. 31 (January/March 1987).S. 54:3 (Summer 1991). “Metadata to Support Data Quality and Longevity. Nov. Silver Spring. pp. Pittsburgh. Washington. 236-315 (ISSN 0360-9081). Minn. 16 . Ainda estamos em perigo iminente de perdê-las assim como nós criá-los. se quisermos preservar esses documentos para o futuro. 272. 334-54.” Jeff Rothenberg. 1991. available only online at http://www. Report of the U... NOAA Auditorium.data-quality.” The First IEEE Metadata Conference. 55:2 (Spring 1992). Scientific American. David Bearman. Library Resources and Technical Services. 1996. juntamente com uma especificação completa e facilmente descodificado do ambiente de hardware necessários para executá-lo. January 1995 (Vol. bem como a condenação da nossa progênie para impensadamente Deixando para trás um legado histórico único.” Jay David Bolter. 1991 (ISSN 1042-1459). “Scholarly Communication and Information Technology: Exploring the Impact of Changes in the Research Process on Archives.” Avra Michelson and Jeff Rothenberg. com base em instruções minha carta de acompanhamento.