You are on page 1of 43

Numrisation de livres et documents

Mmoire technique
Sommaire

Lasocit.......................................................................................................................................................3
Leslocauxdelasocit.................................................................................................................................4
Manipulationd'ouvragesanciens...................................................................................................................5
Numrisationd'ouvragesanciens...................................................................................................................5
SCANNERSPATRIMONIAUXOS12000CA2etOS10000CA1...............................................................6
SCANNERSDEPRODUCTION(Numrisationdedocuments).................................................................7
LescannerplatEPSONV700.....................................................................................................................8
OMNISCAN..................................................................................................................................................9
Calibrage/Mire..............................................................................................................................................9
Lescransdetravail.......................................................................................................................................9
Contrledequalit.......................................................................................................................................10
Lesmtadonnes..........................................................................................................................................11
Traitementsnumriques...............................................................................................................................11
Indexationetrecherchedesimagesdanslesystmeinformatique...............................................................12
Nomenclaturedesfichiers............................................................................................................................12
Transport......................................................................................................................................................12
DigiManager.................................................................................................................................................14
Reconnaissanceoptiquedecaractres(ROCouOCR)................................................................................19
LeformatXML/METS/ALTO.....................................................................................................................22
ConversionduXML/ALTOendocumentPDF...........................................................................................23
XML/ALTOPDF......................................................................................................................................24
Indexation,encodage,extractiondedonnes...............................................................................................25
Lamiseenlignedesouvrages.....................................................................................................................25
Systmeinformatique...................................................................................................................................26
Sauvegardedesdonnes...............................................................................................................................27
Confidentialit..............................................................................................................................................28
Propritintellectuelle.................................................................................................................................28
Suividuprojet..............................................................................................................................................29
L'quipe........................................................................................................................................................29
EditTEI(encodeurXML/TEI).....................................................................................................................30
PourquoichoisirlasocitDIGISCRIB.......................................................................................................31
Dveloppementdurable...............................................................................................................................32
FRANSCRIPTOR........................................................................................................................................33
Rfrences....................................................................................................................................................34
Partenaires....................................................................................................................................................38
DIGISCRIB,leCESRetGoogle.................................................................................................................39
Articlesdepresse.........................................................................................................................................40
OS12000C..................................................................................................................................................41
OS10000C..................................................................................................................................................42
La socit

DIGISCRIB est une socit spcialise


dans la numrisation des livres et documents
et dans le traitement de donnes

Hritage du pass dont nous profitons aujourdhui et que nous transmettons aux gnrations
venir , le patrimoine, ainsi dfini par l'UNESCO, est l'une des proccupations majeures de la socit
DIGISCRIB. Anime par cette mission, elle garantit ses clients une attention et un soin particuliers
ports aux documents traiter. Inventorier les fonds patrimoniaux, photographiques, ou littraires, afin
de les faire entrer de plain-pied dans l're numrique constitue l'enjeu de la socit DIGISCRIB,
capable de s'adapter la demande et aux exigences du march.

Les missions rcemment instaures par le Ministre de la Culture et de la Communication


souhaitent permettre la mise en place de grands portails de la culture et du patrimoine franais crit,
et rendre ainsi les savoirs accessibles en ligne au plus grand nombre. En phase avec ces nouveaux
impratifs, la socit DIGISCRIB propose une offre de qualit permettant de numriser, d'indexer un
patrimoine inou, et de le faire exister en direct pour chacun.

Attentive la dimension historique de l'crit et sa prservation, implique dans des travaux


prestigieux, et toujours soucieuse de concrtiser des projets de vaste ampleur tourns vers l'avenir, la
socit DIGISCRIB propose une offre minutieuse et personnalise. Elle rpond ainsi efficacement la
ncessit nouvelle de mutualiser les savoirs afin de les adapter aux exigences d'une re numrique
qui n'en est encore qu' ses premiers balbutiements. Rendre lisible le patrimoine crit sur internet,
stocker les donnes des particuliers, des professionnels, des chercheurs ou des collectionneurs,
ncessite une numrisation de haute dfinition. Pour cela, la socit DIGISCRIB s'est munie des
dernires technologies pour atteindre des rsultats optimaux en termes de numrisation et
d'indexation.

Implique dans les projets des socits prives, des organismes publics, et des particuliers, la
socit DIGISCRIB contribue une numrisation de plus en plus exhaustive des donnes et des
savoirs. Pragmatique, ractive et adapte une demande massive et qualitative, DIGISCRIB prend en
charge tout type de documents, de l'archive au livre ancien, en passant par la photographie la
pellicule, ou la diapositive. C'est ainsi que la socit DIGISCRIB alimente le partage des donnes et
des uvres via internet offert par l're numrique.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 3 / 43
Les locaux de la socit
La socit DIGISCRIB est place un point gographique stratgique de la France, dans le rgion
Centre de la France trs proche de Paris :

Elle peut desservir l'ensemble du territoire en France


mtropole.

Elle est place au premier tage du btiment scuris,


limitant ainsi les risques d'inondation et d'infraction.

Les locaux de la socit DIGISCRIB ont t adapts


pour scuriser et accorder un soin particulier aux livres,
aux documents, ou tout autre type de support papier
et film.

La socit est situe dans un btiment


muni d'un systme d'alarme reli un
centre de surveillance.
L'alarme s'active automatiquement le soir.
En cas d'infraction, une quipe d'agents se
dplace afin de contrler le btiment.

Toutes les pices du btiment sont quipes de portes coupe-feu et chacune d'elles possde ses
propres extincteurs contre-incendie. La pice de stockage et de numrisation des ouvrages est munie
d'une serrure trois points.

Les uvres dlicates sont traites


uniquement avec des gants 100% coton.
Elles sont stockes et numrises dans des
pices assurant une temprature constante,
entre 18 et 20C. Quand elles ne sont pas en
phase de numrisation, elles demeurent
stockes l'abri dans une armoire forte
ignifuge.

Une attention toute particulire est porte aux tapes de la manipulation de


l'uvre. L'armoire forte et le scanner sont dans la mme pice, limitant ainsi le
dplacement de l'uvre de pice en pice, avec des risques de changement
de temprature et d'humidit. L'uvre est, si possible, numrise en une seule
fois, vitant ainsi des surmanipulations humaines entre son lieu de stockage,
l'armoire forte, et le scanner. Le but tant d'obtenir la numrisation de l'uvre
en trois manipulations : une premire son arrive dans les locaux, du
transporteur l'armoire forte, une seconde pour la numrisation proprement
dite, et une dernire de l'armoire forte au transporteur. Bien sr, ceci est
possible uniquement si l'uvre est numrisable en une seule fois.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 4 / 43
L'clairage de cette pice est rduit au strict minimum. En effet, mme si cette pice est quipe de
fentres, elles demeurent condamnes 24H/24H par des stores lectriques micro-perfors qui laissent
passer trs peu de lumire naturelle ou du soleil. Cette pice est quipe de lumire du jour froide,
dont l'indice de rendu des couleurs (IRC) est le plus lev existant 9. Sa temprature des couleurs est
de 6000K.

La socit DIGISCRIB s'est quipe de tous les outils ncessaires pour le


traitement des ouvrages dans le respect des normes les plus strictes, comme
par exemple la brosse livres Redecker en poils de chvre, compose de
deux parties, une l'avant, poils rigides, pour enlever les poussires ou
salets des couvertures, et une autre partie au centre, poils souples,
permettant de dpoussirer en douceur les pages des ouvrages.

Manipulation d'ouvrages anciens


Avant toute numrisation, l'oprateur, spcialis dans les ouvrages
anciens, vrifie au pralable l'tat gnral du livre, sa reliure (pertes de
morceaux de cuir, plats qui se dtachent), la prsence de poussires,
de dchirures ou de pages endommages. Il tablit un rapport sur
l'ensemble de l'tat de l'ouvrage et il vrifie que l'ouverture possible du
livre est en accord avec la demande du porteur de projet.
L'oprateur effectue la phase de numrisation avec des gants en coton
et tourne les pages par le coin infrieur, sans forcer. A tout moment,
l'oprateur de numrisation pourra renoncer la numrisation d'une
vue en double page dans le cas o la reliure s'avrerait trop serre. Dans ce cas, la socit DIGISCRIB
s'engage prvenir expressment son client afin de dcider d'une solution alternative permettant le
respect et la prservation de l'ouvrage.
Bien entendu, la numrisation avec une vitre est strictement exclue dans le cas d'ouvrages anciens ou
dlicats.

Numrisation d'ouvrages anciens


La socit DIGISCRIB a adopt les rgles prconises par l'IRHT pour la numrisation d'ouvrages
anciens, dont voici la liste :

Numrisation avec des gants ou les mains propres.


Manipuler et ranger doucement les ouvrages.
Nettoyer ventuellement les ouvrages l'aide d'une brosse livres (la socit en possde).
Toutes les notes sont prises sur une table proximit du scanner.
Utilisation d'un crayon de papier pour prendre des notes.
Interdiction de boire, manger, fumer ou crire proximit des ouvrages.
Interdiction d'humecter les doigts pour tourner les pages.
Interdiction de corner le bord des pages pour les tourner.
Interdiction de prendre un ouvrage par la coiffe.
Interdiction d'aplatir les ouvrages.
Interdiction de coller des post-it sur les ouvrages.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 5 / 43
SCANNERS PATRIMONIAUX OS12000C A2 et OS10000C A1
La socit DIGISCRIB dispose des dernires technologies de pointe en matire de numrisation,
systmes informatiques et logiciels. Afin de garantir des rsultats optimaux et de grande qualit,
DIGISCRIB s'associe de grands fabricants de matriel de
numrisation.

DIGISCRIB possde des quipements parfaitement adapts pour les


fonds anciens ou les documents dlicats comme l'OS12000C format A2
et l'OS10000C format A1 de Zeutschel : des scanners quips d'un
balayage (numrisation) de l'ouvrage sans contact, sur plateau
compensateur pour le respect de la reliure de l'ouvrage, proposant une
haute rsolution (600 dpi) ; des logiciels sophistiqus et performants,
qui fournissent en sortie des formats de fichiers JPG, TIF, PNG entre
autres ; un systme de correction de la courbure des livres, de
blanchiment du papier, de sparation des pages d'une vue, etc.
Ces scanners sont faible charge lumineuse (l'clairage n'est activ
qu'au moment du balayage de la vue), ils sont quips de lumire froide
sans rayons UV.
* Vous retrouverez un document dtaill en annexe.
OS12000 A2 de Zeutschel

Scanner avec vitre


Panel de commande

Scan OS12000

Scan OS10000

Camera et lampe
OS10000

Presse livre avec


vitre OS10000

OS10000 A1 de Zeutschel

La socit DIGISCRIB a quip ses scanners OS12000C A2 et


OS10000C A1 de Zeutschel de Book Holder .
Ces outils ont t spcialement conus par la marque pour OS12000 Book Holder A2
garantir ces scanners le degr d'ouverture donn d'un
ouvrage et respecter ainsi au maximum sa reliure.
Le Book Holder de l'OS12000C est au format A2 et il n'est pas
possible de l'utiliser avec la vitre.
Le Book Holder de l'OS10000C est au format A1 et il est
possible de l'utiliser en combinaison avec la vitre.
OS10000 Book Holder A1

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 6 / 43
SCANNERS DE PRODUCTION (Numrisation de documents)

DIGISCRIB possde aussi des scanners de production comme les scanners Fujitsu 5650C et Fujitsu
5750C qui rpondent aux attentes de la numrisation de grands volumes de documents pouvant aller
jusqu' 110 pages par minute, avec une volumtrie
journalire de 8000 feuilles chacun. La quantit n'est pas au
dtriment de la qualit, ceux-ci tant capables de respecter
ces vitesses tout en
assurant des qualits
comprises entre 100 et
600 DPI optiques. Ce type
de scanner est capable de
numriser recto-verso en
un seul passage. Ils
scannent grande vitesse
des documents allant du
plus petit format (A8) jusqu' (A3). De plus, le modle 5750C
possde une vitre grand format, afin de numriser plat des
documents plus dlicats qu'il n'est pas possible de faire passer dans
des rouleaux. Ces scanners sont relis un systme Linux et
contrls par le logiciel DigiManager qui traite nouveau les images
si ncessaire, afin de les tatouer par exemple, d'insrer des
mtadonnes, ou de fournir en sortie les formats de fichiers les plus
couramment utiliss actuellement : TIFF, JPEG, PNG, PDF, etc.

DIGISCRIB possde dans son parc des scanners plat, ddis la


numrisation en srie de documents dlicats. Ce scanner RICOH
IS300E possde des fonctionnalits spcifiques au traitement de
papiers dlicats ou trs dtriors. Il peut fournir en sortie les formats de
fichiers TIFF, TIFF multi-pages, JPG et PDF.

LOpticFilm de Plustek, un scanner 7200X7200 dpi ddi la numrisation de


DIAPOSITIVES et FILMS NGATIFS, c'est un priphrique de numrisation trs
puissant, grce aux fonctions supplmentaires de Multi-poses pour les ngatifs
de pellicules et aussi le Multi-chantillonnage.
Ce scanner est accompagn du dernier logiciel SilverFast 6.5 SEPlus (Multi-
poses) de LaserSoft Imaging. Le logiciel SilverFast 6.5 SEPlus (Multi-poses) est
pourvu des fonctions puissantes de Multi-poses, de dtection automatique du
cadrage, SilverFast basique, NegaFix, correction automatique des couleurs,
rglage automatique, USM, et bien dautres encore.
MULTI ECHANTILLONAGE PLUSTEK
Afin de minimiser les imperfections, la fonction multi-chantillonnage du scanner de Plustek effectue 4
balayages pendant la dure de la numrisation et du fait que limage change chaque balayage,
celle-ci est assemble suivant une moyenne et les modifications dues aux imperfections seront
annules si des incohrences sont prsentes.

Cette haute technologie de numrisation est combine des logiciels de traitement d'images trs
performants pour vrifier la qualit des images obtenues partir des scanners, ou pour les adapter
aux demandes des clients.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 7 / 43
Le scanner plat EPSON V700

Le scanner Epson Perfection V700 Photo est l'outil idal pour les
professionnels de la numrisation. Dot du systme double lentille
d'Epson associ la technologie DIGITAL ICE, il permet de raliser des
numrisations de films et de photos de qualit exceptionnelle.

Le scanner EPSON Perfection V700 Photo propose une rsolution optique


exceptionnelle jusqu' 6400 x 9600 dpi pour le traitement de films,
rsolution jamais atteinte ce positionnement. Grce au systme exclusif
Epson double lentille, le Perfection V700 Photo offre un niveau de
performance ingal sur un scanner plat.

Il est possible d'obtenir des qualits exceptionnelles partir de


n'importe quelle photographie originale. Avec une rsolution optique
rvolutionnaire de 6400 dpi, ce puissant scanner offre la prcision des
couleurs et des dtails, dans la numrisation de diapositives, de
ngatifs ou de films moyen format. Avec une rsolution optique 4.0
Dmax, il offre une qualit d'image exceptionnelle, d'excellents dtails
dans les zones d'ombre et une gamme tonale remarquable (48 bits, 16
bits et N&G).

La qualit de numrisation est renforce par la lumire de l'unit de transparents


mobile qui fournit une source lumineuse suffisamment puissante pour obtenir des
images numrises lisses et une dfinition plus pousse. Une diode
lectroluminescente de couleur bleue permet de suivre visuellement la progression de
la numrisation.

Le scanner V700 Photo offre galement


une foule d'outils puissants pour la
restauration photo. Digital ICE
technologies est une combinaison unique
de matriel et de logiciel pour corriger
les dfauts des images. Digital ICE pour
film utilise un capteur infrarouge pour dtecter la
poussire et des gratignures sur la surface du film.
Dans un processus multi-passage, les traces de
poussire sont traces et soigneusement retires de Avant Aprs
l'image numrise, laissant la composition et la qualit intacte. Digital ICE pour Prints supprime
l'apparition de plusieurs types de dfauts de surface des tirages.

Ce scanner permet la restauration des photos, des


diapositives et des ngatifs avec les couleurs dlaves
et leurs donner ainsi leurs brillant d'origine. Cette
restauration des couleurs comprend galement la
rduction du grain et la correction du rtroclairage.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 8 / 43
OMNISCAN

Ces scanners sont coupls avec un puissant logiciel d'imagerie : OMNISCAN.

Ce logiciel de traitement d'image permet de grer l'ensemble du projet d'un


ouvrage. Il gre la pagination, le cadrage, la gomtrie et la colorimtrie (profil
de couleur ICC) de l'ouvrage.

Il est capable de raliser la correction de courbures, le redressement, le


redimensionnement, le dcoupage du contour, la conversion des couleurs, la
transformation du format, de grer la luminosit et le contraste des images pour
l'ensemble de l'ouvrage.

De plus, il possde un ensemble de filtres applicables l'ouvrage entier ou des


pages individuellement, comme par exemple la suppression des taches ou
l'claircissement du papier. Il amliore la qualit des images pour une consultation dans les meilleures
conditions.

Calibrage /Mire

Dans le but de garantir une constante fidlit des couleurs, les scanners
patrimoniaux Zeutschel ralisent automatiquement le calibrage des
blancs aprs avoir effectu un nombre de prises de vues donnes. Le
calibrage des couleurs est ralis l'aide d'une mire IT8.
Pour tout projet de numrisation, la socit
DIGISCRIB cre son profil de couleur de travail
(profil ICC). Celui-ci est cr partir de la mire IT8
en combinaison avec les logiciels SIPC sous
Windows ou Little CMS sous Linux.
Ceci peut tre fait plusieurs niveaux du projet
selon les besoins des clients, un profil de couleur
peut tre cr pour le projet dans sa globalit, pour
chaque ouvrage ou pour un type de document en particulier.

Concernant le calibrage de la camra, il est ralis tous les ans au minimum. Pour certains projets
long terme ou trs dlicats, la socit DIGISCRIB commande un calibrage son fournisseur avant le
dbut.

Les crans de travail

Bien entendu, la socit DIGISCRIB possde un parc informatique avec


diffrentes marques d'ordinateurs et d'crans.
DIGISCRIB porte une attention toute particulire son parc d'crans
destins la gestion des images, par exemple le scanner OS12000 est
quip d'un cran DELL et le serveur sur lequel les contrles de qualit
sont raliss et quips d'un cran LG.
Ces crans sont calibrs rgulirement, tous les trois six mois, mais
aussi en dbut de projet la demande du porteur du projet si besoin
est.
La calibration et l'application de la colorimtrie (fichier ICC) dans le
systme informatique est faite l'aide de l'outil Blue Eye de Lacie.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 9 / 43
Contrle de qualit
Tout au long de la prestation, un rapport de production est cr et tenu
au jour le jour, permettant de relever d'ventuels incidents survenus
pendant la ralisation du projet.

Si la numrisation est manuelle, un premier contrle du cadrage, de


la nettet, de l'inclinaison et de l'orientation des images et du texte est
ralis pendant la phase de numrisation par l'oprateur un l'cran de
travail 22' calibr, 100 % des images sont visionnes par l'oprateur de
numrisation. Si le rsultat ne correspond pas aux attentes du projet, les
vues sont refaites autant de fois que ncessaire, vitant ainsi la sur-
manipulation des ouvrages/documents dans le cas d'une vue errone
pour les raisons prcdemment cites.
Lors de cette phase, l'oprateur note tous les dfauts, anomalies ou difficults rencontrs lors de la
numrisation des ouvrages/documents, et les inscrive dans le rapport de production.

Si la numrisation est automatique, ce premier contrle du cadrage de l'image est ralis par le
scanner ; l'orientation du texte et la vrification des documents sont, elles, ralises par l'oprateur
avant leur dpt dans le bac du scanner.

Au terme de la prestation de numrisation, l'aide d'une visionneuse, un contrle exhaustif est ralis
sur l'intgralit des donnes gnres sur les points suivants :

cadrage
inclinaison
orientation
nettet

Le fichier de rcolement est complt pendant cette phase si besoin est.

Durant ce contrle, pour des ouvrages anciens, incunables ou manuscrits, seront prises en compte les
diffrences de tonalits ventuelles entre les rectos et les versos des vues numrises en double page,
dont l'impression sur le papier n'est pas obligatoirement de la mme qualit pour ce type d'ouvrages.

Sur un chantillon de 5 20% du volume total des image, la socit DIGISCRIB ralise un contrle de
qualit approfondi, au cours duquel elle vrifie :

la colorimtrie
la compression
les mtadonnes

Enfin le contrle sur ensemble du projet est port sur les points suivants :

Contrle de la conformit de la nomenclature des fichiers.


Contrle de la numrotation des fichiers (pagination).
Contrle de l'arborescence des rpertoires et fichiers.
Contrle des images (cadrage, orientation, inclinaison et nettet).
Contrle approfondi des images (colorimtrie, compression et mtadonnes).

Le rsultat du contrle de qualit est inscrit dans un rapport.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 10 / 43
Les mtadonnes
La socit DIGISCRIB possde le savoir-faire et les outils ncessaires pour
grer l'intgralit des mtadonnes des images de ses clients tout au long de
la chane de production. Non seulement certains de ses scanners sont quips
de fonctionnalits pour la gestion des mtadonnes, mais en plus elle a
dvelopp ses propres outils pour la gestion des mtadonnes des images
(ajout, suppression, mise jour, etc.), par lots ou individuellement.
Elle possde des scanners capables d'insrer automatiquement les
mtadonnes pour chaque vue gnre lors de la prise de vue.
Pour ses scanners ne possdant pas ce type de fonctionnalits, des scanners de production pour
documents, la socit DIGISCRIB utilise son logiciel DigiManager pour la gestion des
mtadonnes des vues (images) gnres par eux.

Toutes les images gnres par la socit DIGISCRIB sont automatiquement marques par une ou
plusieurs mtadonne(s), permettant de les associer un client, un groupe, un ouvrage, un
dossier ou un lot. Ceci permet l'indexation des images dans le systme informatique de la socit et
facilite la recherche de celles-ci.

La socit DIGISCRIB est capable de raliser l'association de mtadonnes aux images directement
dans les images elles-mmes avec les formats IPTC, EXIF et XMP ou dans des fichiers externes avec le
format Dublin Core et METS.

Traitements numriques
Le systme informatique de la socit DIGISCRIB repose sur le systme d'exploitation Linux. La
socit a recours l'Open Source pour le traitement des images comme GIMP, l'quivalent de
Photoshop sous Linux, ou les logiciels ImageMagic ou Mapivi pour la gestion, la manipulation et le
contrle des images.

Avec le logiciel DigiManager , il est possible, entre autres, de grer par lots ou individuellement, le
nommage, la conversion, la rsolution, la compression, la dcoupe, la colorimtrie, les mtadonnes
des images, de grer les proprits de fichiers PDF, de grer la gravure de CDs, le paquetage de
plusieurs fichiers en un seul.

Le logiciel de numrisation Omniscan est capable de nombreux traitements numriques :


l'insertion de mtadonnes, le redressement de la courbure, l'claircissement des pages, l'enlvement
des tachetures, la gestion des couleurs (profil ICC), le redressement des pages ainsi que de nombreux
filtres.

La socit DIGISCRIB peut fournir diffrents types de formats de fichier : TIFF, TIFF compress LZW,
JPEG, JPEG2000, PNG, PDF, DJVU, etc. pour les images et DOC, XLS, XML, XML/METS, XML/ALTO,
XML/TEI, CSV, PDF, ODT, HTML, TXT, EPUB, DJVU, etc. pour les donnes.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 11 / 43
Indexation et recherche des images dans le systme informatique
Le marquage des images permet l'indexation et la recherche des images dans le systme informatique
de la socit DIGISCRIB.
L'arborescence du systme informatique de la socit est structur en rpertoires par client et dans
ceux-ci par projets.
Grce au logiciel DigiManager* il est possible de trouver immdiatement les projets d'un client ou
de rechercher une ou plusieurs images par rapport aux mtadonnes.

Nomenclature des fichiers


Afin de rpondre exactement aux exigences de nommage des fichiers numriss, ces derniers sont
nomms automatiquement par le logiciel de numrisation Omniscan au terme de la phase de
numrisation ou par le gestionnaire de projets DigiManager de la socit DIGISCRIB.
En cas d'erreur, un module du logiciel DigiManager permet de rorganiser et de renommer les
fichiers. Suite cette opration, il est possible de mettre jour les mtadonnes des images dans le
cas o le numro d'ordre ou son nom sont contenus dedans.

Transport
Un bordereau est mis lors de l'enlvement des ouvrages/documents. Ce bordereau les suit
tout au long de la phase de production jusqu' leur livraison.

La socit DIGISCRIB peut procder elle-mme l'acheminement des ouvrages, grce un vhicule
adapt (vhicule ordinaire de trs grande capacit).

Ce vhicule est dot de six airbags d'une climatisation rgule par de sondes
rparties dans l'habitacle.

Il possde un coffre d'une capacit de 1658 l. avec une charge utile de 614 Kg.

La vhicule a t adapt pour le transport d'ouvrages et de documents prcieux,


il a t quip de deux extincteurs poudre ABC, respectant les normes : CE 0062
P.E.D. 97/23/EC EN 3-7. Ces extincteurs ont t vrifier et contrles et sont valids
jusqu' 2015.

Bien entendu, la socit garantit que le vhicule ne sera jamais immobilis durant le transport.

Les ouvrages et documents seront transports dans des malles en acier roulettes.
Chaque ouvrage est protg individuellement avec un plastique bulles, s'ils n'ont pas
t conditionns au pralable.

Les ouvrages les plus prcieux seront transports dans des valises
antichoc PELICASE. Cette valise exceptionnelle est utilise par les
militaires pour ses conditions de scurit lors de transports de matriel
prcieux ou sensible. En effet, cette valise est tanche et quipe d'une
mousse ignifuge.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 12 / 43
Principales caractristiques de la valise Pelicase :

Dimensions intrieures : 740 x 525 x 450 mm


tanche l'eau

quipe de mousse ignifuge.

Flottabilit maximale : 159Kg


tanche la poussire
Rsistant aux chocs

Valve automatique dquilibrage de pression

7 fermetures
5 illets pour cadenas

Roulettes polyurthane avec roulements billes en acier inoxydable

Poignes latrales
Protection ingalable
Certifications : IP-67 / DEF STAN 81-41 / STANAG 4280

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 13 / 43
DigiManager

DigiManager est le logiciel de gestion de projets,


dvelopp pour et par la socit DIGISCRIB et mis
jour selon ses besoins.

Ce logiciel a t spcialement conu pour rpondre aux


besoins de la socit DIGISCRIB. Il est dvelopp et
tourne sur une plateforme Linux. Il s'appuie et fait
appel des programmes Open Source trs fiables et
trs performants pour la gestion des images et des
fichiers.

Ce logiciel permet de grer l'ensemble du processus


des projets des clients de la socit individuellement. Il
effectue le classement des clients, ainsi que leurs
projets dans l'arborescence du serveur de la socit.
Grce lui, il est possible d'accder tout moment aux
projets et aux donnes des clients.

De plus, avec DigiManager la socit DIGISCRIB peut rfrencer les ouvrages de ses clients. En
effet, le logiciel possde un module pour la saisie, la consultation des ouvrages grs par la socit
pour ses clients.

Ce logiciel est coupl une base de donnes SQL, afin de relier tous les lments d'un projet un
client de la socit : ouvrages ou documents numriser ou traiter, documents changs, images,
fichiers de donnes, factures, devis, fichiers log des traitements, etc.

Fonctionnalits du logiciel DigiManager

Gestion et classement des projets et des donnes des clients

Il gre l'emplacement de stockage des donnes des projets de la socit.

Gestion des documents et fichiers changs entre la socit et ses clients

Il gre et stocke les diffrents documents changs entre la socit DIGISCRIB et ses clients.

Rfrencement des ouvrages des clients

Gestion des scanners de production et numrisation de documents en srie

Il est capable de centraliser la numrisation de documents partir de plusieurs scanners de


production.

Nommage, renommage et copie des fichiers

Le but de ce module de DigiManager est de nommer, renommer ou


copier l'ensemble de fichiers d'un projet. Il gre les rpertoires source et
destination, les noms des fichiers ainsi que les extensions.
Pour les fichiers sources, il peut grer plusieurs index (numrotation), ex :

FileName-001-0001.jpg ==> FileName-%03l-%04i.jpg


Ceci peut tre par exemple le document 1 de la boite 1.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 14 / 43
Pour la nomenclature des fichiers les index peuvent tre placs tout endroit, par exemple :

FileName-%05c.jpg ou FileName-%03c-dp.tif ou %04c-FileName.jpg


FileName-00001.jpg FileName-001-dp.tif 0001-FileName.jpg

De plus, ce module gre les fichiers dont la nomenclature comporte la date universelle en
secondes depuis le 01/01/1970.

Reclassement ou suppression de fichiers (modification de l'ordre)

Ce module nous permet de reclasser un fichier dans sa liste. Il est


possible de dcaler un ou plusieurs fichiers dans la liste.
Le reclassement ou la suppression des fichiers est fait, bien sr,
sans modifier la nomenclature et sans laisser de trou dans l'ordre
des fichiers.

Exportation des fichiers

Ce module permet d'exporter les donnes d'un projet vers un autre


rpertoire ou un autre priphrique de stockage.

Cration de fichiers PDF et TIF partir d'un ou plusieurs fichiers

Grce ce module il est possible de crer un document PDF ou un


fichier TIFF partir de l'ensemble ou d'une partie des images d'un
projet.
Nous pouvons crer un document PDF/A1, ou exercer un groupe de
rgles de conversion des images avant leurs insertion dans le
document, comme par exemple la conversion en niveau de gris
pour des images couleur.

Mise jour des proprits de fichiers PDF

Il nous est possible de grer (ajouter, modifier, supprimer) tout


moment l'ensemble des mtadonnes d'un document PDF.
Il nous est possible de grer les lments de base comme le titre, le
sujet, le mots cls, la date de cration ou de modification, etc. mais
aussi l'ajout, la modification ou la suppression d'un mot de passe
des documents.

Extraction d'images

Cet outil nous permet d'extraire les images contenues dans un


document PDF ou TIFF.
Lors de l'extraction nous pouvons choisir l'intervalle des pages, le
format, la rsolution et la taille des images.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 15 / 43
Gestion d'images

Ce module nous permet la conversion d'une ou plusieurs images


d'un projet. Les possibilits sont nombreuses, grce cet outil, nous
pouvons ajouter ou supprimer des commentaires dans les enttes
des images, modifier le profil de couleurs, convertir le format des
images, modifier leurs compression, modifier leurs taille et leurs
rsolution, dcouper les bordures, les retourner d'un certain degrs,
sparer les pages en vis--vis, les striper (supprimer tout
information inutile dans les images), obtenir le dtails des
informations et bien plus.
Ces actions peuvent tre exerces au choix sur les images slectionnes dans la liste, sur les images
impaires ou paires, ou sur l'ensemble des images. De plus, ces actions peuvent tre ralises sur les
images originales ou sur des copies.

Tatouage des images

La socit DIGISCRIB possde plusieurs outils pour le tatouage des


images. En effet, plusieurs de ses scanners sont capables de
tatouer les images lors de la prise de vue.
De plus, DigiManager possde aussi un module cet effet. Ce
module nous permet d'ajouter (estampiller) les vues des ouvrages
et des documents, c'est--dire de superposer une image (logo,
estampille, texte, etc.) sur l'autre.
Cette outil permet de dfinir la transparence de l'image tatouer. il
permet de slectionner la position ou les coordonnes du tatouage.
De plus, l'outil permet l'insertion de tatouages invisibles (stganographie). Cette mthode nous permet
l'ajout d'un tatouage binaire invisible et dont l'information est cache. Pour cette raison, il est
ncessaire de connatre les coordonnes du tatouage afin de le retrouver ultrieurement.

Dcoupage des images

Cet outil de DigiManager permet le dcoupage des bords des


images ou la sparation d'une images en deux parties, pages de
gauche et de droite par exemple.

Gestion des mtadonnes IPTC, EXIF, XMP des images (ajout, mise jour, suppression)

Ce module permet la gestion des mtadonnes internes des images. Grce ce module, il est possible
de lire les mtadonnes insres automatiquement par les scanners lors des prises de vues, comme
les mtadonnes EXIF par exemple. De plus, nous pouvons grer des mtadonnes notre
convenance : ajouter, modifier et supprimer n'importe quel champ des trois normes IPTC, EXIF et XMP.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 16 / 43
A titre d'exemple DigiManager est capable de grer pour la dernire version de la norme EXIF plus de
440 champs, quelques centaines pour la dernire version de la norme XMP et 32 pour la dernire
version de la norme IPTC.

Recherche d'images par leurs mtadonnes ou par leurs noms

Grce cet outil, il est possible de rechercher des fichiers partir


de leurs noms ou des images partir de leurs mtadonnes.
Cette interface nous permet de trouver une ou un ensemble
d'images partir d'une mtadonne, que ce soit IPTC, EXIF ou XMP.
Pour cela il suffit de slectionner le rpertoire du client ou du projet
dans lequel effectuer la recherche, le champ de la mtadonne
rechercher ainsi que la valeur trouver.
Aussi, il est possible tout simplement de rechercher dans un
rpertoire, un ou plusieurs fichiers partir d'une chane de
caractres saisie.
Cet outil accepte les caractres gnriques comme par exemple :
* pour remplacer une chane de caractres, ? pour remplacer
un caractre, etc. De plus, l'outil peut respecter la casse du texte
recherch et rechercher dans le rsultat prcdent.

Ocrisation d'images l'aide du logiciel Tesseract (OCR dvelopp par la socit HP dans
les annes 80, tomb dans le domaine public depuis plusieurs annes et utilis actuellement
par la socit Google)

La socit DIGISCRIB s'investit dans le dveloppement et tests de


diveres technologies touchant de prt ou de loin le domaine de la
numrisation et le traitement de donnes y affrant.
C'est pour cette raison, que la socit DIGISCRIB a dvelopp une
interface graphique pour exploiter le logiciel de reconnaissance
optique de caractres Tesseract
Ce logiciel est probablement l'un des logiciels OpenSource les plus
performants et les plus prcis en terme de reconnaissance optique
de caractres.

Gravure et impression de CDROM's et des DVD's

Pour la gravure et l'impression de CDROMs et DVDs, la socit


DIGISCRIB possde un robot de gravure Primera Bravo II. Cette
socit ne fournit pas de logiciel pour la gestion de ce robot sous
Linux, raison pour laquelle, la socit DIGISCRIB a dvelopp son
propre interface pour se faire.
Avec cette interface, il est possible de slectionner l'ensemble des
fichiers d'un projet graver sur disque optique, il calcule
automatiquement le nombre de disques ncessaires pour la gravure de l'ensemble du projet par
rapport au seuil maximum de Mo stipul par disque.
Entre autres options, cet outil permet de saisir le nom des disques, de slectionner la vitesse maximale
de la gravure et le seuil maximal de Mo par disque, d'activer la numrotation des disques lors du
nommage, d'activer la vrification de la gravure, et de dterminer le nombre de copies par disque.
Pour l'impression des disques, l'outil permet de slectionner l'image imprimer sur les disques, de
saisir un libell (commentaire) imprimer sur les disques, d'activer l'impression de la liste des fichiers
gravs, la date de la gravure, le nom des disques, et d'activer l'impression en noir et blanc.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 17 / 43
Les statistiques de textes

Grce cet outil, nous avons la possibilit d'obtenir des statistiques


sur les textes traits par la socit DIGISCRIB.
En effet, grce de puissants dictionnaires, cet outil est capable
d'tablir des statistiques sur des textes, la fin de son excution, il
nous informera du nombre de mots, de caractres, du nombre de
fautes trouves dans le(s) texte(s) et du nombre de pages traites
si le document est dcompos en pages.

Cet outil offre plusieurs possibilits, par exemple, il peut tre utilis tout simplement pour
comptabiliser le nombre de mots et de caractres dans un texte.
Il peut galement tre utilis pour la correction de textes. En effet, avec cet outil il est possible de
corriger interactivement les textes traits. Pour chaque mot erron, le programme demande la saisie
de la correction du mot. Si le mot est correct et qu'il n'est pas prsent dans le dictionnaire, le
programme permet la mise jour du dictionnaire avec l'ajout du mot.
De plus, lors de la vrification des textes, il est possible de dclarer le seuil minimum en pourcentage
de texte correct atteindre, dit inversement, le seuil maximum de fautes autorises dans un texte.

Les mtadonnes DUBLIN CORE

Cette interface permet la gestion des mtadonnes DUBLIN CORE


pour un document ou une image.
Elle permet la lecture et la mise jour des mtadonnes dans un
fichier XML ou dans un fichier HTML.
Le programme accepte tous les champs de la dernire version de la
norme DUBLIN CORE.

Gestion des fichiers log des projets

Toutes les oprations ralises avec le logiciel peuvent tre traces


et il est possible d'avoir accs ces donnes tout moment.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 18 / 43
Reconnaissance optique de caractres (ROC ou OCR)
Trs souvent, la finalit de la numrisation est de pouvoir exploiter les donnes contenues dans les
livres et documents numriss. La conversion d'une image, la reprsentation graphique d'un texte,
du texte proprement dit, est possible grce la reconnaissance optique de caractres (ROC ou OCR)

Pour l'ocrisation de livres et documents, DIGISCRIB utilise les logiciels les plus rcents, les plus
sophistiqus, et les plus performants du march. La socit propose une large gamme de formats de
fichiers pour le rendu du texte ou des donnes (PDF, DjVU, Word, Excel, XML, HTML, CSV, TXT, etc.),
que ce soit par l'OCR directement ou par le traitement des donnes effectu ensuite.

OmniPage Professionnal Edition


Reconnaissance Optique de caractres.
L'OCR intelligent avec traitement des images pour corriger automatiquement
l'inclinaison, les vagues et la perspective de celles-ci avant le processus d'ocrisation.
DIGISCRIB utilise omnipage afin d'obtenir l'ocrisation des ouvrages ou documents au
format XML native pour sa conversion en XML/ALTO.
Conversion des donnes dans les formats de fichiers le plus couramment utiliss
actuellement (PDF, Word, Excel, XML, CSV, HTML, TXT, etc.).

FineReader Professional Edition.


Reconnaissance Optique de caractres.
Conversion des donnes dans les formats de fichiers le plus couramment utiliss
actuellement (PDF, Word, Excel, CSV, HTML, TXT, etc.).

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 19 / 43
Certains logiciels de numrisation, comme par exemple Omniscan, intgrent des logiciels (modules)
d'ocrisation. Cela permet d'ocriser les pages d'ouvrages ou de documents au fur et mesure de leur
numrisation ou l'achvement de la numrisation de ceux-ci. En l'occurrence, Omniscan est quip
avec la technologie Omnipage.

La socit DIGISCRIB utilise de prfrence le logiciel Omnipage pour l'ocrisation et pour la cration
des fichiers de donnes, mais elle est galement quipe du logiciel FineReader. Ces deux logiciels
sont les plus fiables, les plus performants, et les plus rpandus du march.

De plus, la socit ralise des recherches et teste des logiciels de reconnaissance optique des
caractres Open Source. C'est le cas pour l'OCR Tesseract , logiciel dvelopp par la socit HP
dans les annes 80', tomb dans le domaine public dans les annes 90' et utilis actuellement par la
socit Google. La socit DIGISCRIB l'a inclus dans son logiciel de gestion de projets
DigiManager* , avec une interface graphique adapte ses fonctionnalits pour l'obtention rapide
de textes partir des images sans mise en forme (obtention d'un fichier TXT UTF8).

Procdure d'ocrisation
Avant l'ocrisation des ouvrages ou des documents, les images ont subi deux contrles de qualit. Le
premier contrle est effectu par l'oprateur de numrisation lors de la prise de vue : il vrifie alors la
nettet, l'orientation, l'inclinaison et le cadrage des images. Lors du deuxime contrle de qualit,
l'oprateur vrifie le nommage des fichiers, la colorimtrie, le taux de compression et les mtadonnes
des images (plus amples dtails sur le contrle de qualit plus bas dans ce mmoire technique).
Pour finir, l'oprateur procde la reconnaissance optique de caractres (ROC ou OCR)

Vrification et prparation des fichiers


Aprs une premire ocrisation, vrification du zonage et correction de celui-ci si besoin est.
Correction de l'OCR si le porteur du projet l'a demand et si besoin est.
Cration des fichiers de donnes.

Grce des gabarits et des dictionnaires propres, la socit DIGISCRIB propose l'ocrisation
d'ouvrages en Latin ou en Ancien Franais, sans correction. Ce type d'ocrisation n'est pas garanti en
termes de taux de reconnaissance.

Les formats de fichiers

La socit DIGISCRIB peut fournir en sortie comme fichiers de donnes les formats : Word ou Excel de
microsoft, PDF d'Adobe ou son homologue OpenSource DjVu, XML, XML/TEI, XML/ALTO, HTML et TXT.

METS format de fichiers servant stocker les mtadonnes de nature diverse portant sur
un document numrique, dans le but de faciliter son change, sa gestion et sa
prservation.
ALTO est un format normalis XML pour stocker l'information de mise en page et de
contenu. Il contient des informations de contenu (texte) et physique (structure).

La TEI (Text Encoding Initiative) est un format XML. Le TEI Consortium est un consortium qui
regroupe des acteurs de la recherche dans le but de normaliser le codage de toutes sortes
de documents sous forme numrique en XML/TEI. Il ne s'agit pas d'une spcification (DTD ou
Schma) en soi mais plutt d'un cadre (framework) pour en dvelopper des particulires. Il a
t dfini comme un systme pour faciliter la cration, l'change, l'intgration de donnes
textuelles informatises.

DjVu est un format de fichier destin l'archivage de documents numriques. Il a t cr


par AT&T.
Il utilise notamment un format d'image DjVuPhoto utilisant la compression par ondelettes,
lui permettant ainsi d'avoir des fichiers dont la taille est 10 % d'un PDF quivalent.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 20 / 43
De nombreux documents sont disponibles dans diffrentes administrations et centres d'archivage au
format DjVu. Entre autres, le projet Wikisource utilise le format DjVu pour stocker et afficher les livres
scanns.

La correction de l'OCR
Les logiciels d'OCR sont rarement capables de reconnatre 100% du texte. C'est la raison pour laquelle
il est souvent ncessaire de corriger l'OCR, voire de retranscrire le texte dans son intgralit, dans des
cas extrmes.

DIGISCRIB propose plusieurs services en fonction du taux de reconnaissance de l'OCR.

En-de d'un taux de reconnaissance de 80%, il est conseill de retranscrire les ouvrages ou les
documents.

Au-dessus d'un taux de reconnaissance de 80%, il est possible de le ramener un taux compris entre
95 et 99% voire, un taux de 99,98%.

Une correction de l'OCR l'aide de logiciels en combinaison avec des dictionnaires peut ramener le
taux de reconnaissance du texte entre 95 et 99%.
Une correction l'aide de logiciels en combinaison avec des dictionnaires, suivie d'une relecture du
texte, garantit un taux de reconnaissance de 99,98%.

La socit DIGISCRIB fait effectuer ses travaux d'ocrisation et de correction de l'OCR en France par
des francophones issus des filires littraires de l'Universit Franois Rabelais de Tours ou du Centre
d'tudes Suprieures de la Renaissance (CESR) de Tours. La transcription de textes est faite
l'tranger, et la post-correction s'effectue en France.

Processus d'ocrisation Aprs numrisation des ouvrages, documents ou


photographies, la socit DIGISCRIB peut soit
ocriser les images rsultantes, soit retranscrire le
texte des mmes images.
Numrisation des ouvrages,
des documents ou de
photographies
En ce qui concerne la transcription de texte, nous
garantissons 99,98% du texte des ouvrages et
documents.

Concernant l'ocrisation des ouvrages et documents,


le porteur de projet a la possibilit de demander une
ocrisation brute sans correction, mais avec un
Cration des fichiers de Reconnaissance Retranscription traitement de la part de l'oprateur afin de vrifier et
donnes de travail optique de des textes corriger le zonage du logiciel d'OCR comme cela est
caractres
indiqu dans le section Procdure d'ocrisation.

Le porteur de projet a aussi la possibilit de


demander une ocrisation avec la correction des
textes. Dans ce cas, nous crerons des fichiers de
Correction de travail intermdiaire par rapport aux fichiers finaux
l'OCR attendus. Aprs cette ocrisation, les correcteurs
prennent en charge ces fichiers afin de corriger les
textes l'aide de dictionnaires spcifiques la
langue traite, propres la socit DIGISCRIB.
Cration des fichiers de donnes
Word, Excel, Write, Calc, PDF, Pour finaliser, les fichiers contenant les textes
DjVu, XML, METS/ALTO corrigs sont convertis dans les formats demands
et si les formats de fichier finaux le permettent les
mtadonnes leurs sont associes.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 21 / 43
Le format XML/METS/ALTO
La socit DIGISCRIB a intgr dans son systme
informatique les standards XML/METS/ALTO pour
l'enregistrement des mtadonnes, de mise en page, et
de structure des ouvrages et des documents.
Cette chane de production a t incorpore son
logiciel maison DigiManager.
En effet, afin de faciliter la saisie des mtadonnes par
les oprateurs, la socit DIGISCRIB a opt pour le
dveloppement d'une interface graphique pour le
renseignement des champs du standard METS.
Cette interface est capable de crer la structure de base
du standard METS automatiquement sans aucune
intervention humaine. Bien entendu, dans ce cas, seules
les sections automatisables seront renseignes. Cest le cas par exemple pour les mtadonnes
techniques techMD et le standard NISOIMG avec les informations concernant les fichiers
traiter du projet, entre autres, la hauteur et la largeur en pixels des images, la profondeur des couleurs
des images, le poids des fichiers, etc.
A partir de cette structure de base, il est
possible d'incorporer diffrents standards
pour encapsuler les diffrentes
mtadonnes dans le fichiers METS, comme
par exemple la norme Dublin Core dans
le section descriptive des mtadonnes.

Cette mthode pour laquelle a opt la


socit DIGISCRIB n'accepte pas de DTD ni
de XSD en contrepartie, elle permet
l'automatisation du renseignement de
certains champs. Tous les champs et toutes
les balises obligatoires du standard METS
sont prsents dans cette interface, certains
pr-remplis et d'autres remplis par
l'oprateur. Pour les autres donnes et balises, elles sont incorpores la demande des porteurs de
projets, l'ajout de champs non prsents dans cette
interface ou l'ajout de balises standards ou non. Par
exemple, si le porteur de projet dsire encoder les
mtadonnes de ses ouvrages avec la norme Dublin
Core , les 17 champs existants dans cette norme sans
prsents dans l'interface METS de la socit, mais s'il
dsire encoder les mtadonnes avec une norme non
prsente dans l'interface METS de la socit, ils seront
incorpors. Ceci est fait pour des standards bien connus
ou pour des balises cres par le porteur de projet.

Un autre module cr par et pour la socit DIGISCRIB,


incorpor son logiciel de gestion de projets
DigiManager est le module XML/ALTO. Cette interface est
compltement automatique. Elle est capable de crer
automatiquement les fichiers XML/ALTO partir du
rsultat de l'ocrisation des ouvrages ou des documents.

Aprs la cration des fichiers XML/ALTO, il est possible


de corriger le texte dans ces mmes fichiers et de crer
des fichiers de donnes, comme par exemple des
documents PDF.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 22 / 43
Conversion du XML/ALTO en document PDF
<Layout>
<Page ID="PAG_1" WIDTH="2499" HEIGHT="3536" QUALITY="">
<TopMargin ID="PAG_1_TopMargin" HPOS="0" VPOS="0" WIDTH="2499" HEIGHT="88"/>
<LeftMargin ID="PAG_1_LeftMargin" HPOS="0" VPOS="88" WIDTH="65" HEIGHT="3392"/>
<RightMargin ID="PAG_1_RightMargin" HPOS="2499" VPOS="88" WIDTH="0" HEIGHT="3392"/>
<BottomMargin ID="PAG_1_BottomMargin" HPOS="0" VPOS="3480" WIDTH="2499" HEIGHT="56"/>
<PrintSpace>
<TextBlock ID="PAG_1_TB000001" HPOS="254" VPOS="329" WIDTH="91" HEIGHT="1620" STYLEREFS="TXT_">
<TextLine ID="PAG_1_TL000001" STYLEREFS="TXT_6">
<String ID="PAG_1_ST000001" HPOS="254" VPOS="330" WIDTH="108" HEIGHT="65" CONTENT="je"/>
<SP ID="PAG_1_SP000001" HPOS="362" VPOS="330" WIDTH="27"/>
<String ID="PAG_1_ST000002" HPOS="389" VPOS="344" WIDTH="98" HEIGHT="51" CONTENT="ne"/>
<SP ID="PAG_1_SP000002" HPOS="487" VPOS="344" WIDTH="22"/>
<String ID="PAG_1_ST000003" HPOS="509" VPOS="329" WIDTH="150" HEIGHT="66" CONTENT="suis"/>
<SP ID="PAG_1_SP000003" HPOS="659" VPOS="329" WIDTH="20"/>
<String ID="PAG_1_ST000004" HPOS="679" VPOS="329" WIDTH="321" HEIGHT="81" CONTENT="complet"/>
<SP ID="PAG_1_SP000004" HPOS="1000" VPOS="329" WIDTH="22"/>
<String ID="PAG_1_ST000005" HPOS="1022" VPOS="329" WIDTH="312" HEIGHT="81" CONTENT="qu'avec"/>
<SP ID="PAG_1_SP000005" HPOS="1334" VPOS="329" WIDTH="25"/>
<String ID="PAG_1_ST000006" HPOS="1359" VPOS="343" WIDTH="94" HEIGHT="52" CONTENT="un"/>
<SP ID="PAG_1_SP000006" HPOS="1453" VPOS="343" WIDTH="30"/>
<String ID="PAG_1_ST000007" HPOS="1483" VPOS="329" WIDTH="391" HEIGHT="66" CONTENT="Macintosh"/>
</TextLine>
</TextBlock>
<TextBlock ID="PAG_1_TB000002" HPOS="254" VPOS="420" WIDTH="93" HEIGHT="1169" STYLEREFS="TXT_">
<TextLine ID="PAG_1_TL000003" STYLEREFS="TXT_8">
<String ID="PAG_1_ST000008" HPOS="254" VPOS="415" WIDTH="76" HEIGHT="65" CONTENT="et"/>
<SP ID="PAG_1_SP000007" HPOS="330" VPOS="415" WIDTH="24"/>
<String ID="PAG_1_ST000009" HPOS="354" VPOS="428" WIDTH="165" HEIGHT="52" CONTENT="mon"/>
<SP ID="PAG_1_SP000008" HPOS="519" VPOS="428" WIDTH="26"/>
<String ID="PAG_1_ST000010" HPOS="545" VPOS="411" WIDTH="280" HEIGHT="84" CONTENT="quipe"/>
<SP ID="PAG_1_SP000009" HPOS="825" VPOS="411" WIDTH="24"/>
<String ID="PAG_1_ST000011" HPOS="849" VPOS="414" WIDTH="260" HEIGHT="66" CONTENT="autour"/>
<SP ID="PAG_1_SP000010" HPOS="1109" VPOS="414" WIDTH="19"/>
<String ID="PAG_1_ST000012" HPOS="1128" VPOS="414" WIDTH="105" HEIGHT="65" CONTENT="de"/>
<SP ID="PAG_1_SP000011" HPOS="1233" VPOS="414" WIDTH="26"/>
<String ID="PAG_1_ST000013" HPOS="1259" VPOS="413" WIDTH="164" HEIGHT="66" CONTENT="moi"/>
</TextLine>
</TextBlock>
<Illustration ID="PAG_1_IL000001" HPOS="1973" VPOS="90" WIDTH="680" HEIGHT="515"/>

Voici un extrait d'un document XML/ALTO dont le contenu reprsente les deux lignes du texte :

je ne suis complet qu'avec un Macintosh


et mon quipe autour de moi

Un fichier XML/ALTO dcrit la structure ainsi que le contenu de chacune des pages d'un ouvrage ou
d'un document. Il est possible de remarquer la structure d'un tel fichier. La balise Page dclare une
nouvelle page et nous renseigne sur la taille et les marges de la page. Chaque balise String
contient un mot du texte avec ses coordonnes dans le texte, exemple le mot je du texte :

<String ID="PAG_1_ST000001" HPOS="254" VPOS="330" WIDTH="108" HEIGHT="65" CONTENT="je"/>

Cette balise nous informe que le pronom je est plac au pixel horizontal 254 et au pixel vertical 330
de la page, qu'il a une largeur de 108 pixels et une hauteur 65 pixels dans la page, enfin l'attribut
content nous donne le mot lui-mme.
Ce texte est issu de l'OCR directement avec toutes les erreurs qui peut comporter ou engendrer le
logiciel d'OCR.

La socit DIGISCRIB ne s'est pas content de dvelopper des outils pour la conversion du rsultat
des OCR en XML/ALTO, mais elle a cr aussi des outils pour la conversion des fichiers du format
XML/ALTO au format PDF.

Ceci permet la cration de documents PDF partir de fichiers XML/ALTO tout en corrigeant les erreurs
de l'OCR auparavant. Il est possible de traiter les fichiers XML/ALTO au pralable, afin de corriger les
fautes de syntaxe que les logiciels d'OCR aient pu engendrer, pour la fin rgnrer le document PDF.
Pour cela il est ncessaire traiter mot mot les attributs content de chaque balise String
CONTENT="je"
CONTENT="ne"
CONTENT="suis"
CONTENT="complet"
CONTENT="qu'avec"
CONTENT="un"
CONTENT="Macintosh"

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 23 / 43
XML/ALTO PDF
Grce cet outil ralis par la socit DIGISCRIB,
il est possible la conversion de fichiers XML/ALTO
en document PDF.
Pour cela, il suffit de saisir le nom du document
PDF final, de slectionner l'ensemble des fichiers
XML/ALTO et des images composant le document
PDF (en cas de double couche).

Il est possible de grer plusieurs options du


document PDF lors de sa cration :
Il est possible de slectionner le charset du
document initial (XML/ALTO) et final (PDF), la
police de caractres utiliser, le type de police
(normal, gras, etc.), la taille de la police.
Aussi, nous pouvons insrer les proprits du
document PDF pendant sa cration (titre, sujet,
mot cls, etc.). De mme, le crypter, le scuriser
avec un mot de passe et dclarer les protections
appliquer au document PDF (droit de la copier, de
l'imprimer, etc.).

De plus, cet outil offre un certains nombre de fonctionnalits concernant les diffrents types de
documents PDF qu'il est possible de crer, par exemple il autorise la cration de documents PDF/A1, la
cration de documents PDF double couche avec la possibilit de choisir l'ordre des couches (texte sur
ou sous l'image).
De mme, cet outil permet la cration d'un document PDF par fichier XML/ALTO ou l'intgration de
l'ensemble des fichiers dans un seul. Aussi, il permet le traitement des images avant leurs insertion
dans le document PDF.

Voici un exemple du rsultat obtenu suite


l'ocrisation d'un document avec OmniPage Pro 17, la
conversion de celui-ci au format XML/ALTO, la
correction de ce dernier et la cration du document
PDF en double couche, avec l'image en premier plan
et le texte en arrire plan.

Le mme exemple avec la slection du texte en


arrire plan.

Le rsultat de la cration du mme document en


mode texte uniquement, sans image en premier plan
par dessus du texte.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 24 / 43
Indexation, encodage, extraction de donnes

DIGISCRIB ralise aussi des travaux d'indexation, d'encodage en XML


ou HTML et d'extraction de donnes.

DIGISCRIB indexe des ouvrages partir des donnes issues de la


numrisation. Cette indexation peut tre faite de toute pice, pour
indexer la pagination des ouvrages par exemple, ou elle peut tre faite
avec extraction de donnes (morceaux textes des ouvrages). Ainsi la
socit DIGISCRIB, en fonction des finalits assignes votre projet de
numrisation, vous permet-elle d'extraire diffrents lments du texte
de faon systmatique : notes de bas de pages, noms propres, citations
ou rfrences, chapitres et sous-titres. Cela a dj t le cas pour des ouvrages en latin numriss
pour la mdiathque de Troyes, ou encore pour des ouvrages en ancien franais appartenant au Centre
d'tudes Suprieures de la Renaissance (CESR) de Tours.
Ce type d'indexation est ralis par des diplms issus des UFR de Lettres de l'Universit Franois
Rabelais ou du Centre d'tudes Suprieures de la Renaissance (CESR) de Tours, chercheurs et
spcialistes comme des mdivistes par exemple.
La socit DIGISCRIB peut vous fournir cette indexation aux formats : Excel, CVS, XML, ou autre(s)
la demande du porteur du projet.

Une autre facette de la socit DIGISCRIB est l'encodage et la mise en forme de textes. En effet,
DIGISCRIB est capable de traiter les donnes issues de la numrisation par la gestion des images
comme les mtadonnes par exemple, mais aussi de traiter les textes aprs l'ocrisation des images.
DIGISCRIB peut vous fournir les textes des ouvrages numriss encods aux formats XML et HTML.
Cela peut tre fait partir d'une structure donne, dfinie et cre en fonction des besoins ou partir
d'une dfinition de type de document (DTD).
La socit peut aussi dvelopper des interfaces graphiques pour la gestion (affichage, ajout,
suppression, etc.) des donnes encodes.

De mme, la socit DIGISCRIB peut remanier la mise en page des textes issus de l'ocrisation des
images. Elle est capable de fournir les mmes textes sous plusieurs formes : une version originale et
sa version dissimile ou dtilde par exemple. La mise en forme des textes peut tre fournie aux
formats : XML, Word, Excel, CVS, PDF, DjVU, etc.

DIGISCRIB s'est spcialise ces dernires annes dans l'encodage de textes en XML/TEI. Elle peut
vous fournir l'intgralit des ouvrages (textes) dans ce format, soit avec un pr-encodage, avec la
structure de base du XML/TEI, soit avec un encodage approfondi, avec la gestion de balises
particulires, comme l'encodage des enttes des pages avec la balise <FW>, l'encodage des
corrections avec les balises <SIC> et <CORR>, l'encodage de la dissimilation et du dtildage des
textes avec les balises <ORIG> et <REG>.
DIGISCRIB ralise cette tche l'aide de l'outil EditTEI , encodeur XML/TEI dvelopp par la socit
en partenariat avec l'association Re-Transcripro et le Centre d'Etudes Suprieures de la Renaissance
(CESR) de Tours. Pour de plus amples dtails sur l'encodeur EditTEI , merci de se rfrer la page
qui lui est consacre.

La mise en ligne des ouvrages


La socit DIGISCRIB s'est associe la socit Concept-Image pour la cration de sites Internet ou
de pages HTML, afin d'exploiter au mieux les ouvrages numriss et traits par la socit DIGISCRIB.
Les deux socits proposent conjointement des hbergements pour de grandes quantits de donnes.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 25 / 43
Systme informatique
La socit DIGISCRIB est trs proche de la philosophie Open Source , elle s'appuie
sur le systme d'exploitation Linux pour la gestion de son systme informatique et pour
la gestion des donnes de ses clients. Systme d'exploitation rput trs fiable,
performant, et scuris.

Durant tout le processus du projet, numrisation, ocrisation et traitement de donnes, les donnes
sont en permanence en redondance, stockes sur des disques durs spars.

La socit DIGISCRIB fait confiance la marque IBM pour l'quipement


de ses serveurs. Elle en possde plusieurs. Tous sont configurs en
RAID/5.

Pour le stockage des donnes, la socit DIGISCRIB s'est quip de baies


de stockages RAID Transtec et Axus. La premire, possde 16 disques dur
SATA de 2To. Elle est utilise pour l'archivage des donnes des clients de
la socit. Elle est divise en quatre volumes RAID/5, c'est dire, chaque
volume a une tolrance de dfaillance des disques d'un disque dur,
quatre disques dur dans l'ensemble de la baie.
La deuxime, est quipe de disque dur de 1To. Elle est utilise pour la
copie des donnes en cours de traitement, contrle de qualit, gestion
des mtadonnes, retraitement des images, etc. Elle est divise
galement en quatre volumes RAID/1, c'est dire, chaque volume a un disque miroir.

Tout le systme informatique de la socit DIGISCRIB est sous


onduleurs. En effet, le courant des serveurs et des baies de stockage est
surveill et contrl par des puissants onduleurs MGE.
De plus, chaque ordinateur de travail dans la socit DIGISCRIB possde
son propre onduleur.
Tous ces onduleurs, premirement ils protgent l'ensemble du parc
informatique contre les surtension ventuelles du rseau lectrique, et
deuximement, ils permettent l'arrt du systme informatique en toute
scurit en cas de coupure lectrique.

Pour des raisons de scurit, la socit DIGISCRIB a instaur deux


rseaux, un Intranet et l'Internet.
Uniquement un serveur et deux PCs ont accs Internet tous les autres
serveurs et PCs de la socit sont relis l'Intranet exclusivement.
Ceci limite considrablement le piratage de donnes partir de
l'extrieur et l'attaque du systme informatique par des virus.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 26 / 43
Sauvegarde des donnes
DISQUE DUR
La socit DIGISCRIB propose une large gamme de disques durs pour la
sauvegarde des donnes. Elle s'associe de grands fabricants de matriel de
stockage. Selon les besoins, elle fournit le rsultat de la numrisation ou du
traitement de donnes sur des disques durs :

Disques 500/750/1000/2000 Go - USB 2.0/3.0, eSATA, Firewire


Disques 1 6 To RAID USB 2.0/3.0, eSATA, Firewire

Ces disques durs peuvent tre formats selon les besoins des clients afin de
s'insrer parfaitement dans leur systme informatique : Ext2 et Ext3 pour
Linux et Unix ou FAT32 et NTFS pour Windows.

CDROM / DVD
Les CDROM sont gravs et imprims avec le robot de gravure Primera Bravo II.
Ce robot de gravure contient un chargeur de 50 CDs, qui peuvent tre traits
en automatique par le serveur ou un par un manuellement. Il possde une
imprimante de Jet d'encre pour les CDs/DVDs.

La socit DIGISCRIB utilise des cdroms , non


rinscriptibles (WORM). Ce sont des supports d'une trs grande
performance en matire de conservation de donnes, de
longvit, et offrant des garanties de qualit, de rsistance et
d'impermabilit.
Ces CDs rpondent aux normes les plus exigeantes, AFNOR Z42-011-2. Ils sont
compatibles avec tous les graveurs et avec toutes les vitesses (1x 48x), garantissant une relecture
universelle.
La dure de vie des CDs Taiyo Yuden est garantie de 25 50 ans selon les modles, l'utilisation et le
mode de conservation. Ils sont fabriqus avec une couche de protection renforant la rsistance des
CDs contre les rayures. Chaque CD Taiyo Yuden possde un numro unique permettant sa traabilit.

Chaque CD-R est grav de manire contenir, dans la mesure du possible, les fichiers d'un ou
plusieurs ouvrages/documents/dossier en entier. Chaque CD sera livr dans une bote slim en PVC
rigide. Chaque CD sera tiquet avec les donnes demandes par le client.

A l'issue de la prestation, la socit DIGISCRIB fournit sous forme lectronique un tableau gnral de
concordance entre les fichiers de donnes et les CDs.

CLE USB

Aussi, la socit DIGISCRIB offre un panel de cls USB 2.0 allant de 2Go 250Go pour le
stockage de donnes.

Afin de garantir la prennit des donnes stockes ou graves, les copies de donnes sont
vrifies sur tout support et la qualit des gravures sont contrles.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 27 / 43
Tlchargement FTP

La socit DIGISCRIB propose un service d'accs scuris aux donnes pendant la


ralisation du projet. Les clients peuvent accder leurs donnes personnelles via
Internet, par l'intermdiaire d'un navigateur web ou de son serveur FTP. En effet, ils
peuvent accder l'aide de codes d'accs une page web rserve leurs projets. Ils
pourront y prvisualiser et y tlcharger les images rsultant de la numrisation, mais
aussi les fichiers de donnes rsultant de l'ocrisation ou de leur traitement.

Aussi, la demande de ses clients, la socit peut dposer les donnes sur le serveur FTP de leur
choix.

Confidentialit

La socit DIGISCRIB s'engage ne conserver et ne diffuser aucune


donne aprs validation de la prestation. Tout au long du projet, les
donnes resteront la proprit du client et en aucun cas elles ne seront
divulgues sous quelque forme ou par quelque moyen que ce soit.

Proprit intellectuelle

La socit DIGISCRIB ne peut tre tenue responsable de la copie des


ouvrages ou documents. A aucun moment, la socit ne diffuse ni ne
commercialise quelque donne que ce soit.
Si les ouvrages ou documents sont sous droit de la proprit, il revient
l'acheteur de ngocier avec le propritaire la copie, la diffusion ou la
commercialisation desdits ouvrages ou documents.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 28 / 43
Suivi du projet
La numrisation et le contrle de qualit seront raliss par un historien de l'art, titulaire d'une licence
obtenue l'Universit Franois-Rabelais de Tours en 2007, et form au concours de conservateur du
patrimoine. Passionn d'archologie, il a particip de nombreuses fouilles archologiques au cours
de ses tudes, qui ont sans doute contribu faonner la minutie dont il fait preuve lors du maniement
des ouvrages anciens et dlicats.

L'quipe

Face une demande croissante, la flexibilit et la ractivit de la socit DIGISCRIB manent de


l'clectisme professionnel de ses diffrents acteurs, et sont ajustes en fonction des comptences de
chacun. Une aptitude s'adapter aux volutions de la demande et de l're numrique pleinement
assume par la socit DIGISCRIB.

La numrisation et le contrle de qualit proprement dits sont effectus par un titulaire d'une licence
en Histoire de l'Art form au concours de conservateur du patrimoine. Passionn d'archologie, il a
particip de nombreuses fouilles au cours de ses tudes, qui ont sans doute contribu faonner la
minutie dont il fait preuve lors du maniement des ouvrages dlicats.

L'indexation, quant elle, est ralise par des titulaires d'un Master Pro obtenu au Centre d'Etudes
Suprieures de la Renaissance et par des diplms en Lettres de l'Universit Franois Rabelais de
Tours.

Cependant, la spcialisation des oprateurs n'est pas restreinte aux documents anciens, car la
dmatrialisation touche progressivement la plupart des organismes publics (tablissements
bancaires, centres d'impts, etc), mais aussi le domaine professionnel (factures, brochures, catalogues,
contenus techniques) o elle demeure encore relativement faible. La socit DIGISCRIB souhaite donc
permettre aux entreprises, aux organismes publics, et aux particuliers, le traitement numrique des
documents techniques et professionnels, grce des oprateurs capables de souplesse et
d'adaptabilit en fonction de la demande.

Si la passion du livre et la considration apporte tout type de document sont essentielles, les
techniques informatiques occupent bien sr une place prpondrante dans les taches de numrisation
et d'ocrisation des documents confis. Comme expos plus haut, la socit DIGISCRIB est quipe
des outils de dmatrialisation les plus performants du march. Leurs logiciels, trs avancs en terme
d'imagerie; ncessitent des comptences informatiques indniables. Les oprateurs de numrisation
sont donc recruts en considration de leurs comptences informatiques, celles-ci leur permettant un
maniement optimal et ais desdites machines.

De fait, un regard critique sur les actions informatiques mcanises est constamment assur au cours
de la numrisation. Ceci est galement valable lors du traitement des donnes numrises ; en
complment de la reconnaissance optique des caractres (OCR), des personnes qualifies assurent la
comprhension du message numris, sa mmorisation, et sa correction. C'est ainsi que la socit
DIGISCRIB peut garantir ses clients un niveau de reconnaissance optique des caractres entre 90 %
et 99% selon le type d'ouvrages et de documents.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 29 / 43
EditTEI (encodeur XML/TEI)
Depuis quelques annes, on s'empresse de numriser l'art sous toutes ses formes. Ceci engendre un
besoin croissant de systmes informatiques pour la gestion lectronique de documents.

La socit DIGISCRIB tant une socit spcialise dans la numrisation de livres et documents, il va
de soi qu'elle s'intresse de prs l'encodage des textes suite leur ocrisation ou leur
transcription. Cette dmarche va de pair avec la recherche accrue, par la socit DIGISCRIB, d'outils
d'ocrisation et de gestion d'images sous Linux, comme Tesseract et ImageMagick, par exemple.

La socit DIGISCRIB s'est engage et a investi dans cette recherche de solutions informatiques pour
l'encodage, l'analyse, la gestion et la manipulation de textes et documents.

Suite la dcouverte de la mthode d'encodage de texte TEI, des possibilits qu'elle offre et des
rponses qu'elle apporte un besoin croissant, la socit DIGISCRIB s'est lance dans le
dveloppement d'un progiciel d'encodage de texte en XML/TEI.

EditTEI est le nom de ce nouvel encodeur de texte. Il est dvelopp en Java, ce qui implique qu'il
soit compatible avec plusieurs plateformes : Linux, Windows, Mac, etc. De plus, il est parfaitement
trilingue : franais, anglais et espagnol.

EditTEI propose les fonctionnalits d'dition de texte, c'est--dire la mise en page pour sa lecture
et le balisage interactif de celui-ci sans avoir connatre ni saisir les balises XML/TEI. Cette tche est
ralise partir d'une entte de donnes ou d'un fichier XML/TEI existant, ou tout simplement partir
d'un fichier vierge.

Bien entendu, cet encodeur offre les outils d'dition habituellement utiliss, comme par exemple
ouvrir, enregistrer, imprimer un fichier, copier, couper et coller du texte, insrer ou supprimer des
pages, et grer des caractres spciaux.

En plus des outils d'dition de base, l' EditTEI fournit bien sr des outils d'ajout ou de suppression
de balises XML/TEI, d'encodage de caractres en ASCII, UTF8, entre autres, l'utilisation de dictionnaires
de correction en ligne et la possibilit de dtildage des textes.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 30 / 43
Pourquoi choisir la socit DIGISCRIB

La socit DIGISCRIB se dmarque de ses concurrents par la taille de sa structure qui permet
un travail encore personnalis et une attention toute particulire apporte dans le traitement des
contrats qui lui sont confis. En effet, le dynamisme d'une quipe ractive et comptente lui permet de
s'adapter un panel de contrats toujours riches d'enseignements, et d'y rpondre dans l'intrt
permanent des livres et documents confis.

La socit DIGISCRIB se targue de s'tre spcialise dans un traitement passionn du livre


ancien, la demande l'y ayant trs vite conduit. Le travail d'orfvre qui anime les oprateurs satisfera
vos attentes ; soucieux des livres et documents confis, de leur raret et/ou confidentialit, chaque
acteur de la socit DIGISCRIB accorde un soin tout particulier votre demande.

Ainsi, au sein de la socit DIGISCRIB, l'acte de numrisation n'est aucun moment une stricte
action mcanise : prcision et minutie sont convoques chaque tape du traitement de vos livres et
documents, rares ou anciens.

Par ailleurs, choisir la socit DIGISCRIB, c'est faire le choix d'un interlocuteur unique et
ractif, attentif vos exigences.

La technicit des scanners et logiciels utiliss vient parfaire les comptences d'une quipe qui
saura donc vous satisfaire, parce que spcialise dans l'histoire et la conservation du livre, et dans les
plus rcentes technologies informatiques.

Autant d'atouts qui permettent la socit DIGISCRIB de proposer la rponse la plus


personnalise et la plus performante l'ensemble de vos besoins, sur le march actuel de la
numrisation du livre et des documents anciens ou dlicats.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 31 / 43
Dveloppement durable
Vous avez pu constater que la socit DIGISCRIB est une socit taille humaine, miroir de
son grant engag avec responsabilit dans l'avenir et la prservation de la plante, l'chelle
professionnelle comme dans sa vie prive.

Au service du livre, des Archives et des traces crites tmoignant du pass, la socit
DIGISCRIB, a souhait ds sa conception contribuer une prise en charge diffrente du patrimoine
humain et des outils qui en permettent l'accs.

Pour ce faire, elle s'est dote d'un ensemble d'outils performants prenant en charge les priorits
environnementales :

Une utilisation minimale du papier. Le Zro papier n'est certes pas atteint, mais il est sans
cesse vis. Pour preuve, la ligne fax a t annule fin 2009 au profit des changes numriques,
systmatiss pour l'envoi des devis et des factures de la socit. Cette pratique tend se
gnraliser dans le cadre des rponses aux appels d'offre, et la voie papier se rarfie.
Le peu de papier utilis dans la socit est rutilis dans la mesure du possible ou recycl.

Ds la cration de la socit, les imprimantes ont t quipes d'un systme


d'encre en continu (CISS), soit zro cartouche d'encre consomme depuis la
cration de la socit en 2008. Nous remplissons les rservoirs des imprimantes
sans changer les cartouches, causes de pollution majeure l'chelle plantaire.

L'utilisation de scanners Zeutschel OS12000 A2 et OS10000 A1 diffrencie la socit


DIGISCRIB de ses concurrents : l'clairage de ces scanners n'est actif que lors de la prise de
vue, cart consquent par rapport aux scanners I2S, dont l'clairage demeure actif durant toute
la phase de numrisation.

Une optimisation de l'lectricit a t ralise lors de la conception de la socit, par le


changement de l'clairage au profit d'une lumire froide (nons basse consommation).

La gestion interne de l'nergie au quotidien est opre a minima, par les serveurs internes de
travail, qui ne sont allumes qu'aux horaires d'ouverture de la socit, et non en continu. Les
serveurs HTTP, FTP, SVN, etc. qui sont hbergs galement dans les locaux de la socit,
demeurent accessibles 24/24H.

Les baies de stockage relies aux serveurs de travail sont quipes de disques durs WD CAVIAR
GREEN, disques durs rputs pour leur performance et pour leur faible consommation
d'nergie.

Le tri slectif des dchets s'opre au sein mme des locaux. Le recyclage du papier et du
plastique est systmatis. Cette dmarche gagne la gestion du parc informatique, dont les
diffrents composants sont recycls aussi souvent que possible.

Nous essayons dans la mesure du possible de ne pas utiliser des priphriques consommant
des piles. Quand cela est invitable, nous utilisons des piles rechargeables.

Quand l'tat des emballages le permet nous recyclons les emballages pour nos propres envois.

S'inscrire dans le dveloppement durable, c'est par dfinition s'inscrire dans des projets
prennes. C'est le cas de la socit DIGISCRIB, qui met en place diffrents projets d'avenir, comme le
projet d'EditTEI, progiciel d'encodage des textes anciens en XML/TEI et le projet FRANSCRIPTOR, site
communautaire pour la transcription de textes anciens (http://www.franscriptor.com), qui enracinent la
socit DIGISCRIB et ses salaris dans une prise en compte minutieuse et exhaustive des enjeux de
demain : protections du patrimoine culturel et du patrimoine naturel doivent dsormais marcher de
pair, permettant une mutation intelligente de nos habitudes au profit d'une conscience solidaire et
responsable entre gnrations.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 32 / 43
FRANSCRIPTOR
Franscriptor est un outil communautaire pour la transcription, la correction, la
traduction, l'indexation et la modernisation de textes anciens.

Le principe du site Franscriptor est le dpt d'ouvrages au format numrique pour


mutualiser leurs transcription, leurs correction suite une transcription ou une
ocrisation, leurs traduction, l'indexation du texte (l'extraction des titres par exemple),
ou la modernisation du texte (sa dissimilation et(ou) son dtildage).

Dissimillation :

Anglais ancien : paticular devient en anglais moderne particular


Franais ancien : nevf devient en franais moderne neuf

Dtildage :

Franais ancien : hme devient en franais moderne homme

Grce Franscriptor et la participation des milliers de transcripteurs vous pouvez rcuprer le texte de vos ouvrages qu'il
n'est pas possible d'obtenir automatiquement par les technologies actuelles.

En effet, les logiciels d'OCR ou (ROC) ne sont pas capables de reconnatre toutes les langues et pour les langues qu'ils
peuvent reconnatre, ils commettent des fautes pour des raisons multiples, le texte est manuscrit, la police de caractre ou la
langue ne sont pas reconnues par le logiciel, etc.

Avec Franscriptor vous avez non seulement la possibilit de traiter des textes manuscrits, des langues anciennes, comme par
exemple le latin et le grec, et des textes anciens, comme les textes non dissimils et(ou) tilds que les logiciels d'OCR ne
grent pas mais aussi, vous avez la certitude d'obtenir des textes de qualit, avec aucune ou trs peu de fautes.

Franscriptor vous permet :

Bien sr, l'ajout d'ouvrages au format numrique dans la base de donnes.

La mutualisation de la transcription de textes d'ouvrages anciens :

Crez vous propres quipes de transcription ou donnez un accs libre aux transcripteurs du monde entier pour le traitement
de vos ouvrages.

Le partage de la transcription des ouvrages avec une quipe :

Durant l'ajout de votre ouvrage dans Franscriptor, vous avez la possibilit de dclarer la liste de transcripteurs qui ont accs
au traitement de l'ouvrage. Uniquement eux auront accs la dernire tape du traitement de l'ouvrage, c'est dire, la
transcription du texte et aux images en haute dfinition.

Payer pour une transcription ou demander pour une transcription bnvole :

Vous pouvez inciter les transcripteurs travailler sur votre ouvrage en payant la transcription ou vous pouvez demander une
transcription gratuite, par exemple, cela peut tre demand par un professeur comme un exercice de classe pour l'tude d'un
texte mdival.

Obtenir les textes au format TXT (UTF-8).

Obtenir les textes au format XML/TEI.

La cration de dictionnaires par langue et par poque partir des textes retranscrits :

Par exemple, dictionnaires mdivaux de langue franaise, espagnole ou anglaise.


Ces mmes dictionnaires sont utiliss par la suite pour l'aide la saisie et pour la correction d'autres transcriptions ou
d'autres textes.

L'assistance la saisie de texte (fonctionnalit bientt disponible).

Aide la correction de textes ou correction automatique de textes (fonctionnalit bientt disponible).

et beaucoup plus

http://www.franscriptor.com
Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4
Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 33 / 43
Rfrences
Universit Paris VII Diderot

Numrisation des papiers prparatoire de Jules Michelet sur la rvolution franaise.

Maison des sciences de l'homme Val de Loire

Numrisation de thses d'tudiants, ocrisation, indexation, gestion des mtadonnes et


cration de documents PDF.

Archives municipales de Tours

Numrisation de registres de dlibrations, nomenclature, gestion des mtadonnes et cration


de documents PDF par sance.

Mairie de Tours

Numrisation de photographies pour reproduction, nomenclature, gestion des mtadonnes.

Courrier de l'ouest

Numrisation de Unes des journaux pour l'dition d'un ouvrage.

Archives dpartementales de l'Indre-et-Loire

Numrisation de cartes postales, indexation, nomenclature et gestion des mtadonnes.

Archives municipales de Tours

Numrisation de documents patrimoniaux de la 2me guerre mondiale appartenant aux


occupants allemands et la rsistance, nomenclature et gestion des mtadonnes.

Archives dpartementales de la Haute-Sane

Numrisation de plans d'coles, nomenclature et gestion des mtadonnes.

Maison Rochas

Numrisation du fonds patrimonial de la maison de luxe parisienne pour la cration d'une


fondation/muse. Numrisation d'ouvrages, photographies, diapositives, films, planches,
affiches, publicits, etc.

Mdiathque de Dole

Numrisation et indexation des fonds Louis Pasteur du legs Vallery-Radot.

Numrisation et indexation de cartes postales du fonds Velin.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 34 / 43
Mdiathque de Dole

Numrisation de manuscrits patrimoniaux prcieux mdivaux et arabes.

Photographies, diapositives et films

Numrisation de photographies, diapositives et films pour diverses socits prives.

Service Hydrographique et Ocanographique de la Marine (SHOM)

Numrisation d'ouvrages maritimes patrimoniaux. Cration d'une base de


donnes SQL pour la gestion des mtadonnes. March jusqu' dcembre
2013.

Institut de recherche et d'histoire des textes (I.R.H.T. / C.N.R.S.)

Numrisation et ocrisation de 35000 documents (Regestes). Gestion des mtadonnes IPTC.

Bibliothque Universitaire de mdecine de Tours

Numrisation de la revue La Gazette mdicale du Centre . Enregistrement de


mtadonnes IPTC sur l'ensemble des images. Ocrisation de la gazette au format
PDF.

Maison des Sciences de l'homme (C.N.R.S.)

Numrisation et ocrisation de documents de recherche et inscription de mtadonnes pour


leurs indexation dans des bases de donnes.

Mdiathque de Dole

Numrisation de manuscrits et cration d'un FlipBook partir des images


numriques des ouvrages. Fourniture d'un borne interactive (avec cran tactile)
pour l'exploitation interactive de ces prcieux ouvrages patrimoniaux.

La Lithographie

Numrisation de planches pour la reproduction de l'ouvrage La Normandie


Illustre . Numrisation et ocrisation de texte pour la reproduction.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 35 / 43
Collection prive

Numrisation et ocrisation d'une encyclopdie de papillons de 20 volumes du


XIXme, 10000 planches en haute rsolution et 12000 pages de texte. Correction
de l'OCR et indexation de tous les sommaires et tous les index des ouvrages.

Bibliothque Universitaire de mdecine de Tours

Numrisation de photographies et de courrier personnel de Pierre Bretonneau.


Tatouage des photographies avec le logo de l'Universit. Enregistrement de
mtadonnes IPTC sur l'ensemble des images.

Mdiathque de Dole

Numrisation et indexation des fonds Louis Pasteur du legs Vallery-Radot,


photographies personnelles, courriers et documents personnels (Tranche 1).

Bibliothque de Troyes

Numrisation de livres anciens (Incunables du XVme sicle) pour la Communaut


de l'agglomration Troyenne. Indexation des mmes ouvrages avec extraction de
donnes en latin (titres des chapitres et annotations).

Chanel conservatoire

Numrisation, ocrisation et mise en page d'ouvrages pour la Bibliothque du Conservatoire de


la maison Chanel (ouvrages relatant la vie de Coco Chanel ou lui ayant appartenus).

Acadmie Francis Poulenc

Numrisation de partitions de musique anciennes. Cration d'une copie de


conservation en format JPG, de vignettes des images JPG en format BMP et d'une
copie en format PDF pour son exploitation sur Internet.

Viaticum

Numrisation, ocrisation et correction de l'OCR d'ouvrages anciens de gographie et voyages.

Mdiathque de La Riche

Numrisation et ocrisation de journaux libres. Cration d'une copie de conservation en TIF et


d'une copie en PDF pour son exploitation sur Internet.

Magnum Photos

Numrisation et ocrisation des documents personnels d'un des co-fondateurs de l'agence


Magnum Photos : John Morris. Entre autres, photos personnelles et courrier personnel chang
avec Robert Capa.
Numrisation de photos de l'agence.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 36 / 43
Autres

Numrisation, ocrisation, correction de l'OCR, indexation et transcription d'ouvrages et de


documents pour plusieurs maisons d'dition et socits prives.

Numrisation de photographies et de diapositives pour plusieurs particuliers et socits


prives.

Centre d'tudes Suprieures de la Renaissance (C.E.S.R.)

Ralisation de deux campagnes d'indexation de 60000 pages d'ouvrages du XVIe sicle


chacune. En collaboration avec l'association Re-Transcripro.

Mise en place, hbergement et maintenance d'un serveur de donnes sous Linux.


Installation et administration d'un serveur Subversion (SVN) pour la gestion des donnes des
ouvrages (Images et textes), et d'un serveur FTP pour la sauvegarde des ouvrages numriss.

Partenaire de la socit DIGISCRIB pour le dveloppement d'un progiciel d'encodage de


texte en XML/TEI.

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 37 / 43
Partenaires

Re-Transcripro

RE-Transcripro est une association spcialise dans la transcription et la


correction de textes anciens.
Dans le but de garantir la conversion du texte des ouvrages des taux proches
de 100%, des taux impossibles atteindre avec les logiciels de reconnaissance
optique de caractres (OCR), la socit DIGISCRIB s'est associe une
association de transcription et de correction de textes anciens.

Transcription de textes anciens et contemporains.

Correction de textes anciens et contemporains.

Correction d'OCR, optimisation du taux de reconnaissance optique de caractres, ramenant


le taux de reconnaissance d'un logiciel OCR 99,95%.

Centre d'Etudes Suprieures de la Renaissance (CESR)

Obtention d'une bourse Google en partenariat avec le CESR de Tours, pour le


dveloppement d'un outil de dissimilation et de dtildage de textes anciens
(modernisation de textes anciens).

Collaboration (partenariat) entre le CESR de Tours et la socit DIGISCRIB pour le


dveloppement d'une solution d'encodage de textes en XML/TEI, progiciel EditTEI

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 38 / 43
DIGISCRIB, le CESR et Google

Aprs deux ans de travail en partenariat avec le Centre d'tudes Suprieures de la Renaissance pour le
traitement et l'encodage de texte anciens, la socit DIGISCRIB a t rcompense par une bourse
Google.
En effet, la socit DIGISCRIB dveloppe, en collaboration avec le CESR de Tours, un progiciel
d'encodage de textes en XML/TEI. Ce progiciel comporte entre autres deux modules, l'un de
dissimilation et l'autre de dtildage de textes. Ces modules sont utiliss afin de moderniser des textes
anciens. Le premier, Dissimilation , applique les rgles grammaticales modernes (Ex : vn = un). Le
deuxime remplace les lettres tildes par les lettres non tildes en application aussi des rgles
grammaticales modernes (Ex : hme = homme).

Article paru dans La Nouvelle RpubliqueCentre le 12/01/11

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 39 / 43
Articles de presse

Article paru dans


La Nouvelle RpubliqueCentre
en aot 2008

Article paru sur le site de


Livre au centre
en mai 2008

Article paru dans :


L'innovation en rgion Centre
en novembre 2011

Article paru dans le


magazine de la
chambre de
commerce et
d'industrie de l'Indre-
et-Loire : Touraine
Eco en mars 2012

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 40 / 43
OS 12000 C

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 41 / 43
OS 10000 C

Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4


Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 42 / 43
Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4
Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 43 / 43