You are on page 1of 4

Kulturaren Euskal Behatokia - Observatorio Vasco de la Cultura 1

Qu es el OCR?
El OCR (Optcal Character Recogniton) es una tecnologa que trata de emular la capacidad del ojo humano
para reconocer objetos. Concretamente es un sofware que permite el reconocimiento ptco de los caracteres
contenidos en una imagen (documento escaneado o fotografa), de forma que estos se vuelven comprensibles
o reconocibles para un ordenador, obteniendo como resultado fnal un archivo en un formato de texto
editable. El formato del archivo de salida (txt, pdf, etc.) depender de las posibilidades que ofrezca el sofware.

Cmo funciona el OCR?
Para reconocer los caracteres, el sofware inspecciona la imagen pixel
1
a pixel, buscando formas que coincidan con
los rasgos de los caracteres. En funcin del nivel de complejidad o grado de desarrollo del sofware, ste buscar
coincidencias con los caracteres y fuentes disponibles en el programa, o tratar de identfcar los caracteres a travs
del anlisis de sus caracterstcas, de forma que el reconocimiento de los mismos no se limite exclusivamente a un
determinado nmero de fuentes.
El OCR puede analizar los elementos del documento (bloques de texto, imgenes, tablas), examinando los espacios
en blanco y descomponiendo el texto en lneas, palabras y caracteres, de forma que el programa puede formular
distntas hiptesis y cotejarlas con los diccionarios contenidos por el mismo (actualmente los programas contenen
diccionarios en distntos idiomas), para formar palabras y textos completos.
Aunque actualmente el OCR puede llegar a mantener la estructura de los documentos originales en el archivo de salida,
e incluso reconocer caracteres contenidos en documentos manuscritos, diagramas, partturas, etc., no hay que olvidar
que su nivel de efectvidad sigue siendo limitado, lo que hace necesaria una posterior revisin y correccin manual
del texto generado. Actualmente existe en el mercado una amplia oferta de sofware OCR, cuyo nivel de sofstcacin
y precio est directamente relacionado con su precisin y efectvidad en el reconocimiento de caracteres.
1 Unidad menor o elemento ms pequeo que forma parte de una imagen digital.
KULTURA 2.0 - Pldoras de formacin:
OCR: tecnologa para el reconocimiento ptco de caracteres en una imagen
abril 2011
Desarrollada en el marco de la iniciatva kultura 2.0, el Observatorio Vasco de la Cultura ha puesto en marcha la
elaboracin y difusin de kultura 2.0. pldoras de formacin, cuyo objetvo es dar una respuesta concreta a demandas
de las empresas y profesionales del sector de la cultura en la CAE.
Kulturaren Euskal Behatokia - Observatorio Vasco de la Cultura 2
Para qu se utliza el OCR?
El OCR es una tecnologa transversal, aplicable en distntos mbitos y sectores para la digitalizacin de formularios,
documentos administratvos, informes, etc., ya que las ventajas que ofrece son comunes para todos ellos.
En el sector de la cultura, por ejemplo en el mbito de la preservacin del patrimonio, el OCR se aplica
principalmente en los procesos de digitalizacin de documentos histricos, en soporte papel o microformas.
La tpologa de documentos sobre los que se recomienda aplicar el OCR es diversa. Identfcamos a contnuacin
algunas posibilidades extradas del documento Proceso de Digitalizacin en la Biblioteca Nacional de
Espaa:
Buenas prctcas PROYECTO IMPACT
A raz de los problemas detectados en los proyectos de digitalizacin
surgidos alrededor de la iniciatva europea i2010, se ha puesto en marcha el
proyecto IMPACT, en el que partcipan 11 bibliotecas nacionales y regionales,
13 entdades de investgacin y 2 empresas. Todas ellas comparten su
conocimiento con el objetvo de desarrollar una tecnologa OCR que ayude a
mejorar los procesos y resolver los problemas de los proyectos de digitalizacin
masiva, facilitando la plena integracin de los contenidos digitalizados en las
nuevas tecnologas de la informacin y comunicacin.
Qu ventajas puede tener la aplicacin del OCR?
Bsqueda y recuperacin de documentos
1. La aplicacin del OCR permite realizar bsquedas de texto libre sobre la totalidad del documento.
2. En el proceso de creacin de los metadatos, el OCR se puede utilizar para generar ndices de palabras
clave del texto reconocido de forma automtica.
Explotacin de los documentos
3. El OCR permite convertir el texto de los documentos digitalizados a formatos editables.
4. Aunque el OCR no es una herramienta para hacer los documentos accesibles para personas con
discapacidades visuales, su aplicacin combinada con otras tecnologas permite que el texto resultante
se sintetice en lneas de braille o archivos de audio.
Tipo de documento Archivo de preservacin Archivo de difusin
Texto impreso X X
(texto impreso sin imgenes)
Prensa X X
Pginas mecanografadas X X
Panfetos X X
Partturas impresas X
Kulturaren Euskal Behatokia - Observatorio Vasco de la Cultura 3
Perspectva econmica
5. Ahorro de tiempo respecto a la insercin manual de datos (el OCR puede alcanzar una velocidad de
lectura de hasta 1.200 caracteres por segundo).
6. El almacenamiento en formato de texto puede suponer un ahorro de espacio respecto del
almacenamiento como imagen (el archivo de texto necesita aproximadamente 1/3 del espacio que
ocupa la imagen).
Cules son los inconvenientes del OCR?
En el marco de la iniciatva i2010 promovida por la Comisin Europea, se han desarrollado numerosos proyectos
de digitalizacin masiva que han puesto de manifesto los siguientes problemas en relacin con el OCR:
1. Carencia de conocimiento y expertos en las instituciones.

2. Elevado coste de generar texto electrnico (no confundir con imagen digital) con todas sus funciones
(este proceso puede realizarse tecleando el texto o a travs de OCR y posterior revisin y correccin
del texto).
3. Nivel de efectividad insatisfactorio del OCR en el reconocimiento de documentos histricos, anteriores
al inicio de la edicin industrial de libros a mediados del siglo XIX.
Respecto al limitado nivel de efectvidad del OCR, adems de la calidad o grado de desarrollo del propio sof-
ware, existen factores extrnsecos asociados al estado fsico del documento original o a la calidad de la imagen
digital, que pueden resultar determinantes en el resultado del proceso:
Factores relatvos al estado del documento original:
Deterioro de los documentos originales
Letra borrosa o poco ntida
Manchas o transparencias en el papel
Letras fragmentadas o solapadas
Tipografas extraas o fuera de uso
Dimensiones del documento original (aunque no afecte directamente a la efectividad del OCR, las
dimensiones del documento original por ejemplo peridicos, puede hacer que resulte complejo
escanearlos en equipos convencionales)
Factores relatvos a la calidad de la imagen digital:
Baja resolucin de la imagen
Incorrecta configuracin del escner
Recomendaciones tcnicas para la aplicacin del OCR
Las recomendaciones tcnicas que hacen las distntas insttuciones implicadas en procesos de digitalizacin en
relacin con el OCR se referen principalmente a la resolucin mnima de la imagen escaneada ya que, como se
ha citado, es un factor determinante para obtener un resultado satsfactorio: a mayor resolucin de escaneo
mayor precisin del OCR.

Kulturaren Euskal Behatokia - Observatorio Vasco de la Cultura 4


Con carcter general, se establece una resolucin mnima de 300 ppp
2
para que el reconocimiento de los
caracteres sea efectvo, aunque dependiendo de las caracterstcas del documento se aconseja una resolucin
mnima superior.
Tipo de documento Resolucin mnima
Textos con tpos de letra claros 300 ppp
Tipos de letra pequea u originales
de poca calidad (prensa) 600 ppp
Qu otros temas sobre kultura 2.0 consideras podramos tratar en prximas pldoras de formacin?
(concretar lo mejor posible)
Envanos tus sugerencias al mail: kulturabehatokia@ej-gv.es
2 Puntos por pulgada.