Welcome to Scribd, the world's digital library. Read, publish, and share books and documents. See more ➡
Download
Standard view
Full view
of .
Add note
Save to My Library
Sync to mobile
Look up keyword
Like this
40Activity
×
0 of .
Results for:
No results containing your search query
P. 1
Cómo Escanear Y Aplicar Ocr A Libros

Cómo Escanear Y Aplicar Ocr A Libros

Ratings:

5.0

(1)
|Views: 17,886|Likes:
Published by Cursos Voz

More info:

Published by: Cursos Voz on Aug 20, 2008
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See More
See less

06/18/2013

pdf

text

original

 
Realizar OCR a libros: Reconstruir desde cero
 
por Mordekainen [Marzo 2002]
Este es un breve manual para realizar OCR a libros con una maquetación/formato razonablementecomplejo y/o imágenes incrustadas. Por favor, ten en cuenta que existen muchas otras técnicas y quelibros más sencillos pueden ser OCR con buenos resultados pasándolos directamente a PDF.Reconstruirlos desde cero es una forma de escanear que consume tiempo (y paciencia). Estas sonalgunas de las cosas que he descubierto y no una biblia que seguir al pie de la letra.Nota Final: Aunque lo presento como pasos a seguir, no es necesario que se sigan en el orden queaparecen. Puedes escanear varias páginas, trabajar con ellas, hacerles OCR y luego escanear máspáginas y repetir el proceso.
SOFTWARE
Hay muchas aplicaciones que hacen lo mismo (o similar) que las aplicaciones a las que me voy a referir.Uso Paint Shop Pro, ReadIris, Microsoft Word y Jaws PDF Producer.Cuando trabajes con imágenes, probablemente trabajarás con JPG. Debes encontrar una tasa decompresión que te dé una buena calidad y el archivo no sea demasiado grande. Suelo preferir mejorcalidad a menor tamaño, pero ten cuidado si tu libro tiene muchas imágenes. Siempre puedes guardarlas imágenes importantes con mejor calidad donde, como se dice en la industria, el arte de rellenopuede sacrificar más en términos de calidad.
ESCANEAR
El consejo principal es encontrar la relación correcta entre brillo y contraste. La única forma de hacerloes mediante pruebas.Lo que quieres es ver la página, sin tener que ajustar la configuración del monitor. También recuerdaque es más fácil de corregir si la imagen tiene más brillo que darle brillo a una imagen oscura.Las cubiertas siempre son en color, así que deberías escanearlas a 150 dpi en color a menos quequieras hacerle OCR a cualquier texto que aparezca en ellas (nombre de autor...). En ese caso,escanéalas a 300 dpi pero en la mayoría de las situaciones con una simple imagen para las cubiertasbasta. No olvides la cubierta trasera. Ya que el escaner proporciona la fuente, querrás alinear el librocorrectamente para evitar la rotación pero lo que debes evitar es inclinar la página (por ejemplo,presionar más al final de la página que en el principio) ya que la rotación se puede arreglar con unprograma de retoque.Ahora, para escanear el libro en sí, examina las páginas. Si ves algún gráfico que se repita en el libroen los márgenes, necesitarás escanear una página (o una par y otra impar) con el propósito de conseguirdichos márgenes. Elige la/s página/s que mejor se adapte. Esto dependerá del libro. En algunos, estaráal principio (o al final), en otros, por la mitad del mismo. Como las cubiertas, evita la rotación y lainclinación: recuerda que estos gráficos se utilizarán en todo el libro, así que deben ser buenos. A 150dpi, está bien.CONSEJO: No olvides los extractos de la web. Normalmente tienen la misma apariencia que el libroy eliminarán parte del trabajo simplemente capturando las imágenes de ahí.No te preocupes del resto de la página, sólo concéntrate en los márgenes. Una vez hecho, abre lasimágenes en Paint Shop Pro y selecciona con cuidado las partes relevantes, guardándolas en archivosdistintos. Si un libro tiene un gráfico que está presente arriba, abajo y al lado del texto, deberíasguardarlo en tres archivos distintos para evitar un tamaño redundante.Con los gráficos (márgenes) repetitivos hechos, escanea el libro. Página a página, si la página sólo tieneimágenes (aparte de los márgenes) deberías escanearlos a 300 dpi (si la imagen está en color, claro)o 300 dpi en escala de grises. Sólo escanea en blanco y negro si la imagen tiene sólo dos colores. Si
 
hay dudas, en escala de grises.Si la página sólo tiene texto (aparte de márgenes, etc), escanea a 300 dpi en escala de grises o 300-600dpi blanco y negro (depende del fondo, fuente... experimenta hasta que encuentres cómo queda mejor).Bien, ahora tienes todas las páginas escaneadas dependiendo de si hay imágenes o no. con esto enmente, carga todas las páginas con imágenes en el PSP y recórtalas con cuidado y guárdalas porseparado. Dependiendo del libro tendrás que reducir el tamaño de la imagen (ver más abajo).OPCIONAL: Ya que tienes los márgenes guardados (¿no?), puedes eliminarlos de todas las páginas.Así consigues que el programa de OCR detecte con facilidad la maquetación de la página.ROTACION/INCLINACION: Si cualquier página está rotada, puedes arreglarlo con PSP. La mayoría delos programas de OCR permiten 4 rotaciones (bastante restringido) pero úsalo si quieres rotar unapágina 0.5 grados para evitar problemas de OCR más tarde (sobre todo si está a dos columnas). Lainclinación o el exceso de presión es más difícil y es mejor reescanear las páginas problemáticas.
REALIZAR OCR
Necesitarás un poco de práctica aquí (para ver si 300 dpi en escala de grises funciona mejor que 600blanco y negro, por ejemplo) para conseguir resultados óptimos. Introduce las páginas en el programa.Si proporciona aprendizaje, ¡USALO! Comprueba que el sistema de autodetección funcionacorrectamente, arreglando los posibles problemas que puedan surgir. Lo que quieres es guardar eltexto/tablas tan cerca del original como sea posible. Exporta el resultado a .TXT.
RECONSTRUIR
La primera consideración es de fuentes. Deberías tener las mismas fuentes (si es posible) o muysimilares. Esto te evitará problemas si quieres que cada página parezca del original.CONSEJO: Si hay extractos en la web que puedas abrir con Acrobat y (si la configuración de seguridadlo permite) usa la herramienta de Retoque de texto para ver qué fuente se ha usado en cada párrafo.Crea un documento de Word (o de cualquier otro). Crea una plantilla para ahorrar tiempo y esfuerzo ytambién para reducir el tamaño final del archivo. La plantilla se compone de una o varias páginas quetendrán los gráficos de los márgenes en su sitio. También puedes poner cuadros de texto con el númerode página para que cambie automáticamente. Sitúa los márgenes tan cerca como puedas del original(utiliza una regla). Si el libro usa diferentes gráficos para los márgenes para las páginas pares e impares,asegúrate de elegir "diferentes en páginas pares e impares" en las opciones de encabezado y pie depágina. Columnas...Ahora, pon el modo de encabezado y pie de página. Inserta las cuadros de texto de los gráficos demargen y cualquier número de página, número de capítulo, etc. De esta forma, cada página utilizaráautomáticamente el mismo gráfico reduciendo el tamaño del archivo y sin que tengas que ponerlos tú.Ahora empieza con el libro. Ten en cuenta dos detalles muy importantes en la apariencia final. Si hayalguna página sin los gráficos repetitivos (las cubiertas, por ejemplo) eligeINSERTAR->ROMPER->ROMPER SECCION. Así tendrás una página nueva sin los mencionadosgráficos.Comienza insertando el texto desde el .TXT en el documento. Mantén el PSP abierto en modoexplorador para que puedas abrir rápidamente cualquier página relevante. Cuando una página tengauna imagen, insértala. Doble click y reduce su tamaño. Asegúrate de que está cerca del 100%. Si laimagen es mayor de lo necesario, ábrela en PSP y redúcela de forma acorde.Maqueta el texto con las fuentes y colores correctos y una separación de líneas similar (en propiedadesde párrafo).CONSEJO: ¡Los estilos de texto son tus amigos! Por ejemplo, si el libro divide el cuerpo de texto porcabeceras usando Verdana a tamaño 16, en rojo y negrita, crea un estilo con estas propiedades paraque en cada encabezado sólo tengas que seleccionar "mi estilo" y ya está.

You're Reading a Free Preview

Download
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->