Professional Documents
Culture Documents
Que exactamente significa OCR? "econocimiento #ptico de $aracteres% o O$"% es una tecnologa que le permite convertir diferentes tipos de documentos% tales como documentos en papel escaneados% &D' archivos o imgenes captadas por una cmara digital en datos con opci(n de b)squeda y funcionalidad de editar. *magina que Ud. tiene documento en papel + por e,emplo% un artculo de revista% un folleto% o un contrato en &D' cual su socio le envi( a Ud. por email. Obviamente% un escner no ser suficiente para hacer as que Ud. pueda editar esa informaci(n% digamos% en -icrosoft .ord. /odo lo que puede hacer un escner es crear una imagen o una instantnea de documento que es nada ms que una colecci(n de puntos negros y blancos o color% conocida como imagen de trama. $on fines de e0traer y reusar los datos de los documentos escaneados% imgenes de cmara o de &D's% necesita un soft!are de O$" que va a separar las letras de la imagen% ponerlas en palabras y despus las palabras en frases% lo que le permite tener acceso y editar el contenido de documento original.
Usar 36677 'ine"eader O$" es fcil: el proceso generalmente consiste de 2 etapas: 3brir (;can el documento% "econocerlo y despus <uardar en un formato conveniente (DO$% "/'% =1;% &D'% >/-1% /=/ etc. o e0portar los datos directamente a una de las aplicaciones de Office tales como -icrosoft .ord% 50cel o 3dobe 3crobat. 3dems% la ultima versi(n de 36677 'ine"eader soporta el modo de /areas 3utomticas que es esencial cuando Ud. hace tareas de rutina regularmente. $on esta funci(n% las areas de reconocimiento lanzan automticamente sin tener que e,ecutar manualmente todos los pasos mencionados anteriormente. /odo el proceso de conversi(n de los datos de documento en papel original% imagen o &D' le lleva menos de un minuto% y despus el documento reconocido finalmente se ve igual que el original?
$%
OCR&
Q'$
$"
)ARA
Q'$
"$
)'$*$
'+,%,-AR.
5l OCR (Optical character recognition es un soft!are de reconocimiento de te0to que saca de una imagen el te0to que contiene y lo transforma en cadenas de caracteres para guardarlos en un formato que se pueda utilizar en programas de edici(n de te0to. $uando tenemos una imagen (ya sea una fotografa o un documento que hayamos escaneado % el te0to que contiene forma parte de esa imagen% al igual que cualquier elemento de la misma (un dibu,o o un esquema% por e,emplo . &ues bien% si necesitamos e0traer ese te0to para poder editarlo% necesitamos un programa de O$" que reconozca dicho te0to y lo transforme en una cadena de caracteres (ya sea 3;$** o Unicode y posteriormente copiar esta cadena a un programa de edici(n para ya poder traba,ar con ella% con el consiguiente ahorro de tiempo al no tener que teclear este te0to. 6sicamente% el sistema que utilizan es el siguiente: 5l sistema usado hasta no hace mucho consista en que el O$" aislaba la imagen correspondiente a un carcter y la comparaba con una base de caracteres para determinar su correspondiente c(digo 3;$** o bien Unicode. Una vez reconocido lo transformaba y lo trasladaba al documento O$" resultante. 5ste sistema tena el inconveniente de que traba,aba con un n)mero limitado de fuentes% por lo que el resultado obtenido no siempre era el deseado. 3dems% en te0tos muy largos y con inclusi(n de frases en cursiva% por e,emplo% el proceso era bastante lento. 1os programas actuales de O$" estn basados en el anlisis de caractersticas de los caracteres en vez de en la coincidencia de las matrices de estos% lo que permite una mayor velocidad en el proceso y el no tener que depender de una limitada base de fuentes. >ay en el mercado bastantes programas de O$"% entre los que cabe destacar los conocidos Omni&age% 3bbyy 'ine "eader o "53Diris. 8ersiones reducidas de estos programas suelen contarse entre el soft!are incluido en los escneres. $abe destacar entre ellos el Omni&age &rofessional por su amplia variedad de opciones y su buena presentaci(n y funcionamiento. 5stos programas son de especial utilidad cuando necesitamos hacer referencia a te0tos en un escrito (copiar literalmente un te0to dentro de otro % como puede ser el caso de redacci(n de informes o referencias bibliogrficas.
/ambin pueden ser utilizados en el mundo de la m)sica% ya que la mayora de ellos tienen tambin capacidad de leer partituras musicales. 3ctualmente estos programas son capaces de reconocer no solo el te0to en s% sino tambin el estilo y formato de este% aunque dentro de unas limitaciones% haciendo necesario que posteriormente editemos el te0to resultante y revisemos estos dos parmetros. 3hora bien% lo que s que tenemos que tener muy claro es que estos programas no hacen milagros. &ara su correcto funcionamiento es necesario que la imagen de donde provenga dicho te0to est en las me,ores condiciones posibles para que pueda reconocer correctamente los caracteres. >ay que tener en cuenta que factores tales como un te0to borroso (aunque sea solo ligeramente % papel manchado o demasiado fino% arrugas o ara9azos en el documento% falta de una parte de una letra% cualquier tipo de transparencia en el papel% etc. van a dificultar el correcto reconocimiento de este te0to. 5l promedio de efectividad de los programas O$"% en perfectas condiciones% ronda el @AB% disminuyendo de forma ostensible al disminuir la calidad del original. 3 esto hay que a9adir una correcta configuraci(n del escner tanto en su resoluci(n como en su brillo y en la limpieza de la lente y cristal. Uno de los requisitos bsicos para que un programa O$" funcione correctamente es que necesita una imagen de gran calidad. 5s cierto que tambin pueden reconocer te0tos escritos manualmente% pero en este caso siempre a condici(n de que estn escritos claramente% a ser posible con letra de molde% y que esta se aseme,e lo ms posible a un tipo de letra e0istente.
(Optical character recognition). Tipo de software que se encarga de reconocimiento ptico decaracteres. Se encarga de extraer de una imagen los caracteres de un texto y los guarda en un formatoque pueda editarse como texto. Sirve para, por e emplo, guardar en forma de texto im!genesescaneadas de un li"ro sin pasarlo a mano, o sea, tipear caracter por caracter en un editor de texto. #os softwares son relativamente fia"les aunque suelen fallar si las im!genes o las letras no son claras. $s un tipo de reconocimiento como lo son el reconocimiento de vo%, el reconocimiento de marcas (O&'), reconocimiento de escritura, etc.
Qu es un software OCR?
() de mar%o de *)+* ( Ricardo R )
inShare++
Se conoce como software OCR o simplemente OCR a toda herramienta o programa de computacin que permita reali%ar un reconocimiento ptico de caracteres (por sus siglas en ingl,s, Optical Character Recognition) y que normalmente se utili%a en las agencias de traduccin para la conversin de archivos -./ que provienen de diferentes or0genes. $sta es la herramienta ideal para convertir archivos de 1do"e 2n.esign, 3uar4, 1do"e 2llustrator, u otros formatos com5nmente utili%ados en el !rea de dise6o. 7ormalmente, los traductores no est!n muy familiari%ados con este tipo de herramientas, pero s0 lo est!n los Project Managers de las agencias, ya que son las personas que ha"itualmente est!n a cargo de la conversin de los archivos y su posterior an!lisis del conteo de pala"ras. 8n O9' es la herramienta mediante la cual un documento -./, normalmente no edita"le, se convierte en un archivo :ord edita"le que a posteriori se puede utili%ar para traducir. .ependiendo del tipo de archivo, un -& sa"e qu, tipo de O9' utili%ar. -or e emplo, el Abby Reader es una herramienta que funciona perfectamente con -./s no edita"les, como por e emplo archivos
escaneados de mediana calidad (cuidado con los escaneados de mala calidad, estos suelen ser un pro"lema siempre), archivos con im!genes o documentos que no tienen un origen espec0fico. $l Abby Reader,entonces, ;reconoce pticamente< este archivo no edita"le y lo transforma en un documento :ord edita"le. -ara convertir un -./ edita"le, en cam"io, (por e emplo, un -./ cuyo archivo de origen es un documento &s :ord, pero del cual no tenemos ese documento y a5n as0 lo tenemos que convertir para tra"a ar), la me or herramienta para utili%ar en este caso es el Solid Converter. 1tencin= todo esto parece ser muy f!cil a simple vista, pero siempre existe la posi"ilidad de optimi%ar el uso de estas herramientas. -or e emplo, un archivoescaneado y procesado con 1""y no siempre suele convertirse a la perfeccin= es pro"a"le que el archivo tenga ta"las o columnas que hagan que la conversin sea dif0cil. Otro caso es el de los enca"e%ados y pies de p!gina de un documento :ord. $stos pueden traer pro"lemas al momento de convertir un archivo. -ara estos casos, siempre existen configuraciones que se pueden a ustar en las opciones de estos programas O9' antes de utili%arlos. Se recomienda la consulta de alg5n tutorial o ayuda en l0nea por 2nternet para poder conocer me or cmo tra"a ar con estas herramientas. $tiquetas= 1""y, convertido, coti%acin, escaneado, 2nternet $sta entrada se pu"lic , el >iernes, () de mar%o de *)+* a las ++=+) horas y est! guardada "a o 9ostos de Traduccin, -ara 9ompradores de Traduccin. -uedes seguir cualquier respuesta a esta entrada mediante el canal 'SS *.). -uedes de ar un comentario o enviar un trac4"ac4 desde tu propio sitio. * comentarios para ;?3u, es un software O9'@< +. What Is an OCR Software dice= A de a"ril de *)+* a las +B=(A C...D (>ersin en espa6ol= http=EE"logFdeFtraduccion.trustedtranslations.comEqueFesFunFsoftwareFocrF*)+*F )(F().html) C...D 'esponder *. !C"#o calc$lar las palabras de doc$#entos co#plejos dice= *A de noviem"re de *)+( a las +)=+G CHD este tipo de documentos (que suelen guardarse con la extensin .pdf o . pg) es procesarlos con un software de reconocimiento de textos (O9'). $sto nos permitir! a"rir la conversin del documento en :ord, por e emplo, y tratarla m!s o CHD