You are on page 1of 10

Administracin de bases de datos

Rodrguez Ramirez Miguel ngel


Secuencias de escape
Sinopsis
Como se indic al tratar del cdigo ASCII, existen 33 de estos caracteres que
no tienen representacin grfica; son los denominados caracteres de
control. Con el fin de poder representarlos en el cdigo fuente, se recurri al
artificio de representarlos utilizando una barra invertida (\) seguida de otra
serie de caracteres.
Las secuencias de caracteres en las que el primero es la barra invertida, se
denominaron secuencias de escape y aunque originariamente se utilizaron
para la representacin de los caracteres de control, por extensin pueden
representarse de este modo todos los cdigos ASCII. Adems se dispone de
algunos smbolos predefinidos para los caracteres ms frecuentes. Por
ejemplo,\n se utiliza para representar el carcter nueva lnea (decimal 10). Los
smbolos utilizados se muestran en la tabla adjunta.
Secuencia

Valor

Smbolo

Descripcin

\a

0x07

BEL

Sonido audible (bell)

\b

0x08

BS

Retroceso (backspace)

\f

0x0C

FF

Salto de formato (formfeed)

\n

0x0A

LF

Saltar una lnea (linefeed)

\r

0x0D

CR

Retorno de carro (carriage return)

\t

0x09

HT

Tabulacin horizontal (H Tab)

\v

0x0B

VT

Tabulacin vertical (V Tab)

\\

0x5c

Barra invertida (backslash) [2]

\'

0x27

'

Apstrofo (comilla simple)

\"

0x22

"

Doble comilla

\?

0x3F

Interrogacin

\O

cualquiera cualquiera

O = cadena de hasta tres dgitos octales

\xH

cualquiera cualquiera

H = cadena de dgitos hexadecimales

\XH

cualquiera cualquiera

H = cadena de dgitos hexadecimales

Ejemplo
char campana = '\a';

// carcter ASCII 7

cout << campana << endl; // genera un sonido audible

Administracin de bases de datos


Rodrguez Ramirez Miguel ngel
La barra invertida ( \ ) se utiliza junto con nmeros octales o
hexadecimales para
representar
smbolos
ASCII,
incluyendo
los
denominados caracteres de control (tambin llamados caracteres no
imprimibles) que no tienen representacin directa en ningn carcter.
En una secuencia de escape se pueden utilizar hasta tres caracteres en octal o
cualquier nmero de caracteres en hexadecimal. Siempre que los valores estn
dentro del rango legal para el tipo char (de 0 a 0xff para C++Builder).
-

Octal

Rango: \0 a \377
Ejemplos:
\0

Carcter nulo (fin de cadena)

\03

Ctr-C

\07

Bell

\013

Vertical TAB

\077

Hexadecimal

Rango \x00 a \xFF


Ejemplos:
\0

Carcter nulo (fin de cadena)

\x3

Ctr-C

\x7

Bell

\xB

Vertical TAB

\x3F

Los nmeros mayores que los indicados generan un error de


compilacin: Numeric constant too large. Por ejemplo, el octal \777 es mayor
que el mximo permitido (\377), por lo que producira un error. El primer
carcter no octal o no hexadecimal que se encuentre en una secuencia octal o
hexadecimal respectivamente, seala el final de la secuencia de escape. Por
ejemplo:
printf("\x072.1Un Sistema Operativo");

Administracin de bases de datos


Rodrguez Ramirez Miguel ngel
La sentencia anterior debera ser interpretada como el hexadecimal \x07 (BEL)
y 2.1 Un Sistema Operativo, aunque quizs el compilador lo interprete como
hexadecimal \x072 (el carcter "r") y la cadena literal .1Un sistema Operativo.
Para evitar este tipo de ambigedades debe escribirse:
printf("\x07" "2.1Un Sistema Operativo");
Tambin pueden darse ambigedades si una secuencia de escape en octal es
seguida por un nmero no octal. Por ejemplo, dado que los dgitos 8 y 9 no son
octales vlidos, la constante \258 puede ser interpretada como una constante
de dos caracteres \25(Ctrl-U) y un 8.
-

Trigrafos

Con la extensin de la informtica a pases distintos del mbito anglosajn, se


presentaba con frecuencia el problema de tener que escribir determinados
caracteres del lenguaje C++ (Us-ASCII) que no estaban presentes en
determinados teclados. Por ejemplo, en la mayora de teclados en Espaol, no
existe la tilde ~ como un carcter independiente, lo que no es inconveniente
para la escritura normal, ya que la nica ocurrencia en este signo en Espaol
es en la letra ee "" que s dispone de su correspondiente tecla. Pero la
referida ausencia de la tilde como smbolo independiente, resulta una molestia
para los programadores, ya que el fuente requiere en ocasiones incluir dicho
smbolo. Para resolver el problema se adopt el convenio que estos caracteres
conflictivos podan representarse en el cdigo fuente mediante parejas y ternas
de caracteres, los denominados dgrafos y trgrafos, que se muestran en la
tabla adjunta.
Trgrafo Carcter Dgrafo
??=

%:

??(

<:

??)

:>

??/

??'

??<

<%

??>

%>

??!

??-

Nota: la interpretacin de estos trgrafos retarda considerablemente la accin


del compilador, por lo que Borland C++ incluye un traductor especfico, el
programa trigraph.exe, que puede traducir el cdigo fuente antes de la
compilacin.

Administracin de bases de datos


Rodrguez Ramirez Miguel ngel

Formatos de archivos de texto


Existen una gran variedad de formatos para crear archivos textuales, todo
depende del software utilizado. Algunas aplicaciones slo permiten almacenar
texto simple, pero otros procesadores de texto se han convertido en
herramientas muy complejas que permiten una gran variedad de formatos para
crear archivos de texto y que ofrecen tambin la posibilidad de convertir unos
formatos a otros. Algunos de estos formatos son de simple almacenamiento del
texto (txt), otros permiten establecer la tipografa, estilos y apariencia de
prrafos, pginas, etc. (doc), otros inciden en la forma o formato de impresin
utilizando un sistema de marcadores que permite definir el contenido de las
pginas con independencia del dispositivo de salida utilizado (PostScript) y
algunos aseguran la integridad del contenido y la presentacin del documento
tal y como ha sido guardado (PDF o formatos de documentos portables).
Incluso hay softwares especficos que sirven para la edicin y maquetacin de
documentos largos y complejos.

Formatos de texto:
-

Archivos de texto sin formato (ASCII) (txt, HTM, HTML)


Documentos con formato:
o Formatos de documento tipo .doc elaborados con un procesador
de textos
o Formatos de descripcin de pgina
PostScrip (PS, EPS)
Portable Document Format (PDF)
o Formatos que contienen disposicin y contenido:
ODA
RTF
TeX
Documentos con informacin estructurada
o Lenguajes de marcas: SGML, HTML, XML, etc.
Documentos con informacin sobre el contenido:
o Metadatos, Dublin Core, TEI , RDF...

Archivos de texto sin formato:


Como hemos afirmado anteriormente, todos los formatos de archivo utilizados
en Internet pueden ser divididos en 2 tipos: formato ASCII y formato binario.
Pues bien, uno de los formatos de almacenamiento de textos ms antiguos es

Administracin de bases de datos


Rodrguez Ramirez Miguel ngel
la norma ASCII, una forma de codificar un alfabeto que consta de 128
caracteres o smbolos.
ASCII
El cdigo ASCII (The American Standard Code for Information Interchange o
Cdigo estndar Estadounidense para el Intercambio de Informacin) es un
formato de almacenamiento general que guarda los datos mediante texto
simple. Por ejemplo, en cdigo ASCII, el smbolo @ es la combinacin de las
teclas ALT y el Nmero 64. En la Web existen algunas pginas que muestran la
tabla completa de los caracteres del cdigo ASCII. La principal ventaja de
utilizar cdigo plano es que puede ser ledo por cualquier tipo de ordenador y
por cualquier sistema sin necesidad de utilizar de utilizar programas
especficos.

Archivos de texto plano ASCII son los archivos HTM y HTML en los que estn
escritos los documentos de la Web y que contienen informacin estructurada.
Este tipo de archivos requieren un navegador web para poder visualizar la
informacin. Con el tiempo y, en la prctica, aunque se limitan a describir la
estructura y el contenido del documento y no el formato de la pgina y su
apariencia, los archivos HTML se han convertido tambin en formatos de
presentacin.

Tambin son archivos de texto plano ASCII los documentos txt. Estos
documentos pueden ser visualizados con cualquier procesador de textos
complejo (tipo Word) o con un sencillo editor de textos (Bloc de Notas),
podemos convertir en texto plano codificado en simple ASCII.

El desarrollo de las escrituras digitales alfabticas hizo que del cdigo de 128
caracteres se pasara a 256 caracteres y otros cdigos ASCII ampliados. De esta
forma, la ISO cre una norma llamada Unicode y basada en un estndar de un
juego de caracteres ms amplio que sirviera para diferentes lenguas y
escrituras. Se trata de la norma ISO 10646, equivalente al estndar UNICODE.

Documentos con formato


Formatos de documentos tipo .doc elaborados con un procesador de textos
Se trata de formatos para PCs, comunes para archivos de textos formateados
en algn procesador o editor de texto que admita formato, talesestilos en un
procesador de textos como Microsoft Word o Corel Word Perfect. Estos formatos
de escritura utilizan el cdigo ASCII, aunque ocasionalmente pueden

Administracin de bases de datos


Rodrguez Ramirez Miguel ngel
encontrarse archivos con esta extensin que no sean documentos de texto. En
la actualidad, la mayor parte de los procesadores de texto no slo incluyen
muchas opciones y caractersticas enfocadas al tratamiento tipogrfico y el
diseo textual, como tipos de letra, estilos, listas numeradas, disposicin del
texto en columnas, tablas, etc, sino que tambin permiten la inclusin de
imgenes, listas con vietas, marcadores, grficos, objetos de audio, vdeo,
etc, por lo que los documentos compuestos nicamente por texto son cada vez
ms escasos, ya que se suelen combinar varias morfologas dentro del mismo
documento. Muchos procesadores de texto tienen licencia de uso, pero existen
otros muchos que se pueden descargar de la red y son de uso libre y gratuito,
como Abyword, Tiny Easy Word, Crypt Edit, etc. Adems de los editores de
texto, existen programas que tratan de forma ms sofisticada el texto y que
sirven para la autoedicin y maquetacin de documentos, tales como
QuarkXpress, Microsoft Publisher, Corel Ventura, Adobe InDesign, etc.

Formatos de descripcin de pgina


Hay formatos de documento que procuran conservar la imagen de una pgina
entera impresa. La pgina puede almacenarse usando un lenguaje de
descripcin de pgina (PDL) donde se almacenan juntos texto y grficos con
informacin de salida como disposicin, fuente, estilo de lnea, etc. Esto
significa que se almacena ms informacin dentro del formato de trama. Los
PDLs se disean para presentacin de formateados completos, y en los
dispositivos de salida se imprime la forma final de las imgenes de pgina (norevisables). 'El papel virtual ' es una buena metfora para los PDLs. La mayor
parte de PDLS se orientan hacia la presentacin de pginas sobre impresoras
lser.

PostScript (PS, EPS)


Un archivo PostScript es un archivo de tipo ASCII que, aunque tcnicamente es
un archivo de texto plano, es ilegible excepto para una impresora Postcript o
para un visualizador (tipo Ghostscript).
PostScript es un lenguaje de descripcin de pgina o Page Description
Language (PDL) que en su versin comercial fue diseado por Adobe Systems
Inc en 1985 y que ha tenido mucha influencia en el aspecto final del Lenguaje
de Descripcin de Pgina Estandarizado, ya que existe un estndar de ISO, el
SPDL. El desarrollo del lenguaje PostScript tena como objetivo representar el
texto y las imgenes de igual forma en el papel que sobre la pantalla, esto es,
respetar el contenido con independencia del dispositivo de salida utilizado.

Comparado con otros formatos ms orientados a objetos grficos, un archivo


grfico PostScript es muy difcil de modificar y resulta poco prctico corregir un

Administracin de bases de datos


Rodrguez Ramirez Miguel ngel
documento de este tipo. Aunque independiente del dispositivo, la imagen
PostScript es un modelo que exige dispositivos de trama para su presentacin,
por lo que precisa mucha memoria. PostScritp presenta muchas ventajas para
la salida del color de alta resolucin. Se afirma que es tan bueno como una
copia impresa en papel y que ofrece una gran flexibilidad para el cambio de
escala y tamao sin prdida de informacin.

El PostScript encapsulado o Encapsulated PostScript (EPS) es un subconjunto


de PostScript que permite almacenar informacin en lenguaje PostScript, pero
excluye el tamao o la informacin sobre la colocacin. Esto significa que una
parte de una pgina puede introducirse en otro documento. Con frecuencia se
usa para la inclusin de grficos dentro de documentos donde stos han sido
producidos por un paquete diferente al que se usa para producir el texto.

Existen varios nivel PostScript. El Nivel 2 es muy til para pginas de alta
calidad cuyo fin es la impresin, aunque la equivalencia total no puede
garantizarse debido a la impresora utilizada. El formato que s garantiza la
fidelidad de la pgina es PDF.
Portable Document Format (PDF)
Portable Document Format o formato de Documento Portable. Se trata de un
formato propietario desarrollado por Adobe Systems Inc. que permite que los
documentos formateados (que contienen diseo grfico) sean transferidos por
Internet y se visualicen de la misma manera en cualquier ordenador y sistema.
Se trata de un tipo de archivo binario. Este tipo de archivo requiere de un
software tipo Adobe Acrobat Reader para ver archivos, y puede ser descargado
del sitio web de Adobe, pero tambin existen otros programas no propietarios
que sirven para generar o visualizar este tipo de archivos.

Los documentos PDF se enmarcan dentro del concepto de PostScript, y, en


concreto, Adobe ha desarrollado enormemente este concepto para definir su
Portable document format (PDF) que se incluye dentro de un software llamado
Acrobat y que consta de varios mdulos. El ms conocido es Acrobat Reader o
lector de documentos PDF porque se trata de un software libre, aunque existen
otras funcionalidades desarrolladas por diferentes mdulos (Acrobat PDF Writer
o software de interfaz, Acrobat Exchange que permite alguna correccin,
anotaciones, enlaces y comandos de seguridad para documentos; Acrobat
Search para bsqueda de documentos; Acrobat Type Manager que asegura el
uso de distintas fuentes y la resolucin para dispositivos; Acrobat Distiller para
conversin de PostScript o EPS; Adobe Acrobat for Workgroups para permitir el
trabajo cooperativo sobre los documentos; Acrobat Catalog para crear ndices
usado conjuntamente con el paquete de bsqueda; Acrobat Capture para que

Administracin de bases de datos


Rodrguez Ramirez Miguel ngel
pueda verse en los navegadores y permitir convertir la pgina explorada en
PDF, etc.

Los ltimos desarrollos de los lectores de documentos PDF soportan no slo


enlaces de hipertexto, anotaciones, anclajes de pgina, marcos, etc. sino
tambin imgenes, miniaturas, audio y vdeo en movimiento, etc; por lo que
amplan enormemente el nivel 2 PostScript. El lector PDF de Adobe puede ser
descargado de forma gratuita desde Adobe.

Formatos que contienen disposicin y contenido


ODA
Otra posibilidad de almacenamiento es almacenar la disposicin del
documento y el contenido de aqul separadamente. Esto es lo que persigue el
estndar Open Document Architecture (ODA). En ODA se almacena la
disposicin del documento donde se pueden incluir pginas, reas de ttulo,
sitios para cuadros etc. El estndar tambin permite definir la estructura lgica
del documento: captulos, prrafos etc. que se unen para la disposicin del
documento. Junto a esto, el estndar permite varias arquitecturas que se
colocan en sitios en "la pgina" (esta pgina puede ser una hoja de papel o
una pantalla y la disposicin puede variar segn el medio de salida). ODA
estandariza una serie de arquitecturas, una de ellas es el estndar Computer
Graphics Metafile, aunque engloba a otras muchas.

Rich Text Format (RTF)


El Formato de Texto enriquecido o Rich Text Format (RTF) es un mtodo para
codificar el formato de texto y la estructura del documento mediante el juego
de caracteres ASCII. Se puede utilizar en muchos paquetes de procesamiento
de texto, pero existen muchos problemas hasta entre las versiones diferentes
del mismo software.

TeX
Este formato de texto fue desarrollado por Donald Knuth a principios de los
aos 80 para hacer especial hincapi en los smbolos matemticos. Se trata de
codificar estos smbolos como una serie de caracteres ASCII para su
manipulacin mediante etiquetas que indican el formato de presentacin.
LaTeX y TeX puro son dos paquetes TeX que definen un conjunto de etiquetas.
Se trata de dos procesadores de textos usados por muchos matemticos,
fsicos e informticos. LaTeX/TeX es otro ejemplo de texto aumentado que
contiene informacin aproximada de estructura (prrafos, smbolos

Administracin de bases de datos


Rodrguez Ramirez Miguel ngel
matemticos) y disposicin. A menudo, TeX se usa dentro de otros formatos
que permiten la inclusin de smbolos matemticos y expresiones complejas.

Documentos con Informacin Estructurada


Con el fin de hacer que los textos fueran compatibles en los distintos entornos
fsicos y lgicos y que se mantuviera la estructura de las pginas, all por los
aos 60 se empezaron a desarrollar los primeros sistemas de edicin de
documentos con informacin estructurada. As naci el llamado GenCode que
utilizaba un nuevo cdigo que provea de este tipo de informacin estructurada
y, posteriormente, se desarroll el lenguaje SGML, con la intencin de que un
mismo archivo pudiera ser editado en diferentes aplicaciones y con distintos
formatos de impresin. La informacin estructurada se lograba mediante una
serie de marcas o etiquetas que describan la informacin, pero que no
incluan ninguna informacin sobre la disposicin.

En esta tesis hemos tratado ampliamente, al hablar de los lenguajes


hipertextuales, de toda la gama de documentos creados al albur y desarrollo
de estos lenguajes de etiquetado: SGML o Standard Generalised Mark-up
Language
que suministra un metalenguaje o sintaxis para describir
definiciones rigurosas y descriptivas de documentos y que es independiente de
cualquier sistema, dispositivo, lenguaje y uso y donde la informacin puede
incluir informacin ms all del texto (referente a cmo tiene que ser
procesado el documento, juego de caracteres que deben usarse, modelo lgico
para el documento y flujo del documento en s mismo); HTML o Hypertext
Markup Language que prescribe formatos para presentacin y demostracin de
los documentos hipertextuales en la World Wide Web; XML o Extensible Markup
Language, un perfil de aplicacin simple de SGML que fue desarrollado para
suplir las carencias de HTML, y que actualmente es la base para el desarrollo
de otros muchos lenguajes, etc.
Documentos con Informacin de contenido

Por ltimo, destacar, la utilizacin de metadatos como elementos para describir


el contenido ms all de la estructuracin del documento propiamente dicha.
Documentos de este tipo son los que utilizan RDF o Resource Description
Framework, un marco para describir el uso de metadatos; XTM o XML Topic
Maps una especificacin para normalizar los elementos y la notacin utilizada
para estructurar la informacin mediante la construccin de una red de enlaces
semnticos que relacionen diferentes recursos informativos; la utilizacin de
lenguajes de Ontologas como OWL, y otros vocabularios como el Dublin Core
Metadate Iniciative o la la Iniciativa para la codificacin de textos: TEI o Text
Encoding Initiative, un proyecto interdisciplinar que desarrolla y difunde
directrices para la codificacin y el intercambio de textos explotables por

Administracin de bases de datos


Rodrguez Ramirez Miguel ngel
ordenador, dentro del campo de las humanidades, aunque su uso transciende
el tema de las humanidades, etc. Todas ellas son herramientas tiles para la
descripcin, indizacin y catalogacin de documentos en la Web y que inician
el camino hacia lo que se ha denominado Web Semntica.

You might also like