INSTITUTO TECNOLÓGICO SUPERIOR DE LERDO

Ensayo: “Tipos de formatos de archivos secuenciales”

Nombre: Miguel Ángel Gaytán Gómez

Materia: Administración de datos

Especialidad: Ingeniería en Informática

Profesor: Ricardo de Jesús Bustamante González

A miércoles 8 de febrero de 2012, Cd. Lerdo, Durango.

Ensayo: “Tipos de formatos de archivos de secuencia”

Para conocer los diferentes tipos de archivos de secuencia, es necesario principalmente definir qué es un archivo. Un archivo también denominado fichero informático es una colección de información (datos relacionados entre sí) compuesta por una secuencia finita de bytes, almacenada en un sistema de archivos localizada en la memoria secundaria (disco duro) de la computadora. Los archivos son el conjunto organizado de datos del mismo tipo, que pueden utilizarse en un mismo tratamiento de entrada y salida de datos en la computadora. Una vez definido el concepto de archivo, ahora definiremos el concepto de archivo secuencial. En un archivo organizado secuencialmente, los registros quedan grabados consecutivamente cuando el archivo se utiliza como entrada. Frecuentemente los registros de un archivo secuencial quedan ordenados de acuerdo con el valor de algún campo de cada registro, el campo o los campos que se utilizan para determinar el ordenamiento es conocido como la llave del ordenamiento. Un archivo puede ordenarse ascendente o descendentemente con base en su llave de ordenamiento. Entonces un archivo secuencial es la forma más simple de almacenar y recuperar registros de un archivo, ya que se almacenan los registros uno tras otro de manera consecutiva. Una característica de este tipo de archivos es que todos los registros se almacenan por posición: de primer registro, segundo registro, etc. (no existen posiciones sin uso). Una ventaja de este tipo de archivos es que proveen la mejor utilización de espacio, ya que todos los espacios son ocupados; además son rápidos cuando se tiene que acceder al siguiente registro y también son muy sencillos de usar y aplicar. Una desventaja es que la localización de un determinado registro no se puede realizar rápidamente y están vulnerables a fallas del sistema.

En computación existen básicamente dos tipos de archivos: los archivos binarios y los archivos ASCII. Los archivos ASCII son archivos que están basados en un lenguaje entendible para los humanos, ya que hace uso de letras, números y caracteres, para representar diferentes tipos de archivos como:    Archivos fuente: .f, .c, .p Formatos de texto: .tex, .txt, .html Formatos de intercambio

Los archivos binarios se basan en un código binario o lenguaje máquina, el cual solo la computadora es capaz de entender y es usado para representar los siguientes tipos de archivos:      De imagen: .jpg, .gif, .tiff, .bmp, .wmf, .png, .pcx, etc. De video: .mpg, .mov, .avi, .gif Comprimidos o empaquetados: .zip, .Z, .gz, .tar, .lhz Ejecutables o compilados: .exe, .com, .cgi, .o, .a Procesadores de palabras: .doc

Dentro de los archivos ASCII usados por programas de bioinformática para el registro de los experimentos de laboratorio están los siguientes:   De secuencia: .seq De secuencias múltiples: .aln, .msf (secuencias alineadas), .rfs (Formato de secuencia rica, estos archivos pueden incluir una o más secuencias relacionadas o no)

Entre los formatos de archivos de secuencia que se utilizan para el análisis de nucleótidos y residuos de aminoácidos, así como de los reportes en la que los archivos llevan una secuencia en la cual los datos de la primera especie son presentados, y luego los de la segunda especie y así sucesivamente. A continuación se presentan estos formatos de archivo de secuencia: Formato PHYLIP, GenBank, EMBL, PIR, FASTA, CLUSTAL, MFS, MFS del GCG y RSF.

Ejemplos de formatos de ASCII:
El formato que sigue es un formato de registro de longitud fija y con marcas de final de registro. No incorpora delimitadores de campos. 0001DENOMINACIONCAMPOCAMPOCAMPO 0002DENOMINACIONCAMPOCAMPOCAMPO El formato que sigue es ASCII delimitado con campos de longitud fija, pero podrían haber sido de longitud variable. Incorpora delimitadores de campo y separadores "," Y las marcas de final de registro. "0001","DENOMINACION","CAMPO","CAMPO","CAMPO" "0002","DENOMINACION","CAMPO","CAMPO","CAMPO"

El registro que sigue es de longitud fija, sin delimitadores de campo y sin marcas de final de registro. Se hace algo más complejo su proceso, pues requiere de algún ajuste, y tiene sentido usarse cuando los registros son pequeños, el soporte también, que hoy no es el caso, y queremos ajustar por el motivo que sea. 0001DENOMINACIONCAMPOCAMPOCAMPO0002DENOMINACIONCAMPOCAMPOCAM PO

Por lo tanto los archivos de secuencia son muy útiles para llevar un orden de los registros de forma organizada, además de esto los archivos secuenciales permiten acceder rápidamente al siguiente registro y son muy sencillos de usar. Por lo que el uso de estos formatos en un área en la que se requiere la organización de registros mediante un campo clave del registro es muy útil. La única complicación que ocurre es que el acceso a un registro determinado se efectúa de una manera más lenta y podría haber una falla del sistema.

Bibliografía:

http://www.slideshare.net/luismy_martinez/archivo-secuencial

http://www.aulaclic.es/visualbasic/t_39_1.htm

http://www.cecalc.ula.ve/bioinformatica/UNIX/node62.html