Instituto Tecnológico Superior de Lerdo

Carrera:

Ingeniería en Informática
Profesor(a):

Ricardo De Jesús Bustamante
Materia:

Administración y organización

Nombre del trabajo:

Ensayo de “Archivo de secuencias”

Alumno:

Irving Michael Valdez Islas

8-febrero-2012

Introducción
En este tema se verá los diferentes tipos de archivos de secuencias, pero primeramente hay que recordar que un archivo es un conjunto de bits.

Un archivo de secuencia es la forma más simple de almacenar y recuperar registros en un archivo. En un archivo secuencial, se almacenan los registros uno tras otro. El primer registro almacenado se coloca al principio del archivo. El segundo se almacena inmediatamente después (no existen posiciones sin uso), el tercero después del segundo, etc. Este orden nunca cambia en la organización secuencial. Una característica de los archivos secuenciales es que todos los registros se almacenan por posición: de primer registro, segundo registro, etc.

Archivos de secuencias
Formato PHYLIP: es un formato de secuencias de nucleótidos y de residuos de aminoácidos que se utiliza frecuentemente como formato de entrada de diferentes programas o paquetes de análisis tales como: PHYLIP (el cual le dio el nombre), LARD, PLATO, SPOT; entre otros.

GenBank: este formato es el utilizado para los reportes de secuencias tanto de nucleótidos como de aminoácidos que se encuentran almacenados en el GenBank. Principalmente se caracteriza por proporcionar al usuario una información bastante completa sobre la secuencia. Los programas del GCG pueden utilizar archivos obtenidos en búsquedas en el GenBank, pero para que esto sea posible, es necesario primero cambiarle el formato al archivo empleando el comando siguiente: fromgenbank archivo_de_secuencia

EMBL: los archivos en este formato son reportes generados por la base de datos de secuencias de nucleótidos y de proteínas respaldada por el EMBL (European Molecular Biology Laboratory). Al igual que para los archivos en formatos GenBank, los archivos en este formato pueden ser utilizados por los programas del GCG, pero antes su formato debe ser cambiado al utilizado por este paquete.

PIR: (Protein Identification Resource) este es el formato con el que son generados los archivos provenientes de la base de datos PIR

FASTA: es uno de los formatos más empleados en la actualidad. Puede incluir una o más secuencias lineales de nucleótidos o aminoácidos no alineadas.

CLUSTAL: es uno de los muchos formatos para archivos de secuencias alineadas más utilizados por los programas de análisis de secuencias. Sus principales características son: tanto nucleótidos como aminoácidos son representados por el código de una letra; los gaps son indicados con un guión "-" y al final de las secuencias alineadas, puede aparecer una especie de secuencia consenso con signo como: "*", ":" y "."

MSF: (multiple sequence file) es un formato para dos o más secuencias alineadas, donde el "." representa un gap, los nucleótido o aminoácidos son representados

en su código de una letra, y la secuencia es escrita en columnas de diez (10) letras cada una. El comienzo de la secuencia es marcado por dos backslashes: //

MSF del GCG: los programas de GCG, para poder utilizar como archivo de introducción de datos uno con este formato, las siguientes características requieren ser especificadas: tipo de archivo(!!AA_MULTIPLE...), comienzo de la sección correspondiente a la secuencia(" .. ", comienzo de secuencia (" // ").

RSF: (Rich Sequence File) este tipo de formato de archivos de secuencias de nucleótidos o aminoácidos es utilizado por algunos programas del GCG y permite introducir una o más secuencias para llevar a cabo un análisis. Las características que debe respetar un archivo en este formato son las siguientes: 1) Especificar el tipo de archivo (!!RICH_SEQUENCE 1.0). 2) Indicar el inicio de la sección donde se da toda la información y los datos de la(s) secuencia(s) (".."). 3) Escribir la secuencia y sus atributos o la información que se desee colocar sobre ella encerrando esta sección del archivo entre llaves ("{ .. . . }"), la palabra "sequence" debe aparecer justo entre la información particular de una secuencia y la secuencia en sí.