Bioinformática: una nueva área de oportunidad

Eugenio Jacobo Hernández Valdelamar

Fundación Arturo Rosenblueth. Insurgentes Sur 670-3. Colonia del Valle. CP 03100.
México, D.F., México
jack@mail.rosenblueth.mx
jack_hv@yahoo.com

Resumen. Este artículo presenta los conceptos fundamentales relativos a la
bioinformática con el fin de difundir y enfatizar la importancia del desarrollo en
esta área.

Palabras clave: biocomputación, bioinformática, vida artificial, biología
molecular, biotecnología.

1. ¿Qué es la bioinformática?

La bioinformática es el campo de la ciencia en donde la biología, las ciencias de la
computación y las tecnologías de la información (TI) se unen para formar una sola
disciplina. Este campo interdisciplinario comprende la investigación y desarrollo de
herramientas útiles para llegar a entender el flujo de información desde los genes a las
estructuras moleculares, a su función bioquímica, a su conducta biológica y,
finalmente, a su influencia en las enfermedades y características agronómicas

Una definición generalmente aceptada es: Una disciplina científica que se interesa
por todos los aspectos relacionados con la adquisición, almacenamiento,
procesamiento, distribución, análisis e interpretación de información biológica,
mediante la aplicación de técnicas y herramientas de las matemáticas, de la biología y
de la informática, con el propósito de comprender el significado biológico de una gran
variedad de datos.

2. Orígenes y desarrollo

Desde la propuesta de Wienner, los trabajos de Rosenblueth, Pitts, etc., siempre ha
existido una gran influencia de los modelos biológicos aplicados a las computadoras o
sus aplicaciones, por ejemplo:
• La inteligencia artificial (IA) toma muchas cosas sobre el funcionamiento del
cerebro.
• La vida artificial (VA) lleva los comportamientos de los animales a modelos
de cómputo.
• Hay técnicas de optimización basadas en el procesamiento de información a
nivel de genes (algoritmos genéticos)

Históricamente, el uso de las computadoras para resolver cuestiones biológicas
comenzó con el desarrollo de algoritmos y su aplicación en el entendimiento de las
interacciones de los procesos biológicos y las relaciones filogenéticas entre diversos
organismos. El incremento exponencial en la cantidad de secuencias disponibles, así
como la complejidad de las técnicas que emplean las computadoras para la adquisición
y análisis de datos, han servido para la expansión de la bioinformática.

El reto en la construcción de bases de datos es el establecimiento de una arquitectura
que permita la realización de búsquedas inteligentes, comunicación con otras bases de
datos y la unión con herramientas de análisis y minería de datos específicas que
permitan dar respuesta a problemas biológicos concretos. Los científicos que se
encarguen de la construcción de esas bases de datos deben tener unos conocimientos
previos que les permitan determinar qué problemas científicos concretos necesitan una
resolución y cuál o cuáles métodos son los mejores para resolverlos.

La bioinformática comprende tres especialidades:
• La investigación y desarrollo de la infraestructura y sistemas de información y
comunicaciones que requiere la biología moderna. (Redes y bases de datos
para el genoma, estaciones de trabajo para procesamiento de imágenes).
Bioinformática en sentido estricto.
• La computación que se aplica al entendimiento de cuestiones biológicas
básicas, mediante el modelado y simulación como sistemas de vida artificial,
algoritmos genéticos, redes de neuronas artificiales (biología molecular
computacional).
• El desarrollo y utilización de sistemas computacionales basados en modelos y
materiales biológicos. (biochips, biosensores, computación basada en ADN).
Los computadores basados en DNA se están empleando para la secuenciación
masiva y el análisis de diversas enfermedades, explotando su característica de
procesamiento paralelo implícito (biocomputación).

3. Conceptos y técnicas principales

Para entender el trabajo que se hace en bioinformática es necesario conocer algunos
términos. Un genoma es el conjunto de los genes que caracterizan a una especie. Los
genes (agrupados en cromosomas) están hechos de ADN, una molécula que puede
considerarse un largísimo rosario en el que cada cuenta es un compuesto químico
llamado base o nucleótido. Hay cuatro tipos de bases: A para la adenina, la T para la
timina, la G para la guanina y la C para la citosina, y éstas son las letras químicas con
las que se escribe el lenguaje de la vida.

La información genética está contenida en el orden exacto (o secuencia) de las bases
a lo largo del ADN, al igual que la información literaria está contenida en el orden de
las letras a lo largo de un texto. La combinación o la secuencia de las letras determinan
el código genético de la célula. "Secuenciar" significa determinar el orden de las bases.
El genoma humano mide cerca de 3.000 millones de bases: de ahí la dificultad de
describirlo.

El genoma no es más que el libro de instrucciones generales; quienes realizan el
trabajo de verdad son las proteínas. El conjunto de todas las proteínas que intervienen
en los procesos biológicos de una especie es lo que se conoce como proteoma de esa
especie, y el objetivo que se plantea ahora es llegar a determinar la composición,
estructura y funciones de todas y cada una de ellas.

La bioinformática se ocupa de la aplicación de la computación a secuencias
biológicas, tales como ADN o proteínas. No hay que confundirla con otras aplicaciones
de la computación en el ámbito de la salud, como la informática médica y la
telemedicina. El principal proceso que se realiza en bioinformática es el análisis de
secuencias, el cuál consiste en "tratar de encontrar algo" relativo a una secuencia de un
aminoácido o un nucleótido empleando técnicas de biología in silico. Este algo puede
ser:
• aprender lo que hace una secuencia de ADN
• confirmar que la clonación de un gen ha sido exitosa
• saber si un gusano tiene una proteína similar a los humanos


Fig. 1. Bioinformática: estructuras biológicas, datos, procesamiento y aplicaciones

El análisis puede consistir de tareas como:
• extraer una secuencia de un gen
• buscar una secuencia en un gen o proteína

Las tecnologías de la información y las comunicaciones ayudan a recolectar,
organizar y distribuir información sobre el genoma humano, para emplearse en su
análisis y en aplicaciones. Básicamente, los sistemas informáticos se emplean en este
campo para:
• Adquisición de datos
• Software para visualización
• Programas para control de reactivos, geles y otros materiales
• Generación y ensamblaje de secuencias
• Análisis de datos
• Programas para análisis de secuencias
• Predicción de estructura de proteínas
• Paquetes de integración y ensamblaje de mapas genéticos
• Software para clasificación y comparación
• Técnicas de Inteligencia Artificial
• Gestión de datos
• Bases de datos locales o accesibles mediante redes de comunicaciones.
• Distribución de datos
• Redes de comunicaciones

4. Sistemas bioinformáticos

Las computadoras se usan de varias formas en la biología moderna:
• Recolectan y procesan señales detectadas por equipos de laboratorio (p.ej.
secuenciadores de ADN, espectrógrafos).
• Supervisan muestras y administran experimentos en laboratorios industriales.
• Almacenan datos en bases de datos públicas y proveen acceso a dichas bases
por medio de buscadores u otros mecanismos.
• Extraen patrones y reglas de grandes colecciones de datos y usan los patrones
observados para caracterizar y predecir características en nuevas muestras de
datos
• Anotación: uso de métodos de cómputo automatizados para asignar
significado a los datos y crear ligas de información entre colecciones de datos
diferentes.
• Simulación: la información conocida sobre un sistema, que junto con modelos
matemáticos o fisicoquímicos, se usa para simular propiedades del sistema
(p.ej. simulación de interacciones entre proteínas, flujos y rutas bioquímicas).

Existen 3 recursos fundamentales que se requieren para la investigación
bioinformática: almacenamiento de datos, recursos de cómputo y ancho de banda. La
administración del volumen de datos requiere de una infraestructura significativa de
hardware y software.

Laboratorios
Centros de investigación
Fuentes
públicas
Fuentes
privadas
Sistemas
fuente
Procesamiento
de datos
DW
DM DM DM
OLAP/Minería de datos
Servidor Web
Clientes
Aplicación

Fig. 2. Aproximación de la arquitectura de los sistemas bioinformáticos

En ese sentido, en la figura 2 se presenta un esquema con la aproximación de una
arquitectura genérica de un sistema bioinformática (aunque hay otras propuestas en
desarrollo), donde los principales componentes son:
los sistemas de origen, que son los repositorios de información que se crean a
partir de la investigación en laboratorios e institutos; estos recursos pueden ser
públicos (GenBank, ProDom, TIGR, RegulonDB, AceDB) o privados
(Celera).
los sistemas de procesamiento de datos, entre los que destacan los
datawarehouse, encargados de concentrar y modelar la información para luego
crear datamarts de contexto específico. Ya que se tiene la información en una
presentación más adecuada puede procederse a explotarla con herramientas
OLAP, de minería de datos o aplicaciones propietarias.
los sistemas de explotación (cliente), que pueden ser navegadores de Internet
o clientes propietarios que se comunican con un servidor para procesar
información específica.

En el caso de los sistemas de explotación, muchas tareas comunes en el trabajo con
secuencias de ADN y proteínas, por ejemplo su lectura, alineamiento, manejo de bases
de datos, etc., son realizadas por medio de programas comerciales, por ejemplo
BLAST, FASTA, GCG. Adicionalmente existen proyectos más orientados a
desarrolladores donde se proveen frameworks para el desarrollo de aplicaciones
bioinformáticas (p.ej. BioJava, BioLisp, BioPerl, BioCORBA, BioXML, BSML)

5. Bioinformática en México

Esta disciplina se está desarrollando en nuestro país de manera discreta, pero se está
trabajando. Algunas de las instituciones que están desarrollando trabajos en esta área
son:
• Centro investigación sobre la fijación del nitrógeno, con su programa de
investigación en genómica computacional (http://www.cifn.unam.mx/) y en
colaboración con Red Europea de Biología Molecular desarrollan el Nodo
Nacional de Bioinformática EMBnet México (http://embnet.cifn.unam.mx/)
• Instituto de Biotecnología y el Instituto de Química de la UNAM
(http://www.ibt.unam.mx/)
• Departamento de Biotecnología, UAM-Iztapalapa
(http://www.iztapalapa.uam.mx/iztapala.www/division.cbs/biotecnolo/)
• Unidad Profesional Interdisciplinaria de Biotecnología
(http://www.upibi.ipn.mx/)
• ITESM, con su programa de Verano de Investigación
(http://w3.mor.itesm.mx/~esucar/veraniegos.html)
• UAEM, con su especialidad en biología molecular el su licenciatura
(http://www.fc.uaem.mx)

6. Conclusiones

La cultura bioinformática es necesaria para:
• los expertos que trabajan en esta área (biólogos, químicos, computólogos e
informáticos)
• los estudiantes de carreras de biología, computación e informática. Inclusive
es viable crear programas para formar especialistas "híbridos" (otros países lo
están haciendo)
• el público en general, usuario de los resultados de las investigaciones

Además las oportunidades de investigación y desarrollo para los profesionales de la
informática y computación en esta área son muchas. Entre ellas destacaría:
• Desarrollo de laboratorios virtuales
• Desarrollo de técnicas y herramientas de procesamiento y visualización
• Desarrollo de plataformas de cómputo para el procesamiento masivo de datos
e información.
• Desarrollo de una legislación en el área para los derechos de propiedad
intelectual, licenciamiento, regulación y desarrollo de productos.

Por último, debe tomarse en cuenta que desarrollar recursos humano en esta disciplina
es estratégico si queremos contar con tecnología y desarrollos propios. En ese sentido
las principales habilidades y conocimientos que un profesional en bioinformática debe
desarrollar son:
• Comprensión del método científico.
• Comprensión de los fundamentos de la biología molecular
• Manejo de computadoras, ambientes operativos
• Conocimiento de lenguajes y técnicas de programación
• Establecer métodos para análisis y fragmentación de secuencias (de
información biológica), ensamblado de mapas y predicción y extracción de
características de secuencias.
• Establecer métodos para el análisis y simulación de estructuras moleculares
• Soporte de cómputo a laboratorios de biología
• Diseño, implementación e integración de bases de datos biológicas.
• Algoritmos y métodos de bioinformática (p.ej. redes neuronales,
programación dinámica, etc.)


















Referencias

[1] VSNS Bioinformatic division
http://www.techfak.uni-bielefeld.de/bcd/
[2] BioComputing Hypertext Coursebook
http://www.techfak.uni-
bielefeld.de/bcd/Curric/welcome.html
[3] Biocomputing for schools
http://www.uni-mainz.de/~cfrosch/bc4s/
[4] Genes y genomas
http://www.elpais.es/especiales/2000/genoma/ind
ex.html
[5] Bioinformática o cómo perder el tren sin
darse cuenta
http://www.ciencias.uma.es/publicaciones/encue
ntros/ENCUENTROS61/bioinformatica.html
[6] Bioinformatics Resources
http://biotech.icmb.utexas.edu/pages/bioinform/b
iresources.html
[7] Bioinformatics.org
http://bioinformatics.org
[8] Gene Expression Warehousing (GEWare)
http://dbs.uni-
leipzig.de/en/projekte/BIOINF/gewarehouse.html
[9] Web Services for Bioinformatics
http://www.oreillynet.com/pub/a/webservices/20
02/05/14/biows.html
[10] Integrated Bioinformatics Information
System (IBIS) Beyond ISGD
http://wwwcbbc.murdoch.edu.au/research/ibis/
[11] Bioinformatics Architecture Project
http://www.ctaalliance.org/MCBI/BioinfoArch.ht
ml
[12] GenoMax System Architecture
http://www.informaxinc.com/solutions/genomax/
architecture.html
[13] A web-based bioinformatic system links
microscope images to experimental data
http://proteomicssurf.com/forums/showthread.ph
p?s=b56b4c5ea5f2aaa0b5f466cb75cd2890&posti
d=880#post880
[14] Proyecto de bioinformática: Pattern
Matching
http://www1.imim.es/courses/BioinformaticaUP
F/projects/4.3/
[15] Bioinformantes
http://www.cecalc.ula.ve/bioinformatica/bioinfor
mantes/espa-ol/introducci-n/
[16] Programa de Doctorado 'Genética y
Biotecnología'
http://www.ugr.es/~oliver/Doctorado/bioinformat
ica.html
[17] Computers + Biology = Bioinformatics
http://biotech.about.com/gi/dynamic/offsite.htm?
site=http%3A%2F%2Fwww.oreilly.com%2Fnew
s%2Fbioinformatics_0401.html
[18] Biología+Informática= ¿nombre? R. Lahoz-
Beltrá
http://bioinformatica.el.sitio.net/
[19] DNA from the beginning
http://www.dnaftb.org/dnaftb/
[20] Molecular biology workbook
http://www.iacr.ac.uk/notebook/wwwresource/bi
oinformaticcourses434.htm
[21] Sequence Analysis With Distributed
Resources
http://bibiserv.techfak.uni-
bielefeld.de/sadr/index2.html
[22] Bioinformatics Law Resources
http://www.denniskennedy.com/bioinformaticsla
w.htm