You are on page 1of 10

Cdigo para leer y escribir con ADN

El primer artculo del primer nmero de la revista International Invention Journal


of Biochemistry and Bioinformatics es un artculo del que soy el autor en el que
propongo un mtodo para la codificacin de los futuros bio-ordenadores en los
que toda la informacin estar guardada en molculas de ADN.
Los ordenadores estn basados, para su funcionamiento y almacenaje de la
informacin, en el sistema binario, es decir, convirtiendo todo lo que
introducimos en ceros y unos. La cantidad de informacin de los elementos de un
sistema es, segn Shannon, -log2p. Por tanto, el sistema binario tiene 1 bit de
informacin en cada elemento de este cdigo. Como el teclado de un ordenador
tiene 256 smbolos, para obtener el cdigo de 256 cosas hacen falta 8 dgitos
binarios, ya que para obtener un cdigo para esos elementos hay que multiplicar
2x2 ocho veces. La letra G, por ejemplo, tiene como cdigo: 01000111. A este
grupo de 8 bits se le denomina Byte (ledo bait) y es lo que usamos cuando
decimos que un documento ocupa 80 KB, que quiere decir que tenemos en l
80.000 Bytes que es la suma de cada letra, smbolo, nmero, espacio y dems
cosas que hayamos introducido para escribir nuestro documento, como son el
tipo y tamao de letra, los espacios entre lneas, etc.
El ADN est formado por cuatro letras, ATCG, y la frecuencia de cada letra puede
ser 1/4 por lo que la informacin de cada letra ser, usando la anterior frmula,
de 2 bits. Es decir que la misma cantidad de informacin que hay en un Byte
formado por 8 bits se puede conseguir con un Byte formado por 4 letras del ADN.
Como ahora el sistema estara formado por 4 elementos, en lugar de binario se
denomina tetranario. Por este motivo denomino a los bits como tets y a los Bytes
como tytes (ledo taits).
Para obtener el cdigo que le correspondera a cada uno de los 256 smbolos de
un ordenador lo nico que hay que hacer es convertir el nmero binario del Byte
que corresponde a cada smbolo del teclado, escrito con 8 bits, en su equivalente
de 4 tets en el sistema tetranario. De acuerdo con esta conversin, el binario que
corresponde a la letra G se convierte en el tetranario 1013.

Pincha la tabla para verla


A continuacin slo queda asignarle una letra a cada elemento del cdigo
tetranario. Si hacemos 0 = A salen seis posibilidades: ATGC, ATCG, AGTC, AGCT,
ACTG, ACGT. Lo mismo con las tres restantes letras, por lo que salen 24 formas
diferentes de asignarlas. Analic estas 24 posibilidades por el nmero de
smbolos que seguidos en una escritura daran lugar a repeticiones de una misma
letra del cdigo. La repeticin de letras en una molcula de ADN tiene tendencia
a causar errores en la escritura o lectura del ADN porque a las ADN polimerasas,
que son las enzimas encargadas para ello, les pasa lo mismo que a los humanos,
cuando leemos nmero largo se nos hace muy difcil leer una secuencia con una
cifra
repetida
muchas
veces.
As,
el
nmero
siguiente
560132340620800000000002365269 lo leemos muy fcilmente hasta que

llegamos a la ristra de ceros donde se nos hace difcil determinar cuntos hay y
casi seguro que tenemos que pasar el dedo de uno en uno para contarlos sin
equivocarnos. Deslizamientos en las repeticiones, lo que en ingls se llama
"slippage", es lo que le ocurre tambin a las enzimas que leen y escriben las
secuencias del ADN, causando errores o mutaciones. La mejor manera de evitar
que ocurra esto es no repitiendo muchas veces seguidas ninguna letra. Esto se
puede conseguir asignando A al 0, T al 1, C al 2 y G al 3.
Este sistema de codificacin de los bio-ordenadores tiene las siguientes
propiedades:
1. Es uniforme, ya que todos los smbolos estn codificados por 4 letras. Esto es
una novedad ya que los cdigos propuestos hasta ahora, hechos por
informticos, estn formados con un nmero variable de letras para conseguir
minimizar el tamao de los documentos. Para un bilogo parece ms lgico, ya
que la evolucin lo ha hecho de la misma forma, hacer un cdigo con un nmero
constante de letras. Llevado a la prctica, el sistema que propongo produce
documentos con un menor nmero de letras que las otras propuestas.
Esta uniformidad permite, adems, generar programas informticos mucho ms
simples para traducir una secuencia codificada en tetranario a sus
correspondientes significados, como letras, nmeros, espacios, colores, etc.

2. Es consistente, ya que tiene una relacin biunvoca entre smbolo y tyte o


tetraplete, lo que no ocurre con algunos de los previamente propuestos.
3. Es homogneo dado que todas las letras empiezan por T, las maysculas por
TA o TT y las minsculas por TG o TC, todos los nmeros por AG y el espacio por
AC. Esta propiedad permitir de forma muy fcil el reconocimiento de errores en
la escritura/lectura.
4. Es intuitivo ya que la propiedad anterior le hace que sea muy fcil determinar
la fase de lectura, es decir en qu letra debe comenzar la lectura de 4 en 4
letras, lo que beneficiar la escritura de los programas que traduzcan el cdigo
de ADN al cdigo del idioma empleado.
5. Disminuye la posibilidad de errores respecto de cualquiera de los cdigos
propuestos ya que
- utiliza un nmero menor de letras para cada smbolo.
- en todo documento de texto, la primera letra de cada cdigo viene
predeterminada por lo indicado en el punto 3
- est optimizado para que no se den repeticiones de una letra.

Esta codificacin se aplica de la misma forma a cualquier otra funcin de un


ordenador. Por ejemplo, las imgenes grabadas en formatos como BMP, PNG o
JPEG, que soportan colores de 24 bits por pxel. El color de un pxel viene
determinado por tres colores: rojo, verde y azul (RGB en ingls) y cada color est
codificado por dos dgitos hexadecimales u ocho bits. Con el cdigo propuesto,
cada pxel estar determinado por 12 tets, 4 tets por cada color RGB, que
producen los mismos 16,7 millones de colores que la codificacin binaria (puedes
convertir los cdigos entre cualquiera de los sistemas binario, tetranario, decimal
o hexadecimal bajndote esta pgina excel).
Adems de los beneficios que se obtienen de sus propiedades, este cdigo
permitir almacenar una memoria de 7,3x1018 Bytes o 7,3 Exabytes en slo 1
mg de ADN de cadena doble (que es ms estable que en cadena sencilla). Una
comparacin ms cercana a nuestros usos diarios sera el clculo de la memoria
de un CD de 550 MB. Esta memoria est grabada en 5 Km de pista de un CD
normal. En esa misma longitud cabran 3,6x106 MB, es decir que la informacin
de un CD de ADN equivaldra a la de 6.545 CD! Un incremento de capacidad
interesante, no?
Escribir con ADN

En los ltimos meses han aparecido dos informaciones en la prensa que, aunque
a priori podran parecer distantes, estn muy relacionadas. Una est relacionada
con los ordenadores: Microbios que empaquetan 200 GB. Investigadores chinos
logran que las bacterias almacenen y descifren los datos. La segunda est
relacionada con la seguridad: Atencin, tienda protegida por ADN. Un sistema
antirrobo innovador utiliza cadenas genticas para identificar las propiedades y
marcar a los ladrones. La relacin entre ambas noticias est en que ambas usan
el lenguaje del ADN.
Cmo un microbio puede almacenar cualquier informacin?, cmo podemos
usar el ADN para marcar algo o a alguien?, se contestan de la misma manera:
usando el lenguaje que usa el ADN para llevar la informacin hereditaria de un
organismo, no para producir clulas y rganos sino para almacenar informacin a
base de letras y nmeros. Cmo? Fcil si entendemos cmo es el ADN y cmo
podemos usarlo.
Desde mediados del pasado siglo sabemos que toda la informacin hereditaria
que se transmite de padres a hijos, humanos, ratones, gusanos, bacterias,
cebollas o cualquier otro ser vivo, se encuentra en las molculas de ADN que se
transmiten por los gametos (vulos las hembras, espermatozoides los machos).

Todas las molculas de ADN son iguales en su estructura. Bsicamente se trata


de dos cadenas que se entrelazan haciendo una espiral y cada cadena lleva
repetidas millones o miles de millones de veces cuatro molculas que se conocen
por la inicial de su nombre qumico: A, T, G y C.

Dnde est la informacin que hace que unas molculas hagan un perro y otras
una mosca? Esta informacin est codificada en el orden en que se encuentran
estas cuatro letras. La codificacin de la vida estriba en que la secuencia de
letras se leen de tres en tres y cada trio determina a un aminocido. Por tanto, en
el orden en que se encuentren los trios de letras, o tripletes, ser el orden en que
se unan los aminocidos para dar las protenas con las que estamos hechos los
seres vivos.
Cmo convertir este lenguaje en las letras, nmeros y smbolos que usamos al
escribir? Para esto podemos pensar en una similitud con el lenguaje de los
ordenadores.
Un ordenador funciona slo con 0 y 1. Como para escribir todos los caracteres y
smbolos necesitamos 27 letras ms 10 nmeros ms un centenar largo de
smbolos, los informticos decidieron que usando los 0 y 1 de ocho en ocho se
pueden obtener 28 = 256 caracteres diferentes, lo que es ms que suficiente.
Cada uno de estos 0 y 1 se les denomina un bit y al grupo de ocho bits se llama
byte. Cuando decimos que nuestro ordenador tiene una memoria de 100 MB
queremos decir que puede almacenar cien millones de bytes o smbolos.
Con el ADN podemos pensar de la misma forma, pero en lugar de dos bits 0 y 1
usa cuatro bits A, T, G y C por lo que los mismos 256 caracteres se pueden
obtener haciendo grupos de cuatro, ya que 44 = 256. As como en informtica
podemos asociar el byte 01000001 a la letra A y 00100101 al smbolo (, en
bioinformtica podramos asociar esta letra al byte GACC y el parntesis a TGCA.
Ya tenemos la codificacin o el diccionario para conocer qu byte le corresponde
a qu carcter o smbolo. Nos queda cmo materializarlo, cmo grabar la
informacin que queramos en el ADN, por ejemplo este artculo.
Para ello haramos uso de unas mquinas, comercializadas desde hace unos
veinte o treinta aos, que sintetizan fragmentos de ADN con el orden, o
secuencia, de letras que queramos. Actualmente las longitudes ms largas que
se pueden sintetizar en estos aparatos oscilan entre 150 y 200 letras, pero
posteriormente las podramos unir para dar molculas de ADN de longitudes
mucho mayores.
Ahora podemos entender las dos noticias con que iniciaba este artculo.

La molcula de ADN que hemos sintetizado con la informacin deseada la


podemos introducir en una bacteria. Por qu en una bacteria? Por varias
razones. Una fundamental es que las bacterias son muy pequeas 3 m de largo
por 0,5 m de ancho (1 mm equivale a mil m o micrmetro) y su ADN tiene 4,6
millones de letras que sera 1 MB en el lenguaje bioinformtico que acabo de
contarles (se imaginan tener 1 MB en algo mil veces ms pequeo que un
milmetro?). Es importante, tambin, que las bacterias son muy econmicas de
cultivar, algunas se pueden cultivar slo con agua, un par de sales y glucosa. No
menos importante es que en un cultivo de un centmetro cbico (menos que un

dedal de coser) podemos tener hasta mil millones de bacterias y si lo desecamos


podemos tener estas bacterias en medio centmetro cbico (una bacteria
desecada puede recuperarse viva muchos decenios despus). Ya conocen
ustedes que en el mundo de los ordenadores cada vez hay que introducir ms
memoria en menos volumen.
Si consiguiramos las mencionadas mil millones de bacterias (nada ms fcil) y
cada una con una informacin equivalente a su propio ADN (un poco ms
complicado, pero no mucho) y cada una con una informacin especfica distinta a
las dems (casi imposible), podramos tener tericamente una memoria de 1 PB,
es decir un milln de gigabytes. Despus habra que leer esa informacin, pero
eso es ya otra historia.
Ciencia ficcin? Por ahora s, pero en unos

Un uso del ADN como portador de la informacin que queramos introducirle est
siendo ya aplicado con xito como sistema de marcaje de objetos o personas con
una finalidad antirrobo. En varios paises se ha implantado ya la tecnologa de
fabricar secuencias de ADN y pegar estas molculas a objetos de alto valor como
sistema de marcaje, invisible al ojo humano pero detectable por mtodos
moleculares sencillos. Estas molculas no tienen que ser muy largas, con 10
letras se pueden fabricar 410 secuencias diferentes que significa ms de un
milln de secuencias listas para marcar otros tantos objetos. Junto con el marcaje
de los objetos de la tienda, el contrato incluye el uso de una secuencia, especfica
de cada tienda, para marcar a las personas que entran en estos locales mediante
unos microvaporizadores invisibles que llevan la secuencia de ADN especial. Este
ADN quedar unido a la piel, pelos y ropa de los clientes de forma temporal (creo
que en pocas semanas desaparece) y permite, si es necesario, comprobar si una
persona bajo sospecha estuvo o no en un local determinado.
El futuro de estas tecnologas depende de nuestra imaginacin; la Ciencia, como
la imaginacin humana, no tiene lmites.

- Cdigo para los ordenadores de ADN basado en un alfabeto gentico expandido


Todos los seres vivos tenemos la informacin necesaria para fabricarnos en la
molcula de ADN. Esta informacin est codificada por el orden de las cuatro
letras que componen esta estructura. De la misma forma, el ADN podemos
utilizarlo para codificar cualquier informacin: texto, imagen, msica.

Muchas veces me han preguntado los amigos

Cmo se puede guardar en el ADN, con slo cuatro letras, todo cuanto
queramos, un libro entero, una imagen con miles de millones de colores o un
concierto?
Mi contestacin siempre es
Con los diez dgitos que usamos para escribir los nmeros cuntos nmeros se
pueden escribir?
Enseguida descubren por ellos mismos que todo es cuestin del nmero de
dgitos, de letras en el caso del ADN, que se usen.

As se puede codificar toda la informacin para fabricar la enorme cantidad de


molculas que funcionan en cualquier animal o planta, todo es cuestin del
nmero de letras que se usan para esta descripcin.

En todos los seres vivos la codificacin se lleva a cabo de tal forma que cada tres
letras del ADN determina a un aminocido. La unin ordenada de un determinado
nmero de aminocidos dan una protena. Si la protena tiene 600 aminocidos
stos han de venir codificados en el ADN en mil ochocientas letras y el orden de
esas letras es lo que determina el orden de los aminocidos. A ese grupo de
letras es a lo que se conoce como un gen. En nuestro ADN tenemos unos treinta
mil genes.

De la misma manera podemos utilizar el orden de cualquier nmero de las cuatro


letras del ADN para guardar la informacin de textos, imgenes y sonidos, todo
es cuestin de decidir previamente qu grupo ordenado de letras ser la A, la a,
el 1, el smbolo +, el espacio, el retorno de carro, y as hasta los 256 smbolos
necesarios.

Por qu 256 smbolos? Porque los ordenadores funcionan con 0 y 1 y los que
llamamos personales funcionan asignando a cada letra, nmero o smbolo, un
cdigo formado por ocho dgitos binarios para obtener una panoplia de 2x2x2x...
= 28 = 256 smbolos. A cada 0 y 1 se le denomina dgito binario o bit (binary
digit) y a cada grupo de 8 bits se le llama un Byte.

De la misma forma podemos asignarle a cada uno de los 256 smbolos un


determinado nmero de letras del ADN. Con las cuatro letras A, T, G y C podemos
asignarle grupos de cuatro a cada smbolo, ya que 4x4x4x4 = 44 = 256 (descrito
en la entrada de este blog "Cdigo para leer y escribir con ADN") (1).

El uso de ADN como futuro almacn de la memoria de los ordenadores


moleculares tiene algunas ventajas, como su gran estabilidad y, sobre todo, su
pequeo tamao, pero tambin tiene inconvenientes. El principal de los
inconvenientes viene del temor, expresado por el Departamento de Salud de los
EEUU, de que esta informacin pueda ser utilizada para codificar un virus
humano o una toxina, o que simplemente contenga una secuencia que pueda
infectar algn sistema vivo. Para evitar esto pone un lmite de 199 letras para
toda molcula sinttica de ADN (2).

Este inconveniente queda eliminado en mi ltima propuesta de cmo utilizar el


ADN en la memoria de los ordenadores, publicada en este mismo mes de
diciembre de 2014 (3). En dicho artculo propongo la utilizacin del ADN con un
alfabeto expandido como explico a continuacin.

Desde hace pocos aos se est dando un elevado inters en algunos


departamentos e instituciones de Qumica, encabezado fundamentalmente por
Floyd E. Romesberg, del Scripps Research Inst. en La Jolla (California), por la
sustitucin de las molculas biolgicas por molculas similares de origen
sinttico (4). El principal inters en la actualidad es la obtencin de un ADN
totalmente sinttico con molculas similares, pero no iguales, a las naturales. Es
a lo que se empieza a denominar el "alfabeto gentico expandido" (5).

Este alfabeto consiste en la sustitucin de las bases letras naturales por


molculas diferentes aunque parecidas en sus tres dimensiones. El xito de estos
trabajos ha sido haber introducido algunas de estas nuevas letras en una
molcula de ADN biolgico. Este ADN semisinttico es capaz de ser replicado
tanto in vitro como in vivo al introducirlo, junto con los precursores de estas
nuevas molculas, en una clula bacteriana donde permaneci estable durante
muchas generaciones (5).

Dado que las molculas de estas nuevas letras del ADN no existen en el mundo
biolgico, no las pueden sintetizar ningn ser vivo. Por tanto, estos ADN
semisintticos slo se podrn duplicar si se les introducen en las clulas las
nuevas molculas sintticas. En caso contrario dejarn de reproducirse y se
perdern. Luego parece lgico pensar que si para la memoria de los ordenadores
moleculares se usasen molculas semisintticas de ADN, stas no podran
infectar a ningn ser vivo y quedaran, como consecuencia, excluidas de las
normas aprobadas por el NIH pudiendo ser sintetizadas con cualquier longitud.

Mi propuesta en el mencionado artculo es utilizar un ADN compuesto de ocho


letras, las cuatro naturales y otras cuatro sintticas. El uso de ocho letras aade,
adems, el acortamiento de la longitud de estas molculas ya que en lugar de las
cuatro letras por smbolo propuesto en el anterior artculo, ahora se requeriran
slo tres letras para codificar cada smbolo (3).

Una propiedad aadida de esta nueva codificacin se puede deducir del siguiente
clculo. Ocho letras distintas agrupadas de tres en tres dan un total de 83 = 512
grupos. Dado que slo necesitamos 256 cdigos, sobran otros 256 grupos que se
pueden usar para aadir redundancia a los smbolos ms usados: letras y
nmeros. Si cada letra o nmero puede ser codificado por cuatro cdigos
distintos, se puede deducir que har disminuir la frecuencia de mutacin o
errores causados por cambios aleatorios de una letra por otra.

Por tanto, esta nueva codificacin mejora a todas las anteriores propuestas por
su menor frecuencia de errores, menor tamao para igual informacin,
imposibilidad de contaminar a ningn ser vivo, posibilidad de sintetizar molculas
de ADN de cualquier longitud y, finalmente, en algn futuro, y dada la gran
estabilidad de esta molcula, la posibilidad de ser evidente para cualquier ser
inteligente, terrestre o no terrestre, del futuro, la implicacin de contener una
informacin codificada diseada artificialmente.

Referencias

1.
http://alfoogle.blogspot.com.es/2013/10/codigo-para-leer-y-escribir-conadn_29.html

2. Sebelius, K. (2010) Screening Framework Guidance for Providers of Synthetic


Double-Stranded DNA. Federal Register 75(197): 62820-62832. FR Doc No: 201025728

3. Jimnez-Snchez, A. (2014) DNA Computer Code Based On Expanded Genetic


Alphabet. Eur J Computer Sci Info Tech 2(4): 8-20

4. Malyshev, D. A., Dhami, K., Quacha, H. T., Lavergne, T., Ordoukhanianb, P.,
Torkamanic, A. and Romesberg, F. E. (2012) Efficient and sequence-independent
replication of DNA containing a third base pair establishes a functional six-letter
genetic alphabet. Proc Nat Acad Sci USA 109: 12005-12010.

5. Malyshev, D. A., Dhami, K., Lavergne, T., Chen, T., Dai, N., Foster, J. M., Corra,
I. R. and Romesberg, F. E. (2014) A semi-synthetic organism with an expanded
genetic alphabet. Nature. doi: 10.1038/nature13314.

Las biocomputadoras ms cercanas

Detrs de toda gran revolucin tecnolgica siempre hay un desconocido cientfico


que dedic buena parte de su vida a una investigacin bsica nica y verdadera
investigacin con la que cre los conocimientos imprescindibles y las bases
necesarias para el desarrollo tecnolgico posterior. Los trabajos publicados por
George Boole en el ao 1854 y siguientes sobre las matemticas de la lgica le
permitieron desarrollar un sistema de reglas para expresar problemas lgicos y
filosficos cuyos argumentos admitan dos estados (verdadero o falso) por
procedimientos matemticos. Hoy se le considera el padre de las operaciones
lgicas que se aplican en los circuitos integrados de los ordenadores digitales
actuales y en las futuras computacin cuntica y biocomputacin.

El lgebra booleana es un sistema matemtico lgico basado en los valores cero


y uno (falso y verdadero). El paso de esta idea bsica a la electrnica digital se
realiza a travs de una puerta lgica que es un dispositivo electrnico que en la
lgica de la conmutacin es la expresin fsica de un operador booleano. Una
puerta lgica consiste, por tanto, en una red de circuitos de conmutacin
integrados en un chip que cumple alguna de las condiciones booleanas. Estas
puertas son esencialmente: AND, NOT, OR, NAND y NOR.

Una prediccin formulada por Gordon Moore en 1965, conocida como la ley de
Moore, dice que la potencia de los ordenadores, su capacidad de memoria y el
nmero de chips se duplica cada 18 meses mientras que su tamao se hace la
mitad. Sin embargo, los chips no se pueden hacer infinitamente pequeos, hay
un lmite en el cual dejan de funcionar correctamente. En consecuencia, la
computacin digital tradicional no tardar en llegar a su lmite. Surge entonces la

necesidad de descubrir nuevas tecnologas y ah entran en escena la


computacin cuntica y la biocomputacin.

En una entrada anterior de este blog (Escribir con ADN, en enero-2011) ya he


mencionado la posibilidad del uso del ADN como portador de informacin. El ADN
contiene informacin en el orden o secuencia de sus cuatro letras. Ah est toda
la informacin necesaria para determinar y dirigir el desarrollo de todos los seres
vivos. Pero esa informacin tambin la podremos utilizar como sistema de
almacenamiento o memoria de las posibles biocomputadoras.

Para poder hablar de biocomputadoras deberamos, adems, disponer de


circuitos basados en sistemas biolgicos que llevasen a cabo las funciones
booleanas. Es decir, deberemos crear puertas lgicas biolgicas. En esta
direccin se han hecho algunos recientes avances entre los que destaco un
interesante artculo publicado por un grupo londinense en la revista Nature
Communications.

Como se indica en la mencionada publicacin, se pueden crear puertas lgicas


AND, NOT y NAND mediante la construccin de genes regulados de forma
encadenada.

Supongamos un gen bacteriano cuya actividad podamos inducir mediante la


adicin al medio donde crece la bacteria de una sustancia activadora, este es el
caso del opern lac. Un gen regulador, lacI, codifica una protena represora que
impide, de forma habitual, la expresin de un segundo gen, lacZ. Este represor
puede ser inactivado por un producto externo que aadamos al medio de cultivo,
por ejemplo IPTG, que determinar la actividad del segundo gen que ser la
sntesis de una protena, en el ejemplo del opern lac ser la -galactosidasa. En
este opern podemos sustituir el segundo gen por uno que codifique una
protena fcilmente analizable, por ejemplo la protena GFP que da una
fluorescencia verde fcilmente visible y cuantificable. A este gen y su producto
cuya actividad nos va a delatar la actividad de los genes implicados, lo
denominamos reportero. Tendramos as un sistema sencillo de obtencin de una
respuesta, la fluorescencia, ante la presencia de un estmulo, IPTG.

Podemos tambin construir un plsmido con dos operones, 1 y 2. En 1, el


represor R1, inactivable por el