jueves, 18 de octubre de 2012

El encuentro del código genético con el código informático




Aunque el próximo libro de George Church no llegará a las tiendas hasta el 2 de octubre, ya tiene en su haber una referencia envidiable: 70 mil millones de copias, aproximadamente el triple de la suma de los 100 mejores libros de todos los tiempos.


Y cabe en la uña de un pulgar.


Esto se debe a que Church, profesor de Genética en laHarvard Medical School y fundador principal del Instituto Wyss de Ingeniería Biomédica en la Universidad de Harvard, y su equipo, han codificado un libro, "Regenesis: How Synthetic Biology Will Reinvent Nature and Ourselves" [Regenesis: Cómo la biología sintética reinventa la naturaleza y a nosotros mismos], en el ADN, que luego leen y copian.


En el banco de datos de la biología, el ADN siempre ha tentado a los investigadores por su potencial como medio de almacenamiento: fantásticamente denso, estable, energéticamente eficiente y probado que funciona durante un intervalo de tiempo de unos 3,5 mil millones de años. Aunque no es el primer proyecto que pretende demostrar el potencial de almacenamiento del ADN, el equipo de Church conjugó la última generación de la tecnología de secuenciación con la nueva estrategia para codificar 1.000 veces más cantidad de datos de lo que antes se había almacenado en el ADN.


El equipo informa de sus resultados en la edición 17 de agosto de la revista Science.


Enlace a Bitnavegantes.

Enlace a Prueba y Error.



Ahí donde algunos medios experimentales, como la holografía cuántica, requieren de temperaturas muy frías y tremenda energía, el ADN es estable a temperatura ambiente. "Puedes dejarlo donde quieras, en el desierto o en tu patio trasero, y estará ahí 400.000 años después", señaló Church.


La lectura y escritura del ADN es más lenta que en otros medios, lo que hace que sea más adecuado para el almacenamiento de cantidades masivas de datos, en vez de para una recuperación rápida o el procesamiento de datos.

Sobre unos cuatro gramos de ADN, teóricamente, se podría almacenar la información digital creada por la humanidad en un año.

Aunque otros proyectos hayan codificado los datos en el ADN de las bacterias vivas, el equipo de Church utilizó microchips comerciales de ADN para crear un ADN independiente. "Hemos evitado deliberadamente las células vivas", apuntó Church. "En un organismo, tu mensaje es una pequeña fracción de toda la célula, por lo que hay una gran cantidad de espacio desperdiciado. Pero lo más importante, casi tan pronto como el ADN entra en una célula, si el ADN si no sirve para sobrevivir, si no es evolutivamente ventajoso, la célula comenzará a mutarlo, y puede que lo elimine completamente.

"Por otra parte, el equipo ha rechazado la llamada "shotgun sequencing", que vuelve a ensamblar las secuencias largas de ADN identificando las superposiciones de hebras cortas. En vez de eso, siguieron el ejemplo de la tecnología de la información, y codificaron el libro en bloques de datos de 96 bits, cada uno con una dirección de 19 bit para guiar el montaje. Incluyendo imágenes JPEG y el formato HTML, el código para el libro requería 54.898 de estos bloques de datos, cada uno en una secuencia única de ADN. "Hemos querido ilustrar cómo el mundo moderno está realmente lleno de ceros y unos", dijo Kosuri.






La información digital se guarda en ceros y unos, es decir código binario. O es apagado y 1 es encendido, por que el soporte es electrónico. La información biológica se guarda en cuatro "bases nitrogenadas": adenina; timina; citosina y guanina. La unidad de información informática es el octeto, conocido como byte, es decir, una combinación de ocho elementos, ceros y unos. La unidad biológica es el triplete, es decir, combinaciones de tres bases nitrogenadas. Si hacéis un poco de cálculo os daréis cuenta que un byte tiene 256 combinaciones posibles (2x2x2x2x2x2x2x2 = 256). Es decir, que 256 octetos nos sirven para tener el alfabeto latino, todos los signos de puntuación e incluso comandos como podéis ver en las tablas de arriba.

El código genético tiene 64 combinaciones posibles (4x4x4 = 64). El código genético codifica para 20 aminoácidos que son los elementos con los que se construyen las proteínas, las proteínas son cadenas de aminoácidos. Además el código tiene un triplete para comenzar la lectura y tres tripletes para finalizar la lectura. Si como dice George Church podemos escribir un texto en código genético entonces necesitaremos que algunos de los tripletes codifiquen para signos de puntuación. Esto habría que hacerlo dedicando algunos de los tripletes redundantes, hay aminoácidos que tienen hasta cuatro codificaciones, ver por ejemplo los casos de los aminoácidos serina, prolina o leucina (ser, pro o leu en la tabla del código genético más arriba). En todo caso 64 combinaciones son suficientes para sustituir el alfabeto y los signos de puntuación.

Pero... ¿Qué es lo realmente relevante de este trabajo?, pues bien, que un soporte estable saca un contenido del mercado. Este concepto no es mío. Pertenece a el filósofo y profesor de la Universidad Autónoma de Madrid Enrique Alonso. El tema no es baladí. Si no que se lo pregunten a Mel Gibson que ha demandado a Apple por que ha descubierto que no puede dejar en herencia a su hijo las canciones que él ha comprado en itunes. Sin un soporte estable siempre necesitaremos de una empresa que actualice los formatos y que guarde la información. Esto va en contra de la democratización del acceso a la cultura por que de esta manera sólo quien pague va a poder tener acceso a la misma. La popularización y democratización de la cultura que se logró con la imprenta corre peligro de desaparecer, al menos hasta que la sociedad tome cartas en el asunto. Utilizar ADN para darle un soporte a la información digital puede ser un primer paso.




No hay comentarios:

Publicar un comentario

Cada vez que lees un artículo y no dejas un comentario, alguien mata a un gatito en alguna parte del mundo...