jueves, 2 de septiembre de 2021

Práctica encuentra los ORFs en las secuencias de ADN

Cuando empezamos a aprender a leer tenemos que aprender a reconocer una frase. Nosotros usamos el alfabeto latino (ABCDEFGHIJKLMNÑOPQRSTUVWYZ). El alfabeto latino procede de otros alfabetos anteriores en el tiempo. Como la escritura apareció en muchos sitios distintos existen otros alfabetos como el griego, el árabe, el armenio, el georgiano, el coreano. Las frases en castellano, y en los idiomas que usan el alfabeto latino  empiezan por Una letra mayúscula y acaban en un punto. Como por ejemplo: 

En el caso del código genético existe uno solo para todos los organismos vivos. Esto es así porque todos los organismos vivos proceden de un mismo antepasado común al que los biólogos le hemos puesto nombre: Luka. Como todos procedemos de un mismo progenitor nuestro código se basa en 4 letras A G C T. En los ordenadores y en los robots, su código de información se basa en 0 y 1. Cada 0 (el apagado del procesador) o el 1 (el encendido) se llama bit, y cada 8 bits tenemos 1 byte. Cuando escribimos un whasap cada letra de alfabeto latino viene codificada en bytes. Es lo que se llama el código ASCII

En el caso genético, lo mismo que el código informático, las 4 letras A G C T, lo que serían el 0 y 1 en el código informático, se toman de tres en tres (lo que llamamos tripletes) y no de ocho en ocho como en los computadores. La mayúscula el comienzo de la frase es el triplete ATG y el punto puede ser cualquiera de estos tres tripletes: TAA, TGA, TAG.

Un ORF sería, por ejemplo, la siguiente secuencia de ejemplo: 

5´ATG CCC GCT ATC TAA 3´
5´ATG CCC GCT ATC TGA 3´
5´ATG CCC GCT ATC TAG 3´

En el primer gen que secuencié, podemos ver también un ATG y un stop TAA:

Vamos a practicar a encontrar ORF:

1 PREGUNTA: Encuentra el ORF en este fragmento de ADN. ATG comienzo y stop TAA; TAG o TGA. Tamaño del ORF en nt (el stop cuenta)

5' ACCTAGCCTTTCCAAATGCGCATTACAATATATAA 3'

Solución: Una secuencia genética se escribe usualmente utilizando una de las dos hebras de ADN. La razón, ahorrar espacio, como la información de la otra hebra se extrae automáticamente porque es complementaria por ese motivo no se suele representar. Para hacer un ejercicio de PCR necesitamos escribirla.

5' ACCTAGCCTTTCCAAATGCGCATTACAATATATAA 3'

3' TGGATCGGAAAGGTTTACGCGTAATGTTATATATT 5' 

Ahora tenemos que buscar un ORF (Open reading frame en inglés) el ORF es la información del gen que se va a traducir a proteína. El ORF consta de un ATG, que es el inicio, lo mismo que en castellano sería la primera letra, siempre en mayúscula, de una frase, y un stop, que sería el punto al final de la frase si en vez de código genético estuviésemos trabajando con frases en castellano.

5' ACCTAGCCTTTCCAAATG/CGC/ATT/ACA/ATA/TAT/AA 3'

Primero situamos el ATG y de 5' a 3' empezamos a buscar triplete a triplete un stop. ¿No hay stop? entonces no hay un ORF en la hebra de arriba. Vamos a buscarla en la de abajo.

En la hebra de abajo tenemos que leer de 5' a 3' también, pero OJO hay que leer como los árabes, de derecha a izquierda

3' TGGAT/CGG/AAA/GGT/TTA/CGC/GTAATGTTATATATT 5'

En la hebra de abajo tenemos un ORF. Se trata de un ORF (tamaño escolar, en la realidad los genes suelen ser mucho más grandes) de 21 nucleótidos que codifica para una proteína de 6 aminoácidos.

Ahora vamos a amplificar este ORF mediante PCR. Tenemos que diseñar unos primers. Normalmente los primers tienen una longitud de entre 15 y 20 nucleótidos. Nosotros para este ejercicio vamos a utilizar unos primers de 5 nucleótidos.

Si eliminamos la parte del ADN que no nos interesa para que nos sea más fácil trabajar
 
5'  CTA GCCTTTCC AAATGCGCAT 3'
3'  GATCGGAAAGGTTTACGCGTA 5'

El ORF se encuentra en la hebra de abajo, la que va 3´-> 5´. Si esta hebra le "damos la vuelta" para que podamos verla de 5´->3´quedaría así: 5´ ATG CGC ATT TGG AAA GGC TAG 3´

2 PREGUNTA:

Identifica el ORF en esta secuencia de ADN y di cuantos nt tiene:

5' TATGTTTTATAAAGTCGGATATCTAACCCTTGTCACGTATTTCATGCGCGATGG 3'

Respuesta: ver el video hasta el min 2:44

3 PREGUNTA: Identifica el ORF en esta secuencia de ADN.  ¿Cuántos nucleótidos tiene este ORF?

5'TATGTTTTTTAAAGTCGGATATCTAACCCTTGTCACGTATTTCATGCGCTAGGG 3'

Respuesta: el ORF tiene 51 nucleótidos  5'ATGTTTTTTAAAGTCGGATATCTAACCCTTGTCACGTATTTCATGCGCTAG 3´

4 PREGUNTA:

5' TATGTTTTATAAAGTCGGATATCTAACCCTTGTCACGTATTTCATGCGCGATGG 3'

Identifica el ORF en esta secuencia de ADN ¿Cuántos nucleótidos tiene este ORF?

Respuesta: no encontramos el ORF en la secuencia 5´->3´. Encontramos el ORF en la secuencia 3´-> 5´: ATG AAA TAC GTG ACA AGG GTT AGA TAT CCG ACT TTA TAA  

--------------------------------------------------------------------------------------------------------------------------

Por supuesto tenemos herramientas informáticas para hacer este proceso automático. La página del "National Center for Biotechnology Information", también conocido por "NCBI", de los Servicios Nacionales de Salud de los EEUU "NIH" proporciona todas estas herramientas. En el buscador ponemos Genbank para entrar en el banco de genes del NCBI. Ya en el Genbank escribimos Cloning vector pUC19, complete sequence.

El plásmido pUC19 tiene su secuencia en esta página en formato FASTA

Si copiamos la secuencia Fasta de pUC19 y la introducimos en el program ORF Finder del NCBI, y en las especificaciones escogemos que aparezcan los ORF mayores de 75 nt. 

Obtenemos estos ORF. Vemos en el gráfico que el pUC19 tiene dos genes, el de la resistencia al antibiótico ampicilina y el gen lacZ que va a colorear a las colonias de Escherichia coli portadoras de este plásmido

En el gráfico de los ORF de pUC19 vemos que aparecen muchos más ORFs, en concreto 16 ORF. Lo que el algoritmo busca son ATG y en pauta de lectura, es decir, de tres en tres, un stop (TAA, TAG o TGA). Para que un ORF se convierta en proteína se necesitan algunas cosas más, pero de eso no hablaremos en este post. En realidad solo dos de estos 16 ORFs que ha detectado el ORF finders son ORF que corresponden a los genes Ampicilina resistance (ApR) y la beta-galactosidasa LacZ

5 PREGUNTA: Localiza el gen Ampicilina resistance entre los  16 ORF que ha detectado el ORF finder.

Solución: posiblemente el ORF más grande, el ORF6 sea el correspondiente al gen ApR

Para comprobarlo debemos de hacer un Blast. En la propia página del ORF finder, en la esquina inferior izquierda tenemos un botón para que, si tenemos seleccionado el ORF6 seleccionado, entrar en el Blast. El resultado nos muestra que todas las secuencias similares que ha encontrado el Blast son de un gen de proteínas betalactamasas, es decir, proteínas que confieren resistencia a la ampicilina. Por lo tanto, el ORF6 es realmente el gene Ampicilina resistance (ApR)

6 PREGUNTA: ¿Es un gen el ORF11?

7 PREGUNTA: ¿Es un gen el ORF5?

8 PREGUNTA: En el gráfico:

¿Por qué algunos ORF tienen flechas hacia un lado y otros ORF para el otro lado? ¿Por qué en el caso del ORF5 el estar está en la posición 216 y el stop en 539?

No hay comentarios:

Publicar un comentario

Cada vez que lees un artículo y no dejas un comentario, alguien mata a un gatito en alguna parte del mundo...