Tarea II: Corrección de un cromatograma

 Tarea II: Corrección de un cromatograma


Antes de empezar (y a modo de introducción)...

¿Qué es un cromatograma? 

Un cromatograma, según la definición habitual, es una representación gráfica/visual de los resultados obtenidos en un análisis cromatográfico, mostrando la separación entre los componentes. En concreto, un cromatograma de secuanciación Sanger muestra los picos de colores correspondientes a cada nucleótido, identificado en una electroforesis capilar. Ello permite determinar, de forma más o menos concluyente, la secuencia de una cadena de ADN específica.


¿Cómo se realiza un cromatograma?

Se genera tras una reacción de técnica de PCR denominada PCR de terminación de cadena, utilizando dideoxinucleótidos fluorescentes (paralizan la replicación al polimerizarse), seguida de electroforesis capilar automatizada que permite separar los fragmentos por tamaños. Al final del capilar, un láser excita los fluorocromos de los ddNTP's marcados, y un detector registra los picos de colores que representan la secuencia. El conjunto se visualiza mediante un software especializado como Chromas. 


¿Qué aspectos indican la calidad relativa?

En un cromatograma de secuenciación Sanger (más comúnmente conocido como electroferograma), la calidad de la secuencia se determina al evaular características como la forma de los picos, la claridad de la señal o la consistencia de ésta a lo largo de la lectura. 

En concreto existen unos nueve indicadores de análisis de la secuencia, éstos son; forma y definición de los picos (altos y estrechos), separación entre picos (separados vs solapamiento), relación entre la señal y el ruido de fondo (señal alta, ruido bajo. e uniformes), presencia de picos secundarios (secuencia única), intensidad de la señal (intensidad uniforme), calidad de la secuencia por segmentos (zonas diferenciadas), valores de calidad (software de análisis de calidad), longitud de lectura útil (primer indicio), y presencia de artefactos (dímeros de primers, productos inesperados, dye blobs), entre otros. 


Corrección del cromatrograma...

- Límite por la izquierda: Base 161. He considerado que el corte por la izquierda se encuentra en la base 161 debido a que en las posiciones previas las señales no son uniformes en intensidad ni separación, y los picos de fondo tienen valores elevados, incluso muy similares a los de la señal principal. 


- Límite por la derecha (razonar): Base 761. A partir de la base 761, los picos se vuelven mucho más irregulares, y las mediciones secundarias también aumentan de intensidad, por lo que la calidad disminuye hasta el punto de no considerarse como válidos el fragmento a partir de dicha base. 


- Anotaciones: El electroferograma se puede calificar como de calidad buena por diversas razones. 

Respecto a los aspectos positivos, se muestra el patrón habitual de tres fragmentos (una región central clara, y los extremos difusos), la región de lectura útil abarca aproximadamente 600 bases (suele ser lo común en la secuenciación Sanger), carece de interferencias en segmentos internos (por la presencia de artefactos como primer dimers), y apenas hay elementos sin identificar (bases catalogadas como N). 

No obstante, como punto negativo, la región inicial mantiene las interferencias más de lo que cabría esperar (en vez de 10-30 bases llega hasta la 160), lo que indica que puede que se haya formado un producto inesperado debido a la unión inéspecifica de un primer, o porque el primer se ha hibridado. 


¿Y si en un electroferograma se observa un tramo central con perturbaciones?              Probablemente se deba a la interferencia de artefactos como dímeros de primers, burbujas de aire, cristales de urea, o moléculas residuales del fluoróforo. También puede estar ocasionado por lapso de inestabilidad en la emperatura o en la corriente (a causa del instrumental del laboratorio), o en secuencias complejas que contengan regiones ricas en G-C o estructuras secundarias (horquillas). 


Resultados del BLASTN...

Tras realizar un blast (BLASTN del NCBI), la base de datos muestra una coincidencia con un 96,67% de identidad con un gen (LOC101310123) de Fagraria vesca (fresa silvestre) que sintetiza el ARNm que codifica el factor de transcripción bHLH75, concretamente la variante X1. Se puede acceder a la ficha de dicho gen a partir del siguiente enlace

Según la base de datos del NCBI, el candidato con mayor similitud, en comparación con la del cromatrograma problema, posee la siguiente secuencia: 


He detectado 19 diferencias/incoherencias entre la secuencia problema y la registrada en la base de datos. La secuencia problema, una vez corregida, se encuentra en este enlace 

Aunque si bien es cierto que algunos de estos cambios mejoran la calidad del cromatograma, otros no parece encajar con los resultados que se han obtenido, ya que en algunos casos el pico es nítido y carece de señales secundarias, lo que me ha llevado a preguntarme: ¿cuál es el objetivo de corregir una secuencia, y qué significa corregir una secuencia?

En base a este dilema, y analizando con deteniendo la secuencia sujeto y la referencia, he catalogado las discrepancias entre grupos de mayor a menor probabilidad en el que el cambio es "adecuado". De este modo, según mi criterio, las altamente probables son;  691 (adición de una G), y 759 (sustitución de una T por una C). Por otro lado, las poco probables son; 445 (T por A), 643 (T por C), 664 (C por T), 677 (delección de G), 718 (A por G), y 759 (T por C). 

Mientras que el resto de disparidades (aproximadamente unas 10) son altamente improbables, debido a la calidad y resolución que muestra el cromatograma respecto a los picos y señales secundarias. La causa a la que se atribuye generalmente estas "divergencias" es a variaciones puntuales (mutaciones, deriva evolutiva) entre los sistemas biológicos de extracción, más que a errores en la secuenciación de la secuencia objetivo. 


Resultados con BLASTX...

El BLASTX se realiza a partir de la secuencia de aminoácidos del fragmento estudiado. De este modo se lleva a cabo una búsqueda de similitudes con otras secuencias de la base de datos, y se obtiene información relevante como discrepancias entre ciertos aminoácidos (a raíz de mutaciones puntuales), o desplazamientos del marco de lectura que darían lugar a una proteína completamente distinta a la esperada. 

Tras cargar la secuencia en formato FASTA (de la secuencia problema), se obtuvo el siguiente resultado: 


Mientras que la secuencia aminoacídica regristrada en la base de datos del NCBI para el mismo gen y variante es: 



¿Qué conclusiones se pueden extraer de estos resultados?
En primer lugar es importante señalar que hay una variación entre el número de nucleótidos/aminoácidos totales de la secuencia problema y de laf secuencia registrada, respectivamente cuentan con: 256 y 276 residuos. 

La principal conclusión que se puede deducir a partir de las diferencias encontradas en las secuencias, es la presencia de mutaciones puntuales, los fenómenos de deriva genética entre diferentes variedades, y la detección de errores en el proceso de secuenciación Sanger. 

En el caso de la última situación, es fiable en los segmentos del principio y del final, ya que, la calidad y fiabilidad del resultado es ínfima. No obstante, para las discrepancias encontradas en mitad de la secuencia no es adecuado, solo a partir de esta información, establecer que la secuencia registrada es la "verdadera" mientras que la obtenida no refleja con veracidad la secuencia problema. 

Para comprobarlo considero que lo más recomendable sería analizar varias réplicas técnicas con la secuenciación de Sanger, y utilizar otras técnicas de secuenciación más sofisticadas y precisas. Aunque creo necesario señalar que este proceso no siempre es impresicindible, y depende principalmente del fin para el que se realice. 

Por ejemplo, si es para detectar genes ortólogos entre especies que se creen filogenéticamente relacionadas, no es esencial conocer con exactitud los nucleótidos de ambos; mientras que si es para ensayos de análisis de mutaciones sí lo sería, debido a que sería necesario discernir entre mutación y error del instrumental. 

Respecto a las conclusiones, se ha podido detectar varias discrepancias entre la secuencia problema y la registrada en lo referente a; cambio de aminoácidos en determinadas posiciones, e incluso un desplazamiento en el marco de lectura. La relevencia y/o repercusiones de dichos cambios solo se verán reflejados cuando se analicen las propiedades estructurales y funcionales de la proteína expresada. 

Ello es debido a que, como se ha mencionado anteriormente, a priori no se debe catalogar como "verdadera" la secuencia registrada o como "errónea" la secuencia obtenida, ya que depende del contexto y de las técnicas de secuenciación empleadas. No sería correcto asumir que la secuencia resgistrada es la que representa con mayor fidelidad la secuencia problema, pues existen otras posibilidades como la deriva genética entre diferentes variantes de una misma especie, fenómenos de mutaciones espontáneas, o simplemente por errores aleatorios durante la secuenciación. 

¿Qué información nos interesa conocer en relación a ambas secuencias?
Con una búsqueda más exhaustiva, se podría determinar si la proteína que codifica nuestra secuencia problema es biológicamente funcional o, por el contrario, posee mutaciones puntuales (cambios, delecciones, adiciones) que produzcan cambios en aminoácidos esenciales para su actividad. También es habitual que ocurran cambios en el marco de lectura, lo que generalmente altera completamente la secuencia de aminoácidos. 

Comentarios

Entradas populares de este blog

Tarea I: Protocolo experimental para la clonación del gen de la insulina (versión 1)

Material complementario de la Tarea I

Tarea I: Protocolo experimental para la clonación del gen de la insulina (versión 2)