Tema
1. Introducción |
La secuenciación del ADN mediante la tecnología Sanger (uso de di-deoxinuclueótidos como terminadores) es una técnica a la que cualquier persona puede acceder en cualquier momento y a un precio extremadamente asequible. Basta aislar un fragmento de PCR o aislar un plásmido y mandarlo a cualquiera de los servicios de secuenciación disponibles hoy día. El precio de la secuenciación está por debajo de los 10 euros. Estas empresas te recogen su muestra, las secuencian, y te envían los resultados mediante correo electrónico en unos pocos días. El usuario final solo debe procesar los archivos enviados, que son normalmente lo que llamamos un cromatograma proveniente de la electroforesis capilar y la secuencia analizada y extraida por el propio equipo.
Muchos de los avances que se producen hoy día provienen de la información obtenida a partir de la secuenciación de los ácidos nucleicos. Al principio, ya seamos expertos o no en el área de la Biología Molecular, estas secuencias no representan más que un galimatías incomprensible formado por un abecedario de solo 4 letras (A, C, G y T). Aquí teneis un ejemplo
CCTAGCCTAACGTCAAAGCAATGCCGATCCATCCGATCCATTAGGC |
RETOS Y UTILIDADES DE LA BIOINFORMÁTICA
|
Estas "letras" son las bases contienen un importante mensaje: los genes. Es esencial aprender a extraer información a partir de las bases de datos de ácidos nucleicos. Por ejemplo, no es fácil identificar la presencia y los límites de un gen, qué cadena de DNA es la que tiene sentido (es decir, reconocer la orientación del gen dentro del fragmento de ADN), que región del gen corresponde al promotor, a la zona codificante, a las zonas UTR, etc.
Tras el descubrimiento reciente de que el ADN "basura" no es tal, sino que hay más ARN no codificante expresado en un organismo complejo (como el ser humano) que genes que codifican proteínas, el análisis bioinformático cada vez es mas relevante: hay necesidad de descubrir secuencias que pueden actuar como silenciadores (RNAi), lncRNA (RNA largo no codificante), y un largo etc, que dada la complejidad y tamaño de nuestros genomas, se deben abordar desde la perspectiva de la bioinformática.
Además, mucha de la información presente en las bases de datos, ya ha sido analizada por terceros. Existen instituciones públicas y servidores en Internet que contienen una información extremadamente útil. Pero hay que saber encontrarla y como procesarla. Como ejemplo, decir que existen bases de datos de genes implicados en enfermedades humanas (base de datos OMIM), de proteínas que han sido cristalizadas cuya estructura es conocida (PDB, ya conocida por vosotros), de geles de electroforesis realizadas en 2 dimensiones de extrema utilidad en el campo de la proteómica, de las enzimas de restricción que indican no sólo el punto de corte, sino donde pueden llegar a adquirirse, etc. Son tantas, que es absolutamente imposible mencionarlas todas aquí.
Además, la importancia de esta Asignatura es creciente conforme se siguen desvelando la secuencia de nuevos genomas completos. El número de secuencias que están a nuestra disposición en las bases de datos esté aumentando a un ritmo exponencial. Esto hace que sea muy complejo su manipulación.
Ahora esbozaré algunas de las posibles aplicaciones que podemos realizar si somos capaces de aprovechar la disponibilidad de estas bases de datos de secuencias. Estoy seguro que deberé actualizar esta lista con mucha frecuencia.
EN LA INVESTIGACIÓN BÁSICA
EN RELACIÓN CON LA IDENTIFICACIÓN DE PROTEINAS
EN EL CAMPO SANITARIO