Tema 4. Alineamiento múltiple de secuencias

(proteínas y ácidos nucleicos)

Utilidad de las comparaciones múltiples de secuencias
- Asignación a familias de genes conservados. Un buen alineamiento te puede convencer que una secuencia de ácido nucleico o una proteína no caracterizada es un miembro más de una familia génica.
- Asignación de funciones. De especial relevancia. Hay ocasiones en las que muchas proteínas comparten un mismo dominio, como los factores de transcripción, que comparten el sitio de unión al ADN. Un análisis de la comparación de estas secuencias nos puede revelar la posible función de alguna de ellas.
  - Ver ejemplo de comparación.
  - Ver ejemplo de análisis de la comparación anterior. (realizado con el programa FigTree)
- Análisis Filogenéticos. Si añades cuidadosamente secuencias en tus alineamientos múltiples, puedes reconstruir la historia de la evolución de estas proteínas. Ver Phylodendron, TreeTop,
- Identificación de Patrones. Descubriendo regiones muy conservadas puede identificar regiones que tienen asociada una función. Ver servicios SequenceLogo que genera unas gráficas muy aceptadas.
- Identificación de Dominios. Es posible convertir un alineamiento de secuencias en un perfil que describa una familia de proteínas o un dominio (PSSM). Y puedes usar este perfil para buscar nuevas proteínas que pertenezcan a esta familia. Ver PSSM Viewer del NCBI (equivalente a PSI-BLAST)
- Encontrar Elementos Reguladores del ADN o patrones conservados. Puede convertir un alineamiento de secuencias de ADN donde se una una proteína en una matriz para escanear otras secuencias de ADN con sitios potenciales de unión de estas proteinas. Ver Gibbs (usa un método estocástico, con elementos de busqueda y selección arbitrarios)(ojo, Gibbs es posible que nunca de el mismo resultado)
- Encontrar inserciones, delecciones, reorganizaciones génicas
- Predicción de la Estructura. Un buen alineamiento te puede dar una buena predicción de la estructura secundaria e incluso terciaria de una proteínas. Ver la función magic fit del programa SwissPDB Viewer, o la comparación de secuencias en el servidor PDB
- Análisis de SNP. Varios alelos de genes tienen diferentes secuencias de amino ácidos. Una comparación múltiple de secuencias puede indicar si hay un SNP no sinónimo (que cambie el amino ácido) que pueda ser potencialmente deletereo. Ver el servidor SIFT
- Análisis mediante PCR para el diseño de cebadores.
  - Ver el servidor j-CODEHOP (probablemente retirado en el 2019)
  - Ver el servidor DECIPHER
  - Descargar el programa HYDEN
  - Descargar el programa primer_designer

Cómo interpretar las alineaciones de las secuencias

Métodos para el alineamiento de secuencias de proteínas y ácidos nucleicos

Mediante el alineamiento global progresivo de las secuencias, también llamado de programación dinámica. Con este método, las primeras secuencias que se disponen en el alineamiento son las que más se parecen entre si y se colocan por ello en primer lugar. Luego se va construyendo un alineamiento con el resto de las secuencias que se van incorporando ajustándose a las dos primeras. Algunos programas que usan este método son:
- La serie de programas CLUSTAL, con mucho los más conocidos
  - CLUSTALW
  - CLUSTALW2
  - CLUSTAL OMEGA (recomendado. los más conocidos, en sus diferentes variantes en entornos gráficos o no)
- MUSCLE (porque es muy rápido)
- TCOFFE (porque es muy preciso. Permite combinar secuencias y estructuras, buscar en la base de datos PDB, etc..)
  - programas como TREECON para hacer bootstrapping con secuencias alineadas

Estos programas, y en particular Clustal realizan comparaciones de todas las secuencias entre sí usando el algoritmo de alineamiento global de Needleman-Wunsch, siendo capaces de crear secuencias consensos.
El problema que puede surgir con este tipo de alineamientos, es que dependen del alineamiento de las dos secuencias mas semejantes entre si. Si se comete un error con ellas, el error se traslada al resto de las secuencias que se incoporan al proyecto de secuenciación. Estos errores son más problemáticos cuando las primeras secuencias, las más semejantes entre si, y son dispares entre sí.
Estos métodos de alineamientos son magnificos cuando las secuencias son similares entre sí
El programa Clustal está especialmenbte diseñado para dar un buen alineamientos con un número elevado de secuencias, dando una indicación muy buena de la estructura en dominios de estas secuencias que se comparan.

Criterios para la elección de secuencias
- Criterios generales
- ¿Extracción de secuencias?
- Análisis de las anotaciones para buscar fuentes de variaciones

El programa Genedoc para mostrar las comparaciones de las secuencias
Página con enlaces de programas y servidores WEB capaces de realizar alineamientos múltiples de secuencias

Alternativas cuando tus comparaciones no son lo suficientemente buenas (buscadores de dominios):
- El servicio Pratt (para identificar motivos en tus secuencias usando PROSITE)
- Otros servidores que realizan busquedas como:
  - eMotifSearch y eMotifScan (que deben instalarse localmente en algunos casos)
  - MDScan para buscar lugares de unión de factores de transcripción
  - 3motif para visualizar la estructura tridimensional de motivos encontrados dentro de PDB
  - eMOTIF Search para buscar motivos conservados dentro de las proteínas
- El servidor MEME para localizar dominios conservados dentro de un conjunto de proteínas
- El servidor Improbizer para encontrar sitios de unión de proteínas al ADN y al ARN
- El servidor Motif Matcher para buscar motivos dentro de tus proteínas

Organigrama de métodos de trabajo

Tema 4. Alineamiento múltiple de secuencias (proteínas y ácidos nucleicos)

Prácticas y Problemas

Tema 4. Alineamiento múltiple de secuencias

(proteínas y ácidos nucleicos)