CRITERIOS GENERALES PARA LA ELECCION DE SECUENCIAS EN UN ALINEAMIENTO

1. ¿Comparamos ADN o Proteínas?
Usar PROTEINAS cuando es posible porque la función la desarrollan las proteínas e incluyen mas información sobre la función que desempeña. Luego se puede volver a la secuencia de ADN. Obviamente hay casos como los sitios de unión en el ADN con proteínas o las secuencias que codifican ARN no codificante que deben analizarse comparando ADN

2. ¿Cuantas secuencias comparamos?
Mientras más número de secuencias compares mas significativa será la comparación, pero damos mas margen a que se comentan errores. Hay que usar el sentido común, y no hay una regla para definir un número mágico. Estadísticamente la comparación de 10-15 secuencias es muy significativa, pero puede llegar a serlo también si se usan menos secuencias

3. ¿Máximo porcentaje de disimilaridad?
Si se hace una comparación con proteínas con menos de un 30% de similaridad, surgen problemas

4. ¿Podemos usar secuencias muy similares?
Si la similaridad quiere decir IDENTIDAD, no merece la pena usarlas en las comparaciones. Hay ocasiones en las que se tratan de comparar dos variantes de una misma proteína y de un mismo organismo encontrada en las bases de datos que se diferencian en uno o unos pocos aminoácidos porque son sencillamente una versión silvestre y otra mutante de dicho gen.


5. ¿Usamos secuencias completas o parciales?
En general, los programas de comparación de secuencias prefieren que se usen secuencias con una longitud similar, y pueden tener problemas si se incluyen secuencias con menos longitud. Pero hay ocasiones en las que no tenemos suficientes datos, y conviene usar secuencias incompletas para obtener algún tipo de información

6. ¿Qué hacemos con aquellas secuencias que tienen dominios con secuencias de baja complejidad o repetidos?
Evitarlas en la medida de lo posible porque crean artefactos a la hora de hacer los alineamientos

7. ¿Mezclamos diferentes partes de los genes?. ¿Comparamos promotores con CDS y con terminadores o zonas UTR todo al mismo tiempo?
En la medida que los algoritmos de alineamiento múltiple de secuencias son globales, no se recomienda comparar secuencias completas. Es más recomendable extraer las diferentes partes de la secuencias, y luego compararlas. Por ejemplo, se deberían comparar solo los CDS cuando se quiere averigurar la funcionalidad de la proteína que dichos genes codifican. Pero también se pueden comparar las secuencias 5'UTR o 3'UTR (por separado) para encontrar elementos reguladores presentes en estos elementos sin que el alineamiento se vea afectado.