Tema 2: Bases de Datos de ácidos nucleicos y proteínas

[Tarea a realizar] Práctica con las ANOTACIONES y PROPIEDADES de un genoma eucariota

1. Haga un esquema lo más detallado posible de los 3 genes que están codificados por los CDS comprendidos entre el tercer y el quinto lugar que puede encontrar en ESTE ENLACE del cromosoma 4 de Arabidopsis. (Nota aclaratoria: Debéis buscar los primeros 5 genes, olvidaros del primero y el segundo porque lo hemos hecho ya en clase, y luego hacer los mapas con los genes tercero, cuarto y quinto)

Tiene que incluir:

Los límites de la secuencia codificante o CDS y su dirección relativa unos con los demás, con solución de continuidad en el esquema (no hacer tres esquemas diferentes sencillamente porque en el genoma no hay tres piezas separadas de esos genes).
Marque en cada uno de los CDS cúal es la cadena que sirve como molde para la transcripción.
Indicar la distancia en bases que hay entre los límites de los CDS. Se trata de averiguar si los genes están cercanos o alejados entre si.
Si hay un ARNm inmaduro que es diferente del maduro, hacer el esquema comparado de los dos. Recuerde que el ARNm inmaduro no tiene poli(A) y que el maduro tiene la cadena de poli(A) y la caperuza CAP en el extremo 5'. Recuerde que la caperuza no es una región del ARN, sino solo una base modificada.
Indicar donde están los intrones y los exones.
Indicar los posibles límites y extensión de los promotores de cada uno de los genes.
Indicar los posibles límites de las zonas 3'UTR de cada uno de los genes.
Señalar las partes de los 5'UTR que son reconocibles (líder, etc). Indicar si ese lider está en el ARN o en el ADN.
Indicar los posibles puntos donde se inicia la transcripción (o sitios +1). Señalar el punto +1 en un lugar aproximado (¿el sitio +1 está en el ADN o en el ARN?).
Indicar en la cadena correcta del ADN el lugar donde se encuentra el codón ATG de inicio del CDS (en su orden y orientación correcta) y en la cadena contraria su secuencia correspondiente.
Señalar cada uno de los 3 codones de terminación en cada uno de los genes. ¿Se usa el mismo codón de terminación en los 3 genes?
Señalar donde posiblemente haya promotores compartidos por pertenecer a genes divergentes. Considerar que un promotor tiene unos 2500 a 3000 bases de longitud, y la distancia que hay entre los genes para valorar este punto.
Señalar donde posiblemente haya regiones en la que haya ARNm complementarios unos de los otros por ser genes divergentes o convergentes próximos unos al lado de los otros
Extraiga del tercer CDS la secuencia correspondiente al promotor y genere con él un archivo FASTA que contenga el ATG inicio de mensaje de este tercer CDS en la orientación forward (es decir, con el extremo 5' a la izquierda).

2. Desde el NCBI, acceda a la secuencia de ácido nucleico con número de accesión D90206. Indique:

A qué organismo corresponde dicha secuencia
Qué longitud tiene y de qué se trata (¿ADN, ARN, proteína?)
¿Cuántos intrones y exones contiene la secuencia?
¿Qué función biológica tiene esta secuencia?
¿Se importa esta secuencia a algún compartimento celular? ¿Por qué lo ha deducido?
Extraiga la secuencia del CDS maduro en formato FASTA y guárdela localmente como un archivo de texto en su ordenador
Extraiga la secuencia correspondiente al líder o zona 5'-UTR y guárdela localmente en su ordenador en formato FASTA y en formato Genbank. Use para ello la opción "Change region Shown" que ve en la ventana que muestra la secuencia. Indique los pasos que ha dado para hacerlo.
Haga lo mismo con la secuencia correspondiente a la zona 3'-UTR de la secuencia, pero esta vez usando un copia y pega de la secuencia y generando manualmente un documento de texto con la secuencia en formato FASTA
Busque una secuencia correspondiente al promotor de este gen que contenga 3000 bases. Cuando lo extraiga, incluya la secuencia en formato FASTA de tal forma, que contenga el ATG inicio del CDS.
Si es un ácido nucleico, indique cual es el número de accesión de la secuencia de la proteína correspondiente que codifica
¿Qué tipo de referencias cruzadas (=enlaces) podemos llegar a obtener de las anotaciones de esta secuencia de ácidos nucleicos?
¿Qué tipo de referencias cruzadas (=enlaces) podemos obtener desde las anotaciones de la secuencia de proteína correspondiente a este gen?
¿Qué otras referencias cruzadas podemos obtener a partir de otras páginas a las que accedemos desde esta secuencia?
Obtenga un par de cebadores para amplificar mediante PCR esta secuencia genómica de ADN que pueda usarse como sondas en las hibridaciones (como en los Southern)
Obtenga un par de cebadores para amplificar mediante PCR la secuencia correspondiente a al menos parte del CDS con la mayor longitud posible de este gen usando como partida el ARNm de este mismo gen (es decir, usando rt-PCR). Indique los pasos que tiene que dar.
¿Qué dominios conservados tiene la proteína que este gen codifica?
Indique algunos de los genes que están ligados (= próximos ) a la izquierda y a la derecha de este gen D90206 (recomendaciones: puede buscar con el número de accesión de este gen en una de las bases de datos del NCBI que no sea precisamente nucleotide)
¿Qué base de datos ha usado para obtener la secuencia genómica y los genes ligados a este gen?
Obtenga un esquema gráfico del conjunto de genes alrededor de este gen (los genes ligados a este gen)
De la información obtenida del punto anterior, ¿podría deducir si los genes ligados a este gen forman parte de un cluster (cluster = agrupación) de genes con funciones relacionadas o similares?
¿Puede llegar a especular si la secuencia de esta proteína está conservada o no?
¿Puede indicar alguna bibliografía científica adicional a la que viene en las propias anotaciones del gen que nos de información relativa a la función biológica de esta proteína?
¿Se conoce la estructura tridimensional de la totalidad o parte de esta proteína?

SEGUNDA PARTE (a realizar en una segunda tarea)

Prácticas con búsquedas en Bases de Datos

1. Acceda al servidor Genome Data Viewer humano de GenBank, y dentro de ella el genoma humano. Usando los servicios de búsqueda y los diferentes menús indique:

Cuantos genes que codifican receptores (receptor) han sido identificados hasta el momento en el ser humano.
Qué cromosoma contiene un número mayor de genes anotados con la palabra receptor adrenergico (adrenergic receptor).
¿Por qué se encuentran tantos hits cuando se hace una bússqueda con estas dos palabras? ¿Hay en realidad tantos genes que codifican este tipo de receptores en nuestro genoma?
¿Cuántas copias de genes que codifican este gen se han identificado hasta el momento?
¿Por qué aparecen genes en el que se señalan otras especies en la lista de resultados (como Bus taurus, Mus musculus)?
Busque el gen con el número de accesión NM_000684.2 en MapViewer. Indique:
1. ¿En qué cromosoma se encuentra localizado?
2. ¿Hay descritas en el MapViewer algunas secuencias correspondientes a secuencias de una librería EST asociadas a este gen?
3. Cuales son los dos genes más próximos a este gen que están localizados en este mismo cromosoma. ¿Se conoce la función de los mismos?.
4. ¿Se ha publicado alguna información sobre este gen NM_000684.2 en alguna publicación científica?
5. ¿Contiene intrones este gen?
6. ¿Cuál es la función biológica de este gen?
7. ¿Qué tipo de enfermedades derivadas de la alteración de este gen pueden originarse?
8. ¿Qué rango de bases constituye la fase de lectura abierta o CDS?
9. Grabe la secuencia de DNA de este gen en su entorno de trabajo en formato GenBank y en formato FASTA.
10. Cual es el número de accesion de la proteína codificada por este gen
11. Use la base de datos UniProt. Describa algunos términos GO relacionados con este gen
12. Usando UniProt describa alguna mutación que provoque un mal funcionamiento de este gen
13. Usando UniProt describa algunas modificaciones de los aminoácidos descritas en este gen
14. Describa algunos medicamentos o drogas que pueden interaccionar con este gen
15. Venga, indique qué información se puede obtener usando UniProt sobre este gen/proteína...
16. ¿Se conoce la estructura 3D de la proteína o de alguno de los dominios que tiene esta proteína?.
17. ¿Se encuentra un gen similar a éste en otras especies?

2. Entre en la base de datos OMIM (Online Mendelian Inheritance in Man) del NCBI.

Busque genes implicados en alguna enfermedad conocida (Alzheimer o cualquier otra que le motive).
Recoja información sobre ella, e incluyala en el documento de trabajo o en la página WEB que está construyendo. ¿qué tipo de información relevante ha encontrado que le aporta esta base de datos OMIM?.
Trate de incluir los genes implicados, mutaciones, grupo de ligamientos, y si puede, hasta métodos o servicios o empresas que le permitan poder diagnosticar esa enfermedad.(recomendación: trate de usar la base de daros UniProt para encontrar información)

3. Busque en la base de datos SRA del NCBI (y optativamente en la ENA del EBI) secuencias correspondientes al genoma o al transcriptoma del olivo (Olea europea) [Tarea a realizar]

Investigue qué es un archivo SRA y qué contiene. Qué tipo de secuencias puede contener
¿Cuantos archivos SRA relacionados con Olea Europea hay publicado en esta base de datos?
Busque información sobre lo que es una secuencia en formato fastq. En particular trate de descubrir su formato, qué información contiene y en qué consiste la información de la "calidad" del mismo
Indique cual de las bases de datos publicadas sobre el Olivo en la base de datos SRA es la de menor tamaño. Descárguela localmente e indique alguna característica de la misma (Si son secuencias genómicas o transcriptómicas, a qué tejido corresponde, variedad de oliva, o que tratamiento recibió ese material antes de ser extraido su material genético)
Indique con qué equipo o plataforma ha sido secuenciado las secuencias que ha descargado
Busque algún programa que le permita obtener secuencias en formato FASTA desde las secuencias SRA (debe usar programas bajo Linux). Detalle los pasos que de para obtener secuencias fasta a partir de un archivo SRA

4. Entre en la página principal del NCBI y busque los servicios o páginas que le permitan determinar cuantos genomas completos de bacterias y eucariotas han sido secuenciados hasta el momento. [Tarea a realizar]

Indique el número de genomas secuenciados y la fecha de la consulta. Haga lo mismo pasado unos días y vuelva a indicar el número de genomas secuenciados y de nuevo la fecha. Con ello se hará una idea de la velocidad en la que estamos progresando en el mundo de la secuenciación.
Encuentre el modo de ver cuántos genomas diferentes de Eucariotas, Procariotas y Virus hay secuenciados.
Busque información sobre el genoma de un organismo como Chlamydomonas reinhardtii. Busque el modo de indicar cuantos transcritos contiene ese genoma, cuantas secuencias de proteinas se han identificado, cuál es el número de bases secuenciadas en su genoma.
¿En qué publicación ("separata", "paper") se han presentado estos trabajos ?
Trate de descargar el genoma completo de Chlamydomonas reinhardtii. Haga la descarga localmente en su ordenador, pero no envíe esos archivos descargados a ningún lado (por razones de espacio). Límitése a indicar con una captura de la pantalla que muestre las versiones que puede descargar y el tamaño que ocupan.
La secuencia del genoma. ¿Qué formato de archivos usa? ¿Podría ser capaz de aportar alguna información sobre qué información aportan dichos formatos?
(OPCIONAL pero muy recomendado)¿En algún sitio se menciona algún "palabro" raro que quiera investigar por su cuenta qué de qué se trata y qué es lo que significa ? Por ejemplo, ¿qué es eso de un "scaffold" o qué significa " WGS" que se menciona las páginas de los genomas?
(opcional para nota) ¿Cómo está organizada la información dentro de esta base de datos si se considera un eucariota?. Quiero decir que qué tipo de archivos hay, que información se proporciona, etc

5. Busque en la base de datos del NCBI al menos 10 o más secuencias completas de la región CDS del gen que codifica la acetolactate synthase de plantas. [Tarea a realizar]

Construya dos archivos de texto que contenga las secuencias FASTA. Respete las características de los archivos fasta. Esto es, no deje líneas vacias. Una todos las secuencias una tras la otra. Comienze cada secuencia con ">" seguido del nombre.Guarde estos dos archivos porque lo usaremos más tarde con las prácticas en otro tema.
1. Uno conteniendo las 10 secuencias del ADN
2. y el otro las secuencia FASTA de las proteínas codificadas por estos mismos gene
¿Tiene este gen intrones en algunas de las plantas que ha localizado?
Para el caso concreto de este gen en la planta Amaranthus
1. buscar en la base de datos de proteínas (PDB, Protein Data Bank) si hay alguna acetolactate synthase del que se conozca la estructura tridimensional porque haya sido cristalizada y analizada mediante rayos X.
2. Use el programa Swiss PDB Viewer y cargue el archivo pdb que puede obtener de la pagína anterior para ver la estructura 3D de la misma y haga una copia de varias imágenes de la proteína

6. (opcional) Ya puestos, use el mismo servidor anterior para buscar bibliografía científica referida a la enzima acetolactate synthase, o cualquier otra palabra clave deseada. Puede opcionalmente hacer esta búsqueda en la base de datos ENTREZ del NCBI.

7. (opcional) Regrese a la página principal de la NCBI para describir nuevos servicios y bases de datos de interés. Tómese tiempo de pulsar sobre todas las opciones posibles para familiarizarse con éstos. Indique algunos de ellos que le llamen la atención y le parezcan mas relevantes.

8. (opcional) Acceda a la base de datos de Japón DDBJ y trate de encontrar información, servicios o programas que le llame la atención porque no se dispongan de él/ellos en el NCBI y que crea que le pueda ser útil. Describala en su página WEB.

[Tarea a realizar]

9. Cargue en su cuenta las siguientes secuencias reales que han sido clonadas y secuenciadas a través de los Servicios Centralizados de la Universidad de Córdoba usando ADN aislado del alga verde Chlamydomonas reinhardtii.

Archivo SecChroma_1.abi

Procese este archivo y corrija algunas de las bases usando el programa Chromas.

Haga copias de la ventana del programa con el cromatograma con la opción Edit / Copy Chromatogram (o con la opción (Alt + ImpPnt)) indicando donde están hechas esas correciones.
Indique qué codifica esta secuencia, y qué parte del gen contiene.

Puede acceder a la página principal de este programa desde ESTE ENLACE donde podrá conseguir una una versión avanzada del programa que ahora es gratuita (evita obtener la versión ChromasPro que es para otras aplicaciones). Para aquellos que tengais Linux o Macintosh, podéis buscar programas semejantes en google usando términos como "Chromas Macintosh" o "Chromas Linux" como los que puedes encontrar en este enlace

Diseño de cebadores para PCR

Vídeo que explica detalles sobre el programa Primer Blast