Prácticas
con búsquedas en Bases de Datos |
1. Acceda al servidor Genome Data Viewer humano de GenBank, y dentro de ella el genoma humano. Usando los servicios de búsqueda y los diferentes menús indique:
- Cuantos genes que codifican
receptores (receptor) han sido identificados hasta el momento en
el ser humano.
- Qué cromosoma contiene
un número mayor de genes anotados con la palabra receptor adrenergico
(adrenergic receptor).
- ¿Por qué se encuentran tantos hits cuando se hace una bússqueda con estas dos palabras? ¿Hay en realidad tantos genes que codifican este tipo de receptores en nuestro genoma?
- ¿Cuántas copias de genes que codifican
este gen se han identificado hasta el momento?
- ¿Por qué aparecen genes en el que se señalan otras especies en la lista de resultados (como Bus taurus, Mus musculus)?
- Busque el gen con el número de accesión NM_000684.2 en MapViewer. Indique:
- ¿En qué cromosoma se encuentra localizado?
- ¿Hay descritas en el MapViewer algunas secuencias correspondientes a secuencias de una librería EST asociadas a este gen?
- Cuales son los dos genes
más próximos a este gen que están localizados
en este mismo cromosoma. ¿Se conoce la función de
los mismos?.
- ¿Se ha publicado
alguna información sobre este gen NM_000684.2 en alguna publicación científica?
- ¿Contiene intrones
este gen?
- ¿Cuál es la función biológica de este gen?
- ¿Qué tipo de enfermedades derivadas de la alteración de este gen pueden originarse?
- ¿Qué rango
de bases constituye la fase de lectura abierta o CDS?
- Grabe la secuencia de
DNA de este gen en su entorno de trabajo en formato GenBank y en
formato FASTA.
- Cual es el número de accesion de la proteína codificada por este gen
- Use la base de datos UniProt. Describa algunos términos GO relacionados con este gen
- Usando UniProt describa alguna mutación que provoque un mal funcionamiento de este gen
- Usando UniProt describa algunas modificaciones de los aminoácidos descritas en este gen
- Describa algunos medicamentos o drogas que pueden interaccionar con este gen
- Venga, indique qué información se puede obtener usando UniProt sobre este gen/proteína...
- ¿Se
conoce la estructura 3D de la proteína o de alguno de los dominios que tiene esta proteína?.
- ¿Se encuentra
un gen similar a éste en otras especies?
|
2. Entre en la base
de datos OMIM (Online Mendelian Inheritance in Man) del NCBI.
- Busque genes
implicados en alguna enfermedad conocida (Alzheimer o cualquier otra que le motive).
- Recoja información sobre
ella, e incluyala en el documento de trabajo o en la página WEB que está construyendo. ¿qué tipo de información relevante ha encontrado que le aporta esta base de datos OMIM?.
- Trate de incluir los genes implicados, mutaciones, grupo de ligamientos, y si puede, hasta métodos o servicios o empresas que le permitan poder diagnosticar esa enfermedad.(recomendación: trate de usar la base de daros UniProt para encontrar información)
|
3. Busque en la base de datos SRA del NCBI (y optativamente en la ENA del EBI) secuencias correspondientes al genoma o al transcriptoma del olivo (Olea europea) [Tarea a realizar]
- Investigue qué es un archivo SRA y qué contiene. Qué tipo de secuencias puede contener
- ¿Cuantos archivos SRA relacionados con Olea Europea hay publicado en esta base de datos?
- Busque información sobre lo que es una secuencia en formato fastq. En particular trate de descubrir su formato, qué información contiene y en qué consiste la información de la "calidad" del mismo
- Indique cual de las bases de datos publicadas sobre el Olivo en la base de datos SRA es la de menor tamaño. Descárguela localmente e indique alguna característica de la misma (Si son secuencias genómicas o transcriptómicas, a qué tejido corresponde, variedad de oliva, o que tratamiento recibió ese material antes de ser extraido su material genético)
- Indique con qué equipo o plataforma ha sido secuenciado las secuencias que ha descargado
- Busque algún programa que le permita obtener secuencias en formato FASTA desde las secuencias SRA (debe usar programas bajo Linux). Detalle los pasos que de para obtener secuencias fasta a partir de un archivo SRA
|
4. Entre en la página principal del NCBI y busque los servicios o páginas que le permitan determinar cuantos genomas
completos de bacterias y eucariotas han sido secuenciados hasta el momento.
[Tarea a realizar]
- Indique el número de genomas secuenciados y la fecha de la consulta. Haga lo mismo pasado unos días y vuelva a indicar el número de genomas secuenciados y de nuevo la fecha. Con ello se hará una idea de la velocidad en la que estamos progresando en el mundo de la secuenciación.
- Encuentre el modo de ver cuántos genomas diferentes de Eucariotas, Procariotas y Virus hay secuenciados.
- Busque información sobre el genoma de un organismo como Chlamydomonas reinhardtii. Busque el modo de indicar cuantos transcritos contiene ese genoma, cuantas secuencias de proteinas se han identificado, cuál es el número de bases secuenciadas en su genoma.
- ¿En qué publicación ("separata", "paper") se han presentado estos trabajos ?
- Trate de descargar el genoma completo de Chlamydomonas reinhardtii. Haga la descarga localmente en su ordenador, pero no envíe esos archivos descargados a ningún lado (por razones de espacio). Límitése a indicar con una captura de la pantalla que muestre las versiones que puede descargar y el tamaño que ocupan.
- La secuencia del genoma. ¿Qué formato de archivos usa? ¿Podría ser capaz de aportar alguna información sobre qué información aportan dichos formatos?
- (OPCIONAL pero muy recomendado)¿En algún sitio se menciona algún "palabro" raro que quiera investigar por su cuenta qué de qué se trata y qué es lo que significa ? Por ejemplo, ¿qué es eso de un "scaffold" o qué significa " WGS" que se menciona las páginas de los genomas?
- (opcional para nota) ¿Cómo está organizada la información dentro de esta base de datos si se considera un eucariota?. Quiero decir que qué tipo de archivos hay, que información se proporciona, etc
|
5. Busque en la base de datos del NCBI al menos 10 o más secuencias completas de la región CDS del gen que codifica la acetolactate synthase de plantas. [Tarea a realizar]
- Construya dos archivos de texto que contenga las secuencias FASTA. Respete las características de los archivos fasta. Esto es, no deje líneas vacias. Una todos las secuencias una tras la otra. Comienze cada secuencia con ">" seguido del nombre.Guarde estos dos archivos porque lo usaremos más tarde con las prácticas en otro tema.
- Uno conteniendo las 10 secuencias del ADN
- y el otro las secuencia FASTA de las proteínas codificadas por estos mismos gene
- ¿Tiene este gen intrones en algunas de las plantas que ha localizado?
- Para el caso concreto de este gen en la planta Amaranthus
- buscar en la base de datos de proteínas (PDB, Protein
Data Bank) si hay alguna acetolactate synthase del que se conozca
la estructura tridimensional porque haya sido cristalizada y analizada mediante
rayos X.
- Use el programa Swiss PDB Viewer y cargue el archivo pdb que puede obtener de la pagína anterior para ver la estructura 3D de la misma y haga una copia de varias imágenes de la proteína
|
6. (opcional) Ya puestos, use el mismo servidor anterior para buscar bibliografía
científica referida a la enzima acetolactate synthase, o cualquier
otra palabra clave deseada. Puede opcionalmente hacer esta búsqueda en la base de datos ENTREZ del NCBI. |
7. (opcional) Regrese a la página
principal de la NCBI para describir nuevos servicios y bases de datos
de interés. Tómese tiempo de pulsar sobre todas las opciones
posibles para familiarizarse con éstos. Indique algunos de ellos que le llamen la atención y le parezcan mas relevantes. |
8. (opcional) Acceda a la base de datos de Japón
DDBJ y trate de encontrar información, servicios o programas que le llame la atención porque no se dispongan de él/ellos en el NCBI y que crea que le pueda ser útil. Describala en su
página WEB. |
|