Objetivo

Nov 26, 2021
admin

  • Presentar Entrez como un sistema de recuperación de datos biológicos
  • Aprender a utilizar el motor de búsqueda de Entrez para recuperar datos de secuencias de nucleótidos/proteínas.

Entrez es un motor de búsqueda integrado que permite a los usuarios buscar y recuperar diferentes datos del National Center for Biotechnology Information (NCBI). Se puede acceder a él desde el sitio www.ncbi.nlm.nih.gov/Entrez/. Entrez es el principal sistema de búsqueda y recuperación de textos del NCBI que integra la base de datos PubMed y otras 39 literaturas científicas, bases de datos de nucleótidos y proteínas, datos de dominios de proteínas, conjuntos de datos de estudios poblacionales, datos de expresión, vías y sistemas de moléculas que interactúan, detalles completos del genoma e información taxonómica en un sistema estrechamente interconectado. Se puede acceder a estas bases de datos utilizando una única consulta.

Las principales funciones del NCBI son:

  1. Crear bases de datos públicas para almacenar, recuperar y analizar conocimientos sobre biología molecular, bioquímica y genética.
  2. Realizar investigaciones en biología computacional, para analizar la estructura y función de las moléculas biológicas.
  3. Desarrollar herramientas de software para el análisis de datos genómicos.
  4. Difundir información biomédica.
  5. Reunir información biotecnológica en todo el mundo.

Entrez, por tanto, actúa como motor de búsqueda de las bases de datos del NCBI.La búsqueda puede realizarse con mayor precisión utilizando operadores booleanos como AND, OR o NOT con la sentencia de búsqueda. Los límites permiten al usuario filtrar su búsqueda según su elección. Una interfaz de búsqueda avanzada permite realizar consultas más detalladas.

Las diferentes consultas pueden ser buscadas sobre la siguiente base. La sintaxis para la búsqueda de consultas se muestra a continuación.

Término de búsqueda Operadores booleanos Término de búsqueda .

Tabla1: Entrez Boolean Search Statements

El usuario puede realizar una búsqueda global seleccionando la opción por defecto «All Databases «, que muestra el resultado de las diferentes bases de datos y su número de registros disponibles para cada base de datos también se mostrará. Las bases de datos están organizadas en tres secciones principales, de las cuales la sección superior contiene información sobre las bases de datos bibliográficas, la sección intermedia incluye las bases de datos moleculares y la sección inferior incluye las revistas accesorias de las bases de datos bibliográficas, el Catálogo de la NLM y el MeSH.

Las bases de datos asociadas incluidas en el Entrez son las siguientes.

  • Libros: Bookshelf proporciona acceso gratuito para buscar, recuperar y leer libros y revistas del área de ciencias de la vida. Se puede acceder desde el sitio http://www.ncbi.nlm.nih.gov/books

  • CDD: Conserved Domain Database es una colección de anotaciones de unidades funcionales en proteínas. Contiene modelos de dominios anotados manualmente, que utilizan la información de la estructura 3D para definir las relaciones secuencia/estructura/función. Se puede acceder a ella desde el sitio www.ncbi.nlm.nih.gov/sites/entrez
  • Gene: La base de datos de genes comprende información sobre varias especies, incluyendo su nomenclatura, vías asociadas, RefSeq’s, fenotipos y enlaces al genoma. Se puede acceder desde el sitio http://www.ncbi.nlm.nih.gov/gene/
  • CoreNucleotide: Es una fuente de secuencias de diferentes bases de datos, incluyendo GenBank, RefSeq, TPA, y PDB que será útil para los propósitos de investigación. Se puede acceder a ella desde el sitio http://www.ncbi.nlm.nih.gov/sites/entrez?db=nuccore

  • EST: La base de datos de etiquetas de secuencias de expresión es una colección de datos de GenBank. Se trata de secuencias etiquetadas derivadas de ADNc, que actúan como un recurso para evaluar la expresión de los genes, encontrar variaciones potenciales, genes anotados. Se puede acceder desde el sitio http://www.ncbi.nlm.nih.gov/nucest

  • Genoma: La base de datos del genoma es una colección de información de genomas que incluye sus secuencias, mapas, cromosomas y anotaciones. Se puede acceder a ella desde el sitio http://www.ncbi.nlm.nih.gov/genome

  • dbGaP: La base de datos de Genotipos y Fenotipos es una biblioteca de resultados, procedentes de los estudios de interacción de genotipos y fenotipos. Se puede acceder a ella desde el sitio http://www.ncbi.nlm.nih.gov/gap

  • GEO Datasets: El Gene Expression Omnibus (GEO) ofrece información sobre los conjuntos de datos de expresión génica, sus series originales y los registros de la Plataforma. También proporciona información adicional como detalles experimentales, herramientas de cluster y consultas de expresión diferencial. Se puede acceder desde el sitio www.ncbi.nlm.nih.gov/gds

  • Perfiles GEO: Ofrece la búsqueda de perfiles que son importantes en la anotación de genes o en las características del perfil precalculado. Se puede acceder desde el sitio http://www.ncbi.nlm.nih.gov/geoprofiles

  • GSS: La base de datos de nucleótidos GSS proporciona información de los registros de GenBank de Genome Survey Sequence. Se puede acceder a ella desde el sitio www.ncbi.nlm.nih.gov/nucgss

  • HomoloGene: Es una colección de homólogos de los genes anotados de organismos eucariotas completamente secuenciados. Se puede acceder desde el sitio www.ncbi.nlm.nih.gov/homologene

  • MeSH: MeSH (Medical Subject Headings) es el vocabulario controlado de la NLM (Biblioteca de Medicina de las Naciones Unidas) que se utiliza para navegar por los artículos, también actúa como un tesauro en las ciencias biomédicas para Pubmed y MEDLINE. Se puede acceder desde el sitio www.ncbi.nlm.nih.gov/mesh

  • Sitio web del NCBI: Navega por el sitio web del NCBI. Se puede acceder desde el sitio http://www.ncbi.nlm.nih.gov/

  • Catálogo de la NLM: NLM (United States National Library of Medicine) es la mayor biblioteca médica que ofrece acceso a libros, revistas, información técnica, audiovisuales, software y otros recursos. Se puede acceder a ella desde el sitio http://www.ncbi.nlm.nih.gov/nlmcatalog

  • OMIM: Es una completa base de datos de recursos para genes humanos y trastornos genéticos. Contiene información sobre genes humanos y fenotipos genéticos, que se actualiza diariamente. Se puede acceder a ella desde el sitio www.ncbi.nlm.nih.gov/omim

  • OMIA: Online Mendelian Inheritance in Animals (Herencia Mendeliana en Animales) actúa como un recurso para genes, trastornos heredados y rasgos en más de 135 especies animales, cuyo autor es el profesor Frank Nicholas. Proporciona acceso a las especies animales, excluyendo las de humanos y ratones, para las que se ofrecen datos específicos de cada especie. Se puede acceder desde el sitio http://www.ncbi.nlm.nih.gov/omia

  • PopSet: El conjunto de datos de estudio de la población es una colección de conjuntos de secuencias de ADN, recogidas para estudiar el parentesco evolutivo de una población. Se puede acceder a él desde el sitio http://www.ncbi.nlm.nih.gov/popset

  • Probe: Es una colección de reactivos de ácidos nucleicos. También contiene información sobre los distribuidores de reactivos, la eficacia de las sondas y las similitudes de secuencia calculadas. Se puede acceder a ella desde el sitio http://www.ncbi.nlm.nih.gov/probe

  • Protein Sequence Database: Es una colección de secuencias de GenBank, RefSeq, TAP, SwissProt, PIR, PRF, PDB. Se puede acceder a ella desde el sitio www.ncbi.nlm.nih.gov/protein

  • Pubchem BioAssay: Contiene información de pantallas de bioactividad de sustancias químicas de PubChem. Se puede acceder desde el sitio www.ncbi.nlm.nih.gov/pcassay

  • PubChem Compound: Contiene compuestos con sus estructuras únicas e información biológica de las sustancias PubChem. Se puede acceder desde el sitio www.ncbi.nlm.nih.gov/pccompound

  • PubChem Substance: Es una colección de registros de sustancias de los depositantes en el sistema, descripciones de las muestras y enlaces a los resultados del cribado biológico que están disponibles en PubChem BioAssay. Se puede acceder a ella desde el sitio www.ncbi.nlm.nih.gov/pcsubstance

  • PubMed: PubMed es un sistema de búsqueda de información sanitaria de libre acceso desarrollado y mantenido por el National Center for Biotechnology Information (NCBI) de la National Library of Medicine (NLM). Contiene artículos de MEDLINE y otros artículos biomédicos. Se puede acceder a ella desde el sitio www.ncbi.nlm.nih.gov/pubmed

  • Pubmed Central: PubMed central es un recurso digital de libre acceso de artículos a texto completo de revistas biomédicas de ciencias de la vida, que está vinculado a la base de datos PubMed. Se puede acceder desde el sitio www.ncbi.nlm.nih.gov/pmc/

  • SNP: La base de datos SNP contiene información de polimorfismos de un solo nucleótido, polimorfismos cortos de inserción y deleción. Se puede acceder a ella desde el sitio www.ncbi.nlm.nih.gov/snp

  • Estructura: La base de datos Structure contiene información de estructuras tridimensionales de proteínas y otros polinucleótidos. Se puede acceder a ella desde el sitio www.ncbi.nlm.nih.gov/structure

  • Taxonomía: La taxonomía contiene información de todos los organismos que están incluidos en la base de datos genética con su secuencia de nucleótidos o proteínas. Se puede acceder desde el sitio www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/

  • UniGene: Identifica los transcritos de un mismo locus, analiza la expresión por tejido, edad, estado de salud e informa de las proteínas relacionadas (protesta) y los recursos clonales. Se puede acceder desde el sitio www.ncbi.nlm.nih.gov/unigene

  • UniSTS: Contiene información sobre los sitios marcados secuenciados (STS) que provienen de los pares de cebadores PCR con sus posiciones genómicas, genes e información de la secuencia de los mapas basados en STS y otros experimentos. Se puede acceder desde el sitio www.ncbi.nlm.nih.gov/unists

  • BioSample: Es una colección de información de diferentes materiales fuente biológicos utilizados en ensayos experimentales. Se puede acceder a ella desde el sitio www.ncbi.nlm.nih.gov/biosample

Los resultados de la búsqueda de la consulta se representan en diferentes formatos de datos como GenBank, FASTA.

GenBank : GenBank es una colección de secuencias de ADN anotadas, que es la base de datos de secuencias genéticas del NIH. A continuación se explican los diferentes componentes de los parámetros incluidos.

  • El nombre del locus ayuda a agrupar las entradas con secuencias similares. Los 3 primeros caracteres denotan el organismo, el cuarto y el quinto dan otras designaciones de grupo, como producto génico y el último carácter es una serie de enteros secuenciales.
  • Longitud de la secuencia contiene el número de pares de bases de nucleótidos (o residuos de aminoácidos) en el registro de la secuencia.
  • Molecule Type muestra el tipo de molécula secuenciada.
  • Genbank Division muestra la división del GenBank a la que pertenece un registro y se indica con una abreviatura de tres letras.

1. PRI – secuencias de primates
2. ROD – secuencias de roedores
3. MAM – otras secuencias de mamíferos
4. VRT – otras secuencias de vertebrados
5. INV – secuencias de invertebrados
6. PLN – secuencias de plantas, hongos y algas
7. BCT – secuencias de bacterias
8. VRL – secuencias de virus
9. PHG – secuencias de bacteriófagos
10. SYN – secuencias sintéticas
11. UNA – secuencias no anotadas
12. EST – secuencias EST (expressed sequence tags)
13. PAT – secuencias patentadas
14. STS – secuencias STS (sitios marcados con secuencias)
15. GSS – Secuencias GSS (secuencias de estudio del genoma)
16. HTG – Secuencias HTG (secuencias genómicas de alto rendimiento)
17. HTC – secuencias de ADNc de alto rendimiento sin terminar
18. ENV – secuencias de muestreo ambiental

  • La fecha de modificación muestra la última fecha de modificación.
  • La definición es una breve descripción de la secuencia que incluye información como el organismo de origen, el nombre del gen/nombre de la proteína o alguna descripción de la función de la secuencia.
  • El número de adhesión indica el identificador único de un registro de secuencia.
  • Registros del RefSeq

NT_123456 contigs genómicos construidos
NM_123456 ARNm
NP_123456 proteínas
NC_123456 cromosomas

  • La versión muestra un número de identificación de secuencia de nucleótidos que representa una única secuencia específica en la base de datos GenBank.
  • GI «GenInfo Identifier» es un número de identificación de la secuencia de nucleótidos.
  • Keywords describe una palabra o frase de la secuencia.
  • Source indica información de formato libre que incluye una forma abreviada del nombre del organismo, a veces seguida de un tipo de molécula.
  • Organismo describe el nombre científico formal del organismo fuente y su linaje.

  • Referencia incluye publicaciones de los autores de la secuencia que discuten los datos reportados en el registro.
  • Autores contiene Lista de autores en el orden en que aparecen en el artículo citado.

Campo de búsqueda Entrez: Autor

  • Título representa el título del trabajo publicado o el título tentativo de una palabra no publicada.

Campo de búsqueda Entrez: Palabra de texto

  • Revista: Abreviatura MEDLINE del nombre de la revista.

Campo de búsqueda Entrez: Nombre de la revista

  • Pubmed: Identificador PubMed (PMID)
  • Características muestra información sobre los genes y productos génicos, así como las regiones de importancia biológica reportadas en la secuencia.
  • Fuente es una característica obligatoria en cada registro que resume la longitud de la secuencia, el nombre científico del organismo de origen y el número de identificación del taxón. También puede incluir otra información como la ubicación en el mapa, la cepa, el clon, el tipo de tejido, etc, si lo proporciona el remitente.
  • Taxón es un número de identificación único y estable para el taxón del organismo fuente.
  • CDS (secuencia codificante) representa la región de nucleótidos que se corresponde con la secuencia de aminoácidos de una proteína.

Figura 1 : Archivo GenBank obtenido de la base de datos NCBI para la entrada Homo sapiens Neurexin1

FASTA: Es un formato de archivo utilizado para representar secuencias de nucleótidos o proteínas como una cadena con alguna etiqueta o identificador básico en el que los nucleótidos o aminoácidos se representan como códigos de una sola letra. Una secuencia FASTA comienza con un símbolo (>) mayor que, lo que implica el comienzo de un nuevo registro de secuencia denominado línea de definición («def line»). Un número de acceso o de versión va seguido de la descripción de esa entrada. La secuencia de ADN en mayúsculas o minúsculas comienza a partir de la siguiente línea. Las secuencias contienen 60 caracteres por línea.

Figura 2: Formato de archivo FASTA obtenido de la base de datos del NCBI para la entrada Homo sapiens Neurexin1

Estas secuencias que se almacenan en la base de datos se obtuvieron a partir de diferentes métodos experimentales. Los métodos más utilizados para la secuenciación del ADN son el método Sanger y el método Maxam-Gilbert. Del mismo modo, el método de degradación Edman y la técnica de espectrometría de masas se utilizan para la secuenciación de proteínas.

Método Sanger (método de terminación de la cadena dideoxy): Aquí se toman 4 tubos de ensayo etiquetados con A, T, G y C. En cada uno de los tubos de ensayo se tiene que añadir el ADN en forma desnaturalizada (hebras simples). A continuación, se añade un cebador que se une a una de las cadenas de la plantilla. El extremo 3′ del cebador acomoda los dideoxi-nucleótidos (específicos de cada tubo) así como los desoxi-nucleótidos al azar. Cuando los ddNTP’s se unen a la cadena en crecimiento, ésta termina por falta de 3’OH que forma el enlace fosfodiéster con el siguiente nucleótido. Así se forman pequeñas cadenas de ADN. Se realiza la electroforesis y se puede obtener el orden de la secuencia analizando las bandas en el gel en función del peso molecular. El cebador o uno de los nucleótidos puede ser marcado radioactivamente o con fluorescencia también, de modo que el producto final puede ser detectado desde el gel fácilmente y la secuencia puede ser inferida.

Maxam-Gilbert (Método de degradación química): Este método requiere desnaturalizar un fragmento de ADN cuyo extremo 5′ está marcado radiactivamente. Este fragmento se somete a continuación a una purificación antes de proceder a un tratamiento químico que da lugar a una serie de fragmentos marcados. La técnica de electroforesis ayuda a ordenar los fragmentos en función de su peso molecular. Para ver los fragmentos, el gel se expone a una película de rayos X para realizar una autorradiografía. Aparecerá una serie de bandas oscuras, cada una de las cuales corresponde a un fragmento de ADN radioetiquetado, a partir del cual se puede inferir la secuencia.

Reacción de degradación de Edman: La reacción encuentra el orden de los aminoácidos de una proteína a partir del N-terminal, escindiendo cada aminoácido del N-terminal sin disolver los enlaces de la proteína. Después de cada escisión, se realiza una cromatografía o electroforesis para identificar el aminoácido

.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.