Objectif
- Présenter Entrez comme un système de récupération de données biologiques
- Apprendre à utiliser le moteur de recherche Entrez pour récupérer des données de séquences nucléotidiques/protéiques.
Entrez est un moteur de recherche intégré qui permet aux utilisateurs de rechercher et de récupérer différentes données du National Center for Biotechnology Information (NCBI). Il est accessible à partir du site www.ncbi.nlm.nih.gov/Entrez/. Entrez est le principal système de recherche et d’extraction de texte du NCBI qui intègre la base de données PubMed et 39 autres publications scientifiques, des bases de données de nucléotides et de protéines, des données sur les domaines protéiques, des ensembles de données d’études de population, des données d’expression, des voies et des systèmes de molécules en interaction, des détails complets sur le génome et des informations taxonomiques dans un système étroitement lié. Ces bases de données constitutives peuvent être consultées à l’aide d’une seule requête.
Les principales fonctions du NCBI sont :
- Créer des bases de données publiques pour stocker, récupérer et analyser les connaissances sur la biologie moléculaire, la biochimie et la génétique.
- Mener des recherches en biologie computationnelle, pour analyser la structure et la fonction des molécules biologiques.
- Développer des outils logiciels pour analyser les données génomiques.
- Diffuser des informations biomédicales.
- Recueillir des informations sur la biotechnologie dans le monde entier.
Entrez agit ainsi comme le moteur de recherche des bases de données du NCBI.La recherche peut être faite plus précisément en utilisant des opérateurs booléens comme AND, OR ou NOT avec l’énoncé de recherche. Des limites permettent à l’utilisateur de filtrer sa recherche en fonction de son choix. Une interface de recherche avancée permet d’effectuer des requêtes plus détaillées.
Les différentes requêtes peuvent être recherchées sur la base suivante. La syntaxe de recherche des requêtes est indiquée ci-dessous.
Terme de recherche Opérateurs booléens Terme de recherche .
Tableau1 : Entrer les énoncés de recherche booléens
L’utilisateur peut effectuer une recherche globale en sélectionnant l’option par défaut « Toutes les bases de données », qui affiche le résultat des différentes bases de données et leur nombre d’enregistrements disponibles pour chaque base de données sera également montré. Les bases de données sont organisées en trois sections principales, dont la section supérieure contient des informations sur les bases de données de littérature, la section intermédiaire comprend les bases de données moléculaires et la section inférieure comprend les journaux de base de données de littérature accessoires, le catalogue NLM et MeSH.
Les bases de données associées incluses dans l’Entrez sont les suivantes.
- Livres : Bookshelf fournit un accès gratuit pour rechercher, récupérer et lire des livres et des revues du domaine des sciences de la vie. On peut y accéder à partir du site http://www.ncbi.nlm.nih.gov/books
- CDD : Conserved Domain Database est une collection d’annotation d’unités fonctionnelles dans les protéines. Elle contient des modèles de domaines annotés manuellement, qui utilisent les informations de structure 3D pour définir les relations séquence/structure/fonction. On peut y accéder à partir du site www.ncbi.nlm.nih.gov/sites/entrez
- Gene : La base de données Gene comprend des informations sur diverses espèces, notamment leur nomenclature, les voies associées, les RefSeq, les phénotypes, les liens avec le génome. On peut y accéder à partir du site http://www.ncbi.nlm.nih.gov/gene/
- CoreNucleotide : C’est une source de séquences provenant de différentes bases de données dont GenBank, RefSeq, TPA, et PDB qui seront utiles pour les besoins de la recherche. On peut y accéder à partir du site http://www.ncbi.nlm.nih.gov/sites/entrez?db=nuccore
- EST : Expression Sequence Tag database est une collection de données provenant de la GenBank. Ce sont des sites étiquetés de séquences dérivés d’ADNc, qui agissent comme une ressource pour évaluer l’expression des gènes, trouver une variation potentielle, annoter les gènes. On peut y accéder à partir du site http://www.ncbi.nlm.nih.gov/nucest
- Génome : La base de données du génome est une collection d’informations sur les génomes qui comprennent leurs séquences, leurs cartes, leurs chromosomes et leurs annotations. On peut y accéder à partir du site http://www.ncbi.nlm.nih.gov/genome
- dbGaP : La base de données des génotypes et des phénotypes est une bibliothèque de résultats, issus des études d’interaction des génotypes et des phénotypes. Elle est accessible à partir du site http://www.ncbi.nlm.nih.gov/gap
- GEO Datasets : Le Gene Expression Omnibus (GEO) offre des informations sur les ensembles de données d’expression génétique, leurs séries originales et les enregistrements de la plate-forme. Il fournit également des informations supplémentaires telles que les détails expérimentaux, les outils de cluster et les requêtes d’expression différentielle. On peut y accéder à partir du site www.ncbi.nlm.nih.gov/gds
- Profils GEO : Il propose de parcourir les profils qui sont importants sur l’annotation des gènes ou les caractéristiques des profils pré-calculés. On peut y accéder à partir du site http://www.ncbi.nlm.nih.gov/geoprofiles
- GSS : La base de données de nucléotides GSS fournit des informations à partir de la GenBank des enregistrements de séquences du Genome Survey. On peut y accéder à partir du site www.ncbi.nlm.nih.gov/nucgss
- HomoloGene : C’est une collection d’homologues des gènes annotés d’organismes eucaryotes complètement séquencés. On peut y accéder à partir du site www.ncbi.nlm.nih.gov/homologene
- MeSH : MeSH (Medical Subject Headings) est le vocabulaire contrôlé de la NLM (Nations Library of Medicine) utilisé pour parcourir les articles, il sert également de thésaurus en sciences biomédicales pour Pubmed et MEDLINE. Il est accessible à partir du site www.ncbi.nlm.nih.gov/mesh
- Site Web du NCBI : Il parcourt le site Web du NCBI. Il est accessible à partir du site http://www.ncbi.nlm.nih.gov/
- Catalogue NLM : NLM (United States National Library of Medicine) est la plus grande bibliothèque médicale qui offre un accès aux livres, revues, informations techniques, audiovisuels, logiciels et autres ressources. On peut y accéder à partir du site http://www.ncbi.nlm.nih.gov/nlmcatalog
- OMIM : C’est une base de données de ressources complète pour les gènes humains et les troubles génétiques. Elle contient des informations sur les gènes humains et les phénotypes génétiques, qui sont mises à jour quotidiennement. On peut y accéder à partir du site www.ncbi.nlm.nih.gov/omim
- OMIA : Online Mendelian Inheritance in Animals agit comme une ressource pour les gènes, les troubles héréditaires et les traits de plus de 135 espèces animales, dont l’auteur est le professeur Frank Nicholas. Il donne accès aux espèces animales à l’exclusion de celles de l’homme et de la souris, pour lesquelles des données spécifiques aux espèces sont proposées. Il est accessible à partir du site http://www.ncbi.nlm.nih.gov/omia
- PopSet : Le jeu de données d’étude de population est une collection d’ensemble de séquences d’ADN, collectées pour étudier la parenté évolutive d’une population. On peut y accéder à partir du site http://www.ncbi.nlm.nih.gov/popset
- Sonde : Il s’agit d’une collection de réactifs d’acides nucléiques. Elle contient également des informations sur les distributeurs de réactifs, l’efficacité des sondes et les similarités de séquences calculées. On peut y accéder à partir du site http://www.ncbi.nlm.nih.gov/probe
- Base de données de séquences de protéines : C’est une collection de séquences provenant de GenBank, RefSeq, TAP, SwissProt, PIR, PRF, PDB. Elle est accessible à partir du site www.ncbi.nlm.nih.gov/protein
- Pubchem BioAssay : Il contient des informations sur les écrans de bioactivité des substances chimiques provenant de PubChem. On peut y accéder à partir du site www.ncbi.nlm.nih.gov/pcassay
- PubChem Compound : Il contient des composés avec leurs structures uniques et des informations biologiques provenant des substances PubChem. On peut y accéder à partir du site www.ncbi.nlm.nih.gov/pccompound
- PubChem Substance : Il s’agit d’une collection d’enregistrements de substances provenant de déposants dans le système, de descriptions d’échantillons et de liens vers des résultats de dépistage biologique qui sont disponibles dans PubChem BioAssay. On peut y accéder à partir du site www.ncbi.nlm.nih.gov/pcsubstance
- PubMed : PubMed est un système de recherche de base de données librement accessible pour les informations sur la santé qui est développé et maintenu par le National Center for Biotechnology Information (NCBI) à la National Library of Medicine (NLM). Elle contient des articles de MEDLINE et d’autres articles biomédicaux. On peut y accéder à partir du site www.ncbi.nlm.nih.gov/pubmed
- Pubmed Central : PubMed central est une ressource numérique librement accessible d’articles en texte intégral pour les revues biomédicales en sciences de la vie, qui est liée à la base de données PubMed. On peut y accéder à partir du site www.ncbi.nlm.nih.gov/pmc/
- SNP : La base de données SNP contient des informations sur les polymorphismes de nucléotides simples, les polymorphismes d’insertion et de délétion courts. On peut y accéder à partir du site www.ncbi.nlm.nih.gov/snp
- Structure : La base de données Structure contient des informations sur les structures tridimensionnelles des protéines et autres polynucléotides. On peut y accéder à partir du site www.ncbi.nlm.nih.gov/structure
- Taxonomie : La taxonomie contient les informations de tous les organismes qui sont inclus dans la base de données génétiques avec leur séquence de nucléotides ou de protéines. On peut y accéder à partir du site www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/
- UniGene : Il identifie les transcrits d’un même locus, analyse l’expression en fonction du tissu, de l’âge, de l’état de santé et signale les protéines associées (prototypes) et les ressources de clones. Il est accessible à partir du site www.ncbi.nlm.nih.gov/unigene
- UniSTS : Il contient des informations sur les Sequenced Tagged Sites (STS) qui proviennent des paires d’amorces PCR avec leurs positions génomiques, les gènes et les informations de séquence des cartes basées sur les STS et d’autres expériences. On peut y accéder à partir du site www.ncbi.nlm.nih.gov/unists
- BioSample : C’est une collection d’informations de différents matériaux de source biologique utilisés dans les essais expérimentaux. On peut y accéder à partir du site www.ncbi.nlm.nih.gov/biosample
Les résultats de la recherche par requête sont représentés dans différents formats de données comme GenBank, FASTA.
GenBank : GenBank est une collection de séquences d’ADN annotées, qui est la base de données de séquences génétiques du NIH. Les différents composants de paramètres inclus sont expliqués ci-dessous.
- Le nom du locus aide à regrouper les entrées avec des séquences similaires. Les 3 premiers caractères désignent l’organisme, les quatrième et cinquième caractères donnent d’autres désignations de groupe, comme le produit du gène, et le dernier caractère est une série d’entiers séquentiels.
- Sequence Length contient le nombre de paires de bases nucléotidiques (ou de résidus d’acides aminés) dans l’enregistrement de la séquence.
- Le type de molécule indique le type de molécule séquencée .
- La division de la Genbank indique la division de la GenBank à laquelle appartient un enregistrement et est indiquée par une abréviation de trois lettres.
1. PRI – séquences de primates
2. ROD – séquences de rongeurs
3. MAM – autres séquences de mammifères
4. VRT – autres séquences de vertébrés
5. INV – séquences d’invertébrés
6. PLN – séquences de plantes, de champignons et d’algues
7. BCT – séquences bactériennes
8. VRL – séquences virales
9. PHG – séquences de bactériophages
10. SYN – séquences synthétiques
11. UNA – séquences non annotées
12. EST – séquences EST (expressed sequence tags)
13. PAT – séquences de brevet
14. STS – séquences STS (sites étiquetés de séquence)
15. GSS – séquences GSS (séquences de l’enquête sur le génome)
16. HTG – séquences HTG (séquences génomiques à haut débit)
17. HTC – séquençage d’ADNc à haut débit inachevé
18. ENV – séquences d’échantillonnage environnemental
- La date de modification indique la dernière date de modification.
- La définition est une brève description de la séquence qui comprend des informations telles que l’organisme source, le nom du gène/de la protéine, ou une certaine description de la fonction de la séquence.
- Le numéro d’accession indique l’identifiant unique pour un enregistrement de séquence.
- Les enregistrements du RefSeq
NT_123456 contigs génomiques construits
NM_123456 ARNm
NP_123456 protéines
NC_123456 chromosomes
- La version indique un numéro d’identification de séquence nucléotidique qui représente une seule, séquence spécifique dans la base de données GenBank.
- GI « GenInfo Identifier » est un numéro d’identification de la séquence nucléotidique.
- Keywords décrit un mot ou une phrase de la séquence.
- Source indique des informations en format libre comprenant une forme abrégée du nom de l’organisme, parfois suivie d’un type de molécule.
- Organisme décrit le nom scientifique formel de l’organisme source et sa lignée.
- Référence comprend les publications des auteurs de la séquence qui discutent des données rapportées dans l’enregistrement.
- Auteurs contient Liste des auteurs dans l’ordre dans lequel ils apparaissent dans l’article cité.
Champ de recherche Entrez : Author
- Title représente le titre de l’ouvrage publié ou le titre provisoire d’un mot non publié.
Entrez Search Field : Texte Mot
- Journal : Abréviation MEDLINE du nom de la revue.
Entrez le champ de recherche : Nom du journal
- Pubmed : PubMed Identifier (PMID)
- Features montre des informations sur les gènes et les produits génétiques, ainsi que les régions d’importance biologique signalées dans la séquence.
- Source est une caractéristique obligatoire dans chaque enregistrement qui résume la longueur de la séquence, le nom scientifique de l’organisme source et le numéro d’identification du taxon. Peut également inclure d’autres informations telles que l’emplacement sur la carte, la souche, le clone, le type de tissu, etc, si elles sont fournies par le soumissionnaire.
- Le taxon est un numéro d’identification unique stable pour le taxon de l’organisme source.
- CDS (Coding sequence) représente la région de nucléotides qui correspond à la séquence d’acides aminés dans une protéine.
Figure 1 : Fichier GenBank obtenu à partir de la base de données NCBI pour l’entrée Homo sapiens Neurexin1
FASTA : C’est un format de fichier utilisé pour représenter des séquences de nucléotides ou de protéines sous la forme d’une chaîne de caractères avec un certain tag ou identifiant de base dans lequel les nucléotides ou les acides aminés sont représentés par des codes à une seule lettre. Une séquence FASTA commence par un symbole supérieur à (>) qui implique le début d’un nouvel enregistrement de séquence appelé ligne de définition (« def line »). Un numéro d’accès ou un numéro de version est suivi de la description de cette entrée. La séquence d’ADN en lettres majuscules ou minuscules commence à la ligne suivante. Les séquences contiennent 60 caractères par ligne.
Figure 2 : Format de fichier FASTA obtenu à partir de la base de données NCBI pour l’entrée Homo sapiens Neurexin1
Ces séquences qui sont stockées dans la base de données ont été obtenues à partir de différentes méthodes expérimentales. Les méthodes les plus couramment utilisées pour le séquençage de l’ADN sont la méthode Sanger et la méthode Maxam-Gilbert. De même, la méthode de dégradation d’Edman et la technique de spectrométrie de masse sont utilisées pour le séquençage des protéines.
Méthode Sanger (méthode de terminaison de chaîne didésoxy) : Ici, on prend 4 tubes à essai étiquetés A, T, G et C. Dans chacun des tubes à essai, l’ADN doit être ajouté sous forme dénaturée (simple brin). Ensuite, on ajoute une amorce qui se fixe à l’un des brins de la matrice. L’extrémité 3′ de l’amorce accueille les nucléotides didésoxy (spécifiques à chaque tube) ainsi que les nucléotides désoxy au hasard. Lorsque les ddNTP s’attachent à la chaîne en croissance, la chaîne se termine par manque de 3’OH qui forme la liaison phospho-diester avec le nucléotide suivant. De petits brins d’ADN sont ainsi formés. Une électrophorèse est effectuée et l’ordre de la séquence peut être obtenu en analysant les bandes dans le gel en fonction du poids moléculaire. L’amorce ou l’un des nucléotides peut être marqué de manière radioactive ou fluorescente également, de sorte que le produit final peut être détecté à partir du gel facilement et la séquence peut être déduite.
Maxam-Gilbert (méthode de dégradation chimique) : Cette méthode nécessite de dénaturer un fragment d’ADN dont l’extrémité 5′ est marquée de manière radioactive. Ce fragment est ensuite soumis à une purification avant de procéder à un traitement chimique qui aboutit à une série de fragments marqués. La technique d’électrophorèse permet de classer les fragments en fonction de leur poids moléculaire. Pour visualiser les fragments, le gel est exposé à un film radiographique pour l’autoradiographie. Une série de bandes sombres apparaît, chacune correspondant à un fragment d’ADN radiomarqué, à partir duquel la séquence peut être déduite.
Réaction de dégradation d’Edman : Cette réaction retrouve l’ordre des acides aminés d’une protéine à partir du N-terminal, en clivant chaque acide aminé du N-terminal sans rompre les liaisons de la protéine. Après chaque clivage, une chromatographie ou une électrophorèse est effectuée pour identifier l’acide aminé
.