Doel

nov 26, 2021
admin

  • Ontdekken van Entrez als een biologisch data retrieval systeem
  • Leren hoe de Entrez zoekmachine te gebruiken om nucleotide/proteïne sequentie data op te halen.

Entrez is een geïntegreerde zoekmachine waarmee gebruikers verschillende gegevens van het National Center for Biotechnology Information (NCBI) kunnen zoeken en opvragen. Het is toegankelijk via de site www.ncbi.nlm.nih.gov/Entrez/. Entrez is het belangrijkste systeem van het NCBI voor het zoeken en opvragen van tekst, waarin de databank PubMed en 39 andere wetenschappelijke literatuur, nucleotide- en eiwitdatabanken, gegevens over eiwitdomeinen, bevolkingsonderzoeken, expressiegegevens, paden en systemen van op elkaar inwerkende moleculen, volledige genoomgegevens en taxonomische informatie in een nauw met elkaar verbonden systeem zijn geïntegreerd. Deze component databases kunnen worden benaderd met behulp van een enkele query.

De belangrijkste functies van NCBI zijn:

  1. Het creëren van openbare databases voor het opslaan, ophalen, en analyseren van kennis over moleculaire biologie, biochemie, en genetica.
  2. Onderzoek doen in de computationele biologie, voor het analyseren van de structuur en functie van biologische moleculen.
  3. Ontwikkelen van software tools voor het analyseren van genomische gegevens.
  4. verspreiden van biomedische informatie.
  5. verzamelen van biotechnologische informatie wereldwijd.

Entrez fungeert daarbij als de zoekmachine voor NCBI databases.Zoeken kan nauwkeuriger door gebruik te maken van Booleaanse operatoren zoals AND, OR of NOT met de zoekverklaring. Met limieten kan de gebruiker zijn zoekopdracht filteren volgens zijn keuze. Een Advanced Search interface maakt het mogelijk meer gedetailleerde queries uit te voeren.

De verschillende queries kunnen op de volgende basis worden doorzocht. De syntax voor het zoeken van queries zoals hieronder getoond.

Zoekterm Booleaanse operatoren Zoekterm .

Tabel1: Entrez Boolean Search Statements

De gebruiker kan globaal zoeken door de standaardoptie “Alle Databanken ” te selecteren, waardoor het resultaat van de verschillende databanken wordt weergegeven en ook het aantal beschikbare records voor elke databank zal worden getoond. De databases zijn gerangschikt in drie hoofdsecties, waarvan de bovenste sectie informatie bevat over literatuur databases, de middelste sectie bevat moleculaire databases en de onderste sectie bevat accessoire literatuur database tijdschriften, NLM Catalogus en MeSH.

De bijbehorende databases opgenomen in de Entrez zijn als volgt.

  • Boeken: Bookshelf biedt gratis toegang tot het zoeken, opvragen en lezen van boeken en tijdschriften op biowetenschappelijk gebied. Het is toegankelijk via de site http://www.ncbi.nlm.nih.gov/books

  • CDD: Conserved Domain Database is een verzameling van annotatie van functionele eenheden in eiwitten. Het bevat handmatig geannoteerde domein modellen, die gebruik maken van 3D-structuur informatie om sequentie / structuur / functie relaties te definiëren. Deze kan worden geraadpleegd op de site www.ncbi.nlm.nih.gov/sites/entrez
  • Gene: Gene database bevat informatie over verschillende soorten met inbegrip van hun nomenclatuur, geassocieerde pathways, RefSeq’s, fenotypes, links naar het genoom. Het kan worden benaderd vanaf de site http://www.ncbi.nlm.nih.gov/gene/
  • CoreNucleotide: Het is een bron van sequenties uit verschillende databases, waaronder GenBank, RefSeq, TPA, en PDB die nuttig zal zijn voor de onderzoeksdoeleinden. Het kan worden benaderd vanaf de site http://www.ncbi.nlm.nih.gov/sites/entrez?db=nuccore

  • EST: Expression Sequence Tag database is een verzameling van gegevens uit GenBank. Dit zijn sequentie getagde site afgeleid van cDNA, die fungeren als een bron om genexpressie te evalueren, potentiële variatie te vinden, geannoteerde genen. Het kan worden benaderd via de site http://www.ncbi.nlm.nih.gov/nucest

  • Genome: Genome database is een verzameling van genoom-informatie, waaronder hun sequenties, kaarten, chromosomen en annotaties. Deze kan worden geraadpleegd op de site http://www.ncbi.nlm.nih.gov/genome

  • dbGaP: De database van genotypen en fenotypen is een bibliotheek van resultaten van de studies van de interactie van genotypen en fenotypen. Zij kan worden geraadpleegd op de site http://www.ncbi.nlm.nih.gov/gap

  • GEO Datasets: De Gene Expression Omnibus (GEO) biedt informatie over genexpressie-datasets, hun oorspronkelijke series en Platform records. Het biedt ook aanvullende informatie zoals experimentele details, cluster tools en differentiële expressie query’s. Het is toegankelijk via de site www.ncbi.nlm.nih.gov/gds

  • GEO Profiles: Het biedt de mogelijkheid om te zoeken naar profielen die belangrijk zijn voor genannotatie of vooraf berekende profielkenmerken. Het is toegankelijk via de site http://www.ncbi.nlm.nih.gov/geoprofiles

  • GSS: De GSS nucleotide database biedt informatie uit GenBank of Genome Survey Sequence records. Deze kan worden geraadpleegd op de site www.ncbi.nlm.nih.gov/nucgss

  • HomoloGene: Dit is een verzameling homologs van de geannoteerde genen van volledig gesequenseerde eukaryotische organismen. Deze kan worden geraadpleegd op de site www.ncbi.nlm.nih.gov/homologene

  • MeSH: MeSH (Medical Subject Headings) is het door de NLM (Nations Library of Medicine) gecontroleerde vocabulaire dat wordt gebruikt voor het doorbladeren van artikelen en dat ook fungeert als thesaurus in de biomedische wetenschappen voor Pubmed en MEDLINE. Het kan worden geraadpleegd op de site www.ncbi.nlm.nih.gov/mesh

  • NCBI Web Site: Bladert door de NCBI-website. Het is toegankelijk via de site http://www.ncbi.nlm.nih.gov/

  • NLM Catalogus: NLM (United States National Library of Medicine) is de grootste medische bibliotheek die toegang biedt tot boeken, tijdschriften, technische informatie, audiovisuals, software en andere bronnen. De catalogus is toegankelijk via de site http://www.ncbi.nlm.nih.gov/nlmcatalog

  • OMIM: Dit is een uitgebreide database voor menselijke genen en genetische aandoeningen. Het bevat informatie over menselijke genen en genetische fenotypes, die dagelijks wordt bijgewerkt. Het is toegankelijk via de site www.ncbi.nlm.nih.gov/omim

  • OMIA: Online Mendelian Inheritance in Animals fungeert als een bron voor genen, erfelijke aandoeningen en eigenschappen in meer dan 135 diersoorten, en is geschreven door professor Frank Nicholas. Het biedt toegang tot diersoorten met uitzondering van die van de mens en de muis, waarvoor soortspecifieke gegevens worden aangeboden. Het is toegankelijk via de site http://www.ncbi.nlm.nih.gov/omia

  • PopSet: Populatie studie dataset is een verzameling van set DNA sequenties, verzameld om evolutionaire verwantschap van een populatie te bestuderen. Hij kan worden geraadpleegd op de site http://www.ncbi.nlm.nih.gov/popset

  • Probe: Het is een verzameling van nucleïnezuurreagentia. Het bevat ook informatie over reagens distributeurs, probe effectiviteit en berekende sequentie gelijkenissen. Het is toegankelijk via de site http://www.ncbi.nlm.nih.gov/probe

  • Protein Sequence Database: Dit is een verzameling sequenties uit GenBank, RefSeq, TAP, SwissProt, PIR, PRF, PDB. Deze kan worden geraadpleegd op de site www.ncbi.nlm.nih.gov/protein

  • Pubchem BioAssay: Het bevat informatie over bioactiviteitsonderzoeken van chemische stoffen van PubChem. Het kan worden geopend via de site www.ncbi.nlm.nih.gov/pcassay

  • PubChem Compound: Het bevat verbindingen met hun unieke structuren en biologische informatie van PubChem stoffen. Het is toegankelijk via de site www.ncbi.nlm.nih.gov/pccompound

  • PubChem Substance: Het is een verzameling van gegevens over stoffen van deposanten in het systeem, beschrijvingen van monsters, en links naar biologische screeningsresultaten die beschikbaar zijn in PubChem BioAssay. Het is toegankelijk via de site www.ncbi.nlm.nih.gov/pcsubstance

  • PubMed: PubMed is een vrij toegankelijk databank-zoeksysteem voor gezondheidsinformatie dat is ontwikkeld en wordt onderhouden door het National Center for Biotechnology Information (NCBI) van de National Library of Medicine (NLM). Het bevat artikelen uit MEDLINE en andere biomedische artikelen. Het is toegankelijk via de site www.ncbi.nlm.nih.gov/pubmed

  • Pubmed Central: PubMed central is een vrij toegankelijke digitale bron van full-text artikelen voor biomedische biowetenschappelijke tijdschriften, die gekoppeld is aan de PubMed database. Deze kan worden geraadpleegd op de site www.ncbi.nlm.nih.gov/pmc/

  • SNP: De SNP-databank bevat informatie over single nucleotide polymorfismen, korte insertie- en deletie-polymorfismen. Zij kan worden geraadpleegd op de site www.ncbi.nlm.nih.gov/snp

  • Structuur: De structuurdatabank bevat informatie over driedimensionale structuren van eiwitten en andere polynucleotiden. Ze kan worden geraadpleegd op de site www.ncbi.nlm.nih.gov/structure

  • Taxonomie: De taxonomie bevat informatie over alle organismen die in de genetische databank zijn opgenomen, met hun nucleotide- of eiwitvolgorde. Het is toegankelijk via de site www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/

  • UniGene: Het identificeert transcripten van dezelfde locus, analyseert expressie per weefsel, leeftijd, gezondheidsstatus en rapporteert verwante proteïnen (protest) en kloonbronnen. Het is toegankelijk via de site www.ncbi.nlm.nih.gov/unigene

  • UniSTS: Het bevat informatie over Sequenced Tagged Sites (STS) die afkomstig zijn van de PCR-primerparen met hun genomische posities, genen en sequentie-informatie van op STS gebaseerde kaarten en andere experimenten. Het is toegankelijk via de site www.ncbi.nlm.nih.gov/unists

  • BioSample: Het is een verzameling van informatie over verschillende biologische bronmaterialen die in experimentele tests worden gebruikt. Het kan worden benaderd vanaf de site www.ncbi.nlm.nih.gov/biosample

De resultaten van de zoekopdracht worden weergegeven in verschillende gegevensformaten zoals GenBank, FASTA.

GenBank : GenBank is een verzameling van geannoteerde DNA-sequenties, die de NIH genetische sequentie databank is. De verschillende parametercomponenten die zijn opgenomen, worden hieronder toegelicht.

  • Locusnaam helpt bij het groeperen van ingangen met gelijksoortige sequenties. De eerste drie tekens geven het organisme aan, het vierde en vijfde teken geven andere groepsaanduidingen, zoals genproduct, en het laatste teken is een reeks opeenvolgende gehele getallen.
  • Sequentielengte bevat het aantal nucleotide-baseparen (of aminozuurresiduen) in de sequentierecord.
  • Molecuultype geeft het type molecuul aan waartoe de sequentie behoort.
  • Genbank-divisie geeft de GenBank-divisie aan waartoe een record behoort en wordt aangegeven met een afkorting van drie letters.

1. PRI – sequenties van primaten
2. ROD – sequenties van knaagdieren
3. MAM – sequenties van andere zoogdieren
4. VRT – sequenties van andere gewervelde dieren
5. INV – sequenties van ongewervelden
6. PLN – sequenties van planten, schimmels en algen
7. BCT – bacteriële sequenties
8. VRL – virale sequenties
9. PHG – bacteriofaagsequenties
10. SYN – synthetische sequenties
11. UNA – niet-geannoteerde sequenties
12. EST – EST-sequenties (expressed sequence tags)
13. PAT – octrooireeksen
14. STS – STS-sequenties (sequence tagged sites)
15. GSS – GSS-sequenties (genoomonderzoeksequenties)
16. HTG – HTG-sequenties (high-throughput genomic seq)
17. HTC – onvoltooide high-throughput cDNA-sequenties
18. ENV – sequenties voor milieumonsters

  • Modification Date geeft de laatste datum van modificatie weer.
  • Definition is een korte beschrijving van de sequentie die informatie bevat zoals bronorganisme, gennaam/eiwitnaam, of een beschrijving van de functie van de sequentie.
  • Accessienummer geeft de unieke identificatie voor een sequentierecord aan.
  • Records uit de RefSeq

NT_123456 geconstrueerde genoomcontigs
NM_123456 mRNA’s
NP_123456 proteïnen
NC_123456 chromosomen

  • Versie geeft een identificatienummer voor een nucleotidesequentie aan die een enkele, specifieke sequentie in de GenBank database.
  • GI “GenInfo Identifier” is een sequentie-identificatienummer voor de nucleotidensequentie.
  • Keywords beschrijft woord of zin van de sequentie.
  • Source geeft informatie in vrij formaat aan, waaronder een verkorte vorm van de naam van het organisme, soms gevolgd door een molecuultype.
  • Organism beschrijft de formele wetenschappelijke naam voor het bronorganisme en zijn afstamming.

  • Reference bevat publicaties van de auteurs van de sequentie die de in het record gerapporteerde gegevens bespreken.
  • Authors bevat lijst van auteurs in de volgorde waarin ze in het geciteerde artikel voorkomen.

Entrez Search Field: Auteur

  • Titel bevat de titel van het gepubliceerde werk of de voorlopige titel van een ongepubliceerd woord.

Entrez Search Field: Text Word

  • Journal: MEDLINE afkorting van de naam van het tijdschrift.

Entrez Zoekveld: Journal Name

  • Pubmed: PubMed Identifier (PMID)
  • Features toont informatie over genen en genproducten, evenals regio’s van biologische betekenis die in de sequentie zijn gerapporteerd.
  • Source is een verplicht kenmerk in elk record dat de lengte van de sequentie, de wetenschappelijke naam van het bronorganisme, en het Taxon ID-nummer samenvat. Kan ook andere informatie bevatten, zoals kaartlocatie, stam, kloon, weefseltype, enz, indien verstrekt door de indiener.
  • Taxon is een stabiel uniek identificatienummer voor het taxon van het bronorganisme.
  • CDS (coderende sequentie) staat voor een regio van nucleotiden die overeenkomt met de sequentie van aminozuren in een eiwit.

Figuur 1 : GenBank-bestand verkregen uit NCBI-database voor de vermelding Homo sapiens Neurexin1

FASTA: Het is een bestandsformaat dat wordt gebruikt om nucleotide- of eiwitsequenties weer te geven als een string met een of andere basistag of identificatiecode waarin nucleotiden of aminozuren worden weergegeven als codes van één letter. Een FASTA-sequentie begint met een (>) groter dan-symbool dat het begin van een nieuwe sequentierecord inhoudt, de zogenaamde definitieregel (“def line”). Een toetredingsnummer of versienummer wordt gevolgd door een beschrijving van dat gegeven. De DNA-sequentie in hoofdletters of kleine letters begint op de volgende regel. De sequenties bevatten 60 tekens per regel.

Figuur 2: FASTA-bestandsformaat verkregen uit NCBI-databank voor de vermelding Homo sapiens Neurexin1

De sequenties die in de databank zijn opgeslagen, werden verkregen met verschillende experimentele methoden. De meest gebruikte methoden voor DNA-sequencing zijn de Sanger-methode en de Maxam-Gilbert-methode. Op dezelfde manier worden de Edman-afbraakmethode en de massaspectrometrietechniek gebruikt voor het sequencen van proteïnen.

Sanger-methode (dideoxy-ketenbeëindigingsmethode): Hierbij worden 4 reageerbuizen genomen, gelabeld met A, T, G en C. In elk van de reageerbuizen moet DNA worden toegevoegd in gedenatureerde vorm (enkelstrengs). Vervolgens wordt een primer toegevoegd die anneerslaat op één van de strengen in het sjabloon. Het 3′-uiteinde van de primer bevat zowel de dideoxy-nucleotiden (specifiek voor elk buisje) als de desoxy-nucleotiden op willekeurige wijze. Wanneer de ddNTP’s aan de groeiende keten worden gehecht, eindigt de keten bij gebrek aan 3’OH dat de fosfodiesterbinding vormt met de volgende nucleotide. Zo worden kleine DNA-strengen gevormd. Elektroforese wordt uitgevoerd en de volgorde van de sequentie kan worden verkregen door de banden in de gel te analyseren op basis van het moleculaire gewicht. De primer of een van de nucleotiden kan ook radioactief of fluorescent gelabeld zijn, zodat het eindproduct gemakkelijk uit de gel kan worden gedetecteerd en de sequentie kan worden afgeleid.

Maxam-Gilbert (chemische afbraakmethode): Bij deze methode wordt een DNA-fragment gedenatureerd waarvan het 5′-uiteinde radioactief gelabeld is. Dit fragment wordt vervolgens gezuiverd alvorens chemisch te worden behandeld, hetgeen resulteert in een reeks gelabelde fragmenten. De elektroforesetechniek helpt bij het rangschikken van de fragmenten op basis van hun moleculair gewicht. Om de fragmenten te bekijken, wordt de gel blootgesteld aan röntgenfilm voor autoradiografie. Er verschijnt een reeks donkere banden die elk overeenkomen met een radioactief gelabeld DNA-fragment, waaruit de sequentie kan worden afgeleid.

Edman-afbraakreactie: De reactie vindt de volgorde van aminozuren in een eiwit vanaf de N-terminal, door elk aminozuur van de N-terminal te klieven zonder de bindingen in het eiwit te verstoren. Na elke splitsing wordt chromatografie of elektroforese gedaan om het aminozuur te identificeren

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.