Mål

nov 26, 2021
admin

  • För att introducera Entrez som ett system för hämtning av biologiska data
  • För att lära sig hur man använder sökmotorn Entrez för att hämta nukleotid- och proteinsekvensdata.

Entrez är en integrerad sökmotor som gör det möjligt för användare att söka och hämta olika data från National Center for Biotechnology Information (NCBI). Den kan nås från webbplatsen www.ncbi.nlm.nih.gov/Entrez/. Entrez är NCBI:s stora system för textsökning och sökning som integrerar PubMed-databasen och 39 andra vetenskapliga publikationer, nukleotid- och proteindatabaser, data om proteindomäner, datamängder från befolkningsstudier, expressionsdata, vägar och system för interagerande molekyler, fullständiga uppgifter om arvsmassan och taxonomisk information i ett system som är tätt sammankopplat med varandra. Dessa komponentdatabaser kan nås med en enda förfrågan.

NCBI:s viktigaste funktioner är:

  1. Skapa offentliga databaser för att lagra, hämta och analysera kunskap om molekylärbiologi, biokemi och genetik.
  2. Företa forskning inom beräkningsbiologi, för att analysera struktur och funktion hos biologiska molekyler.
  3. Utveckla programvaruverktyg för att analysera genomiska data.
  4. Spridning av biomedicinsk information.
  5. Samla bioteknisk information över hela världen.

Entrez fungerar därmed som sökmotor för NCBI:s databaser.Sökningen kan göras mer exakt genom att man använder booleska operatorer som AND, OR eller NOT med sökangivelsen. Med hjälp av begränsningar kan användaren filtrera sin sökning enligt sina önskemål. Ett gränssnitt för avancerad sökning gör det möjligt att utföra mer detaljerade sökningar.

De olika sökningarna kan sökas på följande grunder. Syntaxen för sökfrågor visas nedan.

Sökbegrepp Boolska operatorer Sökbegrepp .

Tabell1: Entrez Boolean Search Statements

Användaren kan göra en global sökning genom att välja standardalternativet ”All Databases ”, vilket visar resultatet från de olika databaserna och antalet poster som finns tillgängliga för varje databas visas också. Databaserna är ordnade i tre huvudavsnitt, varav det översta avsnittet innehåller information om litteraturdatabaser, det mellersta avsnittet innehåller molekylära databaser och det nedre avsnittet innehåller accessoriska litteraturdatabastidskrifter, NLM-katalog och MeSH.

De associerade databaser som ingår i Entrez är följande.

  • Böcker: Bookshelf ger fri tillgång till att söka, hämta och läsa böcker och tidskrifter från det biovetenskapliga området. Den kan nås från webbplatsen http://www.ncbi.nlm.nih.gov/books

  • CDD: Conserved Domain Database är en samling annotationer av funktionella enheter i proteiner. Den innehåller manuellt annoterade domänmodeller, som använder information om 3D-struktur för att definiera relationer mellan sekvens/struktur/funktion. Den kan nås från webbplatsen www.ncbi.nlm.nih.gov/sites/entrez
  • Gene: Gen-databasen innehåller information om olika arter, inklusive deras nomenklatur, associerade vägar, RefSeq:s, fenotyper, länkar till genomet. Den kan nås från webbplatsen http://www.ncbi.nlm.nih.gov/gene/
  • CoreNucleotide: Det är en källa till sekvenser från olika databaser inklusive GenBank, RefSeq, TPA och PDB som kommer att vara till hjälp för forskningsändamål. Den kan nås från webbplatsen http://www.ncbi.nlm.nih.gov/sites/entrez?db=nuccore

  • EST: Expression Sequence Tag-databasen är en samling data från GenBank. Dessa är sekvensmärkta platser som härrör från cDNA och fungerar som en resurs för att utvärdera genuttryck, hitta potentiella variationer och annoterade gener. Den kan nås från webbplatsen http://www.ncbi.nlm.nih.gov/nucest

  • Genome: Genombaserade databaser är en samling av genominformation som omfattar sekvenser, kartor, kromosomer och annoteringar. Den kan nås från webbplatsen http://www.ncbi.nlm.nih.gov/genome

  • dbGaP: Databasen för genotyper och fenotyper är ett bibliotek med resultat från studier av interaktion mellan genotyper och fenotyper. Den kan nås från webbplatsen http://www.ncbi.nlm.nih.gov/gap

  • GEO Datasets: Gene Expression Omnibus (GEO) erbjuder information om genuttrycksdatamängder, deras originalserier och plattformsposter. Här finns också ytterligare information, t.ex. experimentella uppgifter, klusterverktyg och frågor om differentiella uttryck. Den kan nås från webbplatsen www.ncbi.nlm.nih.gov/gds

  • GEO Profiler: Här kan man söka efter profiler som är viktiga med avseende på genannotation eller förberäknade profilegenskaper. Den kan nås från webbplatsen http://www.ncbi.nlm.nih.gov/geoprofiles

  • GSS: GSS-nukleotiddatabasen ger information från GenBank of Genome Survey Sequence records. Den kan nås från webbplatsen www.ncbi.nlm.nih.gov/nucgss

  • HomoloGene: Det är en samling homologer från de annoterade generna hos fullständigt sekvenserade eukaryota organismer. Den kan nås från webbplatsen www.ncbi.nlm.nih.gov/homologene

  • MeSH: MeSH (Medical Subject Headings) är NLM:s (Nations Library of Medicine) kontrollerade vokabulär som används för att bläddra i artiklar och fungerar även som en tesaurus inom biomedicinsk vetenskap för Pubmed och MEDLINE. Den kan nås från webbplatsen www.ncbi.nlm.nih.gov/mesh

  • NCBI Web Site: Den bläddrar på NCBI:s webbplats. Den kan nås från webbplatsen http://www.ncbi.nlm.nih.gov/

  • NLM Catalog: NLM (United States National Library of Medicine) är det största medicinska biblioteket som ger tillgång till böcker, tidskrifter, teknisk information, audiovisuella medier, programvara och andra resurser. Den kan nås från webbplatsen http://www.ncbi.nlm.nih.gov/nlmcatalog

  • OMIM: Det är en omfattande resursdatabas för mänskliga gener och genetiska sjukdomar. Den innehåller information om mänskliga gener och genetiska fenotyper som uppdateras dagligen. Den kan nås från webbplatsen www.ncbi.nlm.nih.gov/omim

  • OMIA: Online Mendelian Inheritance in Animals fungerar som en resurs för gener, ärftliga sjukdomar och egenskaper hos mer än 135 djurarter, författad av professor Frank Nicholas. Den ger tillgång till djurarter med undantag för djurarter hos människa och mus, för vilka artspecifika uppgifter erbjuds. Den kan nås från webbplatsen http://www.ncbi.nlm.nih.gov/omia

  • PopSet: Population Study Dataset är en samling DNA-sekvenser som samlats in för att studera en populations evolutionära släktskap. Den kan nås från webbplatsen http://www.ncbi.nlm.nih.gov/popset

  • Probe: Det är en samling reagenser för nukleinsyror. Den innehåller också information om reagensdistributörer, sondens effektivitet och beräknade sekvenslikheter. Den kan nås från webbplatsen http://www.ncbi.nlm.nih.gov/probe

  • Protein Sequence Database: Det är en samling sekvenser från GenBank, RefSeq, TAP, SwissProt, PIR, PRF, PDB. Den kan nås från webbplatsen www.ncbi.nlm.nih.gov/protein

  • Pubchem BioAssay: Den innehåller information om bioaktivitetsundersökningar av kemiska ämnen från PubChem. Den kan nås från webbplatsen www.ncbi.nlm.nih.gov/pcassay

  • PubChem Compound: Den innehåller föreningar med deras unika strukturer och biologisk information från PubChem-ämnen. Den kan nås från webbplatsen www.ncbi.nlm.nih.gov/pccompound

  • PubChem Substance: Det är en samling av registreringar av ämnen från insättare i systemet, beskrivningar av prover och länkar till biologiska screeningresultat som finns tillgängliga i PubChem BioAssay. Den kan nås från webbplatsen www.ncbi.nlm.nih.gov/pcsubstance

  • PubMed: PubMed är ett fritt tillgängligt databassökningssystem för hälsoinformation som utvecklas och underhålls av National Center for Biotechnology Information (NCBI) vid National Library of Medicine (NLM). Den innehåller artiklar från MEDLINE och andra biomedicinska artiklar. Den kan nås från webbplatsen www.ncbi.nlm.nih.gov/pubmed

  • Pubmed Central: PubMed central är en fritt tillgänglig digital resurs med fulltextartiklar för biomedicinska tidskrifter inom biovetenskap, som är kopplad till PubMed-databasen. Den kan nås från webbplatsen www.ncbi.nlm.nih.gov/pmc/

  • SNP: SNP-databasen innehåller information om polymorfismer av enskilda nukleotider, korta inlagrings- och deletionspolymorfismer. Den kan nås från webbplatsen www.ncbi.nlm.nih.gov/snp

  • Struktur: Strukturdatabasen innehåller information om tredimensionella strukturer för proteiner och andra polynukleotider. Den kan nås från webbplatsen www.ncbi.nlm.nih.gov/structure

  • Taxonomi: Taxonomi: Taxonomin innehåller information om alla organismer som ingår i den genetiska databasen med deras nukleotid- eller proteinsekvens. Den kan nås från webbplatsen www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/

  • UniGene: Den identifierar transkriptioner från samma lokus, analyserar uttrycket efter vävnad, ålder, hälsotillstånd och rapporterar relaterade proteiner (protest) och klonresurser. Den kan nås från webbplatsen www.ncbi.nlm.nih.gov/unigene

  • UniSTS: Den innehåller information om Sequenced Tagged Sites (STS) som är från PCR-primerspar med deras genomiska positioner, gener och sekvensinformation från STS-baserade kartor och andra experiment. Den kan nås från webbplatsen www.ncbi.nlm.nih.gov/unists

  • BioSample: Det är en samling information om olika biologiska källmaterial som används i experimentella försök. Den kan nås från webbplatsen www.ncbi.nlm.nih.gov/biosample

Resultaten av sökningen representeras i olika dataformat som GenBank, FASTA.

GenBank: GenBank är en samling av annoterade DNA-sekvenser, som är NIH:s databas för genetiska sekvenser. De olika parameterkomponenter som ingår förklaras nedan.

  • Lokusnamn hjälper till att gruppera poster med liknande sekvenser. De tre första tecknen anger organismen, det fjärde och femte tecknet ger andra gruppbeteckningar, t.ex. genprodukt, och det sista tecknet är en serie sekventiella heltal.
  • Sekvenslängd innehåller antalet nukleotidbaspar (eller aminosyrarester) i sekvensregistreringen.
  • Molekyltyp visar typen av sekvenserad molekyl.
  • Genbankdivision visar den Genbankdivision som en post tillhör och anges med en förkortning på tre bokstäver.

1. PRI – sekvenser från primater
2. ROD – sekvenser från gnagare
3. MAM – andra sekvenser från däggdjur
4. VRT – andra sekvenser från ryggradsdjur
5. INV – sekvenser från ryggradslösa djur
6. PLN – sekvenser från växter, svampar och alger
7. BCT – sekvenser från bakterier
8. VRL – sekvenser från virus
9. PHG – bakteriofagsekvenser
10. SYN – syntetiska sekvenser
11. UNA – oannoterade sekvenser
12. EST – EST-sekvenser (uttryckta sekvenstaggar)
13. PAT – patentsekvenser
14. STS – STS-sekvenser (sekvensmärkta platser)
15. GSS – GSS-sekvenser (genome survey sequences)
16. HTG – HTG-sekvenser (high-throughput genomic seq)
17. HTC – oavslutade cDNA-sekvenser med hög genomströmning
18. ENV – miljöprovtagningssekvenser

  • Modifieringsdatum visar det senaste ändringsdatumet.
  • Definition är en kortfattad beskrivning av sekvensen som innehåller information som källorganism, gennamn/proteinnamn eller någon beskrivning av sekvensens funktion.
  • Anslutningsnummer anger den unika identifieraren för en sekvenspost.
  • Rekord från RefSeq

NT_123456 konstruerade genomiska contigs
NM_123456 mRNA
NP_123456 proteiner
NC_123456 kromosomer

  • Version visar ett identifikationsnummer för nukleotidsekvensen som representerar en enda, specifik sekvens i GenBank-databasen.
  • GI ”GenInfo Identifier” är ett sekvensidentifikationsnummer för nukleotidsekvensen.
  • Nyckelord beskriver ord eller fras i sekvensen.
  • Källa anger information i fritt format, inklusive en förkortad form av organismens namn, ibland följt av en molekyltyp.
  • Organism beskriver det formella vetenskapliga namnet på källorganismen och dess härstamning.

  • Referens innehåller publikationer av sekvensens författare som diskuterar de data som rapporteras i posten.
  • Författare innehåller Förteckningen över författare i den ordning som de förekommer i den citerade artikeln.

Entrez Search Field: Author

  • Title innehåller titeln på det publicerade verket eller den preliminära titeln på ett opublicerat ord.

Entrez Search Field: Textord

  • Tidskrift: MEDLINE-förkortning av tidskriftens namn.

Entrez Search Field: Tidskriftsnamn

  • Pubmed: PubMed Identifier (PMID)
  • Features visar information om gener och genprodukter samt regioner av biologisk betydelse som rapporterats i sekvensen.
  • Source är en obligatorisk funktion i varje post som sammanfattar längden på sekvensen, det vetenskapliga namnet på källorganismen och Taxon ID-nummer. Kan även innehålla annan information såsom kartplats, stam, klon, vävnadstyp osv, om den tillhandahålls av den som lämnat in den.
  • Taxon är ett stabilt unikt identifieringsnummer för källorganismens taxon.
  • CDS (Coding sequence) representerar en region av nukleotider som motsvarar sekvensen av aminosyror i ett protein.

Figur 1 : GenBank-fil hämtad från NCBI-databasen för posten Homo sapiens Neurexin1

FASTA: Det är ett filformat som används för att representera nukleotid- eller proteinsekvenser som en sträng med någon grundläggande tagg eller identifierare där nukleotider eller aminosyror representeras som koder med en bokstav. En FASTA-sekvens börjar med en (>) större än-symbol som innebär början på en ny sekvenspost som kallas definitionslinje (”def line”). Ett accessions- eller versionsnummer följs av en beskrivning av posten. DNA-sekvenser med stora eller små bokstäver börjar på nästa rad. Sekvenserna innehåller 60 tecken per rad.

Figur 2: FASTA-filformat som erhållits från NCBI-databasen för posten Homo sapiens Neurexin1

Dessa sekvenser som finns lagrade i databasen erhölls från olika experimentella metoder. De vanligaste metoderna för DNA-sekvensering är Sanger-metoden och Maxam-Gilbert-metoden. På samma sätt används Edman-degraderingsmetoden och masspektrometri för sekvensering av proteiner.

Sanger-metoden (dideoxykedjeavslutningsmetoden): Här tas fyra provrör som är märkta med A, T, G och C. Till vart och ett av provrören läggs DNA i denaturerad form (enkelsträngar). Därefter tillsätts en primer som anneas till en av strängen i mallen. Primerns 3′-ände tar emot dideoxinukleotiderna (specifika för varje rör) och deoxinukleotiderna slumpmässigt. När ddNTP:erna kopplas till den växande kedjan avslutas kedjan på grund av avsaknaden av 3’OH som bildar en fosfo diesterbindning med nästa nukleotid. På så sätt bildas små DNA-strängar. Elektrofores utförs och sekvensordningen kan erhållas genom att analysera banden i gelen på grundval av molekylvikten. Primern eller en av nukleotiderna kan också vara radioaktivt eller fluorescerande märkt, så att slutprodukten lätt kan detekteras från gelen och sekvensen kan härledas.

Maxam-Gilbert (kemisk nedbrytningsmetod): Denna metod kräver denaturering av DNA-fragment vars 5′-ändar är radioaktivt märkta. Fragmentet renas sedan innan det behandlas kemiskt, vilket resulterar i en serie märkta fragment. Elektroforesetekniken hjälper till att ordna fragmenten utifrån deras molekylvikt. För att se fragmenten exponeras gelen för röntgenfilm för autoradiografi. En serie mörka band kommer att visas, vart och ett motsvarande ett radiomärkt DNA-fragment, från vilket sekvensen kan härledas.

Edman nedbrytningsreaktion: Reaktionen finner ordningen av aminosyror i ett protein från N-terminalen, genom att klyva varje aminosyra från N-terminalen utan att rubba bindningarna i proteinet. Efter varje klyvning görs kromatografi eller elektrofores för att identifiera aminosyran

.

Lämna ett svar

Din e-postadress kommer inte publiceras.