Mål

nov 26, 2021
admin

  • At introducere Entrez som et system til hentning af biologiske data
  • At lære at bruge Entrez-søgemaskinen til at hente nukleotid/protein-sekvensdata.

Entrez er en integreret søgemaskine, som giver brugerne mulighed for at søge og hente forskellige data fra National Center for Biotechnology Information (NCBI). Den kan tilgås fra webstedet www.ncbi.nlm.nih.gov/Entrez/. Entrez er NCBI’s store tekstsøgningssystem, som integrerer PubMed-databasen og 39 andre videnskabelige litteraturer, nukleotid- og proteindatabaser, proteindomænedata, populationsundersøgelsesdatasæt, ekspressionsdata, veje og systemer af interagerende molekyler, komplette genomoplysninger og taksonomiske oplysninger i et tæt sammenkoblet system. Disse komponentdatabaser kan tilgås ved hjælp af en enkelt forespørgsel.

NCBI’s hovedfunktioner er:

  1. Skabelse af offentlige databaser til lagring, hentning og analyse af viden om molekylærbiologi, biokemi og genetik.
  2. Forskning inden for computationel biologi til analyse af biologiske molekylers struktur og funktion.
  3. Udvikle softwareværktøjer til analyse af genomiske data.
  4. Sprede biomedicinsk information.
  5. Samle bioteknologisk information på verdensplan.

Entrez fungerer derved som søgemaskine for NCBI-databaser.Søgning kan gøres mere præcis ved at bruge boolske operatorer som AND, OR eller NOT sammen med søgeangivelsen. Grænser giver brugeren mulighed for at filtrere sin søgning efter eget valg. En grænseflade for avanceret søgning gør det muligt at udføre mere detaljerede forespørgsler.

De forskellige forespørgsler kan søges på følgende grundlag. Syntaksen for søgning af forespørgsler er som vist nedenfor.

Søgeudtryk Boolske operatorer Søgeudtryk .

Tabel1: Entrez Boolean Search Statements

Brugeren kan foretage global søgning ved at vælge standardindstillingen “All Databases “, som viser resultatet fra de forskellige databaser, og antallet af tilgængelige poster for hver database vises også. Databaserne er arrangeret i tre hovedafsnit, hvoraf det øverste afsnit indeholder oplysninger om litteraturdatabaser, det midterste afsnit omfatter molekylære databaser og det nederste afsnit omfatter accessoriske litteraturdatabasetidsskrifter, NLM-katalog og MeSH.

De tilknyttede databaser, der er inkluderet i Entrez, er som følger.

  • Bøger: Bookshelf giver gratis adgang til at søge, hente og læse bøger og tidsskrifter fra det biovidenskabelige område. Den kan tilgås fra webstedet http://www.ncbi.nlm.nih.gov/books

  • CDD: Conserved Domain Database er en samling af annotationer af funktionelle enheder i proteiner. Den indeholder manuelt annoterede domænemodeller, som anvender 3D-strukturoplysninger til at definere sekvens/struktur/funktionsforhold. Den kan tilgås fra webstedet www.ncbi.nlm.nih.gov/sites/entrez

  • Gene: Gene-databasen omfatter oplysninger om forskellige arter, herunder deres nomenklatur, tilknyttede veje, RefSeq’s, fænotyper, links til genomet. Den kan tilgås fra webstedet http://www.ncbi.nlm.nih.gov/gene/
  • CoreNucleotide: Det er en kilde til sekvenser fra forskellige databaser, herunder GenBank, RefSeq, TPA og PDB, som vil være nyttige for forskningsformål. Den kan tilgås fra webstedet http://www.ncbi.nlm.nih.gov/sites/entrez?db=nuccore

  • EST: Expression Sequence Tag-databasen er en samling af data fra GenBank. Der er tale om sekvensmærkede steder, der er afledt af cDNA, og som fungerer som en ressource til at evaluere genekspression, finde potentielle variationer og annoterede gener. Den kan tilgås fra webstedet http://www.ncbi.nlm.nih.gov/nucest

  • Genome: Genome database er en samling af genomoplysninger, som omfatter deres sekvenser, kort, kromosomer og annotationer. Den kan tilgås fra webstedet http://www.ncbi.nlm.nih.gov/genome

  • dbGaP: Databasen over genotyper og fænotyper er et bibliotek med resultater fra undersøgelser af interaktion mellem genotyper og fænotyper. Den kan tilgås fra webstedet http://www.ncbi.nlm.nih.gov/gap

  • GEO Datasets: Gene Expression Omnibus (GEO) indeholder oplysninger om genekspressionsdatasæt, deres oprindelige serier og Platform records. Den indeholder også yderligere oplysninger som f.eks. eksperimentelle detaljer, klyngeværktøjer og differentielle ekspressionsforespørgsler. Den kan tilgås fra webstedet www.ncbi.nlm.nih.gov/gds

  • GEO Profiler: Det giver mulighed for at søge efter profiler, der er vigtige med hensyn til genannotation eller forudberegnede profilkarakteristika. Den kan tilgås fra webstedet http://www.ncbi.nlm.nih.gov/geoprofiles

  • GSS: GSS-nukleotiddatabasen giver oplysninger fra GenBank of Genome Survey Sequence records. Den kan tilgås fra webstedet www.ncbi.nlm.nih.gov/nucgss

  • HomoloGene: Det er en samling af homologer fra de annoterede gener fra fuldstændigt sekventerede eukaryote organismer. Den kan tilgås fra webstedet www.ncbi.nlm.nih.gov/homologene

  • MeSH: MeSH (Medical Subject Headings) er NLM’s (Nations Library of Medicine) kontrollerede ordforråd, der bruges til at gennemse artikler, og som også fungerer som en thesaurus inden for biomedicinsk videnskab for Pubmed og MEDLINE. Den kan tilgås fra webstedet www.ncbi.nlm.nih.gov/mesh

  • NCBI Web Site: Den gennemgår NCBI’s websted. Den kan tilgås fra webstedet http://www.ncbi.nlm.nih.gov/

  • NLM Catalog: NLM (United States National Library of Medicine) er det største medicinske bibliotek, som giver adgang til bøger, tidsskrifter, teknisk information, audiovisuelle værker, software og andre ressourcer. Det kan tilgås fra webstedet http://www.ncbi.nlm.nih.gov/nlmcatalog

  • OMIM: Det er en omfattende ressourcedatabase for menneskelige gener og genetiske lidelser. Den indeholder oplysninger om menneskelige gener og genetiske fænotyper, som opdateres dagligt. Den kan tilgås fra webstedet www.ncbi.nlm.nih.gov/omim

  • OMIA: Online Mendelian Inheritance in Animals fungerer som en ressource for gener, arvelige lidelser og træk hos mere end 135 dyrearter og er forfattet af professor Frank Nicholas. Den giver adgang til dyrearter med undtagelse af dem hos mennesker og mus, for hvilke der tilbydes artsspecifikke data. Den kan tilgås fra webstedet http://www.ncbi.nlm.nih.gov/omia

  • PopSet: Population Study dataset er en samling af sæt af DNA-sekvenser, der er indsamlet med henblik på at studere en populations evolutionære slægtskab. Det kan tilgås fra webstedet http://www.ncbi.nlm.nih.gov/popset

  • Probe: Det er en samling af nukleinsyrereagenser. Den indeholder også oplysninger om reagensfordelere, sondeeffektivitet og beregnede sekvensligheder. Den kan tilgås fra webstedet http://www.ncbi.nlm.nih.gov/probe

  • Protein Sequence Database: Det er en samling af sekvenser fra GenBank, RefSeq, TAP, SwissProt, PIR, PRF, PDB. Den kan tilgås fra webstedet www.ncbi.nlm.nih.gov/protein

  • Pubchem BioAssay: Den indeholder oplysninger om bioaktivitetsscreens af kemiske stoffer fra PubChem. Den kan tilgås fra webstedet www.ncbi.nlm.nih.gov/pcassay

  • PubChem Compound: Den indeholder forbindelser med deres unikke strukturer og biologiske oplysninger fra PubChem-stoffer. Den kan tilgås fra webstedet www.ncbi.nlm.nih.gov/pccompound

  • PubChem Substance: Det er en samling af registreringer af stoffer fra indlæggere i systemet, beskrivelser af prøver og links til biologiske screeningsresultater, som er tilgængelige i PubChem BioAssay. Det kan tilgås fra webstedet www.ncbi.nlm.nih.gov/pcsubstance

  • PubMed: PubMed er et frit tilgængeligt databasesøgningssystem for sundhedsinformation, som er udviklet og vedligeholdt af National Center for Biotechnology Information (NCBI) ved National Library of Medicine (NLM). Den indeholder artikler fra MEDLINE og andre biomedicinske artikler. Den kan tilgås fra webstedet www.ncbi.nlm.nih.gov/pubmed

  • Pubmed Central: PubMed central er en frit tilgængelig digital ressource med fuldtekstartikler for biomedicinske biovidenskabelige tidsskrifter, som er knyttet til PubMed-databasen. Den kan tilgås fra webstedet www.ncbi.nlm.nih.gov/pmc/

  • SNP: SNP-databasen indeholder oplysninger om enkeltnukleotidpolymorfismer, korte indsættelses- og deletionspolymorfismer. Den kan tilgås fra webstedet www.ncbi.nlm.nih.gov/snp

  • Struktur: Strukturdatabasen indeholder oplysninger om 3-dimensionelle strukturer af proteiner og andre polynucleotider. Den kan tilgås fra webstedet www.ncbi.nlm.nih.gov/structure

  • Taxonomi: Taxonomi: Taxonomi indeholder oplysninger om alle organismer, der er medtaget i den genetiske database med deres nukleotid- eller proteinsekvens. Den kan tilgås fra webstedet www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/

  • UniGene: Den identificerer transkripter fra det samme locus, analyserer ekspression efter væv, alder og sundhedstilstand og rapporterer relaterede proteiner (protest) og klonressourcer. Den kan tilgås fra webstedet www.ncbi.nlm.nih.gov/unigene

  • UniSTS: Den indeholder oplysninger om Sequenced Tagged Sites (STS), som er fra PCR-primerpar med deres genomiske positioner, gener og sekvensoplysninger fra STS-baserede kort og andre eksperimenter. Den kan tilgås fra webstedet www.ncbi.nlm.nih.gov/unists

  • BioSample: Det er en samling af oplysninger om forskellige biologiske kildematerialer, der anvendes i eksperimentelle assays. Den kan tilgås fra webstedet www.ncbi.nlm.nih.gov/biosample

Resultaterne af forespørgselssøgningen er repræsenteret i forskellige dataformater som GenBank, FASTA.

GenBank : GenBank er en samling af annoterede DNA-sekvenser, som er NIH’s genetiske sekvensdatabase. De forskellige parameterkomponenter, der indgår, er forklaret nedenfor.

  • Locusnavn hjælper med at gruppere poster med lignende sekvenser. De tre første tegn angiver organismen, det fjerde og femte tegn angiver andre gruppebetegnelser, f.eks. genprodukt, og det sidste tegn er en række fortløbende hele tal.
  • Sequence Length indeholder antallet af nukleotid-basepar (eller aminosyrerester) i sekvensoptegnelsen.
  • Molekyltype viser typen af sekventeret molekyle.
  • Genbank-division viser den GenBank-division, som en post tilhører, og er angivet med en forkortelse på tre bogstaver.

1. PRI – sekvenser af primater
2. ROD – sekvenser af gnavere
3. MAM – andre sekvenser af pattedyr
4. VRT – andre sekvenser af hvirveldyr
5. INV – sekvenser fra hvirvelløse dyr
6. PLN – sekvenser fra planter, svampe og alger
7. BCT – bakteriesekvenser
8. VRL – virale sekvenser
9. PHG – bakteriofagsekvenser
10. SYN – syntetiske sekvenser
11. UNA – ikke-annoterede sekvenser
12. EST – EST-sekvenser (expressed sequence tags)
13. PAT – patenterede sekvenser
14. STS – STS-sekvenser (sequence tagged sites)
15. GSS – GSS-sekvenser (genome survey sequences)
16. HTG – HTG-sekvenser (high-throughput genomic seq)
17. HTC – ufærdige cDNA-sekventeringer med højt gennemløb
18. ENV – miljøprøvetagningssekvenser

  • Modifikationsdato viser den seneste dato for ændring.
  • Definition er en kort beskrivelse af sekvensen, der indeholder oplysninger såsom kildeorganisme, gennavn/proteinnavn eller en beskrivelse af sekvensens funktion.
  • Accessionsnummer angiver den unikke identifikator for en sekvensregistrering.
  • Rekorder fra RefSeq

NT_123456 konstruerede genomiske kontigs
NM_123456 mRNA’er
NP_123456 proteiner
NC_123456 kromosomer

  • Version viser et identifikationsnummer for en nukleotidsekvens, der repræsenterer en enkelt, specifik sekvens i GenBank-databasen.
  • GI “GenInfo Identifier” er et sekvensidentifikationsnummer for nukleotidsekvensen.
  • Nøgleord beskriver ord eller sætning i sekvensen.
  • Kilde angiver oplysninger i frit format, herunder en forkortet form af organismenavnet, undertiden efterfulgt af en molekyltype.
  • Organisme beskriver det formelle videnskabelige navn for kildeorganismen og dens afstamning.

  • Reference indeholder publikationer af sekvensens forfattere, der diskuterer de data, der er rapporteret i posten.
  • Forfattere indeholder Liste over forfattere i den rækkefølge, hvori de optræder i den citerede artikel.

Entrez-søgefelt: Author

  • Title repræsenterer titlen på det offentliggjorte værk eller den foreløbige titel på et upubliceret ord.

Entrez Search Field: Tekstord

  • Journal: MEDLINE-forkortelse af tidsskriftets navn.

Entrez-søgefelt: Journal Name

  • Pubmed: PubMed Identifier (PMID)
  • Features viser oplysninger om gener og genprodukter samt regioner af biologisk betydning, der er rapporteret i sekvensen.
  • Source er en obligatorisk funktion i hver post, der opsummerer sekvensens længde, det videnskabelige navn på kildeorganismen og Taxon ID-nummer. Kan også indeholde andre oplysninger som f.eks. kortplacering, stamme, klon, vævstype osv, hvis indsenderen har oplyst det.
  • Taxon er et stabilt unikt identifikationsnummer for kildeorganismens taxon.
  • CDS (Coding sequence) repræsenterer en region af nukleotider, der svarer til sekvensen af aminosyrer i et protein.

Figur 1 : GenBank-fil hentet fra NCBI-databasen for posten Homo sapiens Neurexin1

FASTA: Det er et filformat, der anvendes til at repræsentere nukleotid- eller proteinsekvenser som en streng med et eller andet grundlæggende tag eller identifikator, hvor nukleotider eller aminosyrer er repræsenteret som koder med et enkelt bogstav. En FASTA-sekvens starter med et (>) større end-symbol, som angiver begyndelsen på en ny sekvensoptegnelse, der kaldes definitionslinje (“def-linje”). Et accessionnummer eller versionsnummer efterfølges af en beskrivelse af den pågældende post. DNA-sekvensen med store eller små bogstaver begynder fra den næste linje. Sekvenserne indeholder 60 tegn pr. linje.

Figur 2: FASTA-filformat hentet fra NCBI-databasen for posten Homo sapiens Neurexin1

Disse sekvenser, der er gemt i databasen, blev opnået ved forskellige eksperimentelle metoder. De mest almindeligt anvendte metoder til DNA-sekventering er Sanger-metoden og Maxam-Gilbert-metoden. Tilsvarende anvendes Edman-degraderingsmetoden og massespektrometri til sekventering af proteiner.

Sanger-metoden (dideoxy-kædeterminationsmetoden): Her tages fire reagensglas mærket med A, T, G og C. I hvert af reagensglassene tilsættes DNA i denatureret form (enkeltstrenge). Derefter tilsættes en primer, som annealerer til en af trådene i skabelonen. Primerens 3′-ende modtager både dideoxynukleotiderne (specifikke for hvert enkelt reagensglas) og deoxynukleotiderne tilfældigt. Når ddNTP’erne bliver bundet til den voksende kæde, afsluttes kæden på grund af mangel på 3’OH, som danner en fosfo diesterbinding med det næste nukleotid. Der dannes således små DNA-strenge. Der foretages elektroforese, og sekvensrækkefølgen kan fås ved at analysere båndene i gelen på grundlag af molekylvægten. Primeren eller et af nukleotiderne kan også være radioaktivt eller fluorescerende mærket, således at det endelige produkt let kan påvises fra gelen, og sekvensen kan udledes.

Maxam-Gilbert (kemisk nedbrydningsmetode): Denne metode kræver denaturering af et DNA-fragment, hvis 5′-ende er radioaktivt mærket. Dette fragment renses derefter, inden det underkastes en kemisk behandling, som resulterer i en serie af mærkede fragmenter. Elektroforese-teknikken hjælper med at arrangere fragmenterne på grundlag af deres molekylvægt. For at se fragmenterne eksponeres gelen for røntgenfilm med henblik på autoradiografi. Der fremkommer en række mørke bånd, som hver svarer til et radiomærket DNA-fragment, hvoraf sekvensen kan udledes.

Edman nedbrydningsreaktion: Reaktionen finder rækkefølgen af aminosyrer i et protein fra N-terminalen, ved at kløve hver aminosyre fra N-terminalen uden at forstyrre bindingerne i proteinet. Efter hver kløvning foretages kromatografi eller elektroforese for at identificere aminosyren

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.