Sekvenssidatan hakeminen Entrezistä (teoria) : Bioinformatiikan virtuaalilaboratorio I

Tavoite

marras 26, 2021

admin

Tutustua Entreziin biologisen datan hakujärjestelmänä

Opetella käyttämään Entrez-hakukonetta nukleotidi-/proteiinisekvenssidatan hakemiseen.

Entrez on integroitu hakukone, jonka avulla käyttäjät voivat etsiä ja hakea erilaisia tietoja National Center for Biotechnology Informationista (NCBI). Sitä voi käyttää sivustolta www.ncbi.nlm.nih.gov/Entrez/. Entrez on NCBI:n tärkein tekstihaku- ja hakujärjestelmä, joka integroi PubMed-tietokannan ja 39 muuta tieteellistä kirjallisuutta, nukleotidi- ja proteiinitietokantoja, proteiinidomeenitietoja, populaatiotutkimustietokantoja, ekspressiotietoja, vuorovaikutuksessa olevien molekyylien reittejä ja järjestelmiä, täydellisiä genomitietoja ja taksonomisia tietoja tiiviisti toisiinsa kytkettyyn järjestelmään. Näihin osatietokantoihin pääsee käsiksi yhdellä ainoalla kyselyllä.

NCBI:n päätehtävät ovat:

Luo julkisia tietokantoja molekyylibiologiaa, biokemiaa ja genetiikkaa koskevan tiedon tallentamiseen, hakemiseen ja analysointiin.
Tutkimuksen tekeminen laskennallisessa biologiassa biologisten molekyylien rakenteen ja toiminnan analysoimiseksi.
Kehittää ohjelmistotyökaluja genomitiedon analysointiin.
Jalostaa biolääketieteellistä tietoa.
Kerätä biotekniikkatietoa maailmanlaajuisesti.

Entrez toimii siten NCBI:n tietokantojen hakukonemoottorina.Hakua voidaan tarkentaa käyttämällä hakulausekkeen yhteydessä Boolen operaattoreita, kuten AND, OR tai NOT. Rajausten avulla käyttäjä voi suodattaa hakua valintansa mukaan. Edistyneen haun käyttöliittymä mahdollistaa yksityiskohtaisempien hakujen tekemisen.

Erilaisia hakuja voidaan hakea seuraavin perustein. Hakukyselyjen syntaksi on esitetty alla.

Hakusana Boolen operaattorit Hakusana .

Table1:

Käyttäjä voi suorittaa globaalin haun valitsemalla oletusvaihtoehdon ”Kaikki tietokannat ”, jolloin näytetään tulokset eri tietokannoista ja näytetään myös kunkin tietokannan käytettävissä olevien tietueiden määrä. Tietokannat on järjestetty kolmeen pääosioon, joista ylin osio sisältää tietoa kirjallisuustietokannoista, keskimmäinen osio sisältää molekyylitietokannat ja alin osio sisältää liitännäiskirjallisuustietokantojen lehdet, NLM-luettelon ja MeSH:n.

Entrezin sisältämät liitännäistietokannat ovat seuraavat.

Kirjat: Kirjahylly tarjoaa ilmaisen pääsyn etsiä, hakea ja lukea kirjoja ja lehtiä biotieteiden alalta. Siihen pääsee käsiksi sivustolta http://www.ncbi.nlm.nih.gov/books

CDD: Conserved Domain Database on kokoelma proteiinien funktionaalisten yksiköiden annotaatioita. Se sisältää manuaalisesti annotoituja domain-malleja, jotka käyttävät 3D-rakennetietoa sekvenssi/rakenne/toimintasuhteiden määrittelyyn. Sitä voi käyttää sivustolta www.ncbi.nlm.nih.gov/sites/entrez

Gene: Gene-tietokanta sisältää tietoa eri lajeista, mukaan lukien niiden nimikkeistö, niihin liittyvät polut, RefSeq:t, fenotyypit ja linkit genomiin. Siihen pääsee sivustolta http://www.ncbi.nlm.nih.gov/gene/

CoreNucleotide: Se on eri tietokantojen, kuten GenBankin, RefSeqin, TPA:n ja PDB:n, sekvenssien lähde, josta on hyötyä tutkimustarkoituksiin. Siihen pääsee sivustolta http://www.ncbi.nlm.nih.gov/sites/entrez?db=nuccore

EST: Expression Sequence Tag -tietokanta on kokoelma GenBankin tietoja. Nämä ovat cDNA:sta johdettuja sekvenssimerkittyjä sivustoja, jotka toimivat resurssina geeniekspression arvioimiseksi, mahdollisen vaihtelun löytämiseksi, annotoitujen geenien löytämiseksi. Siihen pääsee käsiksi sivustolta http://www.ncbi.nlm.nih.gov/nucest

Genome: Genomitietokanta on kokoelma genomitietoja, jotka sisältävät niiden sekvenssit, kartat, kromosomit ja annotaatiot. Siihen pääsee käsiksi sivustolta http://www.ncbi.nlm.nih.gov/genome

dbGaP: Genotyyppien ja fenotyyppien tietokanta on kirjasto tuloksista, jotka on saatu genotyyppien ja fenotyyppien vuorovaikutuksen tutkimuksista. Siihen pääsee käsiksi sivustolta http://www.ncbi.nlm.nih.gov/gap

GEO Datasets: Gene Expression Omnibus (GEO) tarjoaa tietoa geeniekspressiotietoaineistoista, niiden alkuperäisistä sarjoista ja alustatietueista. Se tarjoaa myös lisätietoja, kuten kokeellisia yksityiskohtia, klusterityökaluja ja differentiaalisen ilmentymisen kyselyjä. Siihen pääsee sivustolta www.ncbi.nlm.nih.gov/gds

GEO Profiles: Se tarjoaa selata profiileja, jotka ovat tärkeitä geenien annotaation tai ennalta laskettujen profiilien ominaisuuksien kannalta. Siihen pääsee sivustolta http://www.ncbi.nlm.nih.gov/geoprofiles

GSS: GSS-nukleotiditietokanta tarjoaa tietoa GenBankin Genome Survey Sequence -tietueista. Siihen pääsee käsiksi sivustolta www.ncbi.nlm.nih.gov/nucgss

HomoloGene: Se on kokoelma homologeja täysin sekvensoitujen eukaryoottisten organismien annotoiduista geeneistä. Siihen pääsee sivustolta www.ncbi.nlm.nih.gov/homologene

MeSH: MeSH (Medical Subject Headings) on NLM:n (Nations Library of Medicine) valvottu sanasto, jota käytetään artikkeleiden selaamiseen, toimii myös tesauruksena biolääketieteissä Pubmedin ja MEDLINE:n yhteydessä. Sitä voi käyttää sivustolta www.ncbi.nlm.nih.gov/mesh

NCBI Web Site: Se selaa NCBI:n verkkosivustoa. Sitä voi käyttää sivustolta http://www.ncbi.nlm.nih.gov/

NLM Catalog: NLM (United States National Library of Medicine) on suurin lääketieteellinen kirjasto, joka tarjoaa pääsyn kirjoihin, lehtiin, tekniseen tietoon, audiovisuaalisiin aineistoihin, ohjelmistoihin ja muihin resursseihin. Siihen pääsee sivustolta http://www.ncbi.nlm.nih.gov/nlmcatalog

OMIM: Se on kattava resurssitietokanta ihmisen geeneistä ja geneettisistä häiriöistä. Se sisältää päivittäin päivitettävää tietoa ihmisen geeneistä ja geneettisistä fenotyypeistä. Siihen pääsee sivustolta www.ncbi.nlm.nih.gov/omim

OMIA: Online Mendelian Inheritance in Animals toimii yli 135 eläinlajin geenejä, perinnöllisiä häiriöitä ja ominaisuuksia koskevana tietolähteenä, jonka kirjoittaja on professori Frank Nicholas. Se tarjoaa pääsyn eläinlajeihin lukuun ottamatta ihmisen ja hiiren lajeja, joista tarjotaan lajikohtaisia tietoja. Siihen pääsee sivustolta http://www.ncbi.nlm.nih.gov/omia

PopSet: Populaatiotutkimuksen tietokokonaisuus on kokoelma DNA-sekvenssien joukkoa, joka on kerätty populaation evolutiivisen sukulaisuuden tutkimiseksi. Sitä voi käyttää sivustolta http://www.ncbi.nlm.nih.gov/popset

Probe: Se on kokoelma nukleiinihapporeagensseja. Se sisältää myös tietoa reagenssien jakelijoista, koettimien tehokkuudesta ja lasketuista sekvenssi-yhteneväisyyksistä. Siihen pääsee sivustolta http://www.ncbi.nlm.nih.gov/probe

Protein Sequence Database: Se on kokoelma GenBankin, RefSeqin, TAP:n, SwissProtin, PIR:n, PRF:n ja PDB:n sekvenssejä. Sitä voi käyttää sivustolta www.ncbi.nlm.nih.gov/protein

Pubchem BioAssay: Se sisältää tietoa kemiallisten aineiden bioaktiivisuusseuloista PubChemistä. Siihen pääsee sivustolta www.ncbi.nlm.nih.gov/pcassay

PubChem Compound: Se sisältää yhdisteitä ja niiden yksilöllisiä rakenteita ja biologisia tietoja PubChem-aineista. Siihen pääsee sivustolta www.ncbi.nlm.nih.gov/pccompound

PubChem Substance: Se on kokoelma tallettajien järjestelmään tallettamien aineiden tietueita, näytteiden kuvauksia ja linkkejä biologisiin seulontatuloksiin, jotka ovat saatavilla PubChem BioAssay -palvelussa. Siihen pääsee sivustolta www.ncbi.nlm.nih.gov/pcsubstance

PubMed: PubMed on vapaasti käytettävissä oleva terveystiedon tietokantahakujärjestelmä, jonka National Center for Biotechnology Information (NCBI) on kehittänyt ja ylläpitää National Library of Medicinessä (NLM). Se sisältää MEDLINE-artikkeleita ja muita biolääketieteellisiä artikkeleita. Sitä voi käyttää sivustolta www.ncbi.nlm.nih.gov/pubmed

Pubmed Central: PubMed Central on vapaasti käytettävissä oleva digitaalinen resurssi biolääketieteellisten biotieteellisten aikakauslehtien kokotekstiartikkeleista, joka on linkitetty PubMed-tietokantaan. Siihen pääsee sivustolta www.ncbi.nlm.nih.gov/pmc/

SNP: SNP-tietokanta sisältää tietoja yhden nukleotidin polymorfismeista, lyhyistä insertio- ja deleetio-polymorfismeista. Siihen pääsee osoitteesta www.ncbi.nlm.nih.gov/snp

Rakenne: Structure-tietokanta sisältää tietoa proteiinien ja muiden polynukleotidien kolmiulotteisista rakenteista. Siihen pääsee sivustolta www.ncbi.nlm.nih.gov/structure

Taksonomia: Taksonomia sisältää tiedot kaikista geneettiseen tietokantaan sisältyvistä organismeista ja niiden nukleotidi- tai proteiinisekvensseistä. Siihen pääsee sivustolta www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/

UniGene: UniGene: Se tunnistaa samasta lokuksesta peräisin olevat transkriptit, analysoi ilmentymistä kudoksen, iän, terveydentilan mukaan ja raportoi siihen liittyvät proteiinit (protesti) ja klooniresurssit. Sitä voi käyttää sivustolta www.ncbi.nlm.nih.gov/unigene

UniSTS: Se sisältää tietoa sekvensoiduista merkityistä paikoista (STS), jotka ovat PCR-alkuripareista ja niiden genomipaikoista, geeneistä ja sekvenssitiedoista STS-pohjaisista kartoista ja muista kokeista. Siihen pääsee sivustolta www.ncbi.nlm.nih.gov/unists

BioSample: Se on kokoelma tietoa erilaisista biologisista lähdemateriaaleista, joita käytetään kokeellisissa määrityksissä. Sitä voi käyttää sivustolta www.ncbi.nlm.nih.gov/biosample

Kyselyhaun tulokset esitetään eri dataformaateissa, kuten GenBank, FASTA.

GenBank : GenBank on kokoelma annotoituja DNA-sekvenssejä, joka on NIH:n geenisekvenssitietokanta. Mukana olevat eri parametrikomponentit selitetään jäljempänä.

Paikan nimi auttaa ryhmittelemään samankaltaisia sekvenssejä sisältäviä merkintöjä. Kolme ensimmäistä merkkiä tarkoittaa organismia, neljäs ja viides merkki antavat muita ryhmänimityksiä, kuten geenituote, ja viimeinen merkki on sarja peräkkäisiä kokonaislukuja.

Sekvenssin pituus sisältää sekvenssitietueessa olevien nukleotidiemäsparien (tai aminohappojäännösten) määrän.

Molecule Type osoittaa sekvensoidun molekyylin tyypin.

Genbank Division osoittaa GenBankin divisioonan, johon tietue kuuluu, ja se ilmoitetaan kolmikirjaimisella lyhenteellä.

1. PRI – kädellisten sekvenssit
2. ROD – jyrsijöiden sekvenssit
3. MAM – muut nisäkkäiden sekvenssit
4. VRT – muut selkärankaisten sekvenssit
5. INV – selkärangattomat sekvenssit
6. PLN – kasvi-, sieni- ja leväsekvenssit
7. BCT – bakteerisekvenssit
8. VRL – virussekvenssit
9. PHG – bakteriofagisekvenssit
10. SYN – synteettiset sekvenssit
11. UNA – noteeraamattomat sekvenssit
12. EST – EST-sekvenssit (expressed sequence tags)
13. PAT – patenttisekvenssit
14. STS – STS-sekvenssit (sequence tagged sites)
15. GSS – GSS-sekvenssit (genomitutkimussekvenssit)
16. HTG – HTG-sekvenssit (high-throughput genomic seq)
17. HTC – keskeneräiset korkean läpimenon cDNA-sekvenssit
18. ENV – ympäristönäytteenottosekvenssit

Muokkauspäivämäärä osoittaa viimeisimmän muutospäivämäärän.

Määritelmä on lyhyt kuvaus sekvenssistä, joka sisältää tietoja, kuten lähdeorganismista, geenin nimestä/proteiinin nimestä tai jonkinlaisen kuvauksen sekvenssin funktiosta.

Käyttötarkoitus (accession number) ilmaisee sekvenssitietueiden yksilöivän tunnisteen.

Tietueet RefSeqista

NT_123456 rakennetut genomikontigit
NM_123456 mRNA:t
NP_123456 proteiinit
NC_123456 kromosomit
NC_123456 kromosomit

Versio ilmaisee yksittäistä nukleotidisekvenssia edustavan tunnistenumeron, tiettyä sekvenssiä GenBank-tietokannassa.

GI ”GenInfo Identifier” on nukleotidisekvenssin sekvenssin tunnistenumero.

Avainsanat kuvaa sekvenssin sanan tai lausekkeen.

Lähde ilmaisee vapaamuotoista tietoa, joka sisältää organismin nimen lyhennetyn muodon, jota seuraa joskus molekyylityyppi.

Organismi kuvaa lähdeorganismin virallisen tieteellisen nimen ja sen sukulinjan.

Viite sisältää sekvenssin kirjoittajien julkaisut, jotka käsittelevät tietueessa raportoituja tietoja.

Kirjoittajat sisältää Luettelon kirjoittajista siinä järjestyksessä, jossa he esiintyvät siteeratussa artikkelissa.

Entrez Search Field: Author

Title edustaa julkaistun teoksen otsikkoa tai julkaisemattoman sanan alustavaa otsikkoa.

Entrez Search Field: Teksti Sana

Lehti: MEDLINE-lehden nimen lyhenne.

Entrez-hakukenttä:

Pubmed: PubMed Identifier (PMID)

Features näyttää tiedot geeneistä ja geenituotteista sekä sekvenssissä ilmoitetuista biologisesti merkittävistä alueista.

Source on jokaisessa tietueessa oleva pakollinen ominaisuus, joka tiivistää sekvenssin pituuden, lähdeorganismin tieteellisen nimen ja taksonitunnuksen. Voi sisältää myös muita tietoja, kuten kartan sijainnin, kannan, kloonin, kudostyypin jne, jos lähettäjä antaa ne.

Taxon on lähdeorganismin taksonin vakaa yksilöllinen tunnistenumero.

CDS (koodaava sekvenssi) edustaa nukleotidien aluetta, joka vastaa proteiinin aminohapposekvenssiä.

Kuva 1 : NCBI-tietokannasta saatu GenBank-tiedosto merkinnälle Homo sapiens Neurexin1

FASTA: Se on tiedostomuoto, jota käytetään nukleotidi- tai proteiinisekvenssien esittämiseen merkkijonona, jossa on jokin perustunniste tai -tunniste, jossa nukleotidit tai aminohapot esitetään yksikirjaimisina koodeina. FASTA-sekvenssi alkaa (>) suuremmalla kuin-symbolilla, joka merkitsee uuden sekvenssitietueen alkua, jota kutsutaan määrittelyriviksi (”def line”). Liittymisnumeroa tai versionumeroa seuraa kyseisen merkinnän kuvaus. DNA-sekvenssi joko isoilla tai pienillä kirjaimilla alkaa seuraavalta riviltä. Sekvenssit sisältävät 60 merkkiä riviä kohti.

Kuva 2: NCBI:n tietokannasta saatu FASTA-tiedostomuoto merkinnälle Homo sapiens Neurexin1

Tietokantaan tallennetut sekvenssit saatiin eri kokeellisilla menetelmillä. Yleisimmin käytetyt DNA-sekvensointimenetelmät ovat Sangerin menetelmä ja Maxam-Gilbertin menetelmä. Vastaavasti proteiinien sekvensoinnissa käytetään Edmanin hajotusmenetelmää ja massaspektrometriatekniikkaa.

Sanger-menetelmä (dideoksiketjun lopetusmenetelmä): Tässä otetaan neljä koeputkea, jotka on merkitty A:lla, T:llä, G:llä ja C:llä. Kumpaankin koeputkeen lisätään DNA:ta denaturoidussa muodossa (yksisäikeisenä). Seuraavaksi lisätään aluketta, joka annealisoituu yhteen templaatin säikeistä. Alukkeen 3′ päähän mahtuu dideoksinukleotideja (jokaiselle putkelle erikseen) sekä satunnaisesti deoksinukleotideja. Kun ddNTP:t kiinnittyvät kasvavaan ketjuun, ketju päättyy 3’OH:n puuttuessa, joka muodostaa fosfodiesterisidoksen seuraavan nukleotidin kanssa. Näin muodostuu pieniä DNA-säikeitä. Suoritetaan elektroforeesi, ja sekvenssijärjestys saadaan analysoimalla geelissä olevat kaistat molekyylipainon perusteella. Aluketta tai yhtä nukleotidia voidaan myös leimata radioaktiivisesti tai fluoresoivasti, jolloin lopputuote voidaan helposti havaita geelistä ja päätellä sekvenssi.

Maxam-Gilbert (kemiallinen hajotusmenetelmä): Tässä menetelmässä tarvitaan denaturoitu DNA-fragmentti, jonka 5′ pää on radioaktiivisesti merkitty. Tämän jälkeen tämä fragmentti puhdistetaan ennen kemiallista käsittelyä, jonka tuloksena saadaan sarja leimattuja fragmentteja. Elektroforeesitekniikka auttaa järjestämään fragmentit niiden molekyylipainon perusteella. Fragmenttien tarkastelemiseksi geeli valotetaan röntgenfilmille autoradiografiaa varten. Näytölle ilmestyy sarja tummia kaistoja, joista kukin vastaa radiomerkittyä DNA-fragmenttia, josta voidaan päätellä sekvenssi.

Edman-hajoamisreaktio: Reaktiossa selvitetään proteiinin aminohappojen järjestys N-terminaalista pilkkomalla kukin aminohappo N-terminaalista häiritsemättä proteiinin sidoksia. Jokaisen halkaisun jälkeen tehdään kromatografia tai elektroforeesi aminohapon tunnistamiseksi

Tavoite

Vastaa Peruuta vastaus