Cél

nov 26, 2021
admin

  • Az Entrez mint biológiai adatlekérdező rendszer bemutatása
  • Az Entrez keresőmotor használatának megtanulása nukleotid/fehérje szekvenciaadatok kinyerésére.

Az Entrez egy integrált keresőmotor, amely lehetővé teszi a felhasználók számára a National Center for Biotechnology Information (NCBI) különböző adatainak keresését és lekérdezését. A www.ncbi.nlm.nih.gov/Entrez/ oldalról érhető el. Az Entrez az NCBI fő szöveges kereső- és visszakereső rendszere, amely a PubMed adatbázist és 39 egyéb tudományos irodalmat, nukleotid- és fehérjeadatbázisokat, fehérjetartomány-adatokat, populációvizsgálati adatkészleteket, expressziós adatokat, interakcióban lévő molekulák útvonalait és rendszereit, teljes genomadatokat és rendszertani információkat integrál egy szorosan összekapcsolt rendszerbe. Ezekhez a komponens adatbázisokhoz egyetlen lekérdezéssel lehet hozzáférni.

Az NCBI fő funkciói:

  1. A molekuláris biológiával, biokémiával és genetikával kapcsolatos ismeretek tárolására, visszakeresésére és elemzésére szolgáló nyilvános adatbázisok létrehozása.
  2. Kutatás a számítógépes biológia területén, a biológiai molekulák szerkezetének és működésének elemzésére.
  3. Szoftvereszközök fejlesztése genomikai adatok elemzésére.
  4. Biogyógyászati információk terjesztése.
  5. Biotechnológiai információk gyűjtése világszerte.

Entrez ezáltal az NCBI adatbázisok keresőmotorjaként működik.A keresés pontosabbá tehető a Boolean operátorok, mint az AND, OR vagy NOT használatával a keresési utasítással. A korlátok lehetővé teszik a felhasználó számára, hogy választása szerint szűrje a keresést. A speciális keresési felület lehetővé teszi a részletesebb lekérdezések elvégzését.

A különböző lekérdezések a következők alapján kereshetők. A keresési lekérdezések szintaxisa az alábbiak szerint.

Keresési kifejezés Boolean operátorok Keresési kifejezés .

Táblázat1:

A felhasználó globális keresést végezhet az alapértelmezett “All Databases ” opció kiválasztásával, amely megjeleníti a különböző adatbázisok eredményeit, és az egyes adatbázisokban rendelkezésre álló rekordok száma is megjelenik. Az adatbázisok három fő részre vannak osztva, amelyek közül a felső rész az irodalmi adatbázisokra vonatkozó információkat tartalmazza, a középső rész a molekuláris adatbázisokat, az alsó rész pedig a járulékos irodalmi adatbázis folyóiratokat, az NLM katalógust és a MeSH-t.

Az Entrezben szereplő kapcsolódó adatbázisok a következők:

  • Könyvek: A Könyvespolc ingyenes hozzáférést biztosít az élettudományok területéről származó könyvek és folyóiratok kereséséhez, visszakereséséhez és olvasásához. Elérhető a http://www.ncbi.nlm.nih.gov/books

  • CDD: A Conserved Domain Database a fehérjék funkcionális egységeinek annotációs gyűjteménye. Kézzel annotált doménmodelleket tartalmaz, amely a 3D szerkezetinformációkat használja a szekvencia/szerkezet/funkció kapcsolatok meghatározásához. Elérhető a www.ncbi.nlm.nih.gov/sites/entrez
  • Gene: A Gene adatbázis különböző fajokra vonatkozó információkat tartalmaz, beleértve azok nomenklatúráját, kapcsolódó útvonalakat, RefSeq-eket, fenotípusokat, genomra mutató linkeket. Elérhető a http://www.ncbi.nlm.nih.gov/gene/
  • CoreNucleotide: A különböző adatbázisokból származó szekvenciák forrása, beleértve a GenBank, RefSeq, TPA és PDB adatbázisokat, amelyek hasznosak lesznek a kutatási célokra. A http://www.ncbi.nlm.nih.gov/sites/entrez?db=nuccore

  • EST oldalról érhető el: Expression Sequence Tag adatbázis a GenBankból származó adatok gyűjteménye. Ezek cDNS-ből származó szekvenciával jelölt helyek, amelyek forrásként szolgálnak a génexpresszió értékelésére, potenciális variációk megtalálására, annotált génekre. A http://www.ncbi.nlm.nih.gov/nucest

  • Genom oldalról érhető el: A genom adatbázis a genomok információinak gyűjteménye, amely tartalmazza azok szekvenciáit, térképeit, kromoszómáit és annotációit. Elérhető a http://www.ncbi.nlm.nih.gov/genome

  • dbGaP: A Genotípusok és fenotípusok adatbázisa a genotípusok és fenotípusok kölcsönhatásának vizsgálatából származó eredmények könyvtára. Elérhető a http://www.ncbi.nlm.nih.gov/gap

  • GEO Datasets oldalról: A Gene Expression Omnibus (GEO) információt nyújt a génexpressziós adatkészletekről, azok eredeti sorozatáról és a Platform rekordjairól. További információkat is nyújt, például kísérleti részleteket, klasztereszközöket és differenciális expressziós lekérdezéseket. Elérhető a www.ncbi.nlm.nih.gov/gds

  • GEO Profilok oldalról: Olyan profilok böngészését kínálja, amelyek fontosak a génannotáció vagy az előre kiszámított profiljellemzők szempontjából. Elérhető a http://www.ncbi.nlm.nih.gov/geoprofiles

  • GSS: A GSS nukleotid adatbázis a GenBank of Genome Survey Sequence rekordjaiból nyújt információt. Elérhető a www.ncbi.nlm.nih.gov/nucgss

  • HomoloGene: A teljesen szekvenált eukarióta szervezetek annotált génjeinek homológjainak gyűjteménye. Elérhető a www.ncbi.nlm.nih.gov/homologene

  • MeSH: A MeSH (Medical Subject Headings) az NLM (Nations Library of Medicine) ellenőrzött szókincse, amelyet a cikkek böngészésére használnak, a Pubmed és a MEDLINE tezauruszaként is szolgál az orvosbiológiai tudományokban. Elérhető a www.ncbi.nlm.nih.gov/mesh

  • NCBI webhelyről: Az NCBI weboldalát böngészi. A http://www.ncbi.nlm.nih.gov/

  • NLM katalógus webhelyről érhető el: Az NLM (United States National Library of Medicine) a legnagyobb orvosi könyvtár, amely hozzáférést biztosít könyvekhez, folyóiratokhoz, technikai információkhoz, audiovizuális anyagokhoz, szoftverekhez és egyéb forrásokhoz. Elérhető a http://www.ncbi.nlm.nih.gov/nlmcatalog

  • OMIM: Az emberi gének és genetikai rendellenességek átfogó forrásadatbázisa. Naponta frissülő információkat tartalmaz az emberi génekről és genetikai fenotípusokról. Elérhető a www.ncbi.nlm.nih.gov/omim

  • oldalról OMIA: Online Mendelian Inheritance in Animals több mint 135 állatfaj génjeinek, öröklődő rendellenességeinek és tulajdonságainak forrásaként működik, szerzője Frank Nicholas professzor. Hozzáférést biztosít az állatfajokhoz, kivéve az emberi és egérfajokat, amelyekre fajspecifikus adatokat kínál. Hozzáférhető a http://www.ncbi.nlm.nih.gov/omia

  • PopSet oldalról: A populációvizsgálati adatkészlet egy populáció evolúciós rokonságának tanulmányozására gyűjtött DNS-szekvenciák halmazának gyűjteménye. A http://www.ncbi.nlm.nih.gov/popset

  • Probe oldalról érhető el: Nukleinsav-reagensek gyűjteménye. Tartalmazza a reagens forgalmazókra, a szondák hatékonyságára és a számított szekvencia-hasonlóságokra vonatkozó információkat is. Elérhető a http://www.ncbi.nlm.nih.gov/szonda

  • Fehérje szekvencia adatbázis oldalról: GenBank, RefSeq, TAP, SwissProt, PIR, PRF, PDB szekvenciák gyűjteménye. Elérhető a www.ncbi.nlm.nih.gov/protein

  • Pubchem BioAssay oldalról: A PubChem-ből származó kémiai anyagok bioaktivitási szűrőinek információit tartalmazza. A www.ncbi.nlm.nih.gov/pcassay

  • PubChem Compound oldalról érhető el: A PubChem anyagokból származó vegyületeket tartalmaz egyedi szerkezetükkel és biológiai információikkal. A www.ncbi.nlm.nih.gov/pccompound

  • PubChem Substance oldalról érhető el: A rendszerbe letétbe helyezőktől származó anyagok rekordjainak, a minták leírásainak és a PubChem BioAssay-ben elérhető biológiai szűrési eredményekre mutató linkeknek a gyűjteménye. Elérhető a www.ncbi.nlm.nih.gov/pcsubstance

  • PubMed: A PubMed az egészségügyi információk szabadon hozzáférhető adatbázis-kereső rendszere, amelyet a National Library of Medicine (NLM) Nemzeti Biotechnológiai Információs Központja (NCBI) fejlesztett ki és tart fenn. A MEDLINE cikkeit és más orvosbiológiai cikkeket tartalmaz. Elérhető a www.ncbi.nlm.nih.gov/pubmed

  • Pubmed Central oldalról: A PubMed Central az orvosbiológiai élettudományi folyóiratok teljes szövegű cikkeinek szabadon hozzáférhető digitális forrása, amely a PubMed adatbázishoz kapcsolódik. Elérhető a www.ncbi.nlm.nih.gov/pmc/

  • SNP: Az SNP adatbázis az egynukleotid-polimorfizmusok, rövid inszerciós és deléciós polimorfizmusok adatait tartalmazza. A www.ncbi.nlm.nih.gov/snp

  • struktúra oldalról érhető el: A Structure adatbázis a fehérjék és más polinukleotidok 3 dimenziós szerkezetének információit tartalmazza. A www.ncbi.nlm.nih.gov/structure

  • Taxonómia oldalról érhető el: A taxonómia tartalmazza a genetikai adatbázisban szereplő összes organizmus információit nukleotid- vagy fehérjeszekvenciájukkal együtt. Elérhető a www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/

  • UniGene oldalról: Azonosítja az azonos lókuszból származó transzkripteket, elemzi az expressziót szövet, életkor, egészségi állapot szerint, és jelenti a kapcsolódó fehérjéket (protest) és klónforrásokat. Elérhető a www.ncbi.nlm.nih.gov/unigene

  • UniSTS oldalról: Információkat tartalmaz a szekvenált jelölt helyekről (STS), amelyek a PCR primerpárokból származnak genomi pozícióikkal, génekkel és szekvencia információkkal az STS alapú térképekből és más kísérletekből. A www.ncbi.nlm.nih.gov/unists

  • BioSample oldalról érhető el: A kísérleti vizsgálatokban használt különböző biológiai forrásanyagok információinak gyűjteménye. Elérhető a www.ncbi.nlm.nih.gov/biosample

A lekérdezéses keresés eredményei különböző adatformátumokban, mint GenBank, FASTA, szerepelnek.

GenBank : A GenBank egy annotált DNS szekvenciák gyűjteménye, amely az NIH genetikai szekvencia adatbázisa. A benne szereplő különböző paraméterkomponenseket az alábbiakban ismertetjük.

  • A lokusz neve segít a hasonló szekvenciájú bejegyzések csoportosításában. Az első 3 karakter az organizmust jelöli, a negyedik és ötödik karakter más csoportmegnevezést ad, mint például géntermék, az utolsó karakter pedig egy soros egész szám.
  • A szekvencia hossza a szekvenciarekordban található nukleotid bázispárok (vagy aminosavmaradékok) számát tartalmazza.
  • Molecule Type a szekvenált molekula típusát mutatja .
  • Genbank Division azt a GenBank divíziót mutatja, amelyhez egy rekord tartozik, és egy hárombetűs rövidítéssel van jelölve.

1. PRI – főemlős szekvenciák
2. ROD – rágcsáló szekvenciák
3. MAM – egyéb emlős szekvenciák
4. VRT – egyéb gerinces szekvenciák
5. INV – gerinctelen szekvenciák
6. PLN – növényi, gombás és algás szekvenciák
7. BCT – bakteriális szekvenciák
8. VRL – vírusos szekvenciák
9. PHG – bakteriofág szekvenciák
10. SYN – szintetikus szekvenciák
11. UNA – nem jegyzetelt szekvenciák
12. EST – EST szekvenciák (expresszált szekvencia címkék)
13. PAT – szabadalmaztatott szekvenciák
14. STS – STS szekvenciák (szekvenciával jelölt helyek)
15. GSS – GSS szekvenciák (genom felmérési szekvenciák)
16. HTG – HTG szekvenciák (high-throughput genomic seq)
17. HTC – befejezetlen nagy áteresztőképességű cDNS-szekvenciák
18. ENV – környezeti mintavételi szekvenciák

  • A módosítás dátuma a módosítás utolsó dátumát mutatja.
  • A definíció a szekvencia rövid leírása, amely olyan információkat tartalmaz, mint a forrásszervezet, génnév/fehérje neve, vagy a szekvencia funkciójának valamilyen leírása.
  • A hozzáférési szám a szekvencia rekord egyedi azonosítóját jelzi.
  • Rekordok a RefSeq

NT_123456 konstruált genomiális kontigok
NM_123456 mRNS-ek
NP_123456 fehérjék
NC_123456 kromoszómák

  • A verzió egy nukleotid szekvenciaazonosító számot mutat, amely egyetlen, GenBank adatbázisban található specifikus szekvenciát jelöli.
  • GI “GenInfo Identifier” a nukleotid szekvencia azonosító száma.
  • Keywords a szekvencia szavát vagy kifejezését írja le.
  • Source szabad formátumú információt jelöl, beleértve a szervezet nevének rövidített formáját, amelyet néha a molekula típusa követ.
  • Organizmus leírja a forrásszervezet hivatalos tudományos nevét és annak vonalát.

  • Hivatkozás tartalmazza a szekvencia szerzőinek publikációit, amelyek a rekordban közölt adatokat tárgyalják.
  • Szerzők tartalmazza a szerzők listáját abban a sorrendben, ahogyan az idézett cikkben szerepelnek.

Entrez keresési mező: Szerző

  • Cím a publikált mű címét vagy egy nem publikált szócikk előzetes címét jelenti.

Entrez Search Field: Author

  • Cím a publikált mű címét vagy egy nem publikált szócikk előzetes címét jelenti: A folyóirat nevének MEDLINE rövidítése.

Entrez keresési mező:

  • Pubmed: PubMed Identifier (PMID)
  • Features: A szekvenciában jelentett génekre és géntermékekre, valamint a biológiai jelentőségű régiókra vonatkozó információkat mutatja.
  • Source: Minden rekordban kötelező jellegzetesség, amely összefoglalja a szekvencia hosszát, a forrásszervezet tudományos nevét és a Taxon ID számát. Egyéb információkat is tartalmazhat, mint például a térkép helyét, törzset, klónt, szövettípust stb, ha a benyújtó megadja.
  • Taxon a forrásszervezet taxonjának stabil, egyedi azonosító száma.
  • CDS (kódoló szekvencia) olyan nukleotidokból álló régiót jelöl, amely megfelel a fehérje aminosavainak szekvenciájának.

1. ábra : Az NCBI adatbázisából nyert GenBank fájl a Homo sapiens Neurexin1

FASTA: Ez egy olyan fájlformátum, amelyet nukleotid- vagy fehérjeszekvenciák karakterláncként történő ábrázolására használnak, valamilyen alapvető címkével vagy azonosítóval, amelyben a nukleotidok vagy aminosavak egybetűs kódként szerepelnek. A FASTA szekvencia egy (>) nagyobb mint szimbólummal kezdődik, ami egy új szekvencia rekord kezdetét jelenti, amelyet definíciós sornak (“def line”) nevezünk. A csatlakozási számot vagy verziószámot az adott bejegyzés leírása követi. A nagy- vagy kisbetűs DNS-szekvencia a következő sorban kezdődik. A szekvenciák soronként 60 karaktert tartalmaznak.

2. ábra: Az NCBI adatbázisából nyert FASTA fájlformátum a Homo sapiens Neurexin1

Az adatbázisban tárolt szekvenciák különböző kísérleti módszerekből származnak. A DNS-szekvenáláshoz leggyakrabban használt módszerek a Sanger-módszer és a Maxam-Gilbert-módszer. Hasonlóképpen a fehérjék szekvenálásához az Edman lebontási módszert és a tömegspektrometriás technikát használják.

Sanger-módszer (dideoxi láncvégzési módszer): Itt 4 kémcsövet veszünk, amelyeket A, T, G és C felirattal jelölünk. Ezután egy primert kell hozzáadni, amely a templát egyik szálához kapcsolódik. A primer 3′ vége véletlenszerűen befogadja a dideoxi nukleotidokat (az egyes kémcsövekre jellemzően), valamint a deoxi nukleotidokat. Amikor a ddNTP-k a növekvő lánchoz kapcsolódnak, a lánc a 3’OH hiánya miatt megszűnik, amely a következő nukleotiddal foszfo-diester kötést képez. Így kis DNS-szálak alakulnak ki. Elektroforézist végzünk, és a molekulatömeg alapján a gélben lévő sávok elemzésével megkaphatjuk a szekvencia sorrendjét. A primer vagy az egyik nukleotid radioaktívan vagy fluoreszcensen is jelölhető, így a végtermék a gélből könnyen kimutatható és a szekvenciára következtetni lehet.

Maxam-Gilbert (kémiai lebontási módszer): Ez a módszer denaturált DNS-fragmentumot igényel, amelynek 5′ vége radioaktívan van jelölve. Ezt a fragmentumot ezután tisztításnak vetik alá, majd kémiai kezelésnek vetik alá, amely egy sor jelölt fragmentumot eredményez. Az elektroforézis technika segít a fragmentumok molekulatömegük alapján történő elrendezésében. A fragmentumok megtekintéséhez a gélt röntgenfilmre exponálják autoradiográfia céljából. Sötét sávok sorozata jelenik meg, amelyek mindegyike egy-egy rádióval jelölt DNS-töredéknek felel meg, és amelyekből következtetni lehet a szekvenciára.

Edman lebontási reakció: A reakció egy fehérjében lévő aminosavak sorrendjét találja meg az N-terminálisról, az egyes aminosavak N-terminálisról történő lehasításával, a fehérje kötéseinek megbontása nélkül. Minden egyes hasítás után kromatográfiát vagy elektroforézist végeznek az aminosav azonosítására

.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.