Vyhledávání sekvenčních dat z Entrezu (teorie) : Bioinformatická virtuální laboratoř I

Cíl

Lis 26, 2021

admin

Představit Entrez jako systém pro vyhledávání biologických dat

Naučit se používat vyhledávač Entrez k vyhledávání sekvenčních dat nukleotidů/proteinů.

Entrez je integrovaný vyhledávací systém, který umožňuje uživatelům vyhledávat a získávat různá data z Národního centra pro biotechnologické informace (NCBI). Lze k němu přistupovat ze stránek www.ncbi.nlm.nih.gov/Entrez/. Entrez je hlavní systém NCBI pro vyhledávání a získávání textů, který integruje databázi PubMed a 39 dalších vědeckých literatur, databáze nukleotidů a proteinů, údaje o proteinových doménách, soubory dat populačních studií, údaje o expresi, dráhy a systémy interagujících molekul, kompletní údaje o genomu a taxonomické informace do úzce propojeného systému. K těmto složkovým databázím lze přistupovat pomocí jediného dotazu.

Hlavní funkce NCBI jsou:

Vytvářet veřejné databáze pro ukládání, vyhledávání a analýzu znalostí o molekulární biologii, biochemii a genetice.
Provádět výzkum v oblasti výpočetní biologie, pro analýzu struktury a funkce biologických molekul.
Vyvíjet softwarové nástroje pro analýzu genomických dat.
Šířit biomedicínské informace.
Shromažďovat biotechnologické informace po celém světě.

Entrez tak funguje jako vyhledávač v databázích NCBI. vyhledávání lze zpřesnit pomocí logických operátorů, jako jsou AND, OR nebo NOT s vyhledávacím příkazem. Limity umožňují uživateli filtrovat vyhledávání podle jeho volby. Rozhraní pro pokročilé vyhledávání umožňuje provádět podrobnější dotazy.

Různé dotazy lze vyhledávat na následujícím základě. Syntaxe pro vyhledávání dotazů, jak je uvedeno níže.

Vyhledávací výraz Logické operátory Vyhledávací výraz .

Tabulka1:

Uživatel může provést globální vyhledávání výběrem výchozí možnosti „Všechny databáze „, čímž se zobrazí výsledky z různých databází a pro každou databázi se zobrazí také jejich počet dostupných záznamů. Databáze jsou uspořádány do tří hlavních oddílů, z nichž horní oddíl obsahuje informace o literárních databázích, prostřední oddíl zahrnuje molekulární databáze a dolní oddíl zahrnuje pomocné literární databáze časopisů, katalog NLM a MeSH.

Příbuzné databáze zahrnuté v Entrez jsou následující.

Knihy: Bookshelf poskytuje volný přístup k vyhledávání, získávání a čtení knih a časopisů z oblasti věd o živé přírodě. Lze k ní přistupovat ze stránek http://www.ncbi.nlm.nih.gov/books

CDD: Conserved Domain Database je soubor anotací funkčních jednotek v proteinech. Obsahuje ručně anotované modely domén, které využívají informace o 3D struktuře k definování vztahů sekvence /struktura/funkce. Je přístupná ze stránky www.ncbi.nlm.nih.gov/sites/entrez

Gen: Databáze genů obsahuje informace o různých druzích včetně jejich nomenklatury, souvisejících drah, RefSeq, fenotypů, odkazů na genom. Je přístupná ze stránky http://www.ncbi.nlm.nih.gov/gene/

CoreNucleotide: Je zdrojem sekvencí z různých databází včetně GenBank, RefSeq, TPA a PDB, které budou užitečné pro výzkumné účely. Lze k němu přistupovat ze stránek http://www.ncbi.nlm.nih.gov/sites/entrez?db=nuccore

EST: Databáze Expression Sequence Tag je soubor dat z GenBank. Jedná se o sekvenčně značená místa odvozená z cDNA, která slouží jako zdroj pro hodnocení exprese genů, vyhledávání potenciálních variací, anotovaných genů. Lze k ní přistupovat ze stránek http://www.ncbi.nlm.nih.gov/nucest

Genom: Databáze genomů je soubor informací o genomech, které zahrnují jejich sekvence, mapy, chromozomy a anotace. Je přístupná ze stránek http://www.ncbi.nlm.nih.gov/genome

dbGaP: Databáze genotypů a fenotypů je knihovna výsledků, ze studií interakce genotypů a fenotypů. Je přístupná ze stránek http://www.ncbi.nlm.nih.gov/gap

GEO Datasets: Gene Expression Omnibus (GEO) nabízí informace o souborech dat o genové expresi, jejich původních řadách a záznamech platformy. Poskytuje také další informace, jako jsou podrobnosti o experimentech, nástroje pro shlukování a dotazy na diferenciální expresi. Je přístupná ze stránek www.ncbi.nlm.nih.gov/gds

GEO Profiles: Nabízí vyhledávání profilů, které jsou důležité z hlediska genové anotace nebo předem vypočtených charakteristik profilu. Lze k ní přistupovat ze stránky http://www.ncbi.nlm.nih.gov/geoprofiles

GSS: Databáze nukleotidů GSS poskytuje informace z GenBank záznamů Genome Survey Sequence. Je přístupná ze stránek www.ncbi.nlm.nih.gov/nucgss

HomoloGene: Jedná se o soubor homologů z anotovaných genů kompletně sekvenovaných eukaryotických organismů. Je přístupná na stránce www.ncbi.nlm.nih.gov/homologene

MeSH: MeSH (Medical Subject Headings) je řízený slovník NLM (Nations Library of Medicine) používaný pro prohlížení článků, funguje také jako tezaurus v biomedicínských vědách pro Pubmed a MEDLINE. Je přístupný na stránkách www.ncbi.nlm.nih.gov/mesh

Webové stránky NCBI: Prochází webové stránky NCBI. Je přístupný ze stránky http://www.ncbi.nlm.nih.gov/

Katalog NLM: NLM (United States National Library of Medicine) je největší lékařská knihovna, která nabízí přístup ke knihám, časopisům, technickým informacím, audiovizuálním materiálům, softwaru a dalším zdrojům. Je přístupný ze stránek http://www.ncbi.nlm.nih.gov/nlmcatalog

OMIM: Jedná se o rozsáhlou databázi zdrojů lidských genů a genetických poruch. Obsahuje denně aktualizované informace o lidských genech a genetických fenotypech. Je přístupná ze stránek www.ncbi.nlm.nih.gov/omim

OMIA: Online Mendelian Inheritance in Animals působí jako zdroj informací o genech, dědičných poruchách a znacích u více než 135 druhů zvířat, jejímž autorem je profesor Frank Nicholas. Poskytuje přístup k živočišným druhům s výjimkou těch u člověka a myši, pro které jsou nabízeny údaje specifické pro daný druh. Přístup k ní je možný ze stránek http://www.ncbi.nlm.nih.gov/omia

PopSet: Populační studijní dataset je kolekce souboru sekvencí DNA, shromážděných za účelem studia evoluční příbuznosti populace. Lze k němu získat přístup ze stránky http://www.ncbi.nlm.nih.gov/popset

Probe: Jedná se o soubor činidel nukleových kyselin. Obsahuje také informace o distributorech činidel, účinnosti sond a vypočtené sekvenční podobnosti. Je přístupná ze stránky http://www.ncbi.nlm.nih.gov/probe

Protein Sequence Database: Je to kolekce sekvencí z GenBank, RefSeq, TAP, SwissProt, PIR, PRF, PDB. Je přístupná ze stránek www.ncbi.nlm.nih.gov/protein

Pubchem BioAssay: Obsahuje informace o screenech bioaktivity chemických látek z PubChem. Je přístupná ze stránek www.ncbi.nlm.nih.gov/pcassay

PubChem Compound: Obsahuje sloučeniny s jejich jedinečnými strukturami a biologickými informacemi z látek PubChem. Je přístupná ze stránky www.ncbi.nlm.nih.gov/pccompound

PubChem Substance: Jedná se o soubor záznamů látek od vkladatelů do systému, popisů vzorků a odkazů na výsledky biologického screeningu, které jsou k dispozici v PubChem BioAssay. Je přístupný ze stránek www.ncbi.nlm.nih.gov/pcsubstance

PubMed: PubMed je volně přístupný databázový systém pro vyhledávání informací o zdraví, který vyvíjí a spravuje Národní centrum pro biotechnologické informace (NCBI) při Národní lékařské knihovně (NLM). Obsahuje články z databáze MEDLINE a další biomedicínské články. Přístup k ní je možný ze stránek www.ncbi.nlm.nih.gov/pubmed

Pubmed Central: PubMed central je volně přístupný digitální zdroj plných textů článků biomedicínských life science časopisů, který je propojen s databází PubMed. Je přístupná ze stránek www.ncbi.nlm.nih.gov/pmc/

SNP: Databáze SNP obsahuje informace o jednonukleotidových polymorfismech, krátkých inzertních a delečních polymorfismech. Je přístupná ze stránky www.ncbi.nlm.nih.gov/snp

Struktura: Databáze Structure obsahuje informace o trojrozměrných strukturách proteinů a dalších polynukleotidů. Je přístupná ze stránky www.ncbi.nlm.nih.gov/structure

Taxonomie: Taxonomie obsahuje informace o všech organismech, které jsou zahrnuty do genetické databáze, s jejich nukleotidovou nebo proteinovou sekvencí. Je přístupná ze stránky www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/

UniGene: Identifikuje transkripty ze stejného lokusu, analyzuje expresi podle tkáně, věku, zdravotního stavu a uvádí související proteiny (protesty) a zdroje klonů. Je přístupný ze stránek www.ncbi.nlm.nih.gov/unigene

UniSTS: Obsahuje informace o sekvenčně označených místech (STS), které pocházejí z párů primerů PCR s jejich genomickými pozicemi, geny a informacemi o sekvenci z map založených na STS a dalších experimentech. Je přístupná ze stránky www.ncbi.nlm.nih.gov/unists

BioSample: Jedná se o sbírku informací o různých biologických zdrojových materiálech používaných v experimentálních testech. Je přístupná ze stránky www.ncbi.nlm.nih.gov/biosample

Výsledky vyhledávání dotazů jsou reprezentovány v různých datových formátech, například GenBank, FASTA.

GenBank : GenBank je sbírka anotovaných sekvencí DNA, což je databáze genetických sekvencí NIH. Různé obsažené složky parametrů jsou vysvětleny níže.

Název lokusu pomáhá při seskupování záznamů s podobnými sekvencemi. První tři znaky označují organismus, čtvrtý a pátý znak udává další označení skupiny, například genový produkt, a poslední znak je řada po sobě jdoucích celých čísel.

Délka sekvence obsahuje počet párů nukleotidových bází (nebo aminokyselinových zbytků) v záznamu sekvence.

Molecule Type udává typ sekvenované molekuly .

Genbank Division udává divizi GenBank, do které záznam patří, a je označena třípísmennou zkratkou.

1. PRI – sekvence primátů
2. ROD – sekvence hlodavců
3. MAM – sekvence ostatních savců
4. VRT – sekvence ostatních obratlovců
5. INV – sekvence bezobratlých
6. PLN – sekvence rostlin, hub a řas
7. BCT – bakteriální sekvence
8. VRL – virové sekvence
9. VRL – virové sekvence
. PHG – sekvence bakteriofágů
10. SYN – syntetické sekvence
11. UNA – neanotované sekvence
12. EST – sekvence EST (expressed sequence tags)
13. PAT – patentové sekvence
14. STS – sekvence STS (sekvenční značky)
15. GSS – sekvence GSS (sekvence pro průzkum genomu)
16. HTG – HTG sekvence (high-throughput genomic seq)
17. HTC – nedokončené vysoce výkonné sekvenování cDNA
18. ENV – sekvence z environmentálního vzorkování

Datum modifikace uvádí datum poslední modifikace.

Definice je stručný popis sekvence, který zahrnuje informace, jako je zdrojový organismus, název genu/proteinu nebo nějaký popis funkce sekvence.

Přístupové číslo označuje jedinečný identifikátor záznamu sekvence.

Záznamy z RefSeq

NT_123456 konstruované genomové kontigy
NM_123456 mRNA
NP_123456 proteiny
NC_123456 chromozomy

Verze uvádí identifikační číslo nukleotidové sekvence, které představuje jedinou, konkrétní sekvenci v databázi GenBank.

GI „GenInfo Identifier“ je identifikační číslo nukleotidové sekvence.

Klíčová slova popisují slovo nebo frázi sekvence.

Zdroj uvádí informace ve volném formátu včetně zkrácené formy názvu organismu, někdy následuje typ molekuly.

Organism popisuje formální vědecký název zdrojového organismu a jeho linie.

Reference obsahuje publikace autorů sekvence, které pojednávají o údajích uvedených v záznamu.

Authors obsahuje Seznam autorů v pořadí, v jakém jsou uvedeni v citovaném článku.

Entrez Search Field: Autor

Název představuje název publikované práce nebo předběžný název nepublikovaného slova.

Entrez Search Field:

Časopis:

Vyhledávací pole Entrez: Zkratka názvu časopisu MEDLINE: Název časopisu

Pubmed: PubMed Identifier (PMID)

Features zobrazuje informace o genech a genových produktech a také o oblastech biologického významu uvedených v sekvenci.

Source je povinný prvek v každém záznamu, který shrnuje délku sekvence, vědecký název zdrojového organismu a identifikační číslo taxonu. Může také obsahovat další informace, jako je umístění na mapě, kmen, klon, typ tkáně atd, pokud je předkladatel uvede.

Taxon je stabilní jedinečné identifikační číslo taxonu zdrojového organismu.

CDS (Coding sequence) představuje oblast nukleotidů, která odpovídá sekvenci aminokyselin v proteinu.

Obrázek 1 : Soubor GenBank získaný z databáze NCBI pro položku Homo sapiens Neurexin1

FASTA: Jedná se o formát souboru používaný pro reprezentaci nukleotidových nebo proteinových sekvencí jako řetězce s určitou základní značkou nebo identifikátorem, ve kterém jsou nukleotidy nebo aminokyseliny reprezentovány jako jednopísmenné kódy. Sekvence FASTA začíná symbolem (>) větším než, což znamená začátek nového záznamu sekvence, který se nazývá definiční řádek („def line“). Za přístupovým číslem nebo číslem verze následuje popis daného záznamu. Sekvence DNA psaná velkými nebo malými písmeny začíná od dalšího řádku. Sekvence obsahují 60 znaků na řádek.

Obrázek 2: Formát souboru FASTA získaný z databáze NCBI pro záznam Homo sapiens Neurexin1

Tyto sekvence, které jsou uloženy v databázi, byly získány z různých experimentálních metod. Nejčastěji používané metody sekvenování DNA jsou Sangerova metoda a Maxam-Gilbertova metoda. Podobně se pro sekvenování proteinů používá Edmanova degradační metoda a technika hmotnostní spektrometrie.

Sangerova metoda (metoda dideoxy terminace řetězce): Zde se vezmou 4 zkumavky označené písmeny A, T, G a C. Do každé ze zkumavek se musí přidat DNA v denaturované formě (jedno vlákno). Poté se přidá primer, který se annealizuje na jedno z vláken v templátu. Na 3′ konci primeru jsou náhodně umístěny dideoxynukleotidy (specifické pro každou zkumavku) i deoxynukleotidy. Když se ddNTP připojí k rostoucímu řetězci, řetězec se ukončí kvůli nedostatku 3’OH, který vytvoří fosfo-diesterovou vazbu s dalším nukleotidem. Tak vznikají malá vlákna DNA. Provede se elektroforéza a pořadí sekvence lze získat analýzou pásů v gelu na základě molekulové hmotnosti. Primer nebo jeden z nukleotidů může být také radioaktivně nebo fluorescenčně označen, takže konečný produkt lze snadno detekovat z gelu a odvodit sekvenci.

Maxam-Gilbert (metoda chemické degradace): Tato metoda vyžaduje denaturaci fragmentu DNA, jehož 5′ konec je označen radioaktivně. Tento fragment se poté podrobí purifikaci předtím, než se přistoupí k chemickému zpracování, jehož výsledkem je řada značených fragmentů. Technika elektroforézy pomáhá uspořádat fragmenty na základě jejich molekulové hmotnosti. Pro zobrazení fragmentů se gel vystaví rentgenovému filmu pro autoradiografii. Objeví se řada tmavých pásů, z nichž každý odpovídá rádiově označenému fragmentu DNA, z něhož lze odvodit sekvenci.

Edmanova degradační reakce: Reakce zjišťuje pořadí aminokyselin v proteinu od N-konce, a to odštěpením každé aminokyseliny od N-konce bez narušení vazeb v proteinu. Po každém štěpení se provede chromatografie nebo elektroforéza k identifikaci aminokyseliny

Cíl

Napsat komentář Zrušit odpověď na komentář