Retrieving sequence data from Entrez (Theory) : Bioinformatics Virtual Lab I

Cel

lis 26, 2021

admin

Przedstawienie Entrez jako systemu wyszukiwania danych biologicznych

Nauczenie się jak używać wyszukiwarki Entrez do pobierania danych o sekwencjach nukleotydów/białek.

Entrez jest zintegrowaną wyszukiwarką, która pozwala użytkownikom na przeszukiwanie i pobieranie różnych danych z National Center for Biotechnology Information (NCBI). Dostęp do niej można uzyskać ze strony www.ncbi.nlm.nih.gov/Entrez/. Entrez jest głównym systemem wyszukiwania i wyszukiwania tekstu NCBI, który integruje bazę PubMed i 39 innych literatur naukowych, nukleotydowe i białkowe bazy danych, dane dotyczące domen białkowych, zestawy danych z badań populacyjnych, dane dotyczące ekspresji, ścieżki i systemy oddziałujących cząsteczek, kompletne szczegóły genomu i informacje taksonomiczne w ściśle połączony system. Te składowe bazy danych mogą być dostępne przy użyciu jednego zapytania.

Główne funkcje NCBI to:

Tworzenie publicznych baz danych do przechowywania, wyszukiwania i analizowania wiedzy o biologii molekularnej, biochemii i genetyce.
Prowadzenie badań w zakresie biologii obliczeniowej w celu analizowania struktury i funkcji cząsteczek biologicznych.
Rozwijać narzędzia programowe do analizy danych genomowych.
Upowszechniać informacje biomedyczne.
Gromadzić informacje biotechnologiczne na całym świecie.

Entrez działa w ten sposób jako wyszukiwarka dla baz danych NCBI.Wyszukiwanie może być bardziej precyzyjne dzięki użyciu operatorów logicznych, takich jak AND, OR lub NOT. Limity pozwalają użytkownikowi na filtrowanie wyszukiwania zgodnie z jego wyborem. Interfejs Advanced Search pozwala na wykonywanie bardziej szczegółowych zapytań.

Różne zapytania mogą być przeszukiwane na następującej zasadzie. Składnia wyszukiwania zapytań przedstawiona jest poniżej.

Szukane wyrażenie Operatory booleańskie Szukane wyrażenie .

Tabela1: Entrez Boolean Search Statements

Użytkownik może przeprowadzić wyszukiwanie globalne wybierając domyślną opcję „All Databases „, która wyświetla wyniki z różnych baz danych, a ich liczba rekordów dostępnych dla każdej bazy danych będzie również pokazana. Bazy danych są ułożone w trzech głównych sekcjach, z których górna zawiera informacje o literaturowych bazach danych, środkowa zawiera molekularne bazy danych, a dolna zawiera czasopisma z bazami danych literatury pomocniczej, NLM Catalog i MeSH.

Powiązane bazy danych zawarte w Entrez są następujące.

Books: Bookshelf zapewnia bezpłatny dostęp do wyszukiwania, pobierania i czytania książek i czasopism z obszaru life science. Może być dostępny z witryny http://www.ncbi.nlm.nih.gov/books

CDD: Conserved Domain Database jest zbiorem adnotacji jednostek funkcjonalnych w białkach. Zawiera ręcznie anotowane modele domen, które wykorzystują informacje o strukturze 3D do określenia relacji sekwencja/struktura/funkcja. Dostęp do niej można uzyskać ze strony www.ncbi.nlm.nih.gov/sites/entrez

Gene: Gene database zawiera informacje o różnych gatunkach, w tym ich nomenklaturę, powiązane ścieżki, RefSeq’s, fenotypy, linki do genomu. Dostęp do niej można uzyskać z witryny http://www.ncbi.nlm.nih.gov/gene/

CoreNucleotide: Jest to źródło sekwencji z różnych baz danych, w tym GenBank, RefSeq, TPA i PDB, które będą pomocne do celów badawczych. Dostęp do niej można uzyskać ze strony http://www.ncbi.nlm.nih.gov/sites/entrez?db=nuccore

EST: Expression Sequence Tag database jest zbiorem danych pochodzących z GenBank. Są to znaczniki sekwencji pochodzące z cDNA, które działają jako zasób do oceny ekspresji genów, znalezienia potencjalnej zmienności, anotowanych genów. Dostęp do niej można uzyskać ze strony http://www.ncbi.nlm.nih.gov/nucest

Genome: Baza danych genomu jest zbiorem informacji o genomach, które zawierają ich sekwencje, mapy, chromosomy i adnotacje. Dostęp do niej jest możliwy ze strony http://www.ncbi.nlm.nih.gov/genome

dbGaP: Baza Genotypów i Fenotypów jest biblioteką wyników badań interakcji genotypów i fenotypów. Dostęp do niej można uzyskać ze strony http://www.ncbi.nlm.nih.gov/gap

GEO Datasets: The Gene Expression Omnibus (GEO) oferuje informacje o zbiorach danych dotyczących ekspresji genów, ich oryginalnych seriach i rekordach Platform. Dostarcza również dodatkowych informacji, takich jak szczegóły eksperymentów, narzędzia klastrowe i zapytania o ekspresję różnicową. Dostęp do niej można uzyskać ze strony www.ncbi.nlm.nih.gov/gds

Profile GEO: Oferuje przeglądanie profili, które są ważne na anotacji genów lub wstępnie obliczonej charakterystyce profilu. Można do niej uzyskać dostęp z witryny http://www.ncbi.nlm.nih.gov/geoprofiles

GSS: Baza danych nukleotydów GSS dostarcza informacji z GenBank rekordów sekwencji Genome Survey. Dostęp do niej jest możliwy ze strony www.ncbi.nlm.nih.gov/nucgss

HomoloGene: Jest to zbiór homologów z anotowanych genów całkowicie zsekwencjonowanych organizmów eukariotycznych. Dostęp do niej można uzyskać na stronie www.ncbi.nlm.nih.gov/homologene

MeSH: MeSH (Medical Subject Headings) to kontrolowane słownictwo NLM (Nations Library of Medicine) używane do przeglądania artykułów, pełniące również rolę tezaurusa w naukach biomedycznych dla Pubmed i MEDLINE. Dostęp do niego można uzyskać z witryny www.ncbi.nlm.nih.gov/mesh

NCBI Web Site: Przegląda stronę internetową NCBI. Można się do niej dostać ze strony http://www.ncbi.nlm.nih.gov/

NLM Catalog: NLM (United States National Library of Medicine) jest największą biblioteką medyczną, która oferuje dostęp do książek, czasopism, informacji technicznych, audiowizualnych, oprogramowania i innych zasobów. Można do niej uzyskać dostęp ze strony http://www.ncbi.nlm.nih.gov/nlmcatalog

OMIM: Jest to kompleksowa baza danych zasobów dla ludzkich genów i zaburzeń genetycznych. Zawiera informacje o ludzkich genach i fenotypach genetycznych, które są codziennie aktualizowane. Dostęp do niej można uzyskać ze strony www.ncbi.nlm.nih.gov/omim

OMIA: Online Mendelian Inheritance in Animals działa jako źródło informacji o genach, dziedziczonych zaburzeniach i cechach u ponad 135 gatunków zwierząt, autorstwa profesora Franka Nicholasa. Zapewnia dostęp do gatunków zwierząt z wyjątkiem tych u ludzi i myszy, dla których dane specyficzne dla danego gatunku są oferowane. Dostęp do niego można uzyskać ze strony http://www.ncbi.nlm.nih.gov/omia

PopSet: Population study dataset jest zbiorem zestawów sekwencji DNA, zebranych w celu badania pokrewieństwa ewolucyjnego populacji. Dostęp do niego można uzyskać ze strony http://www.ncbi.nlm.nih.gov/popset

Probe: Jest to zbiór odczynników do oznaczania kwasów nukleinowych. Zawiera również informacje o dystrybutorach odczynników, efektywności sond i obliczonych podobieństwach sekwencji. Dostęp do niej można uzyskać ze strony http://www.ncbi.nlm.nih.gov/probe

Protein Sequence Database: Jest to zbiór sekwencji pochodzących z GenBank, RefSeq, TAP, SwissProt, PIR, PRF, PDB. Dostęp do niej jest możliwy ze strony www.ncbi.nlm.nih.gov/protein

Pubchem BioAssay: Zawiera informacje o ekranach bioaktywności substancji chemicznych z PubChem. Dostęp do niej można uzyskać ze strony www.ncbi.nlm.nih.gov/pcassay

PubChem Compound: Zawiera związki wraz z ich unikalnymi strukturami i informacjami biologicznymi z substancji PubChem. Dostęp do niej można uzyskać ze strony www.ncbi.nlm.nih.gov/pccompound

PubChem Substance: Jest to zbiór rekordów substancji od deponentów do systemu, opisów próbek oraz linków do wyników przesiewowych badań biologicznych, które są dostępne w PubChem BioAssay. Może być dostępny z witryny www.ncbi.nlm.nih.gov/pcsubstance

PubMed: PubMed jest swobodnie dostępny system wyszukiwania bazy danych dla informacji na temat zdrowia, który jest opracowany i utrzymywany przez National Center for Biotechnology Information (NCBI) w National Library of Medicine (NLM). Zawiera ona artykuły z MEDLINE i inne artykuły biomedyczne. Dostęp do niego można uzyskać ze strony www.ncbi.nlm.nih.gov/pubmed

Pubmed Central: PubMed central to swobodnie dostępny cyfrowy zasób pełnotekstowych artykułów dla biomedycznych czasopism life science, który jest połączony z bazą PubMed. Dostęp do niej można uzyskać na stronie www.ncbi.nlm.nih.gov/pmc/

SNP: Baza danych SNP zawiera informacje o polimorfizmach pojedynczych nukleotydów, krótkich polimorfizmach insercyjnych i delecyjnych. Dostęp do niej można uzyskać ze strony www.ncbi.nlm.nih.gov/snp

Structure: Baza danych Structure zawiera informacje o trójwymiarowych strukturach białek i innych polinukleotydów. Dostęp do niej można uzyskać ze strony www.ncbi.nlm.nih.gov/structure

Taxonomy: Taksonomia zawiera informacje o wszystkich organizmach, które są zawarte w genetycznej bazie danych wraz z ich sekwencją nukleotydową lub białkową. Dostęp do niej jest możliwy ze strony www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/

UniGene: Identyfikuje transkrypty z tego samego locus, analizuje ekspresję w zależności od tkanki, wieku, stanu zdrowia i zgłasza związane z nimi białka (protesty) oraz zasoby klonów. Dostęp do niego można uzyskać ze strony www.ncbi.nlm.nih.gov/unigene

UniSTS: Zawiera informacje o Sequenced Tagged Sites (STS), które są z par primerów PCR z ich pozycjami genomowymi, genami i informacjami sekwencyjnymi z map opartych na STS i innych eksperymentów. Dostęp do niego można uzyskać ze strony www.ncbi.nlm.nih.gov/unists

BioSample: Jest to zbiór informacji o różnych biologicznych materiałach źródłowych używanych w badaniach eksperymentalnych. Dostęp do niego można uzyskać ze strony www.ncbi.nlm.nih.gov/biosample

Wyniki wyszukiwania zapytań są reprezentowane w różnych formatach danych, takich jak GenBank, FASTA.

GenBank : GenBank jest zbiorem anotowanych sekwencji DNA, który jest bazą danych sekwencji genetycznych NIH. Różne składniki parametrów zawarte są wyjaśnione poniżej.

Nazwa locus pomaga w grupowaniu wpisów z podobnymi sekwencjami. Pierwsze 3 znaki oznaczają organizm, znaki czwarty i piąty dają inne oznaczenia grupowe, takie jak produkt genu, a ostatni znak jest serią kolejnych liczb całkowitych.

Długość sekwencji zawiera liczbę par zasad nukleotydowych (lub reszt aminokwasowych) w rekordzie sekwencji.

Molecule Type pokazuje typ sekwencjonowanej cząsteczki .

Genbank Division pokazuje dział GenBank, do którego należy rekord i jest oznaczony trzyliterowym skrótem.

1. PRI – sekwencje naczelnych
2. ROD – sekwencje gryzoni
3. MAM – sekwencje innych ssaków
4. VRT – sekwencje innych kręgowców
5. INV – invertebratebrate sequences
6. PLN – plant, fungal, and algal sequences
7. BCT – bacterial sequences
8. VRL – viral sequences
9. PHG – sekwencje bakteriofagowe
10. SYN – sekwencje syntetyczne
11. UNA – sekwencje niezanotowane
12. EST – sekwencje EST (expressed sequence tags)
13. PAT – sekwencje patentowe
14. STS – sekwencje STS (sequence tagged sites)
15. GSS – sekwencje GSS (sekwencje badania genomu)
16. HTG – sekwencje HTG (high-throughput genomic seq)
17. HTC – unfinished high-throughput cDNA sequencing
18. ENV – sekwencje pobierania próbek środowiskowych

Modification Date pokazuje ostatnią datę modyfikacji.

Definition to krótki opis sekwencji, który zawiera informacje takie jak organizm źródłowy, nazwa genu/białka lub jakiś opis funkcji sekwencji.

Accession number wskazuje unikalny identyfikator dla rekordu sekwencji.

Rekordy z RefSeq

NT_123456 skonstruowane kontigi genomowe
NM_123456 mRNA
NP_123456 białka
NC_123456 chromosomy

Wersja wskazuje numer identyfikacyjny sekwencji nukleotydowej, która reprezentuje pojedynczą, konkretną sekwencję w bazie danych GenBank.

GI „Identyfikator GenInfo” jest numerem identyfikacyjnym sekwencji nukleotydów.

Słowa kluczowe opisuje słowo lub frazę sekwencji.

Źródło wskazuje informacje w wolnym formacie, w tym skróconą formę nazwy organizmu, po której czasami następuje typ cząsteczki.

Organizm opisuje formalną nazwę naukową organizmu źródłowego i jego linię rodową.

Referencja zawiera publikacje autorów sekwencji, które omawiają dane zgłoszone w rekordzie.

Autorzy zawiera Listę autorów w kolejności, w jakiej występują w cytowanym artykule.

Pole wyszukiwania Entrez: Author

Title reprezentuje tytuł opublikowanej pracy lub wstępny tytuł niepublikowanego słowa.

Entrez Search Field: Text Word

Journal: MEDLINE skrót nazwy czasopisma.

Entrez Search Field: Journal Name

Pubmed: PubMed Identifier (PMID)

Features pokazuje informacje o genach i produktach genowych, a także regionach o znaczeniu biologicznym zgłoszonych w sekwencji.

Source jest obowiązkową cechą w każdym rekordzie, która podsumowuje długość sekwencji, nazwę naukową organizmu źródłowego i numer Taxon ID. Może również zawierać inne informacje, takie jak lokalizacja na mapie, szczep, klon, typ tkanki itd, jeśli dostarczone przez zgłaszającego.

Takson to stabilny, unikalny numer identyfikacyjny taksonu organizmu źródłowego.

CDS (Coding sequence) reprezentuje region nukleotydów, który odpowiada sekwencji aminokwasów w białku.

Rysunek 1: Plik GenBank uzyskany z bazy danych NCBI dla wpisu Homo sapiens Neurexin1

FASTA: Jest to format pliku używany do reprezentowania sekwencji nukleotydów lub białek jako ciąg z pewnym podstawowym znacznikiem lub identyfikatorem, w którym nukleotydy lub aminokwasy są reprezentowane jako kody jednoliterowe. Sekwencja FASTA zaczyna się od symbolu (>) większego niż, co oznacza początek nowego rekordu sekwencji zwanego linią definicyjną („def line”). Po numerze akcesyjnym lub numerze wersji następuje opis tego wpisu. Sekwencja DNA pisana wielkimi lub małymi literami zaczyna się od następnego wiersza. Sekwencje zawierają 60 znaków w wierszu.

Rysunek 2: Format pliku FASTA uzyskany z bazy danych NCBI dla wpisu Homo sapiens Neurexin1

Sekwencje te, które są przechowywane w bazie danych zostały uzyskane z różnych metod eksperymentalnych. Najczęściej stosowanymi metodami sekwencjonowania DNA są metoda Sangera i metoda Maxama-Gilberta. Podobnie metoda degradacji Edmana i technika spektrometrii masowej są stosowane do sekwencjonowania białek.

Metoda Sangera (metoda didexy chain termination): Tutaj pobierane są 4 probówki oznaczone literami A, T, G i C. Do każdej z nich należy dodać DNA w formie zdenaturowanej (pojedyncze nici). Następnie dodaje się primer, który annealizuje się do jednej z nici w szablonie. Na 3′ końcu primera znajdują się zarówno nukleotydy dideoksy (specyficzne dla każdej probówki), jak i losowo nukleotydy deoksy. Kiedy do rosnącego łańcucha dołącza się ddNTP, łańcuch kończy się z powodu braku 3’OH, który tworzy wiązanie fosfodiestrowe z następnym nukleotydem. W ten sposób powstają małe nici DNA. Wykonywana jest elektroforeza, a kolejność sekwencji można uzyskać analizując pasma w żelu w oparciu o masę cząsteczkową. Starter lub jeden z nukleotydów może być znakowany radioaktywnie lub fluorescencyjnie, tak, że produkt końcowy może być łatwo wykryty z żelu i sekwencja może być wnioskowana.

Maxam-Gilbert (metoda degradacji chemicznej): Metoda ta wymaga denaturowania fragmentu DNA, którego 5′ koniec jest znakowany radioaktywnie. Fragment ten jest następnie poddawany oczyszczaniu przed przystąpieniem do obróbki chemicznej, w wyniku której otrzymuje się serię znakowanych fragmentów. Technika elektroforezy pomaga w uporządkowaniu fragmentów w oparciu o ich masę cząsteczkową. Aby obejrzeć fragmenty, żel jest naświetlany promieniami rentgenowskimi w celu wykonania autoradiografii. Pojawia się seria ciemnych pasm, z których każde odpowiada znakowanemu radioaktywnie fragmentowi DNA, na podstawie którego można wnioskować o sekwencji.

Reakcja degradacji Edmana: Reakcja ta znajduje kolejność aminokwasów w białku od N-końca, poprzez rozszczepienie każdego aminokwasu od N-końca, bez rozpraszania wiązań w białku. Po każdym rozszczepieniu wykonywana jest chromatografia lub elektroforeza w celu identyfikacji aminokwasu

Cel

Dodaj komentarz Anuluj pisanie odpowiedzi