Recuperarea datelor de secvență din Entrez (Teorie) : Laborator virtual de bioinformatică I

Obiectiv

nov. 26, 2021

admin

Pentru a prezenta Entrez ca un sistem de recuperare a datelor biologice

Pentru a învăța cum se utilizează motorul de căutare Entrez pentru a prelua date de secvență nucleotidă/proteică.

Entrez este un motor de căutare integrat care permite utilizatorilor să caute și să recupereze diferite date de la National Center for Biotechnology Information (NCBI). Acesta poate fi accesat de pe site-ul www.ncbi.nlm.nih.gov/Entrez/. Entrez este principalul sistem de căutare și recuperare de text al NCBI, care integrează baza de date PubMed și alte 39 de literaturi științifice, baze de date cu nucleotide și proteine, date privind domeniile proteice, seturi de date de studii de populație, date de expresie, căi și sisteme de molecule care interacționează, detalii complete ale genomului și informații taxonomice într-un sistem strâns interconectat. Aceste baze de date componente pot fi accesate cu ajutorul unei singure interogări.

Funcțiile majore ale NCBI sunt:

Crearea de baze de date publice pentru stocarea, recuperarea și analiza cunoștințelor despre biologia moleculară, biochimie și genetică.
Conducerea de cercetări în domeniul biologiei computaționale, pentru analiza structurii și funcției moleculelor biologice.
Dezvoltă instrumente software pentru analiza datelor genomice.
Diseminează informații biomedicale.
Reunește informații biotehnologice la nivel mondial.

Entrez acționează astfel ca motor de căutare pentru bazele de date NCBI.Căutarea poate fi făcută mai precis prin utilizarea operatorilor booleeni precum AND, OR sau NOT cu declarația de căutare. Limitele permit utilizatorului să își filtreze căutarea în funcție de alegerea sa. O interfață de căutare avansată permite efectuarea unor interogări mai detaliate.

Diferitele interogări pot fi căutate pe următoarele baze. Sintaxa de căutare a interogărilor este prezentată mai jos.

Termen de căutare Operatori booleeni Termen de căutare .

Tabela1: Declarații de căutare booleană Entrez

Utilizatorul poate efectua o căutare globală prin selectarea opțiunii implicite „Toate bazele de date „, care afișează rezultatul din diferite baze de date și se va afișa și numărul de înregistrări disponibile pentru fiecare bază de date. Bazele de date sunt aranjate în trei secțiuni principale, dintre care secțiunea de sus conține informații despre bazele de date bibliografice, secțiunea din mijloc include baze de date moleculare și secțiunea de jos include reviste de baze de date bibliografice accesorii, NLM Catalog și MeSH.

Bazele de date asociate incluse în Entrez sunt următoarele.

Books: Bookshelf oferă acces gratuit pentru a căuta, prelua și citi cărți și reviste din domeniul științelor vieții. Poate fi accesat de pe site-ul http://www.ncbi.nlm.nih.gov/books

CDD: Conserved Domain Database este o colecție de adnotări ale unităților funcționale din proteine. Aceasta conține modele de domenii adnotate manual, care utilizează informații despre structura 3D pentru a defini relațiile secvență /structură/funcție. Poate fi accesată de pe site-ul www.ncbi.nlm.nih.gov/sites/entrez

Gene: Baza de date Gene cuprinde informații despre diverse specii, inclusiv nomenclatura acestora, căile asociate, RefSeq-uri, fenotipuri, legături cu genomul. Poate fi accesată de pe site-ul http://www.ncbi.nlm.nih.gov/gene/

CoreNucleotide: Este o sursă de secvențe din diferite baze de date, inclusiv GenBank, RefSeq, TPA și PDB, care va fi utilă în scopuri de cercetare. Poate fi accesată de pe site-ul http://www.ncbi.nlm.nih.gov/sites/entrez?db=nuccore

EST: Expression Sequence Tag database este o colecție de date din GenBank. Acestea sunt secvențe etichetate de secvențe derivate din ADNc, care acționează ca o resursă pentru a evalua expresia genelor, pentru a găsi o variație potențială, pentru a adnota genele. Poate fi accesată de pe site-ul http://www.ncbi.nlm.nih.gov/nucest

Genom: Baza de date a genomului este o colecție de informații despre genomuri, care include secvențe, hărți, cromozomi și adnotări ale acestora. Poate fi accesată de pe site-ul http://www.ncbi.nlm.nih.gov/genome

dbGaP: Baza de date de genotipuri și fenotipuri este o bibliotecă de rezultate, provenite din studiile de interacțiune a genotipurilor și fenotipurilor. Aceasta poate fi accesată de pe site-ul http://www.ncbi.nlm.nih.gov/gap

GEO Datasets: Gene Expression Omnibus (GEO) oferă informații despre seturile de date privind expresia genică, seriile originale ale acestora și înregistrările platformei. De asemenea, oferă informații suplimentare, cum ar fi detalii experimentale, instrumente de cluster și interogări de expresie diferențială. Poate fi accesat de pe site-ul www.ncbi.nlm.nih.gov/gds

GEO Profiles: Oferă posibilitatea de a căuta profiluri care sunt importante în ceea ce privește adnotarea genelor sau caracteristicile profilurilor precalculate. Poate fi accesată de pe site-ul http://www.ncbi.nlm.nih.gov/geoprofiles

GSS: Baza de date de nucleotide GSS oferă informații din GenBank de înregistrări de secvențe Genome Survey Sequence. Aceasta poate fi accesată de pe site-ul www.ncbi.nlm.nih.gov/nucgss

HomoloGene: Este o colecție de omologi din genele adnotate ale organismelor eucariote complet secvențiate. Poate fi accesată de pe site-ul www.ncbi.nlm.nih.gov/homologene

MeSH: MeSH (Medical Subject Headings) este vocabularul controlat de NLM (Nations Library of Medicine) utilizat pentru navigarea articolelor, de asemenea, acționează ca un tezaur în științele biomedicale pentru Pubmed și MEDLINE. Acesta poate fi accesat de pe site-ul www.ncbi.nlm.nih.gov/mesh

NCBI Web Site: Se navighează pe site-ul NCBI. Poate fi accesat de pe site-ul http://www.ncbi.nlm.nih.gov/

NLM Catalog: NLM (United States National Library of Medicine) este cea mai mare bibliotecă medicală care oferă acces la cărți, reviste, informații tehnice, materiale audiovizuale, software și alte resurse. Poate fi accesată de pe site-ul http://www.ncbi.nlm.nih.gov/nlmcatalog

OMIM: Este o bază de date cuprinzătoare de resurse pentru genele umane și tulburările genetice. Conține informații despre genele umane și fenotipurile genetice, care sunt actualizate zilnic. Poate fi accesată de pe site-ul www.ncbi.nlm.nih.gov/omim

OMIA: Online Mendelian Inheritance in Animals (Moștenirea mendeliană online la animale) acționează ca o resursă pentru genele, tulburările moștenite și trăsăturile la peste 135 de specii de animale, autor fiind profesorul Frank Nicholas. Oferă acces la speciile de animale, cu excepția celor de la om și șoarece, pentru care sunt oferite date specifice fiecărei specii. Poate fi accesat de pe site-ul http://www.ncbi.nlm.nih.gov/omia

PopSet: Setul de date pentru studiul populației este o colecție de seturi de secvențe ADN, colectate pentru a studia înrudirea evolutivă a unei populații. Acesta poate fi accesat de pe site-ul http://www.ncbi.nlm.nih.gov/popset

Probe: Este o colecție de reactivi de acizi nucleici. Conține, de asemenea, informații privind distribuitorii de reactivi, eficacitatea sondei și similaritățile de secvență calculate. Poate fi accesată de pe site-ul http://www.ncbi.nlm.nih.gov/probe

Protein Sequence Database: Este o colecție de secvențe din GenBank, RefSeq, TAP, SwissProt, PIR, PRF, PDB. Poate fi accesată de pe site-ul www.ncbi.nlm.nih.gov/protein

Pubchem BioAssay: Conține informații despre ecrane de bioactivitate a substanțelor chimice din PubChem. Poate fi accesat de pe site-ul www.ncbi.nlm.nih.gov/pcassay

PubChem Compound: Conține compuși cu structurile lor unice și informații biologice din substanțele PubChem. Poate fi accesat de pe site-ul www.ncbi.nlm.nih.gov/pccompound

PubChem Substance: Este o colecție de înregistrări de substanțe de la cei care au depus substanțe în sistem, descrieri ale probelor și linkuri către rezultatele de screening biologic care sunt disponibile în PubChem BioAssay. Poate fi accesat de pe site-ul www.ncbi.nlm.nih.gov/pcsubstance

PubMed: PubMed este un sistem de căutare în baze de date cu acces liber pentru informații despre sănătate, care este dezvoltat și întreținut de către Centrul Național pentru Informații Biotehnologice (NCBI) din cadrul Bibliotecii Naționale de Medicină (NLM). Aceasta conține articole din MEDLINE și alte articole biomedicale. Poate fi accesată de pe site-ul www.ncbi.nlm.nih.gov/pubmed

Pubmed Central: PubMed central este o resursă digitală accesibilă gratuit de articole în text integral pentru reviste biomedicale din domeniul științelor vieții, care este legată de baza de date PubMed. Poate fi accesată de pe site-ul www.ncbi.nlm.nih.gov/pmc/

SNP: Baza de date SNP conține informații despre polimorfismele de un singur nucleotid, polimorfismele de inserție și deleție scurtă. Aceasta poate fi accesată de pe site-ul www.ncbi.nlm.nih.gov/snp

Structură: Baza de date Structure conține informații despre structurile tridimensionale ale proteinelor și ale altor polinucleotide. Aceasta poate fi accesată de pe site-ul www.ncbi.nlm.nih.gov/structure

Taxonomie: Taxonomia conține informații despre toate organismele care sunt incluse în baza de date genetice cu secvența lor nucleotidică sau proteică. Poate fi accesată de pe site-ul www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/

UniGene: Identifică transcriptele din același locus, analizează expresia în funcție de țesut, vârstă, stare de sănătate și raportează proteinele aferente (protest) și resursele de clone. Poate fi accesat de pe site-ul www.ncbi.nlm.nih.gov/unigene

UniSTS: Conține informații despre Sequenced Tagged Sites (STS) care provin din perechile de amorsă PCR cu pozițiile lor genomice, gene și informații despre secvențe din hărțile bazate pe STS și alte experimente. Poate fi accesat de pe site-ul www.ncbi.nlm.nih.gov/unists

BioSample: Este o colecție de informații despre diferite materiale biologice sursă utilizate în testele experimentale. Poate fi accesată de pe site-ul www.ncbi.nlm.nih.gov/biosample

Rezultatele căutării prin interogare sunt reprezentate în diferite formate de date, cum ar fi GenBank, FASTA.

GenBank : GenBank este o colecție de secvențe de ADN adnotate, care reprezintă baza de date de secvențe genetice a NIH. Diferitele componente de parametri incluse sunt explicate mai jos.

Numele locusului ajută la gruparea intrărilor cu secvențe similare. Primele 3 caractere denotă organismul, al patrulea și al cincilea caracter oferă alte denumiri de grup, cum ar fi produsul genic, iar ultimul caracter este o serie de numere întregi secvențiale.

Lungimea secvenței conține numărul de perechi de baze nucleotidice (sau de reziduuri de aminoacizi) din înregistrarea secvenței.

Molecule Type arată tipul de moleculă secvențiată.

Genbank Division arată diviziunea GenBank căreia îi aparține o înregistrare și este indicată printr-o abreviere de trei litere.

1. PRI – secvențe de primate
2. ROD – secvențe de rozătoare
3. MAM – alte secvențe de mamifere
4. VRT – alte secvențe de vertebrate
5. INV – secvențe de nevertebrate
6. PLN – secvențe de plante, ciuperci și alge
7. BCT – secvențe bacteriene
8. VRL – secvențe virale
9. PHG – secvențe bacteriofage
10. SYN – secvențe sintetice
11. UNA – secvențe neanunțate
12. EST – secvențe EST (expressed sequence tags)
13. PAT – secvențe brevetate
14. STS – secvențe STS (sequence tagged sites)
15. GSS – secvențe GSS (genome survey sequences)
16. HTG – secvențe HTG (secvențe genomice de mare capacitate)
17. HTC – secvențe cDNA neterminate (secvențiere cDNA de mare capacitate)
18. ENV – secvențe de prelevare de probe de mediu

Data modificării indică ultima dată a modificării.

Definiția este o scurtă descriere a secvenței care include informații precum organismul sursă, numele genei/numele proteinei sau o anumită descriere a funcției secvenței.

Numărul de acces indică identificatorul unic pentru o înregistrare de secvență.

Registrări din RefSeq

NT_123456 contigii genomice construite
NM_123456 ARNm
NP_123456 proteine
NC_123456 cromozomi

Versiunea arată un număr de identificare a secvenței de nucleotide care reprezintă o singură, secvență specifică în baza de date GenBank.

GI „GenInfo Identifier” este un număr de identificare a secvenței de nucleotide.

Keywords descrie un cuvânt sau o frază a secvenței.

Source indică informații în format liber, inclusiv o formă prescurtată a denumirii organismului, urmată uneori de un tip de moleculă.

Organism (Organism) descrie denumirea științifică oficială a organismului sursă și descendența acestuia.

Reference (Referință) include publicații ale autorilor secvenței care discută datele raportate în înregistrare.

Authors (Autorii) conține Lista autorilor în ordinea în care apar în articolul citat.

Entrez Search Field (Câmpul de căutare Entrez): Author

Title reprezintă titlul lucrării publicate sau titlul provizoriu al unui cuvânt nepublicat.

Entrez Search Field: Text Word

Journal: Abrevierea MEDLINE a numelui revistei.

Câmpul de căutare Entrez: Journal Name

Pubmed: PubMed Identifier (PMID)

Features arată informații despre gene și produse genice, precum și despre regiunile de importanță biologică raportate în secvență.

Source este o caracteristică obligatorie în fiecare înregistrare care rezumă lungimea secvenței, denumirea științifică a organismului sursă și numărul de identificare a taxonului. Poate include și alte informații, cum ar fi localizarea pe hartă, tulpina, clona, tipul de țesut etc., în cazul în care este furnizat de către cel care a transmis datele.

Taxon este un număr de identificare unic stabil pentru taxonul organismului sursă.

CDS (Secvența de codificare) reprezintă regiunea de nucleotide care corespunde cu secvența de aminoacizi dintr-o proteină.

Figura 1 : Fișier GenBank obținut din baza de date NCBI pentru intrarea Homo sapiens Neurexin1

FASTA: Este un format de fișier utilizat pentru reprezentarea secvențelor de nucleotide sau proteine sub forma unui șir de caractere cu o anumită etichetă sau identificator de bază, în care nucleotidele sau aminoacizii sunt reprezentați sub forma unor coduri de o singură literă. O secvență FASTA începe cu un simbol (>) mai mare decât, ceea ce implică începutul unei noi înregistrări de secvență, numită linie de definiție („def line”). Un număr de acces sau un număr de versiune este urmat de o descriere a intrării respective. Secvența ADN cu majuscule sau minuscule începe de la linia următoare. Secvențele conțin 60 de caractere pe linie.

Figura 2: Formatul fișierului FASTA obținut din baza de date NCBI pentru intrarea Homo sapiens Neurexin1

Aceste secvențe care sunt stocate în baza de date au fost obținute prin diferite metode experimentale. Cele mai frecvent utilizate metode pentru secvențierea ADN sunt metoda Sanger și metoda Maxam-Gilbert. În mod similar, metoda de degradare Edman și tehnica spectrometriei de masă sunt utilizate pentru secvențierea proteinelor.

Metoda Sanger (metoda de terminare a lanțului dideoxi): Aici se iau 4 eprubete etichetate cu A, T, G și C. În fiecare dintre eprubete trebuie adăugat ADN în formă denaturată (șiruri simple). Apoi se adaugă un amorsă care se aneantizează la unul dintre șirurile din șablon. Capătul 3′ al primerului găzduiește atât nucleotidele dideoxi (specifice fiecărui tub), cât și nucleotidele deoxi, în mod aleatoriu. Atunci când ddNTP se atașează la lanțul în creștere, lanțul se termină din cauza lipsei de 3’OH care formează legătura fosfo diester cu următoarea nucleotidă. Astfel, se formează șiruri mici de ADN. Se face electroforeza și ordinea secvenței poate fi obținută prin analiza benzilor din gel în funcție de greutatea moleculară. Primerul sau una dintre nucleotide poate fi marcată radioactiv sau fluorescent, de asemenea, astfel încât produsul final să poată fi detectat cu ușurință pe gel și să se poată deduce secvența.

Maxam-Gilbert (metoda de degradare chimică): Această metodă necesită denaturarea unui fragment de ADN al cărui capăt 5′ este marcat radioactiv. Acest fragment este apoi supus purificării înainte de a se trece la un tratament chimic care duce la obținerea unei serii de fragmente marcate. Tehnica de electroforeză ajută la aranjarea fragmentelor în funcție de greutatea lor moleculară. Pentru a vizualiza fragmentele, gelul este expus la un film cu raze X pentru autoradiografie. Vor apărea o serie de benzi întunecate, fiecare corespunzând unui fragment de ADN radiomarcat, din care se poate deduce secvența.

Reacția de degradare Edman: Reacția găsește ordinea aminoacizilor dintr-o proteină de la N-terminal, prin scindarea fiecărui aminoacid de la N-terminal fără a distruge legăturile din proteină. După fiecare clivaj, se face cromatografie sau electroforeză pentru a identifica aminoacidul

Obiectiv

Lasă un răspuns Anulează răspunsul