Obiettivo
- Per introdurre Entrez come un sistema di recupero di dati biologici
- Per imparare come usare il motore di ricerca Entrez per recuperare dati di sequenze nucleotidiche/proteiche.
Entrez è un motore di ricerca integrato che permette agli utenti di cercare e recuperare diversi dati dal National Center for Biotechnology Information (NCBI). Vi si può accedere dal sito www.ncbi.nlm.nih.gov/Entrez/. Entrez è il principale sistema di ricerca e recupero di testo dell’NCBI che integra il database PubMed e altre 39 letterature scientifiche, database di nucleotidi e proteine, dati di domini proteici, set di dati di studi di popolazione, dati di espressione, percorsi e sistemi di molecole interagenti, dettagli completi del genoma e informazioni tassonomiche in un sistema strettamente interconnesso. Si può accedere a questi database componenti usando una singola query.
Le principali funzioni di NCBI sono:
- Creare database pubblici per immagazzinare, recuperare e analizzare la conoscenza sulla biologia molecolare, la biochimica e la genetica.
- Condurre ricerche di biologia computazionale, per analizzare la struttura e la funzione delle molecole biologiche.
- Sviluppare strumenti software per l’analisi dei dati genomici.
- Diffondere informazioni biomediche.
- Raccogliere informazioni biotecnologiche in tutto il mondo.
Entrez agisce quindi come motore di ricerca per i database NCBI.La ricerca può essere fatta più precisamente utilizzando operatori booleani come AND, OR o NOT con la dichiarazione di ricerca. I limiti permettono all’utente di filtrare la sua ricerca secondo la sua scelta. Un’interfaccia di ricerca avanzata permette di eseguire query più dettagliate.
Le diverse query possono essere ricercate in base a quanto segue. La sintassi per la ricerca delle query come mostrato di seguito.
Termine di ricerca Operatori booleani Termine di ricerca .
Tabella1: Entrez Boolean Search Statements
L’utente può eseguire una ricerca globale selezionando l’opzione predefinita “All Databases”, che visualizza i risultati dai diversi database e il loro numero di record disponibili per ogni database sarà anche mostrato. I database sono disposti in tre sezioni principali, di cui la sezione superiore contiene informazioni sui database di letteratura, la sezione centrale include i database molecolari e la sezione inferiore include riviste di database di letteratura accessoria, catalogo NLM e MeSH.
I database associati inclusi in Entrez sono i seguenti.
- Libri: Bookshelf fornisce accesso gratuito per cercare, recuperare e leggere libri e riviste dell’area delle scienze della vita. Si può accedere dal sito http://www.ncbi.nlm.nih.gov/books
- CDD: Conserved Domain Database è una collezione di annotazioni di unità funzionali nelle proteine. Contiene modelli di dominio annotati manualmente, che usano informazioni sulla struttura 3D per definire le relazioni sequenza/struttura/funzione. Vi si può accedere dal sito www.ncbi.nlm.nih.gov/sites/entrez
- Gene: Il database Gene comprende informazioni su varie specie tra cui la loro nomenclatura, percorsi associati, RefSeq’s, fenotipi, collegamenti al genoma. Si può accedere dal sito http://www.ncbi.nlm.nih.gov/gene/
- CoreNucleotide: è una fonte di sequenze da diversi database tra cui GenBank, RefSeq, TPA e PDB che sarà utile per gli scopi della ricerca. Si può accedere dal sito http://www.ncbi.nlm.nih.gov/sites/entrez?db=nuccore
- EST: Expression Sequence Tag database è una raccolta di dati da GenBank. Si tratta di sequenze taggate derivate da cDNA, che agiscono come una risorsa per valutare l’espressione genica, trovare potenziali variazioni, geni annotati. Si può accedere dal sito http://www.ncbi.nlm.nih.gov/nucest
- Genome: Il database del genoma è una raccolta di informazioni sui genomi che includono le loro sequenze, mappe, cromosomi e annotazioni. Si può accedere dal sito http://www.ncbi.nlm.nih.gov/genome
- dbGaP: Il database di genotipi e fenotipi è una biblioteca di risultati, dagli studi di interazione di genotipi e fenotipi. Si può accedere dal sito http://www.ncbi.nlm.nih.gov/gap
- GEO Datasets: Il Gene Expression Omnibus (GEO) offre informazioni sui dataset di espressione genica, le loro serie originali e i record della piattaforma. Fornisce anche informazioni aggiuntive come dettagli sperimentali, strumenti di cluster e query di espressione differenziale. Vi si può accedere dal sito www.ncbi.nlm.nih.gov/gds
- GEO Profiles: Offre la ricerca di profili che sono importanti per l’annotazione dei geni o per le caratteristiche del profilo precompilato. Si può accedere dal sito http://www.ncbi.nlm.nih.gov/geoprofiles
- GSS: Il database nucleotidico GSS fornisce informazioni da GenBank dei record Genome Survey Sequence. Si può accedere dal sito www.ncbi.nlm.nih.gov/nucgss
- HomoloGene: è una collezione di omologhi dai geni annotati di organismi eucarioti completamente sequenziati. Si può accedere dal sito www.ncbi.nlm.nih.gov/homologene
- MeSH: MeSH (Medical Subject Headings) è il vocabolario controllato NLM (Nations Library of Medicine) usato per la navigazione degli articoli, agisce anche come thesaurus nelle scienze biomediche per Pubmed e MEDLINE. Si può accedere dal sito www.ncbi.nlm.nih.gov/mesh
- NCBI Web Site: Naviga il sito NCBI. Si può accedere dal sito http://www.ncbi.nlm.nih.gov/
- Catalogo NLM: NLM (United States National Library of Medicine) è la più grande biblioteca medica che offre accesso a libri, riviste, informazioni tecniche, audiovisivi, software e altre risorse. Si può accedere dal sito http://www.ncbi.nlm.nih.gov/nlmcatalog
- OMIM: È un database completo di risorse per i geni umani e le malattie genetiche. Contiene informazioni sui geni umani e sui fenotipi genetici, aggiornate quotidianamente. Si può accedere dal sito www.ncbi.nlm.nih.gov/omim
- OMIA: Online Mendelian Inheritance in Animals è una risorsa per i geni, i disturbi ereditati e i tratti in più di 135 specie animali, di cui è autore il professor Frank Nicholas. Fornisce l’accesso alle specie animali ad esclusione di quelle umane e di topo, per le quali sono offerti dati specifici della specie. Si può accedere dal sito http://www.ncbi.nlm.nih.gov/omia
- PopSet: PopSet è una collezione di set di sequenze di DNA, raccolte per studiare la parentela evolutiva di una popolazione. È accessibile dal sito http://www.ncbi.nlm.nih.gov/popset
- Probe: È una raccolta di reagenti per acidi nucleici. Contiene anche informazioni sui distributori di reagenti, sull’efficacia della sonda e sulle somiglianze di sequenza calcolate. È accessibile dal sito http://www.ncbi.nlm.nih.gov/probe
- Protein Sequence Database: È una collezione di sequenze da GenBank, RefSeq, TAP, SwissProt, PIR, PRF, PDB. È accessibile dal sito www.ncbi.nlm.nih.gov/protein
- Pubchem BioAssay: Contiene informazioni di schermi di bioattività di sostanze chimiche da PubChem. Si può accedere dal sito www.ncbi.nlm.nih.gov/pcassay
- PubChem Compound: Contiene composti con le loro strutture uniche e informazioni biologiche dalle sostanze PubChem. È accessibile dal sito www.ncbi.nlm.nih.gov/pccompound
- PubChem Substance: È una raccolta di registrazioni di sostanze da parte dei depositanti nel sistema, descrizioni di campioni, e link a risultati di screening biologici che sono disponibili in PubChem BioAssay. Vi si può accedere dal sito www.ncbi.nlm.nih.gov/pcsubstance
- PubMed: PubMed è un sistema di ricerca di database liberamente accessibile per informazioni sulla salute che è sviluppato e mantenuto dal National Center for Biotechnology Information (NCBI) presso la National Library of Medicine (NLM). Contiene articoli da MEDLINE e altri articoli biomedici. Si può accedere dal sito www.ncbi.nlm.nih.gov/pubmed
- Pubmed Central: PubMed Central è una risorsa digitale liberamente accessibile di articoli full text per riviste biomediche di scienze della vita, che è collegata al database PubMed. Si può accedere dal sito www.ncbi.nlm.nih.gov/pmc/
- SNP: Il database SNP contiene informazioni di polimorfismi a singolo nucleotide, polimorfismi a breve inserzione e delezione. Si può accedere dal sito www.ncbi.nlm.nih.gov/snp
- Struttura: Il database Structure contiene informazioni di strutture tridimensionali di proteine e altri polinucleotidi. Vi si può accedere dal sito www.ncbi.nlm.nih.gov/structure
- Tassonomia: La tassonomia contiene informazioni di tutti gli organismi che sono inclusi nel database genetico con la loro sequenza nucleotidica o proteica. È accessibile dal sito www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/
- UniGene: Identifica trascrizioni dallo stesso locus, analizza l’espressione per tessuto, età, stato di salute e segnala le proteine correlate (protesta) e le risorse clonali. È accessibile dal sito www.ncbi.nlm.nih.gov/unigene
- UniSTS: Contiene informazioni sui Sequenced Tagged Sites (STS) che sono dalle coppie di primer PCR con le loro posizioni genomiche, geni e informazioni sulla sequenza da mappe basate su STS e altri esperimenti. Si può accedere dal sito www.ncbi.nlm.nih.gov/unists
- BioSample: E’ una raccolta di informazioni di diversi materiali di origine biologica usati nei saggi sperimentali. Si può accedere dal sito www.ncbi.nlm.nih.gov/biosample
I risultati della ricerca sono rappresentati in diversi formati di dati come GenBank, FASTA.
GenBank: GenBank è una raccolta di sequenze di DNA annotate, che è il database di sequenze genetiche NIH. I diversi componenti dei parametri inclusi sono spiegati di seguito.
- Il nome del locus aiuta a raggruppare le voci con sequenze simili. I primi 3 caratteri denotano l’organismo, il quarto e il quinto carattere danno altre designazioni di gruppo, come il prodotto del gene e l’ultimo carattere è una serie di interi sequenziali.
- La lunghezza della sequenza contiene il numero di coppie di basi nucleotidiche (o residui di aminoacidi) nella registrazione della sequenza.
- Molecule Type mostra il tipo di molecola sequenziata.
- Genbank Division mostra la divisione GenBank a cui appartiene un record ed è indicata da un’abbreviazione di tre lettere.
1. PRI – sequenze di primati
2. ROD – sequenze di roditori
3. MAM – altre sequenze di mammiferi
4. VRT – altre sequenze di vertebrati
5. INV – sequenze di invertebrati
6. PLN – sequenze di piante, funghi e alghe
7. BCT – sequenze di batteri
8. VRL – sequenze virali
9. PHG – sequenze di batteriofagi
10. SYN – sequenze sintetiche
11. UNA – sequenze non annotate
12. EST – sequenze EST (expressed sequence tags)
13. PAT – sequenze brevettate
14. STS – sequenze STS (siti con tag di sequenza)
15. GSS – Sequenze GSS (sequenze di indagine sul genoma)
16. HTG – sequenze HTG (sequenze genomiche ad alta produttività)
17. HTC – sequenze cDNA ad alta produttività non completate
18. ENV – sequenze di campionamento ambientale
- Modification Date mostra l’ultima data di modifica.
- Definition è una breve descrizione della sequenza che include informazioni come l’organismo di origine, il nome del gene/nome della proteina, o qualche descrizione della funzione della sequenza.
- Accession number indica l’identificatore unico per un record di sequenza.
- Record dal RefSeq
NT_123456 contigs genomici costruiti
NM_123456 mRNA
NP_123456 proteine
NC_123456 cromosomi
- La versione mostra un numero di identificazione della sequenza nucleotidica che rappresenta una singola, sequenza specifica nel database GenBank.
- GI “GenInfo Identifier” è un numero di identificazione della sequenza nucleotidica.
- Keywords descrive una parola o una frase della sequenza.
- Source indica informazioni in formato libero che includono una forma abbreviata del nome dell’organismo, talvolta seguita da un tipo di molecola.
- Organismo descrive il nome scientifico formale per l’organismo di origine e la sua stirpe.
- Riferimento include pubblicazioni degli autori della sequenza che discutono i dati riportati nel record.
- Autori contiene Elenco degli autori nell’ordine in cui appaiono nell’articolo citato.
Campo di ricerca Entrez: Author
- Title rappresenta il titolo del lavoro pubblicato o il titolo provvisorio di una parola non pubblicata.
Entrez Search Field: Text Word
- Journal: Abbreviazione MEDLINE del nome della rivista.
Campo di ricerca Entrez: Nome della rivista
- Pubmed: PubMed Identifier (PMID)
- Features mostra informazioni su geni e prodotti genici, così come le regioni di significato biologico riportate nella sequenza.
- Source è una caratteristica obbligatoria in ogni record che riassume la lunghezza della sequenza, il nome scientifico dell’organismo di origine e il Taxon ID number. Può anche includere altre informazioni come la posizione della mappa, il ceppo, il clone, il tipo di tessuto, ecc,
- Taxon è un numero di identificazione unico stabile per il taxon dell’organismo di origine.
- CDS (Coding sequence) rappresenta una regione di nucleotidi che corrisponde alla sequenza di aminoacidi in una proteina.
Figura 1 : file GenBank ottenuto dal database NCBI per la voce Homo sapiens Neurexin1
FASTA: è un formato di file usato per rappresentare sequenze di nucleotidi o proteine come una stringa con qualche tag o identificatore di base in cui i nucleotidi o gli aminoacidi sono rappresentati come codici a lettera singola. Una sequenza FASTA inizia con un (>) maggiore del simbolo che implica l’inizio di un nuovo record di sequenza chiamato linea di definizione (“def line”). Un numero di adesione o un numero di versione è seguito dalla descrizione di quella voce. La sequenza di DNA in lettere maiuscole o minuscole inizia dalla riga successiva. Le sequenze contengono 60 caratteri per linea.
Figura 2: Formato del file FASTA ottenuto dal database NCBI per la voce Homo sapiens Neurexin1
Queste sequenze che sono memorizzate nel database sono state ottenute da diversi metodi sperimentali. I metodi più comunemente usati per il sequenziamento del DNA sono il metodo Sanger e il metodo Maxam-Gilbert. Allo stesso modo il metodo di degradazione Edman e la tecnica della spettrometria di massa sono usati per il sequenziamento delle proteine.
Metodo Sanger (metodo di terminazione a catena dideossi): Qui vengono prese 4 provette etichettate con A, T, G e C. In ciascuna delle provette deve essere aggiunto DNA in forma denaturata (filamenti singoli). In seguito, si aggiunge un primer che si annerisce a uno dei filamenti del template. L’estremità 3′ del primer accoglie i nucleotidi dideossi (specifici per ogni provetta) così come i nucleotidi deossi in modo casuale. Quando il ddNTP si attacca alla catena in crescita, la catena termina per mancanza di 3’OH che forma il legame fosfo-diestere con il nucleotide successivo. Così si formano piccoli filamenti di DNA. Si fa l’elettroforesi e l’ordine di sequenza può essere ottenuto analizzando le bande nel gel in base al peso molecolare. Il primer o uno dei nucleotidi può essere anche marcato radioattivamente o fluorescentemente, in modo che il prodotto finale possa essere rilevato facilmente dal gel e la sequenza possa essere dedotta.
Maxam-Gilbert (metodo di degradazione chimica): Questo metodo richiede la denaturazione del frammento di DNA la cui estremità 5′ è marcata radioattivamente. Questo frammento viene poi sottoposto a purificazione prima di procedere al trattamento chimico che dà come risultato una serie di frammenti marcati. La tecnica dell’elettroforesi aiuta a disporre i frammenti in base al loro peso molecolare. Per visualizzare i frammenti, il gel viene esposto a una pellicola a raggi X per l’autoradiografia. Apparirà una serie di bande scure, ognuna corrispondente a un frammento di DNA radio marcato, da cui la sequenza può essere dedotta.
Reazione di degradazione Edman: La reazione trova l’ordine degli amminoacidi in una proteina dal N-terminale, scindendo ogni amminoacido dal N-terminale senza distruggere i legami nella proteina. Dopo ogni scissione, viene fatta una cromatografia o elettroforesi per identificare l’aminoacido
.