Pfam

Nov 3, 2021
admin

Pfam è stato fondato nel 1995 da Erik Sonhammer, Sean Eddy e Richard Durbin come una collezione di domini proteici comuni che potrebbero essere usati per annotare i geni codificanti le proteine degli animali multicellulari. Uno dei suoi principali obiettivi all’inizio era quello di aiutare l’annotazione del genoma di C. elegans. Il progetto è stato in parte guidato dall’affermazione in ‘Mille famiglie per il biologo molecolare’ di Cyrus Chothia che c’erano circa 1500 diverse famiglie di proteine e che la maggior parte delle proteine rientrava in appena 1000 di queste. In contrasto con questa affermazione, il database Pfam contiene attualmente 16.306 voci corrispondenti a domini e famiglie proteiche uniche. Tuttavia, molte di queste famiglie contengono somiglianze strutturali e funzionali che indicano un’origine evolutiva condivisa (vedi Clans).

Un importante punto di differenza tra Pfam e altri database al momento del suo inizio era l’uso di due tipi di allineamento per le voci: un allineamento più piccolo, controllato manualmente, così come un allineamento completo costruito allineando le sequenze ad un modello di Markov nascosto di profilo costruito dall’allineamento di partenza. Questo allineamento più piccolo era più facile da aggiornare quando uscivano nuove versioni di database di sequenze, e quindi rappresentava una soluzione promettente al dilemma di come mantenere aggiornato il database man mano che il sequenziamento del genoma diventava più efficiente e più dati dovevano essere processati nel tempo. Un ulteriore miglioramento alla velocità con cui il database poteva essere aggiornato arrivò nella versione 24.0, con l’introduzione di HMMER3, che è ~100 volte più veloce di HMMER2 e più sensibile.

Perché le voci in Pfam-A non coprono tutte le proteine conosciute, fu fornito un supplemento generato automaticamente chiamato Pfam-B. Pfam-B conteneva un gran numero di piccole famiglie derivate da cluster prodotti da un algoritmo chiamato ADDA. Anche se di qualità inferiore, le famiglie Pfam-B potevano essere utili quando non si trovavano famiglie Pfam-A. Pfam-B è stato interrotto a partire dalla versione 28.0, poi reintrodotto nella versione 33.1 utilizzando un nuovo algoritmo di clustering, MMSeqs2.

Pfam era originariamente ospitato su tre siti mirror in tutto il mondo per preservare la ridondanza. Tuttavia, tra il 2012 e il 2014, la risorsa Pfam è stata spostata su EMBL-EBI, che ha permesso di ospitare il sito web da un dominio (xfam.org), utilizzando due centri dati indipendenti. Questo ha permesso una migliore centralizzazione degli aggiornamenti e il raggruppamento con altri progetti Xfam come Rfam, TreeFam, iPfam e altri, pur mantenendo la resilienza critica fornita dall’hosting da più centri.

Pfam ha subito una sostanziale riorganizzazione negli ultimi due anni per ridurre ulteriormente lo sforzo manuale coinvolto nella cura e consentire aggiornamenti più frequenti.

Cura della comunitàModifica

La cura di un database così grande ha presentato problemi in termini di tenere il passo con il volume di nuove famiglie e informazioni aggiornate che dovevano essere aggiunte. Per accelerare i rilasci del database, gli sviluppatori hanno avviato una serie di iniziative per consentire un maggiore coinvolgimento della comunità nella gestione del database.

Un passo fondamentale per migliorare il ritmo di aggiornamento e miglioramento delle voci è stato quello di aprire l’annotazione funzionale dei domini Pfam alla comunità di Wikipedia nel rilascio 26.0. Per le voci che avevano già una voce su Wikipedia, questa è stata collegata alla pagina Pfam, e per quelle che non ce l’avevano, la comunità è stata invitata a crearne una e ad informare i curatori, in modo da poterla collegare. Si prevede che mentre il coinvolgimento della comunità migliorerà notevolmente il livello di annotazione di queste famiglie, alcune rimarranno non sufficientemente notevoli per l’inclusione in Wikipedia, nel qual caso manterranno la loro descrizione originale Pfam. Alcuni articoli di Wikipedia coprono più famiglie, come l’articolo Zinc finger. È stata anche implementata una procedura automatica per la generazione di articoli basati sui dati InterPro e Pfam, che popola una pagina con informazioni e link a banche dati e immagini disponibili, poi una volta che un articolo è stato rivisto da un curatore viene spostato dalla Sandbox a Wikipedia vera e propria. Per evitare il vandalismo degli articoli, ogni revisione di Wikipedia viene esaminata dai curatori prima di essere visualizzata sul sito Pfam. Quasi tutti i casi di vandalismo sono stati corretti dalla comunità prima di raggiungere i curatori, tuttavia.

Pfam è gestito da un consorzio internazionale di tre gruppi. Nelle prime versioni di Pfam, le voci delle famiglie potevano essere modificate solo nel sito di Cambridge, Regno Unito, limitando la capacità dei membri del consorzio di contribuire alla cura del sito. Nella versione 26.0, gli sviluppatori sono passati ad un nuovo sistema che permette agli utenti registrati in tutto il mondo di aggiungere o modificare le famiglie Pfam.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.