Pfam

nov. 3, 2021
admin

Pfam a fost fondat în 1995 de Erik Sonhammer, Sean Eddy și Richard Durbin ca o colecție de domenii proteice comune care ar putea fi folosite pentru a adnota genele codificatoare de proteine ale animalelor multicelulare. Unul dintre obiectivele sale majore la început a fost acela de a ajuta la adnotarea genomului C. elegans. Proiectul a fost parțial determinat de afirmația lui Cyrus Chothia din „One thousand families for the molecular biologist” (O mie de familii pentru biologul molecular), conform căreia există aproximativ 1500 de familii diferite de proteine și că majoritatea proteinelor se încadrează în doar 1000 dintre acestea. Contrar acestei afirmații, baza de date Pfam conține în prezent 16 306 intrări care corespund unor domenii și familii de proteine unice. Cu toate acestea, multe dintre aceste familii conțin similitudini structurale și funcționale care indică o origine evolutivă comună (a se vedea Clanuri).

Un punct major de diferență între Pfam și alte baze de date la momentul creării sale a fost utilizarea a două tipuri de aliniere pentru intrări: o aliniere inițială mai mică, verificată manual, precum și o aliniere completă construită prin alinierea secvențelor la un model Markov ascuns de profil construit din alinierea inițială. Această aliniere inițială mai mică era mai ușor de actualizat pe măsură ce apăreau noi versiuni ale bazelor de date de secvențe și, prin urmare, a reprezentat o soluție promițătoare la dilema legată de modul de actualizare a bazei de date pe măsură ce secvențierea genomului devenea mai eficientă și mai multe date trebuiau procesate în timp. O îmbunătățire suplimentară a vitezei de actualizare a bazei de date a apărut în versiunea 24.0, odată cu introducerea HMMER3, care este de ~100 de ori mai rapidă decât HMMER2 și mai sensibilă.

Pentru că intrările din Pfam-A nu acoperă toate proteinele cunoscute, a fost furnizat un supliment generat automat numit Pfam-B. Pfam-B conținea un număr mare de familii mici derivate din clusterele produse de un algoritm numit ADDA. Deși de o calitate inferioară, familiile Pfam-B ar putea fi utile atunci când nu au fost găsite familii Pfam-A. Pfam-B a fost întrerupt începând cu versiunea 28.0, apoi a fost reintrodus în versiunea 33.1 folosind un nou algoritm de clusterizare, MMSeqs2.

Pfam a fost inițial găzduit pe trei site-uri oglindă din întreaga lume pentru a păstra redundanța. Cu toate acestea, între 2012 și 2014, resursa Pfam a fost mutată la EMBL-EBI, ceea ce a permis găzduirea site-ului web de pe un singur domeniu (xfam.org), utilizând centre de date independente duplicate. Acest lucru a permis o mai bună centralizare a actualizărilor și gruparea cu alte proiecte Xfam, cum ar fi Rfam, TreeFam, iPfam și altele, păstrând în același timp reziliența critică oferită de găzduirea din mai multe centre.

Pfam a fost supus unei reorganizări substanțiale în ultimii doi ani pentru a reduce și mai mult efortul manual implicat în conservare și pentru a permite actualizări mai frecvente.

Conservarea comunitarăEdit

Conservarea unei baze de date atât de mari a prezentat probleme în ceea ce privește ținerea pasului cu volumul de familii noi și de informații actualizate care trebuiau adăugate. Pentru a accelera publicarea versiunilor bazei de date, dezvoltatorii au demarat o serie de inițiative pentru a permite o mai mare implicare a comunității în gestionarea bazei de date.

Un pas esențial în îmbunătățirea ritmului de actualizare și îmbunătățire a intrărilor a fost deschiderea adnotării funcționale a domeniilor Pfam către comunitatea Wikipedia în versiunea 26.0. Pentru intrările care aveau deja o intrare în Wikipedia, aceasta a fost legată în pagina Pfam, iar pentru cele care nu aveau, comunitatea a fost invitată să creeze una și să informeze curatorii, pentru ca aceasta să fie legată. Se anticipează că, deși implicarea comunității va îmbunătăți considerabil nivelul de adnotare a acestor familii, unele vor rămâne insuficient de notabile pentru a fi incluse în Wikipedia, caz în care își vor păstra descrierea Pfam originală. Unele articole din Wikipedia acoperă mai multe familii, cum ar fi articolul „Zinc finger”. De asemenea, a fost implementată o procedură automată pentru generarea de articole pe baza datelor InterPro și Pfam, care completează o pagină cu informații și linkuri către bazele de date, precum și cu imagini disponibile, apoi, odată ce un articol a fost revizuit de un curator, acesta este mutat din Sandbox în Wikipedia propriu-zisă. Pentru a evita vandalizarea articolelor, fiecare revizuire a Wikipedia este revizuită de curatori înainte de a fi afișată pe site-ul Pfam. Cu toate acestea, aproape toate cazurile de vandalism au fost corectate de către comunitate înainte de a ajunge la curatori.

Pfam este administrată de un consorțiu internațional format din trei grupuri. În versiunile anterioare ale Pfam, intrările familiilor puteau fi modificate doar la site-ul din Cambridge, Marea Britanie, ceea ce limita capacitatea membrilor consorțiului de a contribui la îngrijirea site-ului. În versiunea 26.0, dezvoltatorii au trecut la un nou sistem care permite utilizatorilor înregistrați de oriunde din lume să adauge sau să modifice familiile Pfam.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.