Pfam

nov 3, 2021
admin

A Pfam-et 1995-ben alapította Erik Sonhammer, Sean Eddy és Richard Durbin, mint a gyakran előforduló fehérjetartományok gyűjteményét, amely felhasználható a többsejtű állatok fehérjekódoló génjeinek annotálására. Az egyik fő célja az induláskor az volt, hogy segítse a C. elegans genom annotálását. A projektet részben Cyrus Chothia “Ezer család a molekuláris biológus számára” című könyvének azon állítása vezérelte, hogy a fehérjéknek mintegy 1500 különböző családja létezik, és hogy a fehérjék többsége ezek közül mindössze 1000-be tartozik. Ezzel az állítással ellentétben a Pfam adatbázis jelenleg 16 306 bejegyzést tartalmaz, amelyek egyedi fehérjetartományoknak és családoknak felelnek meg. E családok közül azonban sokan tartalmaznak szerkezeti és funkcionális hasonlóságokat, amelyek közös evolúciós eredetre utalnak (lásd: klánok).

A Pfam és más adatbázisok közötti fő különbség a megalakulásakor az volt, hogy a bejegyzésekhez kétféle igazítást használtak: egy kisebb, kézzel ellenőrzött magigazítást, valamint egy teljes igazítást, amely a szekvenciáknak a magigazításból felépített rejtett Markov-profil modellhez való igazításával készült. Ezt a kisebb magillusztrációt könnyebb volt frissíteni a szekvencia-adatbázisok új kiadásainak megjelenésekor, és így ígéretes megoldást jelentett arra a dilemmára, hogy hogyan lehet az adatbázist naprakészen tartani, amikor a genomszekvenálás egyre hatékonyabbá válik, és idővel egyre több adatot kell feldolgozni. Az adatbázis frissítésének sebességét tovább javította a 24.0 verzió, a HMMER3 bevezetésével, amely ~100-szor gyorsabb, mint a HMMER2 és érzékenyebb.

Mivel a Pfam-A bejegyzései nem fedik le az összes ismert fehérjét, egy automatikusan generált kiegészítéssel, a Pfam-B-vel látták el. A Pfam-B nagyszámú kis családot tartalmazott, amelyek az ADDA nevű algoritmus által létrehozott klaszterekből származtak. Bár a Pfam-B családok gyengébb minőségűek, hasznosak lehetnek, ha nem találtak Pfam-A családokat. A Pfam-B-t a 28.0-ás kiadással megszüntették, majd a 33.1-es kiadásban egy új klaszterező algoritmus, az MMSeqs2 használatával újra bevezették.

A Pfam-et eredetileg a világ három tüköroldalán tárolták a redundancia megőrzése érdekében. Azonban 2012 és 2014 között a Pfam erőforrás átkerült az EMBL-EBI-hoz, ami lehetővé tette a weboldal egy domainről (xfam.org) történő üzemeltetését, két független adatközpont használatával. Ez lehetővé tette a frissítések jobb központosítását és a más Xfam-projektekkel, például az Rfam, TreeFam, iPfam és más projektekkel való csoportosítást, miközben megőrizte a több központból történő hosting által biztosított kritikus rugalmasságot.

A Pfam az elmúlt két évben jelentős átszervezésen ment keresztül, hogy tovább csökkentse a kurátori munkával járó kézi munkát, és lehetővé tegye a gyakoribb frissítéseket.

Közösségi kurátori munkaSzerkesztés

Egy ilyen nagy adatbázis kurátori munkája problémákat vetett fel az új családok és frissítendő információk mennyiségével való lépéstartás szempontjából. Az adatbázis kiadásainak felgyorsítása érdekében a fejlesztők számos olyan kezdeményezést indítottak, amelyek lehetővé teszik a közösség nagyobb mértékű bevonását az adatbázis kezelésébe.

A bejegyzés frissítésének és javításának ütemének javításában döntő fontosságú lépés volt a Pfam-domének funkcionális annotációjának megnyitása a Wikipedia közösség számára a 26.0-s kiadásban. Azon bejegyzések esetében, amelyeknek már volt Wikipédia-bejegyzése, ezt belinkelték a Pfam-oldalba, azok esetében pedig, amelyeknek nem volt, a közösséget felkérték, hogy hozzon létre egyet, és tájékoztassa a kurátorokat, hogy azt belinkeljék. A várakozások szerint, bár a közösség bevonása nagymértékben javítani fogja e családok annotációjának szintjét, néhányuk nem lesz eléggé figyelemre méltó ahhoz, hogy bekerüljön a Wikipédiába, és ebben az esetben megmarad az eredeti Pfam leírásuk. Egyes Wikipédia-szócikkek több családot is lefednek, mint például a Cink-ujj szócikk. Az InterPro és Pfam adatokon alapuló cikkek létrehozására egy automatizált eljárást is megvalósítottak, amely egy oldalt tölt fel információkkal és adatbázisokra mutató linkekkel, valamint a rendelkezésre álló képekkel, majd miután egy kurátor átnézte a cikket, az a Sandboxból átkerül a Wikipédiába. A cikkek vandalizmusának megakadályozása érdekében a Wikipédia minden egyes módosítását kurátorok ellenőrzik, mielőtt az megjelenik a Pfam weboldalán. A vandalizmus szinte minden esetét azonban a közösség kijavította, mielőtt azok a kurátorokhoz kerültek volna.

A Pfam-et egy három csoportból álló nemzetközi konzorcium működteti. A Pfam korábbi kiadásaiban a családok bejegyzéseit csak az Egyesült Királyságbeli Cambridge-ben lehetett módosítani, ami korlátozta a konzorciumi tagok lehetőségét arra, hogy hozzájáruljanak a honlap kurátori munkájához. A 26.0-s kiadásban a fejlesztők egy új rendszerre tértek át, amely lehetővé tette, hogy a regisztrált felhasználók a világ bármely pontján hozzáadhassák vagy módosítsák a Pfam családokat.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.