Pfam
Pfam založili v roce 1995 Erik Sonhammer, Sean Eddy a Richard Durbin jako soubor běžně se vyskytujících proteinových domén, které by mohly být použity k anotaci genů kódujících proteiny mnohobuněčných živočichů. Jedním z jejích hlavních cílů při založení bylo pomoci při anotaci genomu C. elegans. Projekt byl částečně veden tvrzením Cyruse Chothii v knize „Tisíc rodin pro molekulární biology“, že existuje přibližně 1500 různých rodin proteinů a že většina proteinů spadá do pouhých 1000 z nich. V rozporu s tímto tvrzením obsahuje databáze Pfam v současné době 16 306 záznamů odpovídajících jedinečným proteinovým doménám a rodinám. Mnohé z těchto rodin však obsahují strukturní a funkční podobnosti naznačující společný evoluční původ (viz Klany).
Hlavním bodem rozdílu mezi databází Pfam a ostatními databázemi v době jejího vzniku bylo používání dvou typů zarovnání záznamů: menšího, ručně kontrolovaného zárodečného zarovnání a také úplného zarovnání vytvořeného zarovnáním sekvencí do profilu skrytého Markovova modelu sestaveného ze zárodečného zarovnání. Toto menší zárodečné zarovnání bylo snazší aktualizovat s tím, jak vycházely nové verze sekvenčních databází, a představovalo tak slibné řešení dilematu, jak udržovat databázi aktuální s tím, jak se sekvenování genomů stávalo efektivnějším a postupem času bylo třeba zpracovávat více dat. Další zlepšení rychlosti, s jakou bylo možné databázi aktualizovat, přišlo ve verzi 24.0 se zavedením HMMER3, který je ~100krát rychlejší než HMMER2 a citlivější.
Protože záznamy v Pfam-A nepokrývají všechny známé proteiny, byl k dispozici automaticky generovaný doplněk nazvaný Pfam-B. Pfam-B obsahoval velké množství malých rodin odvozených ze shluků vytvořených algoritmem nazvaným ADDA. Ačkoli jsou rodiny Pfam-B méně kvalitní, mohou být užitečné, pokud nebyly nalezeny žádné rodiny Pfam-A. Pfam-B byl ukončen od verze 28.0, poté byl znovu zaveden ve verzi 33.1 s použitím nového shlukovacího algoritmu MMSeqs2.
Původně byl Pfam umístěn na třech zrcadlových místech po celém světě, aby byla zachována redundance. V letech 2012 až 2014 však byl zdroj Pfam přesunut do EMBL-EBI, což umožnilo hostování webových stránek z jedné domény (xfam.org) s využitím duplicitních nezávislých datových center. To umožnilo lepší centralizaci aktualizací a seskupení s dalšími projekty Xfam, jako jsou Rfam, TreeFam, iPfam a další, při zachování kritické odolnosti, kterou poskytuje hostování z více center.
Pfam prošel v posledních dvou letech podstatnou reorganizací, aby se dále snížila manuální práce spojená s kurátorstvím a umožnily se častější aktualizace.
Kurátorství komunityUpravit
Kurátorství tak rozsáhlé databáze představovalo problémy, pokud jde o udržení kroku s objemem nových rodin a aktualizovaných informací, které bylo třeba přidat. Aby vývojáři urychlili vydávání databáze, zahájili řadu iniciativ, které měly umožnit větší zapojení komunity do správy databáze.
Kritickým krokem ke zlepšení tempa aktualizace a vylepšování záznamů bylo zpřístupnění funkční anotace domén Pfam komunitě Wikipedie ve verzi 26.0. Tato iniciativa se týkala především aktualizace a vylepšování záznamů. U hesel, která již měla záznam ve Wikipedii, byl tento záznam propojen se stránkou Pfam, a u těch, která jej neměla, byla komunita vyzvána, aby jej vytvořila a informovala kurátory, aby mohl být propojen. Předpokládá se, že ačkoli zapojení komunity výrazně zlepší úroveň anotace těchto rodin, některé zůstanou nedostatečně pozoruhodné pro zařazení do Wikipedie a v takovém případě si ponechají svůj původní popis Pfam. Některé články na Wikipedii pokrývají více rodin, například článek Zinkové prsty. Byl také zaveden automatizovaný postup pro generování článků na základě údajů InterPro a Pfam, který naplní stránku informacemi a odkazy na databáze a také dostupnými obrázky, a jakmile je článek zkontrolován kurátorem, je přesunut ze Sandboxu do vlastní Wikipedie. Aby se zabránilo vandalismu článků, je každá revize Wikipedie před zobrazením na webových stránkách Pfam zkontrolována kurátory. Téměř všechny případy vandalismu však byly komunitou opraveny dříve, než se dostaly ke kurátorům.
Pfam spravuje mezinárodní konsorcium tří skupin. V dřívějších verzích Pfam bylo možné upravovat rodinné záznamy pouze na stránkách v Cambridge ve Velké Británii, což omezovalo možnost členů konsorcia přispívat ke kurátorství stránek. Ve verzi 26.0 přešli vývojáři na nový systém, který umožnil registrovaným uživatelům kdekoli na světě přidávat nebo upravovat rodiny Pfam.
.