Pfam
Pfam został założony w 1995 roku przez Erika Sonhammera, Seana Eddy’ego i Richarda Durbina jako zbiór powszechnie występujących domen białkowych, które mogłyby zostać wykorzystane do anotacji genów kodujących białka zwierząt wielokomórkowych. Jednym z głównych celów projektu była pomoc w anotacji genomu C. elegans. Projekt ten był częściowo napędzany twierdzeniem Cyrusa Chothia, zawartym w „One thousand families for the molecular biologist”, że istnieje około 1500 różnych rodzin białek i że większość białek należy do zaledwie 1000 z nich. W przeciwieństwie do tego twierdzenia, baza danych Pfam zawiera obecnie 16 306 wpisów odpowiadających unikalnym domenom i rodzinom białek. Jednakże wiele z tych rodzin zawiera strukturalne i funkcjonalne podobieństwa wskazujące na wspólne ewolucyjne pochodzenie (patrz Klany).
Główną różnicą pomiędzy Pfam a innymi bazami danych w czasie jego powstania było użycie dwóch typów wyrównania dla wpisów: mniejszego, ręcznie sprawdzonego wyrównania zalążkowego, jak również pełnego wyrównania zbudowanego poprzez wyrównanie sekwencji do profilu ukrytego modelu Markowa zbudowanego z wyrównania zalążkowego. Mniejsze dopasowanie zalążkowe było łatwiejsze do aktualizacji w miarę pojawiania się nowych wydań baz danych sekwencji, a tym samym stanowiło obiecujące rozwiązanie dylematu, jak utrzymać aktualność bazy danych, gdy sekwencjonowanie genomów stawało się coraz bardziej wydajne i z czasem trzeba było przetwarzać coraz więcej danych. Dalsza poprawa szybkości aktualizacji bazy danych nastąpiła w wersji 24.0, wraz z wprowadzeniem HMMER3, który jest ~100 razy szybszy niż HMMER2 i bardziej czuły.
Ponieważ wpisy w Pfam-A nie obejmują wszystkich znanych białek, dostarczono automatycznie wygenerowany suplement o nazwie Pfam-B. Pfam-B zawierał dużą liczbę małych rodzin pochodzących z klastrów utworzonych przez algorytm o nazwie ADDA. Mimo niższej jakości, rodziny Pfam-B mogły być użyteczne, gdy nie udało się znaleźć rodzin Pfam-A. Pfam-B został przerwany od wersji 28.0, a następnie ponownie wprowadzony w wersji 33.1 przy użyciu nowego algorytmu grupowania, MMSeqs2.
Pfam był pierwotnie hostowany na trzech serwerach lustrzanych na całym świecie, aby zachować redundancję. Jednak w latach 2012-2014 zasób Pfam został przeniesiony do EMBL-EBI, co pozwoliło na hostowanie strony z jednej domeny (xfam.org), z wykorzystaniem zdublowanych, niezależnych centrów danych. Pozwoliło to na lepszą centralizację aktualizacji, oraz grupowanie z innymi projektami Xfam, takimi jak Rfam, TreeFam, iPfam i inne, przy jednoczesnym zachowaniu krytycznej odporności zapewnianej przez hosting z wielu centrów.
Pfam przeszedł znaczącą reorganizację w ciągu ostatnich dwóch lat, aby jeszcze bardziej zredukować ręczny wysiłek związany z kuratelą i umożliwić częstsze aktualizacje.
Community curationEdit
Kuratela tak dużej bazy danych stwarzała problemy w zakresie nadążania za ilością nowych rodzin i zaktualizowanych informacji, które musiały być dodane. Aby przyspieszyć wydanie bazy danych, programiści podjęli szereg inicjatyw mających na celu umożliwienie większego zaangażowania społeczności w zarządzanie bazą danych.
Krytycznym krokiem w poprawie tempa aktualizacji i ulepszania wpisów było otwarcie funkcjonalnej adnotacji domen Pfam dla społeczności Wikipedii w wydaniu 26.0. W przypadku haseł, które posiadały już swój wpis w Wikipedii, został on połączony ze stroną Pfam, natomiast w przypadku haseł, które nie posiadały takiego wpisu, społeczność została poproszona o jego utworzenie i poinformowanie o tym kuratorów, tak aby mógł on zostać połączony. Przewiduje się, że chociaż zaangażowanie społeczności znacznie poprawi poziom adnotacji tych rodzin, niektóre z nich pozostaną niewystarczająco godne uwagi, aby umieścić je w Wikipedii, w którym to przypadku zachowają swój oryginalny opis Pfam. Niektóre artykuły Wikipedii obejmują wiele rodzin, jak na przykład artykuł o palcach cynkowych. Wprowadzono również automatyczną procedurę generowania artykułów na podstawie danych InterPro i Pfam, która wypełnia stronę informacjami i linkami do baz danych oraz dostępnymi obrazami, a następnie, po przejrzeniu artykułu przez kuratora, przenosi go z Sandbox do właściwej Wikipedii. W celu ochrony przed wandalizmem artykułów, każda rewizja Wikipedii jest sprawdzana przez kuratorów, zanim zostanie umieszczona na stronie Pfam. Prawie wszystkie przypadki wandalizmu zostały jednak poprawione przez społeczność, zanim trafiły do kuratorów.
Pfam jest prowadzony przez międzynarodowe konsorcjum trzech grup. We wcześniejszych wydaniach Pfam, wpisy rodzinne mogły być modyfikowane tylko w Cambridge, w Wielkiej Brytanii, co ograniczało możliwości członków konsorcjum w zakresie przyczyniania się do kurateli nad stroną. W wydaniu 26.0 deweloperzy przeszli na nowy system, który pozwolił zarejestrowanym użytkownikom na całym świecie dodawać i modyfikować rodziny Pfam.