Pfam
Pfamin perustivat Erik Sonhammer, Sean Eddy ja Richard Durbin vuonna 1995 kokoelmaksi yleisesti esiintyviä proteiinidomeeneja, joita voitaisiin käyttää monisoluisten eläinten proteiineja koodaavien geenien merkitsemiseen. Yksi sen tärkeimmistä tavoitteista perustamisvaiheessa oli auttaa C. elegansin genomin annotoinnissa. Hankkeen taustalla oli osittain Cyrus Chothian teoksessa ”One thousand families for the molecular biologist” esittämä väite, jonka mukaan proteiineja oli noin 1500 erilaista perhettä ja että suurin osa proteiineista kuului vain 1000:een näistä. Vastoin tätä väitettä Pfam-tietokannassa on tällä hetkellä 16 306 merkintää, jotka vastaavat ainutlaatuisia proteiinidomeeneja ja -perheitä. Monissa näistä perheistä on kuitenkin rakenteellisia ja toiminnallisia yhtäläisyyksiä, jotka viittaavat yhteiseen evolutiiviseen alkuperään (ks. klaanit).
Merkittävä ero Pfamin ja muiden tietokantojen välillä sen perustamisajankohtana oli se, että merkintöjä varten käytettiin kahta kohdistustyyppiä: pienempää, manuaalisesti tarkistettua siemenkohdistusta sekä täydellistä kohdistusta, joka muodostettiin kohdistamalla sekvenssit profiilin perusteella muodostettuun piilotettuun Markov-malliin, joka muodostettiin siemenkohdistuksesta. Tätä pienempää siemenkohdistusta oli helpompi päivittää, kun uusia sekvenssitietokantojen versioita julkaistiin, ja se oli siten lupaava ratkaisu ongelmaan, joka koski tietokannan pitämistä ajan tasalla, kun genomisekvensointi tehostui ja datan käsittely lisääntyi ajan myötä. Tietokannan päivitysnopeus parani entisestään versiossa 24.0, kun käyttöön otettiin HMMER3, joka on ~100 kertaa nopeampi kuin HMMER2 ja herkempi.
Koska Pfam-A:n merkinnät eivät kata kaikkia tunnettuja proteiineja, tarjottiin automaattisesti luotu täydennys nimeltä Pfam-B. Pfam-B sisälsi suuren määrän pieniä perheitä, jotka oli johdettu ADDA-nimisen algoritmin tuottamista klustereista. Vaikka Pfam-B-perheet ovat laadultaan heikompia, niistä voi olla hyötyä silloin, kun Pfam-A-perheitä ei löydy. Pfam-B lopetettiin julkaisusta 28.0 alkaen, ja se otettiin uudelleen käyttöön julkaisussa 33.1 käyttäen uutta klusterointialgoritmia, MMSeqs2:ta.
Pfam oli alun perin ylläpidetty kolmella peilisivustolla eri puolilla maailmaa redundanssin säilyttämiseksi. Vuosien 2012 ja 2014 välisenä aikana Pfam-resurssi kuitenkin siirrettiin EMBL-EBI:lle, mikä mahdollisti verkkosivuston isännöinnin yhdeltä verkkotunnukselta (xfam.org) käyttäen kahta riippumatonta datakeskusta. Tämä mahdollisti päivitysten paremman keskittämisen ja ryhmittelyn muiden Xfam-hankkeiden, kuten Rfam-, TreeFam-, iPfam- ja muiden hankkeiden kanssa, mutta säilytti samalla kriittisen häiriönsietokyvyn, jonka useat eri keskukset tarjoavat.
Pfamissa on tehty kahden viime vuoden aikana merkittävä uudelleenjärjestely, jolla on vähennetty entisestään manuaalista työtä ja mahdollistettu tiheämmät päivitykset.
Community curationEdit
Tällaisen suuren tietokannan ylläpito aiheutti ongelmia uusien sukujen ja päivitettävien tietojen määrässä pysymisen suhteen. Tietokannan julkaisujen nopeuttamiseksi kehittäjät käynnistivät useita aloitteita, jotta yhteisö voisi osallistua enemmän tietokannan hallintaan.
Kriittinen askel merkintöjen päivittämisen ja parantamisen nopeuttamiseksi oli Pfam-domeenien funktionaalisen annotaation avaaminen Wikipedia-yhteisölle julkaisussa 26.0. Niiden merkintöjen osalta, joilla oli jo Wikipedia-merkintä, se linkitettiin Pfam-sivulle, ja niiden merkintöjen osalta, joilla ei ollut merkintää, yhteisöä pyydettiin luomaan sellainen ja ilmoittamaan siitä kuraattoreille, jotta se voitaisiin linkittää. On odotettavissa, että vaikka yhteisön osallistuminen parantaakin huomattavasti näiden perheiden merkintöjen tasoa, jotkin perheet jäävät liian vähälle huomiolle, jotta ne voitaisiin sisällyttää Wikipediaan, jolloin niiden alkuperäinen Pfam-kuvaus säilyy. Jotkin Wikipedia-artikkelit kattavat useita perheitä, kuten sinkkisormi-artikkeli. InterPro- ja Pfam-tietoihin perustuvien artikkeleiden luomiseksi on myös toteutettu automaattinen menettely, joka täyttää sivun tiedoilla ja tietokantoihin johtavilla linkeillä sekä saatavilla olevilla kuvilla, ja kun kuraattori on tarkastanut artikkelin, se siirretään Sandboxista varsinaiseen Wikipediaan. Artikkelien ilkivallan estämiseksi kuraattorit tarkastavat jokaisen Wikipedian tarkistuksen ennen kuin se näytetään Pfam-sivustolla. Lähes kaikki vandalismitapaukset on kuitenkin korjattu yhteisön toimesta ennen kuin ne ehtivät kuraattoreille.
Pfamia hallinnoi kolmen ryhmän kansainvälinen yhteenliittymä. Pfamin aikaisemmissa versioissa sukumerkintöjä voitiin muokata vain Cambridgessa, Yhdistyneessä kuningaskunnassa sijaitsevalla sivustolla, mikä rajoitti konsortion jäsenten mahdollisuuksia osallistua sivuston kuratointiin. Julkaisussa 26.0 kehittäjät siirtyivät uuteen järjestelmään, jonka avulla rekisteröityneet käyttäjät missä päin maailmaa tahansa voivat lisätä tai muokata Pfam-perheitä.