Pfam

nov 3, 2021
admin

Pfam grundades 1995 av Erik Sonhammer, Sean Eddy och Richard Durbin som en samling vanligt förekommande proteindomäner som kunde användas för att annotera de proteinkodande generna hos flercelliga djur. Ett av de viktigaste målen vid starten var att hjälpa till med annoteringen av C. elegans-genomet. Projektet drevs delvis av Cyrus Chothias påstående i ”One thousand families for the molecular biologist” att det fanns cirka 1 500 olika proteinfamiljer och att majoriteten av proteinerna hörde till endast 1 000 av dessa. I motsats till detta påstående innehåller Pfam-databasen för närvarande 16 306 poster som motsvarar unika proteindomäner och familjer. Många av dessa familjer innehåller dock strukturella och funktionella likheter som tyder på ett gemensamt evolutionärt ursprung (se klaner).

En stor skillnad mellan Pfam och andra databaser när den startades var att man använde två typer av anpassningar för posterna: en mindre, manuellt kontrollerad fröanpassning samt en fullständig anpassning som byggs upp genom att sekvenser anpassas till en profilerad dold Markovmodell som byggs upp från fröanpassningen. Denna mindre seed alignment var lättare att uppdatera när nya versioner av sekvensdatabaser kom ut, och utgjorde därför en lovande lösning på dilemmat att hålla databasen uppdaterad i takt med att sekvenseringen av arvsmassan blev effektivare och fler data behövde bearbetas med tiden. En ytterligare förbättring av hastigheten med vilken databasen kunde uppdateras kom i version 24.0, med införandet av HMMER3, som är ~100 gånger snabbare än HMMER2 och mer känslig.

Eftersom posterna i Pfam-A inte täcker alla kända proteiner, tillhandahölls ett automatiskt genererat tillägg som kallas Pfam-B. Pfam-B innehöll ett stort antal små familjer som härrörde från kluster som producerats av en algoritm som kallas ADDA. Även om de är av lägre kvalitet kan Pfam-B-familjerna vara användbara när inga Pfam-A-familjer har hittats. Pfam-B upphörde från och med version 28.0 och återinfördes sedan i version 33.1 med hjälp av en ny klusteralgoritm, MMSeqs2.

Pfam fanns ursprungligen på tre spegelplatser runt om i världen för att bevara redundansen. Mellan 2012 och 2014 flyttades dock Pfam-resursen till EMBL-EBI, vilket möjliggjorde värdskap för webbplatsen från en domän (xfam.org), med hjälp av dubbla oberoende datacenter. Detta möjliggjorde en bättre centralisering av uppdateringar och gruppering med andra Xfam-projekt som Rfam, TreeFam, iPfam och andra, samtidigt som den kritiska motståndskraft som tillhandahålls av hosting från flera centra bibehålls.

Pfam har genomgått en omfattande omorganisation under de senaste två åren för att ytterligare minska det manuella arbetet med kurering och möjliggöra mer frekventa uppdateringar.

Community curationEdit

Kurering av en så stor databas medförde problem när det gällde att hålla jämna steg med volymen av nya familjer och uppdaterad information som behövde läggas till. För att påskynda utgåvorna av databasen startade utvecklarna ett antal initiativ för att möjliggöra ett större engagemang från gemenskapen i hanteringen av databasen.

Ett avgörande steg för att öka takten i uppdateringen och förbättringen av posterna var att öppna upp den funktionella annoteringen av Pfam-domäner för Wikipediagemenskapen i utgåva 26.0. För poster som redan hade en Wikipedia-post länkades denna till Pfam-sidan, och för poster som inte hade det uppmanades gemenskapen att skapa en sådan och informera kuratorerna för att den skulle kunna länkas in. Även om gemenskapens engagemang kommer att förbättra annoteringsnivån för dessa familjer, förväntas vissa av dem inte vara tillräckligt anmärkningsvärda för att ingå i Wikipedia, och då kommer de att behålla sin ursprungliga Pfam-beskrivning. Vissa Wikipedia-artiklar omfattar flera familjer, t.ex. artikeln Zinkfinger. Ett automatiserat förfarande för att generera artiklar baserade på InterPro- och Pfam-data har också införts, som fyller en sida med information och länkar till databaser samt tillgängliga bilder. När en artikel har granskats av en kurator flyttas den från sandlådan till den egentliga Wikipedia. För att skydda sig mot vandalisering av artiklar granskas varje Wikipedia-revidering av kuratorer innan den visas på Pfam-webbplatsen. Nästan alla fall av vandalism har dock korrigerats av gemenskapen innan de når kuratorerna.

Pfam drivs av ett internationellt konsortium bestående av tre grupper. I de tidigare versionerna av Pfam kunde familjeposter endast ändras på webbplatsen i Cambridge, Storbritannien, vilket begränsade konsortiemedlemmarnas möjligheter att bidra till kurering av webbplatsen. I version 26.0 övergick utvecklarna till ett nytt system som gör det möjligt för registrerade användare var som helst i världen att lägga till eller ändra Pfam-familjer.

Lämna ett svar

Din e-postadress kommer inte publiceras.