Pfam

11月 3, 2021
admin

Pfam は 1995 年に Erik Sonhammer、Sean Eddy および Richard Durbin によって、多細胞動物のタンパク質コーディング遺伝子の注釈に使用できる、一般的に発生するタンパク質ドメインのコレクションとして設立されました。 設立当初の主な目的の1つは、線虫のゲノムのアノテーションを支援することであった。 このプロジェクトは、Cyrus Chothia著「One thousand families for the molecular biologist」の中で、タンパク質には約1500の異なるファミリーがあり、大部分のタンパク質はそのうちのわずか1000に分類されると主張したことが一因である。 この主張に対して、Pfamデータベースには、現在、ユニークなタンパク質ドメインとファミリーに対応する16,306のエントリーがある。 しかし、これらのファミリーの多くは、進化上の起源を共有することを示す構造的および機能的な類似性を含んでいます(「クラン(Clans)」参照)。 この小さなシードアライメントは、配列データベースの新しいリリースが出たときに更新するのが容易であるため、ゲノム配列決定が効率化され、より多くのデータを処理する必要が生じたときにデータベースを最新の状態に保つ方法というジレンマに対する有望な解決策であった。 Pfam-Aは既知のタンパク質を全て網羅しているわけではないので、Pfam-Bという自動生成されたsupplementが提供されている。 Pfam-Bには、ADDAと呼ばれるアルゴリズムによって生成されたクラスタから得られた多数のスモールファミリーが含まれています。 Pfam-Bは、Pfam-Aのファミリーが見つからなかった場合に有用である。 Pfam-B はリリース 28.0 で廃止され、リリース 33.1 で新しいクラスタリングアルゴリズム MMSeqs2 を使用して再導入されました。

Pfam はもともと、冗長性を保つために世界中の 3 つのミラーサイトにホストされていました。 しかし、2012 年から 2014 年にかけて、Pfam リソースは EMBL-EBI に移され、1 つのドメイン (xfam.org) から、2 つの独立したデータセンターを使ってウェブサイトをホストすることが可能になりました。 これにより、更新の一元化や、Rfam、TreeFam、iPfamなどの他のXfamプロジェクトとのグループ化が可能になった一方、複数のセンターからホスティングすることで重要な弾力性を保持することができるようになりました。

Pfam は、キュレーションに関わる手作業をさらに減らし、より頻繁な更新を可能にするために、過去2年間にかなりの再編成が行われました。 データベースのリリースを加速するために、開発者はデータベースの管理にコミュニティがより深く関与できるように、いくつかのイニシアチブを開始しました。

エントリの更新と改善のペースを改善する重要なステップは、リリース 26.0 で Wikipedia コミュニティに Pfam ドメインの機能注釈を公開することでした。 すでにウィキペディアの項目があるものについては、Pfam ページにリンクされ、そうでないものについては、コミュニティがそれを作成し、リンクされるようにキュレーターに知らせるよう呼びかけられました。 コミュニティーの参加により、これらの科の注釈レベルが大幅に向上することが期待されますが、Wikipediaに掲載するには不十分なものもあり、その場合は、元のPfamの記述を残すことになります。 ウィキペディアの記事の中には、Zinc fingerの記事のように、複数のファミリーをカバーしているものもあります。 また、InterProとPfamのデータに基づいて記事を作成する自動化された手順も実装されており、情報、データベースへのリンク、利用可能な画像をページに入力し、キュレーターによるレビューが行われると、サンドボックスからウィキペディア本体に移動されます。 記事の破壊を防ぐために、ウィキペディアの各改訂は、Pfamのウェブサイトに表示される前に、キュレーターによって審査されます。 しかし、荒らしのほとんどすべてのケースは、キュレーターに届く前にコミュニティによって修正されています。

Pfam は3つのグループからなる国際コンソーシアムによって運営されています。 Pfam の初期のリリースでは、ファミリー エントリは英国のケンブリッジのサイトでのみ修正可能で、コンソーシアム メンバーのサイト キュレーションへの貢献が制限されていました。 リリース26.0では、世界中の登録ユーザーがPfamファミリーを追加・修正できる新システムに移行した

コメントを残す

メールアドレスが公開されることはありません。