Entrezから配列データを検索する（理論）：バイオインフォマティクスバーチャルラボI

目的

11月 26, 2021

admin

生物データ検索システムとしてのEntrezを紹介する

Entrez検索エンジンで核酸／タンパク質配列データを検索する方法を習得することである。

Entrezは、National Center for Biotechnology Information (NCBI) から様々なデータを検索して取得することができる統合検索エンジンである。 www.ncbi.nlm.nih.gov/Entrez/ というサイトからアクセスすることができる。 Entrez は、NCBI の主要なテキスト検索システムで、PubMed データベースとその他 39 の科学文献、ヌクレオチドおよびタンパク質データベース、タンパク質ドメインデータ、集団研究データセット、発現データ、相互作用分子のパスウェイおよびシステム、全ゲノム詳細、分類情報を統合して、相互に緊密にリンクしたシステムになっています。 3512>

NCBIの主な機能：

分子生物学、生化学、遺伝学に関する知識を保存、検索、分析するための公開データベースを作成すること。
ゲノムデータ解析のためのソフトウェアツールの開発
バイオメディカル情報の発信
世界中のバイオテクノロジー情報の収集

Entrez それによってNCBIデータベースの検索エンジンとして働く。検索文に AND, OR, NOT などブール演算子を使って、より精密に検索することができる。検索文にAND、OR、NOTなどのブール演算子を使用することで、より精度の高い検索が可能です。 3512>

異なるクエリは、以下の基準で検索することができます。クエリを検索するための構文は以下の通りです。

検索語論理演算子検索語 .

Table1: Entrez Boolean Search Statements

デフォルトのオプション「All Databases」を選択すると、異なるデータベースからの結果が表示され、各データベースのレコード数も表示されます。データベースは大きく3つに分かれており、上段には文献データベース、中段には分子データベース、下段には付属文献データベースジャーナル、NLMカタログ、MeSHが含まれています。

Entrezに含まれる関連データベースは以下の通りです。ライフサイエンス分野の書籍・雑誌を無料で検索・閲覧できるサービスです。 http://www.ncbi.nlm.nih.gov/books

CDD: Conserved Domain Databaseは、タンパク質の機能単位をアノテーションしたコレクションです。 3次元構造情報を用いて配列・構造・機能の関係を定義し、手動でアノテーションされたドメインモデルが収録されている。 www.ncbi.nlm.nih.gov/sites/entrez

Gene: Geneデータベースは、様々な生物種に関する情報（命名法、関連パスウェイ、RefSeq、表現型、ゲノムへのリンクなど）で構成されています。 http://www.ncbi.nlm.nih.gov/gene/

CoreNucleotide: GenBank, RefSeq, TPA, PDBなどのデータベースから、研究に有用な塩基配列を収集したサイト。 http://www.ncbi.nlm.nih.gov/sites/entrez?db=nuccore

ESTのサイトからアクセスできる。 Expression Sequence Tag データベースは、GenBank のデータを集めたものです。 cDNAに由来する配列タグ部位で、遺伝子の発現評価、変異の可能性の検索、アノテーションのリソースとして機能します。 http://www.ncbi.nlm.nih.gov/nucest

Genomeのサイトよりアクセスできる。ゲノムデータベースは、ゲノムの配列、地図、染色体、アノテーションなどの情報を収集したデータベースです。 http://www.ncbi.nlm.nih.gov/genome

dbGaP: Genotypes and Phenotypesデータベースは、遺伝子型と表現型の相互作用を研究した結果のライブラリです。 http://www.ncbi.nlm.nih.gov/gap

GEO Datasetsのサイトからアクセスできる。 Gene Expression Omnibus (GEO) は、遺伝子発現データセット、そのオリジナルシリーズ、プラットフォームレコードに関する情報を提供している。また、実験的な詳細、クラスタツール、発現差クエリなどの追加情報も提供する。 www.ncbi.nlm.nih.gov/gds

GEO Profilesのサイトからアクセスできる。遺伝子アノテーションやあらかじめ計算されたプロファイルの特徴を重要視したプロファイルを閲覧できる。 http://www.ncbi.nlm.nih.gov/geoprofiles

GSS: GenBank of Genome Survey Sequenceの塩基配列情報を提供するデータベースです。 www.ncbi.nlm.nih.gov/nucgss

HomoloGene: 完全に配列が決定された真核生物の注釈付き遺伝子からホモログを収集したものです。 www.ncbi.nlm.nih.gov/homologene

MeSH: MeSH (Medical Subject Headings) は、NLM (Nations Library of Medicine) の統制語彙で、論文の閲覧に使用され、生物医学分野のシソーラスとして Pubmed や MEDLINE で使用されています。 www.ncbi.nlm.nih.gov/mesh

NCBI Web Siteからアクセスできる。 NCBIのWebサイトを閲覧することができる。サイト http://www.ncbi.nlm.nih.gov/

NLM Catalog からアクセスできる。 NLM (United States National Library of Medicine) は、書籍、雑誌、技術情報、オーディオビジュアル、ソフトウェア、その他のリソースへのアクセスを提供する最大の医学図書館です。 http://www.ncbi.nlm.nih.gov/nlmcatalog

OMIM：ヒトの遺伝子と遺伝病の総合リソースデータベースである。ヒトの遺伝子と遺伝的表現型に関する情報が収録されており、毎日更新されている。 www.ncbi.nlm.nih.gov/omim

OMIA: Online Mendelian Inheritance in Animals 135以上の動物種の遺伝子、遺伝性疾患、形質についてのリソースとして機能しており、著者はFrank Nicholas教授です。ヒトとマウスを除く動物種について、種固有のデータが提供されている。 http://www.ncbi.nlm.nih.gov/omia

PopSet のサイトよりアクセスできる。集団の進化的な関連性を研究するために収集されたDNA配列の集合である。 http://www.ncbi.nlm.nih.gov/popset

Probeのサイトよりアクセス可能です。核酸試薬のコレクションである。試薬の販売店、プローブの有効性、計算された配列の類似性などの情報も掲載されています。 http://www.ncbi.nlm.nih.gov/probe

Protein Sequence Databaseのサイトよりアクセスできる。 GenBank, RefSeq, TAP, SwissProt, PIR, PRF, PDBから配列を収集したデータベース。 www.ncbi.nlm.nih.gov/protein

Pubchem BioAssayのサイトからアクセスできる。 PubChemの化学物質の生理活性スクリーニング情報が掲載されている。 www.ncbi.nlm.nih.gov/pcassay

PubChem Compound のサイトからアクセスできる。 PubChem物質から、化合物とその固有の構造、生物学的情報を含む。 www.ncbi.nlm.nih.gov/pccompound

PubChem Substanceのサイトからアクセスできる。システムへ預けた物質の記録、サンプルの説明、PubChem BioAssayで利用可能な生物学的スクリーニング結果へのリンクが集められている。 www.ncbi.nlm.nih.gov/pcsubstance

PubMed: 国立医学図書館（NLM）の生物工学情報センター（NCBI）によって開発・維持されている健康情報のための自由にアクセスできるデータベース検索システムである。 MEDLINEをはじめとする生物医学分野の論文を収録している。 www.ncbi.nlm.nih.gov/pubmed

Pubmed Centralというサイトからアクセスできる。 PubMed Central は、PubMed データベースにリンクされた、生物医学ライフサイエンス誌のフルテキスト論文を集めたデジタルリソースです。 www.ncbi.nlm.nih.gov/pmc/

SNP: SNPデータベースは、一塩基多型、短鎖挿入多型、欠失多型の情報を含んでいます。 www.ncbi.nlm.nih.gov/snp

Structureのサイトからアクセスできる。タンパク質やポリヌクレオチドの3次元構造情報を収録したデータベース。 www.ncbi.nlm.nih.gov/structure

Taxonomyのサイトからアクセスできる。遺伝子データベースに含まれる全生物について、塩基配列やタンパク質配列の情報を含む分類。 www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/

UniGene：同一遺伝子座からの転写産物の同定、組織、年齢、健康状態による発現解析、関連タンパク質（プロテスト）、クローンリソースを報告するサイトです。 www.ncbi.nlm.nih.gov/unigene

UniSTSのサイトからアクセスできる。 PCRプライマー対から得られたSequenced Tagged Sites (STS)のゲノム上の位置、遺伝子、STSに基づく地図やその他の実験による配列情報が掲載されている。 www.ncbi.nlm.nih.gov/unists

BioSampleのサイトよりアクセス可能です。実験アッセイで使用される様々な生物学的材料の情報を集めたものです。 www.ncbi.nlm.nih.gov/biosample

クエリ検索の結果はGenBank、FASTAなどの異なるデータ形式で表現されます。

GenBank : GenBankはNIH遺伝配列データベースであり、注釈付きDNA配列のコレクションであり、このデータベースはNIHが運営しています。含まれるパラメータ成分の違いを以下に説明します。

Locus nameは、類似した配列のエントリーをグループ化するのに役立ちます。 1047>

Sequence Length 配列中の塩基対（またはアミノ酸残基）の数が格納される。

Molecule Type は配列決定された分子の種類を示す。

Genbank Division はレコードが属する GenBank 部門を示し、3文字の略号で表示される。 PRI – 霊長類配列
2. ROD – げっ歯類配列
3. MAM – その他の哺乳類配列
4. VRT – その他の脊椎動物の配列
5. INV – 無脊椎動物配列
6. PLN – 植物、菌類、藻類配列
7. BCT – 細菌配列
8. VRL – ウィルス配列
9. PHG-バクテリオファージ配列
10. SYN – 合成配列
11. UNA-未注釈配列
12. EST – EST配列（expressed sequence tags）
13. PAT – 特許配列
14. STS – STS配列（sequence tagged sites）
15. GSS – GSS配列（ゲノムサーベイ配列）
16. HTG – HTG配列（high-throughput genomic seq）
17. HTC – 未完成のハイスループットcDNA配列
18. ENV – 環境サンプリング配列
- Modification Dateは最終更新日を示す。
- Definitionは、ソース生物、遺伝子名／タンパク質名、配列の機能に関する何らかの記述を含む、配列の簡潔な説明を示す。
- RefSeq
NT_123456 construct genomic contigs
NM_123456 mRNA
NP_123456 proteins
NC_123456 chromosomes
- Versionには塩基配列識別番号で単一を表すものがある。 GenBankデータベース内の特定の配列。
- GI “GenInfo Identifier” は塩基配列の配列識別番号。
- Keywords は配列の単語やフレーズを記述。
- Source は生物名の短縮形などフリーフォーマットの情報、時には分子タイプに続けて表示される。
- Organismは、ソースとなる生物とその系統の正式な科学的名称を記述しています。
- Referenceには、レコード内で報告されたデータを議論する配列の著者による出版物を含みます。
- Authorsは引用論文に現れる順序で著者をリストします。
Entrez Search Field: Author
- Titleは出版物のタイトル、または未発表の言葉の仮タイトルを表す。
Entrez Search Field: Text Word
- Journal: MEDLINEのジャーナル名の略称。
Entrez Search Field: ジャーナル名
- Pubmed: PubMed Identifier (PMID)
- Features 配列で報告された遺伝子や遺伝子産物、生物学的に重要な領域に関する情報を示す。
- Source 各レコードに必ず含まれており、配列長、ソース生物の学名、タクソンIDナンバーを要約した機能である。また、地図上の位置、株、クローン、組織の種類など、他の情報も含めることができる。
- Taxonは、ソース生物の分類群に対する安定した固有の識別番号です。
- CDS（Coding sequence）は、タンパク質中のアミノ酸配列に対応するヌクレオチドの領域です。
Figure 1 : NCBIデータベースより取得したHomo sapiens Neurexin1

FASTA：塩基配列やタンパク質配列を基本タグや識別子と一文字コードで表したファイル形式です。 FASTA配列は(>)より大きい記号で始まり、これは定義行（”def line”）と呼ばれる新しい配列記録の始まりを意味する。アクセッション番号やバージョン番号の後に、そのエントリーの説明が続きます。次の行から大文字、小文字のDNA配列が始まります。 3512>

図2: Homo sapiens Neurexin1

データベースに格納されたこれらの配列は、異なる実験方法によって得られたものである。 DNAの塩基配列の決定には、Sanger法やMaxam-Gilbert法がよく使われている。サンガー法（ジデオキシ鎖切断法）：A、T、G、Cと書かれた4本の試験管を用意し、そこに変性した一本鎖のDNAを入れる。次に、鋳型の1本鎖にアニーリングするプライマーを加える。プライマーの3’末端には、ジデオキシヌクレオチド（各試験管に固有のもの）とデオキシヌクレオチドがランダムに付加される。ジデオキシヌクレオチドが鎖に結合すると、次のヌクレオチドとのリン酸ジエステル結合を形成する3’OHが不足し、鎖は終止する。こうして、小さなDNA鎖が形成される。電気泳動が行われ、ゲル中のバンドを分子量に基づいて分析することにより、配列順序を得ることができる。プライマーやヌクレオチドの1つを放射能や蛍光で標識しておくと、最終生成物をゲルから容易に検出でき、配列を推測することができる

Maxam-Gilbert (Chemical degradation method)。 5’末端を放射能で標識したDNA断片を変性させる方法である。この断片を精製した後、化学処理を行い、一連の標識断片を得る。電気泳動法は、分子量に基づき断片を並べるのに役立つ。この断片を見るために、ゲルをX線フィルムに露光し、オートラジオグラフィーを行う。一連の暗いバンドが現れ、それぞれが無線標識されたDNA断片に対応し、そこから配列が推測される

Edman Degradation reaction: タンパク質の結合を切断することなく、N末端から各アミノ酸を切断し、タンパク質中のアミノ酸の並び順を求める反応である。各開裂後、クロマトグラフィーや電気泳動を行ってアミノ酸を特定する

。

目的

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル