統合遺伝子検索GGRNA:遺伝子をGoogleのように検索できるウェブサーバ

内藤雄樹・坊農秀雅
（ライフサイエンス統合データベースセンター）
email：内藤雄樹，坊農秀雅
DOI: 10.7875/first.author.2012.163

GGRNA: an ultrafast, transcript-oriented search engine for genes and transcripts.
Yuki Naito, Hidemasa Bono
Nucleic Acids Research, 40, W592-W596 (2012)

目　次

要約
はじめに
1．GGRNA検索エンジンの概要
2．GGRNAの活用事例
3．データ出力機能とAPIの活用
おわりに
文献
生命科学の教科書における関連するセクションへのリンク
活用したデータベースにかかわるキーワードと統合TVへのリンク
著者プロフィール

要約

　GGRNA（http://GGRNA.dbcls.jp/）は，遺伝子や転写産物をGoogleのようにすばやく検索できるウェブサーバである．検索キーワードとして，遺伝子名やアクセッション番号など各種のIDをはじめ，遺伝子の機能やタンパク質のドメイン名，さらには，塩基配列やアミノ酸配列など，あらゆる語句を単一の検索窓に入力するだけでRefSeqに登録された転写産物をすばやく探し出すことができる．とくに，塩基配列の検索においてはあいまいな塩基を含むパターンやミスマッチを含む配列にも対応し，一般的な配列類似性検索サイトでは検索の困難な10塩基ほどの短い配列でも高速な検索が可能である．本稿では，GGRNAウェブサーバの概要を解説するとともに，GGRNAの具体的な活用事例を紹介する．GGRNAのすべての機能は無償で自由に利用できる．

はじめに

　公共データベースから遺伝子を検索するという作業は，多くの生命科学系あるいは医学系の研究者にとり日常的なものであろう．しかしながら，既存のデータベースを利用して目的の遺伝子の情報をすばやく探し出すことは必ずしも容易でない．ユーザが入力する検索キーワードとしては，遺伝子名，アクセッション番号などの各種のID，遺伝子の機能に関する語句，タンパク質のドメイン名，関連する疾患，さらには，塩基配列やアミノ酸配列など，実に多様な内容が想定される．従来であれば，遺伝子名や各種IDはGenBank ¹⁾ などの塩基配列データベースから検索し，タンパク質の機能，細胞内局在，ドメイン名，疾患などのキーワードはGene Ontologyや文献情報をたよりに探す，塩基配列やアミノ酸配列はBLAST ²⁾ やBLAT ³⁾ のような配列類似性検索ツールを用いるなど，検索キーワードの種類により複数のデータベースやウェブツールを使い分ける必要があった．しかし，これは煩雑なうえ，個々の検索に適したデータベースやウェブツールを把握していなければ効率的に情報を得ることはできない．また，GenBankなどの既存のデータベースは，ひとつの遺伝子に対し複数のエントリーが存在するなど冗長であることも多く，たとえば，単純に遺伝子名で検索した場合でさえも多数のエントリーがヒットし目的の情報になかなかたどりつけない場合も多い．さらに，現在，塩基配列やアミノ酸配列の検索において広範に利用されているBLASTのウェブサーバ⁴⁾ は，結果が表示されるまで十秒から数十秒もかかるなど，ユーザが不便を感じることも多かった．
　そこで，筆者らは，あらゆるキーワードを単一の検索窓に入力するだけで高速に遺伝子や転写産物を探せるようなウェブサービスを構築したいと考え，GGRNA（http://GGRNA.dbcls.jp/）を開発した（図1）．

1．GGRNA検索エンジンの概要

　GGRNAでは，多様な検索キーワードを用いて遺伝子や転写産物を探せるよう，複数の公共データベースに由来する情報をRefSeq ⁵⁾ の転写産物にひもづけて整理した“GGRNAデータベース”を構築している．RefSeqとは米国NCBI（National Center for Biotechnology Information）の提供する重複のない塩基配列およびアミノ酸配列のデータベースで，GenBank/EMBL/DDBJ国際塩基配列データベース⁶⁾（INSDC）に登録された配列のなかから代表となるものをNCBIのスタッフが選択し注釈をつけたデータセットである．RefSeqにはゲノム，mRNA，非コードRNA，タンパク質の情報が登録されているが，GGRNAではこのうちmRNAおよび非コードRNAの情報を用いている．重複のないRefSeqを基盤とすることにより検索の際に多数の転写産物が重複してヒットしてしまうことを防いでいる．さらに，これらの転写産物に対して，Gene OntologyのID/termや酵素EC番号に関する情報などをNCBI Entrez ⁷⁾ の情報を利用してひもづけることでGGRNAデータベースとしている．現時点で，GGRNAデータベースはヒト，マウス，ラット，ニワトリ，ツメガエル，ゼブラフィッシュ，ショウジョウバエ，線虫，ホヤ，シロイヌナズナ，イネ，出芽酵母，分裂酵母について構築されており，RefSeqのアップデートにあわせ2ヶ月に1回の頻度で再構築を行っている．
　このGGRNAデータベースを高速に検索するため，遺伝子名やIDなど一部のキーワードはMySQLにより検索，それ以外のキーワードはSedue（Preferred Infrastructure社）により全文検索を行っている．Sedueは圧縮接尾辞配列⁸⁾ のインデックスをメモリに保持することによりもれのない検索をきわめて高速に実行できるソフトウェアで，テキストの検索のみならず，塩基配列やアミノ酸配列の検索にも適している．たとえば，GGRNAにおいて10塩基からなる塩基配列“GACCTTGAAC”や4アミノ酸残基からなるアミノ酸配列“IETD”を検索すると，どちらも1秒以内に結果が返ってくる．検索時間はほとんどのキーワードにおいて数秒であるが，ヒット件数が極端に多い場合は圧縮接尾辞配列の解凍に時間を要するため10秒以上かかる場合もある．
　GGRNAのトップページ（図1a），および，検索結果（図1b）を示す．“PAZ domain”および“RNase”をともに含むヒトの転写産物を検索すると，検索結果は，この検索キーワードがハイライトされて表示される．
　GGRNAでは，Googleと同様の方法によりいくつかの検索オプションを指定することができる．たとえば，“VIM”をキーワードとして検索すると，ビメンチン（VIM）の遺伝子，アミノ酸配列としての“VIM”（Val-Ile-Met），文献の著者としての“Kivimaki”などがすべてヒットするが，“symbol:VIM”，“aa:VIM”，“ref:Kivimaki”のように検索タグをつけることによりキーワードの種類を特定して検索することができる．また，“seq3:CAAGGAGAGATGGGACAC”として3塩基までのミスマッチを許容して検索したり，“iub:YYAAGGNNNAGACAC”としてあいまい塩基（N，R，Y，Sなど）を展開して検索したりすることも可能である．GGRNAで使用可能なタグの一覧はヘルプページを参照してほしい．
　また，これらの検索タグを覚えていなくても同等の検索を簡単に行えるよう，別にAdvanced searchというページを用意している．このページのそれぞれの欄に検索キーワードを入れることで，検索タグと同様にキーワードの種類を限定して検索することができる．

2．GGRNAの活用事例

　以下に，GGRNAの活用事例を紹介する．なお，使い方を解説した動画をライフサイエンス統合データベースセンターが提供する統合TV ⁹⁾から公開しているので，そちらも参考にされたい．

・PCRのプライマー配列から増幅遺伝子や増幅領域を確認する　　CTAGCTGCCAAAGAAGGACAT comp:CAATGAGATGTTGTCGTGCTCのようにして，fowardプライマーの配列と，reverseプライマーの相補鎖の配列とを同時に検索すれば，PCRで増幅する遺伝子や増幅領域を確認できる．“comp:”は相補鎖検索のオプションである．この例をヒトにおいて検索すると，NFKB1遺伝子の2つの転写産物（NM_001165412，NM_003998）がヒットする（図1c）．塩基配列やアミノ酸配列がヒットした場合は先頭の位置が数字で表示されるので，PCR産物の長さも計算できる．

・マイクロアレイのプローブIDから塩基配列を検索する　　マイクロアレイのプローブIDをGGRNAで検索すると，自動的にプローブの配列へと変換したうえでその結合部位を検索してくれる．たとえば，Affymetrix社のマイクロアレイのプローブセットID“1552311_a_at”を検索すると，これに対応する25 merのプローブ配列×11本に変換され，それらの配列すべてにマッチする転写産物がヒットする（図1d）．Agilent社のマイクロアレイのプローブID“A_23_P101434”の場合は，60 merのプローブ配列×1本に変換されて検索が行われる．

・タンパク質のモチーフ検索　　タンパク質のC末端に存在するKDEL配列は小胞体係留シグナルとして機能することが知られている¹⁰⁾．そこで，GGRNAにおいて“aa:KDEL”と検索すると，RefSeq release 52（2012年3月）の時点で359件がヒットした．しかし，このなかにはC末端以外の部位にKDELという配列をもつものも多数含まれる．一方，Gene Ontologyにおいて小胞体を表す“GO:0005783”を検索すると，1985件がヒットした．この2つのAND検索aa:KDEL GO:0005783では28件がヒットし，このうち13件でC末端にKDEL配列が存在した．現時点では，C末端のKDELという配列を検索する方法は提供していないが，配列とそれ以外のキーワードとを組み合わせて思いついたことを気軽に検索できる点は，GGRNAの強みであると思われる．

3．データ出力機能とAPIの活用

　GGRNAの検索結果を外部のソフトで利用しやすいよう，タブ区切りテキストを出力する機能を用意している．検索結果の最下部にあるテキストボックスからタブ区切りテキストをコピー＆ペーストするか，あるいは，ダウンロードボタンによりファイルを保存することができる．
　また，GGRNAはREST APIを提供しておりウェブ検索と同じ結果をタブ区切りテキストまたはJSON形式にて得ることができる．詳細はヘルプページを参照してほしい．

おわりに

　GGRNAという名称は“GoogleライクなRNA検索エンジン”を意味するが，筆者らは，開発の初期から非公式にGGRNAを“ぐぐるな”と発音している．Googleのように強力で誰にでも使いやすい検索エンジンをめざし，遺伝子の検索においてはググらなくてもこのサービスにより効率的に情報を得られるようにしたいという目標がある．
　現時点で，GGRNAはRefSeqで提供されている生物種のうち13種に対応しているが，2012年度中にRefSeqの全体，さらには，GenBank/EMBL/DDBJ国際塩基配列データベースに登録されたゲノム以外の配列全体を検索できるよう，DDBJ（DNA Data Bank of Japan，日本DNAデータバンク）と協力しながら開発を進めていきたいと考えている．GGRNAが読者の日々の研究に少しでも役だてば幸いである．

文献

Benson, D. A., Karsch-Mizrachi, I., Clark, K. et al.: GenBank. Nucleic Acids Res., 40, D48-D53 (2012)[PubMed]
Altschul, S. F., Gish, W., Miller, W. et al.: Basic local alignment search tool. J. Mol. Biol., 215, 403-410 (1990)[PubMed]
Kent, W. J.: BLAT: the BLAST-like alignment tool. Genome Res., 12, 656-664 (2002)[PubMed]
Johnson, M., Zaretskaya, I., Raytselis, Y. et al.: NCBI BLAST: a better web interface. Nucleic Acids Res., 36, W5-W9 (2008)[PubMed]
Pruitt, K. D., Tatusova, T., Brown, G. R. et al.: NCBI Reference Sequences (RefSeq): current status, new features and genome annotation policy. Nucleic Acids Res., 40, D130-D135 (2012)[PubMed]
Karsch-Mizrachi, I., Nakamura, Y., Cochrane, G.; International Nucleotide Sequence Database Collaboration.: The International Nucleotide Sequence Database Collaboration. Nucleic Acids Res., 40, D33-D37 (2012)[PubMed]
Maglott, D., Ostell, J., Pruitt, K. D. et al.: Entrez Gene: gene-centered information at NCBI. Nucleic Acids Res., 39, D52-D57 (2011)[PubMed]
Grossi, R. & Vitter, J. S.: Compressed suffix arrays and suffix trees with applications to text indexing and string matching. Proc. 32nd ACM Symposium on Theory of Computing, 397-406 (2000)
Kawano, S., Ono, H., Takagi, T. et al.: Tutorial videos of bioinformatics resources: online distribution trial in Japan named TogoTV. Brief. Bioinform., 13, 258-268 (2012)[PubMed]
Munro, S. & Pelham, H. R.: A C-terminal signal prevents secretion of luminal ER proteins. Cell, 48, 899-907 (1987)[PubMed]

生命科学の教科書における関連するセクションへのリンク

東京大学大学院総合文化研究科・教養学部附属教養教育高度化機構自然科学教育高度化部門から公開されている生命科学の教科書 “A Comprehensive Approach To LIFE SCIENCE”（羊土社『理系総合のための生命科学第2版』の英語版）における関連するセクションへのリンクです．

活用したデータベースにかかわるキーワードと統合TVへのリンク

著者プロフィール

内藤雄樹（Yuki Naito）
略歴：2007年東京大学大学院理学系研究科博士課程修了，同年東京大学大学院理学系研究科助教を経て，2011年よりライフサイエンス統合データベースセンター特任助教．

坊農秀雅（Hidemasa Bono）
ライフサイエンス統合データベースセンター特任准教授．

要約

文献

このサイトについて

トップジャーナルに掲載された日本人を著者とする生命科学分野の論文について，論文の著者自身の執筆による日本語のレビューを，だれでも自由に閲覧・利用できるよう，いち早く公開します．くわしくは、「新着論文レビュー」とはをご覧ください．

統合TVにて解説動画を公開しました
概念とその関連性による検索 (β版)

生体構造
 生物種
 疾患
 化合物または薬
 分析、診断、治療に関する技術または装置
 精神医学または心理学
 現象または作用
 分野もしくは職業
 人類学、教育、社会または社会現象
 情報科学
 保健
関連記事を表示

キーワードをアノテーションする