ヒトゲノム全体を最速4秒で検索する新システム

ヒトゲノム全体を最速4秒で検索する新システム 46

ストーリー by yosuke 2006年08月13日 11時55分
Genome Trekってどんな旅になるんだろう部門より

sillywalk曰く、"バイオマティクス社の8月7日付ニュースリリースによれば、同社は全てのヒトゲノム約30億塩基の情報を最速約4秒で検索できるシステム「GenoQuester2」の受注販売を開始しました。GenoQuester2は新たに開発されたゲノム検索専用のハードウェアを搭載し、スパコンを使った従来の検索方法に比べ大幅な高速化とハードウェアの小型化を実現。さらにこれまでの検索アルゴリズムでは検索結果に取りこぼしを生じていたnon-coding RNAのオフターゲット配列検索やパリンドローム配列検索、さらには正規表現による検索クエリ表記などより詳細な配列の検索、絞込み、同定を可能にしました。
大きさは幅23cm×高さ6cm×奥行31cmとA4サイズを一回り大きくした程度で、検索専用ソフトをインストールしたPCとUSB接続します。価格は仕様などによって異なりますが一台数百万円から。製薬会社や大学などに受注販売を行ないます。"

詳細な情報はないが、北海道大学遺伝子病制御研究所の多田光宏助教授の協力で開発したGenoQuesterと同じく、ゲノム配列を記憶させたCAM(Content Addressable Memory)を搭載したハードウェアではないかと思われる。

この議論は賞味期限が切れたので、アーカイブ化されています。新たにコメントを付けることはできません。

記事ページを表示すべてのコメント取得

検索46コメント Log In/Create an Account

数年後にはGoogleのほうが速く結果を出せる (スコア:4, おもしろおかしい)

by Anonymous Coward on 2006年08月13日 12時32分 (#995844)

ってないよね。ありえないこともない？
- Re:数年後にはGoogleのほうが速く結果を出せる (スコア:5, 興味深い)
  
  by Anonymous Coward on 2006年08月13日 12時50分 (#995855)
  
  ありえるかもしれませんが，数年間待てません．お金で時間を買います．
  それと，Googleでいう検索ワードに相当するものは，かなり重要な機密です．
  これがローカルで検索して結果を返すものなら，それもメリットです．
  
  ＃製薬会社なのでAC
  
  シェア
  
  親コメント
  - Re:数年後にはGoogleのほうが速く結果を出せる (スコア:1, 参考になる)
    
    by Anonymous Coward on 2006年08月13日 14時48分 (#995902)
    
    これがローカルで検索して結果を返すものなら，それもメリットです．
    Google 検索アプライアンス [google.co.jp]
    
    シェア
    
    親コメント
  - Re:数年後にはGoogleのほうが速く結果を出せる (スコア:0)
    
    by Anonymous Coward
    
    アルゴリズムや技術に興味はあるのですが、研究業務として新規配列検索を多量にこなすことは無いのでウチでは不要の機械になりそうです。 Blast or Blat のローカルインストールで充分。
    
    新規配列(遺伝子・ncRNA)から薬にするまでには機能解析・スクリーニング系の構築・そのターゲットを抑える/強化することが治療につながるのかの確認などクリアしなければならない事が山積みです。配列検索が早くなっても新薬開発スピードは速くならないと考えます。
- Re:数年後にはGoogleのほうが速く結果を出せる (スコア:4, おもしろおかしい)
  
  by O1iver (31019) on 2006年08月13日 15時20分 (#995920) ホームページ日記
  
  何しろ、スーパーコンピュータディープ・ソートが750万年の計算の末にやっと出した"人生、宇宙、すべての答え" [wikipedia.org]を0.06秒で出せる [google.co.jp]んですからね(ぉ
  
  シェア
  
  親コメント
  - Re:数年後にはGoogleのほうが速く結果を出せる (スコア:1, おもしろおかしい)
    
    by Anonymous Coward on 2006年08月13日 15時24分 (#995922)
    
    大変です！私がやったら0.16秒もかかりました！ Googleの性能が半分以下まで落ちています！
    
    シェア
    
    親コメント
    - Re:数年後にはGoogleのほうが速く結果を出せる (スコア:0)
      
      by Anonymous Coward
      
      20回の検索してみました。
      
      0.07/0.04/0.03/0.05/0.03
      0.04/0.04/0.03/0.03/0.06
      0.03/0.04/0.04/0.03/0.08
      0.05/0.04/0.04/0.05/0.10
      
      Average = 0.046
      
      Googleの性能には問題がないようです！
      
      # だからなんだろうｗｗｗｗ
- Google Gene (スコア:2, おもしろおかしい)
  
  by Livingdead (18685) on 2006年08月13日 12時46分 (#995850) ホームページ日記
  
  そんなのができるかもしれない・・・
  
  --
  屍体メモ [windy.cx]
  
  シェア
  
  親コメント
  - Re:Google Gene (スコア:3, 興味深い)
    
    by Anonymous Coward on 2006年08月13日 13時29分 (#995867)
    
    というかすでに去年からGoogle Genomics [bioinformatics.org]と噂されてますが。
    
    シェア
    
    親コメント
  - Re:Google Gene (スコア:0, おもしろおかしい)
    
    by Anonymous Coward
    
    /.の65%は世の無常さで出来ています
    /.の18%はお菓子で出来ています
    /.の8%は言葉で出来ています
    /.の5%は心の壁で出来ています
    /.の4%はマイナスイオンで出来ています
    
    アレゲノ...くだらなすぎるorz
    
    ＃検索はこちら [srad.jp]
    ＃ヒドラですね。
- Re:数年後にはGoogleのほうが速く結果を出せる (スコア:1, おもしろおかしい)
  
  by Anonymous Coward on 2006年08月13日 14時03分 (#995882)
  
  数年後のgoogleに今からアクセスする方法があれば、お金かけなくて済むのに．．．．．
  
  シェア
  
  親コメント
  - Re:数年後にはGoogleのほうが速く結果を出せる (スコア:1)
    
    by nim (10479) on 2006年08月15日 14時54分 (#996875)
    
    私の提供するサービスを利用すれば、数年後の Google で検索した結果を送り返して差し上げます。
    -----
    問い合わせキーワード：
    検索結果の返送先(メールアドレスまたは住所)：
    支払い方法(VISA, Master)：
    回答希望日(2011/1/1以降で指定して下さい)
    
    シェア
    
    親コメント
  - Re:数年後にはGoogleのほうが速く結果を出せる (スコア:0)
    
    by Anonymous Coward
    
    これ [srad.jp]をうまく使えば・・・
  - Re:数年後にはGoogleのほうが速く結果を出せる (スコア:0)
    
    by Anonymous Coward
    
    >数年後のgoogleに今からアクセスする方法があれば
    
    もし本当にあったとしても、
    物凄くお金がかかりそうな気がする･･･。
- Re:数年後にはGoogleのほうが速く結果を出せる (スコア:1, 参考になる)
  
  by Anonymous Coward on 2006年08月13日 21時28分 (#996026)
  
  関係ないが、
  東大の金田先生も、こんなに早く、円周率100万桁が家庭用PCで10秒程度で
  計算できるようになるとは思わんかったんじゃなかろうか。
  
  次世代ベンチはSuper GENOMだ！
  
  シェア
  
  親コメント
- Re:数年後にはGoogleのほうが速く結果を出せる (スコア:1)
  
  by esumi (15966) on 2006年08月13日 23時10分 (#996053)
  
  いやいや、ありえるでしょう。むしろすぐ実現されるかもしれません。
  
  ＃実態はGoogleサーバに同機器が接続されてるだけですがネ。
  
  シェア
  
  親コメント
- Re:数年後にはGoogleのほうが速く結果を出せる (スコア:0)
  
  by Anonymous Coward
  
  オープンにアクセスできるようにして
  サイト内検索するようにすればきっと見つかると思いますw
BLASTと比較してどれくらい速い？ (スコア:2, 興味深い)

by Anonymous Coward on 2006年08月13日 20時47分 (#996011)

ゲノムの相同性検索ではNCBI BLAST [nih.gov](Debianパッケージ [debian.org])およびその亜流のアルゴリズム・ソフトが業界標準として使われています。同じクエリを投げてどれくらい違うのか知りたいです。
- Re:BLASTと比較してどれくらい速い？ (スコア:0)
  
  by Anonymous Coward
  
  "亜流"に含まれるが、現状BLAT [ucsc.edu]が断然早く周囲では標準になりつつある気がする。
- Re:BLASTと比較してどれくらい速い？ (スコア:0)
  
  by Anonymous Coward
  
  確かに、BLASTパッケージの中にmegablastはあるけど、ゲノム配列が対象ならSSAHAとか別の手段を使うんじゃないのかな？BLASTはBasic Local Alignment Search Toolなので、ゲノムのような長い配列を使う場合は必ずしも標準ではないと思うのだけど ...
ググってみました (スコア:1, 参考になる)

by Anonymous Coward on 2006年08月13日 12時49分 (#995854)

Genome Trek [hokudai.ac.jp](多田博士のblog)
Dr.TADAのGenoQuester2直感レポート [hokudai.ac.jp](GenoQuester2の使用写真)
- Re:ググってみました (スコア:0)
  
  by Anonymous Coward
  
  親機がバイオなんですね。
  一種のゲンカツギかしら？
  
  ＃ぐだらないのでAC
見出しで誤読 (スコア:1, 興味深い)

by Anonymous Coward on 2006年08月13日 14時54分 (#995908)

最速約４秒って悪い意味に誤読してしまいました。ワーストケースについてはリリースでも触れられていませんが、専門家にとってはどんなものなんでしょうか？
- Re:見出しで誤読 (スコア:2, おもしろおかしい)
  
  by Anonymous Coward on 2006年08月13日 15時42分 (#995924)
  
  実は線形検索で、初期化に4秒かかるだけだったりして
  
  シェア
  
  親コメント
  - Re:見出しで誤読 (スコア:2, 興味深い)
    
    by Anonymous Coward on 2006年08月13日 20時50分 (#996012)
    
    うちの顧客情報(顧客マスタ50億件)は*最速*2秒くらいで検索できますよ
    4秒？全然遅いじゃん(嘲笑)
    
    # 最速じゃなくて平均値言ってみろよ、と思うAC
    
    シェア
    
    親コメント
    - Re:見出しで誤読 (スコア:1, 参考になる)
      
      by Anonymous Coward on 2006年08月13日 22時44分 (#996044)
      
      ゲノムのデータ構造って四種類の文字がずーーーーっと並んでるだけで、
      index化しづらいデータ構造な気がするんですが。
      こういうのってトークンに区切れる文章や、一般的なRDBに対するクエリと全然種類が違うと思うんですが、どうなんすかね。
      そんな簡単に比べられるんですかね？
      
      シェア
      
      親コメント
      - Re:見出しで誤読 (スコア:0)
        
        by Anonymous Coward
        
        この分野には、素人ですが、同じような文字が並び続けるという意味では、辞書式の圧縮みたいな感じでインデックス化できそうですよね。そういう意味では、意外と検索はしやすいような気もしますが。
        識者の方、間違っていたらご指摘ください。
        
        Re:見出しで誤読 (スコア:2, 参考になる)
        
        by Anonymous Coward on 2006年08月14日 7時28分 (#996135)
        
        識者ではないですが，
        例えば全体の90%が一致＝10%が異なっているのを「高い相同性」という世界です．
        http://www.ddbj.nig.ac.jp/search/archives/blast_doc-j.html [nig.ac.jp]
        MD5のような方法でのインデックス化は無理です．
        
        シェア
        
        親コメント
        
        Re:見出しで誤読 (スコア:1, 興味深い)
        
        by Anonymous Coward on 2006年08月14日 16時15分 (#996455)
        
        辞書式なやり方としてはsuffix arrayを使ったインデックス化などが既にありますね。
        ただし、ゲノム検索の目的はexact matchを求めることではなく、
        # このため、インデックス化をいかに効率よく実現しても、顧客情報の検索のようにはうまく行きません
        ある類似度を基準としたmatchingなので、データ構造以外のアルゴリズムも速度と精度を高める上で重要です。より早く、より高い感度で、が求められてる世界ですね。
        
        シェア
        
        親コメント
検索専用とは (スコア:0)

by Anonymous Coward on 2006年08月13日 12時47分 (#995851)

>ゲノム検索専用のハードウェアをってところに少し興味を惹かれますね。他の検索にも使えたりしないのかな？
- Re:検索専用とは (スコア:1, 参考になる)
  
  by Anonymous Coward on 2006年08月14日 2時13分 (#996107)
  
  FPGA+CAM+RAMでしょ。
  ハードはファンシーなものではないと思うし、ゲノム検索以外にも使えると思う。
  
  ただ、ゲノム検索は単位の細かさ(2bit)や計算量の多さなど、特にFPGA向いているというか汎用CPUに向かない処理なわけで、他の応用でこのハードの優位性がどこまであるかは知らね。
  
  シェア
  
  親コメント
  - Re:検索専用とは (スコア:1)
    
    by RX-178 (2626) on 2006年08月14日 7時27分 (#996134)
    
    >ハードはファンシーなものではないと思うし
    ゲノム解析の世界にはキティーちゃんの進出はないということですか
    
    シェア
    
    親コメント
- Re:検索専用とは (スコア:0)
  
  by Anonymous Coward
  
  >他の検索にも使えたりしないのかな？
  遅すぎて使う意味ないかも。
  960Mbase/secってせいぜい0.5GB/secでしょ。
  オンメモリならPCレベルにもなってない。
  - Re:検索専用とは (スコア:1, 興味深い)
    
    by Anonymous Coward on 2006年08月13日 21時58分 (#996030)
    
    Mbase≠Mbit。
    日本語で書くと、9億6千万塩基対/秒。
    絵的に描くと、
    ATCGGTTC… ||||||||　　to 9億6千万pair。 TAGCCAAG…
    因みに、塩基配列で言う所の検索とは、同一物を探してくるのでななく、類似物を探してくるので、通常のDBと同等に考えてはいけない。ような気がする。
    
    クエリー配列には余計なギャップが含まれていることもあるし、色々な事情で紛らわしい配列もある。良く分からん配列もある。AともCとも言えぬ配列もある。
    そんなんで色々と大変。なような気がする。
    
    じゃあ、300Mbase/4秒は早いのか。
    実をいうと、良く分からない。
    私の斜め横に、PCベース(on HDD)のソレがあるのだけれど、私は使ったことがない。
    ただ、前他人が使っているのを見た限りでは、0.4Mbaseの配列検索中にお茶を飲んでいたので、本当はもっとうんと時間が掛かるモノなのかも知れない。
    たまたま、使っている人がその時、お茶を飲みたかっただけなのかもしれない。
    
    分かりよく言うと、上の説明を読んで、どれだけ記述が確かなのかを960M文字/secで判断するような、まあそんな仕事ですよ。生き物相手ってのは。
    
    #しかし、曲がりなりにもDB、それも機密性が必要である可能性が高いデータを扱うのに、USBって…。あーた。
    
    シェア
    
    親コメント
    - Re:検索専用とは (スコア:1, 興味深い)
      
      by Anonymous Coward on 2006年08月14日 0時03分 (#996072)
      
      > Mbase≠Mbit。
      > 日本語で書くと、9億6千万塩基対/秒。
      
      A,G,C,T の 4 種類だから、 1base は最大 2bit ですね。
      偏りがあればもっと小さくなるけど。
      
      シェア
      
      親コメント
      - Re:検索専用とは (スコア:1, 参考になる)
        
        by Anonymous Coward on 2006年08月14日 2時16分 (#996108)
        
        UとかあるのはRNAでしたっけ？
        undefined的なものもあるわけなんで，
        もう数ビットは少なくともいるんじゃないでしょうか．
        
        シェア
        
        親コメント
        
        Re:検索専用とは (スコア:1, 参考になる)
        
        by Anonymous Coward on 2006年08月14日 12時00分 (#996299)
        
        データベースに含まれているかどうかはわかりませんが、修飾といって、メチル基がくっついたりするので2ビットでは全然足りません。
        
        メチル基は特定の遺伝子が使われないようにする目的でくっつけられているのではないかと考えられています。突然変異や世代交代を待たずに使用する遺伝子セットを切り替ているわけです。
        
        シェア
        
        親コメント
  - Re:検索専用とは (スコア:0, おもしろおかしい)
    
    by Anonymous Coward
    
    検索とメモリの転送速度の区別が出来ないヴァカﾊｹｰﾝ
動的計画法とか (スコア:0)

by Anonymous Coward on 2006年08月13日 15時46分 (#995927)

いう手法が高速化に著しく寄与していると聞いていますが...
偉い方、解説していただけませぬか？
- Re:動的計画法とか (スコア:3, 参考になる)
  
  by Anonymous Coward on 2006年08月13日 21時04分 (#996019)
  
  Dynamic Programmingと相同性検索の関係なら "バイオインフォマティクス第３回ホモロジー検索・アライメント手法"(PDF) [osaka-u.ac.jp]がわかりやすい資料だと思います。
  
  シェア
  
  親コメント
宣伝? (スコア:0, おもしろおかしい)

by Anonymous Coward on 2006年08月13日 19時19分 (#995985)

やめてほしい
ｷﾀｰ！！！ (スコア:0)

by Anonymous Coward on 2006年08月14日 1時26分 (#996099)

よーしこれで俺の頭皮に抜本的対策を可能にする遺伝子を…
- Re:ｷﾀｰ！！！ (スコア:0)
  
  by Anonymous Coward
  
  また抜いちゃうぞ～
市場ってあるのかな？ (スコア:0)

by Anonymous Coward on 2006年08月14日 6時49分 (#996129)

詳細が判らないけどDBは自分で作れるんだよね？
DBの更新サービスってあるのかな？
検索結果って単に類似配列や Acc No. が出てくるだけ？

　速いとは思うけど単にゲノム上の位置やAcc No. 返されても次の処
理をしないと情報が得られないならあまり必要ないなぁ。それとも公
共のDBにリンクとか貼られるのかな？ Entrez Gene や Ensembl の
Contig View とか UCSC Genome Browser とか・・・。
　GenoQuester2直感レポートの情報読むと応用アプリケーションは
自分で作ったり、これから提供される様に見える。

　そもそも配列を頻繁且つ大量に投げるんだったら別のシステム組ん
じゃった方が使い勝手良い気がするし、偶にしか使わないなら価格が
高すぎる・・・。
　2001年頃だったかな、配列解析が今より需要があった時 BLAST
Machine とかいう高速検索ハードウェアがあったけど今聞かないもん
なぁ。
- Re:市場ってあるのかな？ (スコア:0)
  
  by Anonymous Coward
  
  ＞詳細が判らないけどDBは自分で作れるんだよね？
  そうじゃないと、使い物にならない…
  ＞検索結果って単に類似配列や Acc No. が出てくるだけ？
  既出のBLATも、既にそんな感じの出力ですよね…前はblast出力をパーズして、Accessionやscore/identify/gap等の表に落とすの良くやりましたが…
  ＞応用アプリケーション
  結果を適当なゲノムブラウザに渡す、というのが多そうに見えます。一括処理のために買えるところは少なそうです。
  ＞高速検索ハードウェア
  PCクラスタでPBS/Gridとか、ブレードサーバでラウンドロビン(ncbiとか?)が多そうですが、そっちはgenomeへのmapとはまた別の仕事で一生懸命働いてくれるでしょう。
正規表現による検索クエリ表記って (スコア:0)

by Anonymous Coward on 2006年08月17日 13時20分 (#998416)

/^((([ATGC])([^\1]))+)$/

……？

# 我ながらバカだと思うのでA.C.

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

ヒトゲノム全体を最速4秒で検索する新システム More ログイン

数年後にはGoogleのほうが速く結果を出せる (スコア:4, おもしろおかしい)

Re:数年後にはGoogleのほうが速く結果を出せる (スコア:5, 興味深い)

Re:数年後にはGoogleのほうが速く結果を出せる (スコア:1, 参考になる)

Re:数年後にはGoogleのほうが速く結果を出せる (スコア:0)

Re:数年後にはGoogleのほうが速く結果を出せる (スコア:4, おもしろおかしい)

Re:数年後にはGoogleのほうが速く結果を出せる (スコア:1, おもしろおかしい)

Re:数年後にはGoogleのほうが速く結果を出せる (スコア:0)

Google Gene (スコア:2, おもしろおかしい)

Re:Google Gene (スコア:3, 興味深い)

Re:Google Gene (スコア:0, おもしろおかしい)

Re:数年後にはGoogleのほうが速く結果を出せる (スコア:1, おもしろおかしい)

Re:数年後にはGoogleのほうが速く結果を出せる (スコア:1)

Re:数年後にはGoogleのほうが速く結果を出せる (スコア:0)

Re:数年後にはGoogleのほうが速く結果を出せる (スコア:0)

Re:数年後にはGoogleのほうが速く結果を出せる (スコア:1, 参考になる)

Re:数年後にはGoogleのほうが速く結果を出せる (スコア:1)

Re:数年後にはGoogleのほうが速く結果を出せる (スコア:0)

BLASTと比較してどれくらい速い？ (スコア:2, 興味深い)

Re:BLASTと比較してどれくらい速い？ (スコア:0)

Re:BLASTと比較してどれくらい速い？ (スコア:0)

ググってみました (スコア:1, 参考になる)

Re:ググってみました (スコア:0)

見出しで誤読 (スコア:1, 興味深い)

Re:見出しで誤読 (スコア:2, おもしろおかしい)

Re:見出しで誤読 (スコア:2, 興味深い)

Re:見出しで誤読 (スコア:1, 参考になる)

Re:見出しで誤読 (スコア:0)

Re:見出しで誤読 (スコア:2, 参考になる)

Re:見出しで誤読 (スコア:1, 興味深い)

検索専用とは (スコア:0)

Re:検索専用とは (スコア:1, 参考になる)

Re:検索専用とは (スコア:1)

Re:検索専用とは (スコア:0)

Re:検索専用とは (スコア:1, 興味深い)

Re:検索専用とは (スコア:1, 興味深い)

Re:検索専用とは (スコア:1, 参考になる)

Re:検索専用とは (スコア:1, 参考になる)

Re:検索専用とは (スコア:0, おもしろおかしい)

動的計画法とか (スコア:0)

Re:動的計画法とか (スコア:3, 参考になる)

宣伝? (スコア:0, おもしろおかしい)

ｷﾀｰ！！！ (スコア:0)

Re:ｷﾀｰ！！！ (スコア:0)

市場ってあるのかな？ (スコア:0)

Re:市場ってあるのかな？ (スコア:0)

正規表現による検索クエリ表記って (スコア:0)