ヒトゲノム全体を最速4秒で検索する新システム 46
ストーリー by yosuke
Genome Trekってどんな旅になるんだろう 部門より
Genome Trekってどんな旅になるんだろう 部門より
sillywalk曰く、"バイオマティクス社の8月7日付ニュースリリースによれば、同社は全てのヒトゲノム約30億塩基の情報を最速約4秒で検索できるシステム「GenoQuester2」の受注販売を開始しました。GenoQuester2は新たに開発されたゲノム検索専用のハードウェアを搭載し、スパコンを使った従来の検索方法に比べ大幅な高速化とハードウェアの小型化を実現。さらにこれまでの検索アルゴリズムでは検索結果に取りこぼしを生じていたnon-coding RNAのオフターゲット配列検索やパリンドローム配列検索、さらには正規表現による検索クエリ表記などより詳細な配列の検索、絞込み、同定を可能にしました。
大きさは幅23cm×高さ6cm×奥行31cmとA4サイズを一回り大きくした程度で、検索専用ソフトをインストールしたPCとUSB接続します。価格は仕様などによって異なりますが一台数百万円から。製薬会社や大学などに受注販売を行ないます。"
詳細な情報はないが、北海道大学遺伝子病制御研究所の多田光宏助教授の協力で開発したGenoQuesterと同じく、ゲノム配列を記憶させたCAM(Content Addressable Memory)を搭載したハードウェアではないかと思われる。
数年後にはGoogleのほうが速く結果を出せる (スコア:4, おもしろおかしい)
Re:数年後にはGoogleのほうが速く結果を出せる (スコア:5, 興味深い)
それと,Googleでいう検索ワードに相当するものは,かなり重要な機密です.
これがローカルで検索して結果を返すものなら,それもメリットです.
#製薬会社なのでAC
Re:数年後にはGoogleのほうが速く結果を出せる (スコア:1, 参考になる)
Re:数年後にはGoogleのほうが速く結果を出せる (スコア:0)
アルゴリズムや技術に興味はあるのですが、 研究業務として新規配列検索を多量にこなすことは無いのでウチでは不要の機械になりそうです。 Blast or Blat のローカルインストールで充分。
新規配列(遺伝子・ncRNA)から薬にするまでには機能解析・スクリーニング系の構築・そのターゲットを抑える/強化することが治療につながるのかの確認などクリアしなければならない事が山積みです。配列検索が早くなっても新薬開発スピードは速くならないと考えます。
Re:数年後にはGoogleのほうが速く結果を出せる (スコア:4, おもしろおかしい)
Re:数年後にはGoogleのほうが速く結果を出せる (スコア:1, おもしろおかしい)
Re:数年後にはGoogleのほうが速く結果を出せる (スコア:0)
0.07/0.04/0.03/0.05/0.03
0.04/0.04/0.03/0.03/0.06
0.03/0.04/0.04/0.03/0.08
0.05/0.04/0.04/0.05/0.10
Average = 0.046
Googleの性能には問題がないようです!
# だからなんだろうwwww
Google Gene (スコア:2, おもしろおかしい)
屍体メモ [windy.cx]
Re:Google Gene (スコア:3, 興味深い)
Re:Google Gene (スコア:0, おもしろおかしい)
/.の18%はお菓子で出来ています
/.の8%は言葉で出来ています
/.の5%は心の壁で出来ています
/.の4%はマイナスイオンで出来ています
アレゲノ...くだらなすぎるorz
# 検索はこちら [srad.jp]
#ヒドラですね。
Re:数年後にはGoogleのほうが速く結果を出せる (スコア:1, おもしろおかしい)
Re:数年後にはGoogleのほうが速く結果を出せる (スコア:1)
-----
問い合わせキーワード:
検索結果の返送先(メールアドレスまたは住所):
支払い方法(VISA, Master):
回答希望日(2011/1/1以降で指定して下さい)
Re:数年後にはGoogleのほうが速く結果を出せる (スコア:0)
Re:数年後にはGoogleのほうが速く結果を出せる (スコア:0)
もし本当にあったとしても、
物凄くお金がかかりそうな気がする・・・。
Re:数年後にはGoogleのほうが速く結果を出せる (スコア:1, 参考になる)
東大の金田先生も、こんなに早く、円周率100万桁が家庭用PCで10秒程度で
計算できるようになるとは思わんかったんじゃなかろうか。
次世代ベンチはSuper GENOMだ!
Re:数年後にはGoogleのほうが速く結果を出せる (スコア:1)
#実態はGoogleサーバに同機器が接続されてるだけですがネ。
Re:数年後にはGoogleのほうが速く結果を出せる (スコア:0)
サイト内検索するようにすればきっと見つかると思いますw
BLASTと比較してどれくらい速い? (スコア:2, 興味深い)
ゲノムの相同性検索ではNCBI BLAST [nih.gov](Debianパッケージ [debian.org])およびその亜流のアルゴリズム・ソフトが業界標準として使われています。同じクエリを投げてどれくらい違うのか知りたいです。
Re:BLASTと比較してどれくらい速い? (スコア:0)
Re:BLASTと比較してどれくらい速い? (スコア:0)
ググってみました (スコア:1, 参考になる)
Dr.TADAのGenoQuester2直感レポート [hokudai.ac.jp](GenoQuester2の使用写真)
Re:ググってみました (スコア:0)
一種のゲンカツギかしら?
#ぐだらないのでAC
見出しで誤読 (スコア:1, 興味深い)
Re:見出しで誤読 (スコア:2, おもしろおかしい)
Re:見出しで誤読 (スコア:2, 興味深い)
4秒?全然遅いじゃん(嘲笑)
# 最速じゃなくて平均値言ってみろよ、と思うAC
Re:見出しで誤読 (スコア:1, 参考になる)
index化しづらいデータ構造な気がするんですが。こういうのってトークンに区切れる文章や、一般的なRDBに対するクエリと全然種類が違うと思うんですが、どうなんすかね。
そんな簡単に比べられるんですかね?
Re:見出しで誤読 (スコア:0)
識者の方、間違っていたらご指摘ください。
Re:見出しで誤読 (スコア:2, 参考になる)
例えば全体の90%が一致=10%が異なっているのを「高い相同性」という世界です.
http://www.ddbj.nig.ac.jp/search/archives/blast_doc-j.html [nig.ac.jp]
MD5のような方法でのインデックス化は無理です.
Re:見出しで誤読 (スコア:1, 興味深い)
ただし、ゲノム検索の目的はexact matchを求めることではなく、
# このため、インデックス化をいかに効率よく実現しても、顧客情報の検索のようにはうまく行きません
ある類似度を基準としたmatchingなので、データ構造以外のアルゴリズムも速度と精度を高める上で重要です。 より早く、より高い感度で、が求められてる世界ですね。
検索専用とは (スコア:0)
Re:検索専用とは (スコア:1, 参考になる)
ハードはファンシーなものではないと思うし、ゲノム検索以外にも使えると思う。
ただ、ゲノム検索は単位の細かさ(2bit)や計算量の多さなど、特にFPGA向いているというか汎用CPUに向かない処理なわけで、他の応用でこのハードの優位性がどこまであるかは知らね。
Re:検索専用とは (スコア:1)
ゲノム解析の世界にはキティーちゃんの進出はないということですか
Re:検索専用とは (スコア:0)
遅すぎて使う意味ないかも。
960Mbase/secってせいぜい0.5GB/secでしょ。
オンメモリならPCレベルにもなってない。
Re:検索専用とは (スコア:1, 興味深い)
日本語で書くと、9億6千万塩基対/秒。
絵的に描くと、
ATCGGTTC…
|||||||| to 9億6千万pair。
TAGCCAAG…
因みに、塩基配列で言う所の検索とは、同一物を探してくるのでななく、類似物を探してくるので、通常のDBと同等に考えてはいけない。ような気がする。
クエリー配列には余計なギャップが含まれていることもあるし、色々な事情で紛らわしい配列もある。良く分からん配列もある。AともCとも言えぬ配列もある。
そんなんで色々と大変。なような気がする。
じゃあ、300Mbase/4秒は早いのか。
実をいうと、良く分からない。
私の斜め横に、PCベース(on HDD)のソレがあるのだけれど、私は使ったことがない。
ただ、前他人が使っているのを見た限りでは、0.4Mbaseの配列検索中にお茶を飲んでいたので、本当はもっとうんと時間が掛かるモノなのかも知れない。
たまたま、使っている人がその時、お茶を飲みたかっただけなのかもしれない。
分かりよく言うと、上の説明を読んで、どれだけ記述が確かなのかを960M文字/secで判断するような、まあそんな仕事ですよ。生き物相手ってのは。
#しかし、曲がりなりにもDB、それも機密性が必要である可能性が高いデータを扱うのに、USBって…。あーた。
Re:検索専用とは (スコア:1, 興味深い)
> 日本語で書くと、9億6千万塩基対/秒。
A,G,C,T の 4 種類だから、 1base は最大 2bit ですね。
偏りがあればもっと小さくなるけど。
Re:検索専用とは (スコア:1, 参考になる)
undefined的なものもあるわけなんで,
もう数ビットは少なくともいるんじゃないでしょうか.
Re:検索専用とは (スコア:1, 参考になる)
メチル基は特定の遺伝子が使われないようにする目的でくっつけられているのではないかと考えられています。突然変異や世代交代を待たずに使用する遺伝子セットを切り替ているわけです。
Re:検索専用とは (スコア:0, おもしろおかしい)
動的計画法とか (スコア:0)
偉い方、解説していただけませぬか?
Re:動的計画法とか (スコア:3, 参考になる)
宣伝? (スコア:0, おもしろおかしい)
キター!!! (スコア:0)
Re:キター!!! (スコア:0)
市場ってあるのかな? (スコア:0)
DBの更新サービスってあるのかな?
検索結果って単に類似配列や Acc No. が出てくるだけ?
速いとは思うけど単にゲノム上の位置やAcc No. 返されても次の処
理をしないと情報が得られないならあまり必要ないなぁ。それとも公
共のDBにリンクとか貼られるのかな? Entrez Gene や Ensembl の
Contig View とか UCSC Genome Browser とか・・・。
GenoQuester2直感レポートの情報読むと応用アプリケーションは
自分で作ったり、これから提供される様に見える。
そもそも配列を頻繁且つ大量に投げるんだったら別のシステム組ん
じゃった方が使い勝手良い気がするし、偶にしか使わないなら価格が
高すぎる・・・。
2001年頃だったかな、配列解析が今より需要があった時 BLAST
Machine とかいう高速検索ハードウェアがあったけど今聞かないもん
なぁ。
Re:市場ってあるのかな? (スコア:0)
そうじゃないと、使い物にならない…
>検索結果って単に類似配列や Acc No. が出てくるだけ?
既出のBLATも、既にそんな感じの出力ですよね…前はblast出力をパーズして、Accessionやscore/identify/gap等の表に落とすの良くやりましたが…
>応用アプリケーション
結果を適当なゲノムブラウザに渡す、というのが多そうに見えます。一括処理のために買えるところは少なそうです。
>高速検索ハードウェア
PCクラスタでPBS/Gridとか、ブレードサーバでラウンドロビン(ncbiとか?)が多そうですが、そっちはgenomeへのmapとはまた別の仕事で一生懸命働いてくれるでしょう。
正規表現による検索クエリ表記って (スコア:0)
……?
# 我ながらバカだと思うのでA.C.