お茶の間PC3,000台のグリッド実験 59
ストーリー by yoosee
余剰資源の有効な使い道 部門より
余剰資源の有効な使い道 部門より
torus 曰く、 "YOMIURI ON-LINE の記事より、
NTT 西日本のプレスリリースによると、
NTT 西日本と国立遺伝学研究所はフレッツユーザ 3,000 名程度の協力を得て、
家庭用 PC の「余剰能力」を利用した大規模なグリッドシステムの共同実験を実施するそうだ。このグリッドにより、2,000万円以上のスーパーコンピュータ相当の処理を実現する見込み。
このプロジェクトは「Bio@Home」
とよばれ、
「生命情報解析研究に必要なアプリケーションの高速化やセキュリティ保護技術および流通するデータの分散・管理方法等の検証を共同で行うこと」や
「バイオインフォマティクスという新分野の研究を促進させるとともに、病気遺伝子の発見や新薬の開発などに寄与すること」を目的としているという。
PC の余剰能力を使うとはいえ、
協力者は電気代・HDDスペース・回線帯域などもそれなりに負担しなくてはいけないが、
その代わりに ACTOS Members から申し込むと、
ACTOS ポイントが対価として支払われるようだ。
United Devices
による白血病治療薬の研究などとも関連がありそうだし、
2ch の UDチームなども黙ってはいないかも。"
余剰資源? (スコア:2)
CPUまわせば余計に電気喰うではないか。
Takeshi HASEGAWA
Re:余剰資源? (スコア:2, すばらしい洞察)
だから、でんこちゃんに怒られることのないNTT西日本
のエリアなのです。
----------------------------------------
You can't always get what you want...
Re:余剰資源? (スコア:2, 参考になる)
ちょっとマテ。 東京電力は伊豆まで営業区域 [tepco.co.jp](注意: PDF)ですぞ。
# だから NTT西日本だけどでんこちゃんには怒られる
Re:余剰資源? (スコア:1)
バッテリ駆動のノートPCにソーラー充電で
どこまで稼げるかやってみたいところでは有ったのだけど
NTT西日本ユーザー限定ではねー。
Re:余剰資源? (スコア:0)
# 四電は原発依存度が高い割に夜間の電力需要が少ないので、夜はかなり余ってるらしい
Re:余剰資源? (スコア:2, 興味深い)
#ネタにマジレス?
余談ですが、友人(約二名)がUDクライアントを入れたら、
CPUの温度アラームが鳴ったそうです。
#二人ともAthlon2600+。
こういうクライアント入れるときは、放熱にも気を配らないといけないようです。
Re:余剰資源? (スコア:1)
あとは、HyperThreding対応Pentium4機の場合、50%にぴったり張り付くので、100%は回避できるかも。
Re:余剰資源? (スコア:1)
HyperThreadingだと裏番組がIdleなら一人で空いているだけ全部の資源を使い切るので、実質100%になりますよ。
50%に見えるのは負荷モニタが物理的なマルチプロセッサとHTの各スレッドの区別をできてないだけ。
ポイントは実働時間で決まる (スコア:2)
1) 計算リソース提供:最大2500ポイント。CPU、メモリなどの計算リソースの提供(HDDの空きは1GB以上奨励)。フレッツ・ADSLおよびBフレッツ加入者対象で、2,500ユーザ程度。
2) ディスクリソース提供:最大3750ポイント。ハードディスクを(プログラムを除くと)1GB程度(HDDの空きは2GB以上奨励)、CPU、メモリなどの計算リソースの提供。Bフレッツ加入者対象で、500ユーザ程度。
数千台のPCの実働時間の計測と、グリッドコンピューティングの有償化というビジネスモデルも興味深いと思ったけど、実際には電気代が足りるかどうかの程度で、有償ボランティアに近い感覚かな。
#計算中は、ディスプレイはオフでもいいんだよね。
Re:余剰資源? (スコア:1)
Re:余剰資源? (スコア:1)
あー、失礼。確かに。読み間違えてました。
Takeshi HASEGAWA
Re:余剰資源? (スコア:1)
SETI@homeやってますが、脱落者の多くは家人から過剰な電気代をとがめられたり、電力を消費してまでやることかという疑問をもったりしてやめていきますから。
本来は「たまたまPCを動かしているときに余った計算資源を使わせてもらう」ものだったはずなので、アンインストールまではしなくてもいいんじゃないかと思うのですがね。
グリッドBLASTなのかな? (スコア:2, 参考になる)
以前私も考えたことがあったのですが,データベースを各ピアに持たせなければならない,というところがネックであきらめました.
なぜBLASTを分散処理させたいかといえば,ゲノムのデータや遺伝子のデータは数台のサーバで処理できなくもないのですが,ESTという,ある細胞が発現しているmRNAを何でもいいから読んでしまえ,というやり方でとった配列が数十GBもの量になって,しかも加速的に増えているからなのです.
そのためヒトゲノム全体に対しての検索は大して時間はかからないのですが,データベース全体としたとたん,結果を見るのに何十分も待たされることになってしまうという事態になっていると.
計算自体はごく簡単なので分散処理するうまみはないのですが,とにかくデータベースが巨大なのでそれを分割して処理すればそれだけ早くなると期待できます.計算の依存性は最後の順位付けだけですし.
でもそれには大量のデータを分割して各ピアに配布しなければならず(おそらく1ピアあたり数百MBは配布しないと利得がないはず),しかもそのデータが一年に何度も更新されるという問題があって,原理的には可能でも参加者の負担が大きいなあ,と.
それに,遺伝研のBLASTサービスって全然人気ないのですよね.
国内の研究者もみんなNCBIの方に投げているし.
DDBJ自体もNCBIの人から「冗長だから無駄だ」と言われたことがあるとかないとか・・・
ですのでそんな実験をしなければならない必要性というのが今一つ見えないというのが私の感想です.
Re:グリッドBLASTなのかな? (スコア:2, 興味深い)
プレスリリースを見てるとそんな感じですね。
>データベースを各ピアに持たせなければならない
現在、NCBIのノンリダンダントな塩基配列(nt)の大きさが圧縮時で約2.9GBで、展開して約7GBというところでしょうか?もし、3000ノードのグリッドが構成できたとして、データベースを分割したら、1ノードあたり2~3MBになるので、Bフレッツならほんの僅かの時間で各ノードに転送でき、計算して、結果を収集できると踏んでいるのではないかと思って います。
しかし、この3000ノードはヘテロというか全て性能が異なるのは明らかです。その他ネットワーク的な不確定要素もあり、きちんと答えを返さないノードもあるでしょう。そうした場合のエラー処理まで考慮しているのかというと、きっとそこまではできてないのではないかと疑ってしまいます。
従って、収集した結果の信頼性が損なわれますので、遺伝研はこの結果を使えないということになりかねません。そこで、今回の話は、グリッドにかこつけてのNTT西日本のBフレッツ販促の一環ではないのかと邪推してしまうのです。
Re:グリッドBLASTなのかな? (スコア:0)
>国内の研究者もみんなNCBIの方に投げているし.
人気がないのは答えが返って来るまでに時間がかかるからですか?
NCBIのほうはどのようなシステムになっているのでしょうか?巨大なサーバなのか、それとも分散システムなのでしょうか?
Re:グリッドBLASTなのかな? (スコア:0)
・宣伝が足りないから
・見た目がよくないから(ほとんどプレーンテキスト)
・遅いならまだしも,タイムアウトすることが多いから
> NCBIのほうはどのようなシステムになっているのでしょうか?
・かなり前に聞いた話だとAlpha上のLinuxとIA-32のLinux百台くらいの分散サーバ
Re:グリッドBLASTなのかな? (スコア:0)
おっしゃる通り、BLASTの場合はI/Oバウンドになりやすいので、データベースの分割がキモになります。だからこそ、光ファイバーとADSLユーザー限定なんだと思います。数百MBのデータでも、圧縮すればかなり小さくなるはずですし(formatdbをかけた後のデータは半分以下に圧縮可能)、光ファイ
実際にやってみた (スコア:0)
手元のマウスゲノムから,X染色体のデータでやってみます.
$ ls -l mm_chrX.mfa.n*
mm_chrX.mfa.nhr 6687
mm_chrX.mfa.nin 760
mm_chrX.mfa.nsq 38875226
$ tar cfvz mm_chrX.tar.gz mm_chrX.mfa.n*
$ ls -l mm_chrX.tar.gz
mm_chrX.tar.gz 36315566
と,formatdbをかけたものは元々配列がハッシュ値に書き換えられてるので圧縮効率はよくないです.元の94%のサイズにしかなっていませんね.
fastaファイルのformatdbは1/4くらいになりますけど.
生配列を送って手元でformatdbした方が転送効率はよ
Re:実際にやってみた (スコア:0)
何かが違うのかな。つーわけで、圧縮率の話はとりあえず撤回。
Re:実際にやってみた (スコア:0)
はっきり言えば圧縮できているのは名前の部分だけで配列部分はほとんど圧縮されません.
ゲノム配列だと一本一本が長いので名前の占める比率は低いし,ESTなんかだとおそらく番号で管理されていて名前が短いので圧縮効率は低いだろうと,
ACTOSか… (スコア:1)
ここの登録だったんだよねぇ…
でも,こういうポイントで集めるのも一つの方法ではありますね.
『今日の屈辱に耐え明日の為に生きるのが男だ』
宇宙戦艦 ヤマト 艦長 沖田十三氏談
2006/06/23 JPN 1 - 4 BRA
Oracle 10gと同じようなことをやっていますね (スコア:1)
Super Souya
Re:Oracle 10gと同じようなことをやっていますね (スコア:0)
Re:Oracle 10gと同じようなことをやっていますね (スコア:0)
Oracleのいうエンタープライズグリッドと
今回の件は全然違いますよ。
Re:Oracle 10gと同じようなことをやっていますね (スコア:0)
MacやLinux (スコア:1, 興味深い)
Re:MacやLinux (スコア:0)
参加できる人間だけがすればよろしい。
できなくて、でもしたいなら自前で用意すればよろしい。
Re:MacやLinux (スコア:0)
研究所が本気でやる気あるのかという問題では?
# まーそれ言ったら何故にフレッツだけという話にもなるが。
# seti@homeと比べてやはり日本はこの程度かと思う。
Re:MacやLinux (スコア:2, 参考になる)
フレッツオフィスワイドを使って、参加者の利用ISPによらずIX経由せずにデータ交換できるというのが理由かと。
データ量かなり多いですから、IX通してたら負担がかなりかかりそうだし。
Re:MacやLinux (スコア:0)
OSのシェアを考えたら、無茶苦茶本気でやる気でしょう?
僻み根性にしか見えませんね。
Re:MacやLinux (スコア:0)
UD社のスポンサ [ud.com]に、MS社が入っています。
そのため、Mac、Linux版のクライア
Re:MacやLinux (スコア:0)
テストデータを流して検証とか?
2,000万円以上のスーパーコンピュータ? (スコア:1)
どの程度なのだろう?2000万円が、期間の2ヶ月分の
スーパーコンピュータレンタル料金にあうのか、それ
とも2000万円程度で買えるコンピュータのこと?
Re:2,000万円以上のスーパーコンピュータ? (スコア:1)
それにしても安いけど・・・。
もしかして、2000万ドルかも(笑
Re:2,000万円以上のスーパーコンピュータ? (スコア:1)
計算コストを CPU 時間料金に換算してみたとか。
# あてずっぽ
Re:2,000万円以上のスーパーコンピュータ? (スコア:1)
誤植かなにかだと思うけど, 一応スーパーコンピュータに分類されるSX-6i [nec.co.jp]が最小構成で1800万円ですね. でも最小構成じゃほとんど何も出来ないだろうし, ベクトルとグリッドじゃ対象となる問題の質も全く違うから比較の対象にはならないですね.
Re:2,000万円以上のスーパーコンピュータ? (スコア:1)
2000万円は一昔前だとオフコンだよねぇ。
ここにもデフレの波か?
そのうちパーソナルスパコンとやらが数万円で買えるようになったりして。
で、NTT西日本のADSLに繋いでチャットでもするのでした。
楽しいなぁ。
楽しいか?
〜◍
背景が読めない (スコア:0)
Re:背景が読めない (スコア:1)
後半の疑問についてはわかりませんが。
Re:背景が読めない (スコア:0)
三島違いでは?
国立遺伝学研究所がある三島は「静岡県三島市谷田1111」ですよ。
Re:背景が読めない (スコア:2, 参考になる)
NTT西日本の営業エリアは富山・岐阜・静岡以西 [ntt-west.co.jp]とのことですので、 静岡県三島市は西日本エリアと考えられますが如何。
Re:背景が読めない (スコア:2, 参考になる)
静岡県というのは東部と西部で東京電力と中部電力に分かれていたり(周波数が大井川を超えると変わる)とか,Jリーグのオールスター戦で西になったり東になったりするチームがあったり,分かりにくいですけど.
kaho
Re:背景が読めない (オフトピ) (スコア:1)
大井川ではなく富士川ですね。
元コメントの方はNTTの境界と電力会社の境界が混乱してしまっているようで。
Re:背景が読めない (スコア:1)
#日本海側は糸魚川だったかな?
電源周波数境界 (スコア:0)
もっとも、町内を流れていますので、東西岸で電源周波数が違ったらエラいことになってしまいますけどね。
昔、レコードプレーヤーを通販で買ったら、60Hz用が送られてきました。注文の時に富士川のどっち側か聞かれはしませんでしたけど。
#交流なのでAC
Re:背景が読めない (スコア:1, おもしろおかしい)
あのさ (スコア:0)
すでに「バイオインフォマティクス」という用語は米国では死語になりつつあって、「システム(ズ)バイオロジー」と言うほうが先端っぽい感じになってきつつあるんですよね。
しかし、いい時代になりましたね。
こういうGridが使えれば、暗号解読やり放題だもの。
Re:あのさ (スコア:1)
(RC5 に限ると)鍵長が 128bit あれば(画期的な解読法が見つからない限り)だいたい安心なんじゃないかな。
Re:あのさ (スコア:1)
> 死語になりつつあって、「システム(ズ)バイオロジー」と言
> うほうが先端っぽい感じになってきつつあるんですよね。
つか,システムズバイオロジーは広ーいバイオインフォの
一分野と思われ.
システムズバイオロジーでないバイオインフォも
いっぱいあると思います.
Re:あのさ (スコア:0)
www.marumo.ne.jp/c2/bf/status.html