パスワードを忘れた? アカウント作成
7439 story

お茶の間PC3,000台のグリッド実験 59

ストーリー by yoosee
余剰資源の有効な使い道 部門より

torus 曰く、 "YOMIURI ON-LINE の記事より、 NTT 西日本のプレスリリースによると、 NTT 西日本と国立遺伝学研究所はフレッツユーザ 3,000 名程度の協力を得て、 家庭用 PC の「余剰能力」を利用した大規模なグリッドシステムの共同実験を実施するそうだ。このグリッドにより、2,000万円以上のスーパーコンピュータ相当の処理を実現する見込み。
このプロジェクトは「Bio@Home」 とよばれ、 「生命情報解析研究に必要なアプリケーションの高速化やセキュリティ保護技術および流通するデータの分散・管理方法等の検証を共同で行うこと」や 「バイオインフォマティクスという新分野の研究を促進させるとともに、病気遺伝子の発見や新薬の開発などに寄与すること」を目的としているという。
PC の余剰能力を使うとはいえ、 協力者は電気代・HDDスペース・回線帯域などもそれなりに負担しなくてはいけないが、 その代わりに ACTOS Members から申し込むと、 ACTOS ポイントが対価として支払われるようだ。 United Devices による白血病治療薬の研究などとも関連がありそうだし、 2ch の UDチームなども黙ってはいないかも。"

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by doggie (6061) on 2004年02月04日 11時30分 (#487961) ホームページ

    CPUまわせば余計に電気喰うではないか。

    Takeshi HASEGAWA

    • Re:余剰資源? (スコア:2, すばらしい洞察)

      by 37A (12754) on 2004年02月04日 11時39分 (#487967) ホームページ 日記
      >CPUまわせば余計に電気喰うではないか。

      だから、でんこちゃんに怒られることのないNTT西日本
      のエリアなのです。
      --

      ----------------------------------------
      You can't always get what you want...
      親コメント
    • by kapaer (9728) on 2004年02月04日 11時56分 (#487982)
      新たなマシンで計算するよりはましかと。
      #ネタにマジレス?

      余談ですが、友人(約二名)がUDクライアントを入れたら、
      CPUの温度アラームが鳴ったそうです。
      #二人ともAthlon2600+。

      こういうクライアント入れるときは、放熱にも気を配らないといけないようです。
      親コメント
      • by gedo (7079) on 2004年02月04日 13時31分 (#488068) 日記
        こういうクライアント入れるときは、放熱にも気を配らないといけないようです。
        そりゃ、CPU負荷100%な状態がずーっと続くわけですからね。
        あとは、HyperThreding対応Pentium4機の場合、50%にぴったり張り付くので、100%は回避できるかも。
        親コメント
        • by tmiura (6268) on 2004年02月04日 15時24分 (#488220) 日記

          HyperThreadingだと裏番組がIdleなら一人で空いているだけ全部の資源を使い切るので、実質100%になりますよ。

          50%に見えるのは負荷モニタが物理的なマルチプロセッサとHTの各スレッドの区別をできてないだけ。

          親コメント
    • 空き時間でのリソース提供なので、実働時間でポイント値が変動し、月単位で獲得ポイントが判定される(最大ポイント値は、日平均12時間以上、実験全期間参加の場合)。募集カテゴリ別にいうと、

      1) 計算リソース提供:最大2500ポイント。CPU、メモリなどの計算リソースの提供(HDDの空きは1GB以上奨励)。フレッツ・ADSLおよびBフレッツ加入者対象で、2,500ユーザ程度。
      2) ディスクリソース提供:最大3750ポイント。ハードディスクを(プログラムを除くと)1GB程度(HDDの空きは2GB以上奨励)、CPU、メモリなどの計算リソースの提供。Bフレッツ加入者対象で、500ユーザ程度。

      数千台のPCの実働時間の計測と、グリッドコンピューティングの有償化というビジネスモデルも興味深いと思ったけど、実際には電気代が足りるかどうかの程度で、有償ボランティアに近い感覚かな。
      #計算中は、ディスプレイはオフでもいいんだよね。
      親コメント
    • by tietew (6130) on 2004年02月04日 11時38分 (#487966) ホームページ
      資源じゃなくて能力。タレコミ文にも電気代を負担しなければならないと書いてあるだろ。
      親コメント
      • by doggie (6061) on 2004年02月04日 12時07分 (#487993) ホームページ

        あー、失礼。確かに。読み間違えてました。

        Takeshi HASEGAWA

        親コメント
        • by nackey (3237) on 2004年02月04日 12時27分 (#488012)
          いやいや。電気は重要ですよ。
          SETI@homeやってますが、脱落者の多くは家人から過剰な電気代をとがめられたり、電力を消費してまでやることかという疑問をもったりしてやめていきますから。
          本来は「たまたまPCを動かしているときに余った計算資源を使わせてもらう」ものだったはずなので、アンインストールまではしなくてもいいんじゃないかと思うのですがね。
          親コメント
  • by Anonymous Coward on 2004年02月04日 12時14分 (#488002)
    今回の話は,BLASTを分散処理させるつもりなのでしょうか?
    以前私も考えたことがあったのですが,データベースを各ピアに持たせなければならない,というところがネックであきらめました.

    なぜBLASTを分散処理させたいかといえば,ゲノムのデータや遺伝子のデータは数台のサーバで処理できなくもないのですが,ESTという,ある細胞が発現しているmRNAを何でもいいから読んでしまえ,というやり方でとった配列が数十GBもの量になって,しかも加速的に増えているからなのです.
    そのためヒトゲノム全体に対しての検索は大して時間はかからないのですが,データベース全体としたとたん,結果を見るのに何十分も待たされることになってしまうという事態になっていると.

    計算自体はごく簡単なので分散処理するうまみはないのですが,とにかくデータベースが巨大なのでそれを分割して処理すればそれだけ早くなると期待できます.計算の依存性は最後の順位付けだけですし.
    でもそれには大量のデータを分割して各ピアに配布しなければならず(おそらく1ピアあたり数百MBは配布しないと利得がないはず),しかもそのデータが一年に何度も更新されるという問題があって,原理的には可能でも参加者の負担が大きいなあ,と.

    それに,遺伝研のBLASTサービスって全然人気ないのですよね.
    国内の研究者もみんなNCBIの方に投げているし.
    DDBJ自体もNCBIの人から「冗長だから無駄だ」と言われたことがあるとかないとか・・・
    ですのでそんな実験をしなければならない必要性というのが今一つ見えないというのが私の感想です.
    • by picard (4667) on 2004年02月04日 15時42分 (#488254) 日記
      >BLASTを分散処理させるつもりなのでしょうか?

      プレスリリースを見てるとそんな感じですね。

      >データベースを各ピアに持たせなければならない

      現在、NCBIのノンリダンダントな塩基配列(nt)の大きさが圧縮時で約2.9GBで、展開して約7GBというところでしょうか?もし、3000ノードのグリッドが構成できたとして、データベースを分割したら、1ノードあたり2~3MBになるので、Bフレッツならほんの僅かの時間で各ノードに転送でき、計算して、結果を収集できると踏んでいるのではないかと思って います。

      しかし、この3000ノードはヘテロというか全て性能が異なるのは明らかです。その他ネットワーク的な不確定要素もあり、きちんと答えを返さないノードもあるでしょう。そうした場合のエラー処理まで考慮しているのかというと、きっとそこまではできてないのではないかと疑ってしまいます。

      従って、収集した結果の信頼性が損なわれますので、遺伝研はこの結果を使えないということになりかねません。そこで、今回の話は、グリッドにかこつけてのNTT西日本のBフレッツ販促の一環ではないのかと邪推してしまうのです。

      親コメント
    • >それに,遺伝研のBLASTサービスって全然人気ないのですよね.
      >国内の研究者もみんなNCBIの方に投げているし.

      人気がないのは答えが返って来るまでに時間がかかるからですか?

      NCBIのほうはどのようなシステムになっているのでしょうか?巨大なサーバなのか、それとも分散システムなのでしょうか?
      • > 人気がないのは答えが返って来るまでに時間がかかるからですか

        ・宣伝が足りないから
        ・見た目がよくないから(ほとんどプレーンテキスト)
        ・遅いならまだしも,タイムアウトすることが多いから

        > NCBIのほうはどのようなシステムになっているのでしょうか?

        ・かなり前に聞いた話だとAlpha上のLinuxとIA-32のLinux百台くらいの分散サーバ
    • グリッドBLASTのようですね。 リリース [ntt-west.co.jp]の下の方に載ってます。

      おっしゃる通り、BLASTの場合はI/Oバウンドになりやすいので、データベースの分割がキモになります。だからこそ、光ファイバーとADSLユーザー限定なんだと思います。数百MBのデータでも、圧縮すればかなり小さくなるはずですし(formatdbをかけた後のデータは半分以下に圧縮可能)、光ファイ
      • by Anonymous Coward
        >formatdbをかけた後のデータは半分以下に圧縮可能

        手元のマウスゲノムから,X染色体のデータでやってみます.

        $ ls -l mm_chrX.mfa.n*

        mm_chrX.mfa.nhr 6687
        mm_chrX.mfa.nin 760
        mm_chrX.mfa.nsq 38875226

        $ tar cfvz mm_chrX.tar.gz mm_chrX.mfa.n*
        $ ls -l mm_chrX.tar.gz

        mm_chrX.tar.gz 36315566

        と,formatdbをかけたものは元々配列がハッシュ値に書き換えられてるので圧縮効率はよくないです.元の94%のサイズにしかなっていませんね.
        fastaファイルのformatdbは1/4くらいになりますけど.
        生配列を送って手元でformatdbした方が転送効率はよ
        • あれ、ncbiのnrで同じこと(FASTA→formatdb→gzip)やってみたら半分以下にはなったんですけど。
          何かが違うのかな。つーわけで、圧縮率の話はとりあえず撤回。
          • あ,それはきっと遺伝子だから.nhrファイルにたくさんプレーンテキストで(長い)名前が入ってますよね.
            はっきり言えば圧縮できているのは名前の部分だけで配列部分はほとんど圧縮されません.

            ゲノム配列だと一本一本が長いので名前の占める比率は低いし,ESTなんかだとおそらく番号で管理されていて名前が短いので圧縮効率は低いだろうと,
  • by znc (2768) on 2004年02月04日 11時25分 (#487958)
    Bフレッツの工事費無料キャンペーンの引き換えが
    ここの登録だったんだよねぇ…

    でも,こういうポイントで集めるのも一つの方法ではありますね.
    --
    『今日の屈辱に耐え明日の為に生きるのが男だ』
    宇宙戦艦 ヤマト 艦長 沖田十三氏談
    2006/06/23 JPN 1 - 4 BRA
  • グリッドコンピューティングの時代が訪れたんですかね。
    --
    Super Souya
  • MacやLinux (スコア:1, 興味深い)

    by Anonymous Coward on 2004年02月04日 11時56分 (#487983)
    必須環境 : Windows2000またはWindowsXP端末 これじゃあ、参加できない。
    • by Anonymous Coward
      別に強制でもそれに準じるものでもなし。
      参加できる人間だけがすればよろしい。
      できなくて、でもしたいなら自前で用意すればよろしい。
      • by Anonymous Coward
        協力者のやる気というより、
        研究所が本気でやる気あるのかという問題では?

        # まーそれ言ったら何故にフレッツだけという話にもなるが。
        # seti@homeと比べてやはり日本はこの程度かと思う。
        • Re:MacやLinux (スコア:2, 参考になる)

          by seldon (5637) on 2004年02月04日 14時06分 (#488089)
          ># まーそれ言ったら何故にフレッツだけという話にもなるが。

          フレッツオフィスワイドを使って、参加者の利用ISPによらずIX経由せずにデータ交換できるというのが理由かと。
          データ量かなり多いですから、IX通してたら負担がかなりかかりそうだし。

          親コメント
        • by Anonymous Coward
          >研究所が本気でやる気あるのかという問題では?

          OSのシェアを考えたら、無茶苦茶本気でやる気でしょう?
          僻み根性にしか見えませんね。
        • by Anonymous Coward
          おそらく、ここで使われるGridクライアントソフトは cell computing [cellcomputing.jp]と同じ、United Devices社 [ud.com]のものでしょう。

          UD社のスポンサ [ud.com]に、MS社が入っています。
          そのため、Mac、Linux版のクライア
    • by Anonymous Coward
      オフトピですが、一般にこういったクライアントでオープンソースなものは、コードの悪意ある改変などの問題はないのでしょうか?

      テストデータを流して検証とか?
  • >2,000万円以上のスーパーコンピュータ相当の処理を実現

    どの程度なのだろう?2000万円が、期間の2ヶ月分の
    スーパーコンピュータレンタル料金にあうのか、それ
    とも2000万円程度で買えるコンピュータのこと?
  • by Anonymous Coward on 2004年02月04日 11時26分 (#487960)
    何で三島なのにNTT西日本なんだろ?それに、遺伝研ならOBIgridに参加しているはずだが? ... 強引にNTT西日本が遺伝研を担いだのだろうか? ...
  • by Anonymous Coward on 2004年02月04日 16時53分 (#488384)
    > バイオインフォマティクスという新分野

    すでに「バイオインフォマティクス」という用語は米国では死語になりつつあって、「システム(ズ)バイオロジー」と言うほうが先端っぽい感じになってきつつあるんですよね。

    しかし、いい時代になりましたね。
    こういうGridが使えれば、暗号解読やり放題だもの。
    • by tietew (6130) on 2004年02月04日 17時35分 (#488454) ホームページ
      それでも RC5-72 の解読はまだ終わってませんね。
      (RC5 に限ると)鍵長が 128bit あれば(画期的な解読法が見つからない限り)だいたい安心なんじゃないかな。
      親コメント
    • by arnika (19815) on 2004年02月04日 18時43分 (#488548) 日記
      > すでに「バイオインフォマティクス」という用語は米国では
      > 死語になりつつあって、「システム(ズ)バイオロジー」と言
      > うほうが先端っぽい感じになってきつつあるんですよね。

      つか,システムズバイオロジーは広ーいバイオインフォの
      一分野と思われ.

      システムズバイオロジーでないバイオインフォも
      いっぱいあると思います.
      親コメント
    • by Anonymous Coward
      こーゆーのとかか
      www.marumo.ne.jp/c2/bf/status.html
typodupeerror

吾輩はリファレンスである。名前はまだ無い -- perlの中の人

読み込み中...