パスワードを忘れた? アカウント作成
7588 story

火星探査車Spiritの障害の詳細が明らかに 51

ストーリー by Oliver
片道10分のリモートデバッグ 部門より

higon 曰く、 " eeTimes「先月に起こった火星探査機のトラブルが明らかに」 より。一月下旬、スピリットはシステムの更新時のプログラム転送中にエラーを起こし、その後通信を絶った。スピリットとの通信を失ったというニュースは深刻に受け止められた。反応がないということは、火星探査機を失った可能性もある。JPLの研究員は地球から何度もリブートコマンド等を送信するが状況は一向に改善しない。再起動後にシステム状態を報告しない探査機に何が起こったのかを知るのは難しいことだった。
解決の糸口となったとは「システムがおかしくなる前に、ファイル転送に失敗していること」であった。メモリアロケーションエラーを起こしているに違いないとある研究者は考えた。対処するための情報はドキュメントに記されていた。結局、火星表面一台取り残されたスピリットを救ったのは、「ファイルシステムをマウントしないで再起動」するコマンドだった。"

詳細はこうだ。RAMディスク上に残ったゴミディレクトリが原因で、OSがメモリアロケーションエラーを起こした。自動でリブートしたはいいが、再起動時ファイルシステムをマウントする段階でメモリを割り当てに失敗し、またリブート、リブートリブート。結果スピリッツは反応を返さなくなった。ただし、探査機はいわゆるセーフモードの状態であり、情報送信しないものの、地球から送られたコマンドは受信していた。つまり、彼らが「マウントなし再起動」を命じるまで、スピリットは一人きりでけなげに命令を実行し、再起動を続けていたのだ。彼らはその後、通信を回復したスピリッツのローレベルコマンドでファイルとディレクトリを削除することで、システムを復旧した。
現在、JPLは念のためにアロケーションエラーハンドラの処理を改善する作業に取り掛かっている。"

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by Anonymous Coward on 2004年02月23日 3時52分 (#501055)
    火星探査車を支えるOSとハードウェア [hotwired.co.jp]と題したAP通信の記事は
    日本語でCMを交えつつ、わかりやすく概略が書かれてると思います:)

    # なんで、こっちにもリンクしなかったですか?>>たれ込み人
    • by higon (6160) on 2004年02月23日 7時05分 (#501071) 日記

      たれ込みの人です。

      # なんで、こっちにもリンクしなかったですか?>>たれ込み人
      単純に、日本語の記事をチェックしていませんでした。
      検索しときゃよかったなと焦っているところです。

      「RAMディスク」について、
      たれ込みの人が、「メモリ上にディスク→RAMディスク」と勝手な発想をしてしまった
      ため、そう書きました。フラッシュはROMの一種ですね。

      元記事に、前までわからなかったことが突っ込んで書いてあったので、興味深いなと
      思い、急いでたれ込みの文を作りました。VxWorks等、衛星のスペックについては既知
      のものなのでカットして何が起こったのかだけを書きました。元記事の翻訳ではありませ
      ん。ですからこのたれ込みを読んで突っ込んだ内容を知りたくなった人は元記事や関連記事を読んでください。(ですから日本語の記事等をポイントしてくださるのは助かるし、たれ込みを読んだ後、記事を読んだ人がいるのは嬉しいことです。)

      #あと「スピリッツ」は誤字で、「スピリット」が正しい。

      親コメント
      • 親コメントのACの中の人です。

        > 単純に、日本語の記事をチェックしていませんでした。
        > 検索しときゃよかったなと焦っているところです。

        たれ込みするときはいろいろ悩みますからね:)
        私もあとで反省すること多々です。

        > ですからこのたれ込みを読んで突っ込んだ内容を知りたくなった人は元記事や関連記事を読んでください。(ですから日本語の記事等をポイントしてくださるのは助かるし、たれ込みを読んだ後、記事を読んだ人がいるのは嬉しいことです。)

        さらーっと流し読み後に、ツッコミ入れてみたので喜んで頂けてうれしいです。

        # スコア5貰えるなら面倒でもIDにしておけばよかった_| ̄|○
        親コメント
        • # スコア5貰えるなら面倒でもIDにしておけばよかった_| ̄|○

          ACで5をもらって、IDでオフトピをもらうと尚更浮かばれないような 。;0

          ん。ですからこのたれ込みを読んで突っ込んだ内容を知りたくなった人は元記事や関連記事を読んでください。(ですから日本語の記事等をポイントしてくださるのは助かるし、たれ込みを読んだ後、記事を読んだ人がいるのは嬉しいことです。)

          このコメントも最後の三行の編集中にプレビューするつもりが投稿ボタンを押してげげげとなりました。
          改行なしですからですから。焦るとろくなことない。
          まてよ…プレビューボタンの隣に投稿ボタンを置くインターフェース設計が悪い。<コラ

          #ときどき小市民のち自己虫。

          親コメント
  • 大発見! (スコア:4, おもしろおかしい)

    by Anonymous Coward on 2004年02月23日 4時26分 (#501059)
    >地中から送られたコマンドは受信していた。

    火星人の存在を示す証拠が見つかりました。
  • by Anonymous Coward on 2004年02月23日 5時22分 (#501066)
    ↓ここに書かれていましたよ。日本語訳をされている方も
    確か何処かにいらっしゃったはず…。(失念すまそ)
    http://catless.ncl.ac.uk/Risks/19.54.html#subj6
  • えーと (スコア:4, 参考になる)

    by Anonymous Coward on 2004年02月23日 5時56分 (#501068)
    いまいち解説が遠まわしで分かりにくいが、
    ファイルシステムにあるファイルの数が増えていくと、その管理用にメモリの使用量が増える。

    ファイル数が増えすぎて、メモリが足りなくなって動作不良を起こし、リブート。

    リブートしてもファイルシステムを再マウント時に当然またメモリが足りなくなってリブート。

    を延々繰り返したという理解でOK?
    Oliver氏はRAMディスクと書いているので「何でRAMディスクを作るときに失敗するのよ」と混乱したが、
    原文を見るとFlashファイルシステムと書かれていた。
    元記事のほうが「詳細」で正確なので混乱された方はそちらを。

     しかし、管理できなくなるまでファイルを作れちゃうシステムは
    「頑強なシステム」と言い張ることが出来るんだろうか?
    • Re:えーと (スコア:1, 興味深い)

      by Anonymous Coward on 2004年02月23日 9時14分 (#501089)

      >ファイルシステムにあるファイルの数が増えていくと、その管理用にメモリの使用量が増える。
      >ファイル数が増えすぎて、メモリが足りなくなって動作不良を起こし、リブート。
      >リブートしてもファイルシステムを再マウント時に当然またメモリが足りなくなってリブート。

      あっていると思います。

      >Oliver氏はRAMディスクと書いているので「何でRAMディスクを作るときに失敗するのよ」と混乱したが、
      >原文を見るとFlashファイルシステムと書かれていた。

      どこに「RAMディスクを作るとき」と書いてありますか?「ファイルシステムをマウント」す
      る時。マウント時に呼び出されるユーティリティ(コマンドのことか)が、ワーク用にRAM
      上でディレクトリ構造を構築する際メモリを使い切ってしまった。のだと解釈しました。

      ファイルシステム上に不要なディレクトリが残ったのが予想外だったようで、
      Flash/RAMディスク上に配置できるファイルとディレクトリの数に限界がある問題は
      打ち上げ前から把握されていたようです。

      親コメント
      • by Anonymous Coward
        だってRAMディスクなら、リブート時にさらな状態から作ってマウントするから。
        「何でごみが残るの」とか「Flashが問題だったというけど
        この話のどこにFlashが出てくるんだ」と謎だらけだったという話。
    • by kimu (20535) on 2004年02月23日 11時02分 (#501124) 日記
      UNIXでいう「i-node が足りなくなった、、、」という 状態なのかな?
      親コメント
      • by Anonymous Coward
        DOSで言うところのFATが足りなくなったということかな?

        # ↓次どうぞ
        • Re:えーと (スコア:1, おもしろおかしい)

          by Anonymous Coward on 2004年02月23日 12時20分 (#501151)
          両国国技館でいうと満員御礼ということかな?
          親コメント
          • by Anonymous Coward
            アレゲ祭り3日目ということかな?

            # ↓次どうぞ
            • by Anonymous Coward
              貴方が足りなくなるのはお金? それとも時間?

              # 時間なのでAC
              • by 37A (12754) on 2004年02月23日 13時32分 (#501191) ホームページ 日記
                >貴方が足りなくなるのはお金? それとも時間?

                愛です。
                --

                ----------------------------------------
                You can't always get what you want...
                親コメント
              • by Anonymous Coward
                > 愛です。

                そんなものは最初からない!!
              • by Anonymous Coward
                >>貴方が足りなくなるのはお金? それとも時間?
                >愛です。

                んだ、んだ。
                きっと、再起動したら愛がたっぷりに違いねぇだ。

              • by Anonymous Coward
                >んだ、んだ。
                >きっと、再起動したら愛がたっぷりに違いねぇだ。

                人生はリブートできないアルよ。
                そこんとこきびしいアルよ。

                # それでもリブートしたい、という人のためにこの本 [amazon.co.jp]をお勧めしよう。
              • by kiyotan (3912) on 2004年02月24日 10時42分 (#501604) 日記

                きっと、再起動したら愛がたっぷりに違いねぇだ。

                きっと、現在の人格をマウントしないで
                人生を再起動ってコマンドが必要だと思うけど
                ちゃんとあらかじめ準備してある??

                #もちろん用意してある。この問題は
                はじめから予想されていたから
                #ってことだったらヤだな...
                --
                Kiyotan
                親コメント
        • by greentea (17971) on 2004年02月23日 22時37分 (#501409) 日記
          俺もFAT減らしたいなぁ。。。
          --
          1を聞いて0を知れ!
          親コメント
        • by Anonymous Coward
          > DOSで言うところのFATが足りなくなったということかな?

          「UNIX で言うところの UFS が足りなくなった」に似た
          違和感を感じるのですが、DOS で「FAT が足りない」という
          表現はよくあるのでしょうか。
          • by knb (11918) on 2004年02月23日 16時19分 (#501245) 日記
            ルートディレクトリに使用出来るディレクトリエントリ数の制限に 引っかかって、ルートディレクトリにファイルが作れなくなるってのはありましたねぇ。
            親コメント
            • by tesuri (17500) on 2004年02月23日 22時16分 (#501395)
              上限が決まってるのはルートディレクトリだけじゃないはず。
              ただ、ルートディレクトリは極端に少ない(200個ほど)ので、よく問題になってたんではなかったかと。
              FAT32 からは、このへんが解決されたと聞いてるんですが、どうなんでしょう?
              親コメント
              • by Anonymous Coward
                >上限が決まってるのはルートディレクトリだけじゃないはず。
                FAT12でもルート以外は拡張できますので、ご安心を。
          • by Anonymous Coward
            ここでのFATはもともとのfile allocation tableを指していると見た。
            (「FAT」だけでFAT filesystemを指すこともまああるけどさ)。
          • by Anonymous Coward
            >違和感を感じるのですが、DOS で「FAT が足りない」という
            >表現はよくあるのでしょうか。

            ないでちゅ、
            容量とFATが対応関係になるのが無くなるのであれば
            容量がない事を意味します。

            #FATって予備にもう1本ありましたよね。使ってなかったと思ったけど
            # http://kone.vis.ne.jp/diary/diaryb5.html
            #適当にリンクを貼ってみたのでAC
            • by Anonymous Coward
              中途半端な知識でわざわざ恥をかきにくることないのに…
          • by Anonymous Coward
            File Allocation Table(FAT)はファイルシステムの名称である以前に
            ディスク管理のためにディスク上に格納されたデータ構造です。
            つまらんマジレスなんでAC
  • ふむふむ (スコア:2, 参考になる)

    by Futaro (2025) on 2004年02月23日 7時56分 (#501080) ホームページ 日記
    火星と地球でなくとも、私みたいに普段遠くからリモートで自宅サーバを管理している場合には、なんかにたようなことはありがちなことかも。実際に、高負荷で似たような状態に陥ったこともないわけではないなぁ、と昔を思い出したり。

    あとね、これ、Flashメモリの上に有るって言うことは、つまり、FlashメモリのR/W保証回数を考えると、耐用年数はどのくらいなのか。。。。

    気になるところでもありますね。
    • 市販のフラッシュメモリ類でも、SDカードはデータを記録する場合、
      書き込みセクタをその都度ランダムに選んで書き込むそうです。こ
      れによって、頻繁に書込や消去とかがあっても全セクタを均等に使
      えてメディアの寿命が伸びるそうです。

      コンパクトフラッシュなんかは、端から書き込んでいるみたいで、
      エラーセクタがあるメディアをチェック付で再フォーマットすると
      必ず同じセクタで動きが停滞してしまいます。
      (あ、もちろん暫くたってそのセクタを不良ブロックにして先進みますけど)
      親コメント
    • by murataken (2205) on 2004年02月23日 10時51分 (#501118)
      年数って言うほど、そんなに長く活動しないと思います(汗。
      親コメント
    • by tyuu (9154) on 2004年02月23日 10時59分 (#501121) ホームページ 日記
      > FlashメモリのR/W保証回数を考えると、耐用年数はどのくらいなのか

      それ以前に、砂塵やら放射線やら、劣悪な環境でしょうから、
      本体の耐用年数の方が気になります。
      # 結構、大丈夫なのかな?
      親コメント
    • by makoto-k (12526) on 2004年02月24日 5時43分 (#501544)
      > 火星と地球でなくとも、私みたいに普段遠くからリモートで自宅サーバを管理している場合には

      しかも、round-trip time が、20分近い(今はどれくらいの距離なのかな?)わけですから、大変ですよね。
      TCPによる通信はもちろんですが、sshやtelnetみたいにインタラクティブなセッションでの操作は不可能な距離ですね。

      # リモートの Solaris マシンをリブートするつもりが init 5 して電源OFFって泣いたことがあるのでID
      親コメント
  • by n68 (18156) on 2004年02月23日 12時05分 (#501148)
    火星つながりでこんなもの [unixuser.org]もありましたね。
  • by Anonymous Coward on 2004年02月23日 23時07分 (#501434)
    ITmediaの2/5の記事、火星探査車の不調、原因は「ファイルの消し忘れ」 [itmedia.co.jp]よりも新しい点ってどこなんですか?
  • by Anonymous Coward on 2004年02月24日 11時41分 (#501628)
    ゴミメールで/var/spool/mqueue がいっぱいでした。
    リスタートしても戻らん。

    本当にあった。オフトピなのでAC
  • by Anonymous Coward on 2004年02月24日 19時41分 (#501859)
    火星で飲みすぎてだめになったわけじゃなかったんだね。
    それはめでたい。

    飲もう。

    # There are no spirits here from 1969 ....
typodupeerror

皆さんもソースを読むときに、行と行の間を読むような気持ちで見てほしい -- あるハッカー

読み込み中...