ページ内ジャンプ:

アレゲなニュースと雑談サイト

hylomによる 2008年10月27日 13時48分の掲載
できれば専用ソフトを使うべき、だそうです 部門より

shado2001の日記で知ったのだが、「Excel 2007の統計機能は不正確だから使うな」という論文が、Computational Statistics and Data Analysis誌に掲載されているそうだ(該当号の論文要旨、三重大学の奥村教授のブログ「Excel使うな」)。

論文では、Excel 2007の統計的分布解析や乱数生成、推定関数は精度の面で不正確であり、Excel 2007の統計関数は正しい結果を返さない可能性があるため、もし統計解析を行いたいならExcelは使用すべきでない、という結果や、Excelは競合ソフトであるGnumericやOpenOffice.org Calcを比較したところ、Excel 2007の統計機能の信頼性はそれらと比較して大幅に劣る、という結果が掲載されている。

さらに、Excel 2003では乱数生成アルゴリズムとしてにWichmann-Hill法を実装したが実装が誤っており、かつMicrosoftはそれを修正するというパッチをリリースしたが、それでもアルゴリズムの実装に間違いがあるという検証結果や、Excel 2007で統計データをグラフ化する場合、デフォルトでは「適切な」グラフを描画してくれないため、パラメータを変更すべきという論文も掲載されている。

企業や研究機関などでもExcelによる統計処理は多く行われているようだが、厳密な統計結果が必要な場合はExcelは使わない方が良さそうだ。

この議論は賞味期限が過ぎたので、保存されている。 新たにコメントを書くことはできない。
表示オプション しきい値:
  • 大丈夫 (スコア:5, おもしろおかしい)

    Anonymous Coward : 2008年10月27日 14時09分 (#1444844)
    日本ではExcelを方眼紙ワープロとして使うのが基本なので
    そんなややこしい機能を使うような人はほとんどいません :-)
    • Re:大丈夫 (スコア:3, おもしろおかしい)

      awajiya (2498) : 2008年10月27日 22時25分 (#1445217) ホームページ
      折しもExcelをビデオ配信にも使うというニュースが.

      http://wiredvision.jp/news/200810/2008102720.html [wiredvision.jp]

      > われわれが本当に気に入っていることは、ExcelのスプレッドシートにAC/DCの
      > 音楽を含めることで、企業側のファイアーウォールを覆せたことだ。
      > どんな企業のファイアーウォールも、Excelは通す
    • 3個のコメント が現在のしきい値以下です。
  • 三重大学の奥村教授のブログ「Excel使うな」:

    > まず最初の論文(略)のアブストラクト:
    > 要約:どうしょーもないから使うな。

    > 次の(略)のアブストラクト:
    > 要約:どうしょーもないから使うな。

    ワラタ。全く異論無し。

    Microsoftなら統計や数値計算の分野でもトップレベルの研究者を抱えている
    だろうに、それなのにいつまで経っても売り物が改善されないというのは、
    単にMS自身にやる気がないんでしょうね。
    MSの研究者もExcelの改良するために雇われているんじゃないだろうし。
    てゆーか、まっとうな研究者ならExcelの統計機能なんて使わないし。
    (もちろん、Excelで用が足りることにExcel使うのは問題ないですよ。)

    R [r-project.org]なら、世界中の研究者が使って常にチェックの
    目を光らせているので、安心して使えますね。GUI弱いけど。

    Sage [sagemath.org](Mathematica置換を狙ったOSS)とか、
    Octave [gnu.org](Matlab置換を狙ったOSS)とかの具合は最近どうなんでしょうか?>識者
    • Anonymous Coward : 2008年10月27日 14時54分 (#1444889)

      Microsoftなら統計や数値計算の分野でもトップレベルの研究者を抱えている
      だろうに、それなのにいつまで経っても売り物が改善されないというのは、
      単にMS自身にやる気がないんでしょうね。

      多分「やる気がない」んじゃなくて、互換性の問題でしょう。
      最初の実装が悪いのが分かっていても、それを直したところでどんな影響が及ぶのか分からないとなかなか直せません。
      例えばこれまであるセルが0になることを前提にしていたシートを新しいExcelで開いたら1e-23とかになったら困る、とか。
      その点新しく作られたソフトは負の遺産も少ないので有利というわけで。
    • 2個のコメント が現在のしきい値以下です。
  • noopable (36825) : 2008年10月27日 15時07分 (#1444899) 日記
    どうりで、エンゲル係数とBMI値が高かったわけです。
  • なぜWichmann-Hill法 (スコア:1, 参考になる)

    Anonymous Coward : 2008年10月27日 14時16分 (#1444851)
    よく知らないのですが、Pythonの乱数モジュールを調べたときに発見したWichmann-Hill法。
    Python標準はメルセンヌツイスタですが、後方互換のためにWichmann-Hill法も残しているそうです。

    ただし、この Wichmann-Hill 生成器はもはや推奨することができないということに注意してください。現在の水準では生成される周期が短すぎ、また厳密な乱数性試験に合格しないことが知られています。
    http://www.python.jp/doc/current/lib/module-random.html [python.jp]
    PythonのメルセンヌツイスタはCで実装されてるのになぜか遅いんですよねえ。Pythonの内部形式に変換するのに時間かかってるぽいのですが、なんとかならないかなあ。
  • 不正確でしたよ(DOS版)
    統計分析用のアドオンを使ってましたから、そちらの問題かもしれませんが。

    PCで傾向を見てから、本番はSASでした。
    --
    〜後悔先に立たず・後悔役に立たず・後悔後を絶たず〜
  • Anonymous Coward : 2008年10月27日 14時01分 (#1444837)
    最近は大学の卒論とかでもExcelを使う例が増えているとか。

    きっとお手軽&みんな持っているからだとは思われますが……。
  • Re:デジャブ? (スコア:1, 参考になる)

    Anonymous Coward : 2008年10月27日 14時03分 (#1444840)
    Excel2002だと、sinh(1e-19)がゼロになったりして駄目駄目なんですが、2007では直ってますか?

    # xがゼロの近傍で、sinh(x)≒xになる筈。
    • Re:デジャブ? (スコア:2, 参考になる)

      kawa-t (37052) : 2008年10月27日 20時20分 (#1445104) 日記
      ただ単に、倍精度の浮動小数点で計算していて、0近傍の値を考慮していないなら、処理系を問わず、そうなります。内部的には、

      sinh(x)=(exp(x)-exp(-x))/2

      で計算していて、0近傍でexp(x)≒1+x、exp(-x)≒1-xとなるので、これらの値が倍精度で表現出来なくなったところで終わりです。パーセントオーダーの精度だと5e-15で終わりです。

      MzScheme(Schemeの処理系の1つ)でも試してみましたが、倍精度なので結果は同じです。sinhは無いので、上記の式を使いました。

      ただ、個人的には、この手の計算をするときにExcelを使う奴の方が間違っていると思う。
    • 1個のコメント が現在のしきい値以下です。
  • elderwand (34630) : 2008年10月27日 14時07分 (#1444843) 日記
    いえいえ、Excel が論文ネタを提供してるわけですよ。

    これで、卒業論文・修士論文になるんだったら(さすが博士論文は無いと思うが)マイクロソフトの教育界への貢献は甚大なものです。

  • Re:デジャブ? (スコア:5, すばらしい洞察)

    flutist (16098) : 2008年10月27日 14時19分 (#1444855)
    詳しい人 -> 使わない
    詳しくない人 -> わからない

    で全然苦情が発生してない、とか。
  • Re:デジャブ? (スコア:2, 参考になる)

    Anonymous Coward : 2008年10月27日 14時29分 (#1444867)
    同じくソースありませんが。
    97年か98年頃に大学で受けた統計の講義にて、Excelを使った実習もやっていたのですが、当時既に統計機能にバグがあることが教官によって指摘されていました。統計機能のアドオンで定義されている関数ではまともな結果がでないので、教科書の定義どおりの式を自分で入力して使え、と。
    具体的なバグの内容はおぼえていませんが、まったくおかしな数字が出る、本来の値の数分の1の値が出る、精度が悪い等の症状で、3,4か所以上はあった気がします。

    いまはExcelの統計機能を使う機会はないのですが、まだ直っていなかったことに驚きました。
  • Re:デジャブ? (スコア:5, 参考になる)

    likeamagic (32922) : 2008年10月27日 14時40分 (#1444876)
    いつからかはわかりませんが、ココ [gunma-u.ac.jp]ではかなり前から指摘してます。
    これ読んだときには、注意して使えば良い程度のレベルだなって思いました。
  • 127.0.0.1 (33105) : 2008年10月27日 17時23分 (#1444978) 日記
    > # コメントの信頼性も大幅に低下してるようですな

    いやはや全くもって否定しがたい事実です。
  • SteppingWind (2654) : 2008年10月27日 18時29分 (#1445035)

    逆です. Excelがそういった現実の数値データを取り扱うのに必要な, 有効桁という概念が無いから使えないのです(最近のバージョンはもしかしたら有るかもしれないけど). 少数以下2桁(有効桁数3桁)で加減乗除すればいいような課題は, 4桁以上の数は出す必要が無いのではなく, 出してはいけないのです. すなわち実験データ処理や統計のソフトで「精度が要求される」と言った場合, 有効桁数を多くする以外に有効桁数を考慮した計算(例えば有効桁数の異なる数値の積では結果の有効桁数を小さいほうに合わせるとか)が必要になります.

    さらにExcelでは表示桁数を設定しても内部で保持しているデータは表示とは別になっているので, 例えば

    セルA: 10 / 3
    セルB: 10 / 3
    セルC: セルA + セルC

    を有効桁数1桁で取り扱った時の結果が, 本来はセルA=3, セルB=3, セルC=6となるべきところ, セルA=3, セルB=3, セルC=7になって, 見た目と結果が異なってくるなんてことも起こりえます.

    まあ, これぐらいなら回避の方法はいろいろありますし, 他の表計算ソフトでも似たような現象は起こりうるんですけどね. 正しい結果を得るためにはデータの内部形式とかも考慮しないといけないので, 専用の統計処理ソフトと比べると労多くしてってことになりやすいですね. 場合によっては10進演算で桁数管理がしっかりしているCOBOLの方がましなんてこともあるみたいで.

    • Re:つーか (スコア:2, 興味深い)

      Stealth (5277) : 2008年10月27日 19時25分 (#1445062)

      それは
      A1: =ROUNDDOWN(10/3, 0)
      A2: =ROUNDDOWN(10/3, 0)
      A3: =A1+A2
      といったように、明示的に「切り捨てる」(または ROUNDUP で切り上げたり、ROUND で丸めたり) する、という事を入力者自身がサボっているからでしょう?

      単に「表示桁数」だけいじって満足しているのが悪いのでは。

      # 「表示形式」を変更したら「値も変更された」なんて方が問題アリアリだと思う。

    • 2個のコメント が現在のしきい値以下です。
  • Lafiell (6631) : 2008年10月27日 22時46分 (#1445232)
    統計の「と」というか"S"くらいしか囓っていませんが、100×2500くらいのシートでしょっちゅう
    計算しています。小数点下6桁目くらいでExcelの計算結果と統計ソフトの結果にズレが出てきて、
    「おかしいねえー。ここ(差で)0にならないと駄目なはずだよねえ」
    と一所懸命検算したことがあります。どういう計算だったか今手元にシートが無いので
    判りませんが、標準誤差とか四則演算位のはずなんですが。

    ppm表示で×10^6とかやるから、目立つんですよね。
  • Anonymous Coward : 2008年10月28日 1時07分 (#1445373)
    >> MSが本気で直そうとしていないということだと考えられます。

    かなり前(5年以上前だな)にどこぞのweb siteで見た話なのでホントかどうかわかりませんが,MS側の見解としては「そもそも統計処理のソフトじゃなくて会計計算とかのためのものなので,本気の統計処理とかに使ってくれるな」という話だったはずです.
  • the.ACount (31144) : 2008年10月29日 15時38分 (#1446591)
    Excel 互換がウリなら、バグも再現せねばならない。
  • 11個のコメント が現在のしきい値以下です。