パスワードを忘れた? アカウント作成
38787 story
ソフトウェア

Excelの統計機能は不正確 94

ストーリー by hylom
できれば専用ソフトを使うべき、だそうです 部門より

shado2001の日記で知ったのだが、「Excel 2007の統計機能は不正確だから使うな」という論文が、Computational Statistics and Data Analysis誌に掲載されているそうだ(該当号の論文要旨、三重大学の奥村教授のブログ「Excel使うな」)。

論文では、Excel 2007の統計的分布解析や乱数生成、推定関数は精度の面で不正確であり、Excel 2007の統計関数は正しい結果を返さない可能性があるため、もし統計解析を行いたいならExcelは使用すべきでない、という結果や、Excelは競合ソフトであるGnumericやOpenOffice.org Calcを比較したところ、Excel 2007の統計機能の信頼性はそれらと比較して大幅に劣る、という結果が掲載されている。

さらに、Excel 2003では乱数生成アルゴリズムとしてにWichmann-Hill法を実装したが実装が誤っており、かつMicrosoftはそれを修正するというパッチをリリースしたが、それでもアルゴリズムの実装に間違いがあるという検証結果や、Excel 2007で統計データをグラフ化する場合、デフォルトでは「適切な」グラフを描画してくれないため、パラメータを変更すべきという論文も掲載されている。

企業や研究機関などでもExcelによる統計処理は多く行われているようだが、厳密な統計結果が必要な場合はExcelは使わない方が良さそうだ。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 大丈夫 (スコア:5, おもしろおかしい)

    by Anonymous Coward on 2008年10月27日 14時09分 (#1444844)
    日本ではExcelを方眼紙ワープロとして使うのが基本なので
    そんなややこしい機能を使うような人はほとんどいません :-)
    • Re:大丈夫 (スコア:3, おもしろおかしい)

      by awajiya (2498) on 2008年10月27日 22時25分 (#1445217) ホームページ
      折しもExcelをビデオ配信にも使うというニュースが.

      http://wiredvision.jp/news/200810/2008102720.html [wiredvision.jp]

      > われわれが本当に気に入っていることは、ExcelのスプレッドシートにAC/DCの
      > 音楽を含めることで、企業側のファイアーウォールを覆せたことだ。
      > どんな企業のファイアーウォールも、Excelは通す
      親コメント
    • Re:大丈夫 (スコア:1, 興味深い)

      by Anonymous Coward on 2008年10月27日 18時30分 (#1445036)
      画面上表示されていても、印刷すると文字が溢れてしまうことがある
      「問題」を早く直して欲しい。
      統計とか、そんなオマケ機能の修正は後回しでいいから。

      ですか?
      親コメント
      • Re:大丈夫 (スコア:2, 興味深い)

        by USH (8040) on 2008年10月27日 21時26分 (#1445160) 日記

        画面上表示されていても、印刷すると文字が溢れてしまうことがある
        「問題」を早く直して欲しい。

        ほぼ同じ原因の「問題」ですが「(行の)高さを(中身にあわせて)自動調節する」には散々泣かされました。

        巨大な表をいちいち紙に打ち出して調節して、世界の森林資源削減に貢献させてもらいました。
        印刷プレビュー機能である程度の微調整ができるのを知ったのは、その後。
        改ページプレビューと印刷プレビューが違うって、どういうこと?
        何の「プレ」ビュー?

        統計とか、そんなオマケ機能の修正は後回しでいいから。

        はい。エクセル大好きな役所としては、sum でさえ要らないかも知れません。
        # 以前、sum使えばすむような集計作業を、なぜか手計算でやってる文書を見たことがあるので。しかも計算間違いつき
        親コメント
        • by Lafiell (6631) on 2008年10月27日 22時49分 (#1445235)
          心の底から同意します(>_)
          しかも、印刷「プレ」ビューできちんと入っているように見えても、印刷すると入って
          無いことがしばしば。あれは「うそ」ビューです。
          #パトリスで出した特許のCSVデータとか、もう大変。
          親コメント
          • by walkingreed (36389) on 2008年10月28日 11時05分 (#1445589)
            あと、プリンタ変えるとはみ出していたりとかも・・・。
            余計な機能つけないでいいから、こういうところをまず直せと。
            統計機能は使わない人が多いんだから、こっちを先に。
            親コメント
    • by Rodin (28411) on 2008年10月28日 7時51分 (#1445474)
      この連載記事 [nikkeibp.co.jp]を読むと「高度な機能は使わないから関係ない」
      とも言えないような・・・
      --
      匠気だけでは商機なく、正気なだけでは勝機なし。
      親コメント
    • by Anonymous Coward
      それ、やめて欲しい。
      パワーポイントで仕様書やドキュメント書くのもやめてよ。
      自由レイアウトならVISO
      • あいがたりないよ! (スコア:1, おもしろおかしい)

        by Anonymous Coward on 2008年10月27日 14時46分 (#1444884)

        VISIOだよね。

        Excelを方眼紙ワープロに使ってるAC
        (だってProfessionalにVISIO入ってないんだもん)

        親コメント
      • by fukapon (4131) on 2008年10月29日 21時05分 (#1446789)
         Visioも入れてますが、作図や文書はPowerPointですね。
         Excel本当に表形式か、表計算かでしか使いません。

         特定分野での作図ソフトとしてVisioの有用性は認められると思いますが、レイアウトソフトとしては使えないと感じます。Publisherも期待はずれでした。PowerPointも仕上がりがよいとは言えませんが、操作性含め、いい妥協点を見いだしていると感じます。Officeらしい、高い生産性で必要な品質をたたき出せる感じ。

         プライベートでは仕上がり命なので、今、InDesignのお勉強中です。さすがにレイアウトソフトとして素晴らしいできだと思います。
        親コメント
      • by Anonymous Coward
        VISIO使いたくても高くて買ってくれないので止む無くPowerPoint使ってます。

        正直OfficeにPowerPointじゃなくてVISIO付けて欲しい。
  • 三重大学の奥村教授のブログ「Excel使うな」:

    > まず最初の論文(略)のアブストラクト:
    > 要約:どうしょーもないから使うな。

    > 次の(略)のアブストラクト:
    > 要約:どうしょーもないから使うな。

    ワラタ。全く異論無し。

    Microsoftなら統計や数値計算の分野でもトップレベルの研究者を抱えている
    だろうに、それなのにいつまで経っても売り物が改善されないというのは、
    単にMS自身にやる気がないんでしょうね。
    MSの研究者もExcelの改良するために雇われているんじゃないだろうし。
    てゆーか、まっとうな研究者ならExcelの統計機能なんて使わないし。
    (もちろん、Excelで用が足りることにExcel使うのは問題ないですよ。)

    R [r-project.org]なら、世界中の研究者が使って常にチェックの
    目を光らせているので、安心して使えますね。GUI弱いけど。

    Sage [sagemath.org](Mathematica置換を狙ったOSS)とか、
    Octave [gnu.org](Matlab置換を狙ったOSS)とかの具合は最近どうなんでしょうか?>識者
    • by Anonymous Coward on 2008年10月27日 14時54分 (#1444889)

      Microsoftなら統計や数値計算の分野でもトップレベルの研究者を抱えている
      だろうに、それなのにいつまで経っても売り物が改善されないというのは、
      単にMS自身にやる気がないんでしょうね。

      多分「やる気がない」んじゃなくて、互換性の問題でしょう。
      最初の実装が悪いのが分かっていても、それを直したところでどんな影響が及ぶのか分からないとなかなか直せません。
      例えばこれまであるセルが0になることを前提にしていたシートを新しいExcelで開いたら1e-23とかになったら困る、とか。
      その点新しく作られたソフトは負の遺産も少ないので有利というわけで。
      親コメント
  • by noopable (36825) on 2008年10月27日 15時07分 (#1444899) 日記
    どうりで、エンゲル係数とBMI値が高かったわけです。
  • なぜWichmann-Hill法 (スコア:1, 参考になる)

    by Anonymous Coward on 2008年10月27日 14時16分 (#1444851)
    よく知らないのですが、Pythonの乱数モジュールを調べたときに発見したWichmann-Hill法。
    Python標準はメルセンヌツイスタですが、後方互換のためにWichmann-Hill法も残しているそうです。

    ただし、この Wichmann-Hill 生成器はもはや推奨することができないということに注意してください。現在の水準では生成される周期が短すぎ、また厳密な乱数性試験に合格しないことが知られています。
    http://www.python.jp/doc/current/lib/module-random.html [python.jp]
    PythonのメルセンヌツイスタはCで実装されてるのになぜか遅いんですよねえ。Pythonの内部形式に変換するのに時間かかってるぽいのですが、なんとかならないかなあ。
  • 不正確でしたよ(DOS版)
    統計分析用のアドオンを使ってましたから、そちらの問題かもしれませんが。

    PCで傾向を見てから、本番はSASでした。
    --
    〜後悔先に立たず・後悔役に立たず・後悔後を絶たず〜
  • by Anonymous Coward on 2008年10月27日 13時53分 (#1444827)
    >精度の面でであり
    精度の面で不十分であり?
  • by Anonymous Coward on 2008年10月27日 13時55分 (#1444831)
    なんかデジャブな感じがするんだが、Excelの算術関数・統計関数は精度が悪いとか、バグがあるとかいう話は昔からあったんじゃなかったっけ?(ソース忘れた)
    • Re:デジャブ? (スコア:5, 参考になる)

      by likeamagic (32922) on 2008年10月27日 14時40分 (#1444876)
      いつからかはわかりませんが、ココ [gunma-u.ac.jp]ではかなり前から指摘してます。
      これ読んだときには、注意して使えば良い程度のレベルだなって思いました。
      親コメント
    • Re:デジャブ? (スコア:2, 参考になる)

      by Anonymous Coward on 2008年10月27日 14時29分 (#1444867)
      同じくソースありませんが。
      97年か98年頃に大学で受けた統計の講義にて、Excelを使った実習もやっていたのですが、当時既に統計機能にバグがあることが教官によって指摘されていました。統計機能のアドオンで定義されている関数ではまともな結果がでないので、教科書の定義どおりの式を自分で入力して使え、と。
      具体的なバグの内容はおぼえていませんが、まったくおかしな数字が出る、本来の値の数分の1の値が出る、精度が悪い等の症状で、3,4か所以上はあった気がします。

      いまはExcelの統計機能を使う機会はないのですが、まだ直っていなかったことに驚きました。
      親コメント
    • Re:デジャブ? (スコア:1, 参考になる)

      by Anonymous Coward on 2008年10月27日 14時03分 (#1444840)
      Excel2002だと、sinh(1e-19)がゼロになったりして駄目駄目なんですが、2007では直ってますか?

      # xがゼロの近傍で、sinh(x)≒xになる筈。
      親コメント
      • Re:デジャブ? (スコア:2, 参考になる)

        by kawa-t (37052) on 2008年10月27日 20時20分 (#1445104) 日記
        ただ単に、倍精度の浮動小数点で計算していて、0近傍の値を考慮していないなら、処理系を問わず、そうなります。内部的には、

        sinh(x)=(exp(x)-exp(-x))/2

        で計算していて、0近傍でexp(x)≒1+x、exp(-x)≒1-xとなるので、これらの値が倍精度で表現出来なくなったところで終わりです。パーセントオーダーの精度だと5e-15で終わりです。

        MzScheme(Schemeの処理系の1つ)でも試してみましたが、倍精度なので結果は同じです。sinhは無いので、上記の式を使いました。

        ただ、個人的には、この手の計算をするときにExcelを使う奴の方が間違っていると思う。
        親コメント
        • by deleted user (3911) on 2008年10月27日 21時25分 (#1445159)
          そういえば、N88-BASIC だったか、その頃の MS-BASIC でもそういった安直な
          関数計算をしていて有効桁が少ないという問題がありましたね。
          あと、sqrt(x) を x^0.5 で代用しているのでこれも有効桁が少ないという
          問題がありました。(真面目に計算するならニュートン法でも使うところ。)

          親コメント
        • by kawa-t (37052) on 2008年10月28日 1時49分 (#1445402) 日記
          exp(x)をマクローリン展開すると、1とΣ(x^k)/(k!)の和でexp(x)を求められるので、1を足さなければ、exp(x)-1を精度よく計算できます。それを用いてsinh(x)を計算させてみると、

          > (sinh 1e-4)
          0.00010000000016666667
          > (sinh 1e-5)
          1.0000000000166668e-005
          > (sinh 1e-6)
          1.0000000000001666e-006
          > (sinh 1e-7)
          1.0000000000000017e-007
          > (sinh 1e-8)
          1e-008

          Excelのsinh(x)では

          1.00E-04のとき、

          1.00000000166689E-04

          ですが、1.00E-05のとき、

          1.00000000001210E-05

          となるので、Excelでは、1e-5のときの下位の桁は信頼できません。

          因みに、MzSchemeで計算しましたが、exp(x)-1を求める関数は、

          (define mexp (lambda (x) (exact->inexact (let loop1 ((n 60)) (if (= n 0) 0 (+ (let loop2 ((n n)) (if (= n 0) 1 (* (/ x n) (loop2 (- n 1))))) (loop1 (- n 1))))))))

          マクローリン展開のnは60としましたが、0近傍ではそんなにいりません。
          親コメント
      • by flutist (16098) on 2008年10月27日 14時16分 (#1444850)
        内部ではちゃんと値を保持してても、表示するところで安直に 0 にしている、というような話を聞いたことがあります。

        なんか設定でそういうのをいじれれば、良くなるかも。
        親コメント
        • Re:デジャブ? (スコア:2, 参考になる)

          by Anonymous Coward on 2008年10月27日 16時08分 (#1444921)
          >表示するところで安直に 0 にしている、というような話を聞いたことがあります。

          違うっぽいかも。
          セルの値を=Sinh(1E-19)/1E-19にしても0だから。
          1E-16前後あたりから値がおかしくなる。
          でもSin(x)/xだと(xが十分小さいところで)問答無用でちゃんと1になるから、内部的に
          どういう展開を使うかあたりで怪しいんかねぇ。
          親コメント
      • by Anonymous Coward
        =SINH(0.0000000000000000001)
        に自動変換され、セルには0とでますね。セルのプロパティから数値で小数点以下の桁数30にした状態でも0.0です。小数点以下に0が多く並んでるが数えるの面倒だから放置
    • by Lafiell (6631) on 2008年10月27日 22時46分 (#1445232)
      統計の「と」というか"S"くらいしか囓っていませんが、100×2500くらいのシートでしょっちゅう
      計算しています。小数点下6桁目くらいでExcelの計算結果と統計ソフトの結果にズレが出てきて、
      「おかしいねえー。ここ(差で)0にならないと駄目なはずだよねえ」
      と一所懸命検算したことがあります。どういう計算だったか今手元にシートが無いので
      判りませんが、標準誤差とか四則演算位のはずなんですが。

      ppm表示で×10^6とかやるから、目立つんですよね。
      親コメント
    • by Anonymous Coward
      でも俺は初めて聞いた。なぜ知られていないのか分からないけど、
      昔からあるバグで、かつ競合製品にはないようなバグだとすれば、
      技術的には直すことが可能でその時間もあったはずだから、
      MSが本気で直そうとしていないということだと考えられます。

      そういう場合、MSに本気で直そうとしてもらうためには、
      この問題が広く知られて、苦情が殺到するくらいになる
      必要があるのではないかと思います。
  • by Anonymous Coward on 2008年10月27日 13時59分 (#1444834)
    と思ったのですがね。
    #普段は Excel でも構わないのが普通だろうけど。
    • by elderwand (34630) on 2008年10月27日 14時07分 (#1444843) 日記
      いえいえ、Excel が論文ネタを提供してるわけですよ。

      これで、卒業論文・修士論文になるんだったら(さすが博士論文は無いと思うが)マイクロソフトの教育界への貢献は甚大なものです。

      親コメント
    • by Anonymous Coward on 2008年10月27日 14時01分 (#1444837)
      最近は大学の卒論とかでもExcelを使う例が増えているとか。

      きっとお手軽&みんな持っているからだとは思われますが……。
      親コメント
      • 論文ではむしろExcelに持って行くよりgnuplotでeps出してLaTeXに
        張り込んだほうが便利(つーかmake一発で事足りる)のでほとんど
        使わないけど、プレゼンでは使いますね。

        あ、でもデータをCSVにして持ってきてグラフを書くのに
        使ったことはあったなぁ。インタラクティブなグラフ描画
        ツールとしてはとっても使いやすいと思うのです。
        --
        屍体メモ [windy.cx]
        親コメント
      • by Anonymous Coward
        なんとなく同意。
        多分、学生が安易な方向に流れてきているから
        「お前達、それは違うだろう??」というのがきっかけではなかろうか?
        警鐘も含めて。

        #一般ユーザがあまり大した精度を必要としない分野で使う分には文句を言う気は無いと思われます。
  • by Anonymous Coward on 2008年10月27日 14時28分 (#1444866)
    企業はともかく、論文なんかでExcelなんて使わないでしょ
    グラフが勝手に補完したりして胡散臭いし
    少なくとも俺の周りは皆自分で計算してますぜ
    まあ、データ数の関係でFortranバイナリ出力になってるからかもしれんが
    論文雑誌でもExcelのグラフは見たことないですなぁ

    まあ、最近は雑誌でもTeXが消えてWord形式で提出というのが増えてきたんで、これからExcelも出てくるのかもしれんが…
  • by Anonymous Coward on 2008年10月27日 14時57分 (#1444893)
    なんか、リンク先を見ると "Excel" って書いてある paper オンパレードで
    要するにExcel の問題点特集号ですよね?

    「論文」:×
    「特集」:○

    一つネタが掲載されてるとか言うレベルじゃなく、数理統計業界として、
    「頼むから Excel 使ってくれるな」というメッセージなんじゃん。
typodupeerror

にわかな奴ほど語りたがる -- あるハッカー

読み込み中...