パスワードを忘れた? アカウント作成
16861 story

著者像を推定してブログの話題を分析するblogeye 52

ストーリー by yoosee
blogプロファイリングみたいなのがあると面白いかも 部門より

pascal 曰く、

Internet Watchの記事によれば、ブロガーの性別・年齢・居住域を推定して話題を分析するサービス blogeye が13日に公開された。blogeyeは今年度の未踏ソフトウェア創造プロジェクトで採択された「ブログを用いた『なんでも早期発見システム』の開発プロジェクト」の一環として、東京大学大学院生の大倉務氏が作成したもの。ブログの分析には、独自に開発したブロガーの属性推定手法と流行検出手法を用いているとされており、「研究成果を多くの人に使ってみてもらうために公表した」とのこと。
個々のブログの推定結果は表示されないように配慮されているようだが、機械によって年齢や住んでいる場所が特定されてしまうというのは少し怖い気もする。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 少し怖い気もする。 (スコア:2, すばらしい洞察)

    by Anonymous Coward on 2007年12月14日 10時04分 (#1265544)
    なら、ブログなんて書かなきゃいいだけ。

    有名であることが飯のタネになってる一部の人は仕方ないけれど、
    堅気の人が、ブログやSNSやここみたいなBBSで、むやみに個人情報を晒すのは
    賢いことだとは思えない。

    # ましてここではそういうリスクをコントロールしてると臆病者よばわり。
    # それって、蛮勇だとおもうんだけどなぁ。
    • by Anonymous Coward on 2007年12月14日 10時27分 (#1265561)
      そうそう。
      そのものズバリを書かなくても、近くの施設や、何気ない写真、知り合いのブログの情報などから自宅や職場を探し当て、突撃してくる暇な人たちがたくさんいるんだから、ブログなんて書くもんぢゃないと思うね。

      どうしてもコメントしたいなら、2chや/.で匿名で書くのが一番だ。

      んなわけでAC
      親コメント
    • 本文に書いてあることは否定しませんが、

      > # ましてここではそういうリスクをコントロールしてると臆病者よばわり。
      > # それって、蛮勇だとおもうんだけどなぁ。
      これは、「ID発言」ですら「蛮勇」と言っているんですよね。それは違うと思う。ここのIDなんて管理者にメールアドレスが知られる程度ですよね。それすら恐れているなら「臆病者」だし、ID取るのが面倒なら「怠慢」ですよね。そういう私自身長らく自分の納得できるID名を探すのをサボっていたのですが。

      # 自分の名前でgoogle検索すると上位5番目くらいまでは自分に関係のあることが出てくるので名前とか出したくないですが...
      # でもシステムの弾き出した自分の「推測個人情報」を見てみたいです。その前にブログ書け、という話もありますが。ここの書きこみから判定できないかなぁ?
      --
      Best regards, でぃーすけ
      親コメント
      • by Anonymous Coward on 2007年12月14日 11時57分 (#1265617)
        複数のサイトや掲示板に書かれている内容を、メールアドレスやハンドル名、記述内容の傾向を元に集約して個人を特定することは決して不可能じゃないと思います。

        何歳何ヶ月の息子が居る・・・と書いただけで1億2000万人のうちの5万にまで特定できます。Macintoshの出荷台数は全世界で40万台にも満たないわけで、そのうえITに詳しい人とか言ったら、ご近所ばれしている可能性だってあるでしょう。

        #個人情報駄々漏れで簡単に特定できるのでAC
        親コメント
        • ヤバい経済学 ─悪ガキ教授が世の裏側を探検する [amazon.co.jp]』に出ていたと思うのですが,

          リスク = 危険 + 恐怖

          だと。危険というのは,その事象がおきる確率で,恐怖とはその事象が起きてほしくないと願う度合いと言えばいいのかな。例えば「ブログに書いた家族情報から個人を特定されて家族が危害を加えられる」という"確率"はかなり低いです(いままでそういう事件を聞かないので。これから増えれば危険も増しますが)。しかし小さい子供がいたりすれば「恐怖」はかなり大きいでしょう。なのでリスクを考えるときは「危険」と「恐怖」の双方に適切に対処する必要があります。
          親コメント
          • たしかその一節は、それが起きる確率とそれが起きたときのマイナスを掛けたもの(危険)がそれほど大きくなくても、それが起きたときのマイナスが極端に大きい(恐怖)ばあい、それを過大評価しがちだという文脈だったと思います。狂牛病とか飛行機が落ちるとかが例に出てましたっけ?
            わたしは、インターネットに個人情報をさらす場合、恐怖の部分でなくて危険の部分が大きい(問題が起きる確率がそれなりに高い)と考えていますが、どうでしょう?
            • by marinkarin (10618) on 2007年12月14日 13時56分 (#1265724)
              「危険」が大きいと判定するには,ブログからの個人情報漏れによる事件が,それ以外のルートからの個人情報漏れからもたらされる事件よりも多いってことが分からないといけないですよね。これはどうだろう? あと「個人情報が漏れることそのものが危険」で,しかも「その気になれば個人情報が分かってしまう危険」が大きいというのならば,確かにそうかもしれませんね。でもなかなかこれを確認する術が無いような。

              「ヤバい経済学」には,疑問を持ったときに何を調べればいいのかという実例がいくつも出ていて,そういう意味でもいい本だった。
              親コメント
        • 私については、わざとご近所ばれするように書いています(ある方面の知人には私が誰だか分かっているかと思いますし、過去には「ご近所」さんに対しては名乗ったも同然の発言をしています)。で、私が指摘している内容は...

          slashdotにて「臆病者」よばわりを避けるためには何も私のようにする必要はないのです。slashdotはIDが残っている状態でどんどんIDを取っても平気である、と宣言していますから(-- FAQの「自分のアカウントを削除するにはどうすればよいですか?」参照)、例えば発言ごとにIDを取っても良い訳です。(ま、実際IDを沢山とってもさほどslashdotのシステムに負荷をかけることはないでしょう。)

          という訳で、最初の私の発言に繋がります。
          --
          Best regards, でぃーすけ
          親コメント
        • だからこういう所にIDで書く時には適度に嘘を交えるんですよね。趣味と実益を兼ねて :-)
      • 同じIDで何年も書いてると、だれかがその人を特定しようと思ったときに、特定されてしまう可能性が高いように思います。
        そりゃぁ、管理者がIP addressやbrowserの情報を記録してて同一人物と思われる発言を集めて... ってやられたらACでも安全とはいえませんが、IDつけて発言するよりは危険度が低いと思うのです。
      • 同じまたはハンドル名をIDとして複数のサイトで使ってる人もいると思いますが、
        どこかで本名と紐付けられると全て匿名でなくなります。

        実社会で本名だけを知ってる人に「趣味でソフトとか公開している」と話しただけで、次に会ったときに「有名なんですね」とか言われたときはあせりました。
        パソコン通信時代にvectorで紐付けられて今でもwebで公開されてるのでバレバレです(あまりない名前だし)

    • 外人さんは一般人でも
      写真や実名を意外と気楽に公開しているような気がします。
      日本人は・・・陰湿なんでしょうか。
      親コメント
      • 批判される…というか何かあったときに科せられるペナルティが大きいから仕方ないんじゃないでしょうか。

        極端な例だけど、ケンタッキーでゴキブリ揚げた話があったとき、2chのスレッド紹介系のblogでついてたコメントに、「ケンタッキー好きなのに許せない!誰か個人情報晒してこいつの人生滅茶苦茶にしてやれ」というのがあって、前半から後半への飛躍に恐ろしくなりました。

        重大な悪戯は厳正に処罰されるべきとは思うけど、ゴキブリ揚げること(しかも真偽は不明)と人生って、釣り合いが取れちゃうべきなのか・・・と、未だに考え込んでしまいます。

        とは言え、こういう例をもって「日本人は陰湿」なのかと言うとそうではなくて、何か間違いを起こしてしまったらどうしようという恐れから来る息苦しさが、そこから逸脱してしまった人に向けて一気に噴出してしまい、それを見て恐れをなしてしまってさらに縮こまりつつ、息苦しさの鬱憤を晴らすための噴出先を互いに目を光らせて探し、以下無限ループ、って感じなのかなぁと。
        親コメント
        • いえいえ、日本人は陰湿ですよ。
          アメリカ人は「誰か個人情報晒してこいつの人生滅茶苦茶にしてやれ」なんて他人任せなことを言わずに
          件の高校に乗り込んで銃を乱射するくらいオープンです。
        • >前半から後半への飛躍
          そう。
          見方が極小と極大しか無い。中間が無い。これは結構よく語られる日本人像。
          この中間とは何か?マジ考えた方がいいと思う。
      • 陰湿なのは日本人一般ではなく
        そういうピアプレッシャーを感じて匿名に走る人たちだけ

        --
        のりたま@解析するプログラムがあるなら
             ブログの内容をかく乱させるを吐き出すプログラムも作ればいいだけじゃん
        親コメント
    • by Ryo.F (3896) on 2007年12月14日 11時15分 (#1265575) 日記
      なら、ブログなんて書かなきゃいいだけ。
      <<略>>
      # ましてここではそういうリスクをコントロールしてると臆病者よばわり。
      なら、そんなとこで書かなきゃいいだけ。

      というのは措くとして、いつもリスクをコントロールしなきゃいけないか、ということを考えるべきでしょうね。
      #そりゃ、内部情報をタレこんだりコメントしたりする場合は私だって匿名の臆病者になりますけど。

      個人的な感想を述べれば、そういう葛藤が起きない、ってことは、近代的自我なんつーものは、幻想に過ぎないんだねー、と思わざるを得ませんね。
      親コメント
      • > というのは措くとして、いつもリスクをコントロールしなきゃいけないか、というこ
        > とを考えるべきでしょうね。
        IDとACを使い分けるより、常にACのほうが、間違えてIDで送信してしまう
        リスクがない分安全ですよね。
        • by Ryo.F (3896) on 2007年12月14日 17時43分 (#1265825) 日記
          IDとACを使い分けるより、常にACのほうが、間違えてIDで送信してしまうリスクがない分安全ですよね。
          そこに何の葛藤も発生しない、と言うことに対して、近代的自我が確立しない人も、やっぱりいるんだな、と思うわけですよ。
          近代的自我があれば(強ければ)偉いとも思いませんけどね。
          親コメント
          • 近代的自我って言葉の定義は知りませんが、価値のあるもののようには思えません。卑俗な自己顕示欲が強いだけに見えます。
            • by Ryo.F (3896) on 2007年12月14日 18時45分 (#1265853) 日記
              価値のあるもののようには思えません。
              だからそう書いてるじゃないですか。

              卑俗な自己顕示欲が強いだけに見えます。
              だけに見えます」は視野狭窄が過ぎるでしょう。
              それに、意見は主張するのに、その責任を一切持とうとしない自我も、十分卑俗です。
              親コメント
    • by Alef_F (27309) on 2007年12月14日 12時59分 (#1265682)
      # ましてここではそういうリスクをコントロールしてると臆病者よばわり。
      # それって、蛮勇だとおもうんだけどなぁ。
      固定のハンドルが付くだけで個人情報の漏洩リスクとか言われてもなぁ。
      親コメント
      • その固定のハンドルをクリックして「最近24個のコメント」の
        タイトルを読むだけで、ある程度の人物像は浮かびますよ。

        #人物像バレバレなのでAC
        • by Alef_F (27309) on 2007年12月14日 14時22分 (#1265732)
          ある程度の人物像は浮かびますよ。
          その人物像から個人を特定できるなら、それを個人情報と呼んでも構いませんけど、そんなことできないでしょ?
          親コメント
          • (別段親しくもない)あなたの知人が/.を見ていて、あなたがalef_Fであったことに気づいてしまうってことは十分ありえると思います。 alef_Fの投稿履歴からあなたの行動や趣味、信条がなんとなく見えてしまうのは気持ち悪くありませんか?
          • ふむ、どうだろう? と思ってAlef F氏の過去24件のコメントだけをチェックしてみた

            ・(おそらく関東の)アパート住まい
            ・コミックガンボを配布していた駅を2つ通勤に利用している
             (23区内だと該当駅は20、それ以外を含めても30)

            個人情報に結びつくようなのは、これしか分かりませんな
            ただ、Alef Fさんはスラドに400回以上コメントしてるので、それらも調べればもっと個人情報に繋がるかもしれません。
            日記書いてたりする人だと、更に情報は集まるでしょうね

            何より、私があるIDを持つ人物が1億2千万人のうちの誰であるかを特定するのは非常に困難ですが
            その人物の知り合いが、自分の知り合い数十数百人のうちの誰かそのIDの人物を重ね合わせるのは、はるかに容易でしょうね。
            • by Alef_F (27309) on 2007年12月14日 19時08分 (#1265860)
              その人物の知り合いが、自分の知り合い数十数百人のうちの誰かそのIDの人物を重ね合わせるのは、はるかに容易でしょうね。
              ネットではなくてリアルで知り合いならば、住所氏名電話番号勤務先などの個人情報もそれなりに持っているのが普通だと思われます。
              そういう人に/.-JのIDと個人が結びつけられたからといって、なにか問題が起きるともあまり思えないです。

              #首都圏在住程度より細かい個人情報に結びつくようなことは、なるべく書かないように気を使ってるつもりなんです、これでも。
              親コメント
  • LEFT ALONE (スコア:2, おもしろおかしい)

    by Pravda (33859) on 2007年12月14日 12時41分 (#1265663) 日記

    さっそく、blogeye.jpにアクセスし、個人的に関心のあるキーワードをいくつか入れてみたのですが(詳細は秘匿)、引っかかる件数が少なすぎて…。

    世間からズレているのは前から気づいてましたが、ブロガー諸氏諸嬢からもズレていることが、今回判明してしまいました。X-)

    • by Anonymous Coward
      「ブロガーってなにぃ?」
      「さー、あたしには関係ないしぃ」
      「そうよね~」
  • by Anonymous Coward on 2007年12月14日 10時08分 (#1265546)
    Anonymous Cowardの著者像をぜひ推定して下さい

    #いえ、私じゃなくってもう一人の方のを
  • by Anonymous Coward on 2007年12月14日 10時13分 (#1265550)
    今は少なくなったが、ネカマ判定してくれるだけでも金払う(笑

    • 仮想空間の中くらい、夢を見させてあげればいいのに。

      …UOで女性キャラやってて最初に誘ってくれた友達としゃべってたら、彼のUO内奥さん(リアル女性)がものすごい嫉妬してたことがありましたので、夢ばかりではないみたいですが。
  • by Anonymous Coward on 2007年12月14日 10時27分 (#1265560)
    こういうので量れる年齢って、精神年齢ではないかな。
    だとすれば実年齢と一致するとは限らないから、個人情報としての意味は薄いですな。
    どんどん暴きましょう。
    • by metta (20740) on 2007年12月14日 10時47分 (#1265569) 日記
      1stガンダムの記事ばっかりだったら、氷河期のおじさん。
      種死関係だったら、腐女子。
      三国人叩きに熱中するのは、ネトウヨ。

      頭は10代。体はボロボロ。
      ・・・ビタミン剤でも売りつけましょうか。
      親コメント
      • by Ryo.F (3896) on 2007年12月14日 11時21分 (#1265579) 日記
        それは年齢ではない。

        でも結局、そういうルールをたくさん準備したエキスパートシステム [wikipedia.org]みたいなもんなんでしょうね。そう考えると、未踏ソフトウェアと言う割には1980年代の薫りが漂っている感じです。
        親コメント
        • by flutist (16098) on 2007年12月14日 11時48分 (#1265603)
          出現単語をジャンル分けして、ジャンルごとにスコアリングしてSVMで判別とか。PCAでいろんな人をクラスタリングとか。まぁ、もうちょっと新しくて使えそうな技はありますね。十歳にはもっと賢いことをしてると思います。

          「未踏」かというとどうか、には同意。まぁ、結果を目新しく示す、ということですかね。
          親コメント
        • by Anonymous Coward
          プレスリリース原文では
          「書き手の属性推定には、独自に開発したブログテキストからの著者属性推定技術を用いています。この技術では、多数のブログを統計的に分析して得た辞書を用いることで、ブログテキストに含まれる僅かな特徴も捉え、著者属性を推定できます。」
          となっていますね。機械学習などの統計的自然言語処理技術を使っているのではないでしょうか?
      • by Anonymous Coward
        >1stガンダムの記事ばっかりだったら、氷河期のおじさん。
        1stやボトムズやマクロスは有名すぎるので手がかりにならない。

        ザンボット3やオーガスやガリアンなどがあればオジサンの可能性は高いと思う。

  • by Anonymous Coward on 2007年12月14日 21時41分 (#1265907)
    ふとblogdex?だったっけ?そういうブログ黎明期を支えた
    サイトを思い出した。その時代に出てくればもっと話題になったのかも
    しれないなあと。

    でもまあそれが本当に有意義であれば出てくる時期に問題はないか。
typodupeerror

人生の大半の問題はスルー力で解決する -- スルー力研究専門家

読み込み中...