パスワードを忘れた? アカウント作成
112783 story
Google

GoogleはJavaScriptで隠匿したメールアドレスを読み取り、検索結果に表示している? 100

ストーリー by hylom
別に驚きはないけど 部門より

あるAnonymous Coward 曰く、

メールアドレスをウェブページに公開する場合、アドレスをHTMLでそのまま書いてしまうとスパム業者の格好の的となってしまう。これを避けるには、アドレスをgifやjpegなどの画像で表示させたり、分断して記述したアドレスをウェブページでは一続きに表示させるようなJavaScriptを使用することが有効であるとされてきた。projecthoneypot.orgではスパム対策として、このようなJavaScriptを自動生成してくれるツールも公開している。

しかし、GoogleはこのようなJavaScriptからメールアドレスを構築し、ウェブページのサマリーにアドレスを表示してしまうようになったとの報告が本家/.にて取り上げられている。

元記事であるbaxil.livejournal.comによると、HTML上ではJavaScriptで改変して記述してあるアドレスが、検索結果できちんとアドレスとして表示されるようになり、以前ではスパムが送られてきていなかったアドレスがスパムリストに載ってしまったという。

/.Jer諸兄方で同様の変化に気付いた方などいらっしゃるだろうか?

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 隠匿してない (スコア:5, すばらしい洞察)

    by Livingdead (18685) on 2009年06月25日 3時18分 (#1593335) ホームページ 日記

    HTML上ではJavaScriptで改変して記述してあるアドレスが、検索結果できちんとアドレスとして表示されるようになり、以前ではスパムが送られてきていなかったアドレスがスパムリストに載ってしまったという。

    そのJavaScriptを認証によるアクセス制限のかかっていないところに置いている時点で全然隠匿できてないわけだが.
    公開されているスクリプトを実行して,その結果からテキスト抽出することに何の問題もない.

    --
    屍体メモ [windy.cx]
    • Re:隠匿してない (スコア:3, すばらしい洞察)

      by Anonymous Coward on 2009年06月25日 16時51分 (#1593825)

      BotはJavaScriptを実行できないという、メールアドレスの隠匿とは本来全然関係ない勝手な仮定が破綻しただけの話ですよね。
      Googleがやらなくたってspam業者が自前で走らせているbotはそのうちやるようになるに違いありませんし。

      親コメント
      • robots.txt等無視してるならクローラーが悪いんだろうけど,
        そういうことではなく「スクリプトまでは解釈しないだろ」
        っていう一方的な思い込みが裏切られたってことですからねぇ.

        HTML上ではJavaScriptで改変して記述してあるアドレスが、検索結果できちんとアドレスとして表示されるようになり、

        これだって,ブラウザはJavascriptを実行した結果として得られたHTMLを表示しているわけであって,
        同じHTMLからクローラーが抽出してるだけですし.

        そのスクリプトが操作しているのはDOMであってHTMLじゃないとか,
        クローラーはブラウザに搭載されているエンジンほどは
        忠実にスクリプトを実行しておらず,特定のコードのパターンから
        文字列連結などで推定しているだけかもしれないとか,
        いろいろと反論することは可能ですが,やっぱりrobots.txtで
        明示的に意思表示しておく必要があると思います.

        まぁそれでも非紳士的なクローラはたくさんありますし,
        本文も抽出するようなソーシャルブックマークに
        登録されてしまえばそっち経由で漏れますが.

        --
        屍体メモ [windy.cx]
        親コメント
        • 参考までに (スコア:2, 参考になる)

          by Anonymous Coward on 2009年06月25日 17時38分 (#1593856)
          > そういうことではなく「スクリプトまでは解釈しないだろ」
          > っていう一方的な思い込みが裏切られたってことですからねぇ.

          Web屋が新人教育やSEOの文脈で話す際は、
          「現時点では全てのクローラーがJavaScriptを解するワケでは無い」
          と、説明しています。

          即ち、完全に意図通りに動くかどうかは兎も角として、
          (また、その結果をDB等へ反映させるか否かは兎も角として、)
          JavaScriptを解するクローラーが存在している事は知られていました。
          親コメント
      • by Anonymous Coward

        逆に考えるんだ。「Googleを監視すれば悪質業者の手口が解析できる」と考えるんだ。

    • by renja (12958) on 2009年06月25日 16時44分 (#1593818) 日記

      この記事だけじゃなく、最近の記事タイトルの偏向っぷりはひどいね……
      東スポ並みに事実とはかけ離れたタイトルを付けられることが多くなっている。

      --

      ψアレゲな事を真面目にやることこそアレゲだと思う。
      親コメント
      • by oltio (3848) on 2009年06月25日 20時39分 (#1593947) 日記

        少し前までは「Google のやることはすべて善で Microsoft がやると悪か。偏ってんな」みたいなコメントが多かったし、これはこれでバランスがとれてんのかな。というかその調子だと何書いても「偏ってる」って言えるね。

        親コメント
      • by Anonymous Coward

        なんかアイドルのファンに向かって、「そんなの裏で男とやりまくってるに
        決まってるじゃん(w」とか言ってバカにしてるレベルだよな

    • by kicchy (4711) on 2009年06月25日 18時46分 (#1593895)

      スパム業者も別にGoogle使ってアドレス集めてる訳でもあるまい。

      問題はスパム業者の使っているクローラの性能だろ・・・

      アドレスをクロールして集めるとして、
      スパム業者もよく使われる改変くらいは突破して集めているんじゃないですかね。

      親コメント
      • by Anonymous Coward on 2009年06月26日 9時05分 (#1594184)

        >何故Googleに焦点が?
        とりあえずの例としてGoogleが実際に行っているからでは?
        spam業者とGoogleでは規模が違う訳でして。

        で、これはGoogleがどういう意図でやっているかってのが意外とGoogleという会社を判断するには参考に成るかもね。
        隠匿されれたメールアドレスと認識してやって居るのであれば、それはもう、自己利益の為には他人の迷惑は考えないって事だし、
        何等かの対処なり(最低限でテキトーなプレスリリースで注意を促すとか)がされるなら、一応外部と折り合いを付けようって意思
        が有るとも見れますし。

        親コメント
    • by Anonymous Coward

      隠匿はしていないかも知れないが、これはGoogle自体も思ってなかったのでは無いかな。
      動的に生成されたページへのクロール効率を上げようとして引っかかっただけでしょう。
      技術的に認識出来る要になれば外す様になると思う。

      #不特定多数からの連絡窓口の通知ってのはどうやっても知らない人間が見付けられるのが前提だしなあ。

    • by Anonymous Coward
      スクリプトで細工しようが、画像にしてしまおうが、アドレスを表示させたりmailtoとか使ってる時点で、不特定多数にばら撒いてるのと同義な訳で。

      メールアドレスを晒す理由って何?
      連絡窓口のつもりならそれ用の入力フォームでも作っておけば十分だし、他にアドレスを晒す理由ってあるのかな?
      • by Anonymous Coward on 2009年06月26日 1時04分 (#1594096)
        > メールアドレスを晒す理由って何?
        > 連絡窓口のつもりならそれ用の入力フォームでも作っておけば十分だし、他にアドレスを晒す理由ってあるのかな?

        いかがわしい携帯サイトの運営に関わったことがありますが、
        特商法の関係上、嫌でも連絡先窓口をサイトで晒す必要があります。

        法的に電話番号の記載が必須なのですが、
        面倒なのでなるべくなら電話ではなくメールで問い合わせをして欲しいわけです。
        ただ、検索なんてされたくないですし、
        できれば問い合わせそのものをあきらめて泣き寝入りしてほしいのが本音です。

        訴えられないように最低限の情報は載せる必要がありますし、
        また業者との取引(広告掲載やクレジットカード加盟店契約)で審査されることもあるので、
        メールフォームはおろか tel: や mailto: のリンクも無しに、
        画像で連絡先を掲載していました。

        携帯サイトですので、一旦、紙などに書き写してから、手入力しなければ、
        電話にしてもメールにしても連絡できないわけです。
        メールアドレスには「0(ゼロ)」と「O(オー)」、「1(イチ)」と「l(エル)」を
        混在させ、不必要に長いものにして連絡する気を無くさせます。
        親コメント
      • by kicchy (4711) on 2009年06月25日 19時18分 (#1593910)

        >メールアドレスを晒す理由って何?
        >連絡窓口のつもりならそれ用の入力フォームでも作っておけば十分だし、他にアドレスを晒す理由ってあるのかな?

        フォーム作る手間が大変だからじゃないですか。

        連絡取って貰いたい人は、メールアドレス書くだけで、連絡を取りたい側は
        連絡を取るためのツール(メーラー)を自前で揃えて連絡してくれるわけで。
        仕組みとしては、シンプルで綺麗だと思います。
        (性善説が通る世界ではね)

        この件、どうしてもGoogleのせいにしたいなら
        Gmailを連絡窓口にすればいいんじゃないかと思った。

        親コメント
      • Re:隠匿してない (スコア:1, おもしろおかしい)

        by Anonymous Coward on 2009年06月25日 19時19分 (#1593911)

        >メールアドレスを晒す理由って何?

        spam収集用とか……

        親コメント
    • by Anonymous Coward

      その通り。
      もちろん、画像化したメールアドレスを読み取って勝手に公開しても、
      それは人が読めるような形でメアドを公開している方が悪いわけで。

  • by strict_ansi (2886) on 2009年06月26日 0時03分 (#1594071)
    Google はいろいろな実験を行っているようです。 [blogspot.com]
    このような実験の一環として、JavaScript を認識する Googlebot を稼働させているのではないでしょうか。

    今年の4月頃、仕事で管理しているウェブサイトのアクセス解析を行っていた際、
    JavaScript を認識する Googlebot が存在するのではないかとの疑問を抱かせるデータを目にしました。

    このサイトでは Google Analytics [google.co.jp] を用いてアクセス解析をしているのですが、
    ブラウザ別の統計に「Googlebot/2.1」のアクセスがあることが確認できたのです。
    Google Analytics の仕組みでは、HTML 内に JavaScript を埋め込むことでアクセスを解析しているため、
    Googlebot が JavaScript を認識できなければ Google Analytics にはアクセスがカウントされないはずなのです。

    Googlebot が Google Analytics のコードのみを解釈している可能性も考えましたが、
    あえてアクセス解析のデータに bot のクロールをカウントするメリットがありません。
    むしろ bot アクセスのデータが混入することで Google Analytics の精度を下げてしまうわけであり、
    Google にとってはデメリットしかなく、そのようなことはまずないと考えました。

    また、当該サイトには毎日百回以上の Googlebot のアクセスがありますが、
    不思議なことに、Google Analytics で検出されたアクセスは1週間に数回のみで、
    トップページのみに限定されていました。
    このアクセス数の少なさから、この Googlebot は「実験用ではないか」と推測しています。

    アクセス元のアドレスは間違いなく Google Inc. のものであり、
    UA を Googlebot に偽ったブラウザによるイタズラということはありません。
    # Google 内部にそういう PC がある可能性は否定できませんが...
  • 自分の持っているサイトで、select要素のonChangeで別ページに遷移する仕組みを取っています。
    実際にモノ [orelabo.jp]を見ていただいたほうが話は早いのですが、
    複数のselect要素を用意してさまざまな組み合わせを自由に選べるようにしています。

    このページにGoogleBotがやってきたのですが、この組み合わせを全部試していってくれました。
    毎日数千アクセスがあり、それが何日も続きました。
    組み合わせを変更しながら試していた様子はアクセスログで確認しました。

    よって、GoogleBotはdocument.writeのような簡単なスクリプトだけでなく、さまざまなJSを解釈し、
    実行していると認識しています。

    # ちなみに、Yahooなどのクローラではそのような挙動をしていませんでした。

  • こうなったら、 (スコア:4, おもしろおかしい)

    by Anonymous Coward on 2009年06月25日 16時48分 (#1593823)
    tableタグで書くんだ。
    1マス1ドットで。
    • と言うことは、
      逆にAAで記述も可能って事ですな。

      親コメント
    •  画像をテーブルにするという、学生時代に体験入学者向けに行ったコードが役に立つ日が来たんですね! こんな設計製作に20分かからないゴミみたいなプログラム だれが使うんだよなんて思いながら作ってましたが、 メールアドレスを書いたカラフルな画像をテーブルで表現する事によって、 画像を使ってスパムを減らそう+テーブルを使ってスパムを減らそう を両立した方法でスパムメールを減らす事が出来ると! なんていう無駄な妄想をしてしまった ちなみに こんなイメージ [ghostmansion.net]。すごい昔にCで作った奴をPHPに置き換えてるだけなんで、酷いHTMLを吹くけど 真剣に見ないで・・・。
      --
      [注意]コメント主は大変叩かれ弱い性質です。優しく接してあげて下さい
      ~おもしろおかしい以外に興味はありません~
      親コメント
    • by Anonymous Coward
      タグ消去されたら意味ないだろw
      • by wildcard (416) on 2009年06月25日 19時37分 (#1593917)

        文字をtableタグで段組するんじゃなくて、
        tableタグでつくった1ピクセル*1ピクセルの枠をたくさん並べて図形を表示するんだ。
        テーブルアートとかテーブルタグアートとかでググれ。

        親コメント
        • by phenix (31258) on 2009年06月25日 20時32分 (#1593944)

          Acid Test的なもので表示させたらいいんじゃないかな。
          Acid Testに通らないブラウザでは表示できません。っていう・・・

          # クローラがAcid Testに通ったら、敬意を表して取得させてやってもかまわん。

          親コメント
      • by elderwand (34630) on 2009年06月25日 22時05分 (#1594010) 日記
        以下のような Table にすると、タグをはずしただけでは読めません。
        という具合にして薬の名前がメールフィルターにかからないようにした
        スパムメールが来てたことがありました。

        <table>
        <tr><td valign="bottom">f</td>
        <td><font color="white">o</font><br>o</td>
        <td valign="bottom">o</td>
        <td><font color="white">b</font><br>&#64;</td>
        <td valign="bottom">b</td>
        <td><font color="white">a</font><br>a</td>
        <td valign="bottom">r</td>
        <td><font color="white">k</font><br>&#46;</td>
        <td valign="bottom">c</td>
        <td><font color="white">a</font><br>o</td>
        <td valign="bottom">m</td>
        </tr>
        </table>
        親コメント
  • by unclear (16660) on 2009年06月25日 18時15分 (#1593882)
    極論するなら、ブラウザで表示して人間が判別できるメールアドレスをロボットが判別できない道理はないんですよね。
    問題はそのロボットを作るコストに見合ったリターンがあるかどうかで、猫も杓子も同じような隠し方をするならコストパフォーマンスは向上します。
    メールアドレスの公開をやめてメールフォームを作っても、そのフォームの送信先がデータとして流通して、同じようにスパムが来るかもしれません。
    人件費がスパムの単価に対して十分安ければ、人力でやることもあるかもしれません。
  • by s02222 (20350) on 2009年06月25日 17時23分 (#1593848)
    ちょっとオフトピですが、いつぞや、メールアドレス「foo@bar.baz」で検索したところ「foo[at]bar.baz」やらまでヒットして爆笑しました(メアドははめ込み合成です。実際のものとは異なります)。ちゃんと検索結果中の「foo[at]bar.baz」が太文字になっていたので、この程度のスクランブルはきっちり解除できるようでした。
    • by Anonymous Coward

      画像を文字列化するのも時間の問題ですね。

      # と云うか foo [at] example.net で書いても引っかかるというのは公知にすべき事柄じゃないかしらん?

  • by pochi-p (37116) on 2009年06月25日 19時58分 (#1593931)
    document.writeは前からある程度解釈されて検索結果に表示されてました。
    それが以前より若干高機能になっただけの話だと思います。
    私の場合

    document.body.innerHTML = document.body.innerHTML.replace('※猫大好きフリスキー※', '@');
    document.body.innerHTML = document.body.innerHTML.replace('スパムメール対策のため、@を※猫大好きフリスキー※に変えています。@に戻してお使いください。', '');

    とかでいい加減に誤魔化してましたが、こんなのもいずれ無力にかもしれませんね。
    script実行に1分かかるようなページにしておけば、Google様も諦めてくれるかもしれませんが……。
    # PigPGP [faireal.net]とか使ったらDoS紛いが出来るかな? :p

    • by pochi-p (37116) on 2009年06月25日 20時02分 (#1593934)

      ギャフン。投稿用に改変したらバグってた……。
      実行順を入れ替えるか、1行目が2行目に干渉しない内容にする必要があります。

      親コメント
  • ページをキャプチャしてOCRかけてるだけじゃないかな? 今時ならそれがコスト/パフォーマンスにかなってると思うが、いかが?
  • 嫌なら公開するな。
typodupeerror

日本発のオープンソースソフトウェアは42件 -- ある官僚

読み込み中...