ページ内ジャンプ:

アレゲなニュースと雑談サイト

hylomによる 2009年06月25日 16時35分の掲載
別に驚きはないけど部門より

あるAnonymous Coward 曰く、

メールアドレスをウェブページに公開する場合、アドレスをHTMLでそのまま書いてしまうとスパム業者の格好の的となってしまう。これを避けるには、アドレスをgifやjpegなどの画像で表示させたり、分断して記述したアドレスをウェブページでは一続きに表示させるようなJavaScriptを使用することが有効であるとされてきた。projecthoneypot.orgではスパム対策として、このようなJavaScriptを自動生成してくれるツールも公開している。

しかし、GoogleはこのようなJavaScriptからメールアドレスを構築し、ウェブページのサマリーにアドレスを表示してしまうようになったとの報告が本家/.にて取り上げられている。

元記事であるbaxil.livejournal.comによると、HTML上ではJavaScriptで改変して記述してあるアドレスが、検索結果できちんとアドレスとして表示されるようになり、以前ではスパムが送られてきていなかったアドレスがスパムリストに載ってしまったという。

/.Jer諸兄方で同様の変化に気付いた方などいらっしゃるだろうか?

表示オプション しきい値:
  • 隠匿してない (スコア:5, すばらしい洞察)

    Livingdead (18685) : 2009年06月25日 3時18分 (#1593335) ホームページ 日記

    HTML上ではJavaScriptで改変して記述してあるアドレスが、検索結果できちんとアドレスとして表示されるようになり、以前ではスパムが送られてきていなかったアドレスがスパムリストに載ってしまったという。

    そのJavaScriptを認証によるアクセス制限のかかっていないところに置いている時点で全然隠匿できてないわけだが.
    公開されているスクリプトを実行して,その結果からテキスト抽出することに何の問題もない.

    --
    屍体メモ [windy.cx]
    • Re:隠匿してない (スコア:3, すばらしい洞察)

      Anonymous Coward : 2009年06月25日 16時51分 (#1593825)

      BotはJavaScriptを実行できないという、メールアドレスの隠匿とは本来全然関係ない勝手な仮定が破綻しただけの話ですよね。
      Googleがやらなくたってspam業者が自前で走らせているbotはそのうちやるようになるに違いありませんし。

      • 2個のコメント が現在のしきい値以下です。
    • Anonymous Coward : 2009年06月26日 1時04分 (#1594096)
      > メールアドレスを晒す理由って何?
      > 連絡窓口のつもりならそれ用の入力フォームでも作っておけば十分だし、他にアドレスを晒す理由ってあるのかな?

      いかがわしい携帯サイトの運営に関わったことがありますが、
      特商法の関係上、嫌でも連絡先窓口をサイトで晒す必要があります。

      法的に電話番号の記載が必須なのですが、
      面倒なのでなるべくなら電話ではなくメールで問い合わせをして欲しいわけです。
      ただ、検索なんてされたくないですし、
      できれば問い合わせそのものをあきらめて泣き寝入りしてほしいのが本音です。

      訴えられないように最低限の情報は載せる必要がありますし、
      また業者との取引(広告掲載やクレジットカード加盟店契約)で審査されることもあるので、
      メールフォームはおろか tel: や mailto: のリンクも無しに、
      画像で連絡先を掲載していました。

      携帯サイトですので、一旦、紙などに書き写してから、手入力しなければ、
      電話にしてもメールにしても連絡できないわけです。
      メールアドレスには「0(ゼロ)」と「O(オー)」、「1(イチ)」と「l(エル)」を
      混在させ、不必要に長いものにして連絡する気を無くさせます。
    • 3個のコメント が現在のしきい値以下です。
  • Google はいろいろな実験を行っているようです。 [blogspot.com]
    このような実験の一環として、JavaScript を認識する Googlebot を稼働させているのではないでしょうか。

    今年の4月頃、仕事で管理しているウェブサイトのアクセス解析を行っていた際、
    JavaScript を認識する Googlebot が存在するのではないかとの疑問を抱かせるデータを目にしました。

    このサイトでは Google Analytics [google.co.jp] を用いてアクセス解析をしているのですが、
    ブラウザ別の統計に「Googlebot/2.1」のアクセスがあることが確認できたのです。
    Google Analytics の仕組みでは、HTML 内に JavaScript を埋め込むことでアクセスを解析しているため、
    Googlebot が JavaScript を認識できなければ Google Analytics にはアクセスがカウントされないはずなのです。

    Googlebot が Google Analytics のコードのみを解釈している可能性も考えましたが、
    あえてアクセス解析のデータに bot のクロールをカウントするメリットがありません。
    むしろ bot アクセスのデータが混入することで Google Analytics の精度を下げてしまうわけであり、
    Google にとってはデメリットしかなく、そのようなことはまずないと考えました。

    また、当該サイトには毎日百回以上の Googlebot のアクセスがありますが、
    不思議なことに、Google Analytics で検出されたアクセスは1週間に数回のみで、
    トップページのみに限定されていました。
    このアクセス数の少なさから、この Googlebot は「実験用ではないか」と推測しています。

    アクセス元のアドレスは間違いなく Google Inc. のものであり、
    UA を Googlebot に偽ったブラウザによるイタズラということはありません。
    # Google 内部にそういう PC がある可能性は否定できませんが...
  • 自分の持っているサイトで、select要素のonChangeで別ページに遷移する仕組みを取っています。
    実際にモノ [orelabo.jp]を見ていただいたほうが話は早いのですが、
    複数のselect要素を用意してさまざまな組み合わせを自由に選べるようにしています。

    このページにGoogleBotがやってきたのですが、この組み合わせを全部試していってくれました。
    毎日数千アクセスがあり、それが何日も続きました。
    組み合わせを変更しながら試していた様子はアクセスログで確認しました。

    よって、GoogleBotはdocument.writeのような簡単なスクリプトだけでなく、さまざまなJSを解釈し、
    実行していると認識しています。

    # ちなみに、Yahooなどのクローラではそのような挙動をしていませんでした。

  • こうなったら、 (スコア:4, おもしろおかしい)

    Anonymous Coward : 2009年06月25日 16時48分 (#1593823)
    tableタグで書くんだ。
    1マス1ドットで。
  • unclear (16660) : 2009年06月25日 18時15分 (#1593882)
    極論するなら、ブラウザで表示して人間が判別できるメールアドレスをロボットが判別できない道理はないんですよね。
    問題はそのロボットを作るコストに見合ったリターンがあるかどうかで、猫も杓子も同じような隠し方をするならコストパフォーマンスは向上します。
    メールアドレスの公開をやめてメールフォームを作っても、そのフォームの送信先がデータとして流通して、同じようにスパムが来るかもしれません。
    人件費がスパムの単価に対して十分安ければ、人力でやることもあるかもしれません。
  • s02222 (20350) : 2009年06月25日 17時23分 (#1593848)
    ちょっとオフトピですが、いつぞや、メールアドレス「foo@bar.baz」で検索したところ「foo[at]bar.baz」やらまでヒットして爆笑しました(メアドははめ込み合成です。実際のものとは異なります)。ちゃんと検索結果中の「foo[at]bar.baz」が太文字になっていたので、この程度のスクランブルはきっちり解除できるようでした。
  • document.writeは前からある程度解釈されて検索結果に表示されてました。
    それが以前より若干高機能になっただけの話だと思います。
    私の場合

    document.body.innerHTML = document.body.innerHTML.replace('※猫大好きフリスキー※', '@');
    document.body.innerHTML = document.body.innerHTML.replace('スパムメール対策のため、@を※猫大好きフリスキー※に変えています。@に戻してお使いください。', '');

    とかでいい加減に誤魔化してましたが、こんなのもいずれ無力にかもしれませんね。
    script実行に1分かかるようなページにしておけば、Google様も諦めてくれるかもしれませんが……。
    # PigPGP [faireal.net]とか使ったらDoS紛いが出来るかな? :p

  • ページをキャプチャしてOCRかけてるだけじゃないかな? 今時ならそれがコスト/パフォーマンスにかなってると思うが、いかが?
  • Re:そのACはどのAC? (スコア:1, おもしろおかしい)

    Anonymous Coward : 2009年06月25日 19時41分 (#1593923)

    http://www.aretama.com/ [aretama.com]
    1935年に設立されたコロンビアの食品会社

  • 他のトピックの AC 率を計算して検証してみたら。

    #そもそもアレたまなんてつい最近始まったものなんで、「アレたまを経ないものは…」とか言われるとむしろビックリ。今までのは何だったんだ。

  • Deasuke (34806) : 2009年06月25日 22時59分 (#1594038) 日記
    #1593981のより良い具体例ですね。#1593981にある例よりも良いと思います。
    ケブンッリジをどう使うのかは分かりませんが、(現状だともし次の行が注意書きだと認識できるbotならば、2バイト文字をスペースに置き換えるだけでac→anonymous.cowardの変換と推測できますね。

    私もケブンッリジをCAPTCHAに使えないかどうか考えたことがありますが、辞書攻撃で破れてしまいますね。
    --
    Best regards, でぃーすけ
  • greentea (17971) : 2009年06月25日 23時26分 (#1594055) 日記

    メールアドレスはWebで検索!
    [ac example.com メール] [検索]

    --
    1を聞いて0を知れ!
  • Re:そのACはどのAC? (スコア:1, すばらしい洞察)

    Anonymous Coward : 2009年06月26日 5時07分 (#1594149)
    いいえ。Google も Apple もそうですが、普通に彼らの問題点を話題にするストーリーで信者の粘着がひどくなります。
  • tensu (34456) : 2009年06月26日 8時49分 (#1594180)

    /. で曝せば おてまみ 増えるかもよ。

  • anonymous@example.com
    ※anonymousはaと書き換えてください。

  • Deasuke (34806) : 2009年06月26日 13時29分 (#1594306) 日記
    @の前が何でも届くようにしているサイトがあるのですが、宛先(envelopの方ですよ)の@の前を実に様々な単語や名前などにしたSPAMがやってきますよ。
    もちろん、そんなアドレスは何処にも書いていないですけどね。

    なので、@の前と後別々に集めてかけ算しているのではないかという疑いがあります。
    --
    Best regards, でぃーすけ
  • 11個のコメント が現在のしきい値以下です。