hylomによる
2009年06月25日 16時35分の掲載
別に驚きはないけど部門より
別に驚きはないけど部門より
あるAnonymous Coward 曰く、
メールアドレスをウェブページに公開する場合、アドレスをHTMLでそのまま書いてしまうとスパム業者の格好の的となってしまう。これを避けるには、アドレスをgifやjpegなどの画像で表示させたり、分断して記述したアドレスをウェブページでは一続きに表示させるようなJavaScriptを使用することが有効であるとされてきた。projecthoneypot.orgではスパム対策として、このようなJavaScriptを自動生成してくれるツールも公開している。
しかし、GoogleはこのようなJavaScriptからメールアドレスを構築し、ウェブページのサマリーにアドレスを表示してしまうようになったとの報告が本家/.にて取り上げられている。
元記事であるbaxil.livejournal.comによると、HTML上ではJavaScriptで改変して記述してあるアドレスが、検索結果できちんとアドレスとして表示されるようになり、以前ではスパムが送られてきていなかったアドレスがスパムリストに載ってしまったという。
/.Jer諸兄方で同様の変化に気付いた方などいらっしゃるだろうか?
隠匿してない (スコア:5, すばらしい洞察)
そのJavaScriptを認証によるアクセス制限のかかっていないところに置いている時点で全然隠匿できてないわけだが.
公開されているスクリプトを実行して,その結果からテキスト抽出することに何の問題もない.
屍体メモ [windy.cx]
コメントを書く
Re:隠匿してない (スコア:3, すばらしい洞察)
BotはJavaScriptを実行できないという、メールアドレスの隠匿とは本来全然関係ない勝手な仮定が破綻しただけの話ですよね。
Googleがやらなくたってspam業者が自前で走らせているbotはそのうちやるようになるに違いありませんし。
コメントを書く
親コメント
参考までに (スコア:2, 参考になる)
> っていう一方的な思い込みが裏切られたってことですからねぇ.
Web屋が新人教育やSEOの文脈で話す際は、
「現時点では全てのクローラーがJavaScriptを解するワケでは無い」
と、説明しています。
即ち、完全に意図通りに動くかどうかは兎も角として、
(また、その結果をDB等へ反映させるか否かは兎も角として、)
JavaScriptを解するクローラーが存在している事は知られていました。
コメントを書く
親コメント
Re:隠匿してない (スコア:3, 興味深い)
> 連絡窓口のつもりならそれ用の入力フォームでも作っておけば十分だし、他にアドレスを晒す理由ってあるのかな?
いかがわしい携帯サイトの運営に関わったことがありますが、
特商法の関係上、嫌でも連絡先窓口をサイトで晒す必要があります。
法的に電話番号の記載が必須なのですが、
面倒なのでなるべくなら電話ではなくメールで問い合わせをして欲しいわけです。
ただ、検索なんてされたくないですし、
できれば問い合わせそのものをあきらめて泣き寝入りしてほしいのが本音です。
訴えられないように最低限の情報は載せる必要がありますし、
また業者との取引(広告掲載やクレジットカード加盟店契約)で審査されることもあるので、
メールフォームはおろか tel: や mailto: のリンクも無しに、
画像で連絡先を掲載していました。
携帯サイトですので、一旦、紙などに書き写してから、手入力しなければ、
電話にしてもメールにしても連絡できないわけです。
メールアドレスには「0(ゼロ)」と「O(オー)」、「1(イチ)」と「l(エル)」を
混在させ、不必要に長いものにして連絡する気を無くさせます。
コメントを書く
親コメント
Google の実験ではないでしょうか (スコア:5, 興味深い)
このような実験の一環として、JavaScript を認識する Googlebot を稼働させているのではないでしょうか。
今年の4月頃、仕事で管理しているウェブサイトのアクセス解析を行っていた際、
JavaScript を認識する Googlebot が存在するのではないかとの疑問を抱かせるデータを目にしました。
このサイトでは Google Analytics [google.co.jp] を用いてアクセス解析をしているのですが、
ブラウザ別の統計に「Googlebot/2.1」のアクセスがあることが確認できたのです。
Google Analytics の仕組みでは、HTML 内に JavaScript を埋め込むことでアクセスを解析しているため、
Googlebot が JavaScript を認識できなければ Google Analytics にはアクセスがカウントされないはずなのです。
Googlebot が Google Analytics のコードのみを解釈している可能性も考えましたが、
あえてアクセス解析のデータに bot のクロールをカウントするメリットがありません。
むしろ bot アクセスのデータが混入することで Google Analytics の精度を下げてしまうわけであり、
Google にとってはデメリットしかなく、そのようなことはまずないと考えました。
また、当該サイトには毎日百回以上の Googlebot のアクセスがありますが、
不思議なことに、Google Analytics で検出されたアクセスは1週間に数回のみで、
トップページのみに限定されていました。
このアクセス数の少なさから、この Googlebot は「実験用ではないか」と推測しています。
アクセス元のアドレスは間違いなく Google Inc. のものであり、
UA を Googlebot に偽ったブラウザによるイタズラということはありません。
# Google 内部にそういう PC がある可能性は否定できませんが...
コメントを書く
GoogleBotはさまざまなJSを解釈している (スコア:5, 興味深い)
自分の持っているサイトで、select要素のonChangeで別ページに遷移する仕組みを取っています。
実際にモノ [orelabo.jp]を見ていただいたほうが話は早いのですが、
複数のselect要素を用意してさまざまな組み合わせを自由に選べるようにしています。
このページにGoogleBotがやってきたのですが、この組み合わせを全部試していってくれました。
毎日数千アクセスがあり、それが何日も続きました。
組み合わせを変更しながら試していた様子はアクセスログで確認しました。
よって、GoogleBotはdocument.writeのような簡単なスクリプトだけでなく、さまざまなJSを解釈し、
実行していると認識しています。
# ちなみに、Yahooなどのクローラではそのような挙動をしていませんでした。
コメントを書く
こうなったら、 (スコア:4, おもしろおかしい)
1マス1ドットで。
コメントを書く
Re:こうなったら、 (スコア:2, 参考になる)
figlet [figlet.org]の出番ですね!
コメントを書く
親コメント
Re:こうなったら、 (スコア:2)
Acid Test的なもので表示させたらいいんじゃないかな。
Acid Testに通らないブラウザでは表示できません。っていう・・・
# クローラがAcid Testに通ったら、敬意を表して取得させてやってもかまわん。
コメントを書く
親コメント
いたちごっこは終わらない (スコア:4, すばらしい洞察)
問題はそのロボットを作るコストに見合ったリターンがあるかどうかで、猫も杓子も同じような隠し方をするならコストパフォーマンスは向上します。
メールアドレスの公開をやめてメールフォームを作っても、そのフォームの送信先がデータとして流通して、同じようにスパムが来るかもしれません。
人件費がスパムの単価に対して十分安ければ、人力でやることもあるかもしれません。
コメントを書く
googleのがんばり (スコア:2, 興味深い)
コメントを書く
document.writeは前から… (スコア:1)
それが以前より若干高機能になっただけの話だと思います。
私の場合
document.body.innerHTML = document.body.innerHTML.replace('※猫大好きフリスキー※', '@');
document.body.innerHTML = document.body.innerHTML.replace('スパムメール対策のため、@を※猫大好きフリスキー※に変えています。@に戻してお使いください。', '');
とかでいい加減に誤魔化してましたが、こんなのもいずれ無力にかもしれませんね。
script実行に1分かかるようなページにしておけば、Google様も諦めてくれるかもしれませんが……。
# PigPGP [faireal.net]とか使ったらDoS紛いが出来るかな? :p
コメントを書く
javascript解析なんてやってるの? (スコア:1)
コメントを書く
Re:そのACはどのAC? (スコア:1, おもしろおかしい)
http://www.aretama.com/ [aretama.com]
1935年に設立されたコロンビアの食品会社
コメントを書く
親コメント
Re:そのACはどのAC? (スコア:1)
他のトピックの AC 率を計算して検証してみたら。
#そもそもアレたまなんてつい最近始まったものなんで、「アレたまを経ないものは…」とか言われるとむしろビックリ。今までのは何だったんだ。
コメントを書く
親コメント
Re:ぶっちゃけ (スコア:1)
ケブンッリジをどう使うのかは分かりませんが、(現状だともし次の行が注意書きだと認識できるbotならば、2バイト文字をスペースに置き換えるだけでac→anonymous.cowardの変換と推測できますね。
私もケブンッリジをCAPTCHAに使えないかどうか考えたことがありますが、辞書攻撃で破れてしまいますね。
Best regards, でぃーすけ
コメントを書く
親コメント
こっちの方が便利ですよ(Was: Re:ぶっちゃけ (スコア:2, おもしろおかしい)
1を聞いて0を知れ!
コメントを書く
親コメント
Re:そのACはどのAC? (スコア:1, すばらしい洞察)
コメントを書く
親コメント
Re:spam来ない (スコア:1)
/. で曝せば おてまみ 増えるかもよ。
コメントを書く
親コメント
Re:ぶっちゃけ (スコア:1)
anonymous@example.com
※anonymousはaと書き換えてください。
コメントを書く
親コメント
Re:ぶっちゃけ (スコア:1)
もちろん、そんなアドレスは何処にも書いていないですけどね。
なので、@の前と後別々に集めてかけ算しているのではないかという疑いがあります。
Best regards, でぃーすけ
コメントを書く
親コメント