Disallow:/iraq ― ホワイトハウスの robots.txt 60
ストーリー by yoosee
俺たちそんなこと言ってないもーん 部門より
俺たちそんなこと言ってないもーん 部門より
struggler曰く、"本家より。ホワイトハウスの公式ページ whitehouse.gov が、その robots.txt で「iraq」が含まれるすべてのディレクトリを外部からクロール不可能にしていることが発見された(詳細)。
現在1600行ほどの robots.txt のうち、iraq を含む Disallow: 文は768行にのぼる。各ディレクトリごとの印刷用ページを意味する/text(こちらは通常ページの単なる複製であるためにクロール対象から除外されているらしい)を/iraqに置き換えて追加したものらしく、明らかにありえないディレクトリも大量に登録されている。
whitehouse.gov 自体の検索フォームからは見えるため、google のキャッシュや waybackmachine などのアーカイブに保存されるのを阻止することで、現政権のイラクに関する過去の発言を見つけにくくするためではないかと推測されている。
直接アクセスすれば見れるのだから、何でも政府の陰謀にしたがるのはパラノイアだという声もあるが、延々と羅列される /kids/dreamteam/baseballcards/iraq やら /president/holiday/decorations/iraq といった記述からは確かに濃い電波が感じられる。"
自動生成? (スコア:2, 興味深い)
そもそも政府機関のウェブサーバにrobots.txtが設置されていること自体がおかしい、というのはそれなりに真っ当なツッコミと思う。
検索エンジンのロボットでも、.govとか.go.jpドメインなんかは
robots.txtを無視してごっそり拾っていってもそれはそれで良いような気がするんですがね。
Re:自動生成? (スコア:1)
みんつ
Re:ありうるような気が (スコア:1)
政府として公式見解や文書を削除することは出来ないから、
苦肉の策という可能性は大いにあると思う。
#深読みするまでもない浅知恵と言う点は激同
Re:ありうるような気が (スコア:0)
謝罪することは必要なこともあるでしょう。
しかし、Googleキャッシュやアーカイブのように外部のサーバが
自動収集でそれを保管してしまっては、その修正が反映されません。
それを防ぐためにのものかもしれませんし、そもそも存在しな
Re:ありうるような気が (スコア:0)
> 自動収集でそれを保管してしまっては、その修正が反映されません。
再度クロールすれば修正も反映されますよね。
> 存在しないディレクトリが大量に書かれていることから、
> 単に検索サイトのロボットを利用した
> DDoSアタックを防ぐための予防線に過ぎない
Re:ありうるような気が (スコア:2, 興味深い)
いずれ (スコア:2, おもしろおかしい)
ふむ (スコア:2, すばらしい洞察)
Re:いずれ (スコア:1)
を支援してたという過去があるので
そこらへんをほじくり返されたくないんじゃないかなって話なんですが
北朝鮮に対してはずーっと敵側だからそんな事はしないと思う
Re:いずれ (スコア:1)
>を支援してたという過去があるので
これについては東側の大国ほとんどが同罪だと思いますが・・・。
ま、イラン革命政権よりかはましだったのでしょう、少なくとも当時は。
Re:いずれ (スコア:0)
ひ、東側だってー?
# ふざけてみたかったのでAC
そりゃあ (スコア:1)
考えすぎ。
Re:そりゃあ (スコア:2, おもしろおかしい)
ここまで露骨にやってしまったら、こうやってとりあげられて、/. 効果で逆効果に…なんてことまではいくらなんでも考えつかないか(w。
むらちより/あい/をこめて。
Re:そりゃあ (スコア:2, おもしろおかしい)
ファーストレディの画像にものすごい負荷が?
それで (スコア:0)
そりゃー (スコア:0)
# 自明なのでAC
でも (スコア:1)
Re:でも (スコア:0)
Re:でも (スコア:1)
でもアクセスログが公開されててもおかしくはない。
税金によって運営されているサーバに対してどういうアクセスがあるかという情報は保管してあるべき。
情報開示を求めれば国民も見れるかもしれないが、IPやリモートホスト名が個人情報と判断されたら見られないのかな。
Re:でも (スコア:0)
ワンダフル自明 (スコア:1, 参考になる)
WayBackMachineに残っている限り [archive.org]でもっとも古いのは2001年4月 [archive.org]で、Disallow:されているのは/cgi-binのみ。同年9月までそのまま。
2001年9月以降、Disallow:(存在するディレクトリ)/textが追加される [archive.org]。/text以下は画像やレイアウト以外親と同内容のテキスト版。
WayBackMachineに残っている最新は今年4月のもの [archive.org]で、この時点では全780行のうちiraqが含まれるエントリは10しかない。
そして、現在のrobots.txt [whitehouse.gov]には「Disallow:.*/iraq」が768行含まれている。単純なスクリプトで生成したらしく、そのうち実際に存在しているディレクトリ [bway.net]は約75個。
つまり、
ということは、
・今年4月以降になって突然robotによるクロールが激増したので、
あるいは
・今年4月以降になって突然「/特定のキーワード」をDisallowするというアイデアを思いついたので、
・全ディレクトリのほんの一部でしかない.*/iraqに対する、
・スパイダーによるアクセスのみ
を禁止して負荷軽減を図った、という意味ですね?
#422528さんにとって他にはどんなことが自明なのか考えただけでワクワクします。
とりあえず、何か責任ある「対策もの」を担当していらっしゃらないことだけをお祈りします。
Re:ワンダフル自明 (スコア:0)
ただどういう方向にもっていきたいかは理解できた。
Re:ワンダフル自明 (スコア:1)
つまり (スコア:0)
ってことですね。
Re:そりゃー (スコア:0)
初めて使わせて頂きます (スコア:1, おもしろおかしい)
Re:初めて使わせて頂きます (スコア:0)
Re:初めて使わせて頂きます (スコア:0)
濃い電波 (スコア:1, すばらしい洞察)
というタレコミの方こそ、濃い電波を感じる。
# ACに恋を感じる
Re:濃い電波 (スコア:1, すばらしい洞察)
というタレコミの方こそ、濃い電波を感じる。
同感。
# こういう人が「アポロの月着陸は無かった」とか # 主張するんだろうな、と感じた
robots.txtといえば…… (スコア:1)
http://www.content.overture.com/robots.txt [overture.com]
しかし、ここってAllthewebやAltaVistaを保有してるんですよね。
しかもいまやYahoo!傘下なんだけど……。
"Make Love, Not War"
電波はお前だろ>struggler (スコア:1, すばらしい洞察)
結構引っかかるぞ (スコア:1)
#曰く付きディレクトリ
1を聞いて0を知れ!
衝撃の事実 (スコア:1)
イラクにおけるアップル社系OA機器の販売は禁止されるようです。
(一時期の製品を除く)
Re:衝撃の事実 (スコア:1)
大統領の休日(わくわく
robots.txt負荷軽減のため (スコア:1)
Disallow: /
# なんとなくID
---にょろ~ん
robots.txt負荷軽減になってなかった (スコア:1)
Disallow: /robots.txt
# いまさら気が付いたのでID
---にょろ~ん
なんだか (スコア:1)
電波ってどういういみでしょうか (スコア:0)
Re:電波ってどういういみでしょうか (スコア:0)
Re:電波ってどういういみでしょうか (スコア:1)
Re:電波ってどういういみでしょうか (スコア:0)
是が非でも富士山と乳首を競争させたいらしい。
Re:電波ってどういういみでしょうか (スコア:0)
とのことなのでマジレスすると、その「電波」の記述の前に「パラノイア」という
表現も見られますので、このrobots.txtを生成した人のことを妄想症などの
心身症患者ではないかと言っていることと思われます。
「電波が聞こえる」というような妄想に陥った患者の可能性が
釣りってどういういみでしょうか (スコア:0)
技術的関心事 (スコア:0)
Re:技術的関心事 (スコア:0)
誰かが対処しているってのと対処していないのが暗黙の了解を与えたと受け取る事は全くって言って良いほど無関係な事象だと思うのだが。
クロール不可能にしていることを発見 (スコア:0)
Re:クロール不可能にしていることを発見 (スコア:0)
http://www.whitehouse.gov/robots.txt [whitehouse.gov]
これをざっと眺めるだけじゃダメですか?
日本の省庁を見てみた (スコア:0)
唯一これ [jma.go.jp]ってどうなんだろうと思ったぐらいかな。
Re:日本の省庁を見てみた (スコア:2, すばらしい洞察)
ロボットの巡回規制は必要なさげです。