パスワードを忘れた? アカウント作成
3786 story

国会図書館が.jpなウェブを全部保存する計画 81

ストーリー by Oliver
是非とも広く一般公開 部門より

sora曰く、"朝日新聞によると、国会図書館がウェブ上の情報を収集するようになるようだ。記事を素直に読めば、jp ドメインのページを全て収集するのがひとまずの目標らしい。The Internet Archive の jp ドメインオンリー版といったところだろうか。
しかし、いわゆる個人サイトも対象とするならば、それは出版で言うならば同人誌やミニコミ誌にあたるもので、それは国会図書館への『納本』の対象になるのか? という問題もある。また、日本人が日本人向けに運営しているサイトで com ドメインや net ドメイン、to ドメイン等他国のドメインを用いて運営しているものも多くある。そういったサイトへの対応はどうするつもりなのだろうか……"

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by lss (2577) on 2002年09月01日 12時23分 (#157436) ホームページ 日記
    データベース・ナビゲーション・サービスではこんなメール(抜粋、一部伏字)が飛び交っています。要するにリンクのお願いメールなのですが、長さが桁違い。
    さらに返信時にの記入フォームがまた桁外れに長く、 データベースのURLに始まって作成者・公開日・60字程度の内容説明・連絡先住所・電話番号など入力項目は17もあります。 さすが国会図書館です。
      データベース御担当者殿

                データベースへのリンク等についてのお願い

       国立国会図書館では、電子図書館事業の一つとして、平成14年10月の国立国会図書館
      関西館開館にあわせて、インターネット上の各種データベース・サイトを案内する「国立
      国会図書館データベース・ナビゲーション・サービス」を計画しております。(この事業に
      ついての詳細は、国立国会図書館ホームページ を御参照ください。)
       つきましては、本サービスの趣旨に御理解を賜り、貴機関/貴殿が提供されている
      データベース「XXXXXXXXXX 」 にリンクを設けさせていただ
      きますとともに、貴データベースに関する情報を御提供くださいますようお願い申し上げ
      ます。
       御多用中誠に恐縮ですが、下記の<返信フォーム>に御記入の上、平成14年09月11日(水)
      までに、メールにて御返信願えれば幸いです。
       今後、サーバの入れ替えやホームページの更新等データベースのURLが変更された場合、
      またデータベースの名称や御連絡先に訂正・変更があった場合は、その都度メールにて御連
      絡いただければ適宜修正いたします。また新規データベースが公開される場合や他のデー
      タベースが存在する場合も、御一報いただければありがたく存じます。
       なお依頼メールは、データベース毎に送付しております。お手数ですが、個別に御返信
      願います。
       責任者以外の方にこのメールをお送りした場合には、御面倒でも責任者の方に御転送く
      ださいますようお願い申し上げます。
      国立国会図書館 関西館 事業部 電子図書館課 ネットワーク情報係
      担当:XX XX
      メールアドレス: xxx@xxxx.xx.xx

      (返信フォーム記入方法)
      ○各々の項目について御確認をお願いいたします。一部の項目につきましては、あらかじ
      め情報を作成させていただいておりますが、誤りや不適切な部分がございましたら、お手
      数ですが、修正をお願いいたします。以下の≪データベースに関する情報≫の内容につき
      ましてはインターネット上で各項目の検索を可能とさせていただきます。なお、編集上の
      都合で修正させていただく場合がございます。
      【ご注意】半角カナは使用できません。

      (返信フォーム)
      返信先: xxxx@xx.xx



  • by KAMUI (3084) on 2002年09月01日 10時06分 (#157390) 日記
    皮肉な話だけど,現在の日本のインターネットを考えると
    例えば「2ちゃんねるを jp ドメインではない」という理由で外すと
    情報の蓄積と言う点では問題ありと考えられるし。

    かと言って「2ちゃんねるをアーカイブするのに税金が使われる」と
    考えると,一寸複雑な気がしなくも無い(苦笑)

    まぁ,私自身は2ちゃんねる偶に見に行くくらいなので尚更ね(^_^;

    このタレコミ,私もやって落とされたクチです。
    で,その中タレコミ文中でも一寸書いたんだけど
    jpドメイン記録って事はスラドも対象になるって事ですわな。

    後の世にフレーム見られるの一寸イヤンかも。みんな自重しませう(笑)
    • by maezoh (4657) on 2002年09月01日 11時10分 (#157405)
      50年後、100年後の学者さんから見れば凄く貴重な財産ですよね。フレームも含め。
      人類が滅んでないとしてですけれども(w

      しかし毎月4TBづつ増えるとして、いつでもアクセスできるようにするには、
      どれくらい電気代かかるんでしょうか?
      親コメント
    • Re:日本人向け≠.jp (スコア:1, すばらしい洞察)

      by Anonymous Coward on 2002年09月01日 16時53分 (#157570)
      「Subjectに!広告!を付ければ、受信側で振り分けできる」
      「担当者がトラブルは絶対起きないと言っているから、トラブルの心配はない」
      「.jpのページを集めれば、日本のページは集まる」
      ………

      なんかこう、何も考えない、調査も検証もしないでああしよう、こうすればいい、こんな計画はどうだなんてのが多くないですか? いかにも安直に、2を作るためには1と1を足せばいいんだ、みたいな。

      こんな物事の進め方をしているようじゃ、何故国の借金が増えるばかりなのか、縦割り業務が改善されないのか等々、税金消費組織のやることなすこと全てがまともに機能しないのか何となく解るような気がします。

      私らにできることは一体なんでしょうねえ…。技術者の立場で指導しようにも、彼らは実より名を優先しますからねえ。
      親コメント
    • www.nifty.com (スコア:1, すばらしい洞察)

      by Anonymous Coward on 2002年09月01日 18時42分 (#157631)
      @niftyも対象外となりますね。

      小さいのは沢山あるでしょうけど、大物でも探すと他にもありそう。

      親コメント
    • by Anonymous Coward
      しかしそんな無駄なことする税金がドコにあるんでしょう?
      archive.org じゃダメなんでしょうか・・・

      しかもドメインだけじゃ(日本人向けか、という)内容まで分からないってのに。

      #県知事選挙に行くのでAC
      • Re:日本人向け≠.jp (スコア:3, すばらしい洞察)

        by Anonymous Coward on 2002年09月01日 12時39分 (#157447)
        たとえば国会図書館では普通に出版される書籍のほとんどすべてが
        保存されています。そりゃもー100部も出ないような小規模な本から漫画雑誌まで。

        で、そーゆーのも「無駄なこと」だと思いますか? 思わないのなら流通形態が違うだけのコンテンツをいかに保存するかについて無駄と無駄でないという線引きをどうやってきめるべきですか?

        今回の保存にかかる範囲設定には疑問視するべき点はありますが
        日々現れては失われていくコンテンツを保存することに意義がないとは
        思えません

        archive.org? 将来的に何の保証があるわけでもないのに他人任せにしてどーするよ。
        親コメント
        • 蔵書 (スコア:3, 参考になる)

          by lss (2577) on 2002年09月01日 13時53分 (#157482) ホームページ 日記
          補足。

          国会図書館は普通に出版されてない書籍も保存してくれます。 例えば、 すらっしゅぼっと じゃぽん みたいなものだって印刷して送りつければ蔵書として保存してくれます。国会図書館は資料を後世に残すための設備なので大事に保存してくれますよ。

          親コメント

        • で、そーゆーのも「無駄なこと」だと思いますか? 思わないのなら流通形態が違うだけのコンテンツをいかに保存するかについて無駄と無駄でないという線引きをどうやってきめるべきですか?


          「いままでそうだったから今後も同じ方針」という考え方を適用するとして、
          現在、国会図書館が保存している書籍を保存することが「無駄でない」という前提で考えると、

          書籍の場合、作者は個人だけど、発行人は出版社の代表。
          ウェブページの場合、作者は個人だけど、発行人はプロバイダ(企業)の代表。

          ってことで、個人ページも保存すべきなんですかね。
          (なんかもっと適切な対応表が欲しいところだけど)

          しかしまぁ、日本人向けのページかどうかっていうのは関係ない気がしますね。
          日本在住の英語圏の方に向けた書籍や雑誌も日本で発行されていることもあることでしょうし。

          「日本人(日本の企業)以外は.jp取ってないし、日本人(日本の企業)は.com取ってない」という前提をしょうがないけど受け入れれば、.jpだけすべて保存することは悪い気がしません。

          # 現実問題として、そんなわけないから中途半端な保存なんてしてくれなくたっていいんだけど。
          親コメント
        • by naruaki (2658) on 2002年09月01日 22時26分 (#157780) 日記
          普通に出版される書籍のほとんどすべてが保存されています。
          基本的に初版本なのだろうか?増刷されたからといって、その都度納本してませんよね。
          しかし、版によって修正されている本ってあるだろうし。
          親コメント
  • えー。 (スコア:2, すばらしい洞察)

    by kawauso (5796) on 2002年09月02日 1時25分 (#157916) ホームページ
    マスコミが検閲だとか言い出す前に提言しときますが、
    こんなことは物理的に可能なのかスラッシュドッターに
    計算してみてほしいのだが。

    数台程度のハードディスクでは書き込み速度でさえ、
    ネットの日々の情報を記録するには間に合わないのでは。

    容量が足りないのは当然ですが。
  • by yeez (11049) on 2002年09月01日 12時29分 (#157440) 日記
    元記事に「一切合切保存する」と書かれていますが、

    robots.txt
    とか
    <META NAME="robots" CONTENT="NOINDEX,NOFOLLOW">
    を無視しちゃうんでしょうかねぇ。
    • by harupunte (10435) on 2002年09月02日 13時34分 (#158211) 日記
      皆様、ウェブアーカイブと聞いて無条件にrobot
      での保存と思われていますが、国の機関のやること。
      そんな当たり前の方法が採られるワケがありません。

      詰め所にアーカイブ職員が数十人体制でIEでブラウズ
      しては内容を吟味、分類しては「名前を付けて保存」
      をしていくのです。
      従って、robots.txt や META タグなんていちいち
      参照していられません。

      #ガセネタなのでAC…にしようと思ったけどACにしない主義なのでそのまま
      親コメント
    • by Anonymous Coward
      "robots" にindex だの follow(つまりindex の為の) があるって事で、索引作成用ロボットへのメッセージとして解釈してみるとか。

      検索エンジンに索引化されたくない場合として、適度にクローズドなサイトを作りたいという欲求があると思いますが、こ
  • by mich (6859) on 2002年09月01日 13時01分 (#157459)
    閲覧可能+カテゴライズしてあるのなら、ものすごく見たい。
    がんばれ国会図書館。
  • by yakusouX5 (8222) on 2002年09月01日 17時50分 (#157594) ホームページ 日記
    .npは外されるのでしょうか?
    --
    うすっぺらいコメントがあらわれた! ▼
  • by limbo (6813) on 2002年09月01日 18時32分 (#157628) 日記
    これってどうやって収集するの?外部から参照可能なリンクを辿ってキャッシュに保存?

    だとしたら、顧客データを外部から見える場所に置きっぱなしにした企業のサイトに悪意でリンクをはられたら、そのデータが国会図書館に保存されることになるの?
    • by R-GRAY2 (3194) on 2002年09月01日 20時12分 (#157706)
      Web にある情報は、「公開されている情報」なんだから、
      保存の対象となるのが自然でしょう。

      公開したくない情報はイントラネット内に置くべき。
      親コメント
  • by fuku (1936) on 2002年09月02日 9時38分 (#158064) 日記
    収集のインターバルとか、保存のための記憶領域ってどのくらいになるのかなぁ?

    図書として保存するなら、ページの全文がその対象になるんだろうなぁ。
    ※検索エンジンの場合は、適当に千切っても平気だと思うけど。

    一見普通の URI に見えて、実はプログラムが動いている (/. もそうだけど) ようなサイトは図書に当たるのかなぁ?

    で、どんな URI がアクセスされても、必ず巨大なデータを出力するようにサイトを構築すると、あっという間に国会図書館の記憶領域がいっぱいになるような気が…。

    あ、でも国会図書館の予算って事は、そんな庶民の考えは無駄なんでしょうね。
    • by tietew (6130) on 2002年09月02日 11時38分 (#158121) ホームページ
      チャットCGIとか,どこかの標準時出力CGI(政府系だったけどどこだっけ?)には,コネクションをクライアントから切らない限り延々と出力し続ける(とくに後者は1秒ごとに)やつがあったはず。そういうのはどうなる?
      親コメント
  • by ta98 (10561) on 2002年09月02日 13時50分 (#158218) ホームページ
    情報収集されるのを嫌がって、ドメインをかえる企業や個人が増えたりして。その逆でわざわざjpドメインにかえるのもあるか。

     納本制度により、出版物の発行者らに書籍などの納入を義務づけ

    #国会図書館に届け出をしないと、jpが使えない事態になったらお笑いっすね。
    • by skyblue (11278) on 2002年09月02日 15時12分 (#158259)
      #国会図書館に届け出をしないと、jpが使えない事態になったらお笑いっすね。

      プロバイダのスペースで公開するにも国会図書館への申請書を提出しなきゃダメになるのか。
      今みたいに申し込んだら即公開ってワケには行かなくなりますね(ぉ

      # それとも注意書きに『自動的に国会図書館に登録されます』とか書かれるのか?
      親コメント
  • by take0m (4948) on 2002年09月02日 16時00分 (#158294) 日記
    http://www.archive.org/index.html
    ここから、.jp関係のデータを全部買い取るところからスタートですね。
  • by Anonymous Coward on 2002年09月01日 11時44分 (#157421)
    .jp の情報をサーベイして、保存するんでしょ。
    整理されていないと意味がないので、インデックス作って
    検索できるようにしてみました。
    これって、googleとかといっしょだよね?

    まさか、国民がその検索サービス使うのに料金聴取ってことは
    ないと思うが。

    # 的外れかも知れないのでAC
    • >検索できるようにしてみました。
      >これって、googleとかといっしょだよね?

      検索サービスつきかどうかは別として(単に保存閲覧だけに注目して)も同じこととして、
      既存と同じ仕事(^^;であっても「お役所」ベースであると何か特別な価値なものになる、
      という神話(ぷ)が、日本には有るらしいという恒例の話かも知れないなと思います。

      FREEソフトと同じで、企業や個人では記録の永続性が「あてにならない」という意味では、
      国がやってくれるのも悪くないなとは思いますが、裏返していえば、
      国(によるそのサービス)の永続性もまた「あてになる」のかどうかが心配です。

      神話性はともかく、こないだNHK教育でやってた日本人論論(メタ論)っぽい番組でも少し言っていましたが、
      日本人は、タテの繋がりを重んじる一方で、ヨコの繋がりは重んじない傾向があるらしく、
      たとえば企業と役所が同時に同じことをやっちゃうという無駄が頻繁に見られるのもソレなんだそうで。

      そりゃそうと、

      >内容による選別は避け、知的活動の総体を記録するべきだ
      という言い回しが有るという点(だけ)はホっとしました。

      あと、Googleにも有るキャッシュ拒絶機能(^^;みたいに、「保存されたくない」ニーズは、
      どれくらい満たされるんでしょうね?
      個人的には保存されない自由というものはあまり好きじゃない(世間様に一度さらしたものを引っ込めるのは変だと思う)
      んで、そんな機能は無くてもいいと思っているんですが…

      >(3)頻繁に更新される情報をどの時点で残すのが適切か

      CVS(^^; 地上最大のリポジトリの出現っすかね。

      まあなんにせよ、保存するってことはトラフィックが凄いことになりそうですけどね。
      検索エンジンと国会図書館からのアクセスは却下するようなヘッダを書いておくとか(ぉ
      親コメント
      • 個人的には保存されない自由というものはあまり好きじゃない(世間様に一度さらしたものを引っ込めるのは変だと思う) んで、そんな機能は無くてもいいと思っているんですが…
        DebianのミラーとかCDイメージのミラーとかの「一次情報でない大量のアーカイブ」を持ってるサイトでは、そんな機能は必須です。
        # /robots.txtもDateも見ないで、毎週一回CDイメージを持って行くのはやめて欲すぃ>某隣国の検索サイト
        # 回線は余裕なんだがサーバがショボいんだよぉ・・・
        親コメント
      • >「保存されたくない」ニーズは、

        公開してある物を取得して、保存しておく自由は無いのですかね?
        著作権者の指示に従って削除すべきなんでしょうか?

        >保存するってことはトラフィックが凄いことになりそうですけどね。

        従来の検索エンジンと、この辺何か違うんでしょうか?
        というか、負荷はアチラの実装次第かと。
typodupeerror

日々是ハック也 -- あるハードコアバイナリアン

読み込み中...