パスワードを忘れた? アカウント作成
12131 story

学術雑誌の創刊号からの電子アーカイブ「Journal@rchive」 23

ストーリー by yosuke
引用情報も付く 部門より

maia曰く、"ITmediaの記事によれば、科学技術振興機構(JST)が過去の学術雑誌の電子アーカイブを開始する(プレスリリース)。このサイト「Journal@rchive」は3月27日オープン。学術雑誌を創刊号からスキャンして電子アーカイブ化し、テキスト付のPDFとして全文公開する。対象誌は、国内の学術雑誌に関する調査結果を踏まえ、日本学術会議の協力を得て組織した電子アーカイブ対象誌選定委員会で選定された74誌。なお、5月からは1時間1200頁の処理能力のあるスキャンロボットを導入して雑誌を電子化する。JSTは、以前からJ-STAGEとよばれる野心的なオンラインジャーナルサービス「科学技術情報発信・流通システム」を運営している。"

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by nq (16642) on 2006年03月25日 11時27分 (#908336) 日記
    どういう基準でアーカイブ化する雑誌を選んだのか、また、電子アーカイブ対象誌選定委員会のメンバーの氏名、所属学会とともに知りたいですね。

     湯川秀樹、高木貞治、南方熊楠などが掲載された論文誌が含まれるのはよいとして、それほど歴史がなくて妙に狭い分野の雑誌がかなり含まれているのが不思議です。
    「日本ナイル・エチオピア学会」とか「国際ゴンドワナ研究連合」とか。
    工学系、医学系、農学系もいくらでも似た規模の学会があるだろうに、どれを選んでいるのかとか。

    と考えたら、すでにその問題はACADEMIC RESOURCE GUIDE [hatena.ne.jp]で指摘されていました。
    • by Anonymous Coward
      基本的には雑誌が売れなくなることを心配してるので、売れてる雑誌ほど参加する気がないって状況のようです。

      大きなお金のある学会は、雑誌の売り上げに代わる有料の独自電子アーカイブ化なんかの方向を模索しているようですね。

      中の人なんでAC
  • 要望として (スコア:1, おもしろおかしい)

    by Anonymous Coward on 2006年03月25日 14時08分 (#908443)
    学研の『科学と学習』を希望。
    • Re:要望として (スコア:1, すばらしい洞察)

      by Anonymous Coward on 2006年03月25日 15時21分 (#908474)
      本誌だけスキャンされてもなぁ…
      お目あては付録の教材だろ?
      親コメント
      • by Anonymous Coward
        「名探偵 荒間宗介」が見られれば無問題。
        検索してももろくに出やしない。
        • by Anonymous Coward
          そういえばチックン・タックンっていうのをよく見ていたねぇ。

          もう保存していないので、家では見られませんわ。

          「もう。まいっちんぐぅ~」(っていうのも学研よね)
  • by line (17226) on 2006年03月25日 14時09分 (#908445) 日記

    今公開されているアーカイブは手作業みたいですが、今後は自動スキャンロボットを導入する予定って書いてますね。いわゆるスキャナじゃなくて、デジカメでページを撮影するようで。

    スキャンロボット: 導入予定のロボットは、冊子を無理のない角度(約110度)で開き、アームにページを吸い寄せてめくり、上部に設置されたデジタルカメラで1ページずつ撮影するため、貴重誌であっても傷めずに正確なスキャンをすることが可能です(処理速度は1時間に約1,200ページ)。

    用語解説 [jst.go.jp]より

    ページをスキャナに押し付けてスキャンし離すなんてことをしないので、確かに本にはやさしい? ページが膨らんだりして撮影した画像では文字等が歪んでいても、画像処理で直したほうが手っ取り早いとかいう勘定になってるんですかね。

    本の自動スキャンといえばLEGOで作った [srad.jp]とかいう話がありましたが、きっと導入を勝ち取るために壮絶な戦いが舞台裏で…(ありません

    • Re:スキャナ (スコア:2, 興味深い)

      by Anonymous Coward on 2006年03月25日 15時00分 (#908464)
      スペックから考えるとこれ [kirtas-tech.com]だと思いますが。
      一台二千万円くらいするらしいです。
      ブックフェアで、実際に動いてるの見たことがありますけど
      鏡を駆使して一台のデジカメでうまいぐあいに見開きの画像を撮る機構とか
      精妙無比なアームのからくりとか
      アームの先に取り付けられた、絶妙に調整されている吸引機で
      紙を一枚ずつ吸い寄せてめくる仕組みとか
      結構複雑な機械なので、高くなるのは仕方が無いなあと思いました。

      でも二千万でロボット買うんなら
      その金でバイト雇うのと、どっちが安いですかね。
      一時間千二百枚って言うのもカタログスペックで
      全ての本でその速度が出るとは思えないですし。
      リースならもうちょっと安くなるのかな?
      ちょっと予算消化的な匂いが感じられますねえ。

      つかもっと洗練された仕組みにならないんですかねえ。
      ページめくり機構は。
      親コメント
    • Re:スキャナ (スコア:2, 参考になる)

      by taka2 (14791) on 2006年03月25日 15時08分 (#908466) ホームページ 日記
      概要というかスペックからすると、使うスキャナはたぶんこれ [pro-tech.co.jp]でしょう。
      他に対抗機種が無いというか、この機種の独占市場になってるんじゃないですかね。

      フラットベッドスキャナのように「表面をガラスで押さえて平面化」なんてことはしていませんが、
      上下の縁を押さえることで、膨らまないようにはしてます。

      ていうか、本への負荷としては「ページをスキャナに押しつける」かどうかよりも、「180度開く」ことの方が厳しいでしょう。
      「110度に開いた状態でそれぞれのページにガラスを当てて平面性を確保」なんて方式でも本には優しいと思います。

      問題は費用対効果というか、そんなことをすれば
      コストは格段に上がるしスキャン速度は落ちることになりますが、
      その割に、現状と比べてスキャン品質はそれほど向上しなさそうな気がします。

      デモムービーを見る限りでは、さすがに綴じてる付近はちょっと丸くなってますけど、
      全体的には、画像処理をしなくても問題ないぐらいの平面になってます。
      親コメント
      • Re:スキャナ (スコア:1, 参考になる)

        by Anonymous Coward on 2006年03月26日 0時23分 (#908725)
        APT1200みたいですね。今見たら、ここ [pro-tech.co.jp]に、新着情報でJST(独立行政法人 科学技術振興機構)様の「Journal@rchive」にAPT1200が採用されました。 と出ています。
        親コメント
  • by guchis (27687) on 2006年03月25日 15時16分 (#908471) 日記
    忙がしいときは図書館まで行ってられない。
    そもそも図書館に無いものも結構あるし。
    といって年に一回読まれるかどうかの雑誌を何でもかんでも図書館に置いとくわけにもいかないだろうし。

    マニアックな雑誌ほどこういう形態が適しているのではないでしょうか。

  • by Anonymous Coward on 2006年03月25日 10時31分 (#908298)
    ただのテキストならスキャンしてOCRかけたらなんとかなりそうな気がするけど、学術雑誌につきものの数式はちゃんと処理できるんだろうか?

    それとも全部画像扱い?数式と図だけ画像扱い?
    • 数式画像をOCRでなんとか電子化するのは技術的に
      難しいでしょうね。
      以前から、何かいいものはないかと興味を持っていますが、
      今のところ良さそうなものを見つけていません。

      学術雑誌を電子化して、インターネットで利用すると
      いったことは、世界的には、現在、幅広く行われており
      (ほとんど有料です)、私は仕事で日常的に利用しています。

      ここ数年で、その電子化が急速に進んだことを実感します。
      つい数年前までは10年前ぐらいの論文までしか電子化
      されていなかったものが、今は創刊のものからの電子化が
      すべて終わっているという例も少なくありません。

      大学や研究機関の図書館等は、最近は経費削減の要求もあってか、
      学術雑誌の直接の購入自体は減らし、
      その代わりに、Webから文献サイトにアクセスし、
      論文のダウンロードが自由にできるサイトライセンス契約
      を結ぶという流れに変わってきているようです。

      一方、最近の学術雑誌用原稿は、ほとんどがWordやTexで
      作られており、それをベースにWebに公開している
      (PDFやHTMLなど)という形が大半のようで、
      PDFには、大抵多くの文字情報が埋め込まれており、
      Acrobat Readerで、キーワード検索や、文字列の
      コピー等が出来ます。

      古い文献については、全部が画像イメージということも
      少なくありませんが、とりあえず、OCRを使って文字情報も
      埋め込んでいるといった処理がなされているものもあります。
      但し、埋め込まれている文字が化けてたり、完全でないものも
      少なくありません。

      数式などは言うまでもありませんが、本文内でも
      上付、下付文字などが多用されている論文が数多く
      ありますからね。
      親コメント
    • by Anonymous Coward on 2006年03月25日 11時03分 (#908322)
      数式より前に漢字からして問題です。
      今の規格じゃ全然足りません。(創刊時の論文なんか)
      ってことで,フルテキスト付けるのって可能なんですかね?

      #電子情報通信学会DVDは萌えますよ (^^;
      親コメント
    • 特に、数式までテキスト処理できなくても、基本的にスキャンした論文を読めばよいのでしょう。図や写真もテキスト化出来ないわけですし。

      ただ、スキャン画像だけだと、本文のキーワード検索が出来ないので、テキストデータはとても有用だと思います。
      この用途だと、数式までテキスト化する必要性は低いでしょう。

      もちろん、特定の数式を検索したい場合もあるとは思うので、今後の発展に期待。(?)

      親コメント
      • 数式検索、面白そうっすね。
        等価な書き方がいっぱいあるし、記号の選び方もいろいろ。この手の研究って、なされてるんでしょうか?
    • 普通、スキャンしたのは独自の高圧縮フォーマットやGIFなどで公開するのだとおもいます。

      そこらで安く売り込んでいるOCRじゃ現代仮名遣いしか処理してくれませんしでしょうから、数式ではなくて日本語のテキストすら(特別に予算と取ってOCRの開発をしない限りは)自動でテキスト化するのは無理にちかいカモ。

      旧仮名遣いは、打ち込みも適切な仮名漢字変換の環境がないと思われますので、かなり労力がいりそうなきがします。

      PS;少なくとも(日本の心理学で先駆者である)祖父の本を打ち込むとかOCRに掛けるのは挫折傾向にあるわけでして。
      --
      大槻昌弥(♀) http://www.ne.jp/asahi/pursuits/ootsuki/
      親コメント
  • by Anonymous Coward on 2006年03月26日 13時39分 (#909058)
    PDF じゃなくて、Djvu にすると、
    非常にファイルサイズが小さくていいんだけどね。

    djvu だと500ページ以上の画像データでも
    20 MB ぐらいに収まったりするから、結構、便利だったりする。
typodupeerror

クラックを法規制強化で止められると思ってる奴は頭がおかしい -- あるアレゲ人

読み込み中...