学術雑誌の創刊号からの電子アーカイブ「Journal@rchive」 23
ストーリー by yosuke
引用情報も付く 部門より
引用情報も付く 部門より
maia曰く、"ITmediaの記事によれば、科学技術振興機構(JST)が過去の学術雑誌の電子アーカイブを開始する(プレスリリース)。このサイト「Journal@rchive」は3月27日オープン。学術雑誌を創刊号からスキャンして電子アーカイブ化し、テキスト付のPDFとして全文公開する。対象誌は、国内の学術雑誌に関する調査結果を踏まえ、日本学術会議の協力を得て組織した電子アーカイブ対象誌選定委員会で選定された74誌。なお、5月からは1時間1200頁の処理能力のあるスキャンロボットを導入して雑誌を電子化する。JSTは、以前からJ-STAGEとよばれる野心的なオンラインジャーナルサービス「科学技術情報発信・流通システム」を運営している。"
74誌の選択基準 (スコア:2, 興味深い)
湯川秀樹、高木貞治、南方熊楠などが掲載された論文誌が含まれるのはよいとして、それほど歴史がなくて妙に狭い分野の雑誌がかなり含まれているのが不思議です。
「日本ナイル・エチオピア学会」とか「国際ゴンドワナ研究連合」とか。
工学系、医学系、農学系もいくらでも似た規模の学会があるだろうに、どれを選んでいるのかとか。
と考えたら、すでにその問題はACADEMIC RESOURCE GUIDE [hatena.ne.jp]で指摘されていました。
Re:74誌の選択基準 (スコア:0)
大きなお金のある学会は、雑誌の売り上げに代わる有料の独自電子アーカイブ化なんかの方向を模索しているようですね。
中の人なんでAC
要望として (スコア:1, おもしろおかしい)
Re:要望として (スコア:1, すばらしい洞察)
お目あては付録の教材だろ?
Re:要望として (スコア:0)
検索してももろくに出やしない。
Re:要望として (スコア:0)
もう保存していないので、家では見られませんわ。
「もう。まいっちんぐぅ~」(っていうのも学研よね)
スキャナ (スコア:1)
今公開されているアーカイブは手作業みたいですが、今後は自動スキャンロボットを導入する予定って書いてますね。いわゆるスキャナじゃなくて、デジカメでページを撮影するようで。
ページをスキャナに押し付けてスキャンし離すなんてことをしないので、確かに本にはやさしい? ページが膨らんだりして撮影した画像では文字等が歪んでいても、画像処理で直したほうが手っ取り早いとかいう勘定になってるんですかね。
本の自動スキャンといえばLEGOで作った [srad.jp]とかいう話がありましたが、きっと導入を勝ち取るために壮絶な戦いが舞台裏で…(ありません
Re:スキャナ (スコア:2, 興味深い)
一台二千万円くらいするらしいです。
ブックフェアで、実際に動いてるの見たことがありますけど
鏡を駆使して一台のデジカメでうまいぐあいに見開きの画像を撮る機構とか
精妙無比なアームのからくりとか
アームの先に取り付けられた、絶妙に調整されている吸引機で
紙を一枚ずつ吸い寄せてめくる仕組みとか
結構複雑な機械なので、高くなるのは仕方が無いなあと思いました。
でも二千万でロボット買うんなら
その金でバイト雇うのと、どっちが安いですかね。
一時間千二百枚って言うのもカタログスペックで
全ての本でその速度が出るとは思えないですし。
リースならもうちょっと安くなるのかな?
ちょっと予算消化的な匂いが感じられますねえ。
つかもっと洗練された仕組みにならないんですかねえ。
ページめくり機構は。
Re:スキャナ (スコア:2, 参考になる)
他に対抗機種が無いというか、この機種の独占市場になってるんじゃないですかね。
フラットベッドスキャナのように「表面をガラスで押さえて平面化」なんてことはしていませんが、
上下の縁を押さえることで、膨らまないようにはしてます。
ていうか、本への負荷としては「ページをスキャナに押しつける」かどうかよりも、「180度開く」ことの方が厳しいでしょう。
「110度に開いた状態でそれぞれのページにガラスを当てて平面性を確保」なんて方式でも本には優しいと思います。
問題は費用対効果というか、そんなことをすれば
コストは格段に上がるしスキャン速度は落ちることになりますが、
その割に、現状と比べてスキャン品質はそれほど向上しなさそうな気がします。
デモムービーを見る限りでは、さすがに綴じてる付近はちょっと丸くなってますけど、
全体的には、画像処理をしなくても問題ないぐらいの平面になってます。
Re:スキャナ (スコア:1, 参考になる)
確かに便利 (スコア:1)
そもそも図書館に無いものも結構あるし。
といって年に一回読まれるかどうかの雑誌を何でもかんでも図書館に置いとくわけにもいかないだろうし。
マニアックな雑誌ほどこういう形態が適しているのではないでしょうか。
数式はどうするんだろう (スコア:0)
それとも全部画像扱い?数式と図だけ画像扱い?
Re:数式はどうするんだろう (スコア:3, 興味深い)
難しいでしょうね。
以前から、何かいいものはないかと興味を持っていますが、
今のところ良さそうなものを見つけていません。
学術雑誌を電子化して、インターネットで利用すると
いったことは、世界的には、現在、幅広く行われており
(ほとんど有料です)、私は仕事で日常的に利用しています。
ここ数年で、その電子化が急速に進んだことを実感します。
つい数年前までは10年前ぐらいの論文までしか電子化
されていなかったものが、今は創刊のものからの電子化が
すべて終わっているという例も少なくありません。
大学や研究機関の図書館等は、最近は経費削減の要求もあってか、
学術雑誌の直接の購入自体は減らし、
その代わりに、Webから文献サイトにアクセスし、
論文のダウンロードが自由にできるサイトライセンス契約
を結ぶという流れに変わってきているようです。
一方、最近の学術雑誌用原稿は、ほとんどがWordやTexで
作られており、それをベースにWebに公開している
(PDFやHTMLなど)という形が大半のようで、
PDFには、大抵多くの文字情報が埋め込まれており、
Acrobat Readerで、キーワード検索や、文字列の
コピー等が出来ます。
古い文献については、全部が画像イメージということも
少なくありませんが、とりあえず、OCRを使って文字情報も
埋め込んでいるといった処理がなされているものもあります。
但し、埋め込まれている文字が化けてたり、完全でないものも
少なくありません。
数式などは言うまでもありませんが、本文内でも
上付、下付文字などが多用されている論文が数多く
ありますからね。
Re:数式はどうするんだろう (スコア:1, すばらしい洞察)
今の規格じゃ全然足りません。(創刊時の論文なんか)
ってことで,フルテキスト付けるのって可能なんですかね?
#電子情報通信学会DVDは萌えますよ (^^;
Re:数式はどうするんだろう (スコア:0)
こんなときこそ超漢字(TRON)の出番です。
#通りすがりの匿名希望
Re:数式はどうするんだろう (スコア:1)
ただ、スキャン画像だけだと、本文のキーワード検索が出来ないので、テキストデータはとても有用だと思います。
この用途だと、数式までテキスト化する必要性は低いでしょう。
もちろん、特定の数式を検索したい場合もあるとは思うので、今後の発展に期待。(?)
Re:数式はどうするんだろう (スコア:0)
等価な書き方がいっぱいあるし、記号の選び方もいろいろ。この手の研究って、なされてるんでしょうか?
Re:数式はどうするんだろう (スコア:1)
そこらで安く売り込んでいるOCRじゃ現代仮名遣いしか処理してくれませんしでしょうから、数式ではなくて日本語のテキストすら(特別に予算と取ってOCRの開発をしない限りは)自動でテキスト化するのは無理にちかいカモ。
旧仮名遣いは、打ち込みも適切な仮名漢字変換の環境がないと思われますので、かなり労力がいりそうなきがします。
PS;少なくとも(日本の心理学で先駆者である)祖父の本を打ち込むとかOCRに掛けるのは挫折傾向にあるわけでして。
大槻昌弥(♀) http://www.ne.jp/asahi/pursuits/ootsuki/
Djvu (スコア:0)
非常にファイルサイズが小さくていいんだけどね。
djvu だと500ページ以上の画像データでも
20 MB ぐらいに収まったりするから、結構、便利だったりする。
鶏と卵(Re:論文の質は) (スコア:3, 参考になる)
まあ、物理系などでは、雑誌自体は購読者を限っても、著者が無料のプレプリントサーバー [arxiv.org]に載せてしまうし、それを許さない雑誌は成り立たないので、記事発行前の学会発表などに関してうるさいことで悪名高かったNature誌ですらそれを容認(黙認?)するようになってきている、という時代の流れになっています。
最新の論文は、プレプリントサーバーで読む。
歴史的な論文は、学術雑誌のアーカイブで読む。
そのような形態が普通になれば、日本の研究が日本の雑誌にのって、なおかつ世界的に評価されやすくなるという可能性はあります。ただし、商業ベースには乗りにくいから、既存の学術雑誌出版社はいやがるでしょうし、国家的支援はどうしても必要。そのときに、どの分野を選ぶか、というのは結構大事。
Re:論文の質は (スコア:1)
JPSJなんかもまだそれなりに読みたいものはあったり.
#昔の磁性全盛時代に比べると寂しいものがありますが.