パスワードを忘れた? アカウント作成
866022 journal
日記

akiraaniの日記: 書籍自炊にかかる時間の内訳 2

日記 by akiraani

 一昨日にbk1でまとめ買いした本が届いたので、昨日のうちに読んで、7冊ほどさっくり電子化しました。
 で、書籍自炊に実際どれくらい時間がかかるのか、という点について知らない人も多いんじゃないかと思って、必要な工程と作業時間についてまとめてみようかと思います。
 書籍の自炊作業は、本の分解、スキャン、データのチェック&最適化という3つになります。

工程1:本の分解

 本を分解して、スキャナで取り込みやすい形に加工します。自炊のノウハウの9割はここにかかっていると思っていいくらい、重要な作業です。
 最終的にどんな形で保存したいかで作業内容が若干変化するんですが、私がやってるのは以下のような作業になります。

  1. カバーと表紙をはがして加工する
  2. 背を切断する
  3. 切断状況の最終チェック

カバーおよび表紙の加工についてですが、人によってはやらない場合もあるんではないかと思います。
電子化後に同じ感覚で読むためには、表紙もすべて同じサイズで取り込み、空のページがあっても飛ばしたりせずそのまま取り込むのがベストというのが私のポリシーなので、そう思わない人は自分のやり方を見つけてください。
できるだけ本を読むのと同じ形で読めるようにするには、表1~表4までのページもすべて独立した1ページとして、同じサイズで取り込んでおくのがベスト。
つまり、1ページ目にカバーをかけた状態での表1が、2ページめにカバーをかけた状態での表2が読めるように加工するわけです。通常、カバーをかけた状態の表2はカバーの折り込み部分が見えているだけで特に何も印刷されていないので、カバーの背表紙の部分もついでに折り込むようにしています。
ただし、4コマ漫画などでカバー裏に何かが印刷されている場合は除きます。昨日取り込んだ碧の軌跡コンプリートガイドは、カバー裏が全面で一枚のピンナップポスターになっていたので、ポスター取り込みをメインにして表紙は横に取り込む形にしました。
同じことをカバーをを外した状態の表紙でも行います。カバーを外した状態の表2、表3に何かが印刷されているということはまずないので、ほとんど白紙のページを取り込むことになりますが、ここをカットしてしまうとあとで見開き表示するときにページの偶数奇数がずれてしまうので、表2の部分に背表紙をを折り込んで取り込みます。

次に、背の切断ですが、現在この作業にはオルファのロータリーカッターLLを魔改造したものを使っています。
普通はPK-513Lとかの大型断裁機を使うだろうし、以前に詳しく語ったのでここははしょります。

最後に、切断状況のチェックです。
切断面をぱらぱらめくって、くっついているページや糊が残っていがないかをチェックし、くっついたページはきちんとはがし、糊の塊が残っていたらはがすなり削るなりしておきます。
書籍にもよりますが、背をくっつける糊がはみ出て切断したはずのページがくっついていたりすることがあります。くっついていなくても、糊が残っていると、読み込み時に2枚いっぺんに吸い込んで重複検知でスキャンが止まったり、熱で溶けた糊がスキャナの読み取り面のガラスにくっついて汚れてしまい読み取りデータに筋がはいったりすることがあります。
このチェックを怠ると、重複検知でスキャンが頻繁に中断されたり、取り込みデータに汚れが出てスキャナのメンテナンス後にスキャンをやり直しする羽目になったりします。
 本の分解は、慣れるとだいたいコミックス1冊で2~3分で終わるようになります。PK-513Lなどの大型断裁機を使えば1分かからないはずです。

工程2:スキャン作業
分解した書籍をScanSnapで取り込みます。基本、紙をセットしてスキャンボタンを押すだけなのですが、一応ここにもノウハウはあります。
特に重要なのが、シートフィーダにセットできる紙の枚数です。置きすぎると吸い込み状況が悪くなってスキャンが途中で止まったり、止まるところまで行かなくても吸い込み時にリトライを繰り返して余分に時間がかかったりします。
それから、斜めに読み込んでしまう現象を防ぐために、シートフィーダ上のガイドが広がりすぎないように監視しておく必要もあります。ガイドがあっても置きすぎると斜め取り込みが増えてしまうので、これも置きすぎないことが重要だったりします。
ただ、あまり一度にセットする枚数を減らしてしまうと、今度は作業効率が落ちてしまうので、エラーが起きにくいぎりぎりの枚数を見極めてセットするのがベスト。影響するのが主に紙の表面加工、厚み、密度で、同じ版形のコミックスでも出版社やレーベルによって使っている紙が違うし、紙の劣化の状況などいろいろ不安定な要素が多く、正確な判断には慣れが必要です。

私がとりこむときは「品質:エクセレント(カラー600dpi、モノクロ1200dpi相当)」「圧縮:高」のオプションを使用しています。画質はその後のOCRの精度にもかかわってくるので、取り込む段階ではできるだけ高品質にしておいて、後からの最適化でダウンサイジングした方が良いです。
この設定の場合、ページ重複などのトラブルが起きなければ、一般的なコミックス(新書版、180ページ)ならだいたい10分程度でスキャンが終わります。
今の環境ではボトルネックがScanSnapの取り込み速度ですが、環境によっては取り込み後の画像処理の方が長かったりするので、誰の環境でもこうなるとは限りませんので注意。品質を1ランク落とせば劇的に速度も上がったりもするので、参考値と考えてください。

工程3:スキャンデータのチェック&最適化
まず、取り込んだデータに異常がないかどうかチェックします。書籍は断裁してしまってあとは捨てることになるので、後から気付いても直せませんので、この作業は大変重要です。

  • ページ数があっているかどうか
    ページ数をチェックすると重複読み取りが発生していないかがわかります。ScanSnapS1500には超音波による重なり検知機能が搭載されていますので、気付かないうちに重複吸い込みをしているということはまずないんですが、重なり検知で引っかかったときに継続読み取りの手順を間違えるとページ数にずれが発生します。あと、稀ですが、アンケートはがきなんかが挟み込まれていたことに気づかず取り込んでしまうケースもあります。
    私のやり方の場合、ファイル全体のページ数は本編+カバーの表1~4、表紙の表1~4で本編の総ページ数+8となるのが正解です。ただ、書籍によっては巻頭のカラー口絵をページ数に数えていなかったり、表紙を1ページとカウントしているものがあったりするので、ノンブルを見て1ページ目がどこにあたるのかを確認しておく必要があります。
    コミックは一部のページにしかノンブルが打たれていないことが多いので、目次や内容から確認が必要になることがあります。
  • サイズ、カラーなどの自動判別に失敗していないか
    どういうオプションでスキャンしているかによりますが、カラーやサイズ、空白ページのスキップや原稿の向きなど、なにかしらの自動判別機能を利用している場合は常に誤作動の可能性を考慮しておく必要があります。この手の自動判別ミスはぱっと見でわかるので、8ページぐらいいっぺんに表示してチェックすることも出来ますし、慣れればどういうページで発生しやすいかだいたいわかってくるのでピンポイントにチェックできるようになります。
  • スキャン面の汚れがついていないかどうか
    糊の除去が不十分だったりすると、スキャナのガラス面に汚れが付着して、取り込んだ画像に縦の筋が入ってしまうことがあります。そのような汚れが見つかった場合、ウェットティッシュなどでガラス面をきれいにぬぐってから拭きし、再度スキャンし直す必要があります。出来ることなら、スキャンする前に確認しておくのが望ましいですが、途中から汚れがつくケースもあるので、結局毎回チェックが必要です。この手の汚れは途中で直ったりはしないので、最後の方のページで全幅に渡って何かしらの色がついているページを探してチェックすると良いでしょう。

次にスキャンしたファイルにOCR処理やらダウンサイジングやらの最適化処理を行います。
OCR処理はScanSnapの管理ソフトでもかけることが出来ますが、ダウンサイジングには添付のAcrobatが必要です。OCR自体はAcrobatでもできるし、精度もかわりませんので、全部Acrobatを使っていっぺんに行うのが便利です。
ダウンサイジングは、PDF内の画像ファイルを圧縮してサイズを小さくするという処理ですが、スキャナで取り込んだ場合、画像ベースのファイルになるので、オプションによってはサイズを1/3以下に圧縮することも可能です。スマートフォンなどの非力なハードで閲覧する場合、この手の最適化処理は非常に重要になりますので、覚えておくと使い勝手が大きく向上します。
うちの環境(レッツノートS10)だと、コミックス1冊あたり20分弱ですが、一度に複数のファイルを指定して実行することが出来るので、寝てる間にまとめてやれば処理時間はあまり気になりません。

まとめ:最終的にかかる時間
最終的にボトルネックになるのはスキャン時間です。ただし、ちゃんとセットすればスキャンの間はトラブルが起きないか横目で監視するだけなので、分解やチェック作業と並行して行うことが出来ます。最適化処理も寝てる間にランニングすれば監視している必要もないので、慣れれば実質の作業時間はコミックス1冊あたり15~20分程度です。
スキャン品質を1段階落として大型の断裁機を導入すればもうちょっと時間は短縮できそうですが、各種チェック作業だけはすっとばす訳にはいかないので、まあできても10分弱くらいが限界かなぁ。
今のペースなら3時間かけてようやく10冊。これを多いと見るか少ないと見るかは人それぞれですが、自分の人件費を時給換算してみれば、1冊100円程度の自炊代行サービスの利用も考えたくなるってものです。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
typodupeerror

弘法筆を選ばず、アレゲはキーボードを選ぶ -- アレゲ研究家

読み込み中...