本の自炊 パートⅡ

2年前に本の自炊を集中してやりました。それで片付いたつもりでいましたが、すべて段ボール箱に入れていた本だけでした。あらためて本棚を眺めていたら、自炊しておきたい本がたくさん残っていることに気がつきました。ちょっとした大物もありました。

使うスキャナーは相変わらずScanSnap S1500ですが、快調のようです。自炊の基本は前回の記事と同じです。

久しぶりだったので、まずは古い文庫本から始めました。綴じている部分を裁断した状態です。

これは1970年(昭和45年)の印刷で、比較的新しい?と言えます。もっと古いのは2年前に処理しました。それでも周囲に黄変が広がっていて、この状態で実物を読もうという気にはなりません。

これをS1500で読み取り、Adobe Acrobatで処理した結果(同じ見開きページ)です。黄変した紙をスキャンしたときの特徴として、点々が現れますが、実物の状態から比べると、それほど気になりません。このあたりはスキャン濃度を薄くすれば、点々はなくなりますが、文字が少し薄くなるので、バランスの問題のようです。

もう少し新しい1995年印刷の場合です。

これだと、ほとんど点々は出ません。

S1500で何度かに分けてPDF化したスキャン文書をまとめて、ページ落ちの有無を調べてから、上下左右を全体にトリミングします。ScanSnapでPDF化しただけでは、周辺の黄変部分が少し黒くなって残り、それが文字認識に悪影響を与えますし、それに、読む際には、周辺の白い部分が少ないほうが読みやすくなります。

スキャン文書をまとめ、トリミングや文字認識の処理をするには、以前はS1500に付属していたAdobe Acrobat X Standardを使っていましたが、サポートも終わったので、Adobe Acrobat Pro DCに買い換えました。Proと言うくらいで、値段もそれなりにしているから、機能改善が図られているだろうと期待したからです。でも、結論から言えば、こと「本の自炊」に関しては、期待はずれでした。

設定をカスタマイズしていないし、慣れていないからかもしれませんが、Pro DCの画面はアイコンが多用され(過ぎ)ていて、目的の機能を選ぶまでのマウスのボタン押し回数が増えて、直感的ではない印象です。自炊する目的で使うことはない機能が数多くあって、自炊だけに使うには「もったいない」と言えるのでしょう。

気落ちしたのは、自炊で重要な文字認識(OCR)と回転補正機能がX Standardと変わらないことでした。文字認識可能な漢字は同じ程度(旧字体はほぼ全滅)です。さすがに、英語の本は文字セットが少ないため、ほぼパーフェクトと言えますが、これはX Standardでもそうでした。

たとえば、気になっていた、文字認識+回転補正をかけると画像が斜めになることがある、という症状は同じように出ます。元の画像が斜めに描かれていると、水平を調節してしまうような処理をしています。ページの外枠を基準にして回転補正をかけるのが常識じゃないですか、とツッコミたくなります。

文章だけのページならほぼ問題はありませんが、短い文字列だけのページだと、こんな結果になることがあります。

90度単位で回転補正(補正ではなくエラー?)がかかった場合は簡単に修正できますが、このような角度になった場合は修正できません。Pro DCでは、こういう変な回転補正にならないこと、あるいは、任意の角度で修正できたらいいな、と期待していました。

また、A4以上の写真集の場合、文字認識をかけると、すべてのページに縦にスジが入ってしまうことが多々あります。この画像をクリックで拡大するとわかると思います。

いずれも、元の画像のままにしておきたい場合は、ファイルサイズは小さくなりませんが、画像を圧縮しないオプションを選ぶ必要があります。写真集では、そのモードで文字認識をかけるようにしています。これらの症状と対策はStandard Xとまったく同じです。

今回の大物は、大阪に戻って間もなく古本屋で購入した、角川の日本地名大辞典です。大阪府、兵庫県、京都府(上下2冊)の4冊で、大阪府は1,800ページ(2.1kg)、兵庫県は2,300ページ(2.4kg)、京都府は上が1,500ページ(2kg)、下が800ページ(1.3kg)あります。

昭和50年代(1980年代)の発刊で、当時から欲しかったのですが、高価でとても手が出ませんでした。それがきれいな状態で、定価の2割以下になっていました。

これらを文字検索ができるPDF文書にするのが目的です。

解体と裁断で1冊あたり30分近くかかりました。表紙カバーや箱などの画像も入れたいので、それらはA3用のEPSON PX-1700Fで読み取って、見やすいページに分けました。

ばらした本文ページをS1500で読み取らせましたが、紙質との相性が悪いのか、1回に入れる量を多くすると重なりが頻出しました。結局、40ページ(20枚)以下ずつ読み取らせました。そのため、兵庫県は2時間くらいかかったと思います。その他は少しマシでした。

2日がかりで4冊を自炊し、文字検索が可能なPDFファイルになりました。
2,000ページの本から文字を検索するのはさすがに時間がかかりますが、PDFを開いてからキャッシュメモリーに入ると即座に検索結果が出ます。ともかく、これだけ重い本を手にとって調べることと比べたら、とても気軽です。もちろん、すべての文字が正確に認識されているとは限りませんけど。

まだまだ、自炊しておきたい文庫本や単行本があります。気が向いたときにやっていくことにします。