スキャナー | Plumtown

USBキー入力パッド

2023年12月21日

本を裁断しないで自炊するためにEPSONの古いスキャナー（PX-1700F）を使っています。EPSON SCANというアプリで操作してファイルに落とすのですが、その作業ではマウスあるいはキーボードで動作指示を選びます。マウスの移動とクリックは手間なので、基本動作はキーボードのキーで決めています。

基本動作というのは、R（カラーモード）、G（グレイモード）、B（黒）というスキャンのモード選択と、X（文字を濃くする）、P（プレビュー）、S（スキャン実行）の合計6つです。

問題は、10キー付きのフルサイズ・キーボードを使っているので、押し間違い（キーボードの隣のキーを押してしまう）が多いのです。特に、Sの上にある低解像度キーWを押してしまったことに気が付かずに、その後のすべての作業が無駄になったことが何度もあります。

キーの押し間違いを減らし、かつ、使いやすく効率的な方法を探していて、任意のキー押しをプログラムできるショートカットキーに行き着きました。これは数個のキーだけのUSBキーボードで、それぞれのキーに複合キーを含む任意の文字を割り当てることができる製品です。

この手の製品はほとんどが安価な中国製で、通販で12キーの製品が2千円台でした。キータッチはもひとつですが、けっこうしっかりと作られていて、キーを押すと下のLEDが瞬間点灯します。

各キーをプログラムするのはインターネット上で、怪しい接続ではなさそうでしたが、画面の日本語説明が怪しげでした。ともかく、簡単に設定することができました。

初期状態は1～0の数字、a、bという12個でした。キーを指定したのはEPSON SCAN用の1列6個だけです。キートップのサイズにシールを切って、文字を書いて貼り付けました。残る6個はいずれショートカットキーに指定するかもしれません。

実際に使っている時のBefore-After写真です。スキャンがとても楽になりました。

その後（2024年3月）、上段のキーに主にコントロールキーを割り当てました。

本の自炊パートⅡ

2年前に本の自炊を集中してやりました。それで片付いたつもりでいましたが、すべて段ボール箱に入れていた本だけでした。あらためて本棚を眺めていたら、自炊しておきたい本がたくさん残っていることに気がつきました。ちょっとした大物もありました。

使うスキャナーは相変わらずScanSnap S1500ですが、快調のようです。自炊の基本は前回の記事と同じです。

久しぶりだったので、まずは古い文庫本から始めました。綴じている部分を裁断した状態です。

これは1970年（昭和45年）の印刷で、比較的新しい？と言えます。もっと古いのは2年前に処理しました。それでも周囲に黄変が広がっていて、この状態で実物を読もうという気にはなりません。

これをS1500で読み取り、Adobe Acrobatで処理した結果（同じ見開きページ）です。黄変した紙をスキャンしたときの特徴として、点々が現れますが、実物の状態から比べると、それほど気になりません。このあたりはスキャン濃度を薄くすれば、点々はなくなりますが、文字が少し薄くなるので、バランスの問題のようです。

もう少し新しい1995年印刷の場合です。

これだと、ほとんど点々は出ません。

S1500で何度かに分けてPDF化したスキャン文書をまとめて、ページ落ちの有無を調べてから、上下左右を全体にトリミングします。ScanSnapでPDF化しただけでは、周辺の黄変部分が少し黒くなって残り、それが文字認識に悪影響を与えますし、それに、読む際には、周辺の白い部分が少ないほうが読みやすくなります。

スキャン文書をまとめ、トリミングや文字認識の処理をするには、以前はS1500に付属していたAdobe Acrobat X Standardを使っていましたが、サポートも終わったので、Adobe Acrobat Pro DCに買い換えました。Proと言うくらいで、値段もそれなりにしているから、機能改善が図られているだろうと期待したからです。でも、結論から言えば、こと「本の自炊」に関しては、期待はずれでした。

設定をカスタマイズしていないし、慣れていないからかもしれませんが、Pro DCの画面はアイコンが多用され（過ぎ）ていて、目的の機能を選ぶまでのマウスのボタン押し回数が増えて、直感的ではない印象です。自炊する目的で使うことはない機能が数多くあって、自炊だけに使うには「もったいない」と言えるのでしょう。

気落ちしたのは、自炊で重要な文字認識（OCR）と回転補正機能がX Standardと変わらないことでした。文字認識可能な漢字は同じ程度（旧字体はほぼ全滅）です。さすがに、英語の本は文字セットが少ないため、ほぼパーフェクトと言えますが、これはX Standardでもそうでした。

たとえば、気になっていた、文字認識＋回転補正をかけると画像が斜めになることがある、という症状は同じように出ます。元の画像が斜めに描かれていると、水平を調節してしまうような処理をしています。ページの外枠を基準にして回転補正をかけるのが常識じゃないですか、とツッコミたくなります。

文章だけのページならほぼ問題はありませんが、短い文字列だけのページだと、こんな結果になることがあります。

90度単位で回転補正（補正ではなくエラー？）がかかった場合は簡単に修正できますが、このような角度になった場合は修正できません。Pro DCでは、こういう変な回転補正にならないこと、あるいは、任意の角度で修正できたらいいな、と期待していました。

また、A4以上の写真集の場合、文字認識をかけると、すべてのページに縦にスジが入ってしまうことが多々あります。この画像をクリックで拡大するとわかると思います。

いずれも、元の画像のままにしておきたい場合は、ファイルサイズは小さくなりませんが、画像を圧縮しないオプションを選ぶ必要があります。写真集では、そのモードで文字認識をかけるようにしています。これらの症状と対策はStandard Xとまったく同じです。

今回の大物は、大阪に戻って間もなく古本屋で購入した、角川の日本地名大辞典です。大阪府、兵庫県、京都府（上下2冊）の4冊で、大阪府は1,800ページ（2.1kg）、兵庫県は2,300ページ（2.4kg）、京都府は上が1,500ページ（2kg）、下が800ページ（1.3kg）あります。

昭和50年代（1980年代）の発刊で、当時から欲しかったのですが、高価でとても手が出ませんでした。それがきれいな状態で、定価の2割以下になっていました。

これらを文字検索ができるPDF文書にするのが目的です。

解体と裁断で1冊あたり30分近くかかりました。表紙カバーや箱などの画像も入れたいので、それらはA3用のEPSON PX-1700Fで読み取って、見やすいページに分けました。

ばらした本文ページをS1500で読み取らせましたが、紙質との相性が悪いのか、1回に入れる量を多くすると重なりが頻出しました。結局、40ページ（20枚）以下ずつ読み取らせました。そのため、兵庫県は2時間くらいかかったと思います。その他は少しマシでした。

2日がかりで4冊を自炊し、文字検索が可能なPDFファイルになりました。
2,000ページの本から文字を検索するのはさすがに時間がかかりますが、PDFを開いてからキャッシュメモリーに入ると即座に検索結果が出ます。ともかく、これだけ重い本を手にとって調べることと比べたら、とても気軽です。もちろん、すべての文字が正確に認識されているとは限りませんけど。

まだまだ、自炊しておきたい文庫本や単行本があります。気が向いたときにやっていくことにします。

本の自炊

これまで引っ越しをするたびに本を詰める段ボールの数が増えていました。大阪に戻るのを機会に、不要となった本や雑誌は思い切って廃棄し、そのまま残したいものを除いて、残りの本や雑誌を電子化して、PCやタブレットで読むことができるようにしました。本の自炊です。

使っているスキャナーは、FUJITSUのScanSnap S1500とEPSONのA3対応のES-7000Hです。600dpiあたりがきれいなのですが、読み込みがかなり遅くなるので、ほとんどを300dpiでスキャンしています。画集などはそれ以上にすることもありますが、とても時間がかかり、印刷本ですから精細度は大して変わりません。

この写真では、ES-7000Hの上に余計なものが載っていますが、下の手製戸棚のふたをニスで塗った直後でした。左奥にS1500を置いています。

S1500はA4以下のサイズの書籍で、背表紙部分で裁断すれば、とても効率的にPDFファイルができあがります。裁断には丸刃を動かす裁断機を使っています。梃子式の押し切り裁断機のほうが分厚いまま切ることができますが、刃がなまってきたり、歪むことがあったので、刃を交換できる丸刃式でやっています。

先ずカッターで背表紙あたりをばらし、30～50ページくらいに切り分けます。ページの切り分けは裁断機に入る厚さです。裁断する場所は基本的に左右の余白を等しくさせますが、写真などが余白なしに入っている場合は、ぎりぎりに裁断するか、裁断なしで、手で糊を剥がすだけのこともあります。ページの端がギザギザになっても、S1500で読み込むと、まっすぐな端になります。

厚い表紙や表紙カバー、A4を超えるサイズの本や雑誌の場合、さらに、裁断したくない本の場合は、別途にES-7000HでスキャンしてJPEGファイルを作ります。裁断しないでスキャンするのは手間と時間がかかりますが、本を開いてA3に収まるなら、2ページ単位でスキャンして、そのJPEG画像を半分に切って、1ページ単位のファイルを作ります。画像切断の処理はImageDividerという無料ソフトでやっています。大型本は1ページずつのスキャンになってしまいます。

これらのファイルを合わせて1冊の本のファイルを作るときには、S1500に同梱されていたAdobe Acrobat X Standardを使っています。FUJITSUの新製品はAdobeから離れたようで、もうこのソフトは付いていないようですが、時々バージョンアップがあり、とても重宝しています。でも、今年でバージョンアップ終了になりました。

出来上がりの電子本の印象は、さすがにES-7000Hは現物に近い発色（補正はしません）ですが、S1500はかなりの色違いが出ます。でもまあ、画集などでない限り、実用にはS1500で差し支えありません。

外出時はiPadミニで、アプリはi文庫HDを使っています。一時は初期のNexus7にもi文庫HDを入れていましたが、Android版のi文庫HDは別会社が作っていたらしく、これも有料なのにとてもひどいもので、その後、消えました。このアプリに腹を立てた人は多いと思います。Nexus7は画面が小さいこととあいまって、快適ではありませんでした。

PDFファイルに電子化する場合も、適切なサイズという面はあります。文庫本は電子化に最適かもしれません。文庫本は裁断に勇気が不要ですし、iPadミニでもページの表示がかなり大きくなり、画面設定で余白を切り取れば、とても読みやすくなります。もちろん、青空文庫のように文字サイズ変更ができる電子本には及びません。逆に、大型本は画面が小さくなって、迫力がなくなります。PCで30インチ以上の画面が欲しくなります。

自炊することの一番重要なメリットだと思えるのは、Adobe Acrobat X Standardの簡易OCR機能によって、ファイル内の文字検索ができるようになることです。文字認識の精度はかなり低いのですが、索引機能としてそれなりに使えます。

OCR機能に加えて、ページの正立の歪み補正機能があり、不十分ながら、役に立ちます。これはスキャンしたページ画像が少し斜めになってしまっているときに、文字列や枠線などの角度を調べて、ページをまっすぐに補正するというもので、読むときに便利な機能です。文字だけで構成されているページはだいたいきれいになりますが、図や写真、欧文などが入っていると、横倒しや倒立などが起こります。これらはページごとに手作業で回転し直す必要がありますが、それできれいになります。

ただ、時々、斜めになってしまう場合があります。その原因はよくわかりませんが、何らかのバグ（プログラムエラー）なのでしょう。これは手作業での回転が90°単位なので訂正できません。斜めでは困るという場合は、そのページだけ画像を変更しない（非圧縮モード）という手間をかけなければなりません。全体に非圧縮モードでOCR機能だけにするのも一つの方法です。ただ、非圧縮なので、ファイルサイズは元のままで、小さくなりません。

札幌では2年ほど、年に500冊のペースで自炊しましたが、とても間に合わず、かなりの量の本を大阪に運びました。大阪でも自炊を続けて、とうとう、最後のかたまりになりました。コミックスの残り100冊ほどです。

袋から出して並べていたら、パスカルとトコが遊びにきました。

「じゃりン子チエ」の最初のほうや、「動物のお医者さん」、「サザエさん」はもう黄変しています。昔のコミックスは紙質が悪いことが多いので、古くなってくると、S1500で何度も重なりが起こります。そのたびにしごいてセットし直します。でも、とても古い文庫本のほうが手強くて、2～3ページずつしか読み込めなかったことがあります。自動原稿送り装置(ADF）には、紙の厚さ、摩擦、柔軟性など、複雑な要因が絡むのでしょうね。

コミックスの自炊では、白黒の絵であっても、ベタ部分に灰色を使っている場合は、白黒モードでスキャンすると、ベタ部分が汚くなったり、飛んでしまったりします。かと言って、グレーモードでスキャンすると、黄ばんだ紙が薄いグレーになってしまい、コントラストがうまく出ません。「じゃりン子チエ」はほとんど灰色ベタを使っていないので、白黒モードで驚くほどきれいな画像になりましたが、「動物のお医者さん」はグレー版と白黒版を2種類作りました。雑誌と同じ簡易製本だった「火の鳥」は特に古くて、カラー版も必要でした。このあたりは、S1500の明度調整が簡易すぎることも関係しているようです。

最近、10年以上使っていたES-7000Hは画像にスジが入るようになり、このコミックスの表紙スキャンで役目を終え、安価なA3用PX-1700Fに置き換えました。ES-7000Hより画像品質は明らかに落ちます。S1500と比べると、色味の違いはありますが、同程度と言えそうです。

これまで5年ほどで自炊した書籍は、薄いものから厚いものまで、3千冊くらいになっています。自炊した後はいつも町内会の紙回収に出していますが、このコミックスを紙袋に入れて玄関先に出しておいた時は、町内会の回収前に無くなっていました。誰が持って行ったかわかりませんが、紙袋から出したら裁断されているのを見て残念がったでしょう。まあ、表紙カバーで包んで、ページの順番はそのままにしているので、丁寧に扱えば読めますし、ヤフオクで裁断本が出ている時代なので、そういうルートもあるのかもしれません。

本が好きな人は、裁断でバラバラにして、最後は廃棄してしまうことに抵抗はあるでしょうね。もちろん、私も裁断したくない本は多く残しています。でも、稀覯本でもない限り、いずれは安い値で古本屋に売却するか、廃棄するしかないと考えると、iPadに数百冊を入れて持ち歩くことができる魅力には負けます。それに、本棚空間を有効活用できます。

自炊するかどうかは、手間＋時間をかけることと、便利さ＋保管不要ということとのトレードオフでしょうね。仕事をしていた頃は、学術論文のほとんどがネットで取得できていましたし、本を自炊する手間と時間が惜しいので、やる気にはなりませんでした。ただ、用語を検索できる電子辞書や電子ブックの必要性はありました。退職してから仕事のウェイトは低くなりましたが、その一方で趣味のウェイトが高くなり、本の自炊が必要不可欠な作業となっています。

現在、すべての自炊文書（OCR・PDF圧縮加工前のファイルも残しています）をNASに保管していますが、合わせて500GB以下です。家の中ではwi-fi経由で必要な本をタブレットにダウンロードできるようにしています。

最近は、自炊を前提に中古書籍を買うことが多くなりました。市販の電子本は印刷本の新刊と同じくらいの価格ですし、ファイル構造がお粗末な場合が多く、索引機能がない場合がほとんどなので、手を出していません。安い中古書籍を買って、読んでから自炊するのではなく、自炊してから読むほうが多いのです。古書が多少汚れていても、読み込んだファイルは汚れやニオイから無縁になります。

でも、時として印刷本を読んでいると落ち着く気分になるのは、長年の習慣からでしょうか、それとも、スキャン画像は印刷文字の質感がないからでしょうか。また、反射光と発光の違いでしょうか、あるいは、電子機器の持つ硬質で均一な感じとの違いでしょうか。