linux mint 20.3 で scansnap

久しぶりに scansnap を使って、本をスキャンして ocr で文字化しようと思いました。

確か以前は linux ではとても難しかった記憶があって、これは windows に任せた方が簡単と思って、virtualbox の windows のどれかにインストールしておいたはずですが、そのエクスポート ova がどれかわからくなってしまいました。

でも何で linux ではできないんだろう？　という素朴な疑問が湧いて、ちょっと調べてみたら linux mint 20.3 ではとても簡単にスキャニングができることがわかりました。

scansnap を認識するか？

まずは、linux mint がusb の scansnap を認識するかどうかを確認。


lsusb

以下のように表示されればOK。


Bus 001 Device 007: ID 04c5:11a2 Fujitsu, Ltd ScanSnap S1500

スキャナーとしては、


scanimage -L

以下のように表示されると思います。


device `fujitsu:ScanSnap S1500:153641' is a FUJITSU ScanSnap S1500 scanner

ネット記事には、ubuntu で xsane でスキャンという記事がありますが、linux mint 20.3 では xsane じゃなくてドキュメントスキャナーを使う方がはるかに簡単だと思います。

ドキュメントスキャナーは、「メニュー」→「グラフィクス」から選択します。
できれば「パネルに追加」しておくと便利です。

連続スキャンをするためには、ドキュメントスキャナーの設定を以下のようにすればOKです。

pdf ですが、以下のような感じです。

おそらく、この解像度であれば「読んでココ」でテキスト化できると思います。

かなり以前に購入した「読んでココ」というアプリを使って、virtualbox の windows xp でテキスト化します。

画像の傾き補正など手を尽くしてテキスト化しても、相当数の認識エラーが発生します。

そのテキストを libreoffice writer に貼り付けて、エラーを是正していきます。
このプロセスは、スキャンした画像を見ながらおこなうので相当時間がかかります。

「ものぐさ精神分析」では三日間程かかりました。

実は、「ものぐさ精神分析」は kindle paper で 2,000 円ちょっとで購入できます。
その方が遥かに簡単ですが、私は kindle を購入したことがなく、kindle は何だかもったいないような気がしてちょっと抵抗があります。

それと、私の方法にはひとついいことがあります。

エラーを訂正する過程が、速読の訓練になっているような気がします。
ある程度意味を理解しようとしないと間違いに気づかないし、それを速度を上げておこなうので、これは速読の練習にはなっていると思います。

そろそろ年齢的に、いろいろと断捨離したいと思っているのですが、本を捨てるのは抵抗があるので、このようにして電子化すればいいかと思います。

ただかなり時間がかかるので、定年退職して暇ができたら本格的にやりたいと思っています。