久しぶりに scansnap を使って、本をスキャンして ocr で文字化しようと思いました。
確か以前は linux ではとても難しかった記憶があって、これは windows に任せた方が簡単と思って、virtualbox の windows のどれかにインストールしておいたはずですが、そのエクスポート ova がどれかわからくなってしまいました。
でも何で linux ではできないんだろう? という素朴な疑問が湧いて、ちょっと調べてみたら linux mint 20.3 ではとても簡単にスキャニングができることがわかりました。
scansnap を認識するか?
まずは、linux mint がusb の scansnap を認識するかどうかを確認。
lsusb
以下のように表示されればOK。
Bus 001 Device 007: ID 04c5:11a2 Fujitsu, Ltd ScanSnap S1500
スキャナーとしては、
scanimage -L
以下のように表示されると思います。
device `fujitsu:ScanSnap S1500:153641' is a FUJITSU ScanSnap S1500 scanner
xsane じゃなくてドキュメントスキャナー
ネット記事には、ubuntu で xsane でスキャンという記事がありますが、linux mint 20.3 では xsane じゃなくてドキュメントスキャナーを使う方がはるかに簡単だと思います。
ドキュメントスキャナーは、「メニュー」→「グラフィクス」から選択します。
できれば「パネルに追加」しておくと便利です。
連続スキャンをするためには、ドキュメントスキャナーの設定を以下のようにすればOKです。

スキャン結果
pdf ですが、以下のような感じです。

おそらく、この解像度であれば「読んでココ」でテキスト化できると思います。
ocr でテキスト化
かなり以前に購入した「読んでココ」というアプリを使って、virtualbox の windows xp でテキスト化します。
画像の傾き補正など手を尽くしてテキスト化しても、相当数の認識エラーが発生します。
そのテキストを libreoffice writer に貼り付けて、エラーを是正していきます。
このプロセスは、スキャンした画像を見ながらおこなうので相当時間がかかります。
「ものぐさ精神分析」では三日間程かかりました。
実は、「ものぐさ精神分析」は kindle paper で 2,000 円ちょっとで購入できます。
その方が遥かに簡単ですが、私は kindle を購入したことがなく、kindle は何だかもったいないような気がしてちょっと抵抗があります。
それと、私の方法にはひとついいことがあります。
エラーを訂正する過程が、速読の訓練になっているような気がします。
ある程度意味を理解しようとしないと間違いに気づかないし、それを速度を上げておこなうので、これは速読の練習にはなっていると思います。
そろそろ年齢的に、いろいろと断捨離したいと思っているのですが、本を捨てるのは抵抗があるので、このようにして電子化すればいいかと思います。
ただかなり時間がかかるので、定年退職して暇ができたら本格的にやりたいと思っています。