ScanSnapサーバー作りました。


個人的な実験で、ScanSnap+裁断機で書籍をPDF化する取り組みで、100冊ほどスキャンしてみたところ、場所節約にもなりますし、検索も出来るため、本格的にやることにしました。自宅にある数千冊の本棚の本をすべてPDF化すべく、ScanSnapS1500を3台買ってスキャンサーバー作ってみました。

PLUS PK-513

まず裁断機は、PLUSのPK-513を使用しています

スキャナーは、PFU(富士通)のScanSnapS1500です。これは超音波センサー内蔵で、紙の重なり検出を厳密に行っているので、助かります。旧型のスキャンスナップにはありませんでした。

NEC Express5800 GT110a

サーバーは、NECのExpress5800シリーズのGT110aを買って、CPUを既存のCeleron430から、Intel Celeron E3300に換装しています。メモリとHDDはデフォルトのままで512MBと160GBです。OSはWindows7です。OCRには、Adobe Acrobatを使用しています。
ハード的には、サーバーが1.5万円くらいでCPUが4000円台なので1台2万くらいで構築は出来ています。ありえませんね。この安さ。Celeron E3300は、別件でサーバー構築の際にベンチマークした結果コストパフォーマンスがかなり優れていたので、これを選びました。本当はE3200で探していたんですが、Amazonで売り切れていたので、これにしました。

まず、流れとしては裁断機で切って、その後スーパーファインでスキャンし、その後OCRをかけ、その後150dpiで再圧縮して保存。という流れです。ス キャンまでは、複数冊平行しスキャンし、ある程度ファイルがたまったら、まとめてOCRするという流れです。Googleドキュメントに保存することも考 慮し、出来るだけ25MB以下にしたいんですが、年鑑系はかなりデータ量を食うので、そういうものは、1冊あたり50MB程度になる場合もあります。基本 的には1冊5MBから20MB前後です。

何も効率考えずに動くと、1日で50冊程度しかスキャン+OCRできませんでした。今後、改善は必要ですね

個人的な実験で、ScanSnap+裁断機で書籍をPDF化する取り組みで、100冊ほどスキャンしてみたところ、場所節約にもなりますし、検索も出来るため、本格的にやることにしました。
自宅にある数千冊の本棚の本をすべてPDF化すべく、ScanSnapS1500を3台買ってスキャンサーバー作ってみました。

まず裁断機は、

スキャナーは、ScanSnapS1500です。これは超音波

サーバーは、NECのGT110aに、Intel Celeron E3300を使用しています。メモリとHDDはデフォルトのままで512MBと160GBです。OSはWindows7です。
OCRには、Adobe Acrobatを使用しています。

まず、スーパーファインでスキャンし、その後OCRをかけ、その後150dpiで再圧縮して保存。という流れです。Googleドキュメントに保存することも考慮し、出来るだけ25MB以下にしたいんですが、年鑑系はかなりデータ量を食うので、そういうものは、1冊あたり50MB程度になる場合もあります。基本的には1冊5MBから20MB前後です。

2010/03/22追記
フル稼働で、1日250冊から300冊程度までスキャン+OCRできるようになりました。

Comments are closed.