具体的に今回「ラノベ統計2」の作業っぷりを報告いたします。
@ラノベを裁断してスキャンする
(業者代行により即座に終了)
AスキャンしたものをOCRソフトを利用してテキスト化
(スキャン業者にもオプションとして用意されているけれど、精度が低いので自前でソフトを用意)
Bテキスト化したものから不必要なモノを抜く
(ページ数などを手作業で排除する)
Cテキスト化したものの誤字をチェックする
(本文で「マスター」と書いてあるモノがOCR後は「マスク―」となっていたりする)
……これを200冊ほど目標にやっております。
解析は自動だから楽だな−、などと思っていた時期も一時はありましたが、果てしなく作業感の溢れる作業です。普通にラノベ本文の誤字とか見つけて、このまま編集者になったほうがいいんじゃないかとさえ錯覚してきます。
と、愚痴っぽくなっていますが、毎回、解析前の作業は先が見えないのですが、終わると一気に楽しくなるので、それを期待して延々と続けていきます。
生き残りたい!