OCR

前回行ったバイト。今回はOCRで読み取った文章の校正。txtと元原稿を元にdocファイルを作る。
持ち帰りが許可されたので山Pと分けて帰宅。14-20時,んで、仮眠して23-28時まででようやく第四編が終了。
後、五編と六編。とりあえず今日中に終わらせる。


OCRって、高校の時に部活で県発表会の報告書を読み取る時に使っていて、そん時は結構誤検出が多かったけど
今のはほとんど無いね・・・・。
文頭やら「」や口とロの間違いだけだったかな。
これもベイズとか色々やりゃー、この単語の次はこの単語が来るよ。とかで改善されるんだろうな。ってか、データセット探していたときにそんなデータセットあったわ。OCRの精度向上大会みたいの。

後、表組みはまず列のタイトルをよみとり、左から順に列を読み取っているみたい。これはスキャンソフトの問題だろうけど表組みもどーにかして情報としてもてないだろうかね。もう実現化してるだろうけど。


終わらせたら研究室で仮眠かな・・・。