GLM-OCR いじりその1
やや古いゲーミングラップトップのGPUでも動かせそうなGLM-OCRが出てたので、最近はやってないけど自炊していたスキャン済書籍の画像ファイル群をOCRして検索システムでも作ろうかということでollamaで動くようにしつつ、ついでにトークン量が期間限定で増えてるCodexを使ってシステムを作らせてみている。
そんなこんなでシステム自体はサクッと作れたようで、
- zip ファイルを指定したら展開してollama使ってOCRしてMeilisearchに突っ込む
- WebサービスとしてMeilisearch使って検索するシステム
はなんとなく動きそうな感じ。
あとはOCRをしてデータ突っ込んでいけばいいということで、試してみたらOCRかけて検索エンジンに取り込む部分は1ページ10秒くらいかかっている感じで、これはバックエンドのollamaをメインマシンに切り替えたりすれば早くはなるのだろうけど、特に急いでないしのんびりやらせてみるかと思っていたら、大学時代の教科書をスキャンした縦書きのページの読み取りが全然できすに謎な状態に。漫画はうまくできてたのだけれど、何が悪いのかまだよくわからず。
ということでこれについては気が向いたタイミングで進めていきたい。