サイトアイコン PreciousDays Inc.

ChatGPT,GeminiのOCR性能比較

ここ最近の生成AIはOCR(文字認識)機能もどんどん進化していて、例えば手書きのスケジュール帳をスマホで撮影してAIにアップするだけでオンラインのカレンダーに反映してくれたり、といった具合に私たちの日常業務をより効率化してくれるようになりました。

そこでふと、AIによってどれくらいOCR機能に差があるのか気になったので、実際に試してみました。

比較方法

今回機能性を比較するのはChatGPTとGeminiで、秘密保持契約書の雛型をスマホで撮影してAIに読み込ませます。

実際に撮影した画像がこちらなのですが、画像自体も少し暗くて雑に撮影しています。

さてさて、今どきのAIはこれをどこまで読み込んでくれるでしょうか。

ChatGPTの場合

実際にChatGPTが書き起こしたテキストがこちら。

契約書自体はA4で3枚あるのですが、内容はなんと100%一致!

実はChatGPTは手書きの文字もかなりの確率で認識してくれるので、その性能の高さにはいつも驚かされます。

Geminiの場合

続いてGeminiの結果がこちら。

う~ん。。

いきなりもう社名が違います(笑)。

全体の精度は80%くらいでしょうか。

Geminiで要注意なのが、文章の一部の単語を勝手に省略してしまっていること。

これは本当に細かくチェックしないと見過ごしてしまうのですが、何だか一定の割合で単語や文章を省略しているようです。

結論

結果としてはChatGPTの勝ち。

私は日々いろいろなAIに触れているのですが、何をやらせるにしても結局ChatGPTが一番質の高い出力をしてくれる印象です。

よくAIを使い始めたばかりの方から「どのAIを使えばいいか分からない」というような質問をさることが多いのですが、私はまずはChatGPTをオススメしています。

理由は前述の通りで、何をやらせてもそつなくタスクをこなしてくれるからです。

用途にもよりますが、初心者の方はまずはChatGPTでAIの使い方に慣れてもらって、そこからご自身の業務内容によってAIを使い分ける方がいいと思います。

AIによって機能にも差が出る点も、ぜひご参考になさってください。

 

モバイルバージョンを終了