Ep.1067 SB Intuitionsが“文字の壁”を突破──日本語特化AI「Sarashina2.2-OCR」が切り拓く自律型文書処理の未来(2026年4月2日配信) Podcast By  cover art

Ep.1067 SB Intuitionsが“文字の壁”を突破──日本語特化AI「Sarashina2.2-OCR」が切り拓く自律型文書処理の未来(2026年4月2日配信)

Ep.1067 SB Intuitionsが“文字の壁”を突破──日本語特化AI「Sarashina2.2-OCR」が切り拓く自律型文書処理の未来(2026年4月2日配信)

Listen for free

View show details

2026年3月30日、ソフトバンク傘下でAI開発を手掛けるSB Intuitionsが、日本語の文書読み取りに特化した最新AIモデル「Sarashina2.2-OCR」を、世界的なAI共有プラットフォームであるHugging Face上でオープンソースとして無償公開しました。近年、画像から文字を読み取るOCR技術は、企業のペーパーレス化や社内資料のデータ化において欠かせない技術となっていますが、日本特有の複雑なレイアウトや、縦書きと横書きが入り混じるような文書を文脈も含めて正確に読み取れるモデルは、非常に限られていました。


SB Intuitionsはこれまでも、日本の文化や地理に強い視覚言語モデル「Sarashina2.2-Vision-3B」などを開発してきましたが、今回のモデルはそこからさらに「文字の読み取りと構造の理解」に特化させたものとなっています。開発にあたっては、日本語を含む膨大な図表データや多様なOCRデータが事前学習に用いられました。これにより、単に画像内の文字をテキスト化するだけでなく、「これは請求書の合計金額だ」「ここは領収書の但し書きだ」といったように、文書が持つ意味やレイアウトの意図までをAI自身が深く理解できるのが最大の特徴です。さらに、モデルのサイズが数ギガバイト程度とコンパクトに抑えられているため、高価なクラウド環境やスーパーコンピューターを使わずに、企業の手元のパソコンや社内サーバーといったローカルな環境で軽快に動かすことが可能になっています。


現在、世界的に見ても中国のAlibabaが開発するQwenシリーズの視覚モデルや、LightOnOCRといった軽量で高性能な文字認識AIが続々と登場し、エッジ環境でのAI実行を巡る主導権争いが激化しています。その中で、国内企業が独自の日本語データをふんだんに活用して高精度な特化型モデルを構築し、しかもそれを商用利用も可能なMITライセンスなどの形で世界中に公開したことは、日本のAI業界全体にとって非常に大きな意義を持ちます。


私たちのビジネスの現場でも、紙の書類やPDFの情報を手入力でエクセルなどのシステムに打ち込むような定型作業は、できれば有能なAIにすべて任せてしまいたいですよね。今回の技術の登場によって、企業の機密情報や顧客の個人情報を含んだ大切な社内文書を、外部のAPIやクラウドサービスに出すことなく、自社内の安全な環境だけで素早くデータ化して分析するシステムが、誰でも手軽に構築できるようになります。まさに、日本のオフィス業務のデジタルトランスフォーメーションを力強く後押ししてくれる、非常に頼もしい存在になりそうですね。

No reviews yet