画像や紙面に書かれた文字情報をデータ化するには、これまでは人の手を介して手打ちでテキスト化する必要がありました。しかし最近では画像や紙面から文字を認識し、直接データ化できる 「OCR」(Optical Character Recognition/Reader・光学文字認識) という技術が発展しています。

目次

  1. 日本語独特の縦書きや特殊フォントにも対応できるようになったOCR
  2. 印刷物の校正・校閲にもOCRが活躍
  3. 手書きの帳票からもデータ抽出が可能に

日本語独特の縦書きや特殊フォントにも対応できるようになったOCR

ビジネスのペーパーレス化やデータ管理の効率化を目的として、様々な企業で導入されつつあるOCR。入力の手間が省ける、できあがったデータの保管場所に困ることがない、データの共有も簡単に行える、などの利点がある一方で、日本語特有の縦書き表記や多種多様なフォントが、正確な読み取りを困難にする要因となっていました。

そんな中、広告クリエィティブの事前効果予測を行う「極予測(キワミヨソク)シリーズ」を展開する株式会社サイバーエージェントでは、広告制作に特化した独自日本語OCRモデルを2023年に発表。もともと「極予測シリーズ」は広告内の文字の検出と解析にOCR技術を取り入れ、クリエィティブ制作および効果予測フローに組み込んでいました。

広告効果予測を高精度で行うためには、クリエイティブ内の文字をレイアウトフォントに影響されずに正確に読み取る必要があります。しかし、従来の「極予測シリーズ」のOCRでは縦書き表記や特殊なフォントは正確に読み取れない場面も。そこで独自OCRモデルの開発によって、縦書きや複雑なレイアウトであっても広告内の文字を正確に認識することが可能に。事前効果予測に反映させることで、より高い精度が期待できるようになりました。

左が今回開発したCAの独自OCR、右が既存の外部OCRサービスを利用した解析結果

出典:サイバーエージェント、広告クリエイティブに特化した独自日本語OCR(光学文字認識)モデルを開発

AIによって効果の出せるランディングページを予測・制作する「極予測LP」にはすでにこの独自OCRが実装されており、今後ほかの「極予測シリーズ」へも順次導入される予定です。

印刷物の校正・校閲にもOCRが活躍

また大日本印刷株式会社(DNP)では、様々な印刷物の校正・校閲・審査作業をサポートするクラウドサービス 「DNP AI審査サービス(校正・回覧業務)」 を提供しています。同サービスでは、製品パッケー

「DNP AI審査サービス」の利用イメージ

【特集】PICK UP!トレンド