LINE、OCRで国立国会図書館の資料247万点をテキスト化。昭和前期以前の資料にも対応

樋口

3年前

LINE株式会社・AIカンパニーは、新開発のOCRを活用し、国立国会図書館が保有するデジタル化資料247万点をテキストデータ化しました。

高精度OCRでも古い資料のテキスト化は難しい

同社は、書類・画像の文字情報をテキストデータへ変換するサービス「CLOVA OCR」を提供中。同サービスはさまざまな書式・文字形状の読み取りや多言語・専門用語の認識を高精度で実行できることを評価され、2019の国際会議ICDARにて4分野で世界No.1を獲得しました。

今回は、国立国会図書館のデジタル化資料をOCRでテキスト化するプロジェクトを受託。しかし、昭和前期以前の資料が多く、現代の文章に最適化された既存のOCRでは精度に不安があったといいます。

そこで、既存のCLOVA OCRをベースに同プロジェクト用OCRモデルを開発しました。

新たに開発されたOCRは、文字サイズや行間のばらつき、インク汚れなどのノイズ、現代とは異なる言葉・記号の用法、右読み文章などに対応。これにより、昭和前期以前の資料を認識できるようになりました。

このOCRを活用し、デジタル化資料247万点（画像数2億2300万）をテキストデータ化。国立国会図書館の文字認識性能評価において、96％の項目で目標値を上回る結果となりました。なお、ベースとなったOCRの目標値達成率は約64％です。

国立国会図書館は、同プロジェクトにおける成果物の一部を実験サービスなどの形で提供しています。

たとえば、「次世代デジタルライブラリー」がそのひとつ。同館がデジタルコレクションで提供している資料のなかから、著作権保護期間が満了した図書約28万点について、OCRが生成した全文テキストから検索できます。

また、次世代デジタルライブラリーと同じ図書約28万点に出現する単語・フレーズの頻度を出版年代ごとに可視化・列挙する「NDL Ngram Viewer」も提供中です。

このほか、同プロジェクトのOCR対応字種（2万3026文字）の一覧や、OCR学習用データセットのうち著作権保護期間が満了した資料から作成されたデータセットを公開しています。

（文・Higuchi）