サイトアイコン IT NEWS

LINE、OCRで国立国会図書館の資料247万点をテキスト化。昭和前期以前の資料にも対応

LINE株式会社・AIカンパニーは、新開発のOCRを活用し、国立国会図書館が保有するデジタル化資料247万点をテキストデータ化しました。

高精度OCRでも古い資料のテキスト化は難しい

同社は、書類・画像の文字情報をテキストデータへ変換するサービス「CLOVA OCR」を提供中。同サービスはさまざまな書式・文字形状の読み取りや多言語・専門用語の認識を高精度で実行できることを評価され、2019の国際会議ICDARにて4分野で世界No.1を獲得しました。

今回は、国立国会図書館のデジタル化資料をOCRでテキスト化するプロジェクトを受託。しかし、昭和前期以前の資料が多く、現代の文章に最適化された既存のOCRでは精度に不安があったといいます。

そこで、既存のCLOVA OCRをベースに同プロジェクト用OCRモデルを開発しました。

昭和前期以前の資料に対応したOCRを開発

新たに開発されたOCRは、文字サイズや行間のばらつき、インク汚れなどのノイズ、現代とは異なる言葉・記号の用法、右読み文章などに対応。これにより、昭和前期以前の資料を認識できるようになりました。

このOCRを活用し、デジタル化資料247万点(画像数2億2300万)をテキストデータ化。国立国会図書館の文字認識性能評価において、96%の項目で目標値を上回る結果となりました。なお、ベースとなったOCRの目標値達成率は約64%です。

成果物の一部を提供中

国立国会図書館は、同プロジェクトにおける成果物の一部を実験サービスなどの形で提供しています。

たとえば、「次世代デジタルライブラリー」がそのひとつ。同館がデジタルコレクションで提供している資料のなかから、著作権保護期間が満了した図書約28万点について、OCRが生成した全文テキストから検索できます。

また、次世代デジタルライブラリーと同じ図書約28万点に出現する単語・フレーズの頻度を出版年代ごとに可視化・列挙する「NDL Ngram Viewer」も提供中です。

このほか、同プロジェクトのOCR対応字種(2万3026文字)の一覧や、OCR学習用データセットのうち著作権保護期間が満了した資料から作成されたデータセットを公開しています。

PR TIMES
LINE株式会社
「次世代デジタルライブラリー」
「NDL Ngram Viewer」

(文・Higuchi)

モバイルバージョンを終了