凸版印刷株式会社は、2015年より「くずし字OCR」の研究・実証試験を行ってきた。そしてこのたび、高精度の「くずし字AI-OCR」を搭載したくずし字解読支援システム「ふみのはゼミ」を開発。同システムのさまざまな機能は、歴史的資料のデジタルアーカイブ化や学習・研究の拡大に貢献すると期待されているようだ。
歴史的資料を読み、理解を深める
また、授業やイベントでの活用を想定したグループワーク支援機能も搭載。リアルタイムな画面共有機能やチャット機能、解読した文字や単語に対する質問やコメントをつける機能、採点機能などを実装し、参加者同士のスムーズな交流と授業・イベントの活性化をサポートする。
同システムのくずし字AI-OCRは、解読済みの古文書・古典籍からくずし字の形を学習したAIが、指定された範囲の文字を区切りを含めて解読するというものだ。古典籍であれば、AI-OCRだけで90%以上、目視とあわせた解読では95%程度の高い精度で解読できると実証されている。
なお、オンライン辞書・事典サイト「ジャパンナレッジLib」の検索APIとの連携により、「ふみのはゼミ」からジャパンナレッジの辞書をひくことが可能。文字の解読とともに用例などを知ることで内容の理解を深められそうだ。辞書をひいたときは、調べた用語を画面内にメモとして記録するクリップ機能を活用するといいだろう。
開発の背景
江戸時代以前に使用されていた「くずし字」の解読は現代人には難しく、当時の記録・文献の解読における大きな障壁となっているようだ。
また、大規模災害や経年劣化などで資料が消失したり読めなくなったりする可能性を考えたとき、資料のアーカイブ手法の見直しが必要だという声もあるという。さらに、くずし字を解読できる専門家の減少による文化継承の危機的状況も見過ごせないことから、歴史的資料をデジタルデータ化することが求められている。
これらのニーズに応えるべく、凸版印刷は国文学研究資料館とともにくずし字OCR技術の開発・実証を重ねてきた。2019年には、慶應義塾大学教養研究センターにて「機械(マシン)と学ぶ『くずし字』」と題した実験授業を実施。2020年度には、慶應義塾大学をはじめとする4大学にて、オンライン授業内での演習用システムとしての活用を試験的に開始している。
同サービスは、教育機関や博物館・資料館、地方自治体などへ向け販売を開始し、2021年9月までに一般利用に向けての開発を進めるとのことだ。
- Original:https://techable.jp/archives/148658
- Source:Techable(テッカブル) -海外・国内のネットベンチャー系ニュースサイト
- Author:樋口