サイトアイコン IT NEWS

コロナウイルスの論文データセットが公開へ! ホワイトハウスが技術開発を呼びかけ

新型コロナウイルスの検出や予防、治療に関するソリューションを一刻も早く開発すべく、世界の研究機関が奮闘している。これまでの膨大な研究結果を有効活用できれば、今後行われる研究は加速するだろう。

こうしたなか、アレン人工知能研究所、チャン・ザッカーバーグイニシアチブ(CZI)、Microsoft Researchらがコロナウイルス(SARSやMERS含む)に関する論文集「COVID-19 Open Research Dataset(CORD-19)」を公開した。

同データセットは、ホワイトハウスの意向で機械読み取りが可能な形式になっており、論文から欲しい答えを抽出する技術の開発が狙いだ。

・2万9000本以上の論文を研究リソースに

テキスト/データマイニング技術開発にあたっては、アレン人工知能研究所が提供するSciSpacy(科学文章に特化した処理ツール)や、SciBERT(科学文章に特化したBERTモデル)など、強力なツールが用意されている。

CORD-19は、2万9000本以上の論文からなり、そのうち1万3000本以上が全文掲載だ。WHOやPubMed、Microsoft Academic…などが提供の膨大なリソースをマンパワーで探るのは困難。質問に対して優先度の高い答えが抽出できるテキスト/データマイニング技術の開発が呼びかけられている。

・Kaggleを利用する4百万人の研究者の力を借りる

このCORD-19チャレンジは、機械学習/データサイエンスコミュニティのKaggleにて開催され、開発された成果物は同プラットフォーム上で公開されることになる。

COVID-19に関する論文公開に関しては引き続き働きかけられ、データセットは毎週更新されるとのこと。

テキスト/データマイニング技術が開発されれば、世界中の研究者が重要な情報に素早くアクセスできることになり、COVID-19の究明に大きく貢献するだろう。

参照元:Call to Action to the Tech Community on New Machine Readable COVID-19 Dataset/ White House

モバイルバージョンを終了