論文の大規模データセット「unarXive 2022」登場!

2023.03.29
深堀り解説
深堀り解説

ChatGPTなどに代表される自然言語処理(NLP)技術の発展に伴い、研究やアプリケーション開発の土台となる大規模な学術論文データセットの必要性が高まっています。

そんな中、32年間にわたりarXiv.orgに掲載されてきた多分野190万件の学術論文データセット「unarXive 2022」を作成したとの報告がありました。物理学、数学、コンピュータサイエンスなど多様な分野をカバーし、引用ネットワークがより完全で、文書構造や数式表現などの非テキストコンテンツを含むリッチな表現が特徴です。

論文やプロジェクトページのURLは記事下部にて記載しています。

目次

unarXive 2022の主なデータと応用

学術論文データセットunarXive 2022は主に、1,881,346の論文、63,367,836の参考文献、そして133,744,613のインテキスト引用マーカーで構成されています。

分野別の分布としては、物理学が57%、数学が20%、コンピュータサイエンスが17%、その他の分野が合わせて5%を占めています。

分野別の論文数

また引用ネットワークが充実しており、下の図で示すように「使われやすさ」を重視した内容になっています。

PREMIUM

プレミアム会員限定の記事です

記事の購読には、アカウント作成後の決済が必要です。

  • ・全記事・論文コンテンツを無制限で閲覧可能
  • ・平日毎日更新、専門家による最新リサーチを配信

関連記事