170多萬篇論文,存儲量達1.1 TB,Kaggle上線arXiv完整數據集

機器之心報道

編輯:杜偉、小舟

現在,用户可以在 Kaggle 平台上獲取 arXiv 論文了!

眾所周知,arXiv 是我們搜索、瀏覽和下載學術論文的重要工具。近 30 年來,arXiv 為公眾和研究社區提供了開放獲取學術論文的服務。這些論文涉及物理學的龐大分支和計算機科學的眾多子學科,如數學、統計學、電氣工程、定量生物學和經濟學等等。

170多萬篇論文,存儲量達1.1 TB,Kaggle上線arXiv完整數據集

arXiv 上研究論文數量之多有利也有弊。一方面,對於在自身研究領域迅速成長的研究生,以及致力於用科研為公眾提供服務的研究者而言,這一豐富的信息庫可以提供極有效的助力。另一方面,arXiv 有時在搜索時也有不便。

與此同時,Kaggle 通常是數據科學家和機器學習工程師尋求有趣數據集、公開筆記和賽題的重要平台。研究者可以利用 Kaggle 上廣泛的數據探索工具,輕鬆地與他人共享相關腳本和輸出。

所以,是不是可以將 arXiv 上的巨量學術論文打包放在 Kaggle 上呢?

近期,為了讓 arXiv 可用度更高,康奈爾大學和其他一些開發者在 kaggle 上創建了一個免費、開放的 arXiv 數據集。該數據集是一個含有 170 多萬篇學術論文的存儲庫,用户可以獲取論文的標題、作者、類別、摘要、全文 pdf 等。

170多萬篇論文,存儲量達1.1 TB,Kaggle上線arXiv完整數據集

arXiv 執行董事 Eleonora Presani 表示:「在 Kaggle 上放置完整的 arXiv 語料庫,可以極大地增強 arXiv 論文的閲讀潛力。並且,通過在 Kaggle 上提供該數據集,我們能夠獲取比通讀這些文章更多的知識,並且能夠以機器可讀的格式將 arXiv 背後的數據和信息向公眾開放。」

此外,她還表示:「arXiv 不僅是一個論文資源庫,它還是一個知識共享平台。這就要求我們在展示和解釋可用知識的方式上不斷創新,Kaggle 用户能夠幫助突破這種創新的侷限,並且能夠成為社區協作的新渠道。」

開發者希望啓用能夠探索出更豐富機器學習技術的新用例。這些技術還將結合面向如趨勢分析、論文推薦器引擎、類別預測、共引網絡、知識圖譜構造、語義搜索接口等諸多應用的多模態功能。

Kaggle 上的 arXiv 數據集是什麼樣的

這是一個包含 170 多萬篇理工科(STEM)學術論文的 arXiv 數據集和元數據。目前,開發者已經更新了 5 個版本,從第一版的 arXiv 元數據集(arXiv metadata)到最新版本的 arXiv 數據集,包含的論文數量越來越多,範圍也更廣。該數據集將每週更新一次。

第一版的 arXiv 元數據。

該數據集是原始 arXiv 數據的鏡像,存儲量高達 1.1TB,並且還會繼續增加。數據集僅提供了 json 格式的元數據文件,它包含每篇論文的相關條目,具體如下:

id:arXiv ID,可用於訪問論文;

submitter:論文提交者;

authors:論文作者;

title:論文標題;

comments:論文頁數和圖表等其他信息;

journal-ref:論文發表的期刊;

doi:數字對象標識符;

abstract:論文摘要;

categories:論文在 arXiv 系統的所屬類別或標籤;

versions:論文版本。

此外,用户可以通過以下兩個鏈接直接在 arXiv 上訪問每篇論文:

https://arxiv.org/abs/{id}:包含摘要和進一步鏈接的論文頁面;

https://arxiv.org/pdf/{id}:論文 PDF 下載頁面。

批量訪問

用户可以在谷歌雲存儲(Google Cloud Storage, GCS)bucket gs://arxiv-dataset 上免費獲取全部 PDF 論文,或通過谷歌 API json documentation 和 xml documentation 也可以獲取。

PDF 論文被分組到 tarpdfs 文件夾的幾個. tar.gz 文件中,具體如下所示:

tarpdfs/arXivpdf1001001.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001001.tar.gz)tarpdfs/arXivpdf1001002.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001002.tar.gz)tarpdfs/arXivpdf1001003.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001003.tar.gz)Which are chunks 1, 2 and 3 for month 1001 (2010-01).

此外,用户可以使用 gsutil 工具將數據下載到本地計算機中。

arXiv 將 170 多萬篇論文打包放在 Kaggle 上,更方便了用户獲取和下載論文。有網友表示:「此舉棒極了!」

與此同時,也有人提出要重視「同行評審」的參與。

對此,你怎麼看呢?

參考鏈接:

https://blogs.cornell.edu/arxiv/2020/08/05/leveraging-machine-learning-to-fuel-new-discoveries-with-the-arxiv-dataset/

https://www.kaggle.com/Cornell-University/arxiv

【來源:機器之心Pro】

聲明:轉載此文是出於傳遞更多信息之目的。若有來源標註錯誤或侵犯了您的合法權益,請作者持權屬證明與本網聯繫,我們將及時更正、刪除,謝謝。 郵箱地址:[email protected]

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 2338 字。

轉載請註明: 170多萬篇論文,存儲量達1.1 TB,Kaggle上線arXiv完整數據集 - 楠木軒