170多萬篇論文，存儲量達1.1 TB，Kaggle上線arXiv完整數據集

2020-08-07 由緱風彩發佈於科技

機器之心報道

編輯：杜偉、小舟

現在，用户可以在 Kaggle 平台上獲取 arXiv 論文了！

眾所周知，arXiv 是我們搜索、瀏覽和下載學術論文的重要工具。近 30 年來，arXiv 為公眾和研究社區提供了開放獲取學術論文的服務。這些論文涉及物理學的龐大分支和計算機科學的眾多子學科，如數學、統計學、電氣工程、定量生物學和經濟學等等。

arXiv 上研究論文數量之多有利也有弊。一方面，對於在自身研究領域迅速成長的研究生，以及致力於用科研為公眾提供服務的研究者而言，這一豐富的信息庫可以提供極有效的助力。另一方面，arXiv 有時在搜索時也有不便。

與此同時，Kaggle 通常是數據科學家和機器學習工程師尋求有趣數據集、公開筆記和賽題的重要平台。研究者可以利用 Kaggle 上廣泛的數據探索工具，輕鬆地與他人共享相關腳本和輸出。

所以，是不是可以將 arXiv 上的巨量學術論文打包放在 Kaggle 上呢？

近期，為了讓 arXiv 可用度更高，康奈爾大學和其他一些開發者在 kaggle 上創建了一個免費、開放的 arXiv 數據集。該數據集是一個含有 170 多萬篇學術論文的存儲庫，用户可以獲取論文的標題、作者、類別、摘要、全文 pdf 等。

arXiv 執行董事 Eleonora Presani 表示：「在 Kaggle 上放置完整的 arXiv 語料庫，可以極大地增強 arXiv 論文的閲讀潛力。並且，通過在 Kaggle 上提供該數據集，我們能夠獲取比通讀這些文章更多的知識，並且能夠以機器可讀的格式將 arXiv 背後的數據和信息向公眾開放。」

此外，她還表示：「arXiv 不僅是一個論文資源庫，它還是一個知識共享平台。這就要求我們在展示和解釋可用知識的方式上不斷創新，Kaggle 用户能夠幫助突破這種創新的侷限，並且能夠成為社區協作的新渠道。」

開發者希望啓用能夠探索出更豐富機器學習技術的新用例。這些技術還將結合面向如趨勢分析、論文推薦器引擎、類別預測、共引網絡、知識圖譜構造、語義搜索接口等諸多應用的多模態功能。

Kaggle 上的 arXiv 數據集是什麼樣的

這是一個包含 170 多萬篇理工科（STEM）學術論文的 arXiv 數據集和元數據。目前，開發者已經更新了 5 個版本，從第一版的 arXiv 元數據集（arXiv metadata）到最新版本的 arXiv 數據集，包含的論文數量越來越多，範圍也更廣。該數據集將每週更新一次。

第一版的 arXiv 元數據。

該數據集是原始 arXiv 數據的鏡像，存儲量高達 1.1TB，並且還會繼續增加。數據集僅提供了 json 格式的元數據文件，它包含每篇論文的相關條目，具體如下：

id：arXiv ID，可用於訪問論文；

submitter：論文提交者；

authors：論文作者；

title：論文標題；

comments：論文頁數和圖表等其他信息；

journal-ref：論文發表的期刊；

doi：數字對象標識符；

abstract：論文摘要；

categories：論文在 arXiv 系統的所屬類別或標籤；

versions：論文版本。

此外，用户可以通過以下兩個鏈接直接在 arXiv 上訪問每篇論文：

https://arxiv.org/abs/{id}：包含摘要和進一步鏈接的論文頁面；

https://arxiv.org/pdf/{id}：論文 PDF 下載頁面。

批量訪問

用户可以在谷歌雲存儲（Google Cloud Storage, GCS）bucket gs://arxiv-dataset 上免費獲取全部 PDF 論文，或通過谷歌 API json documentation 和 xml documentation 也可以獲取。

PDF 論文被分組到 tarpdfs 文件夾的幾個. tar.gz 文件中，具體如下所示：

tarpdfs/arXivpdf1001001.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001001.tar.gz)tarpdfs/arXivpdf1001002.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001002.tar.gz)tarpdfs/arXivpdf1001003.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001003.tar.gz)Which are chunks 1, 2 and 3 for month 1001 (2010-01).

此外，用户可以使用 gsutil 工具將數據下載到本地計算機中。

arXiv 將 170 多萬篇論文打包放在 Kaggle 上，更方便了用户獲取和下載論文。有網友表示：「此舉棒極了！」

與此同時，也有人提出要重視「同行評審」的參與。

對此，你怎麼看呢？

參考鏈接：

https://blogs.cornell.edu/arxiv/2020/08/05/leveraging-machine-learning-to-fuel-new-discoveries-with-the-arxiv-dataset/

https://www.kaggle.com/Cornell-University/arxiv

【來源：機器之心Pro】

聲明：轉載此文是出於傳遞更多信息之目的。若有來源標註錯誤或侵犯了您的合法權益，請作者持權屬證明與本網聯繫，我們將及時更正、刪除，謝謝。郵箱地址：[email protected]

轉載請註明： 170多萬篇論文，存儲量達1.1 TB，Kaggle上線arXiv完整數據集 - 楠木軒