170多萬篇論文，儲存量達1.1 TB，Kaggle上線arXiv完整資料集

2020-08-07 由緱風彩釋出於科技

機器之心報道

編輯：杜偉、小舟

現在，使用者可以在 Kaggle 平臺上獲取 arXiv 論文了！

眾所周知，arXiv 是我們搜尋、瀏覽和下載學術論文的重要工具。近 30 年來，arXiv 為公眾和研究社群提供了開放獲取學術論文的服務。這些論文涉及物理學的龐大分支和計算機科學的眾多子學科，如數學、統計學、電氣工程、定量生物學和經濟學等等。

arXiv 上研究論文數量之多有利也有弊。一方面，對於在自身研究領域迅速成長的研究生，以及致力於用科研為公眾提供服務的研究者而言，這一豐富的資訊庫可以提供極有效的助力。另一方面，arXiv 有時在搜尋時也有不便。

與此同時，Kaggle 通常是資料科學家和機器學習工程師尋求有趣資料集、公開筆記和賽題的重要平臺。研究者可以利用 Kaggle 上廣泛的資料探索工具，輕鬆地與他人共享相關指令碼和輸出。

所以，是不是可以將 arXiv 上的巨量學術論文打包放在 Kaggle 上呢？

近期，為了讓 arXiv 可用度更高，康奈爾大學和其他一些開發者在 kaggle 上建立了一個免費、開放的 arXiv 資料集。該資料集是一個含有 170 多萬篇學術論文的儲存庫，使用者可以獲取論文的標題、作者、類別、摘要、全文 pdf 等。

arXiv 執行董事 Eleonora Presani 表示：「在 Kaggle 上放置完整的 arXiv 語料庫，可以極大地增強 arXiv 論文的閱讀潛力。並且，透過在 Kaggle 上提供該資料集，我們能夠獲取比通讀這些文章更多的知識，並且能夠以機器可讀的格式將 arXiv 背後的資料和資訊向公眾開放。」

此外，她還表示：「arXiv 不僅是一個論文資源庫，它還是一個知識共享平臺。這就要求我們在展示和解釋可用知識的方式上不斷創新，Kaggle 使用者能夠幫助突破這種創新的侷限，並且能夠成為社群協作的新渠道。」

開發者希望啟用能夠探索出更豐富機器學習技術的新用例。這些技術還將結合面向如趨勢分析、論文推薦器引擎、類別預測、共引網路、知識圖譜構造、語義搜尋介面等諸多應用的多模態功能。

Kaggle 上的 arXiv 資料集是什麼樣的

這是一個包含 170 多萬篇理工科（STEM）學術論文的 arXiv 資料集和元資料。目前，開發者已經更新了 5 個版本，從第一版的 arXiv 元資料集（arXiv metadata）到最新版本的 arXiv 資料集，包含的論文數量越來越多，範圍也更廣。該資料集將每週更新一次。

第一版的 arXiv 元資料。

該資料集是原始 arXiv 資料的映象，儲存量高達 1.1TB，並且還會繼續增加。資料集僅提供了 json 格式的元資料檔案，它包含每篇論文的相關條目，具體如下：

id：arXiv ID，可用於訪問論文；

submitter：論文提交者；

authors：論文作者；

title：論文標題；

comments：論文頁數和圖表等其他資訊；

journal-ref：論文發表的期刊；

doi：數字物件識別符號；

abstract：論文摘要；

categories：論文在 arXiv 系統的所屬類別或標籤；

versions：論文版本。

此外，使用者可以透過以下兩個連結直接在 arXiv 上訪問每篇論文：

https://arxiv.org/abs/{id}：包含摘要和進一步連結的論文頁面；

https://arxiv.org/pdf/{id}：論文 PDF 下載頁面。

批次訪問

使用者可以在谷歌雲端儲存（Google Cloud Storage, GCS）bucket gs://arxiv-dataset 上免費獲取全部 PDF 論文，或透過谷歌 API json documentation 和 xml documentation 也可以獲取。

PDF 論文被分組到 tarpdfs 資料夾的幾個. tar.gz 檔案中，具體如下所示：

tarpdfs/arXivpdf1001001.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001001.tar.gz)tarpdfs/arXivpdf1001002.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001002.tar.gz)tarpdfs/arXivpdf1001003.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001003.tar.gz)Which are chunks 1, 2 and 3 for month 1001 (2010-01).

此外，使用者可以使用 gsutil 工具將資料下載到本地計算機中。

arXiv 將 170 多萬篇論文打包放在 Kaggle 上，更方便了使用者獲取和下載論文。有網友表示：「此舉棒極了！」

與此同時，也有人提出要重視「同行評審」的參與。

對此，你怎麼看呢？

參考連結：

https://blogs.cornell.edu/arxiv/2020/08/05/leveraging-machine-learning-to-fuel-new-discoveries-with-the-arxiv-dataset/

https://www.kaggle.com/Cornell-University/arxiv

【來源：機器之心Pro】

宣告：轉載此文是出於傳遞更多資訊之目的。若有來源標註錯誤或侵犯了您的合法權益，請作者持權屬證明與本網聯絡，我們將及時更正、刪除，謝謝。郵箱地址：[email protected]

版權宣告：本文源自網路，於，由楠木軒整理釋出，共 2338 字。

轉載請註明： 170多萬篇論文，儲存量達1.1 TB，Kaggle上線arXiv完整資料集 - 楠木軒