170多萬篇論文,儲存量達1.1 TB,Kaggle上線arXiv完整資料集

機器之心報道

編輯:杜偉、小舟

現在,使用者可以在 Kaggle 平臺上獲取 arXiv 論文了!

眾所周知,arXiv 是我們搜尋、瀏覽和下載學術論文的重要工具。近 30 年來,arXiv 為公眾和研究社群提供了開放獲取學術論文的服務。這些論文涉及物理學的龐大分支和計算機科學的眾多子學科,如數學、統計學、電氣工程、定量生物學和經濟學等等。

170多萬篇論文,儲存量達1.1 TB,Kaggle上線arXiv完整資料集

arXiv 上研究論文數量之多有利也有弊。一方面,對於在自身研究領域迅速成長的研究生,以及致力於用科研為公眾提供服務的研究者而言,這一豐富的資訊庫可以提供極有效的助力。另一方面,arXiv 有時在搜尋時也有不便。

與此同時,Kaggle 通常是資料科學家和機器學習工程師尋求有趣資料集、公開筆記和賽題的重要平臺。研究者可以利用 Kaggle 上廣泛的資料探索工具,輕鬆地與他人共享相關指令碼和輸出。

所以,是不是可以將 arXiv 上的巨量學術論文打包放在 Kaggle 上呢?

近期,為了讓 arXiv 可用度更高,康奈爾大學和其他一些開發者在 kaggle 上建立了一個免費、開放的 arXiv 資料集。該資料集是一個含有 170 多萬篇學術論文的儲存庫,使用者可以獲取論文的標題、作者、類別、摘要、全文 pdf 等。

170多萬篇論文,儲存量達1.1 TB,Kaggle上線arXiv完整資料集

arXiv 執行董事 Eleonora Presani 表示:「在 Kaggle 上放置完整的 arXiv 語料庫,可以極大地增強 arXiv 論文的閱讀潛力。並且,透過在 Kaggle 上提供該資料集,我們能夠獲取比通讀這些文章更多的知識,並且能夠以機器可讀的格式將 arXiv 背後的資料和資訊向公眾開放。」

此外,她還表示:「arXiv 不僅是一個論文資源庫,它還是一個知識共享平臺。這就要求我們在展示和解釋可用知識的方式上不斷創新,Kaggle 使用者能夠幫助突破這種創新的侷限,並且能夠成為社群協作的新渠道。」

開發者希望啟用能夠探索出更豐富機器學習技術的新用例。這些技術還將結合面向如趨勢分析、論文推薦器引擎、類別預測、共引網路、知識圖譜構造、語義搜尋介面等諸多應用的多模態功能。

Kaggle 上的 arXiv 資料集是什麼樣的

這是一個包含 170 多萬篇理工科(STEM)學術論文的 arXiv 資料集和元資料。目前,開發者已經更新了 5 個版本,從第一版的 arXiv 元資料集(arXiv metadata)到最新版本的 arXiv 資料集,包含的論文數量越來越多,範圍也更廣。該資料集將每週更新一次。

第一版的 arXiv 元資料。

該資料集是原始 arXiv 資料的映象,儲存量高達 1.1TB,並且還會繼續增加。資料集僅提供了 json 格式的元資料檔案,它包含每篇論文的相關條目,具體如下:

id:arXiv ID,可用於訪問論文;

submitter:論文提交者;

authors:論文作者;

title:論文標題;

comments:論文頁數和圖表等其他資訊;

journal-ref:論文發表的期刊;

doi:數字物件識別符號;

abstract:論文摘要;

categories:論文在 arXiv 系統的所屬類別或標籤;

versions:論文版本。

此外,使用者可以透過以下兩個連結直接在 arXiv 上訪問每篇論文:

https://arxiv.org/abs/{id}:包含摘要和進一步連結的論文頁面;

https://arxiv.org/pdf/{id}:論文 PDF 下載頁面。

批次訪問

使用者可以在谷歌雲端儲存(Google Cloud Storage, GCS)bucket gs://arxiv-dataset 上免費獲取全部 PDF 論文,或透過谷歌 API json documentation 和 xml documentation 也可以獲取。

PDF 論文被分組到 tarpdfs 資料夾的幾個. tar.gz 檔案中,具體如下所示:

tarpdfs/arXivpdf1001001.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001001.tar.gz)tarpdfs/arXivpdf1001002.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001002.tar.gz)tarpdfs/arXivpdf1001003.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001003.tar.gz)Which are chunks 1, 2 and 3 for month 1001 (2010-01).

此外,使用者可以使用 gsutil 工具將資料下載到本地計算機中。

arXiv 將 170 多萬篇論文打包放在 Kaggle 上,更方便了使用者獲取和下載論文。有網友表示:「此舉棒極了!」

與此同時,也有人提出要重視「同行評審」的參與。

對此,你怎麼看呢?

參考連結:

https://blogs.cornell.edu/arxiv/2020/08/05/leveraging-machine-learning-to-fuel-new-discoveries-with-the-arxiv-dataset/

https://www.kaggle.com/Cornell-University/arxiv

【來源:機器之心Pro】

宣告:轉載此文是出於傳遞更多資訊之目的。若有來源標註錯誤或侵犯了您的合法權益,請作者持權屬證明與本網聯絡,我們將及時更正、刪除,謝謝。 郵箱地址:[email protected]

版權宣告:本文源自 網路, 於,由 楠木軒 整理釋出,共 2338 字。

轉載請註明: 170多萬篇論文,儲存量達1.1 TB,Kaggle上線arXiv完整資料集 - 楠木軒