格式機器可讀、Kaggle 上免費使用,arXiv 釋出整合170萬篇論文資料庫

格式機器可讀、Kaggle 上免費使用,arXiv 釋出整合170萬篇論文資料庫

茫茫滄海尋一粟——想必這是許多學者在使用arXiv網站搜尋論文時的痛苦心聲。
不過現在arXiv給大家帶來了一個好訊息:他們將 170萬篇arXiv論文整合為一個格式機器可讀的資料庫,並將該資料庫託管到了Kaggle上供使用者免費使用。資料庫包括論文標題、作者、類別、摘要、全文pdf等論文相關資訊。

       

格式機器可讀、Kaggle 上免費使用,arXiv 釋出整合170萬篇論文資料庫

arXiv 論文資料庫Kaggle地址:https://www.kaggle.com/Cornell-University/arxiv

1


arXiv:從一個論文儲存庫轉變為一個知識共享平臺
近30年來,arXiv網站為公眾和研究人員提供了獲取學術論文的可靠途徑。論文型別多樣,從物理學到計算機科學、再到介於兩者之間的各類學術內容,涵蓋數學、統計學、電氣工程、定量生物學和經濟學等熱門學科。無論是鑽研單一領域的學生、尋求跨學科研究的教授還是服務公共事業的社會研究者,都能在arXiv上搜集到有利的資訊。
然而,arXiv網站所收錄的論文數量十分龐大,為使用者的閱讀帶來明顯的壓力。另一方面,arXiv 本身也由於過分依賴 LaTex 而出現一系列缺陷,包括:1)使用 LaTeX 進行排版的方式侷限於單個社群,其介面、語言、使用方式對不會程式設計或者只用過 WYSIWYG 編輯器的人來說比較陌生;2)網站上的論文一直以pdf格式交換、閱讀,但大多數pdf文件不支援線上編輯,以致許多論文無論在網頁上閱讀、討論與共享;3)論文所承載的資訊可發現率低;4)arXiv的論文與資料獨立存在,論文資料無法共享。雷鋒網
其中第三點缺陷所造成的不利影響,正如arXiv 科技總監Steinn Sigurdsson所指出的,由於資料集的龐大,讀者很可能會忽略一些重要的發現、關聯知識、創新工具或視角。這些被忽略的資訊也許能幫助研究人員產生一些關於原有研究主題與跨學科領域的新的見解,有更多新發現與創造力。雷鋒網
而 Kaggle 作為資料科學家和機器學習工程師蒐集資料集、閱讀公開筆記和進行競賽的平臺,可以讓研究人員利用該平臺上豐富的資料探索工具,輕鬆地與他人共享相關論文文字和輸出。雷鋒網
arXiv的執行董事 Presani 指出,將arXiv 論文資料庫託管到Kaggle上供使用者自由訪問,將放大這些論文字身的價值,因為這不僅僅給讀者提供了一個透過閱讀論文學習的平臺,更是讓論文字身承載的資料和資訊以機器可讀的方式在研究者之間共享、傳播和交流。
他進一步表示,arXiv 要想從一個論文儲存庫轉變為一個知識共享平臺,就要求他們不斷創新展示知識與解釋知識的方式。而Kaggle的使用者可以幫助突破創新的侷限性,為科研界相互協作提出一種新途徑。

2


arXiv 釋出 Kaggle 論文資料庫的初衷
arXiv 方面表示,此舉的初衷是希望能推動新用例的產生,幫助研究人員探索更多結合面向應用的多模態特徵的機器學習技術,包括趨勢分析法、論文推薦引擎、類別預測、同被引網路、知識圖譜構建和語義搜尋介面等。
Google 的COVID-19 Research Explorer就是這樣一個基於特定語料庫進行語義搜尋的用例。這個工具可幫助研究人員精讀擁有190,000+篇關於COVID-19的研究論文的資料庫——COVID-19資料集。基於此類資料集的介面使用了先進的自然語言理解(NLU)技術來了解使用者查詢的目的。這個資料集能為複雜的科學問題提供更多相關資料和證據,大大提高了研究效率。
而他們釋出這個機器可讀的arXiv資料集,就是希望其能推動該領域的研究者開發出能夠處理此類新的語料庫的相似的自然語言理解工具。

版權宣告:本文源自 網路, 於,由 楠木軒 整理釋出,共 1491 字。

轉載請註明: 格式機器可讀、Kaggle 上免費使用,arXiv 釋出整合170萬篇論文資料庫 - 楠木軒