借我一雙慧眼吧!網頁中抓取關鍵資料只要三分鐘

全文共1589字,預計學習時長10分鐘

圖源:unsplash

有人說,資料會取代石油的地位,成為未來最珍稀的資源之一。無論這個命題是否成立,毫無疑問,資料或資訊(任意形式)已然成為21世紀最寶貴的無形資產之一。

資料極其強大,用途頗廣:可以預測銷售的未來趨勢以獲利,可以在醫療保健行業中用於診斷早期結核病,從而挽救患者的生命……而資料科學家要做的是,如何從各種資源中提取有價值的資料。

步驟1:匯入相關庫

import requests

步驟2:發出Web請求並使用BeautifulSoup進行解析

先要檢視特定新聞類別的原始碼。進入網頁後將看到不同種類的新聞,關注某一特定的新聞,使用Beautiful Soup提取原始碼。在右側可以看到新聞文章及相應的原始碼。

圖源:unsplash

使用請求庫,並在URL上使用.get()從網頁訪問HTML指令碼。然後,使用beautiful soup庫在python中解析此HTML語言。根據要提取的資訊型別,可以使用.find()函式從不同的html標籤(例如

)中過濾該資訊。

dummy_url="https://inshorts.com/en/read/badminton" data_dummy=requests.get(dummy_url)

完成上述步驟並解析HTML語言後,此特定新聞的部分解析如下所示:

我們看到該文章的標題位於-

類別下,進一步可以看到標題位於標記中,並且屬性為“ itemprop”和“ headline”,可以使用.find()函式進行訪問。

news1=soup.find_all('div',class_=["news-card-title news-right-box"])[0]

同樣,如果要訪問新聞內容,則將該新聞設定為

news1=soup.find_all('div',class_=["news-card-contentnews-right-box"])[0]

以類似的方式,我們可以提取影象、作者姓名、時間等任何資訊。

步驟3:建立資料集

接下來,我們對3種新聞類別實施此操作,然後將所有文章相應的內容和類別儲存在資料框中。筆者將使用三個不同的Urls,對每個URL實施相同的步驟,並將所有文章及其內容設定類別儲存為列表形式。

urls=["https://inshorts.com/en/read/cricket","https://inshorts.com/en/read/tennis",

輸出為:

你可以看到,使用beautiful soup 庫在python中抓取網頁資訊是多麼容易,你可以輕鬆地為任何資料科學專案收集有用資料。從此之後自備“慧眼”,在網頁中飛速提取有價值的資訊。

版權宣告:本文源自 網路, 於,由 楠木軒 整理釋出,共 1125 字。

轉載請註明: 借我一雙慧眼吧!網頁中抓取關鍵資料只要三分鐘 - 楠木軒