借我一雙慧眼吧!網頁中抓取關鍵數據只要三分鐘

全文共1589字,預計學習時長10分鐘

圖源:unsplash

有人説,數據會取代石油的地位,成為未來最珍稀的資源之一。無論這個命題是否成立,毫無疑問,數據或信息(任意形式)已然成為21世紀最寶貴的無形資產之一。

數據極其強大,用途頗廣:可以預測銷售的未來趨勢以獲利,可以在醫療保健行業中用於診斷早期結核病,從而挽救患者的生命……而數據科學家要做的是,如何從各種資源中提取有價值的數據。

步驟1:導入相關庫

import requests

步驟2:發出Web請求並使用BeautifulSoup進行解析

先要查看特定新聞類別的源代碼。進入網頁後將看到不同種類的新聞,關注某一特定的新聞,使用Beautiful Soup提取源代碼。在右側可以看到新聞文章及相應的源代碼。

圖源:unsplash

使用請求庫,並在URL上使用.get()從網頁訪問HTML腳本。然後,使用beautiful soup庫在python中解析此HTML語言。根據要提取的信息類型,可以使用.find()函數從不同的html標籤(例如

)中過濾該信息。

dummy_url="https://inshorts.com/en/read/badminton" data_dummy=requests.get(dummy_url)

完成上述步驟並解析HTML語言後,此特定新聞的部分解析如下所示:

我們看到該文章的標題位於-

類別下,進一步可以看到標題位於標記中,並且屬性為“ itemprop”和“ headline”,可以使用.find()函數進行訪問。

news1=soup.find_all('div',class_=["news-card-title news-right-box"])[0]

同樣,如果要訪問新聞內容,則將該新聞設置為

news1=soup.find_all('div',class_=["news-card-contentnews-right-box"])[0]

以類似的方式,我們可以提取圖像、作者姓名、時間等任何信息。

步驟3:建立資料集

接下來,我們對3種新聞類別實施此操作,然後將所有文章相應的內容和類別存儲在數據框中。筆者將使用三個不同的Urls,對每個URL實施相同的步驟,並將所有文章及其內容設置類別存儲為列表形式。

urls=["https://inshorts.com/en/read/cricket","https://inshorts.com/en/read/tennis",

輸出為:

你可以看到,使用beautiful soup 庫在python中抓取網頁信息是多麼容易,你可以輕鬆地為任何數據科學項目收集有用數據。從此之後自備“慧眼”,在網頁中飛速提取有價值的信息。

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 1125 字。

轉載請註明: 借我一雙慧眼吧!網頁中抓取關鍵數據只要三分鐘 - 楠木軒