全文共1589字,預計學習時長10分鐘
圖源:unsplash
有人説,數據會取代石油的地位,成為未來最珍稀的資源之一。無論這個命題是否成立,毫無疑問,數據或信息(任意形式)已然成為21世紀最寶貴的無形資產之一。
數據極其強大,用途頗廣:可以預測銷售的未來趨勢以獲利,可以在醫療保健行業中用於診斷早期結核病,從而挽救患者的生命……而數據科學家要做的是,如何從各種資源中提取有價值的數據。
步驟1:導入相關庫
步驟2:發出Web請求並使用BeautifulSoup進行解析 先要查看特定新聞類別的源代碼。進入網頁後將看到不同種類的新聞,關注某一特定的新聞,使用Beautiful Soup提取源代碼。在右側可以看到新聞文章及相應的源代碼。 圖源:unsplash 使用請求庫,並在URL上使用.get()從網頁訪問HTML腳本。然後,使用beautiful soup庫在python中解析此HTML語言。根據要提取的信息類型,可以使用.find()函數從不同的html標籤(例如 完成上述步驟並解析HTML語言後,此特定新聞的部分解析如下所示: 我們看到該文章的標題位於- 同樣,如果要訪問新聞內容,則將該新聞設置為 以類似的方式,我們可以提取圖像、作者姓名、時間等任何信息。 步驟3:建立資料集 接下來,我們對3種新聞類別實施此操作,然後將所有文章相應的內容和類別存儲在數據框中。筆者將使用三個不同的Urls,對每個URL實施相同的步驟,並將所有文章及其內容設置類別存儲為列表形式。 輸出為: 你可以看到,使用beautiful soup 庫在python中抓取網頁信息是多麼容易,你可以輕鬆地為任何數據科學項目收集有用數據。從此之後自備“慧眼”,在網頁中飛速提取有價值的信息。 版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 1125 字。 轉載請註明: 借我一雙慧眼吧!網頁中抓取關鍵數據只要三分鐘 - 楠木軒import requests
dummy_url="https://inshorts.com/en/read/badminton" data_dummy=requests.get(dummy_url)
news1=soup.find_all('div',class_=["news-card-title news-right-box"])[0]
news1=soup.find_all('div',class_=["news-card-contentnews-right-box"])[0]
urls=["https://inshorts.com/en/read/cricket","https://inshorts.com/en/read/tennis",