借我一雙慧眼吧！網頁中抓取關鍵資料只要三分鐘

2020-06-07 由士振文釋出於科技

全文共1589字，預計學習時長10分鐘

圖源：unsplash

有人說，資料會取代石油的地位，成為未來最珍稀的資源之一。無論這個命題是否成立，毫無疑問，資料或資訊（任意形式）已然成為21世紀最寶貴的無形資產之一。

資料極其強大，用途頗廣：可以預測銷售的未來趨勢以獲利，可以在醫療保健行業中用於診斷早期結核病，從而挽救患者的生命……而資料科學家要做的是，如何從各種資源中提取有價值的資料。

步驟1：匯入相關庫

import requests

步驟2：發出Web請求並使用BeautifulSoup進行解析

先要檢視特定新聞類別的原始碼。進入網頁後將看到不同種類的新聞，關注某一特定的新聞，使用Beautiful Soup提取原始碼。在右側可以看到新聞文章及相應的原始碼。

圖源：unsplash

使用請求庫，並在URL上使用.get（）從網頁訪問HTML指令碼。然後，使用beautiful soup庫在python中解析此HTML語言。根據要提取的資訊型別，可以使用.find（）函式從不同的html標籤（例如

，）中過濾該資訊。
dummy_url="https://inshorts.com/en/read/badminton" data_dummy=requests.get(dummy_url)
完成上述步驟並解析HTML語言後，此特定新聞的部分解析如下所示：
我們看到該文章的標題位於-
類別下，進一步可以看到標題位於標記中，並且屬性為“ itemprop”和“ headline”，可以使用.find（）函式進行訪問。
news1=soup.find_all('div',class_=["news-card-title news-right-box"])[0]
同樣，如果要訪問新聞內容，則將該新聞設定為
news1=soup.find_all('div',class_=["news-card-contentnews-right-box"])[0]
以類似的方式，我們可以提取影象、作者姓名、時間等任何資訊。
步驟3：建立資料集
接下來，我們對3種新聞類別實施此操作，然後將所有文章相應的內容和類別儲存在資料框中。筆者將使用三個不同的Urls，對每個URL實施相同的步驟，並將所有文章及其內容設定類別儲存為列表形式。
urls=["https://inshorts.com/en/read/cricket","https://inshorts.com/en/read/tennis",
輸出為：
你可以看到，使用beautiful soup 庫在python中抓取網頁資訊是多麼容易，你可以輕鬆地為任何資料科學專案收集有用資料。從此之後自備“慧眼”，在網頁中飛速提取有價值的資訊。
標籤: 關鍵資料抓取原始碼價值
版權宣告：本文源自 網路， 於，由 楠木軒 整理釋出，共 1125 字。
轉載請註明： 借我一雙慧眼吧！網頁中抓取關鍵資料只要三分鐘 - 楠木軒

`相關文章`

`小時候不敢吃的“野草莓”，殊不知價值營養高，現在被當成寶！`

釋出於: 健康2020-06-25標籤: 野草莓營養高草莓價值

很高興在這裡看到大家的身影，養生大家並不陌生，但如何養生，如何使我們的身體達到平衡點，這其中的方法最為關鍵。在人的一生中，最值得珍惜的東西是什麼?不同的人不有同的答案，有的人說是快樂，有的人說是金錢，

`當年無償捐出價值8億“金絲楠木祖屋”給國家的老人，如今怎樣`

釋出於: 休閒2020-06-24標籤: 祖屋金絲楠木價值

世界上有一種被稱為“皇帝木”的木材，它是中國特有的珍貴木材，當年乾隆為了得到它，竟然不惜跑去當“盜墓賊”，把明皇陵的木頭拆了給自己修陵墓，堂堂皇帝竟然為了木頭幹出這種事，可見“皇帝木”到底多珍貴。它叫

`一句話傷人心腸，一句話精闢走心，總有一句能打動你的心`

釋出於: 綜合2020-06-23標籤: 一句話走心在你身邊價值

遇到一個很愛你的人，或許你會體驗到快樂；遇到一個傷害你的人，或許你會體驗到痛苦。但這些最終都只是經驗而已。關鍵是，這些經驗能使我們更瞭解自己。其實，沒有過不去的坎，沒有無法彌補的傷。走遠了，只會讓人望

`農村這種野草，很多人不以為然，卻不知它竟有著極大的價值`

釋出於: 健康2020-06-22標籤: 著極大種野草不知價值

`農田裡一種常見的植物，是一種野菜價值很珍貴，你認識嗎？`

釋出於: 健康2020-06-22標籤: 種常見農田裡價值農田

今天小編就給大家介紹一種農村的野菜，作為一種優質野菜，它非常的珍貴，同時卻很常見，容易被忽視。這種野菜有著非常豔麗的外表，它就是刺兒菜，為多年生草本，其最顯著的特徵就是頭頂有這粉紅色的花朵，它的適應性

`農村有一種價值很高的雜草，但很少人認識它，你知道是什麼嗎？`

釋出於: 健康2020-06-22標籤: 你知道價值很高雜草價值

現在的城市人吃習慣了山珍海味，而且生活好了，自然生活質量也上去了，人們更加追求吃的健康，所以很多城市人對農村的野菜有種不一樣的喜愛，而且野菜的營養價值也很高，受到了很多人的追捧。今天給

`低估值策略是否失效且看基金大咖分解`

釋出於: 財經2020-06-22標籤: 低估值策略大咖基金價值

從2018年底至今，A股市場低估值策略失效，低估值組合收益率顯著跑輸大盤。結構性行情愈演愈烈，成就了一場少數股票的牛市，部分股票股價迭創新高。低估值策略的堅守者正經歷著較為痛苦的階段，面臨來自公司內

`烤星DeFi 課堂丨如何理解 DeFi 專案中的治理代幣？`

釋出於: 財經2020-06-22標籤: 代幣課堂價值高薪

王也開啟 DeFi 世界之門，從小白到 DeFi 大神的進階必修課。由 Conflux × Odaily星球日報聯合出品，星球日報資深記者@王也擔任主筆。烤星 · DeFi 課堂 -----

`價值上百萬的坦克戰機，為啥連個空調都沒有？大多數人都想錯了`

釋出於: 綜合2020-06-21標籤: 坦克戰想錯燃氣輪機價值

如今隨著各國武器裝備的發展，不僅要求了武器裝備具有強大的火力和綜合性能，而且還得需要良好的舒適性，以使得駕駛員有更好的精神狀態去戰鬥。不過有很多人會問了，為什麼很多動輒成百上千萬的坦克或者飛機連個空調

`農村農田這種野草，如今價值15一斤，我去年種3畝地，賺了36000`

釋出於: 綜合2020-06-21標籤: 種野草農田價值三農

農村農田這種野草，如今價值15一斤，我去年種3畝地，賺了36000。馬蜂菜比較喜歡長在農田中，特別西瓜地裡比較多，因為西瓜對除草劑非常敏感，農民一般情況下很少使用除草藥物，它性質與多肉植物差不多，圓柱

`它被稱為“惡樹”的果實，富含多種微量元素，價值極高卻少人知道`

釋出於: 美食2020-06-21標籤: 價值極高惡樹微量元素價值

水果含維生素，鈣，鐵，鋅等多種微量元素，可以補充我們身體所需的營養。如今生活好了，可以選擇的水果越來越豐富，水果是再普通不過的食物，而在以前，水果對鄉下小孩來說卻是稀罕東西，山上的各種野果成為美味零食

`農村的這種竹子別砍掉，一株價值高達上萬元`

釋出於: 綜合2020-06-21標籤: 砍掉竹子龜甲竹價值

通常我們在竹林裡，仔細發現的話是可以看到一種形狀長得比較奇特的竹子，其實這是毛竹基因的一種變異，所以長相也是比較奇怪的，因此被當地的農民稱作“變態竹”或者“風癱竹”，名字聽起來倒也十分奇葩是吧！不單單

`孩子們的創造力很有價值。母親培養孩子創造力有兩種方法`

釋出於: 經典2020-06-20標籤: 孩子創造力孩子們好奇心價值

在培養孩子的創造力上，媽媽們可以從以下幾方面入手：1.呵護、激發孩子的好奇心面對新鮮、未知的事物，人們都有去了解和探索的慾望。孩子對世界的認識是從好奇心開始的，強烈的好奇心會增強他們的對知識的渴望。而

`錢有價值所以值錢，人沒人品所以也會變得不值錢，早安`

釋出於: 綜合2020-06-20標籤: 也會變得人沒價值值錢

每日一簽2020.06.20 閏四月廿九•週六絕不要放棄，如果飛不起來，那就跑；跑不動，那就走；走不了，那就爬。無論怎樣，都要繼續前行。1.早安問候語早上好，今天是2020年06月20日}，星期六，閏

`這種野果又酸又苦，維生素含量比獼猴桃還高，營養豐富，價值高`

釋出於: 健康2020-06-20標籤: 營養豐富種野果食用價值價值

這種野果又酸又苦，維生素含量比獼猴桃還高，營養豐富，價值高在農村有許多各種各樣的野生植物，這些野生植物大多都是具有很好的藥性，或者食用價值。比如隨處可見的野草，有些是可以當成野菜來吃的，不僅十分美味，