教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

urllib和requests哪個好用?

更新時間:2021年06月23日15時09分 來源:傳智教育 瀏覽次數(shù):

好口碑IT培訓(xùn)

requests是基于Python開發(fā)的HTTP庫,與urllib標準庫相比,它不僅使用方便,而且能節(jié)約大量的工作。實際上,requests是在urllib的基礎(chǔ)上進行了高度的封裝,它不僅繼承了urllib的所有特性,而且還支持一些其他的特性,例如,使用Cookie保持會話、自動確定響應(yīng)內(nèi)容的編碼等,可以輕而易舉地完成瀏覽器的任何操作。

requests庫中提供了如下常用的類:

(1) requests.Request:表示請求對象,用于將一個請求 發(fā)送到服務(wù)器。

(2) requests.Response:表示響應(yīng)對象,其中包含服務(wù)器對HTTP請求的響應(yīng)。

(3) requests.Session:表示請求會話,提供Cookie持久性、連接池和配置。

其中,Request 類的對象表示一個請求, 它的生命周期針對一個客戶端請求,一旦請求發(fā)送完畢,該請求包含的內(nèi)容就會被釋放掉。而Session類的對象可以跨越多個頁面,它的生命周期同樣針對的是一個客戶端。 當(dāng)關(guān)閉這個客戶端的瀏覽器時,只要是在預(yù)先設(shè)置的會話周期內(nèi)(一般是20~30 min),這個會話包含的內(nèi)容會一直存在,不會被馬上釋放掉。例如,用戶登永某個網(wǎng)站時,可以在多個IE窗口發(fā)出多個請求。


requests庫與urllib庫代碼對比

與urllib庫相比,requests庫更加深得人心,它不僅能夠重復(fù)地讀取返回的數(shù)據(jù),而且過能自動確定響應(yīng)內(nèi)容的編碼。為了能讓大家直觀地看到這些變化,下面分別使用urllib庫和requests庫爬取百度網(wǎng)站中“傳智教育”關(guān)鍵字的搜索結(jié)果網(wǎng)頁。

(1)使用urllib庫以GET請求的方式爬取網(wǎng)頁。具體代碼如下:

# 導(dǎo)入請求和解析模塊
import urllib.request
import urllib.parse

# 請求的URL路徑和查詢參數(shù)
url = "http://www.baidu.com/s"
word = {"wd": "傳智教育"}
# 轉(zhuǎn)換成url編碼格式(字符串)
word = urllib.parse.urlencode(word)
# 拼接完整的URL路徑
new_url = url + "?" + word
print(new_url)

# 請求報頭
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"}
# 根據(jù)URL和headers構(gòu)建請求
request = urllib.request.Request(new_url, headers=headers)
# 發(fā)送請求,并接收服務(wù)器返回的文件對象
response = urllib.request.urlopen(request)
# 使用read()方法讀取獲取到的網(wǎng)頁內(nèi)容,使用UTF-8格式進行解碼
html = response.read().decode("UTF-8")
print(html)


(2)使用requests庫以GET請求的方式爬取網(wǎng)頁。具體代碼如下:

# 導(dǎo)入requests庫
import requests
# 請求的URL路徑和查詢參數(shù)
url = "http://www.baidu.com/s"
param = {"wd": "傳智教育"}

# 請求報頭
headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.1 Safari/605.1.15"}
# 發(fā)送GET請求,返回一個響應(yīng)對象
response = requests.get(url, params=param, headers=headers)
# 查看響應(yīng)的內(nèi)容
print(response.text)

比較上述兩段代碼不難發(fā)現(xiàn),使用requests庫減少了發(fā)送請求的代碼量。下面再從細節(jié)上體會一下庫的便捷之處,具體如下:

(1)無須再轉(zhuǎn)換為URL路徑編碼格式拼接完整的URL路徑。

(2)無須再頻繁地為中文轉(zhuǎn)換編碼格式。

(3)從發(fā)送請求的函數(shù)名稱,可以很直觀地判斷發(fā)送到服務(wù)器的方式。

(4)urlopen()方法返回的是一個文件對象, 需要調(diào)用read()方法次性讀取;而get()函數(shù)返回的是一個響應(yīng)對象,可以訪問該對象的text屬性查看響應(yīng)的內(nèi)容。

這里雖然只初步介紹了requests庫的用法,但是也可以從中看出,整個程序的邏輯非常易于理解,更符合面向?qū)ο箝_發(fā)的思想,并且減少了代碼量,提高了開發(fā)效率,給開發(fā)人員帶來了便利。

猜你喜歡:

Python網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)有哪幾種方式?

用Python開發(fā)的爬蟲程序可以用來做什么?

爬蟲分類分析:網(wǎng)絡(luò)爬蟲有哪些分類?

傳智教育python+大數(shù)據(jù)培訓(xùn)課程

0 分享到:
和我們在線交談!