教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

Python爬蟲理解:累計式爬蟲和增量式爬蟲

更新時間:2023年07月10日14時44分 來源:傳智教育 瀏覽次數(shù):

好口碑IT培訓(xùn)

1.累積式爬蟲

累積式爬蟲是指從某一個時間點開始,通過遍歷的方式爬取系統(tǒng)所允許存儲和處理的所有網(wǎng)頁。在理想的軟硬件環(huán)境下,經(jīng)過足夠的運行時間,采用累積式爬取的策略可以保證爬取到相當(dāng)規(guī)模的網(wǎng)頁集合。但由于We小數(shù)據(jù)的動態(tài)特性,集合中網(wǎng)頁的被爬取時間點是不同的,頁面被更新的情況也不同,因此累積式爬取到的網(wǎng)頁集合事實上并無法與真實環(huán)境中的網(wǎng)絡(luò)數(shù)據(jù)保持一致。

2.增量式爬蟲

增量式爬蟲是指在具有一定量規(guī)模的網(wǎng)絡(luò)頁面集合的基礎(chǔ)上,采用更新數(shù)據(jù)的方式選取已有集合中的過時網(wǎng)頁進(jìn)行爬取,以保證所爬取到的數(shù)據(jù)與真實網(wǎng)絡(luò)數(shù)據(jù)足夠接近。進(jìn)行增量式爬取的前提是,系統(tǒng)已經(jīng)爬取了足夠數(shù)量的網(wǎng)絡(luò)頁面,并具有這些頁面被爬取的時間信息。

與周期性爬行和刷新頁面的網(wǎng)絡(luò)爬蟲相比,增量式爬蟲只會在需要時爬行新產(chǎn)生或發(fā)生更新的頁面,并不重新下載沒有發(fā)生變化的頁面,可有效減少數(shù)據(jù)下載量,及時更新已爬行的網(wǎng)頁,減小時間和空間上的耗費,但是增加了爬行算法的復(fù)雜度和實現(xiàn)難度。

面向?qū)嶋H應(yīng)用環(huán)境的網(wǎng)絡(luò)蜘蛛設(shè)計中,通常既包括累積式爬取,也包括增量式爬取。累積式爬取一般用于數(shù)據(jù)集合的整體建立或大規(guī)模更新階段;而增量式爬取則主要針對數(shù)據(jù)集合的日常維護(hù)與即時更新。

0 分享到:
和我們在線交談!