Python爬蟲理解：累計式爬蟲和增量式爬蟲

更新時間:2023年07月10日14時44分來源:傳智教育瀏覽次數(shù):

1.累積式爬蟲

累積式爬蟲是指從某一個時間點開始，通過遍歷的方式爬取系統(tǒng)所允許存儲和處理的所有網(wǎng)頁。在理想的軟硬件環(huán)境下，經(jīng)過足夠的運行時間，采用累積式爬取的策略可以保證爬取到相當(dāng)規(guī)模的網(wǎng)頁集合。但由于We小數(shù)據(jù)的動態(tài)特性，集合中網(wǎng)頁的被爬取時間點是不同的，頁面被更新的情況也不同，因此累積式爬取到的網(wǎng)頁集合事實上并無法與真實環(huán)境中的網(wǎng)絡(luò)數(shù)據(jù)保持一致。

2.增量式爬蟲

增量式爬蟲是指在具有一定量規(guī)模的網(wǎng)絡(luò)頁面集合的基礎(chǔ)上，采用更新數(shù)據(jù)的方式選取已有集合中的過時網(wǎng)頁進行爬取，以保證所爬取到的數(shù)據(jù)與真實網(wǎng)絡(luò)數(shù)據(jù)足夠接近。進行增量式爬取的前提是，系統(tǒng)已經(jīng)爬取了足夠數(shù)量的網(wǎng)絡(luò)頁面，并具有這些頁面被爬取的時間信息。

與周期性爬行和刷新頁面的網(wǎng)絡(luò)爬蟲相比，增量式爬蟲只會在需要時爬行新產(chǎn)生或發(fā)生更新的頁面，并不重新下載沒有發(fā)生變化的頁面，可有效減少數(shù)據(jù)下載量，及時更新已爬行的網(wǎng)頁，減小時間和空間上的耗費，但是增加了爬行算法的復(fù)雜度和實現(xiàn)難度。

面向?qū)嶋H應(yīng)用環(huán)境的網(wǎng)絡(luò)蜘蛛設(shè)計中，通常既包括累積式爬取，也包括增量式爬取。累積式爬取一般用于數(shù)據(jù)集合的整體建立或大規(guī)模更新階段;而增量式爬取則主要針對數(shù)據(jù)集合的日常維護與即時更新。

上一篇：假如Namenode中沒有數(shù)據(jù)會怎么樣? 下一篇：Python怎樣導(dǎo)入和安裝第三方模塊？