更新時(shí)間:2023年07月10日14時(shí)44分 來(lái)源:傳智教育 瀏覽次數(shù):
1.累積式爬蟲(chóng)
累積式爬蟲(chóng)是指從某一個(gè)時(shí)間點(diǎn)開(kāi)始,通過(guò)遍歷的方式爬取系統(tǒng)所允許存儲(chǔ)和處理的所有網(wǎng)頁(yè)。在理想的軟硬件環(huán)境下,經(jīng)過(guò)足夠的運(yùn)行時(shí)間,采用累積式爬取的策略可以保證爬取到相當(dāng)規(guī)模的網(wǎng)頁(yè)集合。但由于We小數(shù)據(jù)的動(dòng)態(tài)特性,集合中網(wǎng)頁(yè)的被爬取時(shí)間點(diǎn)是不同的,頁(yè)面被更新的情況也不同,因此累積式爬取到的網(wǎng)頁(yè)集合事實(shí)上并無(wú)法與真實(shí)環(huán)境中的網(wǎng)絡(luò)數(shù)據(jù)保持一致。
2.增量式爬蟲(chóng)
增量式爬蟲(chóng)是指在具有一定量規(guī)模的網(wǎng)絡(luò)頁(yè)面集合的基礎(chǔ)上,采用更新數(shù)據(jù)的方式選取已有集合中的過(guò)時(shí)網(wǎng)頁(yè)進(jìn)行爬取,以保證所爬取到的數(shù)據(jù)與真實(shí)網(wǎng)絡(luò)數(shù)據(jù)足夠接近。進(jìn)行增量式爬取的前提是,系統(tǒng)已經(jīng)爬取了足夠數(shù)量的網(wǎng)絡(luò)頁(yè)面,并具有這些頁(yè)面被爬取的時(shí)間信息。
與周期性爬行和刷新頁(yè)面的網(wǎng)絡(luò)爬蟲(chóng)相比,增量式爬蟲(chóng)只會(huì)在需要時(shí)爬行新產(chǎn)生或發(fā)生更新的頁(yè)面,并不重新下載沒(méi)有發(fā)生變化的頁(yè)面,可有效減少數(shù)據(jù)下載量,及時(shí)更新已爬行的網(wǎng)頁(yè),減小時(shí)間和空間上的耗費(fèi),但是增加了爬行算法的復(fù)雜度和實(shí)現(xiàn)難度。
面向?qū)嶋H應(yīng)用環(huán)境的網(wǎng)絡(luò)蜘蛛設(shè)計(jì)中,通常既包括累積式爬取,也包括增量式爬取。累積式爬取一般用于數(shù)據(jù)集合的整體建立或大規(guī)模更新階段;而增量式爬取則主要針對(duì)數(shù)據(jù)集合的日常維護(hù)與即時(shí)更新。
北京校區(qū)