更新時間:2022年12月21日10時38分 來源:傳智教育 瀏覽次數(shù):
聚焦網(wǎng)絡爬蟲面向有特殊需求的人群,它會根據(jù)預先設定的主題順著某個垂直領(lǐng)域進行抓取,而不是漫無目的地隨意抓取。與通用網(wǎng)絡爬蟲相比,聚焦網(wǎng)絡爬蟲會根據(jù)一定的網(wǎng)頁分析算法對網(wǎng)頁進行篩選,保留與主題有關(guān)的網(wǎng)頁鏈接,舍棄與主題無關(guān)的網(wǎng)頁鏈接。其目的性更強。聚焦網(wǎng)絡爬蟲的工作原理如圖1所示。
關(guān)于圖1中各環(huán)節(jié)的介紹如下。
(1)根據(jù)需求確定聚焦網(wǎng)絡爬蟲的采集目標,以及進行相關(guān)的描述。
(2)獲取初始URL。
(3)根據(jù)初始URL抓取對應的網(wǎng)頁,并獲得新LRL。
(4)從新URL中過濾掉與采集目標無關(guān)的URL。因為聚焦網(wǎng)絡爬蟲對網(wǎng)頁的采集有著明確的目標,所以與目標無關(guān)的URL都會被過濾掉。
(5)將過濾后的URL放入URL隊列。
(6)根據(jù)一定的抓取策略,從URL隊列中確定URL優(yōu)先級,并確定下一步要抓取的URL。
圖1 聚焦網(wǎng)絡爬蟲的工作原理
(7)從下一步要抓取的URL中讀取新URL,以準備根據(jù)新URL抓取下一個網(wǎng)頁。
(8)若聚焦網(wǎng)絡爬蟲滿足設置的停止條件,或沒有可獲取的URL時,停止采集;若網(wǎng)絡爬蟲沒有滿足設置的停條件,則繼續(xù)根據(jù)新URL抓取對應的網(wǎng)頁,并重復步驟(3)~步驟(8)。
綜上所述,聚焦網(wǎng)絡爬蟲的工作原理較為復雜。除了做通用網(wǎng)絡爬蟲的任務之外,聚焦網(wǎng)絡爬蟲還需要多做3個任務,包括確定采集目標、過濾與采集目標無關(guān)的URL,以及確定下一步要抓取的URL。