教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

什么是通用網絡爬蟲?什么是聚焦網絡爬蟲?

更新時間:2023年05月11日09時38分 來源:傳智教育 瀏覽次數:

好口碑IT培訓

通用網絡爬蟲

  通用網絡爬蟲(General Purpose Web Crawler)又稱全網爬蟲(Scalable Web Crawler),是指訪問全互聯(lián)網資源的網絡爬蟲。通用網絡爬蟲是“互聯(lián)網時代”早期出現的傳統(tǒng)網絡爬蟲,它是搜索引擎(如百度、谷歌、雅虎等)抓取系統(tǒng)的重要組成部分,主要用于將互聯(lián)網中的網頁下載到本地,形成一個互聯(lián)網網頁的鏡像備份。進用網絡爬蟲的目標是全互聯(lián)網資源,數量巨大且范圍廣泛。

  這類網絡爬蟲對爬行速度和存儲空間的要求是非常高的,但是對抓取網頁的順序的要求相對較低。

聚焦網絡爬蟲

  聚焦網絡爬蟲(Focused Web Crawler)又稱主題網絡爬蟲(Topical Web Crawler),是指有選擇性地訪問那些與預定主題相關的網頁的網絡爬蟲。它根據預先定義好的目標,有選擇性地訪問與目標主題相關的網頁,獲取所需要的數據。

  與通用網絡爬蟲相比,聚焦網絡爬蟲只需要訪問與預定主題相關的網頁,這不僅減少了訪問和保存的頁面數量口而且提高了網頁的更新速度??梢姡劢咕W絡爬蟲在一定程度上節(jié)省了網絡資源,能滿足一些特定人群采集特定領域數據的需求。

0 分享到:
和我們在線交談!