教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

Scrapy框架的工作原理和工作流程

更新時間:2020年12月11日17時02分 來源:傳智教育 瀏覽次數:

好口碑IT培訓

Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架,我們只需要實現少量代碼,就能夠快速的抓取到數據內容。Scrapy使用了Twisted異步網絡框架來處理網絡通訊,可以加快我們的下載速度,不用自己去實現異步框架,并且包含了各種中間件接口,可以靈活的完成各種需求。

Scrapy框架的工作流程

1.首先Spiders(爬蟲)將需要發(fā)送請求的url(requests)經ScrapyEngine(引擎)交給Scheduler(調度器)。

2.Scheduler(排序,入隊)處理后,經ScrapyEngine,DownloaderMiddlewares(可選,主要有User_Agent, Proxy代理)交給Downloader。

3.Downloader向互聯(lián)網發(fā)送請求,并接收下載響應(response)。將響應(response)經ScrapyEngine,SpiderMiddlewares(可選)交給Spiders。

4.Spiders處理response,提取數據并將數據經ScrapyEngine交給ItemPipeline 保存(可以是本地,可以是數據庫)。提取url重新經ScrapyEngine交給Scheduler進行下一個循環(huán)。直到無Url請求程序停止結束。獲取【Python爬蟲視頻教程+筆記+源碼】加播妞1605146928606_課程資料.jpg:435946716。


猜你喜歡:

Python爬蟲入門教程

常用的反反爬蟲應對策略

Python中爬蟲框架或模塊的區(qū)別

Python+數據分析培訓課程

0 分享到:
和我們在線交談!