教育行業(yè)A股IPO第一股(股票代碼 003032)

全國(guó)咨詢/投訴熱線:400-618-4000

PHP開(kāi)發(fā)爬蟲(chóng)

更新時(shí)間:2019年01月18日13時(shí)48分 來(lái)源:傳智播客 瀏覽次數(shù):

爬蟲(chóng)是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。

我們平常使用搜索引擎瀏覽網(wǎng)頁(yè),有很多和預(yù)期的信息不匹配的結(jié)果;并且信息量巨大,有了結(jié)果以后還需要花費(fèi)很大的精力進(jìn)行篩選信息。爬蟲(chóng)應(yīng)運(yùn)誕生,我們可以寫一段腳本或程序,讓他根據(jù)我們的需求按照設(shè)定的規(guī)則進(jìn)行抓取網(wǎng)頁(yè)信息,并篩選出我們需要的結(jié)果。

首先,在PHP中可以獲取萬(wàn)維網(wǎng)頁(yè)面的函數(shù)有很多,例如:file_get_contents()或者curl擴(kuò)展,再或者還有獲取緩沖的ob_get_contents()等,最實(shí)用也是最常用的就是file_get_contents()了。例:

所以,我們可以利用file_get_contents()來(lái)進(jìn)行爬蟲(chóng)的開(kāi)發(fā)。

步驟:

1. 分析url規(guī)則

2. 根據(jù)規(guī)則進(jìn)行循環(huán)爬取內(nèi)容

3. 根據(jù)需求進(jìn)行正則匹配需要的內(nèi)容(可以根據(jù)實(shí)際要求進(jìn)行)

4. 整合結(jié)果(寫入文件)

代碼:

結(jié)果:

打開(kāi)其中前兩頁(yè)的效果:

0 分享到:
和我們?cè)诰€交談!