Robots協(xié)議是什么？Robots文件中選項的含義

更新時間:2022年08月25日10時38分來源:傳智教育瀏覽次數(shù):

Robots協(xié)議又稱爬蟲協(xié)議，它是國際互聯(lián)網(wǎng)界通行的道德規(guī)范，用于保護網(wǎng)站數(shù)據(jù)和敏感信息，確保網(wǎng)站用戶的個人信息和隱私不受侵犯。為了讓網(wǎng)絡爬蟲了解網(wǎng)站的訪問范圍，網(wǎng)站管理員通常會在網(wǎng)站的根目錄下放置一個符合Robots協(xié)議的robots.txt文件，通過這個文件告知網(wǎng)絡爬蟲在抓取該網(wǎng)站時存在哪些限制，哪些網(wǎng)頁是允許被抓取的，哪些網(wǎng)頁是禁止被抓取的。

當網(wǎng)絡爬蟲訪問網(wǎng)站時，應先檢查該網(wǎng)站的根目錄下是否存在robots.txt文件。若robots.txt文件不存在，則網(wǎng)絡爬蟲會訪問該網(wǎng)站上所有被口令保護的頁面;若robots.txt文件存在，則網(wǎng)絡爬蟲會按照該文件的內(nèi)容確定訪問網(wǎng)站的范圍。

robots.txt文件中的內(nèi)容有著一套通用的寫作規(guī)范。下面以豆瓣網(wǎng)站根目錄下的robots.txt文件為例，分析robots.txt文件的語法規(guī)則。

User-agent: *
Disallow: /subject_search
…
Disallow: /share/
Allow: /ads.txt
Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap:
https://www.douban.com/sitemap_updated_index.xml
# Crawl-delay: 5
User-agent: Wandoujia Spider
Disallow: /
User-agent: Mediapartners-Google

robots.txt文件選項說明

User-agent：用于指定網(wǎng)絡爬蟲的名稱。若該選項的值為“*”，則說明robots.txt文件對任何網(wǎng)絡爬蟲均有效。帶有“*”號的User-agent選項只能出現(xiàn)一次。例如，示例的第一條語句User-agent:*。

Disallow：用于指定網(wǎng)絡爬蟲禁止訪問的目錄。若Disallow選項的內(nèi)容為空，說明網(wǎng)站的任何內(nèi)容都是被允許訪問的。在robots.txt文件中，至少要有一個包含Disallow選項的語句。例如，Disallow:/subject_search禁止網(wǎng)絡爬蟲訪問目錄/subject_search。

注意：Robots協(xié)議只是一個網(wǎng)站與網(wǎng)絡爬蟲之間達成的“君子”協(xié)議，它并不是計算機中的防火墻，沒有實際的約束力。如果把網(wǎng)站比作私人花園，那么robots.txt文件便是私人花園門口的告示牌，這個告示牌上寫有是否可以進入花園，以及進入花園后應該遵守的規(guī)則，但告示牌并不是高高的圍欄，它只對遵守協(xié)議的“君子”有用，對于違背協(xié)議的人而言并沒有太大的作用。

盡管Robots協(xié)議沒有一定的強制約束力，但網(wǎng)絡爬蟲仍然要遵守協(xié)議，違背協(xié)議可能會存在一定的法律風險。

上一篇：為什么臟數(shù)據(jù)要提前進行數(shù)據(jù)預處理？ 下一篇：即學即用 2022新版Python入門教程