国内自拍偷拍-国内自拍网-国内自拍网站-国内自拍小视频-亚洲高清中文字幕-亚洲高清中文字幕一区二区三区

好120健康網-中國醫療健康行業服務平臺! VIP快審
首頁 新聞資訊 科技網絡

帶你玩轉robots協議 robots協議怎么寫 新手必備

時間:2017-05-21 15:28 來源:未知 作者:好120健康網 人氣:
【導讀】:2013年2月8日北京市第一中級人民法院正式受理了百度訴奇虎360違反Robots協議抓...

    2013年2月8日北京市第一中級人民法院正式受理了百度訴奇虎360違反“Robots協議”抓取、復制其網站內容的不正當競爭行為一案,索賠金額高達一億元,這可以看做2012年下半年“3B大戰”的繼續。在此次索賠案件中,百度稱自己的Robots文本中已設定不允許360爬蟲進入,而360的爬蟲依然對“百度知道”、“百度百科”等百度網站內容進行抓取。

    其 實早在2012年11月初,針對雙方摩擦加劇的情況,在中國互聯網協會的牽頭下,包括百度、新浪、奇虎360在內的12家互聯網公司已共同簽署了《互聯網 搜索引擎服務自律公約》,在公約第七條承諾“遵循國際通行的行業慣例與商業規則,遵守機器人協議(robots協議)。

    今天就找個機會聊聊一夜成名的robots協議。

    初識robots協議

    什么是robots

    要 了解robots協議首先要了解robots,本文說的robots不是《I,robot》里的威爾·史密斯,不是《機器人總動員》里的瓦力和伊娃,不是 《終結者》系列中的施瓦辛格。什么?這些經典電影你都不知道?好吧,算我想多了。本文的robots特指搜索引擎領域的web robots,這個名字可能很多人不熟悉,但是提到Web Wanderers,Crawlers和Spiders很多人可能就恍然大悟了,在中文里我們統稱為爬蟲或者網絡爬蟲,也就是搜索引擎抓取互聯網網頁的程序。

    同學們都知道網頁是通過超級鏈接互相關聯起來的,從而形成了網頁的網狀結構。爬蟲的工作方式就像蜘蛛在網上沿著鏈接爬來爬去,最基本的流程可以簡化如下:

    1.喂給爬蟲一堆url,我們稱之為種子(seeds)2.爬蟲抓取seeds,解析html網頁,抽取其中的超級鏈接3.爬蟲接著抓取這些新發現的鏈接指向的網頁

    2,3循環往復

    什么是robots協議

    了解了上面的流程就能看到對爬蟲來說網站非常被動,只有老老實實被抓取的份。存在這樣的需求:

    1.某些路徑下是個人隱私或者網站管理使用,不想被搜索引擎抓取,比如說日本愛情動作片2.不喜歡某個搜索引擎,不愿意被他抓取,最有名的就是之前淘寶不希望被百度抓取3.小網站使用的是公用的虛擬主機,流量有限或者需要付費,希望搜索引擎抓的溫柔點4.某些網頁是動態生成的,沒有直接的鏈接指向,但是希望內容被搜索引擎抓取和索引網 站內容的所有者是網站管理員,搜索引擎應該尊重所有者的意愿,為了滿足以上等等,就需要提供一種網站和爬蟲進行溝通的途徑,給網站管理員表達自己意愿的機 會。有需求就有供應,robots協議就此誕生。Robots協議,學名叫:The Robots Exclusion Protocol,就搜索引擎抓取網站內容的范圍作了約定,包括網站是否希望被搜索引擎抓取,哪些內容不允許被抓取,把這些內容放到一個純文本文件 robots.txt里,然后放到站點的根目錄下。爬蟲抓取網站內容前會先抓取robots.txt,據此“自覺地”抓取或者不抓取該網頁內容,其目的是 保護網站數據和敏感信息、確保用戶個人信息和隱私不被侵犯。

    需要注意的是robots協議并非是規范,只是行業內一個約定俗成的協議。什么意思呢?Robots協議不是什么技術壁壘,而只是一種互相尊重的協議,好比私家花園的門口掛著“閑人免進”,尊重者繞道而行,不尊重者依然可以推門而入,比如說360。

    說了這么多,看幾個有名的例子感覺一下先:

    例子1:淘寶

    User-agent: Baiduspider

    Disallow: /

    User-agent: baiduspider

    Disallow: /

    程序猿,你懂的。這不就是淘寶不想讓百度抓取嘛例子2:京東

    User-agent: *

    Disallow: /?*

    Disallow: /pop/*.html

    User-agent: EtaoSpider

    Disallow: /

    這個也不復雜,京東有2個目錄不希望所有搜索引擎來抓。同時,對etao完全屏蔽。

    基本玩法

    robots.txt的位置

    說簡單也簡單,robots.txt放到一個站點的根目錄下即可。說復雜也有點小復雜,一個robots.txt只能控制相同協議,相同端口,相同站點的網頁抓取策略。什么意思呢?看個例子最清楚:

    百度網頁搜索

    百度知道

    這兩個robots.txt的內容是不同的,也就是說百度網頁搜索和百度知道的抓取策略可以由自己獨立的robots.txt來控制,井水不犯河水。

    robots.txt的內容

文章標簽:
    robots協議怎么寫,百度robots協議,360 robots協議,robots.txt協
相關推薦

版權聲明:

1、本文系會員投稿或轉載自網絡,版權歸原作者所有,旨在傳遞信息,不代表看本站的觀點和立場;

2、本站僅提供信息發布平臺,不承擔相關法律責任;

3、若侵犯您的版權或隱私,請聯系本站管理員刪除。

好120健康網 www.m-car.com.cn 皖ICP備19001157號-13
主站蜘蛛池模板: 夜夜欢视频 | 2021国产精品自在拍在线播放 | 美女好紧好大好爽12p | 免费福利影院 | 一级女人毛片人一女人 | 日韩成a人片在线观看日本 日韩成人黄色 | 都市激情亚洲 | 亚洲四虎 | 欧美成人观看免费全部完小说 | 精品videosex性欧美 | 91精品日本久久久久久牛牛 | 在线成人免费观看国产精品 | 欧美一级免费看 | 夜夜操美女 | 亚洲免费成人在线 | 国产盗摄女子私密保健视频 | h小视频在线| 欧美成人精品一区二三区在线观看 | 久久婷婷五综合一区二区 | www伊人| 欧美性猛交aa一级 | 色天使在线观看 | 人人爱人人艹 | 啪啪调教所29下拉式免费阅读 | 高h肉肉视频在线播放观看 高黄视频 | 日本黄色三级视频 | 天堂视频网 | 狼人 成人 综合 亚洲 | 欧美一级特黄乱妇高清视频 | 给我免费播放片黄色 | 成人免费看片视频色多多 | 深爱婷婷 | 日本综合在线 | 日本a在线看| 久久天天躁狠狠躁夜夜2020一 | 五月婷婷激情五月 | 亚洲va久久久久综合 | 国产一级特黄生活片 | 亚洲特黄大黄一级毛片 | 色多多免费视频 | 色综合成人 |