統一資源(yuan)定位符 (Uniform Resource Locator, URL),是因(yin)特(te)網(wang)上可(ke)以訪問的(de)(de)文(wen)(wen)件的(de)(de)惟一的(de)(de)地址(zhi)。對(dui)于Intranet服務(wu)器(qi)或(huo)萬(wan)維(wei)網(wang)服務(wu)器(qi)上的(de)(de)目標文(wen)(wen)件,可(ke)以使用“統一資源(yuan)定位符 (URL)”地址(zhi)來(lai)確定它(ta)的(de)(de)位置。
301返(fan)回碼的(de)含義是“Moved Permanently”,百度(du)會認為網頁(ye)當前跳(tiao)轉至新(xin)url。當遇到站點(dian)遷移,域名(ming)更換、站點(dian)改(gai)(gai)版(ban)的(de)情(qing)況時,推薦使用(yong)301返(fan)回碼,盡量減(jian)少改(gai)(gai)版(ban)帶來的(de)流量損失。雖(sui)然百度(du)spider現在對301跳(tiao)轉的(de)響應周期較長,但傳誠信還(huan)是推薦大家(jia)這么(me)做。
404返回碼的含義是(shi)“NOT FOUND”,百度會認(ren)為(wei)網頁已經失效,那么通常會從搜索結果中刪除,并(bing)且短期內spider再次發(fa)現這條url也不會抓取(qu)。
503返(fan)(fan)回(hui)(hui)碼的含義(yi)是(shi)“Service Unavailable”,百(bai)(bai)度會(hui)(hui)認(ren)為該網(wang)(wang)頁(ye)臨時不可訪(fang)(fang)問,通常網(wang)(wang)站(zhan)臨時關閉(bi),帶(dai)寬有限等會(hui)(hui)產生這種(zhong)情況。對于網(wang)(wang)頁(ye)返(fan)(fan)回(hui)(hui)503,百(bai)(bai)度spider不會(hui)(hui)把(ba)這條url直接(jie)刪除,短(duan)期(qi)內會(hui)(hui)再訪(fang)(fang)問。屆時如果(guo)(guo)網(wang)(wang)頁(ye)已恢復(fu),則正常抓取;如果(guo)(guo)繼續返(fan)(fan)回(hui)(hui)503,短(duan)期(qi)內還會(hui)(hui)反復(fu)訪(fang)(fang)問幾(ji)次。但是(shi)如果(guo)(guo)網(wang)(wang)頁(ye)長期(qi)返(fan)(fan)回(hui)(hui)503,那(nei)么這個url仍會(hui)(hui)被百(bai)(bai)度認(ren)為是(shi)失效鏈(lian)接(jie),從搜(sou)索結(jie)果(guo)(guo)中刪除。
robots.txt是搜索引擎訪問(wen)一個網(wang)站時要訪問(wen)的(de)個文(wen)件(jian),用以來確定哪些(xie)是被(bei)允許抓(zhua)取(qu)的(de)哪些(xie)是被(bei)禁(jin)止(zhi)抓(zhua)取(qu)的(de)。robots.txt必須放在網(wang)站根目錄(lu)下(xia),且(qie)文(wen)件(jian)名要小寫。詳細的(de)robots.txt寫法可參考//www.robotstxt.org。