午夜91福利视频,午夜成人在线观看,午夜在线视频免费观看,午夜福利短视频,精品午夜成人免费视频APP

幫助

屏蔽國外垃圾無用蜘蛛,防止大量抓取導致網站崩潰浪費帶寬

2024-12-13 09:34 技術文檔

最近發現一些國(guo)外垃(la)圾(ji)蜘蛛(zhu)(zhu)頻繁(fan)抓(zhua)我網站頁(ye)面(mian),白(bai)浪(lang)費消耗服務器性能。所以(yi)要屏蔽他們這(zhe)些垃(la)圾(ji)蜘蛛(zhu)(zhu)抓(zhua)取,這(zhe)里介紹兩(liang)種方(fang)法一同操(cao)作進行屏蔽:


第一種方法:直接(jie)在根目錄下robots.txt文件里面屏蔽(bi)掉(diao)相(xiang)關垃圾蜘蛛:


User-agent: SemrushBot

Disallow: /

User-agent: DotBot

Disallow: /

User-agent: MJ12bot

Disallow: /

User-agent: AhrefsBot

Disallow: /

User-agent: MauiBot

Disallow: /

User-agent: MegaIndex.ru

Disallow: /

User-agent: BLEXBot

Disallow: /

User-agent: ZoominfoBot

Disallow: /

User-agent: ExtLinksBot

Disallow: /

User-agent: hubspot

Disallow: /

User-agent: leiki

Disallow: /

User-agent: webmeup

Disallow: /

User-agent: Googlebot

Disallow: /

User-agent: googlebot-image

Disallow: /

User-agent: googlebot-mobile

Disallow: /

User-agent: yahoo-mmcrawler

Disallow: /

User-agent: yahoo-blogs/v3.9

Disallow: /

User-agent: Slurp

Disallow: /

User-agent: twiceler

Disallow: /


User-agent: AhrefsBot

Disallow: /

User-agent: psbot

Disallow: /

User-agent: YandexBot

Disallow: /


第二種方法,寶塔(ta)面板網站設置(zhi)——配置(zhi)文(wen)(wen)件(jian),將需要(yao)屏蔽(bi)的蜘蛛寫進配置(zhi)文(wen)(wen)件(jian)代碼里:


#屏蔽垃圾蜘蛛

if ($http_user_agent ~* (SemrushBot|DotBot|MJ12bot|AhrefsBot|MauiBot|MegaIndex.ru|BLEXBot|ZoominfoBot|ExtLinksBot|hubspot|leiki|webmeup)) {

return 403;

}


第三種方法防火墻里加過濾(lv)規(gui)則    再來(lai)抓(zhua)就送你吃403!


常見的搜索引擎爬蟲


1、Googlebot(屏(ping)蔽!沒毛用)


Googlebot是(shi)谷(gu)歌的網絡爬(pa)蟲,其UA標識為“(compatible;Googlebot/2.1;+//www.google.com/bot.html)”。對大(da)部分網站,Googlebot應該是(shi)爬(pa)取最勤(qin)快的爬(pa)蟲,能給優(you)質博客(ke)帶來大(da)量流量。


除了爬取網頁的(de)Googlebot,常(chang)見的(de)還(huan)有圖片爬蟲(chong)Googlebot-Image、移動廣告(gao)爬蟲(chong)Mediapartners-Google等。


2、Baiduspider


Baiduspider是百度的網(wang)頁爬蟲,中文(wen)站很常見。其UA標識為(wei)“(compatible;Baiduspider/2.0;+//www.baidu.com/search/spider.html)”。


除了網頁爬蟲(chong),手機百度(du)爬蟲(chong)Baiduboxapp、渲染抓取(qu)Baiduspider-render等。


3、bingbot


bingbot是(shi)微軟bing搜(sou)索的(de)爬蟲,其UA標識為“(compatible;bingbot/2.0;+//www.bing.com/bingbot.htm)”。


自微軟(ruan)推(tui)廣bing搜(sou)索品牌后,微軟(ruan)原來的爬蟲MSNBot越來越少見到了。


4、360Spider


360Spider是360搜索的爬(pa)蟲(chong),其(qi)UA標識為“Mozilla/5.0(Windows NT 10.0;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/71.0.3578.98 Safari/5 37.36;360Spider”。


目前360搜(sou)索份額(e)較少(shao),這個爬蟲不是很常見。


5、Sogou web spider


Sogou web spider是搜狗(gou)搜索(suo)的網頁爬蟲(chong),其(qi)UA標識(shi)為“Sogou web spider/4.0(+//www.sogou.com/docs/help/webmasters.htm#07)”。背(bei)靠(kao)騰(teng)訊,搜狗(gou)目(mu)前市場份額在上升,因此其(qi)網絡爬蟲(chong)比較(jiao)勤快,經常能看(kan)到。


訪問日(ri)志(zhi)搜索Sogou,除了Sogou web spider,還常見SogouMSE、SogouMobileBrowser。這是搜狗手機(ji)瀏覽器(qi)的UA標識,不是爬(pa)蟲。


6、YisouSpider


YisouSpider是神馬搜(sou)索的爬蟲,UA標識是“Mozilla/5.0(Windows NT 6.1;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36”。


神馬(ma)成立初(chu)期(qi)太瘋(feng)狂(kuang)抓取網頁導致一(yi)些小網站崩潰(kui)而(er)惹的天怒人怨。隨著(zhu)市場份(fen)額提(ti)升和(he)數據(ju)完善,目前YisouSpider還算(suan)克制,不再(zai)瘋(feng)狂(kuang)抓取。


從名(ming)字(zi)上看,神馬(ma)搜(sou)索(suo)的(de)(de)發(fa)音類似于宜搜(sou),但和(he)專注(zhu)小說搜(sou)索(suo)的(de)(de)“宜搜(sou)(//easou.com/)”不是同一家公司。神馬(ma)搜(sou)索(suo)是UC合并到阿里后推出(chu)的(de)(de)移動搜(sou)索(suo)引擎,而宜搜(sou)在2G wap時(shi)代就已經名(ming)聲在外。


7、YandexBot(屏蔽(bi)!沒毛用)


YandexBot是(shi)俄羅(luo)斯(si)最大搜索引擎和(he)互聯(lian)網巨頭Yandex的網頁爬蟲,其UA標識是(shi)“(compatible;YandexBot/3.0;+//yandex.com/bots)”。


Yandex提供(gong)中(zhong)(zhong)(zhong)文界(jie)面和中(zhong)(zhong)(zhong)文搜索,也是少數目前能直(zhi)接打開的國(guo)外搜索引(yin)擎。隨(sui)著越(yue)來越(yue)多中(zhong)(zhong)(zhong)國(guo)人知道Yandex,YandexBot在中(zhong)(zhong)(zhong)文網(wang)站(zhan)日志里越(yue)來越(yue)常見。


8、DuckDuckGo


DuckDuckGo是(shi)DuckDuckGo的(de)網頁爬蟲,其(qi)UA標識是(shi)“Mozilla/5.0(Linux;Android 10)AppleWebK it/537.36(KHTML,like Gecko)Version/4.0 Chrome/81.0.4044.138 Mobile Safari/537.36 DuckDuckGo/5”。


DuckDuckGo主打隱私(si)、安全、不監控用戶記(ji)錄,界面簡潔,也提供中文搜索界面。


除了上(shang)述搜索引(yin)擎爬(pa)(pa)蟲(chong)(chong),WordPress等提(ti)供feed訂閱的(de)網(wang)站(zhan)(zhan)還(huan)常見newblur和feedly的(de)訪問(wen)記錄。這兩個不是爬(pa)(pa)蟲(chong)(chong),而(er)是訂閱軟件,也能給網(wang)站(zhan)(zhan)帶(dai)來流量。


常見的網絡(luo)惡(e)意垃圾爬(pa)蟲(chong)蜘(zhi)蛛


上(shang)面說(shuo)的搜索引擎爬(pa)蟲能給(gei)網站帶來流量,也有許(xu)多爬(pa)蟲除(chu)了增加服(fu)務(wu)器負擔(dan),對網站沒任何好處,應該屏(ping)蔽掉。


1、MJ12Bot


MJ12Bot是英國著名SEO公司Majestic的網絡(luo)爬(pa)蟲,其抓(zhua)取網頁給(gei)需要做SEO的人用,不會(hui)給(gei)網站(zhan)帶來(lai)流量。


2、AhrefsBot


AhrefsBot是(shi)知名SEO公司(si)Ahrefs的網頁爬蟲。其同樣抓取網頁給SEO專業(ye)人士用,不(bu)會(hui)給網站帶來流量。


3、SEMrushBot


SEMrushBot也(ye)是SEO、營銷(xiao)公司的網絡爬蟲(chong)。


4、DotBot


DotBot是Moz.com的網頁爬蟲,抓(zhua)取數據用來支持Moz tools等工具。


5、MauiBot


MauiBot不同于其他爬蟲(chong),這個(ge)爬蟲(chong)連(lian)網(wang)站都沒有,UA只(zhi)顯示一個(ge)郵(you)箱:”MauiBot(crawler.feedback+wc gm ail.com)“。神奇(qi)的(de)是(shi)這個(ge)看(kan)起(qi)來(lai)是(shi)個(ge)人爬蟲(chong),竟然遵循robots協議,算得上垃圾爬蟲(chong)的(de)一股(gu)清流。


6、MegaIndex.ru


這是(shi)一個提供(gong)反(fan)向鏈接查詢的網站的蜘蛛,因此它爬網站主要是(shi)分析鏈接,并沒有什么作用。遵循robots協議(yi)。


7、BLEXBot


這(zhe)個是(shi)webmeup下面的蜘(zhi)蛛,作用是(shi)收集(ji)網站(zhan)上面的鏈接,對我們來說并沒(mei)有用處。遵循robots協議。


SemrushBot,這是semrush下面(mian)的(de)一(yi)個蜘(zhi)蛛,是一(yi)家做搜索引擎優化的(de)公司,因(yin)此它(ta)抓取網頁的(de)目的(de)就(jiu)很明(ming)顯了。這種(zhong)蜘(zhi)蛛對(dui)網站沒有任何用處,好在它(ta)還遵循robots協議,因(yin)此可(ke)以直接在robots屏蔽。


DotBot,這是(shi)moz旗下的(de),作用是(shi)提供seo服務的(de)蜘(zhi)蛛,但是(shi)對我們并沒有什么用處。好(hao)在遵循robots協(xie)議(yi),可(ke)以(yi)使用robots屏蔽


AhrefsBot,這(zhe)是ahrefs旗下的蜘蛛,作用是提供seo服務,對(dui)我們沒有(you)任何用處,遵(zun)循robots協(xie)議。


MJ12bot,這(zhe)是英(ying)國的一(yi)個搜索引擎蜘蛛,但是對中(zhong)文站(zhan)站(zhan)點就沒有用處了,遵循robots協議。


MauiBot,這個不太清楚(chu)是(shi)什么,但是(shi)有(you)時候很瘋狂,好在遵循robots協議。


MegaIndex.ru,這是(shi)一個提供反向鏈接查詢的(de)網站(zhan)的(de)蜘蛛,因此(ci)它爬網站(zhan)主要(yao)是(shi)分析(xi)鏈接,并沒有什么作用。遵(zun)循robots協議。


BLEXBot,這個是webmeup下面的蜘蛛,作用(yong)是收集(ji)網站上面的鏈接,對我們來說并沒有用(yong)處。遵(zun)循robots協議


等等……………


主要是將從網(wang)站日志中發現的(de)一些異(yi)常抓取的(de)蜘(zhi)(zhi)蛛屏蔽掉(diao),我上面列舉的(de)是一些常見的(de)對我們網(wang)站沒啥(sha)用(yong)處的(de)蜘(zhi)(zhi)蛛,將這些蜘(zhi)(zhi)蛛屏蔽掉(diao)就好了。


第二種方法屏蔽的效果:


谷歌(ge)一個(ge)ip來不(bu)了,沒毛用!一天來抓幾千次,浪費寬帶(dai)。



相關推薦

工作日 8:30-12:00 14:30-18:00
周六及(ji)部分節假(jia)日提供值班服務

易小優
轉人工 ×