在搜索引擎優化過程中,你是否遇到過這樣的問題:服務器訪問的CPU利用率接近,頁面加載速度特別慢,似乎受到了DDoS的攻擊。
經過回顧,我發現原來的目標網站經常被大量無關的“爬蟲”抓走,這對一個小網站來說可能是一場災難。
因此,在進行網站優化時,我們需要有選擇地引導特定的蜘蛛。
根據以往SEO經驗分享,優幫云SEO小編將通過以下幾點來闡述:
一、搜索引擎爬蟲
對于國內的小伙伴來說,我們都知道在SEO的過程中,我們面對的常見的爬蟲就是搜索引擎的爬蟲,比如百度蜘蛛,還有各種搜索引擎的蜘蛛,比如:
①360Spider、SogouSpider、Bytespider
②Googlebot、Bingbot、Slurp、Teoma、iauarchiver、twiceler、MSNBot
③其他爬行動物
如果不故意配置robots.txt文件,理論上,可以對目標頁進行爬網和爬網。然而,對于一些中小型網站來說,它偶爾會浪費自己的服務器資源。
此時,我們需要做出有選擇性、合理的指導,特別是一些尷尬的問題,比如:你希望谷歌減少對網站的爬網,但不能完全屏蔽它,你可能需要一些提示,比如:對于具體的爬網訪問,反饋不同的文章列表:
①控制更新頻率表
②反饋重復性強,內容農場頁面
③善意的“蜘蛛陷阱”,如flash
④如何調整對方的SEO管理平臺,獲取評論并進行適當調整
雖然這樣的策略很可能會對頁面聲譽造成損害,但我可以想出一個相對“有效”的方法,合理控制那些不想頻繁爬行但需要不斷爬行的蜘蛛的爬行。
二、鏈接分析爬蟲
從目前來看,一個SEO外部鏈分析管理工具需要每天花費大量的服務器資源來抓取和檢測每個網站的頁面鏈接。
對于一些資源密集型的網站來說,每天爬行數千次是可能的,這種爬行動物很常見。
如果你不想讓自己的網站參與其中,簡單的策略是在robots協議中完全關閉此類爬蟲程序。
三、內容收集爬網程序
但當我們面對一些惡意的內容收集爬蟲時,就相對尷尬了。另一方經常采用“看不見”的狀態,比如:模擬一個出名搜索引擎蜘蛛的名字。
要解決這個問題,只能手工判斷對方廬山的真偽,比如:使用IPpan解析命令判斷真偽。
①Linux平臺:主機IP
②Windows平臺:nslookupip
從而確定對方的解析地址是否為相應的搜索引擎域名。
四、蜘蛛池爬行動物
目前,市面上有很多人做百度蜘蛛池,其主要目的是協助更多的頁面做百度快速收錄,但由于一些隨意下載蜘蛛池的程序設計不規范。
由于沒有對不同的蜘蛛進行合理的抓取和限制,服務器資源經常被服務提供商占用,很容易被關閉。
如果你試圖使用這個策略來提高你的頁面包含率,那么你可能需要更多的關注。