關(guān)于Robots.txt在網(wǎng)站SEO優(yōu)化中所發(fā)揮的作用和重要性,我們不再一一闡述了,十堰SEO今天主要來和大家聊一聊它的高級(jí)用法,也可以叫做進(jìn)階使用方法吧。
在介紹進(jìn)階使用方法之前,我們先來回顧一下robots.txt的使用要點(diǎn):
1)文件名必須為小寫。不能是RoBotS.TXT。
2)每個(gè)域名(不管是不是子域名)都只能最多有一個(gè)robots.txt文件,放置于網(wǎng)站根目錄。yourname.com的robots.txt對(duì)abc.yourname.com沒有約束。
3)每種協(xié)議都可以有一個(gè)robots.txt。如和https://yourname.com可以分別有一個(gè)robots.txt。
4)每個(gè)端口可以有一個(gè)robots.txt。如和:8080可以分別有一個(gè)robots.txt。
5)user-agent的名稱以及user-agent,allow,disallow,crawl-delay,sitemap這些指示符的大小寫不敏感。
6)robots.txt所包含的URL為大小寫敏感。分清大小寫才能有效排除索引。
7)allow和disallow的URL必須是不包括協(xié)議、域名、端口的路徑。disallow:就錯(cuò)了。改為disallow: /abc.htm
8)sitemap必須包括從http或https開始的完整的URL。
9)robots.txt不是死鏈提交工具,想要?jiǎng)h除死鏈索引還是應(yīng)該登陸各搜索引擎站長平臺(tái)提交。
10)robots.txt只做減法,有沒有這個(gè)文件的區(qū)別即是去不去做這個(gè)排除。刪除robots.txt意味著完全開放爬蟲漫游。
11)robots.txt只防君子不防小人。歷史上發(fā)生過多次違反robots.txt的事件。網(wǎng)站要把機(jī)密信息放到登陸后。
12)要想嚴(yán)格不讓搜索引擎索引還是推薦用noindex標(biāo)簽。但是百度并不支持。
13)crawl-delay并不被谷歌和百度支持,Yandex和Bing則支持。Yandex還支持host指示符來表示偏好的域名。
14)符號(hào)#用于注釋。后面的內(nèi)容會(huì)被忽略。
robots.txt指令中看不見的通配符*這里要說的是通配符*。它代表任意長度的任意字符。請(qǐng)注意每一行allow,disallow之后都有一個(gè)看不見的*。
也就是說如果你寫了disallow: /seo/,那么下面的內(nèi)容就會(huì)影響到所有以/seo/開頭的URL,比如:
但是也有例外的情況,那就是allow和disallow之后沒有任何賦值的情況。比如下面這種寫法:
User-agent: *Disallow: /cyberworld/map/ # This is an infinite virtual URL space# Cybermapper 可以訪問任意頁面
User-agent: cybermapperDisallow:合并多個(gè)User-Agent如果你有多個(gè)討厭的機(jī)器人在抓取你的網(wǎng)頁消耗你的資源,那你可能會(huì)通過disallow屏蔽他們(當(dāng)然要他們是君子的前提下)。你可以通過user-agent一次性把他們屏蔽。
User-agent: bad-bot-aUser-agent: bad-bot-bDisallow: /這種寫法在當(dāng)你有多個(gè)user-agent,每個(gè)雖然都比較復(fù)雜但是都一樣的情況下顯得很有用。
User-agent: bad-bot-aUser-agent: bad-bot-bDisallow: /XXX這樣你就可以讓robots.txt變得簡潔。
為不同的搜索引擎訂制不同的Sitemap如果我們想讓某些搜索引擎只訪問特定的sitemap,這種情況下該如何處理呢?除了在站長平臺(tái)提交網(wǎng)站地圖,我們還可以在robots.txt內(nèi)實(shí)現(xiàn)。別忘了sitemap文件也是一個(gè)資源,我們一樣可以用disallow去屏蔽掉。假定我們給百度的網(wǎng)站地圖是sitemap-bd.xml文件,其他搜索引擎的地圖文件是sitemap.xml,我們可以通過下面的方式來實(shí)現(xiàn):
User-agent: *Disallow: /sitemap-bd.xmlUser-agent: baiduspiderDisallow: /sitemap.xmlSitemap: Sitemap:這樣一來站點(diǎn)就有專門針對(duì)百度可見的地圖文件了,而其他搜索引擎抓取的是另外一個(gè)網(wǎng)站地圖文件。
Sitemap太大了該怎么辦?我們知道,一般來說搜索引擎對(duì)站點(diǎn)地圖的大小和所包含的URL的數(shù)量都有所限制。比如百度對(duì)單個(gè)sitemap文件的限制是五萬條URL和10MB的文件大小。在這種情況下,你可以在robots.txt中給出多個(gè)sitemap文件的URL。除了這種分拆方式,你還可以使用sitemap索引文件,比如下面這個(gè)例子。
其他主流的搜索引擎也認(rèn)這個(gè)索引格式。
那么問題來了,即便是這樣,文件多且大,傳輸會(huì)變得非常沒有效率。為了解決這個(gè)問題我們可以對(duì)站點(diǎn)地圖進(jìn)行GZIP壓縮。像7-zip這樣的壓縮工具都可以對(duì)文件壓縮。需要注意的是在壓縮前你的單個(gè)站點(diǎn)地圖文件仍然必須小于10MB并且包含URL數(shù)量小于五萬條。
十堰SEO總結(jié)以上就是我們介紹的robots.txt的高級(jí)應(yīng)用,如果你再通過結(jié)合其他SEO方法,對(duì)網(wǎng)站排名相信能起到事半功倍的效果!