發(fā)表日期:2021-01-16 11:40:20作者來(lái)源:瀏覽次數(shù):
網(wǎng)站的robots.txt文件設(shè)置是不是合理,哪些文件或許目錄需求屏蔽、哪些設(shè)置辦法對(duì)網(wǎng)站運(yùn)營(yíng)有優(yōu)點(diǎn)?有人復(fù)制出相同的內(nèi)容以應(yīng)付不同搜索引擎的排名規(guī)則。然而,一旦搜索引擎發(fā)現(xiàn)站內(nèi)有大量“克隆”的頁(yè)面,就會(huì)給以懲罰,不收錄這些重復(fù)的頁(yè)面。
另一方面,我們網(wǎng)站的內(nèi)容屬于個(gè)人私密文件,不想暴露在搜索引擎中。這時(shí),robot.txt就是為了解決這兩個(gè)問(wèn)題。
一、什么是robots.txt?
robots.txt 是網(wǎng)站和搜索引擎的協(xié)議的純文本文件。當(dāng)一個(gè)搜索引擎蜘蛛來(lái)訪問(wèn)站點(diǎn)時(shí),它首先爬行來(lái)檢查該站點(diǎn)根目錄下是否存在robots.txt,
如果存在,根據(jù)文件內(nèi)容來(lái)確定訪問(wèn)范圍,如果沒(méi)有,蜘蛛就沿著鏈接抓取。robots.txt 放在項(xiàng)目的根目錄下。
二、 robots.txt基本語(yǔ)法:
1) 、允許所有搜索引擎訪問(wèn)網(wǎng)站的所有部分
robots.txt寫(xiě)法如下:
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
注意: 1. ****個(gè)英文要大寫(xiě),冒號(hào)是英文狀態(tài)下,冒號(hào)后面有一個(gè)空格,這幾點(diǎn)一定不能寫(xiě)錯(cuò)。
2) 、禁止所有搜索引擎訪問(wèn)網(wǎng)站的所有部分
robots.txt寫(xiě)法如下:
User-agent: *
Disallow: /
3) 、只需要禁止蜘蛛訪問(wèn)某個(gè)目錄,比如禁止admin、css、images等目錄被索引
robots.txt寫(xiě)法如下:
User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/
注意:路徑后面有斜杠和沒(méi)有斜杠的區(qū)別:比如Disallow: /images/ 有斜杠是禁止抓取images整個(gè)文件夾,Disallow: /images 沒(méi)有斜杠意思是凡是路徑里面有/images關(guān)鍵詞的都會(huì)被屏蔽
4)、屏蔽一個(gè)文件夾/templets,但是又能抓取其中一個(gè)文件的寫(xiě)法:/templets/main
robots.txt寫(xiě)法如下:
User-agent: *
Disallow: /templets
Allow: /main
5)、 禁止訪問(wèn)/html/目錄下的所有以”.php”為后綴的URL(包含子目錄)
robots.txt寫(xiě)法如下:
User-agent: *
Disallow: /html/*.php
6)、 僅允許訪問(wèn)某目錄下某個(gè)后綴的文件,則使用“$”
robots.txt寫(xiě)法如下:
User-agent: *
Allow: .html$
Disallow: /
7)、禁止索引網(wǎng)站中所有的動(dòng)態(tài)頁(yè)面
比如這里限制的是有“?”的域名,例如index.php?id=1
robots.txt寫(xiě)法如下:
User-agent: *
Disallow: /*?*
8)、 禁止搜索引擎抓取我們網(wǎng)站上的所有圖片(如果你的網(wǎng)站使用其他后綴的圖片名稱(chēng),在這里也可以直接添加)
有些時(shí)候,我們?yōu)榱斯?jié)省服務(wù)器資源,需要禁止各類(lèi)搜索引擎來(lái)索引我們網(wǎng)站上的圖片,這里的辦法除了使用“Disallow: /images/”這樣的直接屏蔽文件夾的方式之外,還 可以采取直接屏蔽圖片后綴名的方式。
robots.txt寫(xiě)法如下:
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
三、寫(xiě)robots.txt要注意的地方:
1)、 英文要大寫(xiě),冒號(hào)是英文狀態(tài)下,冒號(hào)后面有一個(gè)空格,這幾點(diǎn)一定不能寫(xiě)錯(cuò)。
2.)、斜杠:/ 代表整個(gè)網(wǎng)站
3)、如果“/”后面多了一個(gè)空格,則屏蔽整個(gè)網(wǎng)站
4)、不要禁止正常的內(nèi)容
5)、生效時(shí)間是幾天到兩個(gè)月
四、robots.txt文件對(duì)網(wǎng)站優(yōu)化有什么作用?
1、疾速增加網(wǎng)站權(quán)重和拜訪量;
2、制止某些文件被查找引擎索引,能夠節(jié)約服務(wù)器帶寬和網(wǎng)站拜訪速度;
3、為查找引擎供給一個(gè)簡(jiǎn)潔明了的索引環(huán)境
五、哪些網(wǎng)站的目錄需求運(yùn)用robots.txt文件制止抓取?
1)、圖像目錄
圖像是構(gòu)成網(wǎng)站的首要組成元素。跟著現(xiàn)在建站越來(lái)越便利,許多cms的呈現(xiàn),真實(shí)做到了會(huì)打字就會(huì)建網(wǎng)站,而正是由于如此便利,網(wǎng)上呈現(xiàn)了許多的同質(zhì)化模板網(wǎng)站,被重復(fù)運(yùn)用,這樣的網(wǎng)站查找引擎是必定不喜愛(ài)的,就算是你的網(wǎng)站被錄入了,那你的作用也是很差的。若是你非要用這種網(wǎng)站的話,主張你大概在robots.txt文件中進(jìn)行屏蔽,一般的網(wǎng)站圖像目錄是:imags 或許 img;
2)、網(wǎng)站模板目錄
cms的強(qiáng)大和靈敏,也致使了許多同質(zhì)化的網(wǎng)站模板的呈現(xiàn)和亂用,高度的重復(fù)性模板在查找引擎中形成了一種冗余,且模板文件常常與生成文件高度類(lèi)似,相同易形成相同內(nèi)容的呈現(xiàn)。對(duì)查找引擎很不友愛(ài),嚴(yán)峻的直接被查找引擎打入冷宮,不得翻身,許多cms有具有獨(dú)立的模板寄存目錄,因而,大概進(jìn)行模板目錄的屏蔽。一般模板目錄的文件目錄是:templets
3)、css、js目錄的屏蔽