分享數:2index、noindex、follow、nofollow的使用;爬蟲是目前最常見的網絡程序,曾經有過統計,說是目前的網絡流量有一半以上是爬蟲使用的。雖然爬蟲程序隨處可見,但是并不代表這種做法就是合理合法的。在抓取網頁時,我們要讓自己的爬蟲遵守Robot.txt協議。一般網站有兩種方式聲明不想被爬蟲爬取按:第一種是在站點的根目錄下增加一個純文本文件,例如http://www.aaa.com/robots.txt。第二種是直接在頁面中使用robots的meta標簽。接下來,詳細介紹一下robots的meta標簽。標簽有四類:index、noindex、follow、nofollow。使用時以逗號分隔。index指令:表示Robot可以索引本頁;follow指令:表示Robot可以跟蹤本頁鏈接;noindex指令:表示拒絕Robot索引本頁,但可跟蹤該頁上的鏈接;nofollow指令:表示拒絕Robot跟蹤本頁鏈接,但可索引本頁
根據以上的命令,我們就有了一下的四種組合:<META CONTENT="INDEX,FOLLOW">:可以抓取本頁,而且可以順著本頁繼續索引別的鏈接<META CONTENT="NOINDEX,FOLLOW">:不許抓取本頁,但是可以順著本頁抓取索引別的鏈接<META CONTENT="INDEX,NOFOLLOW">:可以抓取本頁,但是不許順著本頁抓取索引別的鏈接<META CONTENT="NOINDEX,NOFOLLOW">:不許抓取本頁,也不許順著本頁抓取索引別的鏈接。這里需要注意的是,不要把兩個對立的反義詞寫到一起,例如<META CONTENT="INDEX,NOINDEX">還有一點,禁止搜索引擎建立快照。<meta content="noarchive">以上的一段代碼限制了所有的搜索引擎建立你的網頁快照。如果我們需要僅僅限制一個搜索引擎建立快照的話,就可以像如下這樣去寫<meta content="noarchive">這樣的標記是禁止搜索引擎為你的網站建立快照。Meta標簽的使用;meta標簽的組成 meta標簽共有兩個屬性,它們分別是http-equiv屬性和name屬性,不同的屬性又有不同的參數值,這些不同的參數值就實現了不同的網頁功能。 1、name屬性 name屬性主要用于描述網頁,與之對應的屬性值為content,content中的內容主要是便于搜索引擎機器人查找信息和分類信息用的。 meat標簽的name屬性語法格式是:<meta content="具體的參數值"> 。 其中name屬性主要有以下幾種參數: A、Keywords(關鍵字) 說明:keywords用來告訴搜索引擎你網頁的關鍵字是什么。 舉例:<meta name ="keywords" content="science, education,culture,politics,ecnomics,relationships, entertaiment, human"> B、description(網站內容描述) 說明:description用來告訴搜索引擎你的網站主要內容。 舉例:<meta content="This page is about the meaning of science, education,culture."> C、robots(機器人向導) 說明:robots用來告訴搜索機器人哪些頁面需要索引,哪些頁面不需要索引。 content的參數有all,none,index,noindex,follow,nofollow。默認是all。 舉例:<meta content="none"> D、author(作者) 說明:標注網頁的作者 舉例:<meta content="zys666,zys666@21cn.com"> 2、http-equiv屬性 http-equiv顧名思義,相當于http的文件頭作用,它可以向瀏覽器傳回一些有用的信息,以幫助正確和精確地顯示網頁內容,與之對應的屬性值為content,content中的內容其實就是各個參數的變量值。 meat標簽的http-equiv屬性語法格式是:<meta http-equiv="參數" content="參數變量值"> ;其中http-equiv屬性主要有以下幾種參數: A、Expires(期限) 說明:可以用于設定網頁的到期時間。一旦網頁過期,必須到服務器上重新傳輸。 用法:<meta http-equiv="expires" content="Fri, 12 Jan 2001 18:18:18 GMT"> 注意:必須使用GMT的時間格式。 B、Pragma(cache模式) 說明:禁止瀏覽器從本地計算機的緩存中訪問頁面內容。 用法:<meta http-equiv="Pragma" content="no-cache"> 注意:這樣設定,訪問者將無法脫機瀏覽。 C、Refresh(刷新) 說明:自動刷新并指向新頁面。 用法:<meta http-equiv="Refresh" content="2;URL=http://www.chinayancheng.net"> 注意:其中的2是指停留2秒鐘后自動刷新到URL網址。 D、Set-Cookie(cookie設定) 說明:如果網頁過期,那么存盤的cookie將被刪除。 用法:<meta http-equiv="Set-Cookie" content="cookievalue=xxx; expires=Friday, 12-Jan-2001 18:18:18 GMT; path=https://www.fractal-technology.com/"> 注意:必須使用GMT的時間格式。 E、Window-target(顯示窗口的設定) 說明:強制頁面在當前窗口以獨立頁面顯示。 用法:<meta http-equiv="Window-target" content="_top"> 注意:用來防止別人在框架里調用自己的頁面。 F、content-Type(顯示字符集的設定) 說明:設定頁面使用的字符集。 用法:<meta http-equiv="content-Type" content="text/html; charset=gb2312"> meta標簽的功能 上面我們介紹了meta標簽的一些基本組成,接著我們再來一起看看meta標簽的常見功能: 1、幫助主頁被各大搜索引擎登錄 meta標簽的一個很重要的功能就是設置關鍵字,來幫助你的主頁被各大搜索引擎登錄,提高網站的訪問量。在這個功能中,最重要的就是對Keywords和description的設置。因為按照搜索引擎的工作原理,搜索引擎首先派出機器人自動檢索頁面中的keywords和decription,并將其加入到自己的數據庫,然后再根據關鍵詞的密度將網站排序。因此,我們必須設置好關鍵字,來提高頁面的搜索點擊率。下面我們來舉一個例子供大家參考:<metalemma-word" data-id="1006">keywords" content="政治,經濟, 科技,文化, 衛生, 情感,心靈,娛樂,生活,社會,企業,交通"><meta content="政治,經濟, 科技,文化, 衛生, 情感,心靈,娛樂,生活,社會,企業,交通"> 設置好這些關鍵字后,搜索引擎將會自動把這些關鍵字添加到數據庫中,并根據這些關鍵字的密度來進行合適的排序。
2、定義頁面的使用語言 這是meta標簽最常見的功能,在制作網頁時,我們在純HTML代碼下都會看到它,它起的作用是定義你網頁的語言,當瀏覽者訪問你的網頁時,瀏覽器會自動識別并設置網頁中的語言,如果你網頁設置的是GB碼,而瀏覽者沒有安裝GB碼,這時網頁只會呈現瀏覽者所設置的瀏覽器默認語言。同樣的,如果該網頁是英語,那么charset=en。下面就是一個具有代表性的例子: <meta http-equiv=″content-Type″ content=″text/html; charset=gb2312″〉該代碼就表示將網頁的語言設置成國標碼。 3、自動刷新并指向新的頁面 如果你想使您的網頁在無人控制的情況下,能自動在指定的時間內去訪問指定的網頁,就可以使用meta標簽的自動刷新網頁的功能。下面我們來看一段代碼: 〈meta http-equiv=″refresh″ content=″2; URL=http://www.yeah.net″〉 這段代碼可以使當前某一個網頁在2秒后自動轉到http://www.yeah.net頁面中去,這就是meta的刷新作用,在content中,2代表設置的時間(單位為秒),而URL就是在指定的時間后自動連接的網頁地址。 4、實現網頁轉換時的動畫效果 使用meta標簽,我們還可以在進入網頁或者離開網頁的一剎那實現動畫效果,我們只要在頁面的html代碼中的<head></head>標簽之間添加如下代碼就可以了:<meta http-equiv="Page-Enter" content="revealTrans(duration=5.0, transition=20)"><meta http-equiv="Page-Exit" content="revealTrans(duration=5.0, transition=20)">一旦上述代碼被加到一個網頁中后,我們再進出頁面時就會看到一些特殊效果,這個功能其實與FrontPage2000中的Format/Page Transition一樣,但我們要注意的是所加網頁不能是一個Frame頁; 5、網頁定級評價 IE4.0以上版本的瀏覽器可以防止瀏覽一些受限制的網站,而之所以瀏覽器會自動識別某些網站是否受限制,就是因為在網站meta標簽中已經設置好了該網站的級別,而該級別的評定是由美國RSAC,即娛樂委員會的評級機構評定的,如果你需要評價自己的網站,可以連接到網站http://www.rsac.org/,按要求提交表格,那么RSAC會提供一段meta代碼給你,復制到自己網頁里就可以了。下面就是一段代碼的樣例: 〈meta http-equiv=″PICS-Label″ content=′(PICS-1.1 ″http://www.rsac.org/ratingsv01.html″ l gen true comment ″RSACi North America Server″ for ″http://www.rsac.org″ on ″2001.08.16T08:15-0500″ r (n 0 s 0 v 0 l 0))′〉 6、控制頁面緩沖 meta標簽可以設置網頁到期的時間,也就是說,當你在Internet Explorer 瀏覽器中設置瀏覽網頁時首先查看本地緩沖里的頁面,那么當瀏覽某一網頁,而本地緩沖又有時,那么瀏覽器會自動瀏覽緩沖區里的頁面,直到meta中設置的時間到期,這時候,瀏覽器才會去取得新頁面。例如下面這段代碼就表示網頁的到期時間是2001年1月12日18時18分18秒。 〈meta http-equiv=″expires″ content=″Friday, 12-Jan-2001 18:18:18 GMT″〉 7、控制網頁顯示的窗口 我們還可以使用meta標簽來控制網頁顯示的窗口,只要在網頁中加入下面的代碼就可以了:<metahttp-equiv="window-target" content="_top">,這段代碼可以防止網頁被別人作為一個Frame調用robots.txt作用及其使用robots.txt就是一份網站和搜索引擎雙方簽訂的規則協議書,是搜索引擎中訪問網站的時候要查看的第一個文件。首先爬行來檢查該站點根目錄下是否存在robots.txt。如果存在,蜘蛛就按照協議上規定爬行抓取;沒有robots.txt,蜘蛛會隨著鏈接爬行進行抓取。理解User-agent和Disallow的定義:User-agent:該項用于描述搜索引擎蜘蛛的名字;Disallow:該項用于描述不希望被抓取和索引的一個URL,這個URL可以是一條完整的路徑下面是一些robots.txt基本的用法: 1、禁止所有搜索引擎訪問網站的任何部分: User-agent: * Disallow: /2、允許所有的robot訪問 User-agent: * Disallow: 或者也可以建一個空文件robots.txt3、禁止所有搜索引擎訪問網站的幾個部分(下例中的cgi-bin、tmp、private目錄) User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /private/4、禁止某個搜索引擎的訪問(下例中的BadBot) User-agent: BadBot Disallow: /5、只允許某個搜索引擎的訪問(下例中的WebCrawler) User-agent: WebCrawler Disallow: User-agent: * Disallow: /TAG標簽耗時:0.0082080364227295 秒
如沒特殊注明,文章均為江浙滬網絡推廣,轉載請注明來自http://www.0898bike.com/html/news/