通常,站長抱怨蜘蛛在下獲取返回代碼,而抓取的次數越來越少。搜索引擎將盡努力提高檢索調用率、準確性和新鮮度,以滿足自身用戶體驗,這將導致引擎不得不專注于高質量內容源的網站,只有這樣,搜索結果的質量才能更符合搜索者的經驗。
由此我們認為:搜索引擎爬蟲更喜歡頻繁更新內容源的網站。通過對特定時間內返回到網站的狀態代碼進行爬行,可以調整網站的爬行頻率。如果站點在一段時間內處于304狀態狀態,引擎爬蟲可能會減少它們對站點的爬蟲次數。相反,如果網站的變化非常迅速,每次爬蟲都能獲得新版本,爬蟲的回報率將隨著時間的推移而增加。
無論是少抓還是304,這都是一種現象,而不是問題的起因。假設網站返回200,我們能達到增加排名和帶來流量的目的嗎?相反,我們應該考慮一下生產304的原因。改變304對網站的目標有什么影響?我們不能忽視總的目的。該標簽強調了該過程的細節,解決了304/200。
一、304的狀態是如何形成的?
為了提高網站訪問速度,服務器為以前訪問過的部分頁面建立了緩存機制。當客戶機在這里請求這些頁面時,服務器將根據緩存的內容判斷頁面是否相同。如果頁面相同,它將直接返回到304。此時,客戶端調用緩存的內容,而不必進行第二次調用。下載,可以說304在一定程度上起到了降低服務器帶寬、提高蜘蛛爬行效率的作用。
二、304狀態碼產生原因?
1、頁面更新周期長或無更新
2、純靜態頁面或強制靜態HTML生成
三、304狀態處理方法
1、首先對生成的304頁進行細分。什么樣的頁面返回304?這些頁面應該返回304嗎?
2、這些頁面的生成方式是什么?有更新機制嗎?更新機制是否與蜘蛛抓取網站的頻率一致?
3、頁面更新區域的位置是否合理?它是否位于頁面主要內容的承載區域?
四、304狀態代碼太多可能導致以下問題:
1、停止網站快照
2、收錄量減少
3、權重下降
五、如何減少304返回碼呢?
首先,內容更新要迎合百度蜘蛛,分析日志,記錄蜘蛛訪問的時間,大致可以得到蜘蛛訪問的頻率,然后據此,更新文章:一定要原創+復制,不能純粹收集。復制還需要新和的質量資源,讓蜘蛛過來抓取,這將返回超過200個正常代碼。
其次,盡量添加一個交互部分,現在大型網站已經基本上做到了這一點,比如評論、消息等等。大型網站的更新可能變化很小,但是有了這些交互,用戶會發送一些內容,網站會有很多新的東西。