設計爬蟲時,通常都回避動態網頁(如Charkabarti,Joshi,Punera,&Pennock,2002)。識別動態網頁時,只需要看URL中是否出現問號,含問號的就是動態網頁。忽略動態網頁是因為它們容易造成蜘蛛陷阱。蜘蛛陷阱理論上是一個無限的網頁集合,而蜘蛛永遠不能完整地遍歷這個集合。在線日歷就是一個容易被忽略的蜘蛛陷阱,它生成的動態網頁中可以標上任何日期,并包含指向后一天網頁的鏈接。一個爬蟲從這個日歷中找到一個網頁后,便會無止境地請求后一天的網頁。
動態的頁面(url)屬于蜘蛛陷阱,搜索引擎蜘蛛一旦爬行進入,很有可能會出不來、或是難以流暢的抓取,所以建議網頁一定是 靜態或是經過偽靜態 處理的
如沒特殊注明,文章均為江浙滬網絡推廣,轉載請注明來自http://www.0898bike.com/html/news/